Journal of Korea Robotics Society
[ ARTICLE ]
The Journal of Korea Robotics Society - Vol. 21, No. 1, pp.87-99
ISSN: 1975-6291 (Print) 2287-3961 (Online)
Print publication date 28 Feb 2026
Received 23 Oct 2025 Revised 11 Dec 2025 Accepted 03 Jan 2026
DOI: https://doi.org/10.7746/jkros.2026.21.1.087

장기 수건 접기 작업을 위한 모방학습에서 조정 가능한 종료 조건 분류 모델

김경민1 ; 손동우2 ; 박수한
Tunable Terminal Condition Classification Model for Imitation Learning of Long-horizon Towel Folding Tasks
Kyongmin Kim1 ; Dongwoo Son2 ; Suhan Park
1Undergraduate Student, School of Robotics, Kwangwoon University, Seoul, Korea rlarudals0228@naver.com
2Graduate Student, Department of Robotics, Kwangwoon University, Seoul, Korea sondongwoo2024@kw.ac.kr

Correspondence to: Assistant Professor, Department of Robotics, Kwangwoon University, Seoul, Korea ( park94@kw.ac.kr)

CopyrightⓒKROS

Abstract

This study introduces a Tunable Terminal Condition Classification (TTCC) model for autonomous policy switching in long-horizon towel manipulation tasks. The TTCC model assesses the state of a deformable object using quantitative visual metrics derived from an external RGB-D vision module, enabling adaptive decisions on whether to continue flattening or proceed to folding. Most imitation learning frameworks do not have explicit condition on task transitions, which fail to capture real 3D shape variations and environmental changes. To overcome this limitation, we integrate the TTCC model into a two-stage imitation learning framework trained with the Action Chunking with Transformers. The flattening and folding policies are learned independently and executed sequentially. In this structure, the termination condition of each policy is determined by the TTCC model, which evaluates the geometric state of the towel in real time. Moreover, the threshold of the TTCC can be flexibly adjusted by the user, allowing the system to adapt to different task requirements and operating environments. Experimental validation confirms the effectiveness of TTCC as a generalizable approach for deformable object manipulation tasks.

Keywords:

Imitation Learning, Deformable Object Manipulation, Long-horizon Task

1. 서 론

의류나 수건과 같은 비정형 물체(deformable object)의 조작은 형태 변화가 불규칙하고 접촉 조건이 복잡하여 자동화가 어려운 작업 중 하나이다. 이러한 비정형 물체 조작의 자동화를 위해 다양한 연구가 수행되어왔으며, 그중 인간의 시연 궤적을 학습하여 로봇이 이를 모방하도록 하는 모방학습(Imitation Learning) 기법[1-5]이 효과적인 대안으로 주목받고 있다.

그러나, 구겨진 수건을 펴고 다시 접는 등의 long-horizon task는 단일 정책만으로 해결하기 어려운 복합적 구조를 지닌다. 평탄화와 접기 과정은 전 단계의 품질이 후속 단계의 성공률에 직접적인 영향을 미치기 때문에 최근 연구들은 전체 과정을 여러 하위 정책으로 분할하고, 각 정책을 순차적으로 실행하는 다단계 모방학습 구조를 적용해왔다[6]. 하지만 이러한 연구들은 각 정책의 종료 조건(terminal condition) 이 명확히 정의되지 않거나, 고정된 시간 또는 단순한 시각 지표를 기준으로 전환하는 방식[7,8]에 의존하는 한계를 지닌다. 이러한 방식은 실제 물체의 3차원 형상 변화나 물리적 안정도를 충분히 반영하지 못하며, 정책 종료 기준이 고정되어 있어 조명, 공간과 같은 환경적 요인이나 작업 목적이 달라질 때에도 동일한 기준이 적용된다는 문제가 발생한다.

본 연구에서는 이러한 문제를 해결하기 위해, 외부 RGB-D 카메라 기반 깊이 영상으로부터 계산된 정량적 시각 지표를 이용하여 각 정책의 종료 조건을 판별하는 Tunable Terminal Condition Classification (TTCC) 모델을 제안한다.

수건의 표면 상태를 정량적 시각 지표로 수치화하고, 이를 임계값(threshold)과의 비교를 통해 현재 상태를 ‘평탄화 필요(FLATTEN)’ 또는 ‘접기 가능(FOLD)’으로 판별한다. 평탄화 정책(πflat)과 접기 정책(πfold)은 각각 독립적으로 모방학습을 통해 학습되었으며, 제안된 종료 조건 분류 모델(TTCC)은 두 정책을 하나의 연속적 행동 체계로 통합하는 역할을 수행한다.

또한 제안된 TTCC 모델의 임계값은 사용자가 조정 가능한 구조로 설계되어, 환경이나 작업 목적에 따라 전환 기준의 민감도를 유연하게 설정할 수 있다. 가정용 또는 비정밀 환경에서는 완화된 기준을 적용하여 안정성과 효율성을 확보하고, 반대로 의류 공장이나 매장과 같은 산업 환경에서는 엄격한 기준을 적용해 품질을 극대화할 수 있다.

주요 기여는 다음과 같다.

  • • 외부 RGB-D 카메라 기반 정량적 시각 지표를 활용한 종료 조건 분류 모델(TTCC) 제안
  • • 종료 조건을 Tunable Terminal Condition으로 설계하여 작업 환경의 요구 수준에 따라 조정 가능성 확보
  • • 2단계(long-horizon task) 모방학습 정책 전환 프레임워크 구현

본 논문의 구성은 다음과 같다. 2장에서는 관련 연구를 고찰하고, 3장에서는 제안하는 모델의 구성 및 동작 원리를 설명한다. 4장에서는 카메라 기반 상태 인식 및 정책 전환 모델을 상세히 기술하며, 5장에서는 실제 실험 결과를 통해 제안 구조의 효과를 검증한다. 마지막으로 6장과 7장에서는 결론 및 향후 연구 방향을 제시한다.


2. 기존 연구

2.1 Action Chunking with Transformers 기반 모방학습

Action Chunking with Transformers[9] (ACT) 구조는 시연 데이터를 시간적 단위로 분할하여 장기 시퀀스 내 행동의 연속성과 정보를 동시에 학습할 수 있는 방식으로 주목받고 있다.

ACT[9]는 일정 구간의 행동(action chunk)을 하나의 단위로 처리함으로써, 장기 시퀀스에서 발생하는 합성 오차(compounding error)를 효과적으로 줄인다. 이를 통해 fine-grained 작업에서도 안정적인 정책을 학습할 수 있음을 보였다. 이 접근은 기존 방식에 비해 적은 시연 데이터로도 높은 성능을 달성할 수 있으며, 실험적으로 low-cost 로봇 하드웨어에서도 고정밀 조작이 가능함을 입증하였다. 이러한 특징은 형태 변화가 복잡하고 불확실성이 높은 변형체 조작 작업에 특히 적합하다.

최근에는 이를 확장한 연구도 발표되었다. Bilateral Control‑Based Imitation Learning via Action Chunking with Transformer (Bi‑ACT)[10]는 ACT 모델을 기반으로 하여, 양팔(bimanual) 혹은 리더-팔로워(leader–follower) 설정에서 쌍방 제어(bilateral control) 방식과 action chunk 기반 Transformer 학습을 결합하였다. 이미지, 조인트 각도, 각속도, 토크 데이터를 입력으로 사용하고, 연속된 k 스텝의 행동을 예측함으로써 행동 누적오차를 줄이고 조작의 정밀도 및 대응성을 개선하였다.

본 연구 또한 ACT 구조를 기반으로 한 모방학습 전략을 채택하였다. 평탄화와 접기의 두 단계를 각각 독립적으로 학습한 후, 외부 RGB-D 카메라로부터 산출된 정량적 시각 지표를 TTCC 모델의 판단 기준으로 활용하여 단계 간 정책 전환을 수행하도록 설계하였다. 이를 통해 각 단계의 종료 조건을 상황에 맞게 판별하고, long-horizon task를 안정적으로 수행할 수 있는 자율 전환형 구조를 구현하였다.

2.2 long-horizon task 기반 의류 조작 연구

의류나 수건의 조작과 같은 long-horizon task에서는 한 단계의 결과가 다음 단계의 초기 상태에 직접적으로 영향을 미치므로, 전체 시퀀스의 안정성과 시간적 일관성을 유지하는 것이 핵심 과제이다.

이를 위해 다양한 시퀀스 학습 기반 접근이 제안되어왔다. 대표적으로 시각적 목표(goal-conditioned policy)를 통해 unfolding과 folding을 하나의 end-to-end 네트워크에서 학습하는 VisuoSpatial Foresight (VSF) 구조가 제안되었다[11]. 이 접근은 단일 네트워크 내에서 두 단계를 통합적으로 처리함으로써, 장기 시퀀스 조작의 가능성을 보여주었으나, 각 단계 간 경계가 명시적으로 구분되지 않아 compounding error가 누적되는 한계를 보였다.

또한, 평탄화(flattening)와 접기(folding)를 명확히 분리한 2단계 파이프라인 구조를 제안한 연구[12]에서는 각 단계를 독립적으로 학습하고, 평탄화가 완료된 후 접기 단계로 전환하는 구조적 단계 설계를 적용함으로써 장기 시퀀스 내 단계 간 불안정성을 완화하고 조작 효율성을 높이고자 하였다. 그러나 해당 연구에서도 전환 시점이 정량적 상태 지표나 자동 판단 기준에 의해 결정되지 않고, 사용자가 충분히 평탄화되었음을 확인하는 수동적 단계 구분에 의존하였다는 한계가 존재한다.

이후 제안된 Behavior Transformer (BeT)[13] 는 로봇의 행동 데이터를 시간적 맥락으로 인코딩하여 이전, 이후 동작의 연관성을 함께 고려하는 구조를 제시하였다. 이를 통해 장기 시퀀스 내 행동의 일관성을 확보했지만, 정책의 종료 조건이나 전환 시점이 모델 내부 표현(latent feature)에 의존하므로 실제 물체 상태의 변화를 명시적으로 반영하지 못한다는 한계가 존재한다.

이와 같이, long-horizon task에서 장기 시퀀스의 연속성과 안정성 확보를 위해 다양한 시도를 보여주었으나, 대부분 명시적인 단계 구분 없이 모델 내부의 표현 변화 또는 시각 정보만을 이용해 암묵적으로 정책 전환을 처리하였다.

2.3 카메라 기반 시각 지표를 활용한 상태 인식 연구

의류나 수건과 같은 변형체의 조작에서는 대상의 현재 상태를 정확히 인식하는 것이 매우 중요하다. 이러한 인식 과정에서 카메라 기반 입력은 객체의 형상 변화, 주름, 접힘 등을 감지하는 데 핵심적인 역할을 수행한다.

RGB-D 센서를 활용하여 천의 표면 포인트 클라우드를 재구성하고, 평면 적합 잔차에 기반한 Flatness, 깊이 분산에 기반한 Height Variance, 그리고 테이블 면적 대비 투영 면적 비율을 나타내는 Coverage Ratio 등의 지표를 정의하는 방법이 제안되었다[14]. 이를 통해 접기, 펴기, 정렬 등 다양한 작업의 결과를 정량적으로 평가할 수 있는 기준이 구축되었다.

또한 RGB 투영 영상의 좌우 대칭성을 수치화하여 접기 후, 정렬 정도를 측정하여 Shape Symmetry라는 새로운 평가 기준이 제안되었으며 이러한 형상적 특성을 일반화한 dGLI Cloth Coordinates[15]에서 천의 변형 상태를 정량적으로 분류할 수 있음을 보였다.

로봇 천 조작 분야의 연구를 종합적으로 검토하며, Flatness, Wrinkle Length, Shape Symmetry 등의 지표가 조작 완료도와 상태 분류에 활용될 수 있음을 보고하였다[16]. 하지만, 이러한 연구들은 시각 피처나 정량 지표를 통해 조작 결과를 평가하였으나, 대부분 사후 평가 단계에 국한되어 있다.

한편, CNN 기반 랜드마크 검출과 의류 분류를 통해 소매, 목둘레, 밑단 등 의류의 형태적 특징을 인식하고, 이를 기반으로 folding axis를 결정하는 시각 구조 분석 기법이 제안되었다[17]. 이 접근은 시각 피처를 활용하여 조작 방향을 결정할 수 있다는 점에서 진전된 성과를 보였으나, 단일 단계 조작에 한정되어 있어 단계 간 전환이나 작업의 완료 시점을 판별하는 구조는 포함하지 않았다.

따라서 본 연구는 외부 RGB-D 카메라에서 계산된 정량적 시각 지표를 종료 조건 분류 모델(TTCC)의 주요 입력 변수로 사용하여, 실시간 상태 인식과 정책 전환을 통합한 자율적 2단계 모방학습 프레임워크를 구현하였다. 특히 제안된 TTCC 모델의 임계값은 사용자가 조정할 수 있도록 설계되어, 조작 환경이나 천의 형태적 다양성에 따라 정책 전환 시점을 유연하게 변경할 수 있다.


3. 모방학습 기반 수건 접기 정책

3.1 시스템 구조

[Fig. 1]은 Flatten과 Fold 과정에서 TTCC 모델이 어떻게 활용되는지를 포함한 개요를 나타낸다.

[Fig. 1]

Overview including how the TTCC model is utilized during the Flatten and Fold stages

본 연구에서 정의한 수건 접기 작업은 두 단계로 구성된다. 첫 번째 단계는 구겨지거나 일부 접힌 상태의 수건을 펴는 평탄화 단계이며, 두 번째 단계는 평탄화된 수건을 중앙선을 기준으로 반으로 접는 접기 단계이다.

평탄화 단계는 구겨지거나 일부 접힌 수건의 형태를 인식하고 비대칭을 최소화하도록 여러 방향에서 파지와 이동을 수행하는 과정이다. 이 단계에서는 구김이나 말림, 가장자리의 들림 등 다양한 형태적 변형이 존재하며, 동일한 입력이라도 결과가 일정하지 않은 비선형적 거동을 보인다. 따라서 평탄화 단계는 상태 공간이 매우 넓고 제어 난이도가 높은 구간으로 분류된다.

반면, 접기 단계는 상대적으로 단순한 궤적 기반 조작에 해당하지만, 접기 축의 위치와 방향이 이전 평탄화 결과의 품질에 직접적으로 의존한다. 평탄화가 불완전하거나 한쪽으로 치우친 상태에서는, 지정된 접기 궤적이 수건의 실제 중심선과 어긋나며 좌우 비대칭이나 애초에 파지 자체를 실패할 가능성이 있다. 따라서 접기 단계는 평탄화 결과를 기반으로 한 정확한 초기 상태 판정이 필수적인 조작 과정이라 할 수 있다.

이처럼 두 단계는 목적과 난이도가 상이하기에 각각 독립적인 모방학습 정책으로 학습된다. 손목에 부착된 RGB-D 카메라는 학습 데이터 수집 시 로봇 시점의 영상을 제공하여 ACT 정책의 입력 피처로 사용된다. 외부 RGB-D 카메라에서 획득한 깊이 영상은 실시간으로 수건의 형상 변화를 분석하여 정량적 시각 지표를 산출한다. 이 지표들은 제안된 TTCC 모델의 종료 판단 기준으로 사용되어, 현재 상태를 ‘평탄화 필요(FLATTEN)’ 또는 ‘접기 가능(FOLD)’로 분류한다.

결과적으로 제안된 시스템은 TTCC 모델을 중심으로 한 자율 정책 전환형 모방학습 프레임워크로 구성되며, 외부 인식––정책 전환–행동 실행의 전 과정을 통합적으로 수행한다.

3.2 모방학습 데이터 수집

리더–팔로워(leader–follower) 방식의 텔레오퍼레이션 시스템을 [Fig. 2]에 나타내었다. 사용자는 Leader Arm을 조작하며, 움직임이 실시간으로 Follower Arm (OpenManipulator-Y)에 복제되도록 구성하였다. 이러한 방식은 컨트롤러를 이용한 일반적인 조작보다 실제 인간의 작업 패턴을 정밀하게 묘사할 수 있다는 장점을 가진다.

[Fig. 2]

Teleoperation tool used for collecting human demonstration data

본 연구는 HuggingFace LeRobot[18] 프레임워크를 활용하여 데이터를 수집하였다. 로봇 손목에 부착된 RGB-D 카메라로부터 획득한 RGB 영상을 비롯하여, 로봇의 관절 상태와 사용자가 입력한 조인트 명령을 동시에 동기화하여 저장한다. 각 에피소드는 시간 순서에 따라 영상, 상태, 그리고 이에 대응하는 행동으로 이루어진 시퀀스로 저장된다.

수집된 데이터는 평탄화와 접기 두 단계로 구분되며, 각 단계에 대한 시연은 개별적으로 수행하였다. πflat 데이터는 구겨지거나 비대칭으로 놓인 수건을 평탄하게 펴는 동작을 중심으로 50개의 에피소드로 구성하였으며, πfold 데이터는 평탄화된 수건을 중앙선을 기준으로 정확히 반으로 접는 동작을 중심으로 30개의 에피소드로 수집하였다. 또한, πflat 수행 중 로봇이 실패하거나 불완전한 결과를 보인 경우, 사용자가 다시 개입하여 보정 시연을 수행하는 DAgger (Dataset Aggregation)[19] 방식으로 10개의 평탄화 데이터를 추가로 수집하였다. 결과적으로 πflat: 60개, πfold: 30개의 시연 데이터셋이 확보되었으며, 각 데이터는 RGB-D 이미지, 조인트 궤적, 그리고 단계 레이블(πflat, πfold)로 구성된다.

3.3 모방학습 데이터 학습

본 연구에서 제안한 평탄화와 접기정책은 Action Chunking with Transformers 구조를 기반으로 학습되었다. ACT는 Conditional Variational Autoencoder (CVAE) 구조를 따르며, 인코더와 디코더 모두 Transformer 기반 시퀀스 모델로 구성된다. 시각 관찰(ot)로부터 향후 𝑘프레임의 행동 시퀀스(at : t+k)를 예측하는 chunk 기반 확률정책(probabilistic policy)으로, 단일 시점 행동을 학습하는 기존 Behavior Cloning 방식보다 장기 시퀀스에서의 합성 오차(compounding error)를 효과적으로 줄일 수 있다.

ACT의 학습 과정은 데이터셋 𝐷로부터 (ot, at)쌍을 샘플링하고, 인코더는 행동 시퀀스(at : t+k)와 joint state와 같은 비시각 관찰(o-t)을 입력으로 잠재변수(z)의 분포를 추정한다. 이후 디코더는 현재 시점의 전체 관찰(ot)(RGB-D 영상, end-effector 및 joint 상태 등을 포함한 시각, 비시각 정보)와 잠재변수(z)를 입력으로 하여 예측 행동 시퀀스(a^t : t+k)를 복원한다. 이때 인코더는 행동 시퀀스의 통계적 특성을 잠재 공간으로 압축하고, 디코더는 해당 잠재 표현을 이용하여 미래 행동을 재구성하는 역할을 수행한다.

학습에 사용된 주요 파라미터는 [Table 1]에 나타내었다.

Hyperparameters for training

학습의 목표는 시연 데이터의 행동 분포를 근사하는 것이며, ACT는 손실함수를 최소화하도록 학습된다.

[Fig. 3]은 학습 중 L1손실과 KLD 손실의 변화를 나타낸다.두 손실 항 모두 약 5,000 step 이후부터 0.02 이하의 값으로 수렴하여, 모델이 시연 데이터의 행동 분포를 효과적으로 근사함을 확인할 수 있었다.

[Fig. 3]

Variation of L1 and KLD losses during ACT training Both losses rapidly decrease in the early stages and gradually converge stably up to 30,000 steps

학습이 완료된 πflatπfold 모델은 각각 ROS2 환경의 추론 서비스로 배포된다. 실행 시 외부 RGB-D 카메라에서 계산된 평탄화 지표를 기반으로 현재 수건 상태를 판단하고, 이에 따라 두 모델 중 하나가 선택적으로 호출된다. 선택된 모델은 현재 로봇 상태와 이미지를 입력받아 다음 시점의 joint trajectory를 생성하며, 이를 통해 로봇은 외부 카메라 기반 정량적 지표에 따라 자율적으로 행동 정책을 전환할 수 있다.


4. 카메라 기반 상태 인식 및 정책 전환 모델

4.1 TTCC 기반 상태 판별 모델

외부 RGB-D 카메라는 수건의 전체 형상 정보를 취득하여 평탄화 정도를 정량적으로 평가하는 역할을 수행한다. 획득된 깊이 영상은 실시간으로 처리되어 작업대 평면을 추정하고, 수건 표면의 높이 변화를 계산함으로써 평탄화 정도를 정량화한다. 이러한 과정에서 산출된 정량적 시각 지표들은 TTCC 모델의 입력으로 활용되어, 평탄화 단계의 종료 여부를 자동으로 판별한다.

[Fig. 4]는 RGB-D 기반 3차원 포인트 데이터를 이용해 평면 추정, 잔차맵 생성, 수건 영역 추출을 거쳐 TTCC 모델로 전달되는 전체 파이프라인을 나타낸다.

[Fig. 4]

Pipeline of quantitative towel state evaluation using RGB-D sensing and the Tunable Terminal Condition Classification (TTCC) model. Depth data from the Intel RealSense D415 camera are processed through 3D point reconstruction, plane fitting via RANSAC, residual map generation, and towel region extraction. The computed geometric metrics are then used as input to the TTCC model for adaptive policy switching between flattening and folding stages

먼저 깊이 영상의 각 화소는 카메라 내부 파라미터를 이용하여 실제 공간상의 3차원 좌표 (𝑥, 𝑦, 𝑧)로 변환된다. 이를 통해 깊이 영상 전체가 포인트 클라우드 형태로 표현되며, 이후 Random Sample Consensus (RANSAC)[20] 알고리즘을 이용해 작업대의 기준 평면을 추정한다. 평면은 법선벡터 n = (nx, ny, nz)​와 오프셋 𝑑를 포함한 일반 방정식으로 표현된다.

nxx+nyy+nzz+d=0.(1) 

RANSAC은 무작위로 선택한 세 점을 이용해 반복적으로 모델을 적합하고, 가장 많은 점이 포함되는 평면을 최적 기준면으로 결정한다. 이 평면은 수건이 위치한 작업대의 높이 기준을 정의하며, 이후 잔차 계산의 참조면으로 사용된다.

각 화소의 좌표 (xi, yi, zi)로부터 평면까지의 수직거리 ri 는 다음과 같이 계산된다.

ri=nxxi+nyyi+nzzi+d.(2) 

이를 전체 화소에 대해 계산함으로써 잔차맵(residual map)이 생성된다. 잔차맵은 작업대를 기준으로 수건 표면의 높이 변화를 시각화한 결과이며, 수건이 평탄할수록 ri 분포는 작고 균일하게 나타난다. 생성된 잔차맵은 RGB 영상과 결합되어 수건의 유효 영역만 분리된다. 이를 위해 깊이 범위가 1.5 mm~ 50 mm인 화소만 남기고, Lab 색공간 변환을 통해 테이블 및 배경의 색상 차이를 제거하였다. 이후 가장 큰 윤곽선을 탐색하여 수건 마스크 Mmask를 정의하였다.

4.2 TTCC 모델 지표 선정기준(πflatπfold)

추출된 마스크 영역을 기반으로 πflatπfold을 판단하는 세 가지 지표를 산출하였다.

첫 번째는 사각 정합도로, 수건 마스크 Mmask와 그 최소 외접 사각형 Mrect 간의 겹침 비율로 정의된다.

Rfit =MmaskMrectMmaskMrect.(3) 

Rfit값이 1에 가까울수록 수건 외곽이 사각형 형태에 근접하여 평탄하게 펼쳐져 있음을 의미한다.

두 번째는 높이 표준편차로, 잔차맵에서 계산된 각 화소의 거리 ri분산 정도를 통해 표면의 국소적 요철을 나타낸다.

σh=1Ni=1Nri-r^2.(4) 

여기서 𝑁은 마스크 내 유효 픽셀 수, r^은 잔차의 평균값이다. σh값이 작을수록 표면의 국소적 높이 차이가 적고, 수건이 평평한 상태임을 의미한다. 세 번째는 높이 범위로, 잔차값의 상·하위 백분위수 차이를 이용해 전체 높이 변화의 폭을 정량화한다.

Δh=p95ri-p05ri.(5) 

p95(ri), p05(ri)각각 잔차값의 95번째 및 5번째 백분위수를 의미한다. Δh값이 작을수록 전체 표면이 균일하며, 들림이나 주름이 적은 평탄한 상태로 판단된다.

수건 형상 기반 지표인 Rfit은 외곽의 기하학적 형태만을 반영하므로, 동일한 종류의 평면 직사각형 수건에서는 비교적 일관된 값을 나타낸다. 즉, 수건의 재질이나 두께의 영향을 거의 받지 않으며, 형상 자체의 변형 정도를 직접적으로 나타내는 절대적 지표로 사용할 수 있다.

반면, 높이 기반 지표인 σh와 Δh는 수건의 두께 등의 요인에 따라 절대값이 크게 달라진다. 예를 들어, 두께가 얇고 조직이 단단한 수건은 동일한 구김에서도 σh의 증가 폭이 작게 나타나지만, 두께가 두껍고 부드러운 소재일 경우 동일한 구김에서도 σh와 Δh가 더 크게 변한다.

이러한 이유로, 높이 기반 지표는 절대적 기준을 적용하는 것이 적절하지 않으며, 사용자가 사용하는 수건의 두께 및 사용 환경에 맞추어 임계값을 조정할 수 있는 구조로 설계하였다.

[Fig. 5]은 각각 반듯한 상태, 구김은 있으나 결과에는 영향을 주지 않는 상태, 구김과 접힘이 심해 결과에 영향을 주는 상태를 나타낸 예시 사진이다.

[Fig. 5]

Example images of three towel conditions, (a): fully flattened towel, (b): mildly wrinkled towel that does not affect the folding outcome, (c): heavily wrinkled or partially folded towel that is likely to degrade the final result

먼저, Rfit은 수건이 반듯하게 펴져 있을 때 일관적으로 0.9 전후의 값을 나타냈다. 이 구간은 실제 접기 작업에서 실패가 발생하지 않는 안정적인 상태였으며, 약간의 미세 구김이 포함된 상태에서도 0.85 이상이면 진행에 문제가 없었다. 따라서 본 연구에서는 이러한 관찰값을 바탕으로 엄격 기준을 0.85로 설정하였다. 반면, 수건에 구김이 있거나 한쪽이 들린 상태에서는 0.8 전후까지 하락하는 경향을 보였으며, 0.75 이하로 떨어지는 경우는 실제 수건의 형태가 크게 무너진 상태에서 주로 관찰되었다. 이에 따라, 안정성이 보장되지만 완전히 평탄하다고 보기는 어려운 구간의 하한을 반영하여 완화 기준을 0.77로 선정하였다.

σh는 수건이 반듯하게 놓여 있을 때 주로 6–7 mm, 이 구간에서는 표면 주름이 거의 없고, 로봇이 πfold정책을 수행하더라도 실패가 발생하지 않았다.

따라서 σh의 엄격 기준은 7 mm로 설정하였다. 한편, 표면에 주름이 생기거나 미세한 굴곡이 증가하는 경우 σh는 10–12 mm 전후로 상승하며, 여전히 πfold후 결과에 문제가 없는 경우도 있었다. 그러나 15 mm 이상으로 커지는 상황에서는 실제 실험에서 수건의 구김이 상당히 심하거나 부분적으로 말린 상태가 많았고, 품질에 악영향을 주는 사례가 빈번하여 완화 기준을 15 mm로 설정하였다.

Δh 역시 반듯한 상태에서 18–20 mm 사이의 값이 관측되었다. 이 구간에서는 πfold수행 시 문제가 없었으므로, Δh의 엄격 기준은 18 mm로 설정하였고, 모서리가 들리거나 한쪽이 말린 경우 Δh가 25–30 mm 전후로 증가하였고, 이 범위에서는 πfold 결과가 망가지지는 않았지만 변형이 확실하게 존재하는 상태였다. 30mm 이상으로 증가하는 경우는 실제로 수건이 많이 말린 상태거나 일부 접힌 상황이 많았고, 실패 사례가 급증하여 Δh의 완화 기준은 30 mm로 설정하였다.

[Table 2]는 FLATTEN → FOLD를 결정하는 각 정량적 시 각 지표의 임계값을 나타내고, [Fig. 6]과 [Fig. 7]은 [Table 2]에서 설정한 두 가지 임계값을 적용한 결과로, 제안된 프레임워크가 기준에 따라 πflatπfold로의 정책 전환시점을 자율적으로 조정함을 보여준다.

Policy Switching Criteria (FLATTEN → FOLD)

[Fig. 6]

The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (Rfit > 0.85, σh < 7 mm, Δh < 18 mm). When all criteria are satisfied, the towel is classified as FOLD; otherwise, FLATTEN

[Fig. 7]

The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (Rfit > 0.77, σh < 15 mm, Δh < 30 mm). When all criteria are satisfied, the towel is classified as FOLD; otherwise, FLATTEN

4.3 TTCC 모델 지표 선정기준(πflatπfold)

πfold 단계가 종료된 뒤, 접기 동작이 정확하게 수행되었는지를 판단하기 위해 두 가지 지표를 정의하였다. 이 지표들은 접기 결과가 양호한 경우에는 동작을 종료하도록 하고, 반대로 불완전한 상태일 경우에는 πflat 단계로 복귀하여 형상을 다시 평탄화 하도록 하는 전환 기준으로 기능한다.

첫 번째, 접기 이후 수건의 투영 면적이 접기 이전 대비 얼마나 축소되었는지를 나타내는 면적 축소 비율 지표이다. 접기 전 수건 마스크의 면적을 Abefore, 접기 후 마스크의 면적 을 AAfter라 할 때, 영역 축소 비율은 다음과 같이 정의된다.

ΔA=Abefore -AAfter Abefore .(6) 

수건을 정확히 2등분으로 접었을 경우 전체 면적이 절반이 되므로Δ𝐴≈0.5의 값을 갖는다.

두 번째 지표는, 접기 이후 수건의 좌측 모서리가 접기 이전의 기준 중심선에 얼마나 정확히 정렬되었는지를 나타내는 모서리 정합 오차이다. 접기 전의 수건 외곽 중심선 위치를 xcenter, 접기 후의 외곽에서 가장 왼쪽 모서리의 위치를 xL이라 할 때, 모서리 정합 오차는 다음과 같이 정의된다.

Ecorner=xL-xcenter.(7) 

이 값이 작을수록 두 모서리가 정확하게 맞물려 반듯하게 접힌 상태임을 의미한다.

수건 접기 품질을 평가하는 지표는 수건의 형상적 변화, 구김, 접힘 정도 등 다양한 요인의 영향을 받기 때문에, 단일 절대값 기준을 모든 상황에 일괄 적용하는 것은 적절하지 않은 경우가 있다. 본 연구에서 제안한 ΔAEcorner지표는 각각 서로 다른 특성을 반영하며, 사용 환경이나 사용자가 선호하는 접기 방식에 따라 값이 달라질 수 있다는 점에서 사용자 맞춤 구조가 요구된다.

[Fig. 8]은 접기 단계 전의 중심선, 접기 단계 후 각각 반듯한 상태, 좌측 모서리와 중심선 거리가 멀어 결과에 영향을 주는 상태를 나타낸 예시 사진이다.

[Fig. 8]

Example images of three towel conditions, (a): Before the πfold, (b): After the πfold, towel has been neatly folded in half, (c): After the πfold, towel is folded in half but the corners do not align, resulting in a twisted configuration

본 실험에서는 수건을 반으로 접도록 하였고, 이 경우 ΔA는 대체로 0.47–0.53의 범위에 안정적으로 수렴하였다. 이 구간에서는 실제 로봇 접기 결과 역시 안정성이 확보되었으므로 이 범위를 엄격 기준으로 설정하였다. 그러나 현실적인 수건 접기 과정에서는 사람마다 접는 방식이 미세하게 다르며, 동일한 사용자에서도 매 수행마다 가장자리 정렬 정도나 접히는 방향에 따라 소폭의 편차가 발생한다. 이는 작업의 성공·실패와 직접적으로 연결되지 않음에도 ΔA 값에 ±0.03~0.05 수준의 흔들림을 유발하는 것으로 관찰되었다. 따라서 사용자의 접기 스타일과 실제 환경에서 발생할 수 있는 비대칭 접힘을 폭넓게 포괄하기 위해, 본 연구에서는 ΔA가 0.45–0.55 범위에 있을 경우에도 접기 작업이 크게 실패했다고 보기 어렵다고 판단하여 이를 완화 기준으로 설정하였다.

또한 사용자의 평소 접기 습관이나 산업 환경에 따라 맞춤 조정이 필요하다는 특징이 있다. 예를 들어, 일부 사용자는 세로 3등분 또는 가로 3단 접기 방식을 사용하기도 하며, 상업용 세탁 시설이나 호텔에서는 규격화된 방식이 활용되기도 한다. 이러한 경우, 접기 완료 시 이상적 목표값이 0.5가 아니라 각각 0.66, 0.75 등 다른 값이 되므로, ΔA는 고정 절대 기준이 아니라 사용자 또는 작업 환경에 따라 조정 가능하다.

모서리 정합 오차 Ecorner는 접힘의 반듯함과 직결되는 품질 지표이다. 실험에서 정확한 반접기가 이루어진 경우 Ecorner는 대체로 5–10 mm 사이에 위치하며, 이는 두 모서리가 거의 완전히 맞물린 상태임을 의미한다. 이 구간에서는 실제 접기 품질도 매우 양호하였으며, 수건의 기울어짐이나 비대칭이 눈에 띄지 않았다. 이에 따라 엄격 기준으로는 10 mm 이하로 설정하였다. 한편, 접기 과정에서 약간의 비틀림이나 미세한 위치 오차가 발생한 경우 Ecorner는 10–20 mm 범위로 증가하였으나, 이 정도의 오차는 실제 접기 최종 결과에 큰 영향을 주지 않는 사례가 다수 관찰되었다. 그러나 20 mm을 초과하는 경우에는 수건의 한쪽이 과도하게 치우치거나 모서리가 제대로 맞물리지 않은 상태가 빈번하게 나타났고, 이러한 경우 πfold에서 문제를 일으킬 가능성이 높았다. 따라서 본 연구에서는 품질 저하 없이 허용 가능한 범위를 반영하여 완화 기준을 20 mm 이하로 설정하였다.

추가적으로, 본 연구에서는 반접기 실험을 수행하였기 때문에 접기 전 bounding box의 중심선을 기준 축으로 사용하였으나, 제안된 지표는 multiple-fold에도 확장 가능하다. 예를 들어, 3등분 접기를 수행하는 경우 접기 전 bounding box의 폭을 1/3 또는 2/3 지점에서 분할하여 해당 위치를 새로운 기준선으로 설정하고, 접기 후 생성된 모서리가 이 선과 얼마나 일치하는지를 측정함으로써 동일한 방식의 정합 오차를 계산할 수 있다. 즉, 제안된 Ecorner지표는 접기 단계가 여러 번 반복되는 상황에서도 접힘의 정렬 품질을 정량적으로 평가할 수 있는 범용적 구조를 갖는다.

[Table 3]는 FOLD → FLATTEN을 결정하는 정량적 지표의 임계값을 나타내고, [Fig. 9], [Fig. 10]은 [Table 3]에서 설정한 두 가지 임계값을 적용한 결과로, 제안된 프레임워크가 기준에 따라 정책 전환시점을 자율적으로 변환함을 보여준다.

Policy Switching Criteria (FOLD → FLATTEN)

[Fig. 9]

The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (0.47 ≤ ΔA ≤ 0.53, Ecorner ≤ 10mm). When all criteria are satisfied, the towel is classified as END; otherwise, FLATTEN

[Fig. 10]

The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (0.45 ≤ ΔA ≤ 0.55, Ecorner ≤ 20mm). When all criteria are satisfied, the towel is classified as END; otherwise, FLATTEN

4.4 TTCC 기반 의사결정 모델을 통한 정책 전환

로봇의 행동 정책 전환은 외부 카메라로부터 실시간으로 산출된 정량적 시각 지표를 기반으로 수행된다. 외부 RGB-D 카메라의 깊이 영상에서 추출된 평탄화 지표는 수건의 형상을 분석하여 현재 상태를 ‘FLATTEN’ 또는 ‘FOLD’로 판정하고, 결과를 메시지 형태로 TTCC 모델에 송신하고, 이 신호를 주기적으로 수신하여 현재 작업 단계를 나타내는 상태 변수(state variable)로 저장한다. 이 변수는 정책 선택의 핵심 기준으로 작용하며, 각 상태에 대응하는 평탄화 정책과 접기 정책을 활성화하는 역할을 한다.

정책이 전환되는 시점에서 발생하는 동작의 불연속성을 줄 이기 위해, 본 연구에서도 LiPo[21]에서 사용된 것과 동일한 보정 기법을 적용하였다. 직전 단계의 궤적과 새로 예측된 궤적을 일정 구간에서 블렌딩한 뒤 스플라인 기반 보간을 수행함으로써, 정책 전환 과정에서도 속도와 가속도의 연속성을 유지할 수 있도록 하였다. 이를 통해 모션 급변이나 진동과 같은 부정적인 현상을 효과적으로 방지하였다.

TTCC 모델은 주기적으로 로봇의 상태를 평가하고, 상태 변화에 따라 활성화할 정책을 자동으로 전환한다. ‘FLATTEN’ 상태가 유지되는 동안에는 평탄화 정책이, ‘FOLD’ 상태로 전환되면 접기 정책이 즉시 활성화된다.

각 정책은 독립적으로 학습된 ACT 기반 모델로 구성되어 있으며, 모델 내부에서 순차적으로 호출되어 실행된다. 이를 통해 로봇은 작업 도중에도 외부 인식 결과에 따라 자율적으로 정책을 전환하며, 별도의 사용자 명령이나 초기화 없이 연속적인 상태 전이를 수행할 수 있다.

결과적으로 제안된 시스템은 인식–판단–추론–제어의 전 과정을 TTCC모델 기반의 의사결정 프레임워크로 통합하였다. 외부 카메라 모듈은 수건의 3차원 형상을 정량적으로 분석하여 평탄화 지표를 계산하고, TTCC 모델은 이를 실시간으로 분류하여 현재 상태를 ‘FLATTEN’ 또는 ‘FOLD’로 판정한다. 이 판정 결과는 정책 선택의 입력으로 사용되어, 각 단계에 대응하는 ACT 기반 정책이 자동으로 활성화된다.

이와 같은 구조는 환경 변화나 물체 상태의 불확실성에도 로봇이 자율적으로 정책을 전환하도록 하며, 변형체 조작과 같은 long-horizon task에서도 안정적이고 연속적인 작업 수행을 가능하게 한다.


5. 실험 및 결과

5.1 실험 환경 및 조건

제안하는 TTCC 기반 모방학습 수건 접기 시스템의 실험 환경을 [Fig. 11]에 나타내었다. 실험 구성은 6자유도 로봇 매니퓰레이터(OpenManipulator-Y), 손목에 부착된 근접 RGB-D 카메라(RealSense D405), 로봇 전방 약 0.7 m 거리에서 약 30° 각도로 설치된 외부 RGB-D 카메라(RealSense D415), 그리고 1자유도 그리퍼로 이루어진다.

[Fig. 11]

Experimental system setup

실험 대상은 흰색 면 타월(400 mm × 400 mm)이며, 로봇팔의 최대 작업 범위를 고려하여 반으로 접은 후 테이블에 배치하였다.

시스템은 초기화 후 외부 카메라로부터 수건의 형상 정보 를 취득하여 정량적 시각 지표를 계산한다. TTCC 모델은 이 지표들을 입력으로 받아 현재 상태를 실시간으로 분류하며, ‘FLATTEN’으로 판정될 경우, 평탄화 정책이 활성화되어 수건의 주름과 비대칭을 제거하고, ‘FOLD’로 판정될 경우, 평탄화가 완료된 수건을 중앙선을 기준으로 절반으로 접는다.

본 실험에서는 정책 전환과 접기 동작의 성공 여부를 명확히 검증하기 위해, 임계값(Rfit > 0.85, σh < 7 mm, Δh < 18 mm, 0.45 ≤ ΔA ≤ 0.55, Ecorner ≤ 10mm )을 설정하였다. 모든 지표가 사전에 정의된 임계값에 따라 TTCC 모델은 상태를 갱신하고, 로봇은 정책을 전환한다. 두 정책의 전환 과정은 cubic spline interpolation을 이용해 연속적으로 보간되어 모션의 불연속이나 충돌이 발생하지 않도록 하였다. 접기 동작이 성공으로 판단되면 로봇은 자동으로 대기상태로 전환된다.

5.2 실험 결과

제안한 TTCC 기반 모방학습 프레임워크의 성능을 검증하기 위해 총 30회의 실험을 수행하였으며, 그 결과를 단일 단계 수행, 수동 연속 실행, 그리고 TTCC 기반 의사결정형 프레임워크의 세 가지 조건으로 비교하였다. 본 실험에서 성공을 판단하는 기준은 4.3장에서 논의한 접기 정책 성공 지표를 따랐으며, 실패의 경우에는 접기 정책이 실패하여 FLATTEN 단계로 복귀하는 과정이 연속적으로 3회 발생하면 최종 실패로 정의하였다.

[Table 4]는 각 조건에서의 성공률을 요약한 결과이다. 먼저 평탄화 단계를 단독으로 수행한 경우, 전체 30회 중 23회 성공하였다. 이 과정에는 DAgger를 통한 재시연 보정 데이터가 포함되어 있었으며, 해당 보정으로 인해 주름이나 가장자리 들림 형태의 실패 사례가 일부 감소하였다. 그러나 학습 데이터에 포함되지 않은 구김 형태나 비정형 변형이 발생한 경우, 로봇이 특정 구역을 충분히 펼치지 못해 실패하는 사례가 관찰되었다.

Experimental Results

접기 단계만 독립적으로 수행했을 때는 30회 중 28회로 매우 높은 성공률을 보였다. 이는 접기 정책이 평탄 상태를 전제 로 고정된 기준점을 파지하여 단순 궤적 기반으로 반으로 접는 동작이며, 환경적 변동 요인이 상대적으로 적기 때문이다.

수동 연속 실행 실험에서는 평탄화 단계를 종료한 직후 외부 카메라의 판단 없이 접기 단계를 강제로 실행하였다. 이 경우 30회 중 19회만 성공하였으며, 주된 실패 원인은 정책의 종료 조건 기준 부재로 인한 비정상적 정책 전환이었다. 평탄화가 충분히 이루어지지 않은 상태에서 접기 정책이 실행되어 한쪽 모서리가 들리거나 경계선이 비대칭으로 형성되는 경우 가 다수 발생하였다.

제안된 TTCC 기반 프레임워크에서는 외부 RGB-D 카메라로부터 계산된 정량적 시각 지표가 사전에 정의된 임계값을 만족할 때에만 각 단계의 정책이 실행되도록 설계하였다.

평탄화 단계에서는 수건의 형상이 안정적으로 펴져 있을 때만 TTCC가 ‘FOLD’로 전환하도록 하여 초기 자세의 신뢰성을 확보하였다. 또한, 접기 단계가 끝나면, 기준을 벗어나는 경우에는 TTCC가 ‘FLATTEN’으로 판정하여 평탄화 정책을 재수행하도록 함으로써, 접기 과정에서 발생할 수 있는 형상 붕괴나 비대칭을 복구할 수 있도록 하고 기준을 만족하면 ‘END‘로 판정하여 그대로 동작을 종료한다.

실험 결과, 제안된 프레임워크는 총 30회 중 25회를 성공하여 83.3%의 성공률을 기록하였으며, 이는 동일 조건에서 정책을 연속 실행한 수동 방식의 63.3%보다 20%p 향상된 성능으로, 정책 전환 시점의 적절성과 전체 작업 안정성이 유의하게 개선되었음을 보여준다.

TTCC 모델은 외부 카메라로부터 계산된 정량적 시각 지표를 이용해 정책의 종료 시점을 실시간으로 판정함으로써, 불완전한 평탄화 상태에서 접기 동작이 실행되는 문제를 방지하였다.

또한 평탄화 지표가 기준 이하일 경우 해당 정책을 반복 수행하도록 설계되어, 각 단계가 충분히 안정화된 후에만 다음 단계로 전환되도록 보장한다. 이때 사용자는 임계값의 범위나 기준을 조정함으로써 전환 시점의 민감도를 직접 설정할 수 있다.

이를 통해 작업 환경이나 요구 정밀도에 따라 정책 전환의 수준을 유연하게 제어할 수 있다. 이러한 TTCC 기반 구조는 long-horizon task에서 발생하기 쉬운 누적 오차(compounding error)와 상태 불안정성을 완화하여 long-horizon task에서도 안정적이고 예측 가능한 수행을 가능하게 한다.

[Fig. 12]에는 TTCC 모델의 판단에 따라 평탄화 정책과 접기 정책이 순차적으로 활성화되는 실행 경과를 시각화하였다.

[Fig. 12]

Sequential execution of flattening and folding policies under the TTCC framework. (a) Frames 1–4: the initial flattening phase, where the robot performs flattening motions according to the TTCC. (b) Frames 5–8: an additional flattening motion automatically triggered as the TTCC model detects that the towel has not yet met the termination conditions. (c) Frames 9–12: the folding phase activated once all quantitative visual metrics satisfy the TTCC thresholds, demonstrating autonomous policy switching within the proposed framework


6. 결 론

본 연구에서는 기존의 시간 기반 혹은 확률 기반 전환 방식과 달리, 외부 RGB-D 카메라로부터 계산된 정량적 시각 지표를 활용하여 종료 조건을 설정하는 TTCC 모델을 도입하고, 이를 조정 가능한 형태(Tunable Terminal Condition) 로 설계함으로써 작업 환경과 요구 정밀도에 따라 정책 전환 기준을 유연하게 설정할 수 있는 구조를 구현하였다.

제안된 모델은 두 단계의 정책을 독립적으로 학습하고, TTCC 모델을 통해 외부 인식 결과에 따라 실시간으로 정책을 전환함으로써 long-horizon task의 연속성과 안정성을 확보하였다.

실험 결과, TTCC 모델은 수건의 시각 지표 변화를 실시간으로 평가하여 정책 전환 시점을 자율적으로 결정하였으며, 이를 통해 평탄화 및 접기 단계가 안정적이고 일관된 순서로 수행됨을 확인하였다. 특히, 사용자가 임계값을 조정함으로써 전환 시점의 민감도를 설정할 수 있어, 작업 환경과 목표 정밀도에 따라 정책 전환을 유연하게 제어할 수 있었다.

본 연구는 정량적 시각 지표를 기반으로 비정형 물체의 조작 상태를 실시간으로 인식하고 이를 자율적으로 전환하는 TTCC 모델을 제안함으로써, 로봇 모방학습의 안정성과 해석 가능성을 동시에 확보하였을 뿐 아니라 long-horizon task 수행에서 단계 간 연속성과 누적 오차(compounding error) 문제를 완화할 수 있음을 보였다. 이러한 결과는 복수의 모방학습 정책을 단계적으로 결합하는 long-horizon 조작 작업에서, 정책 전환을 명시적으로 설계하는 것이 전체 시스템의 안정성을 크게 향상시킬 수 있음을 시사한다.


7. 고 찰

본 연구에는 일부 한계가 존재한다.

첫째, 본 논문에서 다룬 시나리오는 반으로 접혀 있거나 혹은 가장자리가 접혀있는 수건을 평탄화한 뒤 다시 한 번 접는 단순한 시나리오로 제한되어 있다. 구겨진 수건의 초기 상태가 복잡하거나 심한 주름이 포함된 경우, 로봇팔이 평탄화 동작을 안정적으로 수행하지 못하는 사례가 관찰되었다. 이는 학습 데이터에 다양한 변형 형태가 충분히 포함되지 않아, 일부 비정형 상태에 대한 일반화가 이루어지지 못했기 때문이다. 다양한 초기 조건을 포함한 시연 데이터 확충과 DAgger 기반의 보강 학습을 통해 로봇의 적응성과 안정성을 향상시킬 필요가 있다. 향후 더 복잡한 2단·3단 접기 실험으로 본 지표의 적용성을 추가 검증할 계획이다.

둘째, Fold 단계가 진행되는 중간에는 정책의 성공/실패 여부를 판단할 수 없다. 수건을 접는 과정에서 형상이 일시적으로 크게 변형되므로 이를 실패로 간주할 수 있다고 판단하여 접기 단계의 성공여부는 동작이 종료되고 판단하도록 설계하였다. 즉, 현재 시스템은 Fold 동작이 시작되면 약 10초 내외의 단일 접기 모션이 완전히 종료된 이후에야 최종 형상에 기반한 성공 여부를 판단하도록 설계되어 있다.

실제 환경에서는 중간 단계에서의 파지 실패, 그립 슬립, Cloth 다중층 형성 등 예기치 않은 변형이 발생할 수 있으므로, 향후 Fold 진행 중에도 안정적으로 평가 가능한 Fold-robust 시각 지표를 개발하거나, 동작 중단 및 복귀를 가능하게 하는 연구가 필요하다.

TTCC 모델을 평탄화의 진행 정도나 접힘 수준을 연속적으로 인식할 수 있는 정교한 상태 추정 구조로 확장한다면, 평탄화부터 접기까지의 전체 조작 과정을 하나의 자율 의사결정 프레임워크로 구현할 수 있을 것이다. 이를 통해 의류 및 섬유 공정 등 산업 현장에서 지능형 변형체 조작과 무인화된 제조 프로세스 실현에 기여할 것으로 기대된다.

Acknowledgments

This work was supported by the KEIT (25453819) funded by the Ministry of Trade, Industry & Resources (MOTIR, Korea) and Research Grant of Kwangwoon University in 2025.

References

  • B. Jia, Z. Pan, Z. Hu, J. Pan, and D. Manocha, “Cloth Manipulation Using Random-Forest-Based Imitation Learning,” IEEE Robotics and Automation Letters, vol. 4, no. 2, pp. 2086-2093. [https://doi.org/10.1109/LRA.2019.2897370]
  • H. Park, D. Lim, S. Kim, and S. Park, “Preceding Temporal Ensemble Method for Improving Task Speed of Imitation-Learning-Based Robots,” The Journal of Korea Robotics Society, vol. 20, no. 1, pp. 61-68. [https://doi.org/10.7746/jkros.2025.20.1.061]
  • C. N. Cho, T.-K. Kim, M. Jung, and J.-H. Hwang, “Development of Imitation Learning and Large Language Model-Based Assembly Algorithm,” The Journal of Korea Robotics Society, vol. 20, no. 3, pp. 381-387. [https://doi.org/10.7746/jkros.2025.20.3.381]
  • W. Y. Kwon, D. G. Ha, and I. H. Suh, “Imitation Learning of Bimanual Manipulation Skills Considering Both Position and Force Trajectory,” The Journal of Korea Robotics Society, vol. 8, no. 1, pp. 20-28. [https://doi.org/10.7746/jkros.2013.8.1.020]
  • D.-J. Kim, H. J. Jo, and J.-B. Song, “Visual Object Manipulation Based on Exploration Guided by Demonstration,” The Journal of Korea Robotics Society, vol. 17, no. 1, pp. 40-47. [https://doi.org/10.7746/jkros.2022.17.1.040]
  • A. Gupta, V. Kumar, C. Lynch, S. Levine, and K. Hausman, “Relay Policy Learning: Solving Long-Horizon Tasks via Imitation and Reinforcement Learning,” arXiv preprint arXiv:1910.11956, 2019. [https://doi.org/10.48550/arXiv.1910.11956]
  • M. Jing, W. Huang, F. Sun, X. Ma, T. Kong, C. Gan, and L. Li, “Adversarial Option-Aware Hierarchical Imitation Learning,” arXiv preprint arXiv:2106.05530, 2021. [https://doi.org/10.48550/arXiv.2106.05530]
  • S. Zhang, Z. Cao, D. Sadigh, and Y. Sui, “Confidence-Aware Imitation Learning from Demonstrations with Varying Optimality,” Conference on Neural Information Processing Systems (NeurIPS), pp. 12340-12350, 2021. [https://doi.org/10.48550/arXiv.2110.14754]
  • T. Z. Zhao, V. Kumar, S. Levine, and C. Finn, “Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware,” arXiv preprint arXiv:2304.13705, 2023. [https://doi.org/10.15607/RSS.2023.XIX.016]
  • T. Buamanee, M. Kobayashi, Y. Uranishi, and H. Takemura, “Bi-ACT: Bilateral Control-Based Imitation Learning via Action Chunking with Transformer,” 2024 IEEE International Conference on Advanced Intelligent Mechatronics (AIM), Boston, USA, pp. 410-415, 2024. [https://doi.org/10.1109/AIM55361.2024.10637173]
  • R. Hoque, D. Seita, A. Balakrishna, A. Ganapathi, A. K. Tanwani, N. Jamali, K. Yamane, S. Iba, and K. Goldberg, “VisuoSpatial Foresight for Multi-Step, Multi-Task Fabric Manipulation,” Robotics: Science and Systems (RSS), Corvalis, USA, pp. 175-199, 2020. [https://doi.org/10.15607/RSS.2020.XVI.034]
  • Y. Avigal, L. Berscheid, T. Asfour, T. Kröger, and K. Goldberg, “SpeedFolding: Learning Efficient Bimanual Folding of Garments,” 2022 IEEE/RSJ International Conference Intelligent Robots and Systems (IROS), Kyoto, Japan, pp. 1-8, 2022. [https://doi.org/10.1109/IROS47612.2022.9981402]
  • N. M. M. Shafiullah, Z. J. Cui, A. Altanzaya, and L. Pinto, “Behavior Transformers: Cloning k Modes with One Stone,” Neural Information Processing Systems (NeurIPS), LA, USA, pp. 22955-22968, 2022. [https://doi.org/10.52202/068431-1668]
  • I. Garcia-Camacho, M. Lippi, M. C. Welle, H. Yin, R. Antonova, A. Varava, J. Borràs Sol, C. Torras, A. Marino, G. Alenyà, and D. Kragic, “Benchmarking Bimanual Cloth Manipulation,” IEEE Robotics and Automation Letters, vol. 5, no. 2, pp. 1111-1118. [https://doi.org/10.1109/LRA.2020.2965891]
  • F. Coltraro, J. Fontana, J. Amorós, M. Alberich-Carramiñana, J. Borràs, and C. Torras, “The dGLI Cloth Coordinates: A Topological Representation for Semantic Classification of Cloth States,” arXiv preprint arXiv:2209.09191, 2022. [https://doi.org/10.48550/arXiv.2209.09191]
  • A. Longhini, U. Wang, I. Garcia-Camacho, D. Blanco-Mulero, M. Moletta, M. Welle, G. Alenyà, H. Yin, Z. Erickson, D. Held, J. Borràs, and D. Kragic, “A Review of Robotic Cloth Manipulation,” arXiv preprint arXiv:2407.01361, 2024. [https://doi.org/10.48550/arXiv.2407.01361]
  • O. Gustavsson, T. Ziegler, M. C. Welle, J. Bütepage, A. Varava, and D. Kragic, “Cloth manipulation based on category classification and landmark detection,” International Journal of Advanced Robotic Systems, vol. 19, no. 4, Art. ID 17298806221110445. [https://doi.org/10.1177/17298806221110445]
  • Hugging Face Robotics Team, LeRobot: State-of-the-Art Machine Learning for Real-World Robotics in PyTorch, GitHub repository, 2024, [Online], https://github.com/huggingface/lerobot, , Accessed: 30, Sep., 2025.
  • S. Ross, G. J. Gordon, and J. A. Bagnell, “A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning,” the 14th International Conference on Artificial Intelligence and Statistics (AISTATS 2011), Fort Lauderdale, USA, pp. 627-635, 2011. [https://doi.org/10.48550/arXiv.1011.0686]
  • M. A. Fischler and R. C. Bolles, “Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography,” Communications of the ACM, vol. 24, no. 6, pp. 381-395. [https://doi.org/10.1145/358669.358692]
  • D. Son and S. Park, “LiPo: A Lightweight Post-optimization Framework for Smoothing Action Chunks Generated by Learned Policies,” International Journal of Control, Automation and Systems, vol. 23, no. 11, pp. 3284-3292. [https://doi.org/10.1007/s12555-025-0537-0]
김 경 민

2026 광운대학교 로봇학부(공학사)

관심분야: Robotics, Imitation Learning

손 동 우

2025 광운대학교 로봇학부(공학사)

2025~현재 광운대학교 로봇학과(석사)

관심분야: Imitation Learning, Manipulation

박 수 한

2017 광운대학교 로봇학부(공학사)

2024 서울대학교 융합과학부(공학박사)

2024~2025 삼성전자 책임연구원

2025~현재 광운대학교 로봇학부 조교수

관심분야: Constrained Motion Planning, Grasp and Motion Planning, Imitation Learning

[Fig. 1]

[Fig. 1]
Overview including how the TTCC model is utilized during the Flatten and Fold stages

[Fig. 2]

[Fig. 2]
Teleoperation tool used for collecting human demonstration data

[Fig. 3]

[Fig. 3]
Variation of L1 and KLD losses during ACT training Both losses rapidly decrease in the early stages and gradually converge stably up to 30,000 steps

[Fig. 4]

[Fig. 4]
Pipeline of quantitative towel state evaluation using RGB-D sensing and the Tunable Terminal Condition Classification (TTCC) model. Depth data from the Intel RealSense D415 camera are processed through 3D point reconstruction, plane fitting via RANSAC, residual map generation, and towel region extraction. The computed geometric metrics are then used as input to the TTCC model for adaptive policy switching between flattening and folding stages

[Fig. 5]

[Fig. 5]
Example images of three towel conditions, (a): fully flattened towel, (b): mildly wrinkled towel that does not affect the folding outcome, (c): heavily wrinkled or partially folded towel that is likely to degrade the final result

[Fig. 6]

[Fig. 6]
The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (Rfit > 0.85, σh < 7 mm, Δh < 18 mm). When all criteria are satisfied, the towel is classified as FOLD; otherwise, FLATTEN

[Fig. 7]

[Fig. 7]
The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (Rfit > 0.77, σh < 15 mm, Δh < 30 mm). When all criteria are satisfied, the towel is classified as FOLD; otherwise, FLATTEN

[Fig. 8]

[Fig. 8]
Example images of three towel conditions, (a): Before the πfold, (b): After the πfold, towel has been neatly folded in half, (c): After the πfold, towel is folded in half but the corners do not align, resulting in a twisted configuration

[Fig. 9]

[Fig. 9]
The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (0.47 ≤ ΔA ≤ 0.53, Ecorner ≤ 10mm). When all criteria are satisfied, the towel is classified as END; otherwise, FLATTEN

[Fig. 10]

[Fig. 10]
The TTCC model evaluates towel geometry from the RGB-D camera and determines the task based on tunable thresholds (0.45 ≤ ΔA ≤ 0.55, Ecorner ≤ 20mm). When all criteria are satisfied, the towel is classified as END; otherwise, FLATTEN

[Fig. 11]

[Fig. 11]
Experimental system setup

[Fig. 12]

[Fig. 12]
Sequential execution of flattening and folding policies under the TTCC framework. (a) Frames 1–4: the initial flattening phase, where the robot performs flattening motions according to the TTCC. (b) Frames 5–8: an additional flattening motion automatically triggered as the TTCC model detects that the towel has not yet met the termination conditions. (c) Frames 9–12: the folding phase activated once all quantitative visual metrics satisfy the TTCC thresholds, demonstrating autonomous policy switching within the proposed framework

[Table 1]

Hyperparameters for training

Hyperparameters Value
GPU RTX 5070 Ti
Batch size 64
Learning rate 1e-5
training steps 30,000
Chunk size 100
Optimizer Adam
Epochs 50

[Table 2]

Policy Switching Criteria (FLATTEN → FOLD)

metric strict threshold terminate condition relaxed threshold terminate condition
Rfit Rfit > 0.85 Rfit > 0.77
σh σh < 7mm σh < 15mm
Δh Δh < 18mm Δh < 30mm

[Table 3]

Policy Switching Criteria (FOLD → FLATTEN)

metric strict threshold terminate condition relaxed threshold terminate condition
ΔA 0.47 ≤ ΔA ≤ 0.53 0.45 ≤ ΔA ≤ 0.55
Ecorner Ecorner ≤ 10mm Ecorner ≤ 20mm

[Table 4]

Experimental Results

No Experiments Results
1 Flatten(πflat) only 23/30 (76.7%)
2 Folding(πfold) only 28/30 (93.3%)
3 Flatten(πflat) ↔ Fold (πfold) (manual switch) 19/30 (63.3%)
4 Flatten(πflat) ↔ Fold(πfold) (TTCC-based auto switch) 25/30 (83.3%)