[ ARTICLE ]

The Journal of Korea Robotics Society - Vol. 20, No. 2, pp.331-336

ISSN: 1975-6291 (Print) 2287-3961 (Online)

Print publication date 30 May 2025

Received 04 Dec 2024 Revised 22 Jan 2025 Accepted 04 Mar 2025

DOI: https://doi.org/10.7746/jkros.2025.20.2.331

한국어 음성인식 기반의 비정형 빈피킹 시스템

오윤택¹

; 송재복^†

Unstructured Bin-Picking System Based on Korean Speech Recognition

Yun-Taek Oh¹

; Jae-Bok Song^†

1Master Student, Mechanical Engineering, Korea University, Seoul, Korea ffjjgghh16@korea.ac.kr

Correspondence to: ^†Professor, Mechanical Engineering, Korea University, Seoul, Korea ( jbsong@korea.ac.kr)

Abstract

This study proposes a system for performing bin-picking tasks in unstructured environments using Korean speech recognition. In practice, unstructured bin-picking environments utilizing robots face challenges such as hardware performance limitations, AI model uncertainties, and non-experts’ operational inefficiencies. To address these issues, a method was designed to control bin-picking tasks through Korean voice commands, allowing users to monitor the system status or modify commands in real time during operation. In particular, a voice feedback system based on Large Language Model (LLM) was introduced to enable intuitive and efficient error correction and task optimization. By integrating Korean speech recognition with a bin-picking system through the optimization of multiple AI models, this system aims to enhance worker productivity and convenience while maximizing operational efficiency in unstructured environments.

Keywords:

Robot Vision, Bin Picking, Speech Recognition, Large Language Model

1. 서 론

협동로봇과 인공지능의 발전은 비정형 빈피킹 기술에 대한 연구를 가속화하고 있다. 그러나 일반 사용자들에게는 하드웨어 성능의 한계, AI 기반 시스템의 불확실성, 그리고 로봇 조작의 미숙함이 여전히 큰 제약으로 작용하고 있다. 비정형 빈피킹을 위해 사용되는 DexNet^[1], Contact-GraspNet^[2]과 같은 학습 모델은 실제 환경에서의 일반화 성능이 제한적이며, 이를 위한 사용자의 조정단계가 필요하다. 로봇 작업을 위한 음성인식 모델에 대한 연구^[3]의 지속적으로 이루어지고 있으나, 인식률 저하로 인한 작업명령의 오류, 다양한 고유명사에 대한 인식 불안정성 등 일반화 문제를 지니고 있다. 로봇 작업에서 음성인식의 활용 가능성을 높이기 위해서는 제한된 하드웨어 환경에서도 높은 인식 정확도를 유지할 필요가 있으나, 이러한 요건을 만족하는 음성인식 기반의 시스템에 대한 연구는 상대적으로 부족한 실정이다.

본 연구에서는 음성인식 기반의 직관적인 명령을 통해 이러한 조정을 간소화하고, 파지 작업을 포함한 빈피킹의 전체 동작 계획을 포함하여 실제 비정형 환경에서의 실용성을 높였다. 이를 검증하기 위하여 여러 AI 모델을 최적화하여 네트워크 연결 없이도 일반 사양의 PC에서 구동가능한 빈피킹 시스템을 설계하였다. 또한 음성입력, 이미지, 포인트 클라우드 데이터와 로봇팔을 활용한 실제 빈피킹 시스템을 구축하여 음성인식 기반 빈피킹 시스템의 전과정을 통해 실용성을 입증했다는 점에서 의의를 가진다. 이를 통해 비전문가도 복잡한 비정형 환경에서 효과적으로 로봇을 활용할 수 있는 가능성을 제시하였다.

본 논문의 구성은 다음과 같다. 2절에서는 AI 모델들의 선정과정 및 실험방법, 3절에서는 프롬프트의 구성 및 설계, 4절에서는 음성 추론 시스템의 성능 평가 및 비교, 마지막으로, 5절에서 결론을 도출한다.

2. 모델 선정 및 실험 방법

2.1 하드웨어 및 AI 모델 선정

2.1.1 하드웨어

본 연구의 한국어 음성인식 기반 비정형 빈피킹 시스템에 사용된 PC의 CPU는 i7-14700KF, GPU는 GeForce RTX 4090 [24 GB]을 사용하였으며, 구조광 카메라는 ZIVID사의 ZIVID 2+ M130, 협동로봇은 Universal Robots 사의 UR10e를 사용하였다. 여기에 다양한 물체를 파지하기 위해 KORAS Robotics의 툴체인징 시스템을 이용하여 대상 물체에 따라 2지 그리퍼(원형펙, T 조인트), 진공 그리퍼(사각펙), 평행 그리퍼(볼트부시)를 교체하며 사용하도록 하였다. 본 연구의 vision 기반 시스템은 같은 구조광 카메라 기반 시스템^[4]과 같은 방법으로 calibration 되었으며 이에 따라 측정된 물체는 ± 0.4 mm, 로봇 말단은 2.0 ± 0.4 mm 수준의 오차를 가진다.

2.1.2 AI 모델 선정

음성인식 기반 빈피킹 시스템을 구현하기 위해서는 이미지 분할, 이미지 분류, 음성 인식, 언어 처리를 수행하기위한 AI 모델들이 필요하다. 직접 학습시킨 분류 모델을 제외한 나머지 AI 모델은 범용성과 성능을 고려하여 Foundation model 중 PC 사양을 고려해 선정하였다.

2D 이미지 분할을 위해 Meta의 SAM (Segmentation Anything Model)^[5]에서 Vit_h를 사용한다. SAM을 통해 생성된 분할 마스크는 분류 정보가 없는 상태이므로, 대상 물체에 해당하는 마스크를 식별하고 분류하기 위해 34 MB의 CNN 구조 이미지 분류 모델을 설계하여 학습을 수행하였다. 음성 인식을 위한 STT 모델에는 OpenAI의 Whisper^[6] 중 medium 사이즈를 사용하고 언어 처리를 위한 LLM은 Meta의 Llama3.1^[7] 8B 모델을 사용한다. 선정된 Foundation 모델들이 사용하는 GPU memory는 각각 SAM (Vit_h): 6.8 GB, Whisper (medium): 5.1 GB, Llama3.1 (8B): 6.3 GB 이므로 총합은 18.2 GB이다.

선정된 AI 모델을 기반으로 한 시스템의 전체적인 구성은 [Fig. 1]과 같다.

[Fig. 1]

Block diagram of speech recognition-based bin picking system

2.2 실험 방법

본 연구의 빈피킹 실험 환경은 [Fig. 2]와 같이 구성되었다. [Fig. 3]의 다양한 형태를 가진 4종의 부품(원형펙, 사각펙, T조인트, 볼트부시)을 대상 물체로 선정하였고 로봇이 경유할 수 있는 임의의 3가지 위치(A, B, C)를 중간작업지로 설정하였으며, 3가지 색상의 상자(파란상자, 노란상자. 회색상자)를 목적지로 설정하였다. 중간작업지는 실제 빈피킹 과정 중간 검사, 가공 등의 공정을 고려하여 부여된 작업이다. 음성명령을 통해 대상 물체 중 하나를 파지하여 지정한 순서대로 중간 작업 위치를 경유하고, 최종 목적지로 정해진 개수만큼 옮길 수 있는지를 평가한다.

[Fig. 2]

Overview of the bin picking system

[Fig. 3]

Images classified by object using the learned classification model

음성인식 기반 빈피킹 시스템의 성능을 평가하기 위하여 일관된 입력을 위한 테스트 세트를 구축하였다. 5명의 실험자가 각각 20개의 빈피킹 관련 음성명령을 녹음하였으며, Whisper 모델을 사용해 텍스트로 변환되었다. 총 100개의 명령어 중 0번부터 69번까지는 대상 물체와 개수가 직접적으로 제시된 70가지 명령어이며 70번부터 99번까지는 간접적으로 제시되어 보다 높은 난이도의 수학적 추론이 필요한 30가지 명령어로 구성되어 있다. 변환 결과는 [‘대상 물체’, 작업 개수, 경유지, 목적지]의 구조로 전달되며, 로봇은 변환된 명령을 기반으로 빈피킹 작업을 수행한다. 물체의 개수를 기반으로 간접 제시된 명령의 경우 원형펙 6개, 사각펙 4개, T조인트 7개, 볼트부시 9개인 상황을 가정하여 실험을 진행하였다. 테스트 세트[Table 1]는 시스템의 성능을 정량적으로 평가하는데 중요한 기초를 제공한다.

[Table 1]

Sample commands from STT-converted bin picking system test set

본 연구에서는 빈피킹 작업뿐만 아니라 작업 중 발생할 수 있는 오류를 음성과 LLM을 활용하여 피드백할 수 있도록 하였다. 이는 사용자가 오류 내용을 직접 확인하고 프로그램의 파라미터를 조정하는 기존의 방식과 달리, 오류 상황에 대한 피드백을 음성을 통해 사용자가 직관적으로 시스템에 제공하는 상호작용 기능을 구현한 것이다. 빈피킹 작업 중 오류가 발생할 경우, 오류 내용은 LLM에 전달되며 해당 오류에 맞는 추가 명령을 사용자에게 요청한다. 본 연구에서 구현한 오류 피드백 기능은 ‘물체 마스크 미검출,’ ‘물체 자세 추정 실패,’ ‘물체 파지 실패’의 세 가지 주요 오류 상황에 대응할 수 있다. 사용자는 이러한 피드백 기능을 이용해 이미지 파라미터 조정, 물체자세 추정 파라미터 조정, 작업 재시도와 같은 적절한 조치를 취할 수 있다. 이 기능의 유효성을 검증하기 위해 임의의 오류 상황을 시뮬레이션하고 음성 피드백을 통해 오류를 해결하는 과정을 평가한다.

3. 빈피킹 시스템을 위한 프롬프트 설계

3.1 빈피킹 시스템을 위한 프롬프트 설계

LLM의 출력은 사용된 모델과 입력에 따라 크게 달라지므로, 특정 모델과 환경에 맞게 프롬프트를 조정하는 과정이 필요하다. 프롬프트 설계 방식은 주로 Zero-shot prompting과 Few-shot prompting으로 분류되며, 본 연구에서는 비교적 입력 형태가 예측 가능하고 출력 형태가 제한적인 빈피킹 작업의 특성을 고려하여 프롬프트에 Example set을 함께 입력하는 Few-shot prompting 방식이 적합할 것이라는 가설을 세웠다. 이를 검증하기 위해 Lang chain 프레임워크를 활용하여 LLM 알고리즘을 설계하였다. 프롬프트는 [Table 2]와 같으며 Prefix, Input data, Description, Example set 4가지 구성요소로 이루어져 있다.

[Table 2]

Bin picking prompt

3.2 오류 피드백을 위한 프롬프트 구조 설계

오류 피드백을 위한 프롬프트는 물체 마스크 미검출, 물체 자세 추정 실패에 대한 프롬프트로 구성되어 있다. 본 연구에서는 하드웨어의 제한으로 인한 성능 한계를 극복하기 위하여 오류 발생 위치에 따라 Camera error prompt [Table 3], Registration error prompt [Table 4] 중 하나를 선택적으로 사용하도록 설계하였다. 각 프롬프트는 Prefix, Parameters, Description의 3가지 구성요소로 이루어져 있으며, 입력에 따라 필요한 파라미터의 가중치를 조정한다.

[Table 3]

Camera error prompt

[Table 4]

Registration error prompt

‘물체 마스크 미검출’ 오류는 SAM에서 이미지 마스크를 제대로 분할하지 못한 경우 발생한다. SAM의 결과는 환경의 작은 변화에도 달라질 수 있으므로, 이미지 관련 파라미터인 밝기와 대비 값의 가중치 및 마스크 분할 임계 값을 수정하여 원하는 결과를 얻을 수 있도록 하였다. ‘물체 자세 추정 실패’ 오류는 포인트 클라우드 데이터와 CAD 모델의 ICP registration이 실패했을 때 발생한다. 이를 해결하기 위해 초기 정렬이 중요한 ICP의 특성을 고려해 물체의 초기 위치를 회전시킬 수 있도록 하거나 물체의 복잡도에 따라 ICP의 반복횟수를 조정할 수 있게 하였고, 잘못된 마스크가 선택된 경우 다른 마스크 이미지를 불러올 수 있는 기능을 선택할 수 있다. 이와 같은 음성 기반 피드백으로 사용자가 코드나 알고리즘에 대한 이해 없이도 직관적으로 오류를 수정할 수 있도록 하였다.

4. 실 험

4.1 프롬프트 및 모델에 따른 성능 비교 실험

음성기반 빈피킹 작업을 위한 프롬프트가 실제로 [Table 1]의 테스트 세트를 의도된 로봇 명령으로 정확히 변환하는지를 검증하기 위한 실험을 진행하였다. 이때 few-shot prompt의 적절한 example 개수 선정을 위하여 LLM 프롬프트의 example 개수가 성능에 미치는 영향을 우선 실험하였다. [Table 2]의 example set을 0개 부터 30개까지 늘려가며 100개의 테스트 세트의 성공여부를 Score로 표기하였다.

[Table 5]의 결과처럼 예시의 개수와 성능은 비례하지 않고 오히려 예시가 지나치게 많아지는 경우 LLM의 동작에 장애가 발생하는 것을 확인하였다. 예시 개수의 증가에도 불구하고 비교적 높은 난이도의 추론이 필요한 70번 이후의 명령에 대한 성능은 크게 개선되지 않는 것을 확인하였다. 이와 같은 결과는 Llama 3.1 8B 모델의 추론 및 계산 능력의 한계로 보이며, 이를 확인하기 위해 10개의 예제를 가진 프롬프트를 사용해 다른 구조를 가진 foundation model인 Gemma2 9B^[8] 모델과 더 큰 파라미터 크기를 가진 Llama 3.1 70B 모델과의 비교 실험을 진행하였다.

[Table 5]

Performance comparison based on the number of examples (Score: total correct out of 100, Score (>70): correct high-difficulty commands 70–99)

[Table 6]의 실험 결과에 따르면, 모델의 파라미터 크기가 성능에 영향을 미침을 확인할 수 있었다. 특히, Llama 3.1 70B 모델은 80번 이후의 명령에 대해서 더 나은 성능을 보였으나, Gemma2 9B 모델은 Llama 3,1 8B 모델과 유사한 결과를 나타냈다.

[Table 6]

Performance comparison of the typo-free test set using Gemma2 9B and Llama 3.1 70B (Score: total correct out of 100, Score (>70): correct high-difficulty commands 70–99)

4.2 음성인식 기반 빈피킹 오류 피드백 실험

음성인식 기반의 오류 피드백 기능의 효과를 검증하기 위해, 카메라 파라미터, SAM 파라미터를 임의로 조정하고 Registration의 초기 정렬과정을 생략하여 다양한 오류 상황을 시뮬레이션 하였다. 이후 음성 명령을 통해 각 파라미터의 가중치를 조정하는 과정을 실험하였으며, 그 결과를 [Fig. 4], [Fig. 5], [Fig. 6]에 나타내었다.

[Fig. 4]

Speech recognition-based image error feedback

[Fig. 5]

Speech recognition-based segmentation error feedback

[Fig. 6]

Speech recognition-based registration error feedback

실험결과와 같이 실제 음성인식 기반 피드백이 정상적으로 작동하였다. 다만 입력의 형식이 일반화되지 않으므로 Zero-shot prompt를 기반으로 하였고, 이에 따라 [Fig. 5]에서의 Brightness, Contrast 가중치의 증가와 같이 의도치 않은 파라미터의 변화가 발생하였다. 이러한 파라미터의 변화가 생긴 경우 “파라미터를 초기화해줘” 라는 명령으로 파라미터를 기본값으로 초기화할 수 있는 것을 확인하였다.

5. 결 론

본 연구는 제한된 환경에서 음성인식 기반의 비정형 빈피킹 시스템을 구현하기 위해 여러 AI 모델을 활용한 음성인식 및 음성 피드백을 기반으로 하는 빈피킹 시스템을 제안하고 검증하였다. 주요 결론은 다음과 같다.

1. [Table 5]의 실험을 통해 제시한 프롬프트 구조로 수학적 추론이 불필요한 테스트 명령에 대해서는 10개의 예시만으로도 70가지 명령이 전부 수행 가능함을 보였다. [Table 6]의 대규모 모델(Llama 3.1 70B)을 활용한 실험에서 성능이 개선되었으나, 해결되지 않는 명령들은 여전히 존재하였으며, 이는 파라미터 크기 증가 등의 개선 외에 간접 추론 작업에 특화된 추가 학습이나 최적화의 필요성을 시사한다.
2. 음성 명령을 통해 빈피킹 과정에서 발생하는 주요 오류를 효과적으로 수정할 수 있음을 실험적으로 확인하였다. 사용자는 프로그램이나 파라미터에 대한 이해 없이도 자연어 기반의 명령을 통해 시스템과 직관적으로 상호작용할 수 있었으며, 이는 사용자 경험과 시스템의 실질적인 사용성을 크게 향상시켰다

본 연구의 결과는 음성인식을 기반으로 한 빈피킹 작업의 실질적인 적용 가능성을 제시하며, 향후 연구에서는 간접 추론 작업에 대한 모델 최적화와 범용성을 위한 보다 경량화 된 모델에서의 성능 향상을 달성할 수 있는 알고리즘 개발이 필요할 것이다.

Acknowledgments

This research was supported by the MOTIE under the Industrial Foundation Technology Development Program supervised by the KEIT (No. 20015198).

References

J. Mahler, M. Matl, X. Liu, A. Li, D. Gealy, and K. Goldberg, “Dex-Net 3.0: Computing Robust Vacuum Suction Grasp Targets in Point Clouds Using a New Analytic Model and Deep Learning,” 2018 IEEE International Conference on Robotics and Automation (ICRA), Brisbane, QLD, Australia, pp. 5620-5627, 2018. [https://doi.org/10.1109/ICRA.2018.8460887]
M. Sundermeyer, A. Mousavian, R. Triebel, and D. Fox, “Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes,” 2021 IEEE International Conference on Robotics and Automation (ICRA), Xi’an, China, pp. 13438-13444, 2021. [https://doi.org/10.1109/ICRA48506.2021.9561877]
A. S. Dhanjal and W. Singh, “A comprehensive survey on automatic speech recognition using neural networks,” Multimedia Tools and Applications, vol. 83, pp. 23367-23412, Aug., 2023. [https://doi.org/10.1007/s11042-023-16438-y]
Y. Oh, M. Na, and J.-B. Song, “Calibration of robot DH parameters based on structured light camera,” 2024 24th International Conference on Control, Automation and Systems (ICCAS), Jeju, Republic of Korea, pp. 1614-1618, 2024. [https://doi.org/10.23919/ICCAS63016.2024.10773297]
A. Kirillov, E. Mintun, N. Ravi, H. Mao, C. Rolland, L. Gustafson, T. Xiao, S. Whitehead, A. C. Berg, W.-Y. Lo, P. Dollár, and R. Girshick, “Segment anything,” arXiv:2304.02643, 2023. [https://doi.org/10.48550/arXiv.2304.02643]
A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, “Robust Speech Recognition via Large-Scale Weak Supervision,” arXiv:2212.04356, 2022. [https://doi.org/10.48550/arXiv.2212.04356]
A. Grattafiori, A. Dubey, A. Jauhri, A. Pandey, A. Kadian, et al., “The llama 3 herd of models,” arXiv:2407.21783, 2024. [https://doi.org/10.48550/arXiv.2407.21783]
Gemma Team, “Gemma 2: Improving Open Language Models at a Practical Size,” arXiv:2408.00118, 2024. [https://doi.org/10.48550/arXiv.2408.00118]

오 윤 택

2023 동국대학교 기계로봇에너지공학과(학사)

2024~현재 고려대학교 기계공학과(석사)

관심분야: 로봇 비전, AI 기반 로봇 매니퓰레이션, 로봇 기반 조립

송 재 복

1983 서울대학교 기계공학과(공학사)

1985 서울대학교 기계공학과(공학석사)

1992 MIT 기계공학과(공학박사)

1993~현재 고려대학교 기계공학부 교수

관심분야: 로봇의 설계 및 제어, 협동로봇, 중력보상 로봇, AI 기반 로봇 매니퓰레이션