고속 푸리에 합성곱을 이용한 파지 조건에 강인한 촉각센서 기반 물체 인식 방법
CopyrightⓒKROS
Abstract
The accurate object recognition is important for the precise and accurate manipulation. To enhance the recognition performance, we can use various types of sensors. In general, acquired data from sensors have a high sampling rate. So, in the past, the RNN-based model is commonly used to handle and analyze the time-series sensor data. However, the RNN-based model has limitations of excessive parameters. CNN-based model also can be used to analyze time-series input data. However, CNN-based model also has limitations of the small receptive field in early layers. For this reason, when we use a CNN-based model, model architecture should be deeper and heavier to extract useful global features. Thus, traditional methods like RNN-based and CNN-based model needs huge amount of learning parameters. Recently studied result shows that Fast Fourier Convolution (FFC) can overcome the limitations of traditional methods. This operator can extract global features from the first hidden layer, so it can be effectively used for feature extracting of sensor data that have a high sampling rate. In this paper, we propose the algorithm to recognize objects using tactile sensor data and the FFC model. The data was acquired from 11 types of objects to verify our posed model. We collected pressure, current, position data when the gripper grasps the objects by random force. As a result, the accuracy is enhanced from 84.66% to 91.43% when we use the proposed FFC-based model instead of the traditional model.
Keywords:
Tactile Sensor, Gripper, Object Recognition, Fast Fourier Convolution (FFC)1. 서 론
최근 딥러닝의 빠른 발전으로 비전 분야에서 이를 활용한 다양한 비전기반 물체인식 알고리즘[1]이 개발되고 있다. 이러한 연구 방향에 따라 로봇 연구에서도 사람처럼 정확하고 다양한 활용을 하기 위하여 비전기반 물체 인식 알고리즘을 로봇에 적용하여 물체인식을 하기 위한 시도가 이어지고 있다[2-9]. 이러한 비전기반 알고리즘은 이미지 센서 데이터를 기반으로 하므로 조명에 의존적이기 때문에 어둡거나 빛이 없는 경우 물체 인식률 이 크게 떨어진다는 한계점이 있다[10]. 따라서, 조명에 의존적이지 않은 물체인식방법에 대한 필요성이 대두되었다. 빛에 영향을 받지 않는 방법 중 하나는 그리퍼에 촉각 센서를 부착하여 그 센서 신호를 이용하는 방법이 있다.
촉각을 이용한 인식은 비전만큼이나 사람이 일상에서 흔히 사용하는 방식이며, 중요한 역할을 한다. 사람의 촉각은 물체와 직접적인 접촉을 통해 마찰, 무게 등 물체 표면의 다양한 물리적 특성을 인식할 수 있다. 이처럼 로봇 연구에도 촉각 센서를 활용하면 물체 인식 뿐만 아니라 추가적인 물리적 특성 예측을 하여 물체 조작에 큰 도움을 줄 수 있다.
이 연구에 사용된 촉각 센서데이터는 샘플링 레이트를 갖는 시계열 데이터로 짧은 시간동안 많은 데이터 포인트를 출력한다. 이에 더해 센서의 개수만큼 데이터 량이 증가한다. 또, 촉각센서신호 역시 시계열 데이터이기 때문에, 신호처리방법을 통하여 해당 신호에서 중요한 특징들(Root Mean Square, Peak-to-Peak, Kurtosis등)[11]을 추출한 다음 분류기를 통하여 물체를 인식하여야 한다. 이러한 방법은 미리 추출한 특징만을 사용하여 분류하기 때문에 추출하지 않은 주요 인자가 존재한다면 인식률이 떨어질 수 있다. 하지만 데이터 손실을 막기 위해 전혀 처리되지 않은 원시 데이터(raw signal)를 통해 특징들을 추출하게 하여 분류기를 학습한다면 중요도가 낮은 특징을 추출할 가능성도 있고 학습에 사용되는 메모리, 학습시간 및 학습 정확도 측면에서 매우 비효율적일 것이다. 인식 정확도가 높은 큰 모델을 사용할 경우 로봇에 사용되는 임베디드 보드에서 구동할 때 무리가 있다[12]. 따라서, 촉각 센서를 활용하여 물체인식을 효과적으로 하기 위해 로봇에 탑재하여 구동 하는 임베디드 제어기가 감당할 수 있는 수준인 경량화 된 모델을 이용해 효율적인 특징을 추출하는 것이 필요 하다[13].
기본적인 다층 퍼셉트론(Multilayer Perceptron, MLP)은 데이터의 처음부터 모든 부분을 활용하지만 학습해야 하는 가중치 수가 과도하게 많아 비효율적이며, 합성곱 신경망(Convolutional Neural Network, CNN)은 효율적이긴 하지만 좁은 수용 영역이 쌓여 후반 레이어에서 데이터의 전체적인 정보를 보고, 순환 신경망(Recurrent Neural Network, RNN)은 시계열데이터에 특화되어 있지만 장단기 메모리(Long Short-Term Memory, LSTM)의 특성상 초반에 입력된 정보는 레이어를 지날수록 사라지는 문제가 있다. 본 논문에서는 기본적인 딥러닝 구조의 단점을 보완하고 효율적인 방법으로 시계열 데이터인 촉각센서 데이터를 이용해 물체인식을 하는 방법을 소개한다.
물체 인식을 위한 신호는 시간 영역에서 특징을 추출하기도 하고, 푸리에 변환을 통해 주파수 영역에서 특징을 추출하여 활용하기도 한다. 고속 푸리에 합성곱(Fast Fourier Convolution, FFC)[14]은 신호 특징 추출에 자주 활용되는 푸리에 변환을 활용한 딥러닝 레이어이다. 고속 푸리에 합성곱은 단순 푸리에 변환을 입력으로 사용한 것과 다르게 해당 층을 거칠 때 마다 시간영역의 특징과 주파수 영역의 특징을 조합한 비선형 특징을 학습 가능하다.
기존의 물체인식 알고리즘은 비전 데이터기반으로 개발 되어있고 빛에 의존적이며 모델의 크기가 소형제어기에 활용하기 힘든 큰 모델이다. 따라서, 활용가능성이 높은 촉각센서 데이터로부터 임베디드 제어기에 사용할 만큼 작지만 좋은 성능을 가지는 물체인식 알고리즘이 필요하다. 본 연구에서는 고속 푸리에 합성곱를 사용하여 촉각센서데이터로부터 효율적인 특징추출을 통해 다양한 물체를 높은 정확도로 인식하는 알고리즘을 제안한다.
본 논문의 구성은 다음과 같다. 2장에서는 데이터 취득방법 및 제안모델을 설명하고, 3장에서는 제안한 모델의 성능을 검증 및 분석하였다. 4장에서 본 논문의 내용을 요약하고 결론 및 추후 연구방향을 제시한다.
2. 연구방법
2.1 사용한 장비
2.2 데이터 취득
[Fig. 3]에 해당하는 다양한 모양 및 재질을 갖는 11개의 물체에 대한 데이터를 취득하였으며 물체 별 특성은 [Table 1]에 정리하였다. 후속 연구를 고려하여 모양은 비슷하지만 다양한 물성을 가지는 물체들로 선정하였다. 각 물체당 그리퍼에 100~350 mA의 목표 전류 값을 무작위로 지정하여 15번씩 파지를 하여 데이터를 취득하였다. 최소 전류 값에서부터 파지 모션이 약 5초가 걸리게 된다. 따라서, 각각 촉각 센서의 압력 데이터, 그리퍼의 현재위치, 전류값을 31.25 Hz로 5초동안 취득하였으며 각 데이터는 157개의 측정값을 가지는 시계열 데이터로 구성된다.
해당 데이터는 로봇 제어 PC에서 그리퍼에 파지 명령을 줌과 동시에 취득 되기 시작한 데이터이며, [Fig. 4]처럼 시작과 동시에 위치 엔코더의 값이 0부터 일정하게 증가하는 것을 확인할 수 있다. 압력센서의 데이터를 통해 처음 물체에 닿는 순간을 파악할 수 있으며, 일정한 위치 엔코더 데이터는 파지가 끝났음을 의미한다.
2.3 Fast Fourier Convolution
FFC는 크게 두가지 경로로 구성되어 있는 연산자이다. 첫번째로 지역(spatial)경로는 일반적인 합성곱으로 인접한 데이터에 필터가 적용되어 결과가 나오게 된다. 두번째로 전역(spectral)경로는 푸리에 변환 이후 주파수 영역에서 필터가 적용된다. 이 두가지 경로의 정보가 내부에서 교환되어 상호 보완하는 수용영역(receptive field)을 가진다.
FFC에서 특성추출시 일반 합성곱을 이용하지만 전역특성 추출 시 스펙트럼 변환[14]을 통해 고속 푸리에 변환[17] 후 실수 부분과 허수 부분을 채널방향으로 연결시킨 다음 합성곱을 적용한다. 이후 다시 실수부와 허수부를 합쳐 복소수 값을 역 고속 푸리에 변환(IFFT)하여 시간영역 신호형태로 변환된다. 이로 인해 인공신경망의 첫번째 층부터 넓은 수용 영역을 가지도록 한다. 또 생략 연결(skip connection)[18]이 적용되어 깊은 모델 구성 시에도 정보가 사라지지 않도록 한다.
이러한 복잡한 구조에도 고속 푸리에 변환 연산자는 미분가능하기 때문에 심층모델 학습시 역전파를 통한 종단간(end-to-end) 학습이 가능하다. 또한, 신호관련 데이터에 적용시 동일한 학습 변수들을 효율적으로 사용하기 때문에 비교적 적은 학습 변수만을 사용하여도 양질의 신호적 특징 추출을 통하여 높은 성능을 보이게 된다.
2.4 Proposed Model
최종 분류모델은 [Fig. 5]와 같이 특징추출기와 분류기를 각각 FFC, MLP로 구성하였다. 16개의 FFC를 특징추출기로 사용하였고 각 FFC의 출력 값은 입력 값의 크기와 동일하다. 이 결과에 합성곱을 취하여 변환된 시간영역에서의 지역 및 전역 특징을 추출할 수 있으며[14], 매 FFC 연산에서 층마다 전역 특성을 추가로 모아둔 후, 이 값에 합성곱을 취하였다. 최종적으로 FFC층의 결과로 나온 특징과 전역 특성을 합친(Concatenate) 후 이를 입력으로 하는 MLP를 사용하여 분류기를 구성하였다. MLP분류기는 일반적으로 많이 사용하는 완전 연결 층(Fully connected layer), 배치 정규화(Batch normalization), 활성함수(Activation function)를 2번 반복하여 구성하였다.
3. 실험결과 및 분석
촉각 센서가 부착된 로봇을 이용하여 로봇이 물체를 잡았을 때, 힘과 상관없이 취득되는 신호만으로 물체를 구분하는 제안한 모델과 기본 모델들, 고속 푸리에 변환을 추가 입력 값으로 받는 기본 모델을 비교한다. 비교에 사용되는 모델은 널리 사용되는 연산자, 배치 정규화, Rectified Linear Unit (ReLU), 생략연결로 구성된 기본 인공 신경망(Artificial Neural Network, ANN), 합성곱 신경망, 순환 신경망, 그리고 고속 푸리에 합성곱에 다층 페셉트론을 붙여 분류하는 네트워크를 사용하였으며 동일한 조건에서 비교하기 위하여 학습데이터, 테스트데이터, 모델의 학습 가중치의 개수를 약 40만개 수준으로 통일하였다. 모델별 정확한 학습 가중치의 개수는 [Table 2]에 정리하였다. 인공신경망은 가장 기본이 되는 딥러닝 구조이며, 일렬로 나열된 입력 값을 받아 완전연결 레이어를 거쳐 출력 값을 계산하고, 이 값을 미리 알고 있는 레이블과 비교한 손실을 줄이기 위한 방향으로 가중치와 바이어스를 학습하는 모델이다. 합성곱 신경망에서는 필터가 입력 데이터를 지나가며 합성곱을 통해 데이터의 비선형성을 부여하여 특성을 추출하고 분류기를 학습한다. 순환신경망은 시계열 데이터에 특화된 모델로, 장단기 메모리 셀을 통해서 레이어를 거치면서 초기 입력된 정보보다 최근에 계산된 정보를 가중치를 두고 판단하도록 하는 모델이다. 비교에 사용된 고속 푸리에 합성곱 모델은 제안모델과 다르게 고속 푸리에 합성곱 연산자만을 사용하여 특징을 추출하여 분류기로 분류한 모델이다.
3.1. 추가되는 입력 데이터에 따른 결과
11개의 물체를 분류하기 위하여 촉각센서 데이터만 사용하였을 때, 전류 값을 추가하였을 때, 그리고 현재 그리퍼의 위치 값을 추가하였을 때 분류성능을 비교한다. [Table 3]에서 전체적으로 입력으로 받는 데이터가 다양해질 수록 분류성능이 증가하였고, 압력/전류/위치 모두 사용한 기준으로 비교모델들의 분류 성능은 12.86%~82.27% 사이의 값의 결과를 보였다. 최대 분류 성능이 80%를 조금 넘는 정도에서 제안된 모델을 통해 91.43%까지의 성능 개선을 이끌어냈다. 특이점으로 합성곱 신경망의 결과를 보면 모든 경우에서 아주 낮은 성능을 볼 수 있는데 데이터 길이에 비하여 크게 짧은 합성곱 필터로 인하여 수용영역이 충분하지 않아 발생한 문제로 보인다. 제안 모델에서는 이러한 문제점을 고속 푸리에 합성곱과 전역 특징 추출로 첫번째 층부터 데이터의 전체적인 형태와 세부적인 특징을 동시에 보도록 유도하기 때문에 다른 모델에 비하여 높은 성능을 보이는 것을 확인할 수 있다.
3.2 물체 개수 별 분류 성능
딥러닝 모델은 분류할 데이터의 클래스가 늘어날수록 분류성능이 급격하게 떨어지는 것이 일반적이다. 따라서, 해당 섹션에서는 분류할 물체의 개수를 [Fig. 3]에서 앞 번호부터 5, 7, 9, 11개를 선택하여 분류 성능을 비교한다.
[Table 4]와 같이 비교 모델들은 분류할 개수가 늘어날수록 분류성능이 약 10~45%까지 낮아지는 것을 확인할 수 있다. 하지만 FFC를 활용한 제안 모델은 비교적 낮은 성능저하를 가지며 분류 개수가 늘어나는 것을 확인할 수 있다.
3.3 고속 푸리에 변환을 사용한 기본모델과의 비교
고속 푸리에 변환 전처리가 분류성능에 영향을 미치는 정도를 확인하기 위하여 시간영역의 원시데이터와 이 데이터를 고속 푸리에 변환한 주파수 영역의 데이터를 동시에 입력 값으로 갖는 기본 모델과 분류성능을 비교하였다. [Fig. 6]과 [Table 5]는 11가지의 물체를 다양한 힘과 속도로 파지 시 얻을 수 있는 로봇의 위치, 전류 값, 촉각센서의 압력 값을 이용하여 필요시 전처리 후 학습된 각모델의 분류 성능을 혼동 행렬 및 표로 정리하였다. 기본모델에서도 고속 푸리에 변환으로 인해 분류성능이 올랐으나 제안모델보다 약 10%낮은 분류성능을 보인다. 이를 통해 제안 모델이 단순히 고속 푸리에 변환으로 인한 차이가 아닌 네트워크의 효율적인 구조와 지역정보와 전역정보를 매 층마다 적절히 섞어주며 효과적인 특징을 학습하는 것으로 보인다.
[Fig. 6]의 혼동 행렬에서 5번 물체와 7번 물체를 제안한 모델 뿐만 아니라 모든 분류모델이 잘 분류 해내지 못한다.이 두 물체는 PVC관과 플라스틱 통이며, 모양이 원통으로 같을 뿐만 아니라 지름도 동일하며 재질 역시 모두 단단한 플라스틱에 해당된다.
[Fig. 7]의 두 그래프는 5번 물체와 7번 물체를 동일한 목표 전류로 파지 하였을 때 취득되는 데이터이고 [Fig. 8]의 그래프는 위의 두가지 물체와 구분이 잘되는 2, 8번 물체를 동일 전류로 파지 하였을 때 취득되는 데이터이다. 5번물체와 7번 물체의 지름이 같기 때문에 파지가 끝났을 때의 위치 엔코더의 값이 약 400으로 동일한 것을 확인할 수 있다. 또, 물체의 재질이 비슷하여 압력데이터의 값이 비슷하게 활성화되고 데이터의 모양도 비슷한 것을 확인할 수 있다. 반면에 2번, 8번 물체의 데이터는 육안으로 보아도 차이가 있음을 알 수 있다. 또 5번 물체와 7번 물체는 센서가 아닌 직접 손으로 잡아 보았을 때에도 구분이 잘 안되는 비슷한 특성을 가지고 있다. 이러한 이유로 파지 후 흔들어 보거나 추가적인 방법을 통해 인식성능을 올려야 할 것으로 보인다.
4. 결 론
촉각 센서를 활용하여 물체 인식을 하는 방법은 빛이 없는 상황에서 촉각 센서 만을 부착하여 물체 인식이 가능하고 또는 비전 기반 방법과 결합하여 인식을 더욱 강건하게 만들 수 있다.
본 논문에서는 신호적 특성을 잘 추출하는 FFC 연산자를 활용하여 제한된 상황이 아닌 다양한 힘으로 측정하였을 때에도 높은 성능을 보이는 모델을 제안하였다. 해당 방법은 학습 가중치가 적은 작은 모델을 활용하고 있으며, 리소스가 제한되는 임베디드 제어기에 활용될 수 있을 것으로 기대된다.
추후 연구로는 촉각 센서와 제안 모델을 기반으로 파지 물체의 물리적 특성(강성, 형태, 자세)을 인식하는 연구를 진행하고자 한다.
Acknowledgments
This study is a part of the research project, “Development of core machinery technologies for autonomous operation and manufacturing (NK236E)”, which has been supported by a grant from National Research Council of Science & Technology under the R&D Program of Ministry of Science, ICT and Future Planning
This research was financially supported by the Institute of Civil m Military Technology Cooperation funded by the Defense Acquisition Program Administration and Ministry of Trade, Industry and Energy of Korean government under grant No. 19-CM-GU-01
References
- S. S. A. Zaidi, M. S. Ansari, A. Aslam, N. Kanwal, M. Asghar, and B. Lee, “A survey of modern deep learning based object detection models,” Digital Signal Processing, vol. 126, no. 30, June, 2022. [https://doi.org/10.1016/j.dsp.2022.103514]
- S. Chatterjee, F. H. Zunjani, and G. C. Nandi, “Real-time object detection and recognition on low-compute humanoid robots using deep learning,” 2020 6th International Conference on Control, Automation and Robotics (ICCAR), pp. 202-208, Singapore, 2020.
- Q. Bai, S. Li, J. Yang, Q. Song, Z. Li, and X. Zhang, “Object detection recognition and robot grasping based on machine learning: A survey,” IEEE Access, vol. 8, 2020. [https://doi.org/10.1109/ACCESS.2020.3028740]
- M. Zambelli, Y. Aytar, F. Visin, Y. Zhou, and R. Hadsell, “Learning rich touch representations through cross-modal self-supervision,” arXiv preprint arXiv:2101.08616, , 2021.
- A. H. Wei and B. Y. Chen, “Robotic object recognition and grasping with a natural background,” International Journal of Advanced Robotic Systems, vol. 17, no. 2, 2020. [https://doi.org/10.1177/1729881420921102]
- X. Chen and J. Guhl. “Industrial robot control with object recognition based on deep learning,” Procedia CIRP, vol. 76, pp. 149-154, 2018. [https://doi.org/10.1016/j.procir.2018.01.021]
- E. Martinez-Martin and A. P. del Pobil, “Object detection and recognition for assistive robots: Experimentation and implementation,” IEEE Robotics & Automation Magazine, vol. 24, no. 3, pp. 123-138, 2017. [https://doi.org/10.1109/MRA.2016.2615329]
- S. Liu, H. Xu, Q. Li, F. Zhang, and K. Hou, “A Robot Object Recognition Method Based on Scene Text Reading in Home Environments,” Sensors, vol. 21, no. 5, 2021. [https://doi.org/10.3390/s21051919]
- A. Yamaguchi and C. G. Atkeson, “Combining finger vision and optical tactile sensing: Reducing and handling errors while cutting vegetables,” 2016 IEEE-RAS 16th International Conference on Humanoid Robots (Humanoids), pp. 1045-1051, Cancun, Mexico, 2016. [https://doi.org/10.1109/HUMANOIDS.2016.7803400]
- Z.-Q. Zhao, P. Zheng, S.-T. Xu, and X. Wu, “Object detection with deep learning: A review,” IEEE Transactions on Neural Networks and Learning Systems, vol. 30, no. 11, Nov., 2019. [https://doi.org/10.1109/TNNLS.2018.2876865]
- P. Lang, X. Fu, M. Martorella, J. Dong, R. Qin, X. Meng, and M. Xie, “A comprehensive survey of machine learning applied to radar signal processing,” arXiv preprint arXiv:2009.13702, , 2020.
- J. Shabbir and T. Anwer, “A survey of deep learning techniques for mobile robot applications,” arXiv preprint arXiv:1803.07608, , 2018.
- J.-J. Kim, D.-Y. Koh, and J. Park, “Obstacle Avoidance for Mobile Robots Using End-to-End Learning,” Journal of Institute of Control, Robotics and Systems, vol. 25, no. 6, pp. 541-545, 2019. [https://doi.org/10.5302/J.ICROS.2019.19.0024]
- L. Chi, B. Jiang, and Y. Mu, “Fast fourier convolution,” Advances in Neural Information Processing Systems, 33, pp. 4479-4488, 2020, [Online], https://papers.nips.cc/paper/2020/file/2fd5d41ec6cfab47e32164d5624269b1-Paper.pdf, .
- ROBOTIS Co. Ltd., [Online], https://www.robotis.com, , Accessed: March 22, 2022.
- Pressure Profile Systems, Inc. (PPS), [Online], https://pressureprofile.com, , Accessed: March 22, 2022.
- G. D. Bergland, “A guided tour of the fast Fourier transform.” IEEE Spectrum, vol. 6, no. 7 pp. 41-52, July, 1969. [https://doi.org/10.1109/MSPEC.1969.5213896]
- K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016. [https://doi.org/10.1109/CVPR.2016.90]
2018 울산과학기술대학교 기계공학과(학사)
2019~현재 포항공과대학교 기계공학과(통합과정)
관심분야: Manipulation, Deep Learning, Simulation
2006 전북대학교 전자 및 정보공학부(학사)
2008 KAIST 로봇공학 학제(석사)
2015 KAIST 전기 및 전자공학과(박사)
2015~2017 한국과학기술연구원 박사 후 연구원
2017~현재 한국기계연구원 선임연구원
관심분야: AI for Robotics, Manipulation
2006 아주대학교 기계공학과(학사)
2013 KAIST 기계공학과(석박통합)
2013~2017 삼성중공업 책임연구원
2017~현재 한국기계연구원 선임연구원
관심분야: Design, dynamics and control of mobile robot
2000 KAIST 전기 및 전자공학과(학사)
2002 KAIST 전기 및 전자공학과(석사)
2009 KAIST 전기 및 전자공학과(박사)
2009~현재 한국기계연구원 책임연구원
관심분야: Intelligent Control, Robotics, and Magnetic Levitation Systems
2001 서울대학교 기계항공학과(학사)
2008 Mechanical Engineering, University of Michigan, Ann Arbor.(석사)
2010 Mechanical Engineering, University of Michigan, Ann Arbor.(박사)
2021~현재 포항공과대학교 부교수
관심분야: Artificial Intelligence for Mechanical Systems, Machine Healthcare, Smart Manufacturing, and Robotics