[ ARTICLE ]

The Journal of Korea Robotics Society - Vol. 20, No. 2, pp.260-267

ISSN: 1975-6291 (Print) 2287-3961 (Online)

Print publication date 30 May 2025

Received 24 Oct 2024 Revised 24 Nov 2024 Accepted 27 Nov 2024

DOI: https://doi.org/10.7746/jkros.2025.20.2.260

스테레오 RGB-E를 이용한 동적 환경에서 강인한 SLAM 방법

정주상¹^{, 2}

; 이동현¹

; I Made Putra Arya Winata¹

; 유수정³

; 오정현^†

Robust SLAM Method in Dynamic Environments Using Stereo RGB-E

Jusang Jeong¹^{, 2}

; Donghyun Lee¹

; I Made Putra Arya Winata¹

; Sujeong You³

; Junghyun Oh^†

1M.S. Student, Department of Robotics, Kwangwoon University, Seoul, Korea jusang0928@kw.ac.krtjsqlfkdls@naver.comaryaw2001@gmail.com
2Employee Trainee, KITECH, Ansan, Korea jusang0928@kitech.re.kr
3Principal Researcher, KITECH, Ansan, Korea sjyou21@kitech.re.kr

Correspondence to: ^†Associate Professor, Department of Robotics, Kwangwoon University, Seoul, Korea ( jhyunoh@kw.ac.kr)

Abstract

Standard camera based Simultaneous Localization and Mapping (SLAM) has been combined with deep learning-based semantic segmentation networks to achieve robust performance in dynamic environments. However, these SLAM methods heavily depend on the performance of the semantic segmentation network, which in turn relies on the quality of the input images. When input images are degraded by motion blur or other factors, the performance of SLAM also declines. To address this issue, we propose a method that integrates an event camera-based semantic segmentation network with an image-based SLAM algorithm. Event cameras, which asynchronously capture brightness changes, offer high temporal resolution and a wide dynamic range, making them advantageous in complex environments. The proposed method uses event data to predict semantic masks, removing dynamic objects and enabling more accurate localization. Evaluations on an urban dataset demonstrate the method’s robust performance in dynamic environments, highlighting its practical potential.

Keywords:

SLAM, Semantic Segmentation, Event Camera, Dynamic Environment

1. 서 론

표준 카메라 기반의 Simultaneous Localization and Mapping (SLAM)은 이미지가 풍부한 시각적 정보를 제공하고, 의미론적 분할 및 객체 탐지와 같은 비전 기반 응용 프로그램에 활용될 수 있어 광범위하게 연구되었다^[1].

기존의 표준 카메라 기반 SLAM 알고리즘^[2,3]은 고정된 랜드 마크를 기반으로 작동하기 때문에 정적인 환경에서 최적의 성능을 달성하지만, 동적 요소가 포함된 실제 세계의 환경을 처리하는데 한계가 존재한다. 이러한 한계를 극복하기 위해 최근 딥러닝 기반의 의미론적 분할 기법과 SLAM을 결합한 이미지 기반 의미론적 SLAM 연구들이 진행되고 있다^[1,4-6].

이미지 기반의 의미론적 SLAM은 기존의 SLAM 알고리즘과 의미론적 분할 네트워크를 결합하여, 동적 물체에 대한 마스크를 생성하고, 동적 물체를 제거한 이미지를 사용하여 위치 추정 및 지도 작성을 수행하는 방식으로 동적 환경에 대한 한계를 극복한다. 이러한 이미지 기반 의미론적 SLAM의 성능은 의미론적 분할 네트워크의 성능에 크게 의존하고, 의미론적 분할 네트워크는 학습과 의미론적 분할을 수행하기 위해 고품질의 이미지가 필수적이다. 그러나 실제 세계에서는 [Fig. 1(a)]와 같은 저조도 환경이나 조명에 과다 노출된 환경, [Fig. 1(b)]에서 볼 수 있는 움직임으로 인한 흐림 현상 등과 같은 다양한 환경적 요인으로 인해 고품질의 이미지를 취득하기 어렵다는 한계가 있다. 이러한 한계는 의미론적 분할 네트워크의 성능 저하로 이어지며, 결과적으로 이미지 기반 의미론적 SLAM의 성능에도 부정적인 영향을 미치게 된다.

[Fig. 1]

Comparison of RGB image and events in challenge environments: (a) is RGB image in low-light, (b) is Events in low-light, (c) is RGB image in motion blur, (d) is events in motion blur. Compared to RGB images, event data more robustly captures information in challenging environments

이러한 한계를 극복하기 위해 우리는 이벤트 카메라 기반의 의미론적 분할 네트워크^[7]와 이미지 기반의 SLAM 알고리즘^[8]의 결합을 제안한다. 이벤트 카메라는 비동기식 센서로, 일정한 시간 간격으로 빛을 샘플링하는 표준 카메라와 달리, 장면의 픽셀 단위 밝기 변화에 따라 발생하는 이벤트로 정보를 수집한다. 이러한 데이터 취득 방식을 기반으로 이벤트 카메라는 매우 높은 시간 해상도와 낮은 지연 시간, High Dynamic Range (HDR)을 제공한다는 장점을 갖는다^[9]. 우리는 이러한 이벤트 카메라의 장점을 기반으로 [Fig 1(c)], [Fig 1(d)]와 같이 도전적인 환경에서 강인하게 환경 정보를 취득하고, 이벤트를 위한 분할 네트워크를 통해 의미론적 분할을 예측한다. 예측된 의미론적 분할 마스크로 동적 물체를 제외하고, 이미지의 풍부한 정보를 기반으로 위치 추정을 수행한다.

본 연구에서는 제안한 RGB-E 의미론적 SLAM의 평가를 위해 동적 물체가 존재하는 도심 환경에서 취득한 데이터셋에서 SLAM을 수행한다.

2. 관련 연구

2.1 이벤트 표현

이벤트 카메라는 장면의 밝기 변화에 각 픽셀이 독립적으로 반응한다. 각 이벤트는 특정 시간, 특정 픽셀, 밝기의 증감을 나타낸다. 장면 내의 움직임이나 밝기 변화에 반응하여 이벤트가 생성되며, 마이크로초 단위로 데이터가 취득되어 높은 시간 해상도를 갖는다. 또한 밀리초 이하의 낮은 지연 시간으로 데이터가 전송되어 시각적 변화에 빠르게 반응한다는 특징이 있다.

이러한 이벤트에는 다양한 표현 방법들이 존재한다. 가장 기본적인 방법은 이벤트를 특정 시간에 누적하여 이벤트 누적 프레임으로 변환하는 방법^[10,11]이다. 다만 누적 변환 방법은 이벤트의 풍부한 시간 정보를 무시한다는 한계가 있다. 이벤트 누적 프레임의 단점을 보완하고, 시간적 요소를 고려하기 위해 이벤트를 시간 표면으로 변환하는 방법^[12]은 픽셀 단위로 가장 최근에 발생한 이벤트만을 인코딩하여 변환한다.

이벤트 복셀 그리드^[13] 표현은 각 이벤트의 타임스탬프를 고려하여 시간 채널에서 이산화된 위치를 계산한다. 이후 이벤트의 공간과 시간 차원에서 이중 선형 보간 방식으로 복셀 그리드를 생성한다. 복셀 그리드 방법은 다수의 이벤트가 겹치는 경우 일부 정보가 손실되지만, 전체적인 분포를 유지하면서 이벤트를 표현한다는 장점이 있다.

최근에는 학습 기반으로 보다 데이터 적응적인 방법들이 제안되었다. 대표적으로 Matrix-LSTM^[14]은 픽셀 단위로 LSTM을 사용하여 이벤트 데이터의 시간적 요소를 보존하는 표현 방법을 제안한다.

2.2 이벤트 카메라 기반의 객체 탐지 방법

이벤트의 높은 시간 해상도, 낮은 지연 시간과 HDR을 이용한 학습 기반 의미론적 분할 연구가 활발하게 진행되고 있다^[15-17]. 그러한 연구 중 하나인 Ev-SegNet^[15]은 이벤트의 비동기적인 특성이 합성곱 네트워크와 같은 기존의 딥러닝 모델에 적합하지 않은 데이터 형식임을 주목한다. 이를 해결하기 위해 깊이별 분리 합성곱을 SegNet^[18]에 적용하여 이벤트 데이터로 의미론적 분할 예측을 수행할 수 있는 Ev-SegNet을 설계한다.

Ev-Segformer^[16]는 트랜스포머^[19]기반의 의미론적 분할 네트워크 Segformer^[20]에 이벤트 발생 횟수에 따라 어텐션을 할당하는 posteriror attention 모듈을 제안하여 이벤트 데이터를 효과적으로 처리한다.

HMNet^[17]은 계층적 잠재 메모리 구조를 사용하여 이벤트의 발생 빈도에 따라 발생 빈도가 높은 국부적이고, 동적인 객체는 빠르게 처리한다. 반대로 이벤트 발생 빈도가 낮은 전역적이고, 정적인 객체는 느리게 처리하여 전체 계산량을 줄이고, 전역적 맥락을 분석하여 반영한다. 또한 변화 주기에 따라 시간 단위 인코딩을 수행하여 효과적인 이벤트 정보 처리를 통해 의미론적 분할을 수행한다.

위의 세 연구 모두 이미지 기반의 의미론적 분할 모델을 이벤트에 적합하게 변형하여 저조도, 과다 노출 조명, 흐림 현상에 강인하게 의미론적 분할을 수행한다.

2.3 동적 환경에 적합한 SLAM

동적 환경을 위한 SLAM 중 하나인 Dyna-SLAM^[5]은 Mask R-CNN^[21]과 다중 시점 기하학을 결합하여 동적 객체를 탐지하고, 이를 기반으로 동적 객체로 가려진 장면을 복원하여 3D 지도를 작성한다. 이러한 방식으로 Dyna-SLAM 동적 객채에서 특징 추출을 방지하고 ORB-SLAM2^[22]로 위치를 추정한다.

YOLO-ORB-SLAM3^[6]는 ORB-SLAM3에 YOLOv5s^[23]의 객체 탐지 기능을 통합하여 동적 객체를 실시간으로탐지 및 식별하고, 동적 객체의 특징점을 제거하는 방법을 도입하였다. 먼저 ORB-SLAM3로 특징점 추출, 기술자를 계산한다. 이후, YOLOv5s의 객체 탐지 알고리즘으로 동적 객체의 위치 정보를 포함하는 바운딩 박스를 얻고, 바운딩 박스의 좌표를 얻는다. 마지막으로 동적 객체의 좌표 내부의 특징점을 제거하는 방법으로 카메라 자세를 추정하여 동적 환경을 극복한다.

하지만 위의 두 연구는 모두 고품질의 이미지가 입력되었을 경우, 동적 환경에 대한 문제를 성공적으로 극복하지만, 고품질의 이미지를 취득하기 어려운 환경에서 학습 기반 의미론적 분할의 성능의 저하로 인한 문제는 여전히 남아있다.

3. 본 론

제안하는 이벤트 기반 의미론적 SLAM의 전체적인 흐름은 [Fig. 2]와 같다. 먼저 본론의 첫 번째 섹션은 이벤트를 기반으로 동적 마스크를 생성하는 과정을 설명하고, 두 번째 섹션은 이벤트 기반 동적 마스크와 RGB 이미지를 입력으로 위치 추정 과정을 설명한다

[Fig. 2]

Event-based moving object removal and camera pose estimation framework. Using the mask for moving objects generated by HMNet from the events input and stereo images, the camera pose is estimated based on features extracted from static objects

3.1 HMNet을 이용한 이벤트 의미론적 분할

이벤트 기반 의미론적 분할을 수행하기 위해 사용하는 HMNet의 메모리 구조, 의미론적 분할 과정과 마스크 생성에 대해 설명한다.

3.1.1 HMNet 메모리 구조

우리는 먼저 이벤트 기반의 동적 마스크를 생성하기 위해, HMNet을 사용하여 이벤트 기반의 의미론적 분할을 수행한다. HMNet은 저지연 이벤트 처리를 위한 다중 속도 네트워크이다. 잠재 메모리는 3단계의 계층 구조로 구성된다. 지역적이고 동적인 객체는 저수준의 잠재 메모리에서, 전역적이고 정적인 객체는 고수준의 잠재 메모리에서 병렬적으로 처리된다.

각 메모리는 4가지 방법으로 메모리 간 정보 교환을 수행한다. 먼저 up-write 방법은 이전 메모리 상태를 현재 메모리 상태에 기록한다.

z l ← F w u z l, z l - 1

(1)

식 (1)에서 $F w u$ 는 up-write 함수이고, z_l은 현재 메모리에서 집계된 특징이고, z_l_-1은 이전 메모리에서 집계된 특징이다. 이는 저수준 메모리에서 고수준 메모리로 정보를 전달하는 방법을 나타낸다. Up-write 메모리는 서로 다른 수준의 특징을 고려하기 위해 window based multi-head cross-attention (W-MCA)를 구성된다.

down-write 방법은 다음 메모리 상태를 현재 메모리 상태에 기록한다.

z l ← F w d z l, z l + 1

(2)

식 (2)에서 $F w d$ 는 down-write 함수이고, z_l₊₁은 다음 메모리에서 집계된 특징이다. 이는 고수준의 메모리에서 집계된 특징을 저수준의 메모리에 전달하는 방법을 나타낸다. Down-write 메모리 또한 서로 다른 수준의 특징을 고려하기 때문에 W-MCA를 구성된다.

Update 방법은 현재 메모리의 내부 상태를 업데이트 하기 위해 잔차 레이어를 사용한다. 마지막으로 Read-out 방법은 현재 메모리의 내부 상태에서 출력 특징을 추출한다. 위의 네가지 방식으로 계층적 메모리 구조 간의 정보를 교환하여, 병렬적이고, 효율적으로 계산을 수행한다.

3.1.2 HMNet을 이용한 이벤트 기반 의미론적 분할

이벤트 카메라 출력은 이벤트가 발생한 픽셀 좌표 (x_i, y_i), 이벤트 발생 시간 t_i, 밝기의 증감을 나태내는 극성 p_i를 포함한다.

E i = x i, y i, t i, p i

(3)

희소하게 발생하는 이벤트는 임베딩 되어 3.1 섹션에서 설명한 메모리 시스템에 입력된다. 임베딩 시에 Event Sparse Cross Attention을 사용하여 실제로 이벤트가 발생한 공간에 어텐션을 할당한다. 이후 임베딩된 이벤트 중 동적 객체에서 발생하는 이벤트는 저수준의 메모리에서, 정적 객체에서 발생하는 이벤트는 고수준의 메모리에서 학습된다. 동시에 계층적 메모리 간 정보를 공유하며, 다양한 시간 범위에서 정보를 통합한다.

마지막으로 헤드 단계에서 여러 시간에서 추출된 정보를 결합하여 다중 시간 스케일의 특징을 사용해 의미론적 분할 예측을 수행한다. 이후 예측된 의미론적 분할 중 동적 객체 클래스를 이용하여 흐림 현상이나 저조도에서 강인하게 동적 마스크를 생성한다.

3.2 동적 마스크를 이용한 시각 기반 SLAM

3.2.1 동적 키포인트 제거

동적 환경에서 SLAM을 수행하기 위해 우리는 S-PTAM^[8]을 사용한다. 스테레오 이미지를 입력으로 GFTT^[24] 알고리즘을 활용하여 키포인트를 감지하고, BRISK^[25] 추출기로 해당 키포인트의 특징을 추출한다. 이후 추출된 키포인트 중 이벤트 기반 동적 마스크 영역에 해당하는 키포인트들을 제거한다. 이후 이진 기술자를 통해 스테레오 이미지의 정적 키포인트들 간의 해밍 거리를 계산하여 특징 매칭을 수행한다. 해밍 거리가 임계값을 초과하는 경우 해당 매칭 쌍을 폐기한다.

3.2.2 카메라 자세 추정

세계 좌표계에서의 현재 카메라 자세 P^CW을 구하기 위해 이전 카메라 자세 $P p r e v C W$ 에서 카메라 간의 상대 운동 M^C를 구한다.

P C W = M c P p r e v C W

(4)

M^C는 카메라의 운동을 나타내는 SE(3) 변환 행렬 T^CW로 정의되고, 운동 벡터 μ로 표현된다.

M C = T C W = e x p ⁡ μ

(5)

운동 벡터 μ는 병진 운동과 회전 운동을 포함한 6차원 벡터로 μ = (t_x, t_y, t_z, θ_roll, θ_pitch, θ_yaw)^T와 같이 구성된다. 카메라의 상대적 운동을 추정하기 위한 최적화 수식은 아래와 같다.

J μ = Δ z μ p r e v

(6)

Δz는 운동 벡터 μ에 의해 결정되는 재투영 오차이다. 재투영 오차는 실제 2D 이미지 좌표와, 카메라의 운동 벡터 μ를 기반으로 추정되는 3D 포인트가 투영된 이미지 좌표 간의 차이를 의미한다. J_μ는 각 운동 벡터에 대한 재투영 오차의 야코비안이다. 즉 재투영 오차의 각 운동 벡터로 인한 변화량을 계산한 편미분 값의 행렬이다. 운동 벡터 μ는 아래의 최적화 수식을 풀어서 구한다.

μ o = a r g ⁡ m i n μ ∑ i ∈ S ρ J i μ - Δ z μ p r e v

(7)

식 (7)에서 ρ는 휴버 함수로 이상치 발생을 방지한다. Levenberg-Marquadt 알고리즘을 사용하여 재투영 오차를 최소로 하는 운동 벡터 μ_o를 찾고, M^c로 변환하여 현재 카메라 자세를 추정한다.

3.2.3 지도 작성

이전 키프레임의 키포인트와 비교하여 일치하는 키포인트가 90프로 미만일 때, 해당 프레임을 새로운 키프레임으로 선정하고, 매칭되지 않은 특징점에 대해 삼각 측량을 수행한다. 삼각 측량으로 추정된 새로운 맵 포인트를 생성한다. 이후 번들 조정을 사용하여 키프레임 맵과 3D 포인트를 정제하여 재투영 오차를 최소화하는 지도를 작성한다.

4. 실험 및 결과

4.1 데이터셋 및 실험 방법

제안 방법의 학습 및 실험에 사용한 데이터셋은 DSEC-Semantic 데이터셋^[26]이다. DSEC-Semantic은 도심 지역을 주행하는 자동차에서 이벤트 카메라, 스테레오 카메라, IMU, 3D LiDAR를 이용하여 주변 환경에 대한 데이터를 취득한다. 이벤트 기반의 Ground Truth (GT) 의미론적 라벨 또한 제공하지만, 6 자유도 자세에 대한 GT 데이터는 제공하지 않는다.

현재 공개된 데이터셋 중 이벤트 데이터, 스테레오 이미지, GT 자세 데이터, GT 의미론적 라벨을 모두 포함한 데이터셋은 존재하지 않는다. 본 연구에서 의미론적 라벨은 필수적이기에, 비록 GT 자세 데이터가 없다는 한계로 절대적인 평가는 불가능했으나, 정성적 평가를 통해 제안 방법의 성능을 검증한다.

이미지 기반의 yolov8^[27]에서 예측된 의미론적 마스크와 동일한 시간에 예측된 이벤트 기반의 의미론적 마스크를 비교 평가하고, 동적 환경에서 SLAM의 성능 평가를 위해, 제안 방법과 YOLO_ORB_SLAM3으로 추정된 자세 데이터를 정성적으로 비교 평가한다.

4.2 실험 결과

4.2.1 의미론적 분할 결과

의미론적 분할 실험 결과 HMNet을 사용한 이벤트 기반의 의미론적 분할 방법이 yolov8을 사용한 이미지 기반의 방법에 비해 움직임으로 인한 흐림 현상에 강인하여 동적 객체를 분할할 수 있음이 검증되었다.

[Fig. 3(a)]에서 차량의 좌측에 위치한 사람은 갑작스러운 등장과 움직임으로 인해 흐림 잡음을 포함한다. [Fig. 3(b)] GT 의미론적 라벨을 보면 사람으로 분할이 되어있는 반면, 이미지 기반 모델은 [Fig. 3(c)]와 같이 흐림 잡음을 포함한 동적 객체를 분할하지 못했다. 이벤트 기반 모델은 [Fig. 3(d)]와 흐림 잡음에 강인하게 예측을 성공하였음을 알 수 있다.

[Fig. 3]

Comparison of dynamic mask results by Model: (a) RGB reference image, (b) GT semantic image, (c) Dynamic mask generated by image based yolov8, (d) Dynamic mask generated by event based HMNet

[Table 1]에도 이와 같은 결과가 반영되어 있다. 모든 주행 시나리오 시퀀스에서 이벤트 기반의 의미론적 분할 모델이 더 우수한 성능을 보이고 있다. 이벤트 데이터는 높은 시간 해상도와 낮은 지연 시간을 갖고 있어, 움직임으로 인한 흐림 현상을 극복하고 동적 객체를 포착하여, 성공적으로 분할할 수 있다. 반면 이미지 기반 모델은 주행 중 차량의 움직임이나 객체의 움직임으로 인해 발생하는 흐림 현상이 동적 객체에 잡음을 유발하고, 흐림 잡음으로 인해 분할에 실패하는 경우가 확인되었다. 이러한 성능 차이는 테이블에 나타난 바와 같이, 이벤트 기반 모델이 RGB 이미지 기반 접근 방식보다 더 높은 점수를 달성한 것에서 확인할 수 있다.

[Table 1]

Comparison of mIOU results for dynamic object classes using Yolov8 and HMNet on the DSEC-Semantic dataset. Bold indicates the higher score

4.2.2 동적 환경에서 자세 추정 결과

[Fig. 4]는 DSEC 데이터셋 중 zurich_city_00_a 시퀀스와 zurich_city_13_a 시퀀스에서 이미지와 이벤트를 입력으로 마스크를 생성하고, 동적 객체의 특징을 제거하여 정적인 객체에서 특징을 추출한 결과이다. [Fig. 4] 첫 번째 행은 RGB 이미지로 많은 동적 물체가 포함된 주행 시나리오 시퀀스에서 실험을 진행하였다. [Fig. 4] 두 번째 행은 동적 환경에서 취득한 이벤트이고, [Fig. 4] 세 번째 행은 HMNet에 이벤트를 입력하여 생성한 동적 객체 마스크이다. [Fig. 4] 마지막 행은 RGB 이미지와 동적 마스크를 결합하여 동적 객체에서의 특징을 제거한 결과이다. 동적 객체를 제외한 정적 객체에서만 특징을 추출하는 것을 확인할 수 있다. 이와 같은 정적인 특징을 사용하여서 [Fig. 5]와 같이 카메라의 경로를 추정한다.

[Fig. 4]

Result of feature extraction in dynamic environment from zurich_city_00_a and zurich_city_13_a: The first row are RGB images captured in a dynamic environment, followed by events in the second row. The third row are dynamic mask using events. The fourth row presents the results of removing features of dynamic objects using RGB images and event-based masks

[Fig. 5]의 왼쪽은 zurich_city_00_a에서 추정한 경로로, 자동차, 사람, 자전거 같은 동적 객체와 급격한 회전을 포함하고 있는 도전적인 환경이다. 오른쪽은 zurich_city_13_a에서 추정한 경로로 차와 사람 같은 동적 객체와 약간의 회전 운동을 포함하는 환경이다.

[Fig. 5]

Comparison of camera trajectories estimated in dynamic environments using the proposed method and YOLO_ORB_SLAM3. The graphs in the left column represent trajectories estimated from the Zurich_city_00_a sequence, while those in the right column represent trajectories from the Zurich_city_13_a sequence. (a) and (b) show trajectories estimated using the proposed method, while (c) and (d) show trajectories estimated using Yolo_ORB_SLAM3

[Fig. 5]의 (a), (b)는 제안 방법으로 추정한 경로, (c), (d)는 YOLO_ORB_SLAM3으로 추정한 경로이다. (a) 경로는 급격한 회전과 흐림 현상을 극복하여 경로가 더 자연스럽게 추정된 것을 알 수 있다. 반면 (c) 경로는 회전이나 직선 주행에서 부자연스러운 경로가 추정되었다. 또한 (b) 경로는 차선 이동을 자연스럽게 추정하였지만, (d) 경로는 차선 이동 간에 생긴 흐림 현상으로 동적 물체에서 특징을 제거하지 못하여, 차선 이동이 제대로 반영되지 않은 경로를 볼 수 있다.

결과적으로, 제안 방법은 이벤트를 활용하여 회전이나 움직임으로 인한 흐림 현상 없이 동적 물체에서 특징을 효과적으로 제거하였으며, 이를 통해 도전적인 환경에서도 성공적으로 카메라의 자세와 경로를 추정하였다. 특히, zurich_city_00_a 시퀀스에서는 급격한 회전으로 인한 흐림 현상에도 불구하고 동적 객체를 강인하게 포착하여, 동적 환경에서 강인하게 SLAM을 수행하고 경로를 안정적으로 추정할 수 있음을 확인하였다.

5. 결 론

우리는 동적 환경에서 카메라의 위치를 추정하기 위해, 이벤트 카메라를 활용한 RGB-E SLAM 방법을 제안한다. 이벤트 카메라는 움직임으로 인한 흐림 현상에 강하며, 주변 환경 데이터를 빠르게 취득할 수 있기 때문에, 표준 카메라보다 먼저 갑작스럽게 등장하는 물체를 감지하고 분할할 수 있다. 또한, 이벤트 카메라는 HDR 기능을 제공하여 저조도나 과다 노출 같은 조명 조건에서도 안정적으로 데이터를 획득할 수 있다.

다만, 현재 다양한 조명 조건과 GT 의미론적 라벨을 포함한 데이터셋이 부족하여, 본 연구에서는 해당 환경에서의 실험을 포함하지 않았다. 향후 연구에서는 이벤트 카메라와 표준 카메라를 결합해 이벤트 카메라의 강인한 성능과 표준 카메라의 풍부한 정보를 함께 활용함으로써 자율 주행에 기여하는 것을 목표로 한다.

Acknowledgments

This work was supported by the Technology Innovation Program (RS-2024-00445759, Development of Navigation Technology Utilizing Visual Information Based on Vision-Language Models for Understanding Dynamic Environments in Non-Learned Spaces) funded by the Ministry of Trade, Industry & Energy (MOTIE, Korea), and by the Excellent researcher support project of Kwangwoon University in 2024.

References

C. Yu, Z. Liu, X.-J. Liu, F. Xie, Y. Yang, Q. Wei, and Q. Fei, “DS-SLAM: A semantic visual SLAM towards dynamic environments,” 2018 IEEE/RSJ international conference on intelligent robots and systems (IROS), Madrid, Spain, pp. 1168-1174, 2018. [https://doi.org/10.1109/iros.2018.8593691]
C. Campos, R. Elvira, J. J. G. Rodríguez, J. M. M. Montiel, and J. D. Tardós, “Orb-slam3: An accurate open-source library for visual, visual–inertial, and multimap slam,” IEEE Transactions on Robotics, vol. 37, no. 6, pp. 1874-1890, Dec., 2021. [https://doi.org/10.1109/tro.2021.3075644]
S. Sumikura, M. Shibuya, and K. Sakurada, “OpenVSLAM: A versatile visual SLAM framework,” The 27th ACM International Conference on Multimedia, pp. 2292-2295, 2019. [https://doi.org/10.1145/3343031.3350539]
Y. Fan, Q. Zhang, Y. Tang, S. Liu, and H. Han, “Blitz-SLAM: A semantic SLAM in dynamic environments,” Pattern Recognition, vol. 121, Jan., 2022. [https://doi.org/10.1016/j.patcog.2021.108225]
B. Bescos, J. M. Fácil, J. Civera, and J. Neira, “DynaSLAM: Tracking, mapping, and inpainting in dynamic scenes,” IEEE Robotics and Automation Letters, vol. 3, no. 4, pp. 4076-4083, Oct., 2018. [https://doi.org/10.1109/lra.2018.2860039]
W. Zhou, X. Zhang, X. Meng, S. Wang, Z. Liu, and Y. Song, “Enhancing ORB-SLAM3 Pose Estimation in Dynamic Scenes with YOLOv5 Object Detection,” 2024 3rd International Conference on Image Processing and Media Computing (ICIPMC), Hefei, China, pp. 8-15, 2024. [https://doi.org/10.1109/icipmc62364.2024.10586629]
R. Hamaguchi, Y. Furukawa, M. Onishi, and K. Sakurada, “Hierarchical neural memory network for low latency event processing,” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, pp. 22867-22876, 2023. [https://doi.org/10.1109/cvpr52729.2023.02190]
T. Pire, T. Fischer, G. Castro, P. De Cristóforis, J. Civera, and J. J. Berlles, “S-PTAM: Stereo parallel tracking and mapping,” Robotics and Autonomous Systems, vol. 93, pp. 27-42, Jul., 2017. [https://doi.org/10.1016/j.robot.2017.03.019]
G. Gallego, T. Delbrück, G. Orchard, C. Bartolozzi, B. Taba, A. Censi, S. Leutenegger, A. J. Davison, J. Conradt, K. Daniilidis, and D. Scaramuzza, “Event-based vision: A survey,” IEEE transactions on pattern analysis and machine intelligence, vol. 44, no. 1, pp. 154-180, Jan., 2022. [https://doi.org/10.1109/tpami.2020.3008413]
A. I. Maqueda, A. Loquercio, G. Gallego, N. García, and D. Scaramuzza, “Event-based vision meets deep learning on steering prediction for self-driving cars,” 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, pp. 5419-5427, 2018. [https://doi.org/10.1109/cvpr.2018.00568]
A. Nguyen, T.-T. Do, D. G. Caldwell, and N. G. Tsagarakis, “Real-time 6dof pose relocalization for event cameras with stacked spatial lstm networks,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 1638-1645, 2019. [https://doi.org/10.1109/cvprw.2019.00207]
H. Chen, D. Suter, Q. Wu, and H. Wang, “End-to-end learning of object motion estimation from retinal events for event-based object tracking,” The AAAI Conference on Artificial Intelligence, vol. 34, no. 7, Apr., 2020. [https://doi.org/10.1609/aaai.v34i07.6625]
A. Z. Zhu, L. Yuan, K. Chaney, and K. Daniilidis, “Unsupervised event-based learning of optical flow, depth, and egomotion,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, pp. 989-997, 2019. [https://doi.org/10.1109/cvpr.2019.00108]
M. Cannici, M. Ciccone, A. Romanoni, and M. Matteucci, “A Differentiable Recurrent Surface for Asynchronous Event-Based Data,” pp. 136-152, Nov., 2020 Computer Vision – ECCV 2020. [https://doi.org/10.1007/978-3-030-58565-5_9]
I. Alonso and A. C. Murillo, “EV-SegNet: Semantic Segmentation for Event-Based Cameras,” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Long Beach, CA, USA, pp. 1624-1633, 2019. [https://doi.org/10.1109/CVPRW.2019.00205]
Z. Jia, K. You, W. He, Y. Tian, Y. Feng, Y. Wang, X. Jia, Y. Lou, J. Zhang, G. Li, and Z. Zhang, “Event-based semantic segmentation with posterior attention,” IEEE Transactions on Image Processing, vol. 32, pp. 1829-1842, 2023. [https://doi.org/10.1109/tip.2023.3249579]
R. Hamaguchi, Y. Furukawa, M. Onishi, and K. Sakurada, “Hierarchical Neural Memory Network for Low Latency Event Processing,” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, BC, Canada, pp. 22867-22876, 2023. [https://doi.org/10.1109/CVPR52729.2023.02190]
V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 12, pp. 2481-2495, Dec., 2017. [https://doi.org/10.1109/tpami.2016.2644615]
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in Neural Information Processing Systems, 2017. [https://doi.org/10.48550/arXiv.1706.03762]
E. Xie, W. Wang, Z. Yu, A. Anandkumar, J. M. Alvarez, and P. Luo, “SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers,” arXiv:2105.15203, 2021. [https://doi.org/10.48550/arXiv.2105.15203]
K. He, G. Gkioxari, P. Dollár, and R. Girshick, “Mask r-cnn,” 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, pp. 2980-2988, 2017. [https://doi.org/10.1109/ICCV.2017.322]
R. Mur-Artal and J. D. Tardós, “ Orb-slam2: An open-source slam system for monocular, stereo, and rgb-d cameras,” IEEE Transactions on Robotics, vol. 33, no. 5, pp. 1255-1262, Oct., 2017. [https://doi.org/10.1109/TRO.2017.2705103]
Ultralytics, J. YOLOv5: A state-of-the-art real-time object detection system, [Online], https://docs.ultralytics.com, , Accessed: Aug. 10, 2021.
J. Shi and Tomasi, “Good features to track,” 1994 Proceedings of IEEE conference on computer vision and pattern recognition, Seattle, WA, USA, pp. 593-600, 1994. [https://doi.org/10.1109/cvpr.1994.323794]
S. Leutenegger, M. Chli, and R. Y. Siegwart, “BRISK: Binary robust invariant scalable keypoints,” 2011 International conference on computer vision, Barcelona, Spain, pp. 2548-2555, 2011. [https://doi.org/10.1109/iccv.2011.6126542]
M. Gehrig, W. Aarents, D. Gehrig, and D. Scaramuzza, “Dsec: A stereo event camera dataset for driving scenarios,” IEEE Robotics and Automation Letters, vol. 6, no. 3, pp. 4947-4954, Jul., 2021. [https://doi.org/10.1109/lra.2021.3068942]
R. Varghese and S. M. “YOLOv8: A novel object detection algorithm with enhanced performance and robustness,” 2024 International Conference on Advances in Data Engineering and Intelligent Computing Systems (ADICS), Chennai, India, pp. 1-6, 2024. [https://doi.org/10.1109/adics58448.2024.10533619]