Archive

Journal of Korea Robotics Society - Vol. 20 , No. 4

[ ARTICLE ]
The Journal of Korea Robotics Society - Vol. 20, No. 4, pp. 567-578
Abbreviation: J. Korea Robot. Soc.
ISSN: 1975-6291 (Print) 2287-3961 (Online)
Print publication date 28 Nov 2025
Received 19 Mar 2025 Revised 03 Sep 2025 Accepted 04 Sep 2025
DOI: https://doi.org/10.7746/jkros.2025.20.4.567

객체 경계 강화 기반 개선된 깊이 추정 모델을 활용한 단안 VSLAM
유경민1 ; 남승우1 ; 박재원1 ; 장윤성1 ; 김주성1 ; 김명섭

Monocular VSLAM using an Improved Depth Estimation Model Based on Object Boundary Enhancement
Gyeong-Min Yu1 ; Seung-Woo Nam1 ; Jae-Won Park1 ; Yoon-Seong Jang1 ; Ju-Sung Kim1 ; Myung-Sup Kim
1Master’s Course, Department of Computer and Information Science, Korea University, Sejong, Korea (rudals2710@korea.ac.kr)(nam131119@korea.ac.kr)(2018270614@korea.ac.kr)(brave1094@korea.ac.kr)(jsung0514@korea.ac.kr)
Correspondence to : Professor, Department of Computer and Information Science, Korea University, Sejong, Korea (tmskim@korea.ac.kr)


CopyrightⓒKROS
Funding Information ▼

Abstract

This study proposes an enhanced integration method of a state-of-the-art monocular depth estimation (MDE) model to overcome the fundamental limitation of monocular VSLAM systems—the lack of depth information. The proposed approach incorporates an edge loss function to sharpen object boundaries, a depth refinement strategy based on ground truth interpolation, and image preprocessing using CLAHE and inverse saturation to enhance depth quality. These components aim to generate more accurate and structurally consistent depth maps. The refined depth information is seamlessly integrated into a KeyFrame-based VSLAM pipeline to improve pose initialization, local map tracking, and loop closing efficiency. By combining these improvements, the system achieves better spatial awareness and robust localization performance. Experimental results on the TUM RGB-D dataset demonstrate that the proposed method achieves notable improvements over existing approaches, with significant gains in depth estimation accuracy, tracking stability, and real-time processing. Particularly, the RMSE is remarkably reduced, proving the effectiveness of the approach in enhancing overall VSLAM performance and reliability.


Keywords: Data Augmentation, Depth Estimation, VO, Visual SLAM

1. 서 론
1.1 연구 배경 및 필요성

비전 기반 동시 위치 추정 및 지도 작성(VSLAM, Visual Simultaneous Localization and Mapping)은 카메라 센서만을 활용하여 환경을 인식하고, 로봇 또는 차량의 위치를 추정하며, 3차원 지도를 생성하는 기술이다. 이 기술은 자율 주행, 로봇 내비게이션, 증강 현실(AR) 등 다양한 응용 분야에서 핵심적인 역할을 담당하고 있다. 특히 단일 카메라만을 사용하는 단안 VSLAM (Monocular VSLAM)은 시스템 구성이 간단하고 비용이 효율적이어서 광범위한 환경에서 적용 가능하다는 장점이 있다.

그러나 단안 VSLAM의 가장 큰 한계는 깊이 정보를 직접 측정할 수 없다는 점이다. 이는 스케일 모호성(Scale Ambiguity) 문제를 야기하며, 결과적으로 [Fig. 1]과 같이 지도 크기가 왜곡(Scale Drift)과 위치 추정 정확도의 저하로 이어진다. 대표적인 단안 VSLAM 시스템인 ORB-SLAM3[1]에서도 이러한 문제가 보고되었으며, 특히 장기간 탐색 시 누적 오차가 심화되는 경향을 보인다. 따라서, 단안 VSLAM의 실용적 활용을 위해서는 깊이 정보 부족 문제를 해결할 수 있는 기술이 필수적이다.


[Fig. 1] 
Scale Problem at Mono VSLAM System

1.2 기존 연구의 한계

단안 VSLAM의 깊이 정보 부족 문제를 해결하기 위해 다양한 방법이 제안되었으며, 이는 크게 전통적인 기하학적 접근법과 딥러닝 기반 접근법으로 구분할 수 있다.

1.2.1 전통적인 기하학적 접근법

전통적인 기하학적 접근법은 주로 Feature-based 방식과 Direct method 방식의 두 가지로 나뉜다. Feature-based 방식은 특징점의 추출 및 정합을 통해 깊이 및 위치를 추정하는 방식으로, 대표적인 시스템으로 ORB-SLAM3[1]가 있다. 이 방식은 삼각측량을 기반으로 연속된 프레임 간 특징점의 이동을 이용하여 깊이를 추정한다. 그러나 충분한 병진 운동이 이루어지지 않는 경우(예: 순수 회전 환경)에는 깊이 추정이 어렵고, 절대 깊이 값을 직접 추정할 수 없기 때문에 스케일 드리프트 문제가 발생한다. 이를 개선하기 위해 Covariance Intersection (CI) 필터를 적용하여 ORB 특징점의 삼각측량 오차를 줄이는 연구가 수행되었으나[2], IMU 센서 의존성이 높아 순수 카메라 기반 시스템에는 적용이 제한적이다.

또한, 루프 클로징(Loop Closing) 기법은 이동체가 이전에 방문했던 장소를 재방문할 때 누적된 오차를 보정하는 방식이다. ORB-SLAM3[1]은 장거리 랜드마크 추적 시 3.2 m 이상의 오차가 발생하는 것으로 보고되었으며, 루프가 없는 환경(예: 직선 복도)에서는 오차 보정이 불가능하고, 그래프 최적화 과정에서 CPU 부하가 37% 증가하는 한계가 있다[3].

한편, Direct method는 특징점을 추출하지 않고 이미지의 모든 픽셀 밝기 값을 직접 활용하여 포토메트릭 오차(Photometric Error)를 최소화하는 방식이다. 대표적인 시스템으로는 LSD-SLAM[4]과 DSO[5]가 있으며, 특징점이 부족한 텍스처 희박 환경에서도 상대적으로 강건한 성능을 보인다. 그러나 조명 변화나 노이즈에 민감하며, 초기화 단계에서 깊이 추정이 부정확할 경우 시스템 전체의 안정성이 저하될 수 있다.

이처럼 전통적인 기하학적 접근법은 특징점 기반 삼각측량과 루프 클로징을 통해 깊이 추정이 가능하지만, 환경 조건(조명 변화, 움직임 패턴)에 민감하며, 절대 깊이 값을 직접 추정할 수 없다.

1.2.2 딥러닝 기반 접근법

최근 딥러닝 기술의 발전으로 단안 깊이 추정(Monocular Depth Estimation, MDE) 모델과 End-to-End VSLAM 방법이 활발히 연구되고 있다. End-to-End VSLAM 방법은 깊이, 포즈, 불확실성 등을 동시에 학습하여 SLAM 성능을 개선하는 접근법이다. [6]은 3중 신경망(깊이, 포즈, 불확실성)을 병렬 운영하여 EuRoC MAV 데이터셋[7]에서 기존 대비 62% 높은 정확도를 달성하였다. 그러나 상대 깊이만 예측할 수 있어 스케일 불일치(Scale Inconsistency) 문제가 여전히 존재하며, 다중 신경망 병렬 학습으로 인해 GPU 메모리 사용량 증가가 단점으로 지적된다. [8]는Gaussian Splatting을 이용하여 RGB 입력만으로 Depth Smooth Loss를 활용한 절대 깊이 추정을 수행한다. 그러나 초기 10프레임에서 적절한 파라미터 초기화가 실패할 경우 시스템이 붕괴되는 취약점이 존재한다.

단안 깊이 추정 모델 분야에서는 Depth Anything v2[9], Zoe Depth[10], UniDepth[11] 등의 최신 모델들이 단일 이미지에서 깊이 정보를 추정하는 놀라운 성능을 보여주고 있다. [9]는 62 M 이미지 기반 의사 라벨링 학습을 수행하여 높은 성능을 보였으나, TUM RGB-D 데이터셋[12]에서 RMSE 0.42 m 수준의 오차가 발생하였다. [9]는 12개 데이터셋을 활용하여 학습된 모델로, NYUv2 데이터셋[13]에서 SOTA 성능을 달성하였으나, Kinect 센서 기반의 깊이 데이터에서 노이즈에 취약한 문제가 있다. [11]는 카메라 프롬프트을 도입하여 Zero-shot 평가를 수행할 수 있으나, 도메인 전이 성능이 기존 대비 18% 저하되는 한계를 보인다. 일부 연구에서는 VSLAM과 MDE 모델을 결합하여 깊이 추정을 보정하는 시도가 이루어졌으나, UDGS[14]는 CNN 기반 깊이 추정인 [11]과 포즈 그래프 최적화를 결합하였으나, GPU 메모리 사용량이 8 GB를 초과하여 임베디드 시스템 적용이 어렵다. [15]은 모든 프레임에서 MDE를 적용하여 연산량 증가로 인해 15 FPS 수준의 낮은 실시간 처리 성능을 보인다.

1.3 연구 목표 및 기여

본 연구는 앞서 언급한 기존 접근법들의 한계를 극복하기 위해 Depth Anything v2[9] 모델의 학습 방법 수정과 이미지 Augmentation을 적용한 단안 VSLAM의 깊이 보정 기법을 제안한다. 구체적인 연구 목표는 다음과 같다:

(1) 이미지 Augmentation 기반 깊이 맵 보정

본 연구에서는 CLAHE (Contrast Limited Adaptive Histogram Equalization) 및 채도 반전 기법을 활용하여 객체 경계를 강조하고 깊이 예측 성능을 향상시킨다. 이 과정을 통해 깊이 맵의 경계 부분이 더욱 명확해지며, 결과적으로 특징점 매칭 정확도가 향상된다. 이미지 전처리는 입력 이미지의 시각적 특성을 강화하여 깊이 추정 모델의 성능을 개선하는 효과적인 방법으로, 기존 연구에서는 충분히 탐구되지 않았던 접근법이다.

(2) MDE 경계 추정 능력 향상 Loss 함수 수정

기존 Depth Anything v2 모델[9]은 일반적인 깊이 추정에 초점을 맞추었으나, 객체 경계 부분의 깊이 변화를 정확히 포착하는 데 한계가 있다. 본 연구에서는 Edge Loss 함수를 도입하여 경계 영역에서의 깊이 추정 정확도를 향상시킨다. 이는 VSLAM 시스템에서 특징점 매칭과 위치 추정 성능 향상에 직접적인 영향을 미친다.

(3) ORB-SLAM3의 KeyFrame 기반 깊이 보정

실시간 성능을 유지하면서 깊이 추정 정확도를 높이기 위해, 본 연구는 모든 프레임이 아닌 KeyFrame에서만 MDE 모델을 적용하는 방식을 제안한다. KeyFrame은 SLAM 시스템에서 지도 생성과 위치 추정에 핵심적인 역할을 하는 프레임으로, 이러한 선택적 적용 방식은 연산 효율성을 크게 향상시킨다. 또한, 보정된 깊이 정보는 기존 ORB-SLAM3[1]의 맵 포인트 초기화 및 최적화 과정에 통합되어 전체 시스템의 정확도를 개선한다.

(4) TUM RGB-D 데이터셋 성능 향상

본 연구에서는 Depth Anything v2 모델을 TUM RGB-D 데이터셋[13]에 대해 Fine-tuning함으로써 실제 환경에서의 깊이 추정 정확도를 향상시킨다. 특히 Ground Truth 데이터 보간 기법을 적용하여 Kinect 센서의 노이즈와 결측치 문제를 효과적으로 해결한다. 이를 통해 실내 환경에서의 절대 깊이 추정 정확도가 크게 향상되며, RMSE가 기존 대비 상당히 감소한다.

1.3.1 연구 기여

본 연구는 기존 딥러닝 기반 VSLAM 연구들과 비교하여 다음 세 가지 측면에서 유의미한 기여를 한다:

(1) 깊이 추정 정확도 향상

Edge Loss 함수의 도입과 이미지 Augmentation 기법을 통해 객체 경계에서의 깊이 추정 정확도를 크게 개선한다. 특히, TUM RGB-D 데이터셋[13]에서 RMSE가 기존 Depth Anything v2 모델[9] 대비 91.2% 감소하는 성과를 달성했다.

(2) Localization 성능 개선

정확한 깊이 정보는 SLAM 시스템의 위치 추정 성능에 직접적인 영향을 미친다. 본 연구에서 제안한 방법은 ORB-SLAM3[1]의 절대 궤적 오차(Absolute Trajectory Error)를 기존 대비 94.6% 감소시켰으며, 특히 루프가 없는 환경에서도 안정적인 위치 추정 성능을 보여준다.

(3) 실시간 처리 속도 증가

KeyFrame 기반 깊이 보정 전략을 통해, MDE 모델 적용에 따른 연산 부하를 최소화하면서도 깊이 추정 정확도를 유지할 수 있었다. 제안된 시스템은 720p 해상도 영상에서 평균 18 FPS 이상의 실시간 처리 성능을 달성했다.


2. 관련 연구
2.1 단안 깊이 추정(MDE) 모델의 발전

최근 5년간 단안 깊이 추정(MDE, Monocular Depth Estimation) 모델은 Vision Transformer (ViT) 기반 아키텍처와 대규모 데이터 학습 기법을 활용하여 비약적인 발전을 이루었다. Transformer 기반 모델들은 장거리 의존성을 효과적으로 학습하여 CNN 기반 모델 대비 보다 정교한 깊이 맵을 생성한다. 대표적인 MDE 모델들의 발전 과정은 다음과 같다. MiDaS[15]는 CNN 기반 깊이 추정 모델로 상대 깊이 추정 성능을 크게 향상시켰다. DPT (Dense Prediction Transformer)[16]는 ViT 기반 MDE 모델로 장거리 깊이 추정(Long-range Depth Prediction) 성능 개선했다. Depth Anything V1[17]은 62 M 이미지 기반 자기 지도 학습 모델로 기존 모델 대비 28% 성능 향상을 달성했다. [9]은 DINOv2-Giant 기반 교사 모델과 합성 데이터를 활용하여 절대 깊이 보정을 최적화했다.

이러한 발전에도 불구하고, 실제 환경에서의 깊이 추정 성능은 여전히 한계를 가진다. 특히, Kinect 기반 TUM RGB-D 데이터셋[13]에서 발생하는 깊이 노이즈 문제로 인해 실내 환경에서의 절대 깊이 추정 정확도가 저하되는 문제가 보고되었다. 또한, 절대 깊이 추정 모델은 mm 단위까지 정교한 측정이 어려워 위치 추정이 중요한 VSLAM과 결합하여 사용한 사례가 제한적이다.

2.2 단안 VSLAM과 MDE 결합 연구

최근 연구들은 MDE 모델과 VSLAM을 결합하여 단안 VSLAM의 깊이 추정 성능을 향상시키는 다양한 접근 방식을 제안하고 있다. CNN-SLAM[18]은 MDE 모델을 사용하여 예측된 깊이 정보를 베이지안 필터로 정제하고, ORB-SLAM2와 결합하여 스케일 드리프트를 30% 감소시켰다. [8]은 3D Gaussian Splatting과 심층 깊이 추정을 결합하여, 기존 3D GS SLAM 모델보다 빠른 렌더링과 정밀한 깊이 맵 생성을 달성했다. SC-Depth 시리즈 [19,20]는 Pseudo RGB-D SLAM 시스템을 통해 깊이 및 포즈 추정을 결합하여 실내 및 실외 환경에서 높은 정확도를 달성했으나, 예측된 깊이 맵의 객체 경계 흐림문제가 발생한다. 기존 연구들은 VSLAM과 MDE를 결합하여 깊이 추정 성능을 향상시키는 다양한 기법을 제안하였지만, 여전히 다음과 같은 한계를 가진다.

(1) 절대 깊이 추정 오차: 최신 SOTA 모델[9]조차 TUM RGB-D 데이터셋에서 RMSE 0.42 m 수준의 오차를 보인다.
(2) 실제 환경 반영 미흡:기존 MDE 연구들은 실제 환경에서 센서 데이터의 노이즈를 효과적으로 처리하지 못하며, 특히 Kinect 센서 기반 깊이 데이터에서는 노이즈가 심각한 영향을 미친다.
(3) 실시간 처리 문제: 대부분의 연구가 깊이 보정을 적용하면서도 VSLAM의 실시간성을 유지하는 방법에 대한 고려 부족하다. [8,18] 등 기존 연구들은 깊이 보정 과정에서 연산량이 증가하여 실제 응용에서 활용이 제한된다.
(4) 객체 경계의 명확도 부족:기존 연구들은 MDE 모델을 활용하지만, 객체 경계의 선명도가 낮아 VSLAM에서의 특징점 매칭 오류가 증가하여 전체적인 위치 추정 성능이 저하된다.

2.3 연구 방향 및 해결 방안

본 연구에서는 기존 연구의 한계를 해결하기 위해 이미지 증강과 모델 수정 및 KeyFrame 기반 깊이 보정 기법을 적용하여 보다 정밀한 단안 VSLAM을 구현하는 것을 목표로 한다. 이를 위해 다음과 같은 해결 방안을 제안한다:

(1) CLAHE 및 반전 채도 기반 이미지 증강 적용: MDE 모델의 객체 경계 추정 성능 개선하고, 기존 MDE 모델에서 발생하는 깊이 경계 흐림 문제를 해결한다.
(2) KeyFrame 기반 MDE 깊이 보정 적용: 모든 프레임이 아닌 KeyFrame에서만 MDE 기반 깊이 보정을 적용하여 실시간성을 유지하면서 깊이 추정 성능 향상시킨다.
(3) TUM RGB-D 데이터셋에서 Fine-tuning을 통해 Depth Anything v2의 RMSE 감소: 실제 센서 데이터에서 발생하는 깊이 노이즈를 최소화하여 VSLAM 성능을 최적화한다.

이러한 접근법을 통해 기존 연구 대비 깊이 추정 정확도, Localization 성능, 실시간 처리 속도에서 개선된 성능을 제공하는 것이 본 연구의 핵심 목표이다.


3. 방법론

본 연구에서 제안하는 단안 VSLAM 개선 방법은 객체 경계 강화에 중점을 둔 깊이 추정 모델의 성능 향상과 이를 ORB-SLAM3[1]에 효과적으로 통합하는 것을 목표로 한다. 전체 시스템은 크게 세 가지 주요 모듈로 구성된다: (1) 데이터 전처리 및 증강 모듈, (2) Depth Anything v2 모델 개선 모듈, (3) ORB-SLAM3 통합 모듈이다. 시스템의 작동 흐름은 [Fig. 2]와 같다. 먼저, 입력 이미지는 CLAHE 및 채도 반전 기법이 적용된 전처리 과정을 거친다. 이 과정에서 객체 경계가 강화된 이미지가 생성된다. 전처리된 이미지는 Edge Loss 함수와 Bilateral Filtering이 적용된 개선된 Depth Anything v2 모델에 입력되어 정확한 깊이 맵을 생성한다. 마지막으로, 생성된 깊이 맵은 ORB-SLAM3의 KeyFrame 기반 방식으로 통합되어 깊이 정보가 보정된 SLAM 결과를 도출한다.


[Fig. 2] 
System Pipeline

이러한 모듈식 설계는 각 구성 요소의 독립적인 개선을 가능하게 하며, 전체 시스템의 성능을 단계적으로 향상시킬 수 있는 유연성을 제공한다. 특히, KeyFrame 기반 접근법은 실시간 처리 요구사항을 충족하면서도 정확한 깊이 정보를 SLAM 시스템에 통합할 수 있는 효율적인 방법을 제공한다.

3.1 데이터 전처리 및 증강 기법
3.1.1 데이터 기반 깊이 맵 보정

Kinect와 같은 실제 깊이 센서로 수집된 깊이 데이터는 [Fig. 3]과 같다. [Fig. 3]은 가까운 깊이 값을 밝은 색으로, 멀어질수록 어두운 색으로 표현하며, 노이즈 부분은 Nan 값으로 완전히 어두운 것을 알 수 있다. [Fig. 3]은 노이즈와 공간적 불균일성을 포함하고 있다. 전체 픽셀의 약 16.93%가 이상치(NaN)를 포함하고 있다.깊이 맵에서 이상치 값이 많을 경우, 학습 가능한 유효 깊이 데이터가 줄어들어 모델 성능 저하로 이어진다. 주요 문제점으로는 유효 데이터 감소, 경계 영역 학습 어려움, 센서 데이터와 합성 데이터 간의 차이가 있다. 실제 Depth Anything v2의 학습 과정에서도 이상치 픽셀 때문에 Loss가 안정적으로 수렴하지 않는 현상이 관찰되었다([Fig. 4]).


[Fig. 3] 
NaN values in the TUM dataset ground-truth (GT) depth map. Left: histogram of NaN values. Right: GT depth map visualization (far: dark, near: light)


[Fig. 4] 
Outlier Effect Depth Anything Fine tuning

이 문제를 해결하기 위해, 본 연구에서는 깊이 맵에서 픽셀을 보간하여 보정하는 기법을 적용하였다. 구체적인 방법은 아래와 같다. 깊이 맵에서 제로 값 픽셀은 센서의 한계 또는 가려짐으로 인해 발생하며, 이러한 결손 영역이 깊이 기반 알고리즘의 성능을 저하시킬 수 있다. 본 연구에서는 7×7 윈도우를 활용한 보간 기법을 사용하여 이러한 문제를 해결하였다. 방법은 아래와 같다.

  • ∙ 깊이 맵 패딩(Padding): 깊이 맵의 경계 처리를 위해, NaN 값을 활용하여 맵을 패딩함으로써 7×7 윈도우가 항상 중앙을 유지하도록 설정한다.
  • ∙ 국소적 보간:각 제로 값 픽셀에 대해, 7×7 패치를 추출하고 해당 패치에서 유효한(depth 값이 존재하는) 픽셀들의 평균값을 계산하여 대체한다. 단, 유효한 픽셀 개수가 패치 내 총 픽셀 수(49개)의 20% 이상일 경우에만 평균값으로 대체하며, 그렇지 않으면 원래 제로 값을 유지한다.
  • ∙ 이상치 값 처리: 보간 과정 이후에도 남아 있는 이상치 값(경계)은 원래의 깊이 맵에서 제로 값으로 유지한다.

이러한 보간 기법을 적용함으로써, 깊이 맵의 이상치 및 누락 픽셀을 효과적으로 복원할 수 있었다([Fig. 5]). 실험 결과, TUM datast[10] 중 desk dataset 누락 픽셀 복원 성공률이 평균12.8% 향상되었으며, 특히 다양한 경계 부분에서의 복원을 통해, 모델의 깊이 추정 성능 또한 개선되는 효과를 확인할 수 있었다.


[Fig. 5] 
Refine Depth Map Result

3.1.2 데이터 증강 기법

본 연구에서는 단안 깊이 추정 모델인 Depth Anything v2[7]의 성능을 향상시키기 위해, [Fig. 6]과 같이, CLAHE, 깊이-명암 영상 융합, 반전 채도 기법을 결합한 데이터 증강 기법을 제안한다. 이를 통해 조명 변화에 강건한 깊이 맵을 생성하고, 객체 경계를 보다 명확하게 표현하여 VSLAM 성능을 개선한다.


[Fig. 6] 
Data Augmentation Pipeline

(1) CLAHE 적용: CLAHE (Contrast Limited Adaptive Histogram Equalization)는 이미지의 국소 대비(local contrast)를 향상시키는 방법으로, 전역 대비 향상에 비해 노이즈 증폭을 억제하면서 객체 경계를 더욱 선명하게 강조할 수 있는 특징을 지닌다. 본 연구에서는 CLAHE를 RGB 이미지와 깊이 맵에 적용하여, 조명이 불균형하거나 명암비가 낮은 TUM 데이터셋 환경에서의 경계 정보 인식을 향상시키기 위해 활용하였다. CLAHE는 입력 영상을 여러 개의 작은 타일(tile)로 분할한 뒤 각 타일에 대해 히스토그램 평활화를 수행하며, 과도한 대비 증폭을 방지하기 위해 clipLimit을 설정한다. 본 연구에서는 CLAHE의 주요 하이퍼 파라미터인 tileGridSize와 clipLimit의 영향도를 분석하기 위해 grid 크기(2×2, 4×4, 8×8)에 따라 실험을 수행하였으며, 그 결과 tileGridSize=(8,8), clipLimit=4에서 가장 우수한 객체 경계 강조 효과와 깊이 추정 정확도를 얻을 수 있었다. 따라서 본 연구에서는 해당 파라미터 설정을 기준으로 CLAHE를 적용하였다([Table 1] 참고).
(2) CLAHE 기반 명암 및 깊이 영상 융합: CLAHE 처리된 영상은 명암 대비가 높아지며, 객체 경계의 시각적 특성이 부각되는 효과가 있다. 본 연구에서는 이러한 특성을 활용하여 CLAHE가 적용된 명암 영상과 원본 깊이 영상 간의 융합(Fusion)을 시도하였다. 융합은 동일한 가중치(50:50)로 수행되었으며, 융합 영상은 네트워크 입력의 다양성을 확보하고 경계 기반 손실 함수 학습에 긍정적인 영향을 주도록 구성되었다([Fig. 6] 참조). 실험 결과, CLAHE 단독 적용 시에 비해 융합 적용 시 경계 정확도(Edge IoU)가 약 9.2% 감소(0.2617 → 0.2374), PSNR 또한 10.88 dB로 하락하는 단점이 나타났으나, 반대로 저텍스처 영역에서의 구조적 정보 보존 측면에서는 향상된 효과를 확인할 수 있었다. 이는 깊이 정보가 희박하거나 경계가 모호한 구간에서 CLAHE 기반 영상이 학습에 유의미한 정보를 제공함을 시사한다.
(3) 반전 채도 기반 객체 강조 기법: 추가적으로, 본 연구에서는 합성 영상과 반전 채도 영상을 요소별 곱 연산을 수행하여 최종 영상을 생성하는 기법을 적용하였다. 반전 채도 기법을 활용할 경우 Edge IoU 12.3% 향상 효과가 있었으며, 특히 Grid Size 8×8에서 가장 높은 성능(Edge IoU 0.3105, PSNR 12.43 dB)을 기록하였다.

[Table 1] 
Performance Comparison of Data Augmentation Methods by Grid Size
Grid Size CLAHE CLAHE
+ Fusion
Fusion
+Inverted Saturation
PSNR
(dB)
Edge IoU PSNR
(dB)
Edge IoU PSNR
(dB)
Edge IoU
(2×2) 17.68 0.28 10.39 0.20 11.58 0.29
(4×4) 15.27 0.25 10.63 0.24 11.95 0.30
(8×8) 16.10 0.23 10.88 0.26 12.43 0.31

반전 채도 기법은 다음과 같은 효과를 가진다:

  • ∙ 색 정보가 적은 영역(채도가 낮은 부분)이 강조되어 객체의 경계를 더욱 뚜렷하게 표현한다.
  • ∙ 색 정보가 많은 영역(채도가 높은 부분)은 억제되어 불필요한 색상 변화의 영향을 최소화한다.

실험 결과, Grid Size 8×8에서 CLAHE + Fusion + 반전 채도 기법을 적용한 경우 가장 높은 Edge IoU (0.3105)와 PSNR (12.43 dB) 성능을 기록하였다. 이는 객체 경계 보존 및 깊이 맵 품질 향상에 효과적임을 입증한다[Table 1].

3.2 Depth Anything v2 모델 개선
3.2.1 기존 SiLogLoss의 한계

Depth Anything v2는 단일 이미지에서의 깊이 추정의 성능을 개선하기 위해 기본 손실함수로 SiLogLoss (Scale-Invariant Logarithmic Loss) 를 채택하고 있다. 해당 손실함수는 예측깊이와 실제 깊이 사이의 로그 차이를 기반으로 하며, 다음과 같이 정의된다:

LSiLog=1ni=1ndi2-12n2i=1ndi2where di=logDi-logD^i(1) 

여기서 Di는 GT 깊이, D^i는 예측 깊이, n은 유효 픽셀 수이다. SiLogLoss는 스케일 불일치 문제를 보완하는 데 효과적이나, 이미지 전 영역에 동일한 중요도를 부여하여 객체 경계 영역에서의 정밀한 깊이 추정을 반영하지 못하는 한계가 있다. 특히 TUM RGB-D[13]와 같은 실내 환경에서는 물체 간 경계가 중요한 정보로 작용함에도 불구하고, 경계 인식이 부족해 깊이 예측이 흐릿해지는 문제가 발생한다. 이는 VSLAM의 특징점 정합 실패로 이어질 수 있으며, 전체적인 위치 추정 정확도에도 부정적인 영향을 준다.

3.2.2 Edge-Aware Loss 도입

본 연구에서는 객체의 경계 인식 성능 향상을 위해 Edge-Aware Loss를 도입하였다. 이 손실 함수는 Canny Edge Detector로 생성된 마스크를 활용하여, 경계 영역에 한해 L1 손실을 강조적으로 적용하는 방식이다. 전체 손실 함수는 다음과 같이 구성된다:

(1) Edge-Aware Loss

Ltotal=LSiLog+λedgewedgeLedge(2) 

여기서 LSiLog는 Depth anything v2[9]에서 사용하는 기본 손실 (Scale-Invariant Log RMSE)함수를 나타내며, λedge​ 는 엣지 손실 가중치 하이퍼파라미터 (λedge = 0.1)이다. wedge는 엣지 영역 내 손실의 비중을 조절하는 가중치 (wedge = 2.0)이며, Ledge 는 엣지 영역에서의 L1 손실을 의미한다.

(2) 엣지 마스크 생성 방법: 엣지 마스크는 Canny 엣지 검출기를 이용하여 이미지에서 객체 경계를 검출하고, 엣지 영역을 마스크로 변환하여 깊이 손실 계산 시 반영한다.

Medge=CannyI,T1,T2(3) 

여기서 I 는 입력 이미지,T1, T2는 Canny 엣지 검출 임계값 (T1 = 100, T2 = 200)을 의미하며, Medge는 엣지 마스크로서 엣지 픽셀은 1, 나머지 비엣지 픽셀은 0으로 표시된다.

(3) Loss 계산 방식: 엣지 마스크를 적용하여 엣지 영역에서만 깊이 오차를 계산하고, 해당 손실에 가중치를 곱하여 최종 손실을 계산한다.

Ledge=1/Medge×ΣiMedgeDpred,i-Dgt,i(4) 

여기서, Dpred은 모델이 예측한 깊이 맵, Dgt는 Ground Truth 깊이 맵, Medge는 엣지 영역 마스크를 의미한다.

(4) Bilateral Filtering을 활용한 데이터 보정: 엣지 감지 기반 손실과 함께, 이미지의 노이즈를 줄이면서도 객체 경계를 유지하는 Bilateral Filtering을 적용하였다. Bilateral Filtering은 공간적 거리와 색상 차이에 따라 가중치를 조정하여 필터링을 수행하는 방식이다.

Ip=1/Wp×ΣqMpIq×fsp-qvertvert×frIq×fq(5) 

이때, Ip는 픽셀 p의 필터링 된 값, Iq는 주변 픽셀 q의 값,fs(∥p - q∥)는 공간 거리 가우시안 가중치, fr(|Ip - Iq|)는 색상 차이 가우시안 가중치를 의미한다. N(p)는 픽셀 𝑝의 이웃 픽셀들을 의미한다.

30% 확률로 Bilateral Filtering을 적용하여 모델이 다양한 데이터에 노출되도록 구성하였다. 이는 조명 변화나 노이즈가 있는 데이터에서도 객체 경계를 유지하며 깊이 추정이 가능하도록 보정한다.

본 연구에서는 Edge-Aware Loss 및 Bilateral Filtering 적용 여부에 따른 Depth Anything v2[2]의 성능을 비교하였으며, 결과는 [Table 2]에 있다. 실험에는 TUM 데이터셋[13]을 활용하였으며, RMSE (Root Mean Squared Error), tRMSE(경계 지역 RMSE), Edge IoU (Intersection over Union)를 주요 성능 지표로 설정하였다. 실험 결과, SiLogLoss 단독 적용 시 RMSE = 4.41 m, tRMSE = 5.98 m로 높은 값을 기록한 반면, SiLogLoss + Edge Loss + Bilateral Filtering 적용 후 RMSE는 0.39 m, tRMSE는 0.64 m로 약 10배 이상 개선되었다. 이는 경계 영역에서 깊이 추정이 더욱 정확해졌음을 의미한다. 또한, Edge IoU 측면에서도 SiLogLoss 단독 적용 시 0.0029에서 Edge Loss + Bilateral Filtering 추가 적용 시 0.0269로 약 9배 향상되어, 객체 경계에서의 깊이 추정 정확도가 크게 개선되었음을 확인하였다.

[Table 2] 
Performance Comparison of Models with and without Edge-Aware Loss and Bilateral Filtering (Bold values indicate the lowest error for each metric across methods.)
Experimental RMSE
(↓)
tRMSE
(↓)
Edge IoU
(↑)
Baseline SiLogLoss 4.41 m 5.98 m 0.0029
SiLogLoss + Edge Loss 2.43 m 3.26 m 0.0120
SiLogLoss + Edge Loss +Bilateral Filtering 0.39 m 0.63 m 0.0269

3.3 ORB-SLAM3와 MDE 결합을 통한 깊이 보정

단안 VSLAM은 깊이 정보를 직접 측정할 수 없는 한계를 가지며, 이로 인해 스케일 모호성 문제가 발생한다. 본 연구에서는 앞서 개선한 딥러닝 기반 단안 깊이 추정 모델과 ORB-SLAM3[1]을 결합하여 단안 VSLAM의 깊이 추정 성능을 향상시키는 방법을 제안한다.

3.3.1 ORB-SLAM3

ORB-SLAM3[1]는 전통적인 SOTA VSLAM 시스템 중 하나로, ORB (Oriented FAST and Rotated BRIEF) 특징점을 기반으로 실시간 동작이 가능하다. 단안, 스테레오, RGB-D 방식을 모두 지원하며, IMU 센서 데이터를 활용한 Visual-Inertial SLAM도 가능하다. 주요 구성요소는 다음과 같다:

  • ∙ 트래킹: 특징점을 추출하고, 초기화를 수행하여 현재 프레임과의 관계를 추정
  • ∙ 로컬 맵핑: 키프레임 간의 관계를 정리하고, 포인트 클라우드를 업데이트
  • ∙ 루프 클로징: 루프 감지 및 최적화를 수행하여 드리프트문제를 보정
  • ∙ 백엔드 최적화: 그래프 기반 최적화를 통해 전체 맵 정합

이 때, 단안 ORB SLAM에서는 깊이 정보가 중요하다. 깊이 정보가 없을 경우 스케일 문제를 일으켜 정확도가 낮아진다. 깊이 정보를 활용하기 위해 MDE 모델을 사용한다면, 다음과 같은 문제점이 발생한다.

  • ∙ 깊이 예측 오차: 대부분의 MDE 모델이 상대적 깊이만 예측하여, 절대 깊이 정보 활용이 어렵다.
  • ∙ 계산 비용 문제: MDE 모델이 매 프레임마다 깊이를 예측할 경우, 실시간 처리 속도가 저하된다.
  • ∙ 깊이 맵 노이즈 및 불완전성: 기존 깊이 맵은 센서 노이즈 또는 MDE 모델의 학습 한계로 인해 불완전한 깊이 값을 포함할 가능성이 크다.
3.3.2 ORB-SLAM3와 MDE 결합을 통한 깊이 보정

(1) 초기화 단계에서 깊이 정보 보정

단안 VSLAM의 초기화 과정에서는 깊이 정보 부족으로 인해 스케일 모호성 문제가 발생한다. 기존 ORB-SLAM3에서는 충분한 병진 운동이 필요하며, 초기 프레임에서 움직임이 부족하면 초기화 실패 가능성이 높아진다. 이를 해결하기 위해, 본 연구에서는 MDE 모델을 활용하여 초기화 단계에서 깊이 정보를 보정하는 방법을 적용하였다:

  • ∙ 초기 프레임에서 MDE 기반 깊이 맵을 활용하여 ORB-SLAM3의 초기화 성공률을 향상시킨다.
  • ∙ 예측된 깊이 정보를 바탕으로 특징점의 초기 3D 위치를 보정한다.

이러한 접근법을 통해, ORB-SLAM3의 초기화 과정에서 발생하는 깊이 추정 오차를 줄이고, 초기 키프레임의 안정성을 향상시킬 수 있다.

(2) 키프레임 생성 단계에서 깊이 정보 보정

ORB-SLAM3는 일정 조건을 만족하는 프레임을 키프레임으로 설정하여 맵을 지속적으로 갱신한다. 그러나 기존 단안 VSLAM에서는 키프레임 생성 시 깊이 정보를 활용하지 않기 때문에 깊이 추정 오차가 누적될 가능성이 높다.

본 연구에서는 MDE 모델을 활용하여 키프레임 생성 과정에서 깊이 정보를 보정하는 방법을 적용하였다. 또한, MDE 결과 제작된 깊이 정보는 불확실한 정보를 가지고 있기에 삼각측량을 통해 깊이 값을 보정해준다:

  • ∙ MDE 기반 깊이맵 적용: ORB-SLAM3에서 키프레임을 생성할 때, MDE 기반 깊이 정보를 활용하여 특징점의 깊이 값을 보정한다.
  • ∙ 키프레임 깊이 보정 방법: ORB-SLAM3의 삼각측량 결과와 MDE 기반 깊이 맵을 조합하여 보다 정확한 깊이 값을 제공한다.

(3) 루프 클로징 시 깊이 정합 최적화

본 연구에서 제안한 기법을 적용함으로써 ORB-SLAM3의 루프 클로징 시 스케일 드리프트를 최소화하고, 보다 정밀한 3D 맵을 생성할 수 있도록 하였다. 기존 단안 ORB-SLAM3에서 발생하는 스케일 불일치 문제를 MDE 기반 깊이 보정을 통해 해결하였으며, 깊이 필터링 및 키프레임 선택 최적화를 통해 맵의 정합도를 개선하였다.


4. 실 험
4.1 데이터셋 및 평가 지표

본 시스템은 TUM RGB-D 벤치마크[13]를 이용하여 기존 ORB-SLAM과 제안 방법의 성능을 비교하였다. TUM RGB-D는 휴대용 Kinect 카메라로 획득된 RGB 영상과 깊이 영상, 그리고 정밀한 외부 트래킹 시스템으로 수집된 ground truth 궤적 정보를 포함하는 데이터셋으로, 이미지 시퀀스는 30Hz, 해상도 640×480, 위치 정보는 100Hz로 제공된다. 이를 통해 단안 SLAM 시스템의 정밀한 위치 추정 정확도를 정량적으로 평가할 수 있다.

본 논문에서는 TUM RGB-D dataset[13] 내의 시퀀스 중 하나를 활용하여 frame-level 기준으로 training/test를 무작위 분할하였으며, 특히 VSLAM에서 취약한 저텍스처 영역 문제를 해결하기 위해 저텍스처 구간의 프레임도 의도적으로 학습에 포함시켰다. 학습/추론에 활용된 프레임 구간, 분할 비율, 시드 값 등 구체적인 분할 정보는 본문 및 부록에 명시하여 실험 재현 가능성을 확보하였다.

평가 지표로는 절대 궤적 오차(Absolute Trajectory Error, ATE) 및 상대 자세 오차(Relative Pose Error, RPE)를 사용하였다. ATE는 전체 궤적의 전역적 일관성을 평가하며, RPE는 프레임 간 상대 이동 오차를 통해 오도메트리 드리프트 정도를 측정한다. 관련 세부 결과는 [Table 3]에 정리되어 있다. 또한, VSLAM의 초기화, 자세 최적화, 전역 재위치 과정에서 발생할 수 있는 무작위성을 고려하여, 모든 실험은 5회 반복 수행되었으며, 평균값을 기준으로 평가하였다. 오차가 가장 낮은 항목은 볼드체로 표기하였다.

(a) ATE와 RPE는 양의 상관관계를 가지며, 프레임별 예측 궤적과 실제 궤적 간 오차가 작을수록 ATE와 RPE도 함께 감소한다.
(b) fr1_xyz 시퀀스는 카메라가 X, Y, Z축(좌우, 상하, 전후) 방향으로 이동하며 회전이 거의 없는 특징을 가진다[10]. 이에 대해 ORB-SLAM (Mono)의 ATE와 RPE는 각각 0.114 m, 0.08 m였으며, 제안한 방법은 각각 0.084 m, 0.065 m로 보다 우수한 성능을 나타냈다.

[Table 3] 
ATE and RPE comparison on TUM dataset using different methods (Bold values indicate the lowest error for each metric across methods.)
TUM RGB-D Error
(m)
ORB SLAM2
(Mono)
ORB SLAM2
(RGB-D)
Ours
(Mono)
fr1_desk ATE 0.442 0.020 0.024
fr1_xyz 0.114 0.019 0.084
fr1_desk RPE 0.12 0.030 0.021
fr1_xyz 0.08 0.018 0.065

4.2 구현 세부 사항

본 연구는 Intel (R) Core (TM) i7-8700 CPU @ 3.20GHz, 32GB RAM, Nvidia GeForce RTX 4070 GPU를 장착한 데스크톱에서 테스트되었다. [1]는 C++ 구현을 기반으로 하며, 나머지 파이프라인은 PyTorch를 사용하여 개발되었다.

4.3 깊이 추정 성능 비교

제안된 Depth Anything v2 기반 Fine-tuning 기법을 다양한 실험 환경에서 평가하였으며, 기존 방법과 비교하였다.

4.3.1 TUM GT Depth Refine 성능 비교

본 연구에서는 맵 보정 기법이 깊이 추정 성능에 미치는 영향을 분석하였다. [Table 4]는 Non-refined Depth Map과 Refined Depth Map 간의 정량적 성능 비교 결과를 보여준다. fr1_desk 시퀀스에서 Refine 기법 적용 시 RMSE는 37.43 m에서 34.25 m로 8.5% 감소하였고, Abs Rel과 SiLog도 각각 6.41 → 5.87, 0.41 → 0.34로 개선되었다. fr2_xyz 시퀀스에서는 RMSE가 70.3% 감소(40.85 → 12.13), Abs Rel은 6.98 → 1.83로 개선되었다. 특히, fr3_nt_t_f 시퀀스에서는 RMSE가 33.48 → 7.58로 77.3% 감소, fr3_nt_t_n 시퀀스에서는 37.29 → 12.41로 66.7% 감소하였다. 전반적으로 Refine 기법은 다양한 환경에서 깊이 추정 정확도를 효과적으로 향상시키는 것을 확인할 수 있다.

[Table 4] 
Depth Refine Result at Depth Anything v2 (Bold values indicate the lowest error for each metric across methods.)
Non Refine Depth Map Refine Depth Map
(↓) RMSE
(m)
Abs Rel SiLog RMSE
(m)
Abs Rel SiLog
fr1_desk 37.43 6.41 0.41 34.25 5.87 0.34
fr2_xyz 40.85 6.98 0.17 12.13 1.83 0.65
fr3_nt_t_f 33.48 2.45 0.08 7.58 0.37 0.15
fr3_nt_t_n 37.29 5.69 0.06 12.41 1.29 0.21

4.3.2 Data Augmentation

CLAHE 및 채도 반전 기반 이미지 증강 기법을 적용하여 깊이 추정 성능을 평가하였다. [Table 5]는 다양한 증강 기법이 성능에 미치는 영향을 보여준다. 기본 Depth Anything v2 모델은 RMSE 22.06 m로 높은 오차를 보였으나, CLAHE 적용 시 RMSE가 3.23 m로 85.4% 감소하였다. 반면, 명암 깊이 융합만 추가했을 경우 RMSE가 다소 증가하였다. 기법을 모두 적용한 최종 모델은 RMSE 1.96 m, Abs Rel 0.21, SiLog 0.055로 가장 우수한 결과를 나타냈다. Edge IoU도 0.025로 크게 향상되어, 객체 경계 표현력이 향상되었음을 확인할 수 있다.

[Table 5] 
Data Augmentation at Depth Anything v2 (Bold values indicate the lowest error for each metric across methods.)
RGB Image CLAHE CLAHE RGB + CLAHE Depth CLAHE RGB + CLAHE Depth + Inverted Saturation
RMSE (m)
(↓)
22.06 3.23 3.56 1.96
Abs Rel
(↓)
2.68 0.56 0.6 0.21
SiLog
(↓)
0.41 0.099 0.058 0.055
edge IOU
(↑)
0.0089 0.0004 0.0038 0.025

4.4 SLAM 성능 평가
4.4.1 KeyFrame 적용에 따른 성능 분석

제안한 KeyFrame 기반 MDE 방식의 실시간 처리 성능을 검증하기 위해, 모든 프레임에 MDE를 적용한 경우와 KeyFrame에만 적용한 경우를 비교하였다. [Table 6]은 두 방식의 평균 처리 속도(FPS)와 깊이 추정 정확도(RMSE)를 나타낸다. 모든 프레임에 MDE를 적용한 경우 FPS는 7.3으로 실시간 처리에는 적합하지 않았다. 반면, KeyFrame에만 적용한 경우 23.4 FPS, 초기화+KeyFrame 방식은 18.8 FPS로 실시간 처리에 충분한 성능을 보였다. 또한 , RMSE 역시 각각 0.11 m와 0.02 m로 매우 높은 정확도를 유지하였다. 특히 ATE 기준 정확도 저하는 모든 프레임 방식 대비 6.8% 수준에 불과하여, 제안 방식이 실시간성과 정확도 간의 우수한 균형을 달성함을 확인할 수 있었다. [Fig. 7]은 ATE 결과를 시각적으로 보여준다.

[Table 6] 
ORB SLAM3 MDE KeyFrame FPS at TUM dataset (Bold values indicate the lowest error for each metric across methods.)
Sensor Method Average FPS ATE rmse (m)
Monocular ORB SLAM[1] 34.8 0.44
DROID SLAM[3] 2.5 0.05
UDGS SLAM[12] 3.2 0.030
Depth Anything v2[7] All 2.5 0.19
Initial 25.3 0.10
Keyframe 23.4 0.11
Initial+ Keyframe 18.8 0.02


[Fig. 7] 
ORB-SLAM3 MDE with initial, KeyFrame, Initial+ KeyFrame

4.4.2 다른 연구 방법과의 비교 분석

제안된 방법의 성능을 기존 최신 SLAM 연구들과 비교하여 평가하였다. [Table 7]은 일반적인 시퀀스(fr1_desk, fr2_xyz, fr3_office)에 대한 RMSE 비교 결과를, [Table 8]은 텍스처 및 조명 변화가 심한 시퀀스(fr3_nt_t_f, fr3_nt_t_n, fr3_t_nt_f, fr3_t_nt_n)에 대한 비교 결과를 보여준다. 일반 시퀀스 RMSE 비교 결과([Table 7])를 보면, 제안된 방법은 대부분의 시퀀스에서 기존 방법보다 우수한 성능을 기록하였다. 예를 들어, fr1_desk 시퀀스에서는 UDGS SLAM[12] 대비 20% 이상, fr3_office 시퀀스에서는 DROID SLAM[3] 대비 약 17.3% 낮은 RMSE를 기록하였다. 특히 Mono 기반 ORB-SLAM[1] 대비 4~5배 수준의 정확도 향상을 보였다. 또한, 텍스처 및 조명 변화 시퀀스 성능 비교([Table 8])에서는, 제안된 방법이 RGB-D SLAM 수준의 RMSE 성능(0.04 m 내외)을 유지하며 강인한 성능을 보였다. fr3_nt_t_f 시퀀스에서는 ORB-SLAM (Mono) 대비 RMSE가 0.8532 m → 0.0443 m, fr3_nt_t_n 시퀀스는 0.4735 m → 0.0454 m, fr3_t_nt_f는 0.9042 m → 0.0512 m, fr3_t_nt_n는 0.6935 m → 0.0565 m로 각각 90% 이상 개선된 성능을 보였다.

[Table 7] 
Compare TUM dataset fr1_desk ATE RMSE (Bold values indicate the lowest error for each metric across methods.)
RGB-D Mono
ORB SLAM[1] ORB SLAM[1] DROID SLAM[3] UDGS SLAM[14]
Ours
fr1 _desk 0.034 0.442 0.052 0.030 0.024
fr2 _xyz 0.019 0.114 0.107 0.022 0.084
fr3_office 0.100 0.991 0.102 0.113 0.073

[Table 8] 
ATE RMSE on Sequences with Texture and Illumination Variations (Bold values indicate the lowest error for each metric across methods.)
RGB-D Mono
ORB SLAM[1] ORB SLAM[1] Ours
fr3_nt_t_f 0.032 m 0.853 m 0.044 m
fr3_nt_t_n 0.023 m 0.473 m 0.045 m
fr3_t_nt_f 0.024 m 0.904 m 0.051 m
fr3_t_nt_n 0.031 m 0.693 m 0.056 m

4.4.3 실시간성 비교

[Table 6]에 나타난 바와 같이, 제안된 방법은 실시간 처리 성능 측면에서도 기존 방법보다 우수한 결과를 보였다. ORB-SLAM (Mono)는 평균 FPS는 34.8 FPS로 높으나 RMSE가 0.44로 비교적 높은 오차를 보였고, DROID SLAM[3]은 RMSE는 낮지만 FPS가 2.5에 불과하여 실시간성이 떨어졌다. UDGS SLAM[12] 역시 평균 FPS는 3.2 FPS 수준에 머물렀다.

반면, 본 논문의 초기화+KeyFrame 기반 방법은 18.8 FPS, RMSE 0.02 m로 실시간성과 정확도를 모두 만족시키는 최적의 성능을 보였다. 특히 [12] 논문과 동일한 방식(MDE 기반 깊이 지도 활용)을 적용할 경우에도, 해당 연구의 실시간 성능은 3.2 FPS에 불과하다는 점에서 제안 방법의 우수성이 더욱 강조된다.


5. 결 론

본 연구는 단안 VSLAM 시스템의 핵심 한계인 깊이 정보 부족 문제를 해결하기 위해, Depth Anything v2 모델을 개선하고 ORB-SLAM3에 효과적으로 통합하는 방법론을 제시하였다. Edge Loss 함수 도입, 깊이맵 Ground Truth 보간, 이미지 전처리를 통한 객체 경계 강화, KeyFrame 기반 선택적 적용 등을 통해 깊이 추정 정확도, 위치 추정 성능, 실시간 처리 속도를 동시에 향상시킬 수 있음을 입증하였다.

특히, 제안된 방법은 딥러닝 기반 깊이 추정 모델을 활용함에도 불구하고 실시간성을 일정 수준 유지하면서, 정확도 측면에서도 기존 딥러닝 기반 접근법 대비 우수한 성능을 확보하였다. 또한, 깊이 센서를 사용하지 않고도 센서 기반 시스템에 필적하는 정밀한 추정 성능을 달성함으로써, 전통적인 SLAM 기법이나 고가의 RGB-D 센서 기반 접근법에 비해 비용 효율성과 실용성 면에서 높은 경쟁력을 갖춘다는 점에서 의의가 있다.

본 연구는 ORB-SLAM3 기반 시스템에서의 깊이 스케일 보정을 주요 목표로 삼고 있으나, 제안된 경계 인식 기반 MDE 모듈은 구조적으로 독립성이 높아 VINS-Mono[21], OpenVINS[22], ProSLAM[23] 등 다양한 SLAM 프레임워크에 통합 가능한 형태로 설계되어 있다. 이에 대한 확장 가능성은 향후 연구 과제로 설정하였으며, 다양한 SLAM 구조에의 적용 실험을 통해 일반성을 추가적으로 검증할 예정이다.

향후 연구에서는 TUM 데이터셋뿐만 아니라 다양한 실내 환경을 반영한 데이터셋에 대한 적용을 통해 모델의 범용성과 강인성을 더욱 향상시킬 계획이다. 더불어, 본 프레임워크를 dense SLAM 시스템에 확장 적용하여 보다 정밀한 3차원 지도 작성이 가능하도록 발전시킬 예정이다.


Acknowledgments

This work was supported by Korea Institute for Advancement of Technology (KIAT) grant funded by the Korea Government (MOTIE) (P0024177, Development of RIC (Regional Innovation Cluster)) and was supported by Institute of Information & communications Technology Planning & Evaluation (IITP) grant funded by the Korea government (MSIT) (No. RS-2025-02219319, Development of Standards for Quantum Cryptography based Zero Trust Secure Network/Service and Control/Management against Quantum Computer Attacks).


References
1. C. Campos, R. Elvira, J. J. G. Rodríguez, J. M. Montiel, and J. D. Tardós, “ORB-SLAM3: An accurate open-source library for visual, visual–inertial, and multimap SLAM,” IEEE Transactions on Robotics, vol. 37, no. 6, pp. 1874-1890, Dec., 2021.
2. Z.-W. Ma and W.-S. Cheng, “Visual-Inertial RGB-D SLAM with Encoder Integration of ORB Triangulation and Depth Measurement Uncertainties,” Sensors, vol. 24, no. 18, Sept., 2024.
3. Z. Teed and J. Deng, “DROID-SLAM: Deep visual SLAM for monocular, stereo, and RGB-D cameras,” Advances in Neural Information Processing Systems, arXiv:2108.10869, 2021.
4. J. Engel, T. Schöps, and D. Cremers, “LSD-SLAM: Large-scale direct monocular SLAM,” European Conf. on Computer Vision (ECCV), Zurich, Switzerland, pp. 834-849, 2014.
5. R. Wang, M. Schwörer, and D. Cremers, “Stereo DSO: Large-scale direct sparse visual odometry with stereo cameras,” arXiv:1708.07878, 2017.
6. N. Yang, L. V. Stumberg, R. Wang, and D. Cremers, “D3VO: Deep depth, deep pose and deep uncertainty for monocular visual odometry,” arXiv:2003.01060, 2020.
7. M. Burri, J. Nikolic, P. Gohl, T. Schneider, J. Rehder, S. Omari, M. W. Achtelik, and R. Siegwar, “The EuRoC micro aerial vehicle datasets,” The International Journal of Robotics Research, vol. 35, no. 10, pp. 1157-1163, 2016.
8. P. Zhu, Y. Zhuang, B. Chen, L. Li, C. Wu, and Z. Liu, “MGS-SLAM: Monocular sparse tracking and Gaussian mapping with depth smooth regularization,” IEEE Robotics and Automation Letters, vol. 9, no. 11, pp. 9486-9493, Nov., 2024.
9. L. Yang, B. Kang, Z. Huang, Z. Zhao, X. Xu, J. Feng, and H. Zhao, “Depth anything V2,” arXiv:2406.09414, 2024.
10. S. F. Bhat, R. Birkl, D. Wofk, P. Wonka, and M. Müller, “ZoeDepth: Zero-shot transfer by combining relative and metric depth,” arXiv:2302.12288, 2023.
11. L. Piccinelli, Y.-H. Yang, C. Sakaridis, M. Segu, S. Li, L. Van Gool, and F. Yu, “UniDepth: Universal monocular metric depth estimation,” arXiv:2403.18913, 2024.
12. F. Steinbrücker, J. Sturm, and D. Cremers, “Real-time visual odometry from dense RGB-D images,” 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), Barcelona, Spain, pp. 719-722, 2011.
13. N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from RGBD images,” European Conf. on Computer Vision (ECCV), Florence, Italy, pp. 746-760, Oct., 2012.
14. M. Mansour, A. Abdelsalam, A. Happonen, J. Porras, and E. Rahtu, “UDGS-SLAM: UniDepth assisted Gaussian splatting for monocular SLAM,” Array, vol. 26, Jul., 2025.
15. R. Dey, “MonoDepth-vSLAM: A visual EKF-SLAM using optical flow and monocular depth estimation,” M.S. thesis, Univ. of Cincinnati, Cincinnati, OH, USA, 2021.
16. R. Ranftl, A. Bochkovskiy, and V. Koltun, “Vision transformers for dense prediction,” arXiv:2103.13413, 2021.
17. L. Yang, B. Kang, Z. Huang, X. Xu, J. Feng, and H. Zhao, “Depth anything: unleashing the power of large-scale unlabeled data,” arXiv:2401.10891, 2024.
18. K. Tateno, F. Tombari, I. Laina, and N. Navab, “CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction,” arXiv:1704.03489, 2017.
19. X. Guo, H. Zhao, S. Shao, X. Li, B. Zhang, and N. Li, “SPDepth: Enhancing self-supervised indoor monocular depth estimation via self-propagation,” Future Internet, vol. 16, no. 10, Oct., 2024.
20. L. Sun, J.-W. Bian, H. Zhan, W. Yin, I. Reid, and C. Shen, “SC-DepthV3: Robust self-supervised monocular depth estimation for dynamic scenes,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no. 1, pp. 497-508, Jan., 2024.
21. T. Qin, P. Li, and S. Shen, “VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State Estimator,” IEEE Transactions on Robotic, vol. 34, no. 4, pp. 1004-1020, Aug., 2018.
22. P. Geneva, K. Eckenhoff, W. Lee, Y. Yang, and G. Huang, “OpenVINS: A research platform for visual-inertial estimation,” IEEE International Conf. on Robotics and Automation (ICRA), Paris, France, pp. 4666-4672, 2020.
23. D. Schlegel, M. Colosi, and G. Grisetti, “ProSLAM: Graph SLAM from a programmer’s perspective,” 2018 IEEE International Conference on Robotics and Automation (ICRA), Brisbane, Australia, pp. 3833-3840, 2018.

유 경 민

2024 고려대학교 컴퓨터융합소프트웨어학과(학사)

2024~현재 고려대학교 컴퓨터정보학과(석사)

관심분야: 자율 주행, 컴퓨터 비전, 로보틱스

남 승 우

2024 고려대학교 컴퓨터융합소프트웨어학과(학사)

2024~현재 고려대학교 컴퓨터정보학과(석사)

관심분야: 자율 주행, 경로 계획, 로보틱스

박 재 원

2024 고려대학교 컴퓨터융합소프트웨어학과(학사)

2024~현재 고려대학교 컴퓨터정보학과(석사)

관심분야: 자율 주행, 센서 처리, 로보틱스

장 윤 성

2024 고려대학교 컴퓨터융합소프트웨어학과(학사)

2024~현재 고려대학교 컴퓨터정보학과(석사)

관심분야: 네트워크 관리 및 보안, 트래픽 모니터링 및 분석

김 주 성

2024 고려대학교 컴퓨터융합소프트웨어학과(학사)

2024~현재 고려대학교 컴퓨터정보학과(석사)

관심분야: 네트워크 관리 및 보안, 트래픽 모니터링 및 분석

김 명 섭

1998 포항공과대학교 전자계산학과(학사)

2000 포항공과대학교 전자계산학과(석사)

2004 포항공과대학교 전자계산학과(박사)

2006 Dept. of ECS, Univ of Toronto Canada

2006~현재 고려대학교 컴퓨터융합소프트웨어학과(교수)

관심분야: 자율주행, 네트워크 관리, 트래픽 모니터링 및 분석