Journal of Korea Robotics Society
[ ARTICLE ]
The Journal of Korea Robotics Society - Vol. 12, No. 1, pp.33-41
ISSN: 1975-6291 (Print) 2287-3961 (Online)
Print publication date Feb 2017
Received 26 Jul 2016 Revised 9 Dec 2016 Accepted 31 Jan 2017
DOI: https://doi.org/10.7746/jkros.2017.12.1.033

다시점 객체 공분할을 이용한 2D-3D 물체 자세 추정

김성흠1 ; 복윤수 ; 권인소2
2D-3D Pose Estimation using Multi-view Object Co-segmentation
Seong-heum Kim1 ; Yunsu Bok ; In So Kweon2
1School of Electrical Engineering, KAIST shkim2@rcv.kaist.ac.kr
2Professor, Electrical Engineering, KAIST iskweon@kaist.ac.kr

Corresponding author : Research Assistant Professor, School of Electrical Engineering, KAIST ( ysbok@rcv.kaist.ac.kr)

© Korea Robotics Society. All rights reserved.

Abstract

We present a region-based approach for accurate pose estimation of small mechanical components. Our algorithm consists of two key phases: Multi-view object co-segmentation and pose estimation. In the first phase, we explain an automatic method to extract binary masks of a target object captured from multiple viewpoints. For initialization, we assume the target object is bounded by the convex volume of interest defined by a few user inputs. The co-segmented target object shares the same geometric representation in space, and has distinctive color models from those of the backgrounds. In the second phase, we retrieve a 3D model instance with correct upright orientation, and estimate a relative pose of the object observed from images. Our energy function, combining region and boundary terms for the proposed measures, maximizes the overlapping regions and boundaries between the multi-view co-segmentations and projected masks of the reference model. Based on high-quality co-segmentations consistent across all different viewpoints, our final results are accurate model indices and pose parameters of the extracted object. We demonstrate the effectiveness of the proposed method using various examples.

Keywords:

Multi-view object co-segmentation, 2D-3D pose estimation

1. 서 론

산업 응용을 위한 로보틱스는 다양한 관점에서 많은 발전이 있어왔고[1-8], 컴퓨터 비전 학계에서도 이를 위한 더 나은 솔루션을 탐구하고 있다[9,10]. 특히 인터넷에 수 집되는 3D 모델이 최근 크게 증가함에 따라 특정 3D 모델을 가정하여 영상에 맺힌 물체의 정확한 자세를 알 아내는 문제도 제조/검증 응용 관점에서 다시 주목을 받 고 있다. 본 논문에서 다루고자 하는 2D-3D 자세추정이 란 보정된 카메라로 관찰되는 입력 영상내의 물체와 알 고있는 3D 모델의 상대적 자세를 기하학적으로 추론하 는 것을 말한다. 이는 로보틱스, 컴퓨터 비전 및 여러 그래픽스 응용에 있어 중요하게 다루어져 왔다.

현재 정형화 된 접근으로는 보정된 카메라 영상에서 탐지되는 경계를 3D 모델로부터 투영된 그것과 정합하 는 방식이 있다. 이것이 발전하는 과정에서 경계 및 외부 환경에 강인한 국소 특징량들을 추출하게 되었고, 정합 에 이용된 목적 함수들 또한 새로이 제안되어 왔다.

하지만 카메라 입력을 객체화 하는 과정 없이 물체 경계 및 내부 영역의 특징을 추출하려는 시도는 여러가 지 광학적 노이즈로 분명한 경계를 탐지하기 어려운 경 우, 또한 특별한 질감이 없는 물체가 매우 혼잡한 배경에 놓여 있는 경우 자세 추정 오차율을 높이게 된다. 이와 같은 상황에서는 영역 기반으로 물체를 표현하는 것이 유리한 것으로 알려져 있으나, 그러한 2D 영역을 통계적 으로 모델링하고 분할하기에는 초기 전경과 배경의 특 성들이 모호하게 정의되기 쉽다는 단점이 있었다.

본 논문에서는 이와 같은 한계를 극복하고자, 주어지 는 물체는 다시점으로 관찰될 수 있음을 가정하였다. 다 시점 객체 공분할(co-segmentation, 共分割)이란 두 개 이상의 시점에서 관찰되는 임의의 전경 물체를 기하학 적 제한 조건을 사용하여 동시에 분할하는 것을 말한다[11-17]. 이를 바탕으로 제안하는 시스템은 각 시점의 전경 마스 크들을 이용하여 물체의 시점 별 영역과 경계를 함께 고려하는 에너지 함수를 최적화한다. 더 많은 시점 정보 와 강인한 객체화 과정은 기존 방법들에 비해 정성적, 정량적 이점들을 보인다. 이어지는 장에서는 각 단계의 중요한 기술적 요소들을 구체적으로 설명한다.


2. 기하학, 외형 모델을 통한 다시점 객체 공분할

전통적으로 영상분할은 여러가지 목적함수를 마르코 프 무작위장(Markov random field, 이하 MRF)의 에너지 항으로 모델링하는 기법을 많이 사용한다. 여기서의 에 너지항 또한 크게 데이터항(data term, Ed)과 평활화항 (smoothness term, En)으로 나누어 설명한다[18,19].

EdEa+(1-ρ)EgEnncEncngEng(Eq. 1) 

(Eq. 1)은 첫번째 단계에서 사용하는 MRF 에너지항을 표현한다. 데이터 항은 전경과 배경의 외형을 각각 모델 링(appearance term, Ea)하고 기하학적 제한조건을 고려 (geometric term, Eg)하도록 설계한다. 또 외형 모델의 신뢰도에 따라 Ea와 Eg의 상대적 영향도 를 결정한다[12].

단, 외형 정보 중 색상(color) 만을 사용하였는데, 본 본 응용 범위에서는 응용 범위에서는 비교적 질감 정보 가 없는 기계 부품을 다루기 때문이다. 평활화항(neighborhood term, En) 또한 인접 픽셀 간 색상 거리가 주요하 게 고려되며, 모든 시점에 적용되는 기하학 정보(Eng)를 이것과 함께 사용한다. λnc=10, λng=1.5 은 알고리즘 상 수 값이다.

2.1. MRF 초기화(MRF initialization)

다시점 객체 공분할의 초기 영역은 카메라의 자세를 보정 패턴으로 정확하게 추정한 후, 관심 물체가 모든 카메라에 완전히 보여진다는 가정에서 얻어진다[11-16]. MRF의 각 노드와 연결에 대한 초기 에너지는 픽셀 수준 으로 정의할 수 있다. 모든 데이터항과 기하학적 평활화 항은 매번 갱신되는 영역에서 새롭게 계산된다. 1/4의 초기해상도에서 최적화 후, 원본에서 결과를 구했다.

Fig. 1은 첫 번째 단계의 다시점 객체 공분할의 예를 보여준다. 입력 물체의 정면과 평면 시점에서만 정의된 사용자 영역은 제안하는 알고리즘으로 다음 행의 파란 색 선과 같이 모든 시점으로 전파된다[12]. 녹색 선은 이 영 역들로부터 초기화된 모델에서 반복적 그래프컷을 사용 하여 수렴된 결과를 보여준다.

Fig. 1

Multi-view co-segmentation of a machinery component (Blue box: Initialization, Green line: Segmentation result)(a) User-given bounding boxes for two views and their segmentations. (b) Propagations for the rest of views and our results

2.2. 외형 모델링(appearance model)

MRF의 데이터 항 Ea은 전경, 배경 외형을 정의한다. 특정 시점에서의 물체 외형은 칼라 정보와 모든 시점이 공유하는 질감 정보로 나누어 생각할 수 있다[12]. 하지만 이와 같은 균질한 매질의 기계 부품 영역을 높은 수준의 정확도로 추출하는 산업 응용에서는 칼라 정보만을 사 용하여 모델링하였다.

칼라 정보의 경우는 학계에서 흔히 쓰이는 Gaussian mixture model (GMM) 을 그대로 사용하였지만, 기하학 적 제한 조건을 반복적으로 사용하는 공분할의 경우에 는 정밀도(precision) 보다는 재현율(recall) 수치가 구현 상 더 중요하게 다루어진다.

2.3. 기하학적 제한 조건(geometric representation)

MRF의 데이터 항 Eg은 모든 시점에서 일관된 영역을 유도한다. 보정된 카메라 영상에서 전경으로 추론되는 영역은 다른 시점 영상에서도 이를 얼마나 동의하는지 확인하는 작업을 수행할 수 있다. 이와 같은 기하학적 제한 조건은 기존 연구들에서 사용되는 범위나 구현 상 차이가 있으나, 공통된 목적은 공간에서 일관되는 전경 영역들을 유도하는 것이다[11-17]. 카메라 자세 정보를 통 해 모든 시점에서 일관된 전경 영역만을 추론하는데 중 요한 기하학적 단서로 활용된다.

2.4. 에너지 최적화(energy optimization)

MRF 최적화 초기 단계에서는 칼라 정보가 기하학적 제한 조건보다 전경의 대략적인 영역을 높은 재현율로 탐지하게 된다. 하지만 전경 추론 영역의 정밀도가 높아 질수록 기하학적 제한조건이 더 효과적으로 작동한다.

칼라 정보의 경우 기하학적 데이터항과 다르게, 각각 의 시점마다 모델링 되기 때문에, 적응적 가중치를 두어 알고리즘의 안정성을 높였다[12]. 알고리즘 초기에는 큰 변화를 허용하지만, 전경 물체 경계가 드러나면서 점차 기하학적 에너지 항의 가중치를 높이며 최종 영역이 수 렴하도록 설계하였다. 그래프 컷의 평활화항 En은 분할 지점이 색상과 구조 경계에서 발생하도록 유도하며, 해 당 가중치 상수 값은 실험적으로 구하였다.

본 논문에서는 반복적인 최적화[22-24]를 통해 갱신되는 영역의 크기가 일정 수준 아래로 안정되면 수렴하는 것 으로 보았다. 즉, 분할 영역 변화가 크지 않거나, 공유하 는 3D 모델이 더 이상 갱신되지 않을 때를 종료 조건으 로 본다. HD급 기준으로 8장을 공분할 하는데, 약 10분 내외의 시간이 소요되었다.


3. 영역 기반 2D-3D 자세 추정

알고리즘의 두번째 단계에서는 Fig. 2와 같이 다양한 종류와 속성을 가진 3D 물체를 공분할 영역에 투영하고, 최종적으로 정확한 모델을 선택하여 그것의 자세(upright orientation, translation, in-plane rotation)를 정한다. 그림 에서는 같은 종류의 부품이나 세부 속성이 다른 reference 모델들이 임의의 자세로 배치된 것을 노란색, 관찰되는 물체의 공분할 영역을 녹색으로 표현했다. 이것을 입력 으로 하여 그림의 오른쪽에서는 (Eq. 2)의 목적 함수를 최대화하는 자세 파라메터가 무엇인지 구하게 된다.

Fig. 2

2D-3D object pose estimation. (Green line: Estimated object mask, Yellow line: Projection of a reference model) Left: Initial projections of two models with a candidate up-vector, Right: Comparison of accumulated errors after model fitting

argmaxθυ[SR(Fυ|θ,ϕυ)+αSB(Iυ|ϕυ](2) 

정확한 reference 모델의 upright orientation이 바르게 추정 되었을 때, 모든 시점에서의 모델 정합 오차가 최소 화 된다. 예를 들어, 수렴 후 투영된 reference 모델과 추론된 분할 영역과의 오차를 빨간색으로 표시하였다.

이 문제에서, 전경 마스크 F가 각 시점 v 별로 추론 되었으며, 칼라 영상 I 또한 각 카메라 시점 마다 ϕυ의 내, 외부 파라메터가 보정 되었음 가정한다. 관심있는 물 체 투영 파라메터 θ는 model category, instance에 대한 index와 물체 자세에 관계된 up-vector u, translation x, y 그리고 in-plane rotation r로 설명할 수 있다. θ를 통해 3D 모델이 영상에서 관찰되는 물체 영역과 경계에 정합 될 때, 이를 각각 SR, SB로 점수화하여 극대값 지점을 찾는 문제로 풀게 된다. 본 장에서는 이를 구체화한다. 여기서 α=0.15는 각 항의 가중 정도에 대한 상수값이다.

본 논문에서 차용하고 있는 2D-3D 자세 추정은 영역 추출에 기반을 둔 방법론[25]과 유사한 부분이 있다. 하지 만 level set 분할 접근보다는 보다 복잡한 배경을 다룰 수 있는 그래프컷 기반으로 영역을 추출하게 된다. 또 최적화 과정이 model fitting과 엮여 있는 전자와는 달리 두 단계로 분리했다는 점에서 차이를 보인다. 마지막으 로 다시점 정보에 대한 이점을 실험적 근거를 통해 제시 했다는 점이 기존 연구[25]에 비해 새롭다고 할 수 있다. 이 알고리즘 비교 및 분석을 위해서는 VLFeat library[26] 가 활용되었다.

3.1. 투영 영역을 분할 영역으로 정합(region term)

이론적으로, 공간 상의 reference model은 주어진 θ에 서 모든 시점 영상으로 투영되어 우리가 알고 있는 분할 영역들과 정확하게 정합 된다. 평면에 놓인 물체의 자세 는 평면 상의 움직임 x, y, 그리고 평면 상의 회전 r로 3 자유도를 갖게 된다.

종류 별로 대표가 되는 개체들은 이러한 영역 점수와 함께 목적 함수가 최대가 되는 up vector u에서 한 종류 를 선택하게 되고, 또 같은 종류에서 세부 속성이 다른 개체들도 이와 같은 방법으로 검색되게 된다. 영역 점수 는 물체 내부의 질감이 거의 없고 광학 노이즈가 심한 경우에도 비교적 강인하게 측정하여, 안정적으로 3D 모 델을 검색하는데 유리하다. 단일 시점만을 사용하는 영 역 기반 접근에서는 정확한 3D 모델을 초기 단계부터 가정하고, 동시에 분할과 자세 추정을 최적화하여 오차 율을 줄이게 된다. 하지만 본 연구의 경우는 모델의 종류 가 다양하고, 또 같은 종류의 부품에서도 구체적인 속성 이 다르기에 공분할 단계에서는 이러한 가정을 두지 않 았다.

3D 모델 Mθ, ϕυ의 파라메터로 특정 시점 영상에 투영한 것을 MR(θ, ϕυ ) 같이 표현한다면, 이것을 그 시 점에서 추론된 전경 마스크 Fυ와 Intersection-over-Union (IoU)을 측정하는 방식으로 SR을 정의하였다.

3.2. 경계 픽셀의 중요도 고려(boundary term)

본 논문에서는 물체의 정밀한 자세 추정을 위해 물체 의 분명한 경계를 중요하게 고려한다. 구체적으로는, 객 체화 된 마스크의 주변 영역의 정보를 단순한 경계 추출 기를 통해 이진화 하고, 투영 영역의 외곽선과의 교집합 을 이루는 픽셀들을 세는 방식으로 SB를 구현하였다. 그리고 경계가 보다 정렬된 결과를 얻을 수 있었다.

이것은 어떤 3D 모델 M의 외곽선이 θ, ϕυ의 파라메터 로 특정 시점 영상에 투영한 것을 MR (θ, ϕυ )라고 표현 한다면, 주어진 칼라 영상 Iυ의 경계선 픽셀들과 최대로 많은 개수로 겹쳐지는 최적 자세 θ*를 찾는 것이다.


4. 결과 및 토의

4.1. 자료 수집(dataset collection)

검증에 사용된 데이터셋은 다음과 같이 준비되었다. 먼저 임의의 형상을 가진 금속 부품 10개 종류를 수집하 였다. 각 종류 별로 세부 속성이 다른 4개의 개체가 있어, 데이터셋은 총 40개의 부품을 관찰하는 이미지로 구성 된다. 산업용으로 만들어지는 각 부품 정보는 완전하게 주어진다고 가정하였고, 각 모델의 convex hull의 모든 candidate bases의 안정성[27]을 이용하여 평가하였다. 모 델 별로 가능한 up-vector가 다수 개 존재하는 경우는 이를 이용하여 최대 4개 이하로 제한한다.

Fig. 3은 데이터 캡쳐를 위한 시스템과 논문에서 정의 한 notation을 정리한다. 또 부품 종류 및 개체에 대한 3D 모델링 결과와 up vector 선정 과정을 보여준다[27].

Fig. 3

Data collection. (a) Capturing system. (b) 3D modeling of target objects. (c) Upright orientation proposal (four at most)

제안하는 알고리즘의 성능 파악, 특히 정밀한 자세 추 정에 대한 알고리즘 분석을 위하여 시뮬레이션 소프트 웨어를 활용하였다[28-29]. 그리고 최종 실험에 있어서는 자유로운 시점의 카메라를 위해 6 자유도 로봇팔(SAMSUNGFARAMAN, SRCP controller)을 사용하였다.

또한 결과를 정량적으로 분석하기 위해 3 자유도의 정 밀스테이지(Panasonic-MSMD-012G1S, Panasonic-MADHT- 1505E, EmotionTech-MCSH-80P4)를 준비하였다.

4.2. 실험 결과(Experimental results)

본 논문에서 사용한 방법은 전통적인 경계 기반 접근 법과 영역 기반 접근을 혼합한 것이다. 특히 종래의 외관 모델링에 있어, 다시점 입력에서의 기하학적 제한 조건 을 더하여 최적화 하고 있다. Fig. 4에서는 제안하는 알 고리즘 각 단계에 대한 결과 예시를 시각적으로 나타내 었다. 그림에서 파란색 선은 카메라 자세로부터 초기화 된 영역을 나타내며, 빨간색 선은 시점 별로 세워진 전경 외형에 대한 에너지 함수로 물체 영역을 추론한 것이다. 녹색 선은 기하학적인 제한 조건을 포함하여 모든 시점 에서 일관된 전경 영역을 추론한 것이며, 이를 이용해 최종적으로 물체 판별 및 자세를 추정하여 정합된 경계 를 노란색으로 표현하였다.

Fig. 4

2D-3D Pose Estimation using Multi-view Object Co-segmentation. First row: Input images with initialization, Second row: Segmentations using only color models, Third row: Multi-view object co-segmentation, Fourth row: Our 2D-3D pose estimation

그림에서 두번째 줄에 나타난 결과들은 기존 방법론[25] 과 같이 초기화된 에너지로부터 단일 시점에서 칼라 정 보만을 활용하여 전경 영역을 추론하게 된다. 또한 알고 있는 3D 모델을 2D 영상에서 관찰되는 영역으로 정합시 키는 과정 또한 영역 기반 에너지만을 고려한다.

전통적인 경계 특징량 기반 접근법에서는 배경에서 검출되는 경계 특징들이 보여지는 예제와 많을 경우, 물 체 형태를 미리 가정하는 경우에도 외곽선과 혼동이 생 겨 목적 함수가 국소 최소값에 빠지기 쉬웠다.

특히, 본 논문에서 다루는 금속 부품은 균일한 재질을 가지고 있어 내부의 특별한 질감 특징이 없으며, 시점에 따라 표면 반사나 그림자와 같은 여러가지 광학적 현상 이 경계 검출의 노이즈로 작용하게 된다. 따라서 단일 재질의 객체를 분할하는 접근이 유리하게 사용될 수 있 겠다[25]. 단, 여기서는 단일 시점 만을 고려한다.

나아가 세번째 줄에 나타난 결과들은 공간에서 일관 된 전경을 추론하기 위해 기하학적인 제한조건을 모든 시점에 대해여 적용한 것이다. 그림에서 보여지는 기하 학적 에너지 항과 앞서 구한 칼라 외형 에너지 항을 함께 적용하여 경계를 추출할 경우, 학계에 보고된 바와 같이, 단일 시점에서 칼라 만을 사용한 예제에 비해 false alarm 을 크게 낮출 수 있었다.

그리고 마지막 줄에서는 위와 같이 수렴된 물체 영역 과 칼라 영상에서 추출되는 경계를 함께 이용하였다 (검 은색으로 표시). 3D 모델을 모든 시점에 투영하여 각 시점 영상의 물체 영역에 정합하는 예제를 보여준다.

기본적으로 본 논문의 2D-3D 자세 추정은 영역 분할 에너지에 크게 의존하는 방법론[25]를 채택한다. 하지만 우리의 방법론에서는 각 칼라 영상의 경계선과 정렬하 는 부분을 강화한 것과 공간 상의 물체 움직임을 이를 관찰하는 모든 시점에서 동시에 최적화하는 것이 추가되었 다. Fig. 5에서는 본 연구에 기반이 된 알고리즘[25]과 그것 을 확장한 알고리즘의 주요한 차이들을 보여준다.

Fig. 5

Qualitative comparisons. (Blue line: Initialization, Green line: Segmentation, Yellow line: Pose estimation) (a) Single-view image segmentation using color models only and 2D-3D pose estimation in [25], (b) Our results

먼저 (a)의 경우에서는 단일 시점에서 칼라 모델을 반 복적으로 갱신하여 수렴한 물체 영역과 가장 높은 점수 로 정합된 모델의 자세를 보여준다.

(b)의 경우는 칼라 모델이 갱신되는 과정에서 다시점 공분할 알고리즘[12]이 이용되었으며, 수렴된 영역과 칼 라 영상에서 검출된 경계선들을 모두 고려하여 모델이 정합된 결과이다. 이들의 초기 MRF 에너지는 8개의 카 메라 자세에 의해 파란색과 같이 동일하게 주어진다. 빨 간 박스는 자세 추정의 결과에 대하여 해당 영역을 확대 한 것을 나타낸다.

정량적인 실험에서는 10개 종류와 4가지 속성 갖는 개체 모델이 2-4개의 up vector를 가지고 3가지 종류의 배경 영상을 갖는 모든 경우에서 무작위로 40회를 수행 한 결과를 Table 1에 정리하였다. (a), (b)에서 보여진 결과에 대하여 instance model retrieval error, up-vector retrieval error, translation error, 그리고 rotation error를 측정하였다. 여기서 retrieval error는 검색이 실패한 경우 를 백분율로 나타내었고, translation error는 2D 평면에 서의 Euclidian metric, rotation error는 absolute difference error로 정의한다. 3 자유도 범위는 [-10 mm ~ 10 mm], [-180°~180°]로 하였다. 위치와 회전 오차 범위는 각각 20 um, 0.025 deg.이다.

Quantitative Evaluation

제안한 방법은 분할 영역을 안정화하는 효과와 함께 부품의 up vector, 미묘한 속성 차이를 구분하여 검색하 는데 있어 이득이 있었다. 또한 최종 자세 추정 오차율도 개선되었는데, translation error는 약 2배 수준, in-plane rotation의 경우는 오차율이 4배 이상의 차이를 보였다.


5. 결 론

본 고에서는 여러 시점에서 관찰된 물체를 분할하고, 그것의 평면상 자세를 정교하게 추론하는 과정에서 적 합한 3D 모델 또한 검색 가능한 시스템을 제안하였다. 나아가 기존의 경계 기반, 영역 기반 알고리즘들을 통합 하고, 다시점 정보를 활용하는 접근으로 3 자유도를 갖 는 2D-3D 물체 자세를 추정하였다. 이를 위하여 몇 가지 기술적 한계들을 극복하였고, 특히 다시점 정보에서 얻어 지는 이점을 정성적, 정량적으로 비교하여 검증하였다.

Acknowledgments

This work was supported by the Ministry of Trade, Industry & Energy and the Korea Evaluation Institute of Industrial Technology (KEIT) with the program number of 10060110.

References

  • Park, DI, Park, CH, Kim, DH, Kyung, Jh, “Analysis and Design of the Dual Arm Manipulator for Rescue Robot”, The Journal of Korea Robotics Society (KROS), (2016, Dec), 11(4), p235-241. [https://doi.org/10.7746/jkros.2016.11.4.235]
  • Park, CH, Park, DI, Kim, DH, “The Analysis of Trajectory Tracking Error Caused by the Tolerance of the Design Parameters of a Parallel Kinematic Manipulator”, The Journal of Korea Robotics Society (KROS), (2016), 11(4), p248-255. [https://doi.org/10.7746/jkros.2016.11.4.248]
  • Do, HM, Choi, T-Y, Park, DI, Kim, DH, Youngsu, Son, “Design of Self-Reconfigurable Kinematics and Control Engine for Modular Robot”, The Journal of Korea Robotics Society (KROS), (2016, Dec), 11(4), p270-276. [https://doi.org/10.7746/jkros.2016.11.4.270]
  • Choi, TY, Do, HM, Park, DI, Park, CH, Kyung, JH, Kim, DH, “Examples of Art Performing with Industrial Dual-arm Robots”, The Journal of Korea Robotics Society Dec, (2016, Dec), 11(4), p293-299.
  • Kim, S-H, Jung, I-K, “UGR Detection and Tracking in Aerial Images from UFR for Remote Control”, The Journal of Korea Robotics Society (KROS), (2015, May), 10(2), p104-111. [https://doi.org/10.7746/jkros.2015.10.2.104]
  • Song, HH, first name, J-B, “Artificial Landmark based Pose-Graph SLAM for AGVs in Factory Environments”, The Journal of Korea Robotics Society (KROS), (2015, May), 10(2), p112-118. [https://doi.org/10.7746/jkros.2015.10.2.112]
  • Choi, H-S, Kim, D-I, Song, J-B, “Simultaneous path tracking and orientation control for three-wheeled omni-directional robots”, The Journal of Korea Robotics Society (KROS), (2015, Aug), 10(3), p154-161. [https://doi.org/10.7746/jkros.2015.10.3.154]
  • Song, SW, Song, JB, “Development of a 5 DOF Manipulator for Weight Handling based on Counterbalance Mechanism”, The Journal of Korea Robotics Society (KROS), (2016, Dec), 11(4), p242-247. [https://doi.org/10.7746/jkros.2016.11.4.242]
  • Ahn, BT, Kim, E-H, Sohn, J-H, Kweon, IS, “Robust Real-time Tracking of Facial Features with Application to Emotion Recognition”, The Journal of Korea Robotics Society Dec, (2013, Dec), 8(4), p266-272.
  • Bazin, J-C, Kim, S-h, Choi, D-G, Lee, J-Y, Kweon, IS, “Mixing Collaborative and Hybrid Vision Devices for Robotic Applications”, The Journal of Korea Robotics Society (KROS), (2011, Sep), 6(3), p266-272. [https://doi.org/10.7746/jkros.2011.6.3.210]
  • Kim, S-H, Tai, Y-W, Bok, Y, Kim, H, Kweon, I-S, “Two phase approach for multi-view object extraction”, Proceedings of International Conference on Image Processing (ICIP), (2011). [https://doi.org/10.1109/icip.2011.6116115]
  • Kim, S-H, Tai, Y-W, Park, J, Kweon, I-S, “Multi-view object extraction with fractional boundaries”, IEEE Trans. on Image Processing (TIP), (2016, Aug), 25(8), p3639-3654. [https://doi.org/10.1109/TIP.2016.2555698]
  • Lee, W, Woo, W, Boyer, E, “Silhouette segmentation in multiple views”, IEEE Transactions on PatternAnalysis and Machine Intelligence (PAMI), (2011), 33(7), p1429-1441. [https://doi.org/10.1109/TPAMI.2010.196]
  • Kowdle, A, Sinha, SN, Szeliski, R, “Multiple view object cosegmentation using appearance and stereo cues”, European Conference on Computer Vision (ECCV), (2012). [https://doi.org/10.1007/978-3-642-33715-4_57]
  • Djelouah, A, Franco, J-S, Boyer, E, Clerc, FL, Perez, P, “Multi-view object segmentation in space and time”, International Conference on Computer Vision (ICCV), (2013). [https://doi.org/10.1109/iccv.2013.328]
  • Djelouah, A, Franco, J-S, Boyer, E, Clerc, FL, Perez, P, “Sparse multi-view consistency for object segmentation”, IEEE Trans. on Pattern Analysis and Machine Intelligence (PAMI), (2015), 37(9), p1890-1903. [https://doi.org/10.1109/TPAMI.2014.2385704]
  • Guillemaut, J-Y, Hilton, A, “Joint multi-layer segmentation and reconstruction for free-viewpoint video applications”, International Journal on Computer Vision (IJCV), (2011), 93(1), p73-100. [https://doi.org/10.1007/s11263-010-0413-z]
  • Boykov, Y, Jolly, M-P, “Interactive graph cuts for optimal boundary and region segmentation of objects in n-d images”, ICCV, (2001). [https://doi.org/10.1109/iccv.2001.937505]
  • Rother, C, Kolmogorov, V, Blake, A, “Grabcut: Interactive foreground extraction using iterated graph cuts”, Proceedings of ACM SIGGRAPH, (2004), 23(3), p309-314. [https://doi.org/10.1145/1186562.1015720]
  • Tai, Y-W, Jia, J, Tang, C-K, “Soft color segmentation and its applications”, IEEE Transactionson Pattern Analysis and Machine Intelligence (PAMI), (2007), 29(9), p1520-1537. [https://doi.org/10.1109/TPAMI.2007.1168]
  • Wu, C, 'VisualSFM: A visual structure from motion system', Available: http://ccwu.me/vsfm/, (2011).
  • Boykov, Y, Veksler, O, Zabih, R, “Efficient Approximate Energy Minimization via Graph Cuts”, IEEE TPAMI Nov, (2001), 20(12), p1222-1239. [https://doi.org/10.1109/34.969114]
  • Kolmogorov, V, Zabih, R, “What Energy Functions can be Minimized via Graph Cuts?”, Pattern Analysis and Machine Intelligence (PAMI), (2004), 26(2), p147-159. [https://doi.org/10.1109/TPAMI.2004.1262177]
  • Boykov, Y, Kolmogorov, V, “An Experimental Comparison of Min-Cut/Max-Flow Algorithms for Energy Minimization in Vision”, PAMI, (2004), 26(9), p1124-1137. [https://doi.org/10.1109/TPAMI.2004.60]
  • Prisacariu, V, Reid, I, “Pwp3d: Real-time segmentation and tracking of 3d objects”, International Journal of Computer Vision (IJCV), (2012), 98(3), p335-354. [https://doi.org/10.1007/s11263-011-0514-3]
  • Vedaldi, A, Fulkerson, B, “VLFeat: An open and portable library of computer vision algorithms”, Proceedings of the 18th ACM International Conf. On Multimedia, (2010). [https://doi.org/10.1145/1873951.1874249]
  • Fu, H , , “Upright orientation of man-made objects”, ACM transactions on graphics (TOG), (2008), 27(3).
  • Autodesk, '123D Design', Available: http://www.pbrt.org/ [Accessed: Jul. 26, 2016], (2016).
  • Pharr, M, Humphreys, G, 'Physically Based Rendering Techniques', Available: http://www.pbrt.org/ [Accessed: Jul. 26, 2016], (2016).
김 성 흠

2007 연세대학교 전기 및 전자 공학과(학사)

2010 KAIST 전기 및 전자공학과(석사)

2010 ~ 현재 KAIST 전기 및 전자공학과(박사)

2011 ~ 2014 LG전자 CTO SIC센터 DTV 연구 소 연구원

관심분야: 영상처리, 컴퓨터 비전 및 그래픽스

복 윤 수

2004 KAIST 전기 및 전자공학과(학사)

2012 KAIST 전기 및 전자공학과(석사, 박사)

2010 ~ 2016 KAIST 전기 및 전자공학과 연구 조교수

2012 ~ 2013 KAIST P3 DigiCar Center 위촉 연구원

2016 ~ 현재 ETRI 방송 미디어 연구소 선임 연구원

관심분야: 카메라 보정, 컴퓨터 비전 및 로보틱스

권 인 소

1981 서울대학교 기계설계학과(학사)

1983 서울대학교 기계설계 학과(석사)

1990 Carnegie Mellon Univ. Robotic Institute(박사)

1991 ~ 1992 일본 도시바 중앙연구소 연구원

1992 ~ 현재 한국과학기술원 전자과 정교수

관심분야: 한국과학기술원 전자과 정교수

Fig. 1

Fig. 1
Multi-view co-segmentation of a machinery component (Blue box: Initialization, Green line: Segmentation result)(a) User-given bounding boxes for two views and their segmentations. (b) Propagations for the rest of views and our results

Fig. 2

Fig. 2
2D-3D object pose estimation. (Green line: Estimated object mask, Yellow line: Projection of a reference model) Left: Initial projections of two models with a candidate up-vector, Right: Comparison of accumulated errors after model fitting

Fig. 3

Fig. 3
Data collection. (a) Capturing system. (b) 3D modeling of target objects. (c) Upright orientation proposal (four at most)

Fig. 4

Fig. 4
2D-3D Pose Estimation using Multi-view Object Co-segmentation. First row: Input images with initialization, Second row: Segmentations using only color models, Third row: Multi-view object co-segmentation, Fourth row: Our 2D-3D pose estimation

Fig. 5

Fig. 5
Qualitative comparisons. (Blue line: Initialization, Green line: Segmentation, Yellow line: Pose estimation) (a) Single-view image segmentation using color models only and 2D-3D pose estimation in [25], (b) Our results

Table 1

Quantitative Evaluation

Instance model retrieval error (%) Up-vector retrieval error (%) Translation error (um) Rotation error (deg.)
[25] 55.0% 12.5% 944 um 5.76°
Ours 37.5% 7.5% 521 um 1.39°