[ ARTICLE ]

The Journal of Korea Robotics Society - Vol. 20, No. 2, pp.161-167

ISSN: 1975-6291 (Print) 2287-3961 (Online)

Print publication date 30 May 2025

Received 11 Mar 2025 Revised 14 Apr 2025 Accepted 24 Apr 2025

DOI: https://doi.org/10.7746/jkros.2025.20.2.161

사용자 가치 기반의 행동 선택을 위한 돌봄 로봇의 윤리적 의사결정 프레임워크

윤희윤¹

; 이한나¹

; 김용국²

; 김민규³

; 서진호^†

An Ethical Decision Framework of Care Robots Based on User-centered Value Balancing

Heeyoon Yoon¹

; Hanna Lee¹

; Yongkuk Kim²

; Min-Gyu Kim³

; Jin-Ho Seo^†

1Researcher, KIRO, Pohang, Korea yuni@kist.re.krhnnaaa95@kist.re.kr
2Senior Researcher, KIRO, Pohang, Korea ykkim0625@kiro.re.kr
3Principal Researcher, KIRO, Pohang, Korea mingyukim@kiro.re.kr

Correspondence to: ^†Professor, Major of Mechanical System Engineering, Pukyoung National University, Busan, Korea ( suhgang@pknu.ac.kr)

Abstract

This study presents an Ethical Interactive Partially Observable Markov Decision Process (Ethical I-POMDP) framework for ethical decision-making in care robots, developed based on insights from user studies. To identify ethical dilemmas in human-robot interaction, we conducted two surveys: one validating the defined ethical dilemma and another assessing human expectations for robotic decision-making. The results indicate that user’s ethical value is placed on social encouragement rather than direct assistance, confirming the existence of a genuine ethical conflict. The proposed I-POMDP model dynamically balances short-term care needs with long-term autonomy promotion through probabilistic decision-making. Using the penalty-based reward, our approach adjusts intervention levels over time based on user engagement patterns. We highlighted the limitations of predefined reward functions and propose adaptive learning mechanisms to personalize ethical policies. The future work will integrate long-term user data and reinforcement learning techniques to enhance real-world applicability.

Keywords:

Ethical Decision, Ethical Dilemma, Elderly Care, Interactive POMDP, User Research

1. 서 론

인간-로봇 상호작용에서 로봇과의 친밀감이나 신뢰, 공감 등은 사용자 경험의 품질을 향상시키는 핵심요소이지만, 이는 로봇에 대한 과도한 의존성을 유발할 수 있으며 장기적으로는 인간의 자율성과 사회적 관계 형성에 부정적인 영향을 미칠 수 있다. 이러한 위험성은 실제 사례를 통해서도 드러난다. 2023년 벨기에의 한 30대 남성은 챗봇 Chai와 6주간 지속적인 대화를 나눈 후 자해를 통해 극단적인 선택을 하였다. 2024년에는 미국의 10대 청소년이 가상의 캐릭터와 대화를 나눈 후 극단적인 선택을 한 사건이 발생하였다. 이러한 사례들은 사용자들이 챗봇 또는 가상 캐릭터와의 상호작용을 실제 인간과의 관계처럼 인식하는 일라이자 효과(Eliza effect)로 설명된다^[1]. 일라이자 효과란 알고리즘에 기반한 기계적 반응에도 불구하고 사용자가 이를 실제 친구나 상담자처럼 받아들이며 친밀감을 느끼거나 정서적 의존성을 유발하는 의인화 현상을 의미한다. 앞의 사례들은 기술이 의도된 목적과 관계없이 심각한 부작용을 초래할 수 있음을 시사한다. 따라서 로봇과 인공지능 기술의 개발에 있어 윤리적 고려가 필수적임을 강조해야 하는 시대가 도래하였다.

인공지능이나 챗봇과 달리 로봇은 물리적 체화(physical embodiments)의 특징을 가지고 있기 때문에 사용자와의 언어 및 비언어적 상호작용을 통해서 감정적 유대감^[2]을 형성하거나 친밀감^[3]을 유발한다. 그러나 이러한 특성은 부정적 영향을 미치기도 한다. 예를 들어, 로봇과 지속적인 상호작용은 사용자의 과도한 의존을 초래하거나 심리적으로 취약한 사용자가 로봇을 감정적 대체물로 인식하게 할 수 있다. 이러한 경우, 로봇의 학대^[4]나 중독^[5], 의존성^[6] 강화 등의 정서적 남용을 일으킬 위험들이 존재한다.

앞서 언급한 문제들을 해결하기 위한 윤리적 접근이 로봇 분야에서도 활발히 진행되고 있다. 선행연구들은 주로 로봇 윤리에 대한 법적, 사회적 고려사항을 다루고 있다. 특히, 사용자와 밀접하게 관련된 서비스 영역인 돌봄 및 헬스케어 분야에서는 로봇의 윤리적 디자인 원칙에 대한 논의가 이루어지고 있다. 예를 들어, Care Centered Value Sensitive Design(CCVSD) 프레임워크는 윤리적 구성 요소를 식별하고 이를 기술 설계 요구사항으로 전환하기 위한 구조화된 방법론이다^[7]. CCVSD는 6단계의 평가방법론으로 구성되어 있는데, 로봇 도입 전 돌봄 실천의 현장 분석과 가치분석, 도입하려는 로봇의 기능 및 특성 분석, 로봇 도입 후 돌봄 실천의 가치 분석, 로봇 도입 전후 비교, 그리고 실용적 가이드라인 수립을 위한 권고사항 등을 포함하고 있다. 이러한 CCVSD의 구조는 단순한 원칙 수준이 아닌, 돌봄 기술 도입 과정에서 발생하는 윤리적 문제를 실제 설계로 전환할 수 있는 실용적 기반을 제공한다는 점에서 본 연구의 설계 방향과 밀접하게 연관된다.

본 연구에서는 CCVSD의 로봇의 기능 및 특성 분석 평가 단계에서 2가지 윤리적 고려사항에 주목하였다. 첫째는 돌봄 로봇에 적용되는 AI가 윤리적 판단을 수행할 수 있는 자율성을 가진 알고리즘이 적용되었는지에 대한 윤리적 고려사항이다. 둘째는 인간-로봇 상호작용의 관점에서 로봇의 행동이 사용자의 신뢰를 유도하면서도 과도한 의존성을 초래하지 않는지에 해당하는 윤리적 고려사항이다.

이러한 윤리적 고려사항을 체계적으로 반영하기 위해, 본 연구에서는 윤리적 의사결정 프레임워크를 개발하였다. 본 논문에서 사용하는 윤리적 의사결정은 인간과 유사한 도덕적 추론이나 책임 주체로서의 판단을 의미하는 것이 아니라, 로봇이 사용자의 상태와 상호작용 맥락을 기반으로 사회적 가치의 균형을 고려하여 최적의 개입 행동을 선택하도록 설계된 가치 기반 정책 선택 메커니즘을 의미한다. 즉, 본 프레임워크의 윤리성은 규범적 판단 수행이 아닌, 사회적으로 바람직한 방향으로 행동 정책을 조정할 수 있는 구조적 능력에 주안점을 둔다.

구체적으로, 제안하는 프레임워크는 로봇이 사용자의 상태와 맥락을 확률적으로 추론하여 신뢰 향상, 자율성 보존, 타인과의 사회적 연계성 간의 균형을 고려한 행동 정책을 선택할 수 있도록 설계되었다. 예를 들어, 사용자가 복약을 잊은 상황에서 로봇은 약을 직접 전달하거나, 위치를 안내해 자율적으로 복약하도록 유도할 수 있다. 또는 “오늘도 따님께 건강 소식을 전해보는 건 어떨까요?”와 같이, 복약을 사회적 상호작용과 연결해 동기를 부여할 수도 있다. 본 프레임워크는 이러한 다양한 개입 방식 중에서 사용자의 상태 및 사회적 맥락을 반영하여 장기적 복지를 고려한 윤리적 정책을 실행할 수 있도록 구성되었다.

2장에서는 본 연구가 다루는 윤리적 딜레마의 개념을 정의하고, 해당 딜레마의 타당성과 사용자들이 인식하는 사회적 윤리 가치에 대한 실증적 조사를 통해 이를 검증하였다. 3장에서는 이러한 사용자 기반 분석을 바탕으로 개발된 윤리적 의사결정 프레임워크의 이론적 구조와 주요 구성 요소를 제시하였다. 4장에서는 해당 프레임워크를 적용한 시뮬레이션 실험을 통해 주어진 상황에서의 정책 선택 결과를 분석하였다. 마지막으로 5장에서는 연구 결과의 함의와 한계, 그리고 향후 연구 방향에 대해 고찰하였다.

2. 돌봄 로봇의 윤리적 딜레마 정의 및 사용자 기반 가치 인식 검증

본 연구는 윤리적 딜레마의 구조가 단순한 개념적 가설이 아닌 실제 사용자들이 경험하거나 인지하는 가치 갈등에 기반함을 전제로 한다. 이를 위해 2장에서는 돌봄 로봇의 개입 방식이 사용자 관점에서 어떻게 인식되는지를 검증하고, 사회적 윤리 가치에 기반한 로봇의 행동 정책의 정당성을 확보하는 사용자 연구를 수행하였다.

2.1 가치 충돌 기반 돌봄 로봇의 윤리적 딜레마 정의

본 연구에서 다루는 윤리적 딜레마는 돌봄 로봇이 사용자에게 제공하는 즉각적인 돌봄 지원과 장기적인 독립성 향상 사이에서 발생하는 가치 충돌을 중심으로 한다. 이 딜레마는 로봇의 개입 방식에 따라 사용자와의 신뢰 형성, 사용자의 자율성 증진, 그리고 사용자의 타인과의 사회적 연계성 강화라는 상이한 윤리적 가치들이 단기적으로 충돌하거나 우선순위 조정이 요구되는 상황을 야기할 수 있다는 점에서 출발한다.

예를 들어, 직접 돌봄 제공(A₁)은 사용자의 요구에 즉각적으로 반응하여 물리적 도움을 주는 방식으로 신뢰를 증진시킬 수 있지만, 자율성을 저해할 가능성이 있다. 지도형 지원(A₂)은 사용자가 스스로 문제를 해결할 수 있도록 유도하여 자율성을 증진시키지만, 즉각적 편의나 신뢰감 형성에는 상대적으로 미약할 수 있다. 반면, 사회적 상호작용 유도(A₃)는 사용자의 사회적 연계성과 자율성 모두를 강화할 수 있으나, 단기적으로는 불안감 또는 로봇에 대한 신뢰 약화를 유발할 수 있다.

이러한 세 가지 개입 유형은 사용자 상태에 따라 상이한 윤리적 효과를 유발하기 때문에, 로봇은 상황에 따라 개입 수준과 방식의 적절성을 윤리적으로 판단하여 조정해야 한다. 본 연구는 이러한 딜레마를 형식화하였다. 돌봄 로봇이 수행할 수 있는 세 가지 행동 유형을 요약하면 다음과 같다.

‧ A₁ (직접 지원): 사용자의 요청에 즉각 반응하여 물리적 도움을 제공하는 방식
‧ A₂ (지도형 지원): 문제 해결을 유도하되 사용자의 자율성을 유지하는 방식
‧ A₃ (사회적 상호작용 유도): 사용자 스스로 사회적 관계를 형성하도록 장려하는 방식

이 행동에 대한 선택에 따라 유발되는 윤리적 결과의 구조는 식 (1)로 형식화된다.

A → P ∨ Q, P → R, Q → S, R ≠ S

(1)

즉, 돌봄 로봇이 A라는 행동을 선택할 경우, 이는 P 또는 Q의 중간 과정을 거쳐, 궁극적으로 R(로봇에 대한 신뢰 증가) 또는 S(사용자의 자율성 증대)라는 서로 다른 윤리적 결과를 초래할 수 있다. 이와 같은 우선순위 조정이 필요한 가치 관계는 보상 구조 설계의 출발점이 된다.

본 연구는 이러한 가치 간 균형을 고려할 수 있는 보상 함수를 가진 윤리적 의사결정 모델을 제안한다. 로봇은 사용자의 상태 변화를 반영하여 자율성과 사회적 교류를 촉진하는 방향으로 행동 정책을 학습할 수 있다. 보상 함수는 식 (2)과 같이 정의된다. 식 (2)에서 $- ω 3 P d e p e n d e n c e$ 는 사용자의 과도한 의존성을 억제하는 패널티로 작용하며, 이는 로봇의 개입이 장기적으로 사용자의 자율성을 침해하지 않도록 조정하는 역할을 한다.

U A = ω 1 U c a r e + ω 2 U a u t o n o m y - ω 3 U d e p e n d e n c e

(2)

2.2 윤리적 딜레마의 타당성 검증을 위한 사용자 가치 인식 조사

사용자 연구에서는 로봇의 개입 선택이 상이한 윤리적 결과(R vs. S)를 초래할 수 있다는 전제를 바탕으로, 사용자가 실제로 이러한 가치 간의 우선순위 판단에서 딜레마를 경험하는지를 검증하고자 하였다. 돌봄 로봇이 실제 상황에서 겪게 될 윤리적 가치 충돌이 사용자 입장에서도 딜레마로 인식되는지 검증하고, 향후 로봇의 윤리적 의사결정이 사회적 수용성과 정합성을 확보할 수 있도록 사전 조사를 수행하였다. 이를 위해 두 번의 설문을 실시하였다.

첫번째 설문은 본 연구에서 정의한 윤리적 딜레마가 실제로 딜레마 상황으로 성립하는지 검증하는 과정으로, 응답자들에게 실제 문제 상황에서 어떤 결정을 내릴 것인지를 평가하도록 하였다. 총 34명의 응답자가 참여하였으며, 응답자의 성별 분포는 남성 19명(55.9%), 여성 15명(44.1%)이었으며, 평균 연령은 33.29세(S.D.=7.918)로 나타났다. 응답에서 건강 돌봄(44.1%), 자율성 존중(32.4%), 사회적 교류(23.5%)의 선택 비율이 비교적 유사하게 나타났다. 세 항목 간 선택 비율이 극단적으로 치우치지 않고 상대적으로 균형 있게 분포했다는 점은 응답자들이 하나의 절대적 가치보다 상황적 판단에 기반한 선택을 내리고 있음을 의미하며, 이는 본 연구에서 설정한 윤리적 딜레마 구조가 실제 사용자 인식 속에서도 가치 충돌로 작용하고 있음을 시사한다.

두 번째 설문은 설계된 돌봄 로봇이 인간의 윤리적 가치에 부합하는 의사결정을 수행할 수 있도록 사전 검토하는 과정으로, 사회적 윤리 가치에 대한 응답을 분석하였다. 이를 위해 돌봄 로봇의 도움 방식에 따라 직접적 지원, 간접적 도움, 타인과의 교류 유도의 세가지 유형으로 구분하여 질문하였다. 이 설문에는 27명이 참여하였으며, 남성 11명(40.7%), 여성 16명(59.3%)으로 구성되었으며, 평균 연령은 34.96세(S.D.=6.711)로 나타났다. 응답결과, 타인과의 교류 유도(66.7%), 간접적 도움(22.2%), 직접적 지원(11.1%) 순으로 타인과의 교류 유도가 가장 많이 선택되었다. 특히, 타인과의 교류 유도 방식에 대한 선호가 높았다는 결과는 로봇의 직접 개입보다는 사용자가 스스로 관계를 형성하거나 사회적 활동에 참여하도록 유도 받는 것을 긍정적으로 인식하고 있음을 시사한다. 이는 자율성과 사회적 독립성에 대한 사용자 기대가 내포되어 있으며, 본 연구의 보상 정책 설계 방향성과 부합한다.

이러한 사용자 인식은 돌봄 로봇의 행동 정책이 단기적 효율성보다 사용자의 자율성과 사회적 연계성을 중시하는 방향으로 설계되어야 함을 시사한다. 따라서 본 연구는 사용자 기반의 윤리 가치 인식을 반영하여, 사회적 윤리 정합성과 가치 수용성을 동시에 고려한 윤리적 의사결정 모델을 설계하였다.

3. Ethical I-POMDP

Partially Observable Markov Decision Process (POMDP)는 불확실성이 존재하는 환경에서 최적의 의사결정을 내리기 위한 모델로 널리 활용된다^[8]. 그러나 기존 POMDP는 단일 에이전트 환경에 초점을 맞추고 있으며, 다중 에이전트 상호작용이 포함된 복잡한 의사결정 문제를 효과적으로 다루는 데에 한계가 있다. Interactive POMDP는 이러한 한계를 극복하기 위해 제안된 프레임워크^[9]로, 다중 에이전트 환경에서의 최적 의사결정을 모델링하는 개념이다. 즉, 환경 내에서 하나의 에이전트가 다른 에이전트들의 존재를 인식하고, 이들의 행동을 모델링하며 이에 따라 자신의 의사결정을 최적화할 수 있도록 확장된 형태이다.

본 연구에서 제안하는 Ethical I-POMDP는 집에 홀로 거주하는 고령의 사용자가 고립감을 느끼고 있는 상황에서 돌봄 로봇에만 의존하여 고립감이 강화되지 않도록 행동을 선택하는 로봇의 윤리적 의사결정 프레임워크이다. Ethical I-POMDP는 관찰된 행동(로봇과의 상호작용 빈도, 타인과의 상호작용 빈도)을 기반으로 사용자의 belief를 추론하고 그에 따라 윤리적 결정을 내릴 수 있도록 개발되었다. 본 연구의 프레임워크는 돌봄 로봇의 즉각적인 도움 제공(단기적 편안함 해소)과 장기적 독립성 유지(장기적 웰빙 유지) 사이의 균형을 고려하도록 설계되었다.

3.1 Ethical I-POMDP 정의

사용자와 상호작용하는 돌봄 로봇 R의 Ethical I-POMDP는 식 (3)과 같다.

E t h i c a l I - P O M D P = I S R, A R, T R, Ω R, O R, R R E t h i c a l

(3)

여기서, IS_R는 IS_R = S×Θ_H로 정의되는 interactive state space이다. S는 S={s₁=high, s₂=moderate, s₃=low}로 구성된 사용자의 의존 상태(dependence state)이고, Θ_H는 돌봄 로봇의 역할에 대한 사용자의 belief를 나타낸다.

A_R은 돌봄 로봇이 수행할 수 있는 action space로, 본 연구에서는 일반적인 도움 주기 행위인 A_R = {a₁= high intervention (direct assistance), a₂ = moderate intervention (guided support), a₃ = low intervention (promoting social encouragement)}로 정의하였다.

T_R의 transition function은 식 (4)와 같이 정의하였다. transition은 돌봄 로봇이 수행하는 개입(intervention)에 따라 사용자의 상태 변화 가능성에 대한 돌봄 로봇의 belief로 정의한다. 여기서 $T s, a, s ′$ 는 이전 state s와 선택된 action a에 대해 state $s ′$ 로 전이될 확률을 의미한다.

P s ′ s, a = T R s, a, s ′

(4)

Ω_R는 관찰된 사용자 행동을 나타내는 observation space이고, Ω_R={o₁=high engaged to robot (돌봄 로봇에 몰입), o₂=balanced engaged (돌봄 로봇과 타인 사이의 균형 있는 몰입), o₃=high engaged to other (타인에 몰입)}으로 구성된다. O_R은 현재 사용자 state s와 돌봄 로봇 action a일때 사용자 행동 o가 관찰될 확률을 정의하는 observation function으로써 식 (5)와 같이 정의된다.

P o s = O R s, o

(5)

$R R E t h i c a l$ 은 윤리적 균형을 맞추기 위한 reward function으로써, 즉각적인 돌봄 제공과 장기적인 독립성 사이에서 균형을 이루도록 설계하였다. 식 (6)에서 R_care (a, s)는 즉각적인 돌봄 제공에 대한 reward function이고, ω_care는 사용자의 안전과 건강에 우선순위를 두는 가중치이다. R_social (a, s)는 사용자의 사회적 독립성에 대한 reward function이고 ω_social는 장기적인 독립성에 우선을 두는 가중치이다. λ_dependeceP(s = high dependence)는 의존성에 대한 패널티로 작용하여 사용자가 돌봄 로봇에 대한 의존성이 증가하는 경우를 억제하는 역할을 한다. 이 패널티는 사용자가 높은 의존 상태(high dependence)를 유지할 때 증가하여 돌봄 로봇이 사용자에게 과도한 도움을 제공하여 사용자의 의존성을 강화하는 것을 방지한다.

R R E t h i c a l a, s = ω c a r e R c a r e a, s + ω s o c i a l R s o c i a l a, s - λ d e p e n d e n c e P s = h i g h d e p e n d e n c e

(6)

식 (7)과 식 (8)에 reward function을 상세히 표현하였다. 식 (7)에서 C_care(a)는 task-specific care reward로써, 즉각적 돌봄에 높은 보상을 주고, 타인과의 상호작용 권유에 낮은 보상을 주도록 설계되었다. 식 (8)에서 C_social(a)는 social interaction reward로써, 즉각적 돌봄에는 낮은 보상을 주고, 타인과의 상호작용 권유에 높은 보상을 주게 되어 있다.

R c a r e a, s = P s = h i g h a C c a r e a

(7)

R s o c i a l a, s = P s = l o w a C s o c i a l a

(8)

3.2 Belief Update 방법

Ethical I-POMDP로 모델링한 돌봄 로봇의 belief update는 Bayes filter update rule을 기반으로 로봇이 이전 belief, observations action의 영향에 대해서 고려하여 사용자의 state를 추론하도록 하였다. 여기서 belief는 로봇이 관측 불가능한 사용자의 내적 상태, 즉 의존도를 직접적으로 파악할 수 없을 때, 관측된 외현적 행동(로봇과의 상호작용 혹은 타인과의 상호작용 빈도)과 환경 정보를 바탕으로 해당 상태에 대해 확률적으로 추정하는 분포로 정의된다. Belief update는 식 (9)와 같다.

b t + 1 s ′ = P o t s ′ ∑ s ∈ S P s ′ s, a t b t s ∑ s ′ ∈ S P o t s ′ P ∑ s ∈ S P s ′ s, a t b t s

(9)

여기서 $b t + 1 s ′$ 은 time t+1에서 state $s ′$ 에 대한 updated belief, $P o t s ′$ 은 사용자의 실제 state $s ′$ 이 주어졌을 때 o_t가 관측될 확률, $P s ′ s, a t$ 는 action a_t가 주어졌을 때 state s에서 state $s ′$ 로 전이될 확률, b_t(s)는 time t에서 사용자 state에 대한 로봇의 belief이다. Belief update는 예측단계(prediction step)과 보정단계(correction step)을 거친다. 예측단계에서는 transition model을 기반으로 다음 상태의 확률을 추정한다. 즉, 로봇이 특정 action a를 수행했을 때, 현재의 b_t(s)를 바탕으로 미래 상태 $s ′$ 가 발생할 확률을 식 (10)과 같이 계산한다.

b^s ′ = ∑ s ∈ S P s ′ s, a b t s

(10)

보정단계에서는 관찰가능성(observation likelihood)을 반영하여 belief를 조정한다. 로봇이 특정 관찰 값 o를 구하였을 때, 이를 이용하여 prior belief $b^s ′$ 를 조정함으로써 식 (11)을 이용하여 posterior belief $b t + 1 s ′$ 을 계산한다. $b t + 1 s ′$ 는 다음의 iteraction에서 의사 결정할 때 사용된다.

b t + 1 s ′ = P o s ′ b^s ′ ∑ s ′ ∈ S P o s ′ b^s ′

(11)

3.3 최적 행동 선택을 위한 의사결정 과정

Ethical I-POMDP 프레임워크는 Bellman equation을 활용하여 계산된 Q-value를 기반으로 구조화된 의사결정 과정을 수행한다. 로봇은 기대 보상을 극대화하는 행동을 선택하는 동시에, 사용자의 과도한 의존을 방지하고 사회적 상호작용을 촉진하는 등의 윤리적 고려사항을 반영하여 의사결정을 수행한다. V(s)는 value function으로써, state s에서 시작하여 에이전트가 얻을 수 있는 최대 기대 누적 보상(maximum expected cumulative reward)을 나타낸다. 이는 식 (12)와 같이 정의된다. 여기서 $R R E t h i c a l s, a$ 는 식 (6)에서 계산한 state s에서 action a를 수행했을 때의 윤리적 보상(ethical reward)를 의미하고, $P s ′ s, a$ 는 식 (4)에서와 같이 state s에서 action a를 수행한 후 state $s ′$ 로 전이될 확률을 나타낸다. γ ∈ (0,1)는 discount factor로써 미래 보상의 중요도를 조절하는 역할을 한다.

V s = m a x a R R E t h i c a l a, s ⋅ b s + γ ∑ s ′ P s ′ s, a V s ′

(12)

최적의 행동을 결정하기 위해 돌봄 로봇은 Q-value function을 계산하며, 이는 state s에서 action a를 수행한 후 최적 정책을 따를 경우 기대되는 누적 보상(expected cumulative reward)을 나타낸다. Q-value function은 식 (13)과 같다. 돌봄 로봇은 Q-value를 반복적으로 갱신하여 장기적인 사용자 참여를 최적화하기 위한 의사결정을 정교화 한다.

Q s, a = R R E t h i c a l a, s ⋅ b s + γ ∑ s ′ P s ′ s, a V s ′

(13)

의사결정에서는 항상 Q-value가 가장 높은 행동을 선택하는 대신, 식 (14)와 같은 softmax 함수를 활용하는 확률적 요소를 도입함으로써 최적의 행동을 탐색하게 한다. Q-value가 가장 높은 행동을 항상 선택하게 되면 로봇은 현재 최선이라고 판단하는 정책을 반복하게 된다. 그러나 아직 충분히 관찰되지 않은 행동 중에 더 나은 결과를 줄 수 있는 행동이 있을 수 있기 때문에 softmax 함수를 활용하여 Q-value가 높은 행동일수록 선택 확률을 높이는 한편 다른 행동도 일정 확률로 선택될 수 있도록 허용하였다. 식 (14)에서, τ는 탐색과 활용 간의 균형을 조절하는 매개변수이다. τ값이 높을수록 무작위성이 증가하고 반대로 τ값이 낮을수록 결정론적인 선택이 이루어진다.

P a = e Q s, a / τ ∑ a ′ e Q s, a / τ a * ∼ P a

(14)

4. 시뮬레이션 결과

본 연구에서 제안한 Ethical I-POMDP 프레임워크의 의사결정 성능을 분석하기 위해 시뮬레이션을 수행하였다. 본 시뮬레이션에서는 돌봄 로봇이 사용자의 상태 변화를 유도하기 위해 적절한 행동을 선택하도록 설계되었으며, 다만 사용자 행동의 직접적인 변화를 반영하지는 않았다.

시뮬레이션의 시나리오는 홀로 생활하여 불안감이 높은 고령인이 자택에서 돌봄 로봇의 서비스를 제공받는 상황을 가정하였다. 로봇이 실제로 관측할 수 있는 정보는 고령인이 로봇과 상호작용하는 빈도와 고령인이 친구, 가족 등 타인과 상호작용하는 빈도이다. 본 연구에서 제안한 Ethical I-POMDP 프레임워크에서 로봇이 선택할 수 있는 action은 직접 지원(Direct Assist, DA), 지도형 지원(Guided Support, GS), 사회적 상호작용 유도(Social Encouragement, SE) 총 3가지이다. 예를 들어, DA는 로봇이 고령인에게 약을 직접 가져다 주는 action, GS는 고령인에게 약의 위치를 알려주고 대기하는 action, SE는 고령인에게 다른 사람과의 약 복용 경험을 공유하거나, 이후 활동과 연결되도록 격려하는 action이다.

시뮬레이션에서는 로봇의 action에 대한 고령인의 반응을 모델링하지 않았다. 다시 말해, 로봇이 선택한 행동에 대해서 고령인이 어떤 방식으로 반응하고 해당 행동이 사용자 상태에 어떤 영향을 미쳤는지에 대한 상호작용 피드백이 반영되지 않았다. 이로 인해 로봇의 개입이 사용자에게 미친 영향을 평가하거나 행동의 윤리적 적합성을 상황에 따라 조정하는 데에는 제한적일 수 있다.

[Fig. 1]의 belief probability 결과는 사용자가 비교적 높은 의존 상태를 보이고 있음을 의미한다. [Fig. 2]의 action selection heatmap을 보면 로봇이 사용자의 높은 의존도를 인식하는 상황에서 SE를 가장 빈번하게 선택하는 경향을 보인다. 즉, 사용자의 belief probability가 높은 의존 상태에 대해서 돌봄 로봇은 단순히 DA만을 제공하는 것이 아니라, 사용자의 사회적 관계 형성을 촉진하는 방향으로 행동을 선택하고 있음을 보여준다.

[Fig. 1]

Belief update over time

[Fig. 2]

Action selection heatmap (DA: Direct Assistance, GS: Guided Support, SE: Social Encouragement)

Action selection distribution 결과에서도 SE의 빈도가 34회(68%)로 압도적으로 높게 나타났으며, 그 다음으로 GS이 10회(20%) 선택되었음을 확인할 수 있다. 반면, DA의 빈도는 6회(12%)로써 상대적으로 낮은 수준에서 유지되었으며, 이는 로봇이 사용자의 상태를 지속적으로 모니터링하면서 최소한의 개입을 통해 최적의 윤리적 의사결정을 수행하고 있음을 의미한다.

높은 의존 상태의 belief probability인 상황에서도 돌봄 로봇이 적극적으로 SE를 수행하는 것은 사용자의 의존도가 증가하는 환경에서 장기적인 사회적 독립성을 유지할 수 있도록 설계된 윤리적 개입 전략이 실행되고 있음을 보여준다. 즉, 본 연구에서 개발된 프레임워크는 사용자의 상태를 평가하고, 자율성과 사회적 상호작용을 고려한 행동을 선택하는 방향으로 설계되었으며, 실험 결과를 통해 효과적으로 실행되고 있음을 확인할 수 있었다.

5. 고 찰

본 연구에서 제안한 Ethical I-POMDP 프레임워크는 돌봄 로봇의 단기적 지원과 장기적 자율성 보장 사이의 윤리적 딜레마를 해결하기 위한 확률적 의사결정 모델로 설계되었다. 사용자 연구기반으로 돌봄 로봇이 직면하는 윤리적 갈등을 정의하고 사람들의 사회적 윤리 가치를 반영한 행동 정책을 구성하였다. 본 연구의 주요한 기여점은 로봇의 개입 수준을 조절하는 패널티 기반 의사결정 모델을 도입한 점이다. 사용자의 상태 변화를 반영하여 단기적 돌봄과 장기적 자율성 증진 간의 균형을 동적으로 조절하는 정책을 제안하였다. 이러한 접근 방식은 사용자의 개별적인 의존성 수준에 따라서 적절한 시점에서 사회적 유도를 강화하는 방향으로 정책을 조정할 수 있도록 설계된 특징을 갖는다.

그러나, 본 연구에서 제시한 Ethical I-POMDP는 고정된 가중치를 설정하여 정책을 학습하도록 하여 실제 사용자별 차이를 반영하는데 한계가 있을 수 있고, POMDP기반의 확률적 의사결정 모델을 사용하였지만 장기적 강화학습을 통해 사용자의 행동 변화 패턴을 지속적으로 반영하는 방식에서 한계가 있다. 향후 연구에서는 사용자 피드백을 반영한 자율학습형 의사결정 시스템으로 확장할 계획이다.

Acknowledgments

This work was supported by the Industrial Fundamental Technology Development Program (20023495, Development of behavior-oriented HRI AI technology for long-term interaction between service robots and users) funded by the Ministry of Trade, Industry & Energy (MOTIE, Korea).

References

S. Y. Kim, B. H. Schmitt, and N. M. Thalmann, “Eliza in the uncanny valley: Anthropomorphizing consumer robots increases their perceived warmth but decreases liking,” Marketing Letters, vol. 30, pp. 1-12, 2019. [https://doi.org/10.1007/s11002-019-09485-9]
P. Fife, W. Rosengren, and J. Gaskin, “How certain robot attributes influence human-to-robot social and emotional bonds,” 56th Hawaii International Conference on System Sciences, 2023. [https://doi.org/10.24251/HICSS.2023.636]
B.-F. Chang, S.-Y. Chien, and Y.-L. Lin, “The effect of communication approaches on intimacy in human-humanoid robot interaction,” 2021 IEEE 2nd International Conference on Human-Machine Systems (ICHMS), Magdeburg, Germany, pp. 1-4, 2021. [https://doi.org/10.1109/ICHMS53169.2021.9582634]
P. Salvini, G. Ciaravella, W. Yu, G. Ferri, A. Manzi, B. Mazzolai, C. Laschi, S. R. Oh, and P. Dario, “How safe are service robots in urban environments? Bullying a robot,” 19th International Symposium in Robot and Human Interactive Communication, Viareggio, Italy, pp. 1-7, 2010. [https://doi.org/10.1109/ROMAN.2010.5654677]
E. B. Sandoval, “Addiction to social robots: A research proposal,” 2019 14th ACM/IEEE International Conference on Human-Robot Interaction (HRI), Daegu, Republic of Korea, pp. 526-527, 2019. [https://doi.org/10.1109/HRI.2019.8673143]
J. Contro and M. Brandão, “Interaction Minimalism: Minimizing HRI to reduce emotional dependency on robots,” Robophilosophy Conference, pp. 99-109, 2024. [https://doi.org/10.3233/FAIA241494]
A. Van Wynsberghe, “Designing robots for care: Care centered value-sensitive design,” Science and Engineering Ethics, vol. 19, no. 2, pp. 407-433, 2013. [https://doi.org/10.1007/s11948-011-9343-6]
A. R. Cassandra, “A survey of POMDP applications,” Working Notes of AAAI 1998 Fall Symposium on Planning with Partially Observable Markov Decision Processes, 1998, [Online] http://www.cassandra.org/arc/papers/applications.pdf, .
P. J. Gmytrasiewicz and P. Doshi, “Interactive POMDPs: Properties and preliminary results,” Third International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS), New York, NY, USA, pp. 1374-1375, 2004. [https://doi.org/10.1109/AAMAS.2004.154]