Journal of Korea Robotics Society
[ ARTICLE ]
The Journal of Korea Robotics Society - Vol. 20, No. 2, pp.200-209
ISSN: 1975-6291 (Print) 2287-3961 (Online)
Print publication date 30 May 2025
Received 15 Jul 2024 Revised 04 Dec 2024 Accepted 22 Jan 2025
DOI: https://doi.org/10.7746/jkros.2025.20.2.200

GPT-4기반 과학적 탐구 글쓰기 역량의 평가 자동화를 위한 언어 모델의 투명성과 시각화에 관한 연구

윤지나1 ; 이효정2 ; 이성혜3 ; 박소영4 ; 동서연5 ; 심주용
Automated Robot Agent for Evaluating the Scientific Inquiry Capabilities via GPT-4: A Study on the Transparency and Visualization in Large Language Model
Gina Yoon1 ; Hyo-Jung Lee2 ; Sunghye Lee3 ; So-Young Park4 ; Suh-Yeon Dong5 ; Joo Yong Sim
1MS Student, Mechanical Systems Engineering, Sookmyung Women’s University, Seoul, Korea ppippi272@sookmyung.ac.kr
2Undergraduate Student, Mechanical Systems Engineering, Sookmyung Women’s University, Seoul, Korea ihj0518@sookmyung.ac.kr
3Research Professor, Global Institute for Talented Education, Korea Advanced Institute of Science and Technology, Daejun, Korea slee45@kaist.ac.kr
4Professor, Division of Education, Sookmyung Women’s University, Seoul, Korea syngprk@sookmyung.ac.kr
5Associate Professor, Co-Corresponding author: Artificial Intelligence Engineering, Sookmyung Women’s University, Seoul, Korea sydong@sookmyung.ac.kr

Correspondence to: Assistant Professor, Mechanical Systems Engineering, Sookmyung Women’s University, Seoul, Korea ( jysim@sookmyung.ac.kr)

CopyrightⓒKROS

Abstract

This study investigates GPT-4’s ability to assess scientific inquiry writing tasks, focusing on its capacity to justify evaluations with evidence. Scientific inquiry involves problem definition, hypothesis formulation, data analysis, and experimental design. Using scenario-based scientific questions, GPT-4’s responses were compared with human evaluators to analyze its reasoning and limitations. Results indicate that GPT-4 can provide valid reasoning under specific conditions but struggles with complex data interpretation. This research highlights GPT-4’s potential and limitations as an automated evaluation tool, addressing inconsistencies in human evaluation and suggesting future directions for AI-assisted educational assessments.

Keywords:

Automated Agent, Large Language Model, ChatGPT, Scientific Inquiry, Capability Evaluation, Evidence Extraction

1. 서 론

지난 몇 년간 자연어 처리(NLP) 기술의 발전으로 음성 및 개체 인식, 요약, 언어 번역, 텍스트 생성 등 많은 응용분야에서 발전이 이루어져 왔다. 초기에는 순서에 대한 귀납적 편향(Relational Inductive Bias)을 기반으로 한 RNN (Recurrent Neural Network) 모델이 많은 애플리케이션에서 사용되었으나 구조적으로 매우 긴 문장에 대한 맥락을 이해하는 데 한계가 있었다[1]. 트랜스포머(Transformer) 모델은 RNN의 자기회귀(Autoregressive)와 자기지도(Self-supervised) 학습 방식을 사용하면서, 자기집중(Self-Attention) 메커니즘을 통해 긴 문장의 맥락을 잘 이해할 수 있도록 설계되었다. 이를 통해 서로 다른 부분 간의 관계를 고려하여 긴 문장에 대한 문제를 해결할 수 있었다[2]. 트랜스포머 기반 대규모 언어 모델(LLM)에 대한 연구는 언어 모델의 능력을 크게 확장시키는 데 기여하였다. 이 모델들은 대규모 텍스트 데이터를 학습하여 다양한 언어 처리 작업에 효과적으로 활용되고 있다. 이러한 대규모 언어 모델은 매우 빠르게 발전하고 있으며, 몇 달이나 몇 주 만에 새로운 발견, 모델, 기술이 발표되고 있다[3-5]. GPT (Generative pretrained transformer)-3는 트랜스포머 구조[6]를 기반으로 한 대규모 언어 모델로, 약 1,750억 개의 매개변수를 학습하고 570GB의 텍스트로 훈련되어 있다. 이를 통해 사람처럼 자연스러운 텍스트를 생성하고 다양한 언어 처리 작업을 높은 정확도로 수행할 수 있다. 특히 OpenAI의 GPT-4와 같은 모델들은 자연어 처리를 넘어서 복잡한 새로운 작업을 수행할 수 있고 필요한 경우 여러 단계에 걸친 추론을 수행함으로써 다양한 문제에서 사용되고 있다[7].

ChatGPT는 OpenAI에서 개발한 모델로 사전 훈련된 GPT-3를 기반으로 2022년 11월에 출시되었다[8]. ChatGPT는 인간 피드백으로 강화 학습 과정을 통해 기존 GPT 모델을 미세 조정하여 다른 언어모델과 달리 사용자의 질문에 대한 일관성 있는 답변을 제공하며 사용자를 대화의 맥락에 고려하는 응답을 줄 수 있었다[9]. ChatGPT는 콘텐츠 생성, 언어 처리, 프로그래밍 등 다양한 분야에서 뛰어난 성능을 보여주었으며, 특정 작업에 대한 미세 조정과 새로운 영역으로의 다양한 전이 학습 연구가 진행되고 있다. 교육 분야에서 ChatGPT는 교수자와 학생 모두에게 유용하게 활용될 수 있다[10]. 예를 들어, 교수자는 강의 준비에, 학생은 복잡한 문제 해결과 에세이 작성, 프로그래밍 학습 등에 ChatGPT를 활용할 수 있다[11,12]. 그러나 ChatGPT의 교육 어플리케이션의 오용 가능성과 평가 무결성 등에 대한 합리적이고 신중한 고려가 필요하다[13].

특히, GPT-4는 다양한 과목에서의 평가 능력에 대한 연구에서 주목받고 있다[14,15]. 이러한 연구들은 모델이 주어진 텍스트에 대한 이해[16]. 학습 자료에 대한 이해[17], 분석 및 평가 능력 등을 어떻게 구현하는지 탐구한다[18]. GPT-4의 고급 언어 처리 기능 및 문제 해결 능력을 활용하여 문학 작품[19], 과학 데이터[20], 수학적 계산[21] 등 다양한 교육 자료 및 글을 평가하고 분석하는 연구가 진행되고 있다. 그 예시로, GPT-4를 이용하여 학생들의 단답형 답변을 채점하는 연구에서는 참고 답안 없이도 상당한 성능을 보이는 결과가 나타났다[14]. 이러한 접근은 학문 간 평가의 일관성을 높이며, GPT-4가 교육 분야에서 다방면으로 활용될 수 있는 가능성을 제시한다. 그러나 기존 연구들은 주로 사람과 생성형 인공지능의 평과 결과를 비교하는 데 초점을 맞추었으며, 평가할 때 제시하는 근거 시각화와 논리의 투명성에 대한 연구는 상대적으로 부족하다. GPT-4를 이용한 최근 연구들을 보면, Bui와 Barrot(2024)의 연구는 ChatGPT를 자동 에세이 채점 도구로 활용하면서 인간 평가자의 결과 비교에 집중하였고[22], Kim과 Jo(2024)는 GPT-4와 CJ (Comparative Judgment) 방법을 비교하며 각 모델의 성능을 인간 평가자의 결과와 비교하는 데 중점을 두었다[23]. 또한, 인간 평가자와 GPT-4의 평가 결과를 비교한 Park(2023)의 연구에서는 과학적 탐구 보고서 평가에서 두 평가자 간 상관관계가 0.74로 높은 일치를 보였으나, 특정 평가 항목에서는 GPT-4가 인간 평가자보다 관대하게 채점하는 경향을 보고하였다[24]. 이와 같이 현재까지의 연구는 주로 모델의 평가 능력 자체에 초점을 맞추었지만, 이러한 평가가 어떠한 근거에 기반하고 있는지, 그리고 그 과정이 얼마나 추적 가능하고 설명 가능한지에 대한 질문은 충분히 탐구되지 않았다. 특히 글쓰기 평가의 경우, 채점 과정에서 제시되는 평가 근거의 명확성과 시각화는 미흡하다. 설명 가능한 인공지능(Explainable AI)과 관련된 초기 연구들은 있었으나, 이들은 대부분 특정 분야의 의사결정 과정에 초점을 맞추었고, 텍스트 평가 과정의 근거와 논리를 분석하는 데에는 한계가 있었다[25,26].

기존의 텍스트 평가 방식에서는 각 평가자의 주관적 기준과 해석 방식이 다양하기 때문에, 일관성 있는 평가 기준을 마련하는 것이 어려웠다. 이는 평가 과정에서의 객관성과 신뢰성을 저해하는 요소로 작용해왔다[27]. 또한, 다양한 평가자 간의 평가 결과를 일치시키기 위해 스케일링과 재채점 과정이 필요하게 되며, 이는 평가 과정의 효율성을 떨어뜨린다[28]. 본 연구는 이러한 문제를 해결하고자, GPT-4를 활용한 글 내용 평가에서 근거와 논리를 시각화하고 명시화하는 방법을 제안한다. 이를 통해, 평가 과정에서의 투명성과 추적 가능성을 높이고, 평가자 간의 일관성을 제공할 수 있을 것으로 기대된다. 또한, GPT-4가 제시하는 근거와 논리를 통해, 인간 평가자가 보다 빠르고 정확하게 평가할 수 있는 기반을 마련하고자 한다. 이 연구는 AI가 텍스트 평가에서 어떻게 인간의 이해와 판단을 돕고, 평가 과정의 효율성을 향상시킬 수 있는지에 대한 분석을 논의한다.


2. GPT-4를 활용한 학생 응답 평가 자동화 실험 및 평가

2.1 연구 개요

본 연구에서는 대규모언어모델인 GPT-4를 활용해 학생들의 글쓰기 채점 및 시각화를 자동화하는 과정을 탐구한다. 평가는 원자력 발전소에 대한 찬반 의견을 요구하는 질문에 대한 학생들의 응답을 기반으로 하였다. 이때, 수과학적 지식과 비판적 사고 두 가지 측면에서 평가를 진행하였다. 이는 과학적 역량이 단순한 지식 습득을 넘어, 실생활에서 직면하는 문제들을 과학적으로 해결할 수 있는 능력을 의미하며, 이러한 능력은 논리적, 비판적, 창의적 사고력으로 구분된다. 원자력 발전에 대한 찬반 의견을 평가하는 과제는 특히 비판적 사고력을 요구하는데, 이는 주장에 대한 타당성을 평가하고, 그 주장의 근거와 가정을 논리적으로 분석하는 능력을 필요로 하기 때문이다. 또한, 과학적 탐구를 위해서는 기존의 과학적 지식을 활용하는 것이 필수적이므로(Park & Kang, 2012), 수과학적 지식 역시 평가의 중요한 기준으로 설정되었다. 실험에 사용된 데이터셋은 총 124개의 학생 응답으로 구성되었고, 이러한 응답들은 zero-shot 방식으로 평가되었다. 학생들은 [Appendix 1]에 제시된 바와 같이 원자력 발전에 대한 제반 사항을 1) 방사능 폐기물, 2) 원자력 발전의 효율성, 3) 우리나라 원자력 발전의 의존도 및 이에 따른 찬반 측면에서, 찬성과 반대의 예시를 참고할 수 있다. 응답은 [Appendix 2]에 제시된 다음과 같은 질문을 통해 수집되었다. ‘원자력 발전소에 대해 찬성하나요? 반대하나요? 여러분의 의견을 작성해 봅시다.’, ‘위와 같이 생각한 이유는 무엇인가요? 자신의 생각을 구체적인 근거와 함께 논리적으로 설명해 주세요.’ 각 학생의 이름, 글, 공통 질문을 GPT-4에 입력하여 학생들의 글을 채점하고, 채점 과정에서는 학생의 글에서 점수의 근거가 되는 문장을 추출하였다.

[Fig. 1]은 본 연구에서 수행된 GPT-4를 활용한 채점 과정의 전체 흐름을 시각적으로 나타낸 것이다. [Fig. 1]에서 보이는 것과 같이 각 학생의 이름, 글, 공통 질문을 GPT-4에 입력하여 학생들의 글을 채점하고, 채점 과정에서는 학생의 글에서 점수의 근거가 되는 문장을 추출하였다. 이 문장들을 다시 GPT-4에 입력하여 실제로 포함되어 있는지 확인해 마킹하는 과정을 거쳤다. 이렇게 마킹된 문장은 배경색을 추가하여 사용자가 근거 문장을 쉽게 식별할 수 있도록 시각화 하였다.

[Fig. 1]

Scoring and Visualization Process with GPT-4

2.2 GPT-4 평가 과정

채점 과정에서 추출된 학생의 근거 문장을 시각화하기에 앞서 GPT-4를 채점 보조도구로써 신뢰할 수 있는지에 대해 인간 채점자의 점수와 GPT-4가 채점한 점수의 유사도를 비교해보는 실험을 진행하였다.

인간 평가자는 총 11인으로 교육학 분야 연구 경력 10년 이상의 박사학위 소지자 3명과 교육학, 과학교육, 아동학 분야 박사수료 및 박사과정생 8명으로 구성되었다. 보고서별로 2인의 교차채점자가 배정되었으며, 채점자 간 평가의 불일치가 높을 경우에 대해서 2차 채점을 진행하였다. 최종 평가 점수는 교차채점자 2인의 합산 점수로 산출하였다

Zero-shot 방식은 응답에 대한 사전 정보 없이 GPT-4가 평가 기준을 자체적으로 추론하는 방법이다. 124개의 학생 응답을 점수 분포가 균일하도록 조정하여 12개의 fold로 나눈 뒤, random state 값을 변경해가며 5회에 걸쳐 평가를 반복하였다.

2.3 실험 결과 분석 방법

인간 평가자와 GPT-4에 의한 채점 결과(점수)의 일치도를 검증하기 위해 평균 절댓값 오차(MAE, Mean Absolute Error), 평균 제곱근 오차(RMSE, Rooted Mean Squared Error), 가중 카파계수(Weighted Kappa Coefficient)와 상관계수 분석을 실시하였다.

가중카파계수는 두 점수 간 불일치 정도에 따라 가중치를 적용한 카파계수로서, 일반 카파계수와 달리 완전한 일치가 이루어지지 않는 경우를 모두 불일치로 간주하지 않고, 일치하는 정도에 따라 1부터 0 사이의 가중치가 부여된다[29]. 본 연구의 채점 점수 범위는 1점부터 10점이었다. 점수 차이가 1점인 경우(예: 인간은 9점 부여, GPT-4는 8점 부여)와 2점 차이인 경우(예: 인간은 6점 부여, GPT-4는 8점 부여)에 따라 각각 다른 가중치를 부여했다. 따라서 가중 카파계수와 상관계수를 활용하여 일치도를 분석하였다.

가중 카파계수는 일차가중 카파계수와 이차가중 카파계수로 분류된다. 일차가중 카파계수는 점수 차이에 비례한 가중치를 사용하고, 이차가중 카파계수는 점수 차이의 제곱에 비례한 가중치를 사용한다[14]. 본 연구에서는 인간과 GPT-4의 점수 차이가 커짐에 따라 일치하는 정도를 이차가중 카파계수를 사용하여 분석하였다. 상관계수는 두 값 간의 선형관계를 나타내며, 점수가 완벽히 일치하지 않더라도 유사한 변화 패턴을 보일 경우 높은 값을 가진다[14]. 따라서, 본 연구에서는 상관계수도 함께 분석하여 인간 평가자와 GPT-4에 의한 채점 결과를 비교하였다. 상관계수를 통한 분석은 [Fig. 2] 시각 자료를 통해 확인할 수 있다.

[Fig. 2]

Correlation between Human Evaluator and GPT-4 Scores Across Mathematical and Scientific Knowledge and Critical Thinking

2.4 실험 결과

본 평가는 GPT-4를 사용하여 학생 응답을 수과학적 지식과 비판적 사고 측면에서 5회 평가한 후, 점수의 평균값을 계산해 GPT-4 평가의 전반적 경향성을 분석했다. 각 평가 시도는 고유의 random state 값을 사용하여 일관성과 다양성을 보장하였다.

[Table 1]에 따르면 zero-shot 평가의 MAE와 RMSE 분석 결과 수과학적 지식 평가에서 평균 MAE는 1.587, 평균 RMSE는 1.929이다. 비판적 사고 평가에서는 평균 MAE가 1.408, 평균 RMSE가 1.700으로, 두 평가 항목 모두 안정적인 오차 범위를 유지했다. 특히 비판적 사고 평가에서 상대적으로 낮은 오차 값을 보여 GPT-4가 수과학적 지식 평가보다 비판적 사고 평가에서 더 인간 평가자와 유사한 성능을 보였음을 알 수 있다.

Human Evaluator vs GPT-4 Zero-shot Evaluation Consistency (MAE Mean, MAE Std, RMSE Mean, RMSE Std, Kappa Score, Correlation)

가중 카파계수 분석 결과 수과학적 지식 평가는 평균 0.425, 비판적 사고 평가는 평균 0.481로, 전반적인 점수 범위는 [0.40-0.48]이었다. 이는 두 평가에서 모두 보통 수준의 일치도를 보였으며, 비판적 사고 평가에서 더 높은 일치도를 나타냈다. [Fig. 2]는 여러 실험 결과에 따라 GPT-4의 평가 점수와 인간 평가자의 평가 결과 사이의 상관관계 분포를 시각화한 것이다. 각 셀은 두 평가자 간의 상관계수를 나타내며, 색상이 진할수록 높은 상관계수를 의미한다. 행과 열은 각각 평가자(GPT-4와 인간 평가자)와 평가 항목(수과학적 지식 및 비판적 사고)을 나타낸다. 상관계수 분석 결과, 인간 평가자와 GPT-4의 상관관계는 모두 0.5 이상으로 양호한 일치도를 나타냈으며, 수과학적 지식 평가에서 평균 0.588, 비판적 사고 평가에서 평균 0.613의 상관계수를 기록했다. GPT-4의 채점 점수 간 상관관계는 0.77~0.8로 1보다 작은 분포를 나타냈다. [Fig. 2]는 GPT-4와 인간 평가자 점수의 일치 패턴을 시각적으로 확인할 수 있는 자료로, 가중 카파계수와 상관계수 분석 결과 모두 GPT-4와 인간 평가자 간에 양호한 일치도를 보여준다. 이는 GPT-4의 채점 결과가 인간 평가자의 판단과 유사한 패턴을 보임을 나타내며, AI 기반 자동 채점 시스템의 가능성을 시사한다.

가중 카파계수 분석 결과 수과학적 지식 평가는 평균 0.425, 비판적 사고 평가는 평균 0.481로, 전반적인 점수 범위는 [0.40-0.48]이었다. 이는 두 평가에서 모두 보통 수준의 일치도를 보였으며, 비판적 사고 평가에서 더 높은 일치도를 나타냈다. [Fig. 2]는 여러 실험 결과에 따라 GPT-4의 평가 점수와 인간 평가자의 평가 결과 사이의 상관관계 분포를 시각화한 것이다. 각 셀은 두 평가자 간의 상관계수를 나타내며, 색상이 진할수록 높은 상관계수를 의미한다. 행과 열은 각각 평가자(GPT-4와 인간 평가자)와 평가 항목(수과학적 지식 및 비판적 사고)을 나타낸다. 상관계수 분석 결과, 인간 평가자와 GPT-4의 상관관계는 모두 0.5 이상으로 양호한 일치도를 나타냈으며, 수과학적 지식 평가에서 평균 0.588, 비판적 사고 평가에서 평균 0.613의 상관계수를 기록했다. GPT-4의 채점 점수 간 상관관계는 0.77~0.8로 1보다 작은 분포를 나타냈다. [Fig. 2]는 GPT-4와 인간 평가자 점수의 일치 패턴을 시각적으로 확인할 수 있는 자료로, 가중 카파계수와 상관계수 분석 결과 모두 GPT-4와 인간 평가자 간에 양호한 일치도를 보여준다. 이는 GPT-4의 채점 결과가 인간 평가자의 판단과 유사한 패턴을 보임을 나타내며, AI 기반 자동 채점 시스템의 가능성을 시사한다.

2.5 실험 의의 및 결론

실험 결과는 GPT-4가 수과학적 지식과 비판적 사고의 두 가지 측면에서 안정적이고 일관된 성능으로 학생 응답을 평가할 수 있음을 보여준다. 이는 GPT-4가 학생 응답 평가에 신뢰할 수 있는 보조 도구로 활용될 가능성을 시사한다.


3. 시각화 시스템

3.1 시스템 개요

[Fig. 3]은 GPT-4를 사용한 학생 글쓰기의 평가 및 평가 근거의 시각화 과정을 예시로 들어 설명한다. 전체 프로세스는 크게 ‘1. Request Scoring’과 ‘2. Visualization of Evidence’의 두 단계로 구성되어 있다.

[Fig. 3]

Examples of Assessment Requests, Evidence Extraction, and Visualization Processes

3.2 시각화 과정 상세 프로세스

첫 번째 단계 ‘1. Request Scoring’에서는 학생의 글에 대한 GPT-4의 채점을 요청한다. 채점 요청 프롬프트에는 원자력 발전소 찬반에 관한 공통 질문, 학생 이름, 글을 포함한다. 채점의 명확성 및 일관성을 위해 ‘이름, 채점, 근거, 근거문장’의 형식으로 결과를 요구했다. 인간평가와 비교하기 위해 채점은 1~10점 사이의 점수로 이루어지며, 수과학적 이해와, 비판적 사고 능력을 중점으로 두 차례 진행된다. 또한, GPT-4에 의한 평가의 타당성을 검증하기 위해 채점된 각 점수에 대한 ‘근거’와, 그 적합성을 확인할 수 있도록 학생들의 글 내에서 점수 부여의 기준이 된 ‘근거문장’을 출력하도록 했다.

채점 결과에 대한 근거 문장의 시각화는 두번째 단계 ‘2. Visualization of Evidence’에서 수행된다. 시각화 과정 프롬프트에는 채점 결과의 ‘근거 문장’이 학생의 글 안에 실제로 포함되어 있는지 확인하는 과정을 거치고, 문장이 포함되어 있다면 해당 문장의 위치를 {s}, {e} 태그로 표시하여 나타낸다. 마킹된 문장들은 정규 표현식(Regex)과 HTML 태그를 사용하여 글 내에서 시각화를 진행한다. 수과학적 지식을 중점으로 채점한 근거 문장은 파란색, 비판적 사고를 중점으로 채점한 근거 문장은 분홍색, 두 가지 요소가 모두 고려된 문장은 노란색으로 시각화 했다.


4. 시각화 결과 및 사례 분석

이 장에서는 평가 근거의 시각화 결과를 상세히 분석하고자 한다. 시각화 된 근거 문장의 예시를 살펴봄으로써, 평가에 대한 근거가 적절한지 확인하고, 어떤 경우에 문제가 발생할 수 있는지를 검토한다.

4.1 자동화 시각화 시스템

[Fig. 4]는 수과학적 근거와 비판적 사고 모두에서 근거 문장이 효과적으로 시각화 된 예시이다. [Fig. 4(a)]는 수과학적 지식 중점 근거로 제시된 ‘우라늄 에너지 밀도, 운영비용 언급’, ‘지형에 따른 과학적 지식’과 비판적 사고 중점 근거로 제시된 ‘에너지 생산량, 운영비용 효율성 강조’, ‘핵 폐기물 처리 해결책’이 모두 포함되어 있음을 확인할 수 있다. 이러한 문장들은 채점 기준과 일치하며, 학생의 글에서 중요한 정보를 정확하게 강조하는 방식으로 시각화 되었다.

[Fig. 4]

Appropriate Visualization Examples for Automated Evaluation System

4.2 근거문장의 한계

반면, [Fig. 5]는 근거와 관련된 문장들이 시각화로 충분히 나타나지 않는 모습을 보인다. GPT-4가 채점 근거로 제시한 내용 중 일부가 근거 문장으로 나타나지 않았다. [Fig. 5(a)] 에서는 ‘더 심도 있는 분석, 다양한 관점의 고려 필요’와 ‘반대 의견에 대한 충분한 반박이나 균형 잡힌 논의가 이루어지지 않음’ 등의 내용과 직접적으로 관련된 문장들이 누락 되었다. 하지만 이는 GPT-4가 학생 글 전체에서 느껴지는 부족한 점을 근거로 들었기 때문에, 특정 문장으로 그 부족함을 직접적으로 연결 짓기 어려운 경우에 발생한다. GPT-4는 글의 장점 뿐만 아니라 부족한 점을 지적하며 이는 종종 글 전반에 걸친 내용의 부족함을 포함하므로, 이를 단일 문장으로 표현하는 것에는 한계가 있다. 따라서 글 전체를 근거로 사용할 경우, 이를 구체적인 문장으로 시각화 하여 나타내는 것이 불가능할 수 있음을 시사한다.

[Fig. 5]

Inppropriate Visualization Examples for Automated Evaluation System

4.3 분석 결과의 의의

본 연구에서는 채점 과정을 지원하기 위해 사용자가 참고할 수 있는 시각화 과정을 진행했다. 이 시스템은 GPT-4가 제공하는 채점 근거를 기반으로 학생들의 글에서 근거 문장들을 추출하고, 이를 시각적으로 표현하여 제시한다. 시각화 된 결과를 분석한 결과, 근거 문장들이 채점에 대한 근거를 대체로 잘 반영하고 있음을 확인할 수 있었다.


5. 결론 및 향후 과제

5.1 결론

본 논문에서는 LLM(GPT-4)를 활용하여 학생의 글을 채점하는 과정에서 보조 도구로서의 가능성을 탐구하였다. 연구 결과, GPT-4는 수과학적 지식과 비판적 사고력을 평가하는 과정에서 채점의 근거를 제공하는 문장들을 선별하여 타당성 평가를 수행하였다. 또한 시각화 시스템은 평가자가 GPT-4의 채점 결과를 한눈에 파악하도록 도와 평가자가 명확하고 객관적인 평가를 수행할 수 있도록 지원한다.

5.2 향후 과제

향후 연구 방향으로는 GPT-4의 채점 정확도를 향상시켜 보다 정밀한 채점 도구로 발전시키는 것이 중요하다. 본 연구에서는 GPT-4를 활용한 자동 채점 시에 zero-shot 학습 방법만 적용하였다. 다양한 프롬프트 엔지니어링 기법을 적용할 경우 모델의 유연성을 높일 수 있으며, 이를 통해 모델을 다양한 학문 분야와 교육 적 요구에 더욱 효과적으로 대응할 수 있는 채점 도구로 강화할 수 있다. 본 연구는 GPT-4가 학생 글쓰기 채점의 신뢰할 수 있는 보조 도구로서의 가능성을 확인하였다. 이러한 기술의 정확도와 다양성을 향상시키기 위한 연구가 지속적으로 이루어진다면, 교육 평가 분야에서의 응용 가능성은 더욱 확대될 것이다.

더 나아가 본 연구에서 제안한 두 개의 GPT 모델 방식을 로봇 작업 계획 및 피드백 시스템에 활용하는 방향으로 확장할 수 있다. 첫 번째 GPT는 로봇이 수행할 작업 계획을 분석하고, 작업의 적합성을 근거와 함께 점검하는 역할을 수행한다. 두 번째 GPT는 첫 번째 GPT가 제시한 평가 결과를 검토하고, 그 신뢰성을 검증하는 과정을 담당한다. 검증된 작업 계획은 시각화 도구를 통해 사용자에게 전달되어 작업의 전체적인 흐름과 문제 지점을 직관적으로 파악할 수 있도록 돕는 방식으로 확장될 수 있다. 이러한 확장은 GPT 기반 기술을 교육 평가를 넘어 다양한 자동화 시스템과 로봇 공학 분야에 적용할 수 있는 가능성을 제시한다.

Acknowledgments

This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (NRF-2020S1A3A2A02095447), Ministry of Trade, Industry and Energy (MOTIE RS 2023 00258591), and the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT) (No. RS-2022-NR066631).

References

  • Md. M. Rahman, Y. Watanobe, and K. Nakamura, “A bidirectional LSTM language model for code evaluation and repair,” Symmetry, vol. 13, no. 2, pp. 1-15, Feb., 2021. [https://doi.org/10.3390/sym13020247]
  • A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” arXiv.1706.03762, 2017. [https://doi.org/10.48550/arXiv.1706.03762]
  • C. Zhou, Q. Li, C. Li, J. Yu, Y. Liu, G. Wang, K. Zhang, C. Ji, Q. Yan, L. He, H. Peng, J. Li, J. Wu, Z. Liu, P. Xie, C. Xiong, J. Pei, P. S. Yu, and L. Sun, “A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT,” arXiv:2302.09419, 2023. [https://doi.org/10.48550/arXiv.2302.09419]
  • P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig, “Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing,” ACM Computing Surveys, vol. 55, no. 9, pp. 1-35, Jan., 2023. [https://doi.org/10.1145/3560815]
  • Q. Dong, L. Li, D. Dai, C. Zheng, J. Ma, R. Li, H. Xia, J. Xu, Z. Wu, B. Chang, X. Sun, L. Li, and Z. Sui, “A Survey on In-context Learning,” arXiv:2301.00234, 2022. [https://doi.org/10.48550/arXiv.2301.00234]
  • T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, et al., “Language Models are Few-Shot Learners,” arXiv:2005.14165, 2020. [https://doi.org/10.48550/arXiv.2005.14165]
  • S. Minaee, T. Mikolov, N. Nikzad, M. Chenaghlu, R. Socher, X. Amatriain, and J. Gao, “Large Language Models: A Survey, arXiv:2402.06196, 2024. [https://doi.org/10.48550/arXiv.2402.06196]
  • T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei, “Language Models are Few-Shot Learners,” arXiv:2005.14165, 2020. [https://doi.org/10.48550/arXiv.2005.14165]
  • L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. Christiano, J. Leike, and R. Lowe, “Training language models to follow instructions with human feedback,” arXiv:2203.02155, 2022. [https://doi.org/10.48550/arXiv.2203.02155]
  • M. M. Rahman and Y. Watanobe, “ChatGPT for Education and Research: Opportunities, Threats, and Strategies,” Applied Sciences, vol. 13, no. 9, May, 2023. [https://doi.org/10.3390/app13095783]
  • A. O. Thunstrom A, We Asked GPT-3 to Write an Academic Paper About Itself: Then We Tried to Get It Published, [Online], https://www.scientificamerican.com/article/we-asked-gpt-3-to-write-an-academic-paper-about-itself-mdash-then-we-tried-to-get-it-published/, .
  • E. Kasneci, K. Seßler, S. Küchemann, M. Bannert, D. Dementieva, F. Fischer, U. Gasser, G. Groh, S. Günnemann, E. Hüllermeier, S. Krusche, G. Kutyniok, T. Michaeli, C. Nerdel, J. Pfeffer, O. Poquet, M. Sailer, A. Schmidt, T. Seidel, M. Stadler, J. Weller, J. Kuhn, and G. Kasneci, “ChatGPT for good? On opportunities and challenges of large language models for education,” Learning and Individual Differences, vol. 103, Apr., 2023. [https://doi.org/10.1016/j.lindif.2023.102274]
  • C. Stokel-Walker, “AI Bot ChatGPT Writes Smart Essays—Should Academics Worry?,” Nature, 2022. [https://doi.org/10.1038/d41586-022-04397-7]
  • P. S. Bhullar, M. Joshi, and R. Chugh, “ChatGPT in higher education - a synthesis of the literature and a future research agenda,” Education and Information Technologies, vol. 29, pp. 21501-21522, May, 2024. [https://doi.org/10.1007/s10639-024-12723-x]
  • I. C. Peláez-Sánchez, D. Velarde-Camaqui, and L. David Glasserman-Morales, “The impact of large language models on higher education: exploring the connection between AI and Education 4.0,” Frontiers in Education, vol. 9, Jun., 2024. [https://doi.org/10.3389/feduc.2024.1392091]
  • G. Kortemeyer, “Performance of the Pre-trained Large Language Model GPT-4 on Automated Short Answer Grading,” Discover Artificial Intelligence, vol. 4, Jul., 2024. [https://doi.org/10.1007/s44163-024-00147-y]
  • D. Stribling, Y. Xia, M. K. Amer, K. S. Graim, C. J. Mulligan, and R. Renne, “The model student: GPT-4 performance on graduate biomedical science exams,” Scientific Reports, vol. 14, Mar., 2024. [https://doi.org/10.1038/s41598-024-55568-7]
  • S. Ghosh, N. R. Brodnik, C. Frey, C. Holgate, T. M. Pollock, S. Daly, and S. Carton, “Toward Reliable Ad-hoc Scientific Information Extraction: A Case Study on Two Materials Datasets,” arXiv:2406.05348, 2024. [https://doi.org/10.48550/arXiv.2406.05348]
  • S. G. R. Immanuel and P. N. L. Gloria, “AI-Driven Literary Analysis: Exploring the Role of ChatGPT in Understanding and Interpreting Literary Texts,” Bodhi International Journal of Research in Humanities, Arts and Science, vol. 8, no. 2, pp. 51-59, Jan., 2024, [Online], https://www.bodhijournals.com/pdf/V8N2/Bodhi_V8N2_009.pdf
  • G. Cooper, “Examining science education in ChatGPT: An exploratory study of generative artificial intelligence,” Journal of Science Education and Technology, vol. 32, pp. 444-452, Mar., 2023. [https://doi.org/10.1007/s10956-023-10039-y]
  • A. Caraeni, A. Scarlatos, and A. Lan, “Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams,” arXiv:2411.05231, 2024. [https://doi.org/10.48550/arXiv.2411.05231]
  • N. M. Bui and J. S. Barrot, “ChatGPT as an automated essay scoring tool in the writing classrooms: How it compares with human scoring,” Education and Information Technologies, pp. 1-18, 2024. [https://doi.org/10.1007/s10639-024-12891-w]
  • S. Kim, and M. Jo, “Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition,” The Eleventh ACM Conference on Learning@Scale, pp. 315-319, 2024. [https://doi.org/10.1145/3657604.3664703]
  • S.-Y. Park, B. Lee, E. H. Ham, Y. K. Lee, and S. Lee, “Exploring the possibility of science-inquiry competence assessment by ChatGPT-4: Comparisons with human evaluators,” Korean Educational Research, vol. 61, no. 4, pp. 299-332, 2023, [Online], https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002968284, . [https://doi.org/10.30916/KERA.61.4.299]
  • N. A. Sharma, R. R. Chand, Z. Buksh, A. B. M. S. Ali, A. Hanif, and A. Beheshtit, “Explainable AI Frameworks: Navigating the Present Challenges and Unveiling Innovative Applications,” Algorithms, vol. 17, no. 6, May, 2024. [https://doi.org/10.3390/a17060227]
  • F. H. Chaleshtori, A. Ghosal, A. Gill, P. Bambroo, and A. Marasović, “On Evaluating Explanation Utility for Human-AI Decision Making in NLP,” arXiv:2407.03545, 2024. [https://doi.org/10.48550/arXiv.2407.03545]
  • H. M. Chong, “A Study of Conflicts between objectivism and subjectivism in writing assessment,” The Studies of Korean Language and Literature, no. 37, pp. 217-249, 2010, [Online], https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART001446605, .
  • M. Park, “Extension and Application of Hierarchical Rater Model Using Bayesian Estimation”, Ph.D dissertation, Seoul National University Graduate School, Seoul, 2021, [Online], https://hdl.handle.net/10371/178529, .
  • S.-H. Lee, E.-H. Noh, and K.-H. Sung, “Contrasting Automated and Human Scoring for Short-Answer NAEA Questions,” Journal of Curriculum Evaluation, vol. 18, no. 1, pp. 185-208, Mar., 2015, [Online], https://www.ejce.org/archive/view_article?pid=jce-18-1-185, . [https://doi.org/10.29221/jce.2015.18.1.185]

Appendix

Appendix

An Analysis of the Pros and Cons of Radioactive Waste Management

Assessment Sample: Evaluating Nuclear Power Plants

윤 지 나

2019~2024 숙명여자대학교 기계시스템학부(학사)

2024~현재 숙명여자대학교 기계시스템학부(석사)

관심분야: 인간로봇상호작용, 인공지능응용, 자동화 시스템

이 효 정

2020~현재 숙명여자대학교 기계시스템학부(학사)

관심분야: 머신러닝, 딥러닝

이 성 혜

1998 충북대학교 컴퓨터교육과(학사)

2001 서울대학교 교육학과 평생교육전공(석사)

2013 Syracuse University Educational Technology(박사)

2013-현재 KAIST 과학영재교육연구원 연구교수

관심분야: 인공지능 교육, 에듀테크, 온라인 교육

박 소 영

1998 서울대학교 교육학과(학사)

2000 서울대학교 교육학과 교육행정전공(석사)

2003 University of Wisconsin, Madison, Educational Administration(Ph.D)

2004 한국교육개발원 연구위원

2009-현재 숙명여자대학교 교육학부 교수

관심분야: 교육정책, 교사교육, 학생역량, AI 교육적용

동 서 연

2010 KAIST 전기및전자공학부(학사)

2011 KAIST 전기및전자공학부(석사)

2016 KAIST 전기및전자공학부(박사)

2018 KIST 의공학연구소 박사후연구원

2018~현재 숙명여자대학교 인공지능공학부 부교수

관심분야: 인간컴퓨터상호작용, 인공지능응용

심 주 용

2008 서울대학교 기계항공공학부(학사)

2010 Stanford University Mechanical Engineering(석사)

2015 Stanford University Mechanical Engineering(박사)

2015 한국전자통신연구원 선임연구원

2020~현재 숙명여자대학교 기계시스템학부 조교수

관심분야: 로보틱스, 자동화 시스템, 웨어러블 인터페이스, 센서와 엑추에이터

[Fig. 1]

[Fig. 1]
Scoring and Visualization Process with GPT-4

[Fig. 2]

[Fig. 2]
Correlation between Human Evaluator and GPT-4 Scores Across Mathematical and Scientific Knowledge and Critical Thinking

[Fig. 3]

[Fig. 3]
Examples of Assessment Requests, Evidence Extraction, and Visualization Processes

[Fig. 4]

[Fig. 4]
Appropriate Visualization Examples for Automated Evaluation System

[Fig. 5]

[Fig. 5]
Inppropriate Visualization Examples for Automated Evaluation System

[Table 1]

Human Evaluator vs GPT-4 Zero-shot Evaluation Consistency (MAE Mean, MAE Std, RMSE Mean, RMSE Std, Kappa Score, Correlation)

Trial MAE Mean (⭣) MAE Std (⭣) RMSE Mean (⭣) RMSE Std (⭣) Kappa Score (⭡) Correlation (⭡)
1 Scientific Knowledge 1.492 1.179 1.899 2.145 0.419 0.526
Critical Thinking 1.548 1.077 1.884 2.082 0.461 0.545
2 Scientific Knowledge 1.637 1.284 2.077 2.359 0.410 0.540
Critical Thinking 1.379 1.064 1.739 1.968 0.483 0.565
3 Scientific Knowledge 1.556 1.191 1.957 2.272 0.429 0.550
Critical Thinking 1.427 1.068 1.780 1.936 0.451 0.516
4 Scientific Knowledge 1.718 1.186 2.085 2.267 0.403 0.534
Critical Thinking 1.476 1.000 1.780 1.853 0.461 0.598
5 Scientific Knowledge 1.677 1.193 2.056 2.330 0.402 0.528
Critical Thinking 1.452 1.178 1.867 2.289 0.438 0.521
Mean Scientific Knowledge 1.587 1.101 1.929 2.152 0.425 0.588
Critical Thinking 1.408 0.956 1.700 1.871 0.481 0.613

[Appendix 1]

An Analysis of the Pros and Cons of Radioactive Waste Management

Topic Pro Con
Radioactive waste Low-level waste, which makes up a significant amount of radioactive waste, will naturally decay over time.
For dangerous radioactive waste, it is stored in stable bedrock with little chance of stratigraphic change and is unlikely to pose a threat to humans or nature. Techniques for designing and managing power plants to prevent nuclear accidents continue to improve, and the systems for overseeing the operation of nuclear power plants are constantly being refined. These efforts will continue to be sufficient to prevent accidents.
As useful as nuclear power is, there is no way to properly dispose of the highly hazardous radioactive waste it produces, and one major accident could cause irreversible damage to humans and nature. For example, spent nuclear fuel, which is categorized as dangerous radioactive waste, emits radiation so high that it takes about 100,000 years or more for its radioactivity to decay to the level of natural uranium in nature. Low-level radioactive waste requires special additional processes, such as solidification and compression, before it becomes radioactive, and requires a separate location to store the containers.
Efficiency of nuclear power generation The reality is that nuclear power is necessary because relying solely on thermal power to meet today’s high demand for electricity would result in much worse air pollution, and renewable energy is not an alternative. The efficiency of nuclear power generation is incomparably higher than other energy sources: for example, the energy generated by 1 kg of uranium, the raw material for nuclear power generation, is equivalent to the energy generated by 2 million liters of oil or 3,000 tons of coal, and the operating costs of nuclear power plants are only one-fifth to one-third of those of fossil fuel plants. If we continue to rely on nuclear power because other sources of electricity are not sufficient alternatives now, we will not be able to expect change over time. We need to start developing and utilizing other sources of electricity to reduce our reliance on nuclear power. This may be more expensive, but it is worth it to keep people safe and protect nature from radioactive waste.
Korea’s reliance on nuclear power Korea is a good example of utilizing nuclear power. By effectively using nuclear power, we have been able to supply electricity more reliably than other countries. In addition, we are generating additional revenue by exporting nuclear power plant know-how overseas, which is a great economic benefit in many ways. We should continue to utilize nuclear power effectively. Korea is a good example of utilizing nuclear power.
By effectively using nuclear power, we have been able to supply electricity more reliably than other countries. In addition, we are generating additional revenue by exporting nuclear power plant know-how overseas, which is a great economic benefit in many ways.We should continue to utilize nuclear power effectively.

[Appendix 2]

Assessment Sample: Evaluating Nuclear Power Plants

Writing Task Essay
Mission 1 Are you for or against nuclear power plants? Let’s write your opinion. <Pro>
Nuclear power plants can generate large amounts of electricity and can operate continuously without interruption.
It can supply electricity to millions of households for a long time with a small amount of fuel and can meet the electricity needs of large industrial complexes and cities.
In addition, it is recognized as green energy because it can alleviate environmental problems of air pollution and greenhouse gases, so it is thought to be efficient in many aspects.
Mission 2 Why did you think the way you did? Explain your thinking logically with specific evidence. Korea is a small country surrounded by the sea on three sides, and the total number of large and small islands is 3,358, of which 482 are inhabited and 2,876 are uninhabited, according to the Ministry of Land, Infrastructure, Transport and Maritime Affairs in 2010.
The number of people living on the 482 inhabited islands is expected to be considerable, and I believe that the use of various benefits should not be inconvenient or limited because they do not live in densely populated or urban areas.
In Korea, due to global warming, the meaning of the four seasons has disappeared, summer and winter are lasting, the temperature in summer is rising day and night, and the cold wave in winter will continue to last longer and the temperature will also decrease, so I think that the electricity consumed by modern people’s homes is considerable, and I think that a nuclear power plant that can produce a large amount of electricity and can be used continuously without interruption is essential because the consumption of electricity is huge, not only for home appliances but also for transportation, electric vehicles, and industrial power.