[대전타임뉴스=홍대인 기자] 국립한밭대학교 컴퓨터공학과 박천음 교수 연구팀이 거대언어모델의 학문적 사고력을 평가하는 국제 벤치마크 ‘스콜러벤치(ScholarBench)’를 개발하고, 이를 자연어처리 분야 주요 학회인 EMNLP 2025에서 발표했다.
이번 벤치마크는 한국어와 영어를 모두 지원해 비영어권 학문 데이터에서의 AI 이해 능력을 검증할 수 있다는 점에서 의미가 크다.
국립한밭대 연구팀은 기존 언어모델 평가가 문장 완성이나 단순 질의응답 등에 치중해, 실제 학술 텍스트에서 요구되는 계층적 사고 능력을 충분히 반영하지 못한다고 지적했다.
이에 스콜러벤치는 추상화, 이해, 추론 등 세 단계 사고 구조에 따라 문항을 설계하고, 자연과학·응용과학·사회과학·인문학 등 8개 분야의 실제 논문 개념 관계와 논증 구조를 반영했다.
한국어와 영어 버전을 동일 구조로 구성해 언어 간 사고 균형도 평가할 수 있도록 했다.
연구팀이 GPT-4o, Claude-3 등 최신 상용 모델을 스콜러벤치로 평가한 결과, 학문적 추론 단계에서 평균 0.54 수준에 머무른 것으로 나타났다.
표면적 문장 이해는 가능하지만 개념 간 관계 분석이나 논리 전개 파악에서는 여전히 한계가 나타난다는 분석이다. 연구팀은 단순 정확도 경쟁보다 모델의 사고 과정 평가가 더 중요해지는 흐름을 보여주는 사례라고 설명했다.
이번 연구는 국립한밭대 컴퓨터공학과 노동원 석사과정과 고동혁 학부생, KAIST 문화기술대학원 육정훈 석사과정, 캘리포니아주립대 산타바바라(UCSB) 김규완 박사과정이 공동 제1저자로 참여했으며, 박천음 교수가 교신저자를 맡았다.
연구팀은 중국 쑤저우에서 열린 EMNLP 2025 포스터 세션에서 스콜러벤치의 구조와 평가 결과를 발표했다.
박천음 교수 연구팀은 스콜러벤치가 한국어 학문 AI 연구의 국제 표준 기반으로 확장될 가능성을 강조했다. 연구팀은 “스콜러벤치는 한국어 학술 데이터를 이해하고 생성할 수 있는 AI 발전 방향을 제시하는 첫 단계"라며 “국내 연구자가 글로벌 평가 생태계에 주도적으로 참여할 수 있는 기반이 될 것"이라고 말했다.
댓글
댓글 기능은 준비 중입니다.