도쿄 기반의 AI 스타트업 Sakana AI가 유가증권 보고서를 활용한 일본어 금융 벤치마크 ‘EDINET-Bench(이디넷-벤치)’를 오늘 발표했다. 이 벤치마크는 회계 부정 탐지, 실적 예측 등 그동안 자동화가 어려웠던 고도의 금융 태스크에서 거대 언어 모델(LLM)의 성능을 평가하기 위해 개발되었다. 관련 논문, 데이터 세트, 구축 도구도 함께 공개되어, 일본 금융 분야에서의 AI 활용 연구를 가속화할 것으로 기대를 모은다.
최근 LLM은 다양한 전문 분야에서 높은 성능을 보여주고 있지만, 금융 분야로의 응용은 아직 발전 단계에 머물러 있다. 특히 일본의 경우, 실무에 근접한 복잡한 태스크를 측정할 표준 벤치마크가 부족한 실정이었다. 금융 규제 및 보고 양식은 국가별로 상이하기 때문에, 영어권 벤치마크에서 우수한 성능을 보인 모델이라 할지라도 일본 시장에서 동일한 역량을 발휘한다고 보장할 수는 없다. Sakana AI는 일본 금융청의 전자공시시스템인 ‘EDINET’에 공개된 방대한 유가증권 보고서 데이터에 주목하며, 일본 고유의 평가 기준 확립이 중요함을 강조했다.
‘EDINET-Bench’는 과거 10년간 일본 상장기업의 유가증권 보고서 약 41,000건을 기반으로 구축되었다. 이 벤치마크는 ▲회계 부정 여부를 예측하는 ‘회계 부정 탐지’, ▲차기 연도 실적 증감을 예측하는 ‘실적 예측’, ▲재무 데이터를 바탕으로 업종을 분류하는 ‘업종 예측’ 등 총 3가지 핵심 태스크로 구성된다. 특히 회계 부정 탐지는 100페이지가 넘는 보고서 속에서 교묘하게 숨겨진 부정의 징후를 포착해야 하는 매우 난도 높은 과제이다. Sakana AI는 정정 보고서 정보를 기반으로 부정 및 오류 사례에 대한 라벨링 과정을 자동화했으며, 누구나 최신 데이터를 이용해 벤치마크를 갱신하고 재구축할 수 있도록 관련 도구를 깃허브(GitHub)에 공개한 점이 특징이다.
Sakana AI가 최신 LLM들을 대상으로 별도의 학습 없는 제로샷(Zero-shot) 방식으로 성능을 평가한 결과, 흥미로운 과제와 가능성이 동시에 확인되었다. 회계 부정 탐지 태스크에서 LLM의 성능(ROC-AUC 스코어 약 0.7)은 고전적인 머신러닝 모델인 로지스틱 회귀 모델과 비슷한 수준에 머물렀는데, 이는 재무제표의 수치 데이터만으로는 부정 행위를 탐지하는 것이 여전히 어렵다는 점을 시사한다. 반면, 재무 데이터뿐만 아니라 사업 내용 등 텍스트 정보를 함께 입력했을 때 탐지 성능이 향상되는 경향이 나타나, 모델에 더 풍부한 맥락 정보를 제공하는 것이 유효함을 보여주었다.
이번 연구는 LLM을 금융 실무에 적용하는 데 있어 현재 기술 수준을 명확히 보여주었다는 평가다. 단순한 설정 하에서는 아직 과제가 남아있지만, 모델에 제공하는 정보의 종류와 활용 방식을 고도화하면 성능 향상의 여지가 충분함이 확인되었다. Sakana AI는 이번 연구에서 얻은 인사이트를 바탕으로 향후 금융 태스크에 특화된 LLM 개발 등을 추진할 방침이며, 이는 일본 금융 산업의 AI 전환을 위한 중요한 발걸음이 될 것으로 전망된다.