spot_img

AI 연구 능력, 어떤 모델이 최고? ‘DeepResearch Bench’ 등장

22개 분야, 100개 박사급 과제로 AI 에이전트 성능 첫 종합 평가… Gemini 1.5 Pro, 최고점 기록


본문

인공지능(AI)이 인간 연구원을 대신하는 시대가 성큼 다가온 가운데, 어떤 AI 모델이 가장 뛰어난 리서치 능력을 갖췄는지 평가하는 첫 종합 벤치마크 ‘DeepResearch Bench’가 공개됐다. 이 벤치마크는 AI가 복잡한 연구 과제를 얼마나 효율적이고 정확하게 수행하는지 측정하는 새로운 기준을 제시한다.

지금까지 다양한 거대언어모델(LLM) 기반 AI 에이전트가 등장했지만, 이들의 실제 연구 수행 능력을 객관적으로 비교하고 평가할 마땅한 기준이 없었다. 사용자들은 각기 다른 모델의 강점을 파악하기 어려웠고, 개발사 역시 모델의 연구 능력을 입증하는 데 한계가 있었다.

‘DeepResearch Bench’는 이러한 문제를 해결하기 위해 설계되었다. 이 벤치마크는 22개 학문 분야에 걸쳐 총 100개의 박사급 리서치 과제를 제시한다. AI 에이전트는 웹 탐색, 핵심 정보 수집 및 분석, 그리고 수집한 정보의 출처를 정확히 밝히는 인용 기반 보고서 작성까지, 연구의 전 과정을 자동화하여 수행해야 한다.

평가는 두 가지 핵심적인 실질적 기준에 따라 이루어진다. 첫째는 ‘인용의 정확도’로, AI가 생성한 보고서의 내용이 실제 데이터와 출처에 얼마나 정확하게 근거하는지를 평가한다. 둘째는 ‘보고서의 품질’로, 내용의 논리성, 완결성, 가독성 등 질적인 측면을 종합적으로 분석한다. 이는 기존에 없던 실질적인 평가 기준을 제시했다는 점에서 큰 의미를 가진다.

최초로 진행된 이번 평가에서는 구글의 ‘Gemini-1.5-Pro Deep Research’가 가장 높은 종합 점수를 획득하며 최고의 AI 연구원으로서의 가능성을 입증했다. 그 뒤를 이어 ‘OpenAI Deep Research’와 ‘Perplexity Deep Research’가 우수한 성적으로 이름을 올렸다.

현재 ‘DeepResearch Bench’는 개발자와 연구자들이 자유롭게 사용하고 기여할 수 있도록 허깅페이스(HuggingFace)와 깃허브(GitHub)에 전체가 공개된 상태다. 누구나 자신의 AI 에이전트 성능을 테스트하고 결과를 비교해볼 수 있다.

이번 벤치마크의 등장은 AI 기술 발전에 중요한 이정표가 될 전망이다. 앞으로 어떤 AI가 단순히 정보를 검색하는 것을 넘어, ‘진짜 연구자’처럼 깊이 있게 사고하고 논리적으로 정보를 조직화할 수 있는지를 가늠하는 핵심적인 척도로 자리 잡을 것으로 보인다.


LEAVE A REPLY

Please enter your comment!
Please enter your name here

많이 본 뉴스

- Advertisment -
Google search engine