spot_img

“GPT-5.1, 2026 수능 450점 만점에 435.5점”…국내 대학생 AI 수능 실험

국내 대학생이 직접 구축한 자동 채점 시스템으로 최신 AI 모델들의 2026 수능 풀이 실험을 진행한 결과, 오픈AI의 GPT-5.1이 450점 만점에 435.5점을 기록하며 1위를 차지했다. 18일 구유겸 순천향대학교 컴퓨터소프트웨어공학과 3학년 학생은 ‘테스트-채점-통계’ 자동 처리 시스템을 구축해 GPT-5.1 및 제미나이 2.5 프로 등 주요 글로벌 AI 모델을 기반으로 2026 수능을 풀이한 결과, 대부분의 모델에서 생각보다 높은 정답률이 나왔다고 밝혔다. 구 학생은 “지난해 AI가 수능 문제를 풀게 했다는 기사를 본 적이 있는데, 올해 최신 및 최고 성능 모델은 만점에 도달할 수 있을지 궁금했다”며 “소형 모델도 문제를 얼마나 잘 풀 수 있는지 호기심이 생겼다”고 동기를 설명했다.

실험은 국어, 수학(전 과목), 영어, 한국사, 탐구 과목 4개(생명과학1, 물리1, 화학1, 사회문화) 등을 대상으로 진행됐다. 탐구 영역에서는 비교적 어렵다는 평이 많은 과목을 선정했다. 문제지는 PDF나 이미지 데이터를 그대로 입력하지 않고 광학 문자 인식(OCR)으로 추출한 후 사람이 직접 잘못 인식한 부분을 수정했다. 또한 각 모델의 공식 API를 활용해 실험을 진행했는데, 웹이나 앱 서비스에는 별도의 시스템 프롬프트가 작동해 결과가 많이 달라질 수 있기 때문이다. 대상 모델은 GPT-5.1, GPT-5.1 코덱스, GPT-5 미니, GPT-5 나노, GPT-4o, 클로드 하이쿠 4.5, 클로드 소네트 4.5, 제미나이 2.5 프로, 제미나이 2.5 플래시, 제미나이 2.5 플래시 라이트, 딥시크-V3-2-Exp, 그록-4, 그록-4 패스트(싱킹) 등이다.

종합 총점 순위에서 GPT-5.1이 435.5점으로 1위를 차지했으며, 이는 2위인 GPT-5.1 코덱스(425.5점)를 10점이나 앞선 것이다. 이어 클로드 소네트 4.5(422점), 제미나이 2.5 프로(421.2점), 제미나이 2.5 플래시(418.7점) 등이 3~5위를 기록했다. 특히 탐구과목을 제외하면 GPT-5.1은 국어 영역 1문제를 제외한 전 문항에 대해 정답을 도출했다. 이는 총점 348점(정답률 99.4%)에 달하는 결과다. 수학 과목에 대한 결과도 흥미로웠다. GPT-5.1은 만점으로 1위를 달성했지만, GPT-4o는 최저점을 기록했다. 이는 오픈AI 기술이 최근 수학 추론에서 크게 발전했다는 것을 반영한다. 제미나이 2.5 프로는 국어보다 수학에서 약한 모습을 보였다.

영어 영역은 모든 모델이 강했다. GPT 모델군 4개가 최상위에 올랐으며, GPT-5.1과 GPT-5 미니는 만점을 받았다. 한국사 과목도 GPT-5 나노를 제외한 GPT 모델군 5개가 모두 만점을 받았다. 제미나이 모델군도 한국사에서 모두 만점을 받았다. 무엇보다 GPT 모델군은 화학과 사회문화, 생명과학, 물리 등 탐구 과목 등에서도 모두 1위를 차지했다. 이는 GPT가 언어 이해와 풀이 능력뿐만 아니라 도메인별 지식에도 강하다는 점을 시사한다. 구 학생은 “전반적으로 예상을 뛰어넘는 놀라운 결과”라며 프론티어 모델뿐만 아니라 제미나이 플래시나 GPT 미니 시리즈 등 경량 모델도 예상보다 높은 성적을 거뒀다고 평가했다.

구 학생은 오답이 생긴 부분은 대부분 복잡한 도형이나 그래프가 포함됐다고 설명했다. “아직은 이미지 인식의 한계로 문제를 이해하지 못할 때가 많지만, 문제만 이해하면 완벽에 가까운 풀이 능력을 보였다”고 설명했다. 이어 “올해 수능에 대해 공식적인 정답률 및 문항 선택률에 대한 통계가 나오면, AI와 사람이 잘 맞히거나 잘 틀리는 문제가 공통적인지 혹은 차이가 있는지도 확인해 보고 싶다”며 “이번에 테스트-채점-통계 자동 처리 시스템을 구축했기 때문에, 앞으로 다른 시험이나 2027 수능 때도 문제 풀이를 진행해 보고 싶다”고 말했다. 이번 실험은 AI의 한국어 이해 능력과 복합 추론 능력이 이미 인간 수준에 근접했음을 보여주는 사례로, 향후 교육 평가 방식의 변화 필요성을 제기한다.

태그: #GPT5.1 #수능AI #AI평가

박민서
박민서
사회부 기자 박민서입니다. 인간적 관점에서 사회 현상을 깊이 있게 다루겠습니다

LEAVE A REPLY

Please enter your comment!
Please enter your name here

많이 본 뉴스

- Advertisment -
Google search engine