오픈AI의 최신 모델 GPT-5.1(Thinking, High)이 ARC-AGI 평가에서 새로운 SOTA(State-of-the-Art, 최고 성능 모델)로 등록됐다. ARC Prize 공식 리더보드에 따르면 세미 프라이빗 평가에서 GPT-5.1은 ARC-AGI-1 과제에서 72.83% 정확도를 기록하며 태스크당 비용 1.17달러로 성능과 비용 효율 측면에서 균형 잡힌 결과를 냈다. ARC-AGI-2 과제에서는 17.64% 정확도를 기록했다. 이는 이전 최고 성능 모델이었던 GPT-5 Pro(ARC-AGI-1 70.2%, 비용 7.14달러)를 성능 면에서 2.6%포인트 앞서면서도 비용은 6분의 1 수준으로 낮춘 성과다.
ARC-AGI는 기본적인 유동 지능(fluid intelligence)을 측정했던 첫 번째 버전(ARC-AGI-1)에서 높은 적응성과 효율성을 모두 요구하는 ARC-AGI-2로 진화했다. 리더보드는 태스크당 비용과 성능 간의 중요한 관계를 시각화하며, 진정한 지능은 문제를 해결하는 것뿐 아니라 최소한의 자원으로 효율적으로 해결하는 것이라는 점을 강조한다. 인간 패널은 ARC-AGI-1에서 98.0%, ARC-AGI-2에서 100.0%의 정확도를 기록했으며 태스크당 비용은 17달러였다. GPT-5.1은 인간 성능의 약 74%에 도달하면서도 비용은 15분의 1 수준으로 낮췄다.
리더보드 상위권을 살펴보면 J. Berman(2025)의 맞춤형 리파인먼트 시스템이 ARC-AGI-1에서 79.6%, ARC-AGI-2에서 29.4%로 AI 시스템 중 최고 성능을 기록했으나 태스크당 비용은 30.40달러였다. E. Pang(2025)의 시스템은 ARC-AGI-1에서 77.1%, ARC-AGI-2에서 26.0%를 기록하며 비용은 3.97달러로 더 효율적이었다. GPT-5 Pro는 ARC-AGI-1에서 70.2%, ARC-AGI-2에서 18.3%를 기록했으나 태스크당 비용이 7.14달러로 상대적으로 높았다. Grok 4(Thinking)는 66.7%와 16.0%를 기록하며 비용은 2.17달러였고, Claude Sonnet 4.5(Thinking 32K)는 63.7%와 13.6%를 기록하며 비용은 0.759달러로 가장 효율적인 모델 중 하나였다.
GPT-5.1의 성과는 추론 시간 확장(test-time scaling)과 체인 오브 쏘트(CoT) 기술의 발전을 반영한다. 리더보드의 ‘추론 시스템 트렌드 라인’은 동일 모델이 추론 레벨을 달리했을 때의 성능을 연결한 선으로, 추론 시간이 증가할수록 성능이 향상되지만 점근적 행동(asymptotic behavior)을 보인다는 점을 보여준다. GPT-5.1은 이러한 추론 시간 확장을 최적화해 비용 대비 성능을 극대화한 것으로 해석된다. 또한 Base LLM(GPT-4.5, Claude 3.7 등)이 단일 샷 추론에서 보여준 성능에 비해 추론 강화 모델들이 얼마나 큰 성능 향상을 이뤘는지를 보여준다.
ARC-AGI는 단순한 벤치마크를 넘어 AGI(Artificial General Intelligence) 달성 여부를 측정하는 핵심 지표로 평가받고 있다. 기존 벤치마크들이 암기나 패턴 인식으로 높은 점수를 얻을 수 있는 반면, ARC-AGI는 새로운 문제에 대한 추상적 추론 능력을 요구한다. GPT-5.1이 인간 성능의 약 74%에 도달했다는 것은 AI가 유동 지능 측면에서 점진적으로 인간에 근접하고 있음을 시사한다. 다만 ARC-AGI-2의 17.64% 정확도는 여전히 개선의 여지가 크며, 인간의 100% 정확도와는 큰 격차가 있다. 향후 추론 모델의 발전과 비용 효율성 개선이 계속되면 2026년 내에 인간 수준의 ARC-AGI 성능을 달성하는 AI 시스템이 등장할 가능성도 제기되고 있다.


