SWE-bench 72.5% 달성으로 기존 모델들 압도… 7시간 연속 작업도 가능
AI 개발사 Anthropic이 23일 차세대 AI 모델 ‘Claude 4’를 공식 출시한다고 발표했다. Claude 4는 Opus 4와 Sonnet 4 두 가지 모델로 구성되며, 특히 코딩 분야에서 기존 AI 모델들을 크게 앞서는 성능을 보여주고 있다.
가장 주목할 만한 성과는 코딩 능력 평가 벤치마크인 SWE-bench에서 Opus 4가 72.5%의 점수를 기록한 것이다. 이는 현재까지 공개된 AI 모델 중 최고 수준이다. Terminal-bench에서도 43.2%를 달성하며 압도적인 1위를 차지했다. Anthropic은 “Claude Opus 4는 세계에서 가장 뛰어난 코딩 모델”이라고 자신있게 밝혔다.
Claude 4의 가장 큰 혁신은 장시간 집중력을 유지하며 복잡한 작업을 수행할 수 있다는 점이다. 실제로 일본 전자상거래 기업 라쿠텐이 진행한 테스트에서는 7시간 동안 독립적으로 오픈소스 리팩토링 작업을 수행하며 지속적인 성능을 보여줬다. 이는 기존 AI 모델들이 긴 작업에서 집중력을 잃거나 성능이 저하되는 문제를 해결한 것으로 평가된다.
새로운 기능도 대폭 강화됐다. ‘확장된 사고와 도구 사용’ 기능을 통해 Claude 4는 문제를 해결하면서 동시에 웹 검색 등의 도구를 활용할 수 있게 됐다. 또한 개발자가 로컬 파일 접근을 허용하면 AI가 직접 ‘메모리 파일’을 생성해 핵심 정보를 저장하고 연속성을 유지하는 능력도 갖췄다.
업계 반응도 뜨겁다. 코딩 도구 개발사 Cursor는 “복잡한 코드베이스 이해에서 도약적 발전을 보여준다”며 최첨단 기술이라고 평가했다. GitHub는 Claude Sonnet 4를 자사의 새로운 코딩 에이전트인 Copilot의 기본 모델로 도입할 예정이라고 발표했다. 개발 플랫폼 Replit은 “다중 파일에 걸친 복잡한 변경 작업에서 정밀도가 극적으로 향상됐다”고 밝혔다.
Claude 4와 함께 정식 출시되는 ‘Claude Code’도 주목받고 있다. 이 도구는 VS Code, JetBrains 등 주요 통합개발환경(IDE)과 네이티브 통합을 지원하며, GitHub Actions를 통한 백그라운드 작업도 가능하다. 개발자들은 IDE에서 바로 Claude의 코드 편집 제안을 확인하고 적용할 수 있어 더욱 효율적인 개발이 가능해졌다.
흥미롭게도 Claude 4의 가격 정책은 기존과 동일하게 유지된다. Opus 4는 입력/출력 백만 토큰당 15달러/75달러, Sonnet 4는 3달러/15달러다. 무료 사용자도 Sonnet 4에 접근할 수 있어 더 많은 개발자들이 최신 AI 기술을 체험할 수 있게 됐다. Claude 4는 현재 Claude 웹사이트와 Anthropic API, Amazon Bedrock, Google Cloud Vertex AI를 통해 이용할 수 있다.