OpenAI가 최신 웹 에이전트 ‘Operator o3’의 시스템 카드 부록을 공개하며, AI 에이전트의 자율적 웹 작업 능력과 안전성을 동시에 강화했다고 발표했다. 이번 업데이트는 o3 모델로 업그레이드되면서 정확도와 성공률이 크게 향상됐으며, OSWorld 벤치마크에서 42.9점, WebArena에서 62.9점을 기록했다.
차세대 AI 에이전트, 웹에서 직접 행동한다
Operator o3는 OpenAI가 개발한 반자율적 웹 에이전트로, 사용자를 대신해 웹 브라우저에서 실제 작업을 수행할 수 있는 능력을 갖추고 있다. 기존 ChatGPT와 달리 단순한 대화형 응답을 넘어서, 웹사이트 탐색, 폼 작성, 데이터 수집 등의 구체적인 작업을 독립적으로 실행한다. OpenAI의 클라우드 보안 환경에서 작동하며, operator.chatgpt.com을 통해 접근할 수 있다.
o3 모델 도입으로 성능 비약적 향상
이전 GPT-4o 기반에서 o3 모델로 업그레이드되면서 정밀도와 작업 성공률이 대폭 개선되었다. 특히 복잡한 다단계 작업에서의 맥락 이해능력과 명령 수행 정확도가 크게 향상되었으며, GAIA 테스트에서는 기존 12.3점에서 62.2점으로 5배 이상 성능이 개선되었다.
엄격한 보안 프레임워크 적용
OpenAI는 Operator o3의 안전성 확보를 위해 민감한 작업의 94%에 대해 사용자 확인을 요구하며, 금융 거래의 경우 100% 확인을 의무화했다. 생물학적 및 화학적 위협과 관련된 프롬프트를 모니터링하는 새로운 안전 시스템을 배치했으며, 98.7%의 정확도로 위험한 프롬프트를 차단한다고 발표했다.
AI 에이전트 시장에서의 경쟁력 확보
ChatGPT Pro 구독자(월 200달러)에게만 제공되는 Operator o3는 Google Gemini Advanced의 250달러보다 저렴한 가격으로 경쟁력을 확보했다. 이는 OpenAI가 고급 AI 기술의 접근성을 높이려는 전략의 일환으로 해석된다.
환각 현상과 편향성 문제 여전히 과제
시스템 카드에서는 o3 모델이 더 많은 주장을 하는 경향이 있어 정확한 정보와 함께 부정확하거나 환각적인 내용도 증가한다는 점을 인정했다. PersonQA 평가에서 o1의 0.16점에서 o3의 0.33점으로 개선되었지만, 여전히 환각 현상이 완전히 해결되지 않았다는 한계를 보였다.
AI 에이전트 시대의 전환점
OpenAI가 공개한 부록에서는 o3 모델의 추론 개선 사항, 사실성과 편향성의 한계, 그리고 이를 완화하기 위한 전략들을 상세히 설명했다. 업계 전문가들은 Operator o3가 단순한 대화형 AI에서 실제 작업을 수행하는 디지털 에이전트로의 전환을 상징하는 중요한 이정표라고 평가하고 있다.