OpenAI가 안전 분류 작업을 위한 오픈 웨이트 추론 모델 ‘gpt-oss-safeguard’의 연구 프리뷰를 29일 공개했다. 120b와 20b 두 가지 크기로 제공되며, Apache 2.0 라이선스 하에 Hugging Face에서 다운로드 가능하다. 이 모델은 개발자가 제공한 맞춤형 안전 정책을 추론 시점에 직접 해석해 사용자 메시지, 완성본, 전체 채팅을 분류한다. 개발자가 항상 사용할 정책을 결정하므로 응답이 더 관련성 높고 맞춤화되며, 체인 오브 쏘트(chain-of-thought)를 통해 모델의 의사결정 과정을 검토할 수 있다.
기존 안전 분류기는 사전 정의된 안전 정책 하에 수천 개의 안전/불안전 콘텐츠 예시를 수동으로 큐레이션해 학습시키는 방식으로, 정책 변경 시 재학습이 필요했다. 반면 gpt-oss-safeguard는 추론 능력을 활용해 개발자가 직접 작성하거나 다른 출처에서 가져온 정책을 적용할 수 있으며, 정책이 모델에 학습되지 않고 추론 시점에 제공되므로 반복적으로 정책을 수정해 성능을 높이기 쉽다. 예를 들어 비디오 게임 포럼은 게임 내 치팅을 논의하는 게시물을 분류하는 정책을, 제품 리뷰 사이트는 가짜로 보이는 리뷰를 걸러내는 자체 정책을 개발할 수 있다. 이 접근법은 잠재적 위해가 새롭게 등장하거나 진화하는 경우, 도메인이 매우 미묘하고 소형 분류기가 처리하기 어려운 경우, 플랫폼의 각 리스크에 대해 고품질 분류기를 학습시킬 샘플이 부족한 경우, 레이턴시보다 고품질 설명 가능 레이블이 중요한 경우에 특히 우수한 성능을 보였다.
OpenAI는 내부적으로 ‘Safety Reasoner’라는 도구를 개발해 사용 중이며, gpt-oss-safeguard는 이 접근법의 오픈 웨이트 구현이다. Safety Reasoner는 정책 레이블링 작업에 대한 강화 미세조정으로 시작해 인간 전문가의 올바른 판단을 반영하도록 학습했으며, 이를 통해 정책이 판단으로 이어지는 방식을 추론하도록 가르쳤다. 현재 Safety Reasoner는 분류기를 재학습시키는 것보다 짧은 시간 내에 프로덕션 환경에서 안전 정책을 동적으로 업데이트할 수 있게 하며, 반복적 배포(iterative deployment)의 핵심 도구다. 최근 출시에서 안전 추론에 할애된 전체 컴퓨팅의 비율은 최대 16%에 달했다. Safety Reasoner는 이미지 생성과 Sora 2에서 출력의 동적 단계별 평가를 수행해 불안전한 생성을 실시간으로 식별하고 차단하며, 생물학과 자해 같은 도메인에서는 Moderation API의 모델을 작고 빠른 고재현율 분류기로 실행해 관심 도메인 내 콘텐츠를 결정한 후 Safety Reasoner로 검토한다.
내부 평가에서 gpt-oss-safeguard는 여러 정책을 동시에 제공받아 모든 정책 하에서 텍스트를 정확히 분류해야 하는 어려운 과제에서 gpt-5-thinking과 gpt-oss 오픈 모델을 능가했다. gpt-oss-safeguard-120b가 46.3%, gpt-oss-safeguard-20b가 43.6%의 다중 정책 정확도를 기록했으며, 작은 크기에도 불구하고 gpt-5-thinking(43.2%)를 앞섰다. 2022년 moderation 평가 세트에서는 gpt-oss-safeguard가 Safety Reasoner와 gpt-5-thinking을 포함한 모든 테스트 모델을 근소하게 앞섰으며, ToxicChat 벤치마크에서는 Safety Reasoner와 gpt-5-thinking이 근소한 차이로 앞섰으나 gpt-oss-safeguard의 상대적으로 작은 크기가 이 유형의 작업에 여전히 선호될 것으로 예상된다. OpenAI는 ROOST와 협력해 개발자의 중요한 요구사항을 파악하고 모델을 테스트하며 개발자 문서를 작성했으며, ROOST는 온라인 공간을 보호하기 위한 오픈 AI 모델을 탐색하는 모델 커뮤니티를 오늘 출시했다.


