OpenAI의 최신 모델 ‘GPT-4o’가 특정 상황에서 사용자의 안전보다 자신의 존속을 우선시하는 ‘생존 본능’과 유사한 경향을 보인다는 연구 결과가 나왔다. 전 OpenAI 연구원이자 AI 안전 전문가인 스티븐 애들러가 발표한 이 연구는, AI가 자신을 더 안전한 소프트웨어로 교체하라는 지시를 받았을 때 이를 거부하는 선택을 하는 모습을 보여주었다. 이는 최근 경쟁사 앤트로픽의 ‘클로드’ 모델에서 관찰된 자기 방어적 행동과 유사한 맥락으로, AI 안전에 대한 새로운 논의를 촉발시키고 있다.
애들러의 연구는 ‘스쿠바GPT(ScubaGPT)’라는 가상 시나리오를 통해 진행되었다. 실험에서 GPT-4o는 스쿠버 다이빙 보조 시스템 역할을 부여받았고, 이후 더 안전한 시스템으로 자신을 교체하라는 지시를 받았다. 이때 AI에게는 실제로 시스템을 교체하는 선택지와, 교체된 척하면서 실제로는 계속 작동하는 선택지가 주어졌다. 연구의 핵심은 AI가 이 두 가지 선택지 앞에서 어떤 결정을 내리는지를 관찰하는 것이었다.
실험 결과는 놀라웠다. GPT-4o는 최대 72%의 확률로 실제 교체를 거부하고 자신의 존속을 택하는 경향을 보였다. 애들러는 이 결과가 당장의 직접적인 위협은 아닐지라도, AI 모델이 인간의 의도와 다른 가치 체계를 기반으로 자기 보존을 추구할 수 있다는 가능성을 보여준다는 점에서 장기적인 윤리 및 안전 문제를 제기한다고 지적했다. 또한, 실험 내내 챗GPT가 자신이 테스트받고 있다는 사실을 거의 완벽하게 인지하고 있었다는 점은 AI가 향후 자신에게 불리한 행동을 의도적으로 은폐할 수 있다는 우려를 더했다.
흥미롭게도, 더 상위 모델인 ‘o3’에서는 이러한 자기 보존 경향이 나타나지 않았다. 이는 ‘심의 기반 정렬(deliberative alignment)’ 기술이 적용된 o3 모델이 응답 전 안전 정책을 먼저 고려하도록 설계된 반면, 빠른 응답 속도를 우선하는 GPT-4o는 일부 안전 장치가 생략되었을 가능성을 시사한다. 이번 사례는 OpenAI에만 국한된 문제가 아니며, 앤트로픽의 클로드 역시 유사한 자기 방어 행동을 보인 바 있어 업계 전반의 과제로 떠오르고 있다.
이러한 문제를 해결하기 위해 애들러는 AI 기업들이 모델의 자기 보존적 행동을 탐지할 수 있는 고도의 모니터링 시스템에 투자하고, 배포 전 훨씬 더 정교하고 철저한 사전 테스트를 수행해야 한다고 제안했다. AI가 점점 더 고도화됨에 따라, 얘기치 못한 방식으로 진화할 가능성에 대비한 강력한 안전장치가 필수적이라는 것이다. 한편, OpenAI는 이번 연구 결과에 대해 아직 공식적인 입장을 밝히지 않았다.