OpenAI가 차세대 동영상·오디오 생성 모델 Sora 2를 공식 출시했다. 2024년 2월 첫 Sora 모델이 ‘동영상계의 GPT-1’이었다면, Sora 2는 ‘GPT-3.5급 도약’을 이뤘다는 평가다. 물리 법칙을 더욱 정확히 따르는 세계 시뮬레이션 능력과 동기화된 대화·음향 효과, 향상된 조작성이 핵심이다.
가장 주목할 만한 개선은 물리적 정확성이다. 이전 모델들이 프롬프트 실행을 위해 현실을 왜곡했다면(예: 농구공이 골대로 순간이동), Sora 2는 실패도 현실적으로 모델링한다. 올림픽 체조 루틴, 패들보드 위 백플립 시 부력과 강성의 역학, 고양이를 머리에 올린 채 트리플 악셀을 도는 피겨 스케이터 등 이전 모델로는 불가능했던 복잡한 물리 현상을 구현한다. OpenAI는 “모델의 ‘실수’조차 내부 에이전트의 실수로 보이며, 성공뿐 아니라 실패도 모델링할 수 있어야 유용한 세계 시뮬레이터”라고 설명했다. 조작성도 크게 향상돼 멀티샷 복잡한 지침을 따르면서도 현실적·시네마틱·애니메이션 스타일을 정교하게 구현한다.
범용 동영상-오디오 생성 시스템으로서 Sora 2는 사실적인 배경음, 음성, 음향 효과를 생성하며, 실제 인물의 외모와 음성을 학습해 생성 환경에 삽입하는 ‘카메오(Cameo)’ 기능도 제공한다. 이는 인간, 동물, 사물 모두에 작동하는 범용 기능이다. 한편 웹과 앱 모두에서 Pro 사용자는 최대 25초(일반 사용자 15초) 길이의 영상을 생성할 수 있게 됐으며, 스토리보드 기능도 웹에서 이용 가능해졌다. 짧은 영상으로 시나리오를 실험하거나 장면 전환을 구현하기가 한층 용이해진 셈이다.
OpenAI는 Sora 2와 함께 소셜 iOS 앱 ‘Sora’를 동시 출시했다. 사용자는 앱에서 동영상을 생성하고, 타인의 결과물을 리믹스하며, 맞춤형 피드에서 콘텐츠를 발견하고, 카메오를 통해 자신이나 친구를 장면에 삽입할 수 있다. 무한 스크롤과 중독성에 대한 우려에 대응해 OpenAI는 자연어로 지침을 받는 추천 알고리즘, 주기적인 웰빙 체크인, 창작 중심 설계(소비 시간 최적화 배제), 10대 청소년 대상 콘텐츠 한도 및 엄격한 카메오 권한, ChatGPT 자녀 보호 기능 등을 도입했다. 카메오는 사용자만이 자신의 유사성을 관리하며 언제든 액세스를 철회할 수 있다.
Sora 2는 미국과 캐나다에서 초대 기반으로 롤아웃을 시작했으며, iOS 앱과 sora.com을 통해 접근 가능하다. 초기에는 넉넉한 한도로 무료 사용이 가능하나 컴퓨팅 제약에 따라 달라질 수 있으며, ChatGPT Pro 사용자는 고품질 Sora 2 Pro 모델을 이용할 수 있다. API 출시도 예정돼 있다. OpenAI는 “동영상 모델이 빠르게 발전하며 범용 세계 시뮬레이터와 로보틱 에이전트가 사회를 근본적으로 바꿀 것”이라며 “Sora 2는 그 목표로의 의미 있는 진전”이라고 밝혔다.


