기존 모델의 배경 훼손 문제 해결… 마스크 기술로 편집 영역과 보존 영역 분리해 정교함 높여
본문
중국 홍콩중문대(CUHK)와 인공지능 기업 센스타임(SenseTime) 공동 연구팀이 비디오 편집의 새로운 지평을 여는 AI 모델 ‘LoRA-Edit’를 공개했다. 이 모델은 영상의 첫 프레임만 편집해도 전체 영상에 일관된 변화를 적용하는 동시에, 배경은 원본 그대로 보존하는 획기적인 기술을 선보인다.
기존의 AI 영상 편집 기술은 첫 프레임을 기반으로 변경 사항을 적용할 때 여러 한계에 부딪혔다. 편집 내용이 영상 후반부로 갈수록 점차 사라지거나, 원본 영상의 배경까지 의도치 않게 왜곡되는 문제가 빈번하게 발생하여 자연스러운 결과물을 얻기 어려웠다.
LoRA-Edit는 이러한 한계를 ‘마스크(Mask)’ 정보를 활용해 극복한다. 사용자가 지정한 마스크를 통해 편집이 필요한 영역과 보존해야 할 배경 영역을 명확히 분리한다. 이를 통해 모델은 변경해야 할 부분에만 정확하게 스타일을 적용하고, 나머지 배경은 손상 없이 그대로 유지하여 영상의 전체적인 안정성과 일관성을 확보한다.
이 모델의 핵심에는 LoRA(Low-Rank Adaptation, 저랭크 적응) 기술이 자리 잡고 있다. LoRA는 거대한 AI 모델의 전체를 재학습시킬 필요 없이, 일부 매개변수만 미세 조정하여 새로운 작업을 효율적으로 수행하게 하는 기법이다. LoRA-Edit는 이 기술을 활용해 복잡한 구조 변경 없이도 유연하고 빠른 영상 편집을 가능하게 만들었다.
LoRA-Edit의 또 다른 강점은 편집의 정교함을 높이는 제어 능력에 있다. 단순히 첫 번째 프레임만이 아닌, 사용자가 추가로 제공하는 참조 프레임을 활용할 수 있다. 이를 통해 시간에 따라 변화하는 객체의 움직임이나 복잡한 스타일을 더욱 정밀하고 세밀하게 영상 전체에 반영하는 것이 가능하다.
모델의 작동 방식은 세 가지 핵심 정보를 종합하는 과정으로 요약할 수 있다. 먼저, 입력된 원본 영상에서 객체의 구조와 움직임 정보를 학습한다. 다음으로, 사용자가 제공한 참조 이미지(프레임)에서 적용하고자 하는 스타일 정보를 받아들인다. 마지막으로, 마스크를 통해 어느 영역에 어떤 정보를 반영할지 결정하여 최종 결과물을 생성한다.
결론적으로 LoRA-Edit는 영상의 내용과 스타일, 보존 영역을 명확히 구분하고 효율적으로 제어함으로써 기존 AI 영상 편집의 난제를 해결한 중요한 성과로 평가받는다. 이 기술은 향후 영화, 광고, 개인 콘텐츠 제작 등 다양한 분야에서 시각적 표현의 자유도를 한 단계 끌어올릴 핵심 기술이 될 것으로 기대된다.