구글이 이미지 생성 AI에 사용되던 ‘확산(diffusion)’ 기술을 언어모델에 접목한 ‘제미나이 디퓨전(Gemini Diffusion)’을 공개하며, 차세대 AI 기술 경쟁의 새로운 막을 올렸다. 기존 대형언어모델(LLM)이 단어를 순차적으로 생성하는 ‘자기회귀(autoregressive)’ 방식의 한계로 지적된 속도와 정확성 문제를 동시에 해결할 대안으로 주목받고 있다. 구글 딥마인드가 발표한 이 실험적 모델은 AI 언어 기술의 패러다임을 바꿀 잠재력을 가진 것으로 평가된다.
제미나이 디퓨전의 가장 큰 혁신은 압도적인 생성 속도에 있다. 기존의 챗GPT나 제미나이와 같은 자기회귀 모델은 단어(토큰)를 하나씩 예측해 문장을 완성하는 방식으로, 문맥 파악 능력은 뛰어나지만 속도가 느리고 연산 비용이 많이 든다. 반면, 제미나이 디퓨전은 무작위 노이즈 상태에서 시작해 점차 의미 있는 문장으로 다듬어가는 ‘정제(denoise)’ 방식을 사용한다. 이 과정에서 텍스트 블록을 병렬로 처리할 수 있어, 초당 1000~2000개의 토큰을 생성하는 것이 가능하다.이는 제미나이 1.5 플래시 모델보다 최대 7배 이상 빠른 속도다.
속도뿐만 아니라 정확성과 효율성 측면에서도 진일보했다는 평가다. 제미나이 디퓨전은 생성 과정에서 발생하는 오류를 후속 단계에서 스스로 수정하는 ‘자기 정제(Self-correction)’ 구조를 통해 환각 현상을 줄이고 결과의 일관성을 높인다.또한, 과제의 난이도에 따라 계산량을 조절하는 ‘적응적 계산’ 능력과 문장의 앞뒤 문맥을 동시에 고려하는 ‘비인과적 추론’ 능력으로 더 효율적이고 정교한 결과물을 생성한다.
이러한 성능은 독특한 학습 방식에서 비롯된다. 확산 모델의 학습은 두 단계로 이루어진다. 먼저, 원본 문장에 점진적으로 노이즈를 추가해 완전히 무작위 상태로 만드는 ‘순방향 확산’ 과정을 거친다. 이후, 노이즈가 낀 데이터에서 원래의 문장을 복원하도록 훈련하는 ‘역방향 확산’을 통해 모델은 문장 구조와 의미를 재구성하는 능력을 학습하게 된다. 이 과정을 수많은 데이터로 반복하며, 어떤 조건이 주어져도 의도에 맞는 문장을 생성하는 능력을 갖추게 되는 것이다.
구글의 벤치마크 결과에 따르면, 제미나이 디퓨전은 ‘제미나이 1.5 플래시-라이트’ 모델과 비슷하거나 코딩, 수학 같은 특정 영역에서는 더 뛰어난 성능을 보였다.특히 모델 크기가 작을 때, 기존 방식과 성능 차이는 미미하면서도 속도와 비용 효율성에서 압도적인 우위를 점해 전반적으로 더 유리하다는 것이 구글의 설명이다. 딥마인드는 향후 제미나이 디퓨전을 본격적으로 확장할 계획이며, 현재 랩스 프로그램을 통해 실험 버전 대기자 신청을 받고 있다.