spot_img

中 AI의 역습…’Kimi Dev’ 코딩 모델, GPT-4.1 성능 뛰어넘어

중국 Moonshot AI가 오픈소스 코딩 모델 ‘Kimi Dev 72B’를 공개하며 소프트웨어 엔지니어링 분야의 판도를 바꾸고 있다. 실제 코드 저장소를 직접 수정하는 독특한 강화학습 방식으로 오픈소스 모델 중 최고 성능을 달성했다.


본문

중국 AI 기업의 약진이 거세다. 100만 토큰 컨텍스트를 지원하는 MiniMax-M1 모델에 이어, 이번에는 소프트웨어 개발에 특화된 오픈소스 거대언어모델(LLM)이 등장하며 전 세계 개발자들의 이목을 집중시키고 있다. 화제의 중심에는 중국의 스타트업 ‘Moonshot AI’가 공개한 코딩 모델 ‘Kimi Dev 72B’가 있다.

Kimi Dev 72B는 공개와 동시에 소프트웨어 엔지니어링 능력 평가 벤치마크인 ‘SWE-bench Verified’에서 60.4%의 해결률을 기록, 기존의 모든 오픈소스 모델을 뛰어넘고 최고 자리에 올랐다. 이 수치는 구글의 최신 모델인 제미나이 1.5 프로(Gemini 1.5 Pro) 바로 뒤를 잇는 성능이며, 오픈AI의 강력한 모델인 GPT-4.1보다도 우수한 결과다.

이러한 고성능의 비결은 독특하고 실전적인 강화학습 방식에 있다. Kimi Dev는 실제 코드 저장소를 직접 수정하고 버그를 해결하도록 설계되었다. 특히 도커(Docker) 환경 내에서 실제와 같은 개발 환경을 구축하고, 주어진 과제를 해결하며 모든 테스트를 성공적으로 통과했을 때만 보상을 받는 엄격한 방식으로 학습이 진행되었다.

모델의 학습 과정은 ‘버그 해결사(BugFixer)’와 ‘테스트 작성자(TestWriter)’라는 두 가지 핵심적인 역할을 동시에 학습하는 것이 특징이다. 이 두 역할은 서로 유기적으로 상호작용하는 ‘자가 플레이(self-play)’ 방식으로 작동한다. 버그가 발생하면 BugFixer가 코드를 수정하고, TestWriter는 수정된 코드가 정상적으로 작동하는지 검증하는 테스트 코드를 작성하는 과정을 반복하며 모델의 문제 해결 능력을 극대화했다.

Moonshot AI 연구팀은 이 과정을 통해 강화학습의 규모를 확장할수록 모델의 성능이 뚜렷하게 향상되는 효과를 확인했다고 밝혔다. 이는 단순히 방대한 데이터를 학습하는 것을 넘어, 실제 개발 현장과 유사한 환경에서 상호작용하며 실전 능력을 키운 것이 성능 향상의 핵심이었음을 시사한다.

Kimi Dev 72B 모델은 현재 개발자 커뮤니티인 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 오픈 웨이트(가중치 공개) 방식으로 제공되고 있다. 이로써 전 세계 모든 개발자가 자유롭게 모델을 활용하고 성능을 검증할 수 있게 되었다.

중국발 고성능 오픈소스 모델의 연이은 등장은 AI 개발 경쟁이 새로운 국면에 접어들었음을 알리는 신호탄이다. 특히 코딩 LLM 분야에서 Kimi Dev의 등장은 오픈소스 진영의 기술력을 한 단계 끌어올리며 향후 기술 생태계에 큰 변화를 가져올 것으로 전망된다.


박민서
박민서
사회부 기자 박민서입니다. 인간적 관점에서 사회 현상을 깊이 있게 다루겠습니다

LEAVE A REPLY

Please enter your comment!
Please enter your name here

많이 본 뉴스

- Advertisment -
Google search engine