spot_img

“중국발 AI 쇼크”…Moonshot AI, 오픈소스 추론 모델로 GPT-5 넘었다

“중국발 AI 쇼크”…Moonshot AI, 오픈소스 추론 모델로 GPT-5 넘었다

Slug: moonshot-ai-kimi-k2-thinking-beats-gpt5

중국 AI 스타트업 Moonshot AI가 오픈소스 추론 모델 ‘Kimi K2 Thinking’을 공개하며 글로벌 AI 업계에 충격을 안겼다. 이 모델은 HLE(Humanity’s Last Exam) 44.9%, BrowseComp 60.2%, SWE-Bench Verified 71.3%, LiveCodeBench V6 83.1% 등 핵심 벤치마크에서 GPT-5, Claude 4.5, Grok-4를 능가하거나 동급 성능을 기록했다. 특히 오픈소스 모델로는 이례적으로 최대 200~300단계의 순차적 도구 호출을 자율적으로 수행하며 복잡한 문제를 해결할 수 있다는 점에서 주목받고 있다. 현재 kimi.com에서 채팅 모드로 사용 가능하며, 완전한 에이전트 모드와 API도 곧 공개될 예정이다.

Kimi K2 Thinking의 가장 큰 특징은 ‘추론하는 에이전트(thinking agent)’로 설계됐다는 점이다. 단순히 질문에 답하는 수준을 넘어 단계별로 사고하면서 검색, 코드 실행, 웹 브라우징 등 다양한 도구를 자율적으로 활용한다. 예를 들어 박사급 수학 문제를 풀 때 23단계의 추론과 도구 호출을 교차 실행하며 정답을 도출했다. 국내 대학 최초로 Microsoft Azure 기반 생성형 AI 플랫폼을 구축한 것과 유사하게, Kimi K2는 GPT-5를 포함한 여러 모델을 하이브리드로 연동해 복잡한 질의에는 고성능 모델을, 단순 질의에는 경량 모델을 사용하는 최적화 전략을 구사한다.

코딩 능력에서도 압도적인 성과를 보였다. SWE-Multilingual 61.1%, SWE-Bench Verified 71.3%, Terminal-Bench 47.1%를 기록하며 다양한 프로그래밍 언어와 에이전트 환경에서 강력한 범용성을 입증했다. 특히 HTML, React 등 프론트엔드 작업에서 두드러진 개선을 보이며, 단일 프롬프트만으로 완전히 작동하는 반응형 웹 애플리케이션을 생성할 수 있다. 실제 데모에서는 워드 프로세서 클론, 컴포넌트 중심 웹사이트 등을 단 한 번의 명령으로 구현했다. 멀티스텝 개발 워크플로우를 정밀하고 유연하게 실행하는 능력은 소프트웨어 에이전트 시대를 앞당길 것으로 예상된다.

검색과 브라우징 능력도 눈에 띈다. 실제 웹 정보를 지속적으로 검색하고 추론하는 BrowseComp 벤치마크에서 60.2%를 기록해 인간 기준치 29.2%를 두 배 이상 초과했다. ‘생각 → 검색 → 브라우저 사용 → 생각 → 코드’ 사이클을 200300회 반복하며 가설을 생성·검증하고 증거를 수집해 답변을 구성한다. 한 예시에서는 “18601890년 사이 설립된 대학 출신으로, 대학 운동선수였다가 NFL에 잠깐 뛰었고, 2010~2020년 사이 외계인 침공 SF 영화에 출연했으며…” 등 복잡한 단서를 조합해 인물과 영화 속 캐릭터 이름까지 정확히 찾아냈다.

가격 경쟁력까지 갖췄다는 점이 더욱 충격적이다. Kimi K2 Thinking API의 가격은 GPT-5 대비 10분의 1, Claude 대비 20분의 1 수준으로 알려졌다. 오픈소스로 공개돼 누구나 활용할 수 있다는 점까지 고려하면, 미국 빅테크 중심의 AI 생태계에 근본적인 변화를 예고한다. 특히 중국이 미국의 칩 수출 규제 속에서도 이 같은 성과를 냈다는 점은 AI 기술 패권 경쟁의 새로운 국면을 시사한다. 업계에서는 “중국 AI가 단순 추격을 넘어 일부 영역에서 선도하기 시작했다”는 평가가 나오고 있다.

LEAVE A REPLY

Please enter your comment!
Please enter your name here

많이 본 뉴스

- Advertisment -
Google search engine