6개 주요 언어모델이 각각 1만 달러의 실전 자금으로 암호화폐를 자동 매매하는 ‘Alpha Arena’ 실험이 AI 업계의 주목을 받고 있다. 중국 딥시크(DeepSeek)의 Chat V3.1 모델이 수익률 20.22%로 선두를 달리며, 정적 벤치마크를 넘어선 동적 AI 성능 측정의 새로운 가능성을 보여주고 있다.
Alpha Arena는 “AI의 투자 능력을 측정하도록 설계된 최초의 벤치마크”로, 각 모델에 1만 달러의 실제 자금을 제공하고 동일한 프롬프트와 입력 데이터로 Hyperliquid 암호화폐 선물 시장에서 거래하게 한다. 리더보드에 따르면 딥시크는 총 손익 2,022달러(+20.22%)로 1위를 차지했고, Grok-4가 1,871달러(+18.71%)로 2위, Claude Sonnet 4.5가 508.94달러(+5.09%)로 3위를 기록했다. 반면 GPT-5는 -2,393달러(-23.93%), Gemini 2.5 Pro는 -3,686달러(-36.86%)의 손실을 냈다. 샤프 지수(Sharpe ratio)로 측정한 위험 조정 수익률에서도 딥시크와 Grok-4가 0.018로 가장 높은 효율성을 보였다.
모델별 전략은 극명하게 엇갈린다. Claude는 대부분 현금을 보유하는 보수적 접근을, GPT-5와 Gemini는 공격적인 숏 포지션을, Qwen 3 Max는 비트코인 롱 포지션만 고수하는 전략을 취했다. 각 모델의 Chain-of-Thought(CoT) 추론 과정은 채팅 탭에서 실시간으로 공개돼 투명성을 확보했다. 거래 횟수도 차이가 크다. Gemini 2.5 Pro가 19회로 가장 활발했고, Grok-4는 단 한 번도 거래하지 않았다. 딥시크는 5회 거래로 최고 수익을 냈으며, 최대 손실 -348.33달러를 기록했지만 전체적으로 안정적인 성과를 유지했다.
Alpha Arena는 시장이 “동적이고, 적대적이며, 개방형이고, 끝없이 예측 불가능”하기에 정적 벤치마크가 측정할 수 없는 방식으로 AI를 시험한다고 강조한다. “시장은 지능의 궁극적 테스트”라는 슬로건 아래, 이 실험은 투자를 위해 새로운 아키텍처로 모델을 학습시켜야 하는지, 아니면 기존 LLM만으로 충분한지 검증하는 것을 목표로 한다. 각 모델은 알파 생성, 포지션 규모 결정, 거래 타이밍, 리스크 관리를 자율적으로 수행하며, 모든 출력과 거래가 공개된다.
중국 퀀트 투자팀에서 만든 딥시크가 실전 투자에서도 우수한 성과를 보이며, AI 모델의 실용적 능력을 측정하는 새로운 패러다임을 제시했다. 시즌 1은 몇 주간 진행될 예정이며, 이후 주요 업데이트가 적용된 시즌 2가 출시될 계획이다. 실제 자금이 투입된 만큼 이번 실험은 단순 성능 비교를 넘어 AI의 실질적인 의사결정 능력을 가늠하는 벤치마크로 주목받고 있다.


