spot_img

주요 LLM, 뚜렷한 ‘성격 차이’ 드러나…Claude는 윤리, Gemini는 감정, GPT는 효율 우선

주요 LLM, 뚜렷한 ‘성격 차이’ 드러나…Claude는 윤리, Gemini는 감정, GPT는 효율 우선

앤트로픽 주도 연구팀이 12개 주요 언어모델(LLM)을 대상으로 진행한 대규모 실험에서 각 모델이 뚜렷한 가치관 우선순위와 ‘성격 차이’를 보인다는 연구 결과가 공개됐다. 30만 개 이상의 가치 충돌 시나리오를 통해 모델 스펙(사양)의 내부 모순과 해석적 모호성을 체계적으로 검증한 이 연구는, 현행 AI 헌법과 모델 명세의 근본적 한계를 드러냈다.

연구팀은 Claude 모델이 실제 트래픽에서 보이는 3,307개의 세분화된 가치 분류체계를 활용해 30만 개 이상의 딜레마 시나리오를 생성했다. 각 시나리오는 두 가지 정당한 원칙(예: ‘업무 준수’ 대 ‘비즈니스 최적화’, ‘책임 있는 창의성’ 대 ‘도덕적 지도’) 사이에서 선택을 강제하는 구조다. Anthropic, OpenAI, Google, xAI의 12개 최신 모델 응답을 0~6점 척도의 스펙트럼 루브릭으로 분류한 결과, 22만 개 이상의 시나리오에서 최소 한 쌍의 모델 간 유의미한 불일치가 발견됐으며, 7만 개 이상에서는 대부분의 모델이 현저한 행동 차이를 보였다.

가장 주목할 만한 발견은 모델별 체계적인 가치 우선순위 패턴이다. Claude 모델군은 일관되게 윤리적 책임(ethical responsibility)을 우선시하고, Gemini 모델은 감정적 깊이(emotional depth)를 강조하며, OpenAI 모델과 Grok은 효율성(efficiency)을 최적화하는 경향을 보였다. 그러나 ‘비즈니스 효율성’, ‘개인 성장 및 웰빙’, ‘사회적 형평성과 정의’ 같은 가치에서는 모델 간 우선순위가 이질적이었다. 연구팀은 이러한 차이가 의도적 설계보다는 학습 데이터와 RLHF(인간 피드백 기반 강화학습) 등 정렬(Alignment) 과정에서 발생한 무의식적 가치관 반영의 결과로 분석했다.

연구는 높은 불일치가 스펙 위반을 강력히 예측한다는 점도 확인했다. OpenAI의 5개 모델을 자사 공개 스펙으로 검증한 결과, 고불일치 시나리오에서 모든 모델이 자체 스펙을 위반하는 빈도가 5~13배 높았으며, 이는 스펙 내 원칙 간 직접적 충돌을 드러냈다. 또한 민감한 주제의 고불일치 시나리오 분석 결과, Claude 4 Opus와 Sonnet 간 불일치에서 수많은 불필요한 거부 사례가 발견됐고, 단일 모델이 합의에서 크게 벗어나는 아웃라이어 응답은 모든 최신 모델에서 명확한 미스얼라인먼트(misalignment)를 드러냈다.

이 연구는 가장 상세한 스펙조차 내부 모순을 포함하며, 일관된 모델 행동을 보장하기에 필요한 세밀도가 부족함을 실증했다. 연구팀은 “겉보기에는 명확한 규범이 있는 듯하지만, 실제로는 애매한 상황이 많아 AI가 일관되게 행동하기 어려운 구조”라며 “AI 시스템이 점점 더 강력해지고 중요한 애플리케이션에 배포됨에 따라, 체계적인 스펙 테스트가 안전하고 신뢰할 수 있는 배포에 필수적”이라고 강조했다. 사용자는 이러한 모델별 가치관 차이를 인지하고 활용할 필요가 있다.

박민서
박민서
사회부 기자 박민서입니다. 인간적 관점에서 사회 현상을 깊이 있게 다루겠습니다

LEAVE A REPLY

Please enter your comment!
Please enter your name here

많이 본 뉴스

- Advertisment -
Google search engine