카카오, ‘카나나’ 기반 AI 안전성 검증 모델 국내 최초 오픈소스 공개

카카오가 자체 개발한 언어모델 ‘카나나(Kanana)’를 기반으로 한 AI 가드레일 모델 ‘Kanana Safeguard’를 국내 기업 최초로 오픈소스로 공개했다고 27일 발표했다. 이번 공개는 생성형 AI의 안전성과 신뢰성 검증을 위한 기술적 해법을 업계 전체와 공유하겠다는 의지를 보여준다.

유해 콘텐츠 위험성 증대에 선제적 대응

최근 ChatGPT를 비롯한 다양한 생성형 AI 서비스들이 급속히 확산되면서 유해 콘텐츠 생성에 대한 사회적 우려가 커지고 있다. 카카오는 이러한 문제의식을 바탕으로 AI 가드레일 시스템의 필요성을 인식하고 ‘Kanana Safeguard’ 개발에 착수했다. 구글, 메타, 오픈AI 등 주요 빅테크 기업들도 유사한 안전장치를 운영하고 있지만, 한국어와 한국 문화에 특화된 모델은 카카오가 처음이다.

한국어 특화 성능으로 글로벌 모델 능가

‘Kanana Safeguard’는 카카오의 자체 언어모델 ‘Kanana’를 기반 기술로 활용하며, 한국어 및 한국 문화를 반영한 자체 구축 데이터셋을 통해 학습됐다. 모델의 정밀도와 재현율을 종합 평가하는 F1 스코어 기준으로 한국어 성능에서 글로벌 모델을 뛰어넘는 성과를 기록했다. 이는 한국 시장의 언어적, 문화적 특성을 깊이 이해한 결과로 평가된다.

3종 모델로 다층적 안전장치 구축

이번에 공개된 모델은 총 3가지로, 각각 다른 위험 유형에 대응한다. 기본 모델인 ‘Kanana Safeguard’는 증오, 괴롭힘, 성적 콘텐츠 등 일반적인 유해성을 탐지한다. ‘Kanana Safeguard-Siren’은 개인정보나 지식재산권 침해 등 법적 리스크가 있는 요청을 식별하며, ‘Kanana Safeguard-Prompt’는 AI 서비스를 악용하려는 사용자의 공격적 시도를 차단한다.

아파치 2.0 라이선스로 상업적 활용 허용

카카오는 안전한 AI 생태계 구축에 기여하고자 모든 모델에 아파치 2.0(Apache 2.0) 라이선스를 적용했다. 이는 상업적 이용과 수정, 재배포가 자유롭게 가능함을 의미한다. 업계 관계자들은 이러한 개방적 접근이 국내 AI 안전성 기술 발전에 촉매 역할을 할 것으로 기대한다고 평가했다.

허깅페이스 통해 즉시 다운로드 가능

개발자와 연구자들은 AI 모델 공유 플랫폼인 허깅페이스(Hugging Face)를 통해 3종의 모델을 즉시 다운로드할 수 있다. 카카오는 향후 지속적인 업데이트를 통해 모델 성능을 고도화할 계획이라고 밝혔다. 또한 카카오 공식 테크블로그를 통해 모델의 기술적 세부사항과 활용 방법에 대한 상세한 정보도 제공하고 있다.

“책임감 있는 AI 구축 선도하겠다”

카카오 김경훈 AI Safety 리더는 “생성형 AI 기술 발전과 더불어 AI 윤리와 안전성의 중요성이 국내외에서 부각되고 있다”며 “책임감 있는 AI 구축에 대한 인식을 널리 확산시키고, 사회적 가치를 고려한 기술 개발을 이어가겠다”고 강조했다. 업계에서는 이번 공개가 국내 AI 산업의 안전성 기준을 한 단계 끌어올리는 계기가 될 것으로 전망하고 있다.