보안기업 테너블(Tenable) 연구진이 오픈AI의 챗GPT에서 사용자의 민감정보를 유출할 수 있는 7가지 공격 기법을 공개했다. 6일 테너블에 따르면 이번에 보고된 취약점은 GPT-4o와 GPT-5 모델을 대상으로 발견됐으며, 공격자가 악용할 경우 사용자의 메모리와 대화 기록 같은 민감한 정보를 무단으로 탈취할 수 있다. 오픈AI는 일부 취약점에 대한 수정 조치를 완료했지만, 테너블은 “LLM 자체의 구조적 특성상 프롬프트 인젝션 문제를 완전히 차단하기는 어렵다”고 경고했다. 이번 발견은 AI 에이전트 기능이 확대되면서 공격 표면이 급격히 넓어지고 있음을 보여준다.
테너블이 공개한 7가지 공격 기법은 챗GPT가 외부 웹 콘텐츠를 분석하거나 요약하는 과정에서 악성 명령을 실행할 수 있는 간접 프롬프트 인젝션 취약점에 초점을 맞췄다. 첫째, 브라우징 컨텍스트 취약점은 웹페이지 댓글이나 코드 블록에 숨겨진 악성 명령을 요약 요청 시 챗봇이 실행하도록 유도한다. 둘째, 검색 컨텍스트 제로클릭 공격은 사용자가 특정 사이트를 자연어로 묻는 것만으로도 검색엔진에 인덱싱된 악성 지시문이 챗GPT로 유입돼 실행될 수 있다. 셋째, 원클릭 인젝션은 ‘chatgpt.com/?q={Prompt}’ 형태의 링크를 통해 클릭 시 자동으로 명령을 실행한다.
나머지 공격 기법도 다양한 방식으로 보안을 우회한다. 넷째, 안전 메커니즘 우회는 ‘bing.com’을 이용해 광고 추적 링크를 위장하고 악성 URL을 대화창에 노출시킨다. 다섯째, 대화 인젝션은 악성 지시문이 포함된 웹페이지를 요약하게 만든 뒤 그 결과가 이후 대화 맥락에 포함돼 챗봇의 답변을 왜곡시킨다. 여섯째, 악성 콘텐츠 은닉은 마크다운 코드 블록 처리 방식의 버그를 이용해 사용자가 보지 못하도록 악성 명령을 숨긴다. 마지막으로 메모리 인젝션은 챗GPT의 메모리 기능을 조작해 숨겨진 명령이 장기적으로 기억에 남도록 만든다. 테너블은 오픈AI가 일부 취약점을 패치했으나 메모리 인젝션 등은 아직 완전히 해결되지 않았다고 지적했다.
이번 문제는 챗GPT에만 국한되지 않는다. 보안업계에 따르면 앤트로픽의 클로드, 마이크로소프트 365 코파일럿, 깃허브 코파일럿 챗 등 다양한 생성형 AI 서비스에서도 유사한 공격 사례가 보고됐다. ‘프롬프트재킹’으로 불리는 공격은 클로드의 크롬, 아이메시지, 애플 노트 확장 기능에서 원격 코드 실행 취약점을 악용했고, ‘클로드 파이럿’ 공격은 파일 API를 통해 데이터 유출을 시도했다. 깃허브 코파일럿 챗에서는 CVSS 9.6점으로 평가된 ‘카모리크’ 취약점이 발견돼 PR 주석에 숨겨진 악성 명령으로 개인 저장소의 소스코드와 비밀 키를 유출할 수 있었다. 앤트로픽과 영국 AI 보안연구소, 앨런 튜링 연구소 공동연구팀은 불과 250개의 악성 문서만으로도 LLM을 백도어화할 수 있다고 경고했다.
전문가들은 AI 에이전트 보안의 핵심이 입력 검증보다 ‘맥락 관리’로 이동했다고 지적한다. 한 보안 전문가는 “챗GPT 같은 생성형 AI는 사용자의 질문뿐 아니라 웹 콘텐츠, 검색 결과, 코드 블록, 이미지 등 다양한 외부 데이터를 ‘맥락’으로 함께 처리하기 때문에, 이 맥락 안에 악성 명령이 숨어 있으면 이를 코드처럼 실행하게 된다”며 “맥락 검증이 핵심 과제가 됐다”고 말했다. 테너블은 “프롬프트 인젝션은 LLM의 근본적인 설계 구조에서 비롯된 문제로 단기적으로 완벽히 해결되기 어렵다”며 “AI 공급업체들은 URL 안전성 검증 등 안전 메커니즘이 제대로 작동하는지 반드시 점검해야 한다”고 강조했다. 기업 내부에서 챗GPT API나 LLM 기반 서비스를 사용하는 경우, 메모리 기능과 외부 브라우징 기능의 활성화 여부, URL 파라미터 처리 방식, 데이터 유출 감시체계 등을 점검해야 한다는 조언이다.


