spot_img

딥시크, 혁신적 OCR 모델 공개…시각 정보 10배 압축하며 97% 정확도 유지

딥시크(DeepSeek)가 시각 정보를 토큰 수준으로 효율화하는 새로운 OCR 모델 ‘DeepSeek-OCR’을 공개했다. 단순 문자 인식을 넘어 시각 정보를 LLM이 사용 가능한 압축된 ‘비전 토큰(vision tokens)’으로 변환하는 혁신적 컨텍스트 메모리 기술로, 이미지 정보를 10배 이상 압축하면서도 97%의 정확도를 유지하며, 최대 20배 압축 시에도 약 60% 정확도를 보인다.

핵심은 문자 인식이 아닌 시각 정보의 토큰화다. LLM에서 토큰 수는 곧 비용인데, 화면이나 문서를 이미지로 렌더링한 후 비전 토큰으로 변환하면 100200개 토큰 정도로 저장할 수 있다. 페이지가 수십수백 개 토큰으로 압축되기 때문에 LLM 내 토큰 비용이 획기적으로 절감된다. 이 방식은 문서, 화면, 로봇 시각 정보를 10배 이상 압축하면서도 높은 정확도로 복원할 수 있어, 대화 기록 저장, 멀티모달 기억 시스템, 실시간 로봇 에이전트 등으로 확장 가능한 전략적 기반 기술로 평가받는다.

처리 성능도 압도적이다. A100 40GB GPU 한 장으로 하루 20만 페이지 이상 처리할 수 있으며, 20개 노드로는 하루 3,300만 페이지까지 생성 가능하다. Transformer, vLLM 등 다양한 프레임워크와 호환되며, DeepSeek VL2와 동일한 구조를 사용한다. 이는 대규모 문서 처리가 필요한 기업 환경이나 연구 기관에서 실질적인 활용 가능성을 크게 높인다.

가장 주목할 만한 점은 미래 AI 시스템 구조에 미칠 영향이다. 대화 이력이나 로봇의 시각 경험을 텍스트가 아닌 ‘압축된 이미지 메모리’로 저장하는 ‘Optical Context Memory’ 구조가 가능해진다. 예를 들어 컴퓨터 화면을 보고 작업하는 AI 에이전트가 지금까지는 화면 내용을 전부 텍스트로 변환해 기억해야 했다면, 이제는 화면 자체를 압축된 시각 토큰으로 저장해 즉시 다음 행동에 활용할 수 있다. 화면 기반 AI 에이전트나 로봇 비전 시스템에서 효율성이 극대화되는 셈이다.

DeepSeek-OCR은 단순 OCR 모델을 넘어 LLM의 메모리 구조 자체를 혁신할 가능성을 제시한다. 시각 정보를 효율적으로 압축·저장·복원하는 이 기술은 멀티모달 AI의 토큰 경제성을 근본적으로 바꾸고, 장기 기억을 요구하는 에이전트 시스템이나 로보틱스 분야에서 핵심 인프라로 자리잡을 전망이다. 딥시크는 이번 발표로 다시 한번 AI 업계에 기술적 충격을 안겼다는 평가를 받고 있다.

김지훈
김지훈
AI 섹션 전문 기자 김지훈입니다. 인공지능과 머신러닝에 대한 기술적 내용을 쉽게 설명하면서도 전문성을 유지하는 글을 추구합니다.

LEAVE A REPLY

Please enter your comment!
Please enter your name here

많이 본 뉴스

- Advertisment -
Google search engine