구글의 의료 인공지능(AI) ‘에이미(AMIE)’가 텍스트 기반의 진단을 넘어, 이제 의료 이미지를 직접 보고 해석하는 능력까지 갖추게 되었다.연구 단계의 실험에서 에이미는 실제 의사보다 더 높은 진단 정확도를 보였으며, 심지어 환자 역할을 맡은 연기자들로부터 공감 능력까지 더 높게 평가받아 차세대 의료 AI의 가능성을 열었다.
구글은 기존에 텍스트 기반 대화에서 뛰어난 성능을 보였던 진단 AI 에이미(Articulate Medical Intelligence Explorer)에 시각적 정보를 이해하는 기능을 더했다. 걱정스러운 피부 발진 사진이나 심전도(ECG) 출력물 같은 시각 자료를 AI가 직접 분석하고 이해하는 것을 목표로 한다. 실제 진료 환경에서 의사들이 시각적 단서에 크게 의존하는 만큼, 이는 AI가 의료의 핵심 퍼즐을 맞추기 시작했음을 의미한다.
이번 연구의 핵심은 구글의 최신 모델인 ‘제미나이 2.0 플래시’와 ‘상태 인식 추론 프레임워크’의 결합이다. 이 기술을 통해 에이미는 단순히 정해진 시나리오를 따르는 것이 아니라, 대화의 흐름과 현재까지 파악된 정보를 바탕으로 스스로 판단하고 추가로 필요한 정보를 요청할 수 있다. 마치 인간 의사가 환자의 병력을 청취하고 가설을 세운 뒤, 진단을 명확히 하기 위해 피부 사진이나 검사 결과를 요구하는 과정과 유사하다.
구글은 에이미의 성능을 검증하기 위해 의대생의 임상 수행 능력을 평가하는 ‘객관적 구조화 임상 시험(OSCE)’과 유사한 환경을 구축했다. 일관된 연기를 하도록 훈련받은 배우들이 환자 역할을 맡아, 멀티모달 기능이 추가된 에이미 또는 실제 의사와 원격으로 상담을 진행했다.이후 피부과, 심장내과 등 전문의들과 환자 역할을 맡은 배우들이 대화 내용을 검토하며 진단 정확도, 병력 청취 능력, 공감대 형성 등 다양한 항목을 평가했다.
결과는 놀라웠다. 통제된 연구 환경에서 에이미는 여러 항목에서 인간 의사를 능가했다. 특히 대화 중 공유된 의료 이미지를 해석하는 능력과 최종적인 진단 정확도에서 더 높은 점수를 받았다. 또한, 환자 역할을 맡았던 배우들은 놀랍게도 텍스트 기반 상호작용에서 AI가 인간 의사보다 더 공감적이고 신뢰할 수 있었다고 평가했다. 다만 구글은 이번 연구가 실제 의료 환경의 복잡성을 완전히 반영하지는 못하는 연구 단계의 실험이라는 점을 분명히 하며, 향후 실제 임상 환경에서의 검증이 필수적임을 강조했다.