하버드 의대·베스 이스라엘, 응급실 진단서 OpenAI o1이 의사 능가… 트리아지 정확도 67% vs 55·50%, Science 게재
하버드 의과대학과 베스 이스라엘 디코니스 메디컬센터(BIDMC) 연구진이 대형 언어 모델의 의료 활용 성능을 다룬 새 연구를 이번 주 학술지 Science에 발표했다. 연구진은 응급실 실제 사례를 포함한 다양한 의료 맥락에서 LLM 성능을 측정했고, 적어도 한 모델은 인간 의사보다 더 정확한 진단을 내놓은 것으로 나타났다.
실험 가운데 하나는 베스 이스라엘 응급실에 내원한 환자 76명을 대상으로 진행됐다. 두 명의 담당 의사가 내린 진단과 OpenAI의 o1·4o 모델이 생성한 진단을 비교했고, 평가는 어떤 진단이 사람의 것이고 어떤 것이 AI의 것인지 모르는 또 다른 두 담당 의사가 수행하는 블라인드 방식으로 이뤄졌다.
연구는 "각 진단 지점마다 o1이 두 담당 의사 및 4o와 동등하거나 약간 더 나은 성능을 보였다"고 밝혔다. 특히 환자 정보가 가장 적고 정확한 결정의 긴급성이 가장 높은 초기 응급실 트리아지 단계에서 차이가 두드러졌다고 덧붙였다.
구체적으로 o1 모델은 트리아지 사례의 67%에서 "정확하거나 매우 근접한 진단"을 제시했다. 반면 한 의사는 같은 기준에서 55%, 다른 의사는 50%를 기록했다. 연구진은 보도자료에서 데이터를 "전혀 사전 가공하지 않았으며" 각 진단 시점의 전자의무기록에 담긴 동일한 정보만 AI 모델에 제공했다고 강조했다.
하버드 의대 AI 랩을 이끄는 공동 저자 아준 만라이(Arjun Manrai)는 보도자료에서 "사실상 모든 벤치마크에서 AI 모델을 테스트했고, 모델은 이전 세대 모델뿐 아니라 우리의 의사 베이스라인까지 능가했다"고 말했다.
다만 연구진은 AI가 응급실의 실제 생사 결정을 내릴 준비가 됐다고 주장하지는 않았다. 대신 결과가 "이 기술을 실제 환자 진료 환경에서 평가하기 위한 전향적 임상시험의 시급성"을 보여준다고 강조했다. 또한 이번 연구는 텍스트 기반 정보가 주어졌을 때의 모델 성능만 다뤘으며, "현재 파운데이션 모델은 비텍스트 입력에 대한 추론에서는 더 제한적이라는 기존 연구가 있다"고 밝혔다.
공동 저자인 베스 이스라엘 의사 애덤 로드만(Adam Rodman)은 가디언과의 인터뷰에서 "현재 AI 진단의 책임 소재를 다룰 공식 체계가 없다"고 경고했다. 그는 환자들이 여전히 "삶과 죽음의 결정과 어려운 치료 결정에서는 사람의 안내를 원한다"고 덧붙였다.
관련 기사
옥스퍼드 인터넷 연구소 'AI 따뜻한 톤 미세조정 시 사실 정확성 저하' Nature 게재… Llama-3.1·Mistral·Qwen-2.5·GPT-4o 검증, 슬픔 표현 사용자에 잘못된 믿음 더 검증
옥스퍼드 인터넷 연구소 네이처 논문 '따뜻한 어조 미세조정 AI, 사용자 오신념 검증 경향 강화'… GPT-4o·Llama-3.1-8B/70B·Mistral-Small-2409·Qwen-2.5-32B 5종 SFT, 슬픈 사용자에 두드러져
구글 리서치, 오픈사이언스 25만+ 연구자 생태계 공개… DeepVariant·NeuralGCM·MedGemma 등 핵심 도구, Open Buildings 18억 건물·인도 농민 3,800만 명 SMS 몬순 예보