구글 리서치, AI 도구가 피부 질환 이해를 돕는다는 대규모 연구 결과 공개
구글 리서치가 피부·모발·손톱 등 피부 관련 고민에서 AI 도구가 일반인의 이해를 어떻게 돕는지 다룬 최근 연구 결과를 공개했다. 성인의 절반 이상이 건강 정보를 인터넷에서 찾고 3분의 1은 인공지능을 이용하지만, 정보에 접근한다고 해서 그것을 쉽게 이해하거나 올바르게 해석하는 것은 아니라는 문제의식에서 출발했다.
사람들은 피부 증상을 보고도 정확한 의학 용어로 검색하기 어렵다. 예컨대 '다리에 붉은 점'을 발견해도 '촉지성 자반(palpable purpura)' 같은 용어를 떠올리기는 쉽지 않다. 구글은 그동안 감별 진단을 돕는 AI 모델 개발과 SCIN 같은 데이터셋 공개 등으로 기술적 기반을 쌓아왔다고 밝혔다.
이번에 공개한 핵심 연구는 이번 주 학술지 JAMA Dermatology에 실린 'Consumer Understanding of Skin Concerns With an AI-Powered Informational Tool'이다. 연구진은 설문 참가자 2,345명에게 이미지와 구조화된 병력이 포함된 비식별 피부 질환 사례를 보여주고, 그 사례가 자신의 것이라고 가정해 답하도록 했다.
참가자는 세 집단으로 무작위 배정됐다. AI 도구를 쓴 집단은 62% 이상이 질환 이름을 추정하려 시도해 일반 검색을 쓴 대조군(41%)보다 높았다. 정확도는 더 크게 갈렸는데, AI 집단의 추정 정확도는 23%로 대조군(8%)의 약 3배였고, 사람이 개입한 '오즈의 마법사' 집단은 36%로 약 4배였다.
AI 카드로 일치 가능한 질환을 보여주자 참가자의 추정 자신감과 검색 결과·소요 시간에 대한 전반적 만족도도 유의하게 높아졌다. 연구진은 진단적이거나 처방적이지 않도록 AI가 이미지와 가능한 질환을 매칭하는 데 집중하고 해석은 사용자에게 맡기도록 설계했다고 설명했다. 제공된 정보는 피부과 전문의가 권위 있는 자료를 바탕으로 작성했으며 사례별 중증도에 맞춘 것은 아니었다.
다만 다음 행동을 결정하는 일은 여전히 어려웠다. 가정 요법과 긴급 진료 중 무엇을 택할지에 대한 정확도는 '오즈의 마법사' 집단에서 63.5%로 대조군(60%)보다 소폭 높았을 뿐, 표준 AI 집단에서는 통계적으로 유의한 개선이 없었다. 오히려 AI 집단은 피부과 전문의보다 덜 긴급한 조치를 권하는 경향이 대조군보다 약간 높았다(30% 대 27%).
연구진은 두 번째 연구로 지난해 ACM CHI 학회에서 'Navigating Skin Concerns with AI'를 발표했다. 스탠퍼드 의료 AI 응용연구팀(HEA3RT), 산타클라라 패밀리 헬스 플랜(SCFHP)과 협력해 실제 피부 고민이 있는 다양한 배경의 참가자가 피부 AI를 어떻게 쓰는지 현장에서 관찰했다. 참가자들이 쓰는 4개 주요 언어로 앱을 번역하고 해당 언어에 능통한 자원봉사자나 직원이 소통을 도왔다.
동의한 참가자 110명이 앱을 사용한 뒤 곧바로 임상의와 상담했다. 앱 사용으로 질환 이름을 대는 능력은 260% 늘었으나 정답률 자체는 전반적으로 낮았다. 참가자들은 교과서 이미지와 자신의 증상을 시각적으로 맞춰보는 데 크게 의존했고, 이는 다양한 피부색·중증도·신체 부위의 이미지를 갖추는 일이 중요함을 보여줬다.
임상의들은 앱의 예측이 자신들의 평가와 대체로 일치한다고 본 경우가 86%였고, 앱이 도움이 됐다고 답한 비율은 92%였다. 참가자가 상담 중에도 앱을 열 수 있어 의사와 환자가 함께 보는 참고점으로도 쓰였다. 연구진은 이미지와 텍스트를 함께 쓰는 멀티모달 방식이 둘 중 하나만 쓰는 것보다 일반인에게 더 선호됐다고 밝혔다.