AWS 아마존 퀵 리서치, 흩어진 희귀암 데이터 통합해 보고서 자동 생성
AWS가 흩어진 바이오메디컬 데이터를 한데 모아 희귀암 연구를 돕는 에이전트형 연구 도구 '아마존 퀵 리서치(Amazon Quick Research)'의 활용법을 공개했다. 여러 출처의 데이터 검색과 대형언어모델(LLM) 기반 합성을 조율해, 인용과 버전 정보가 담긴 연구 보고서를 자동으로 만들어 주는 기능이다.
희귀암 연구는 게놈 시퀀싱 파이프라인, 임상시험 등록부, 바이오마커 저장소, 동료심사 문헌 등에 걸쳐 형태가 제각각인 데이터를 만들어 낸다. 하나의 연구를 위해 이 출처들을 통합하려면 보통 맞춤형 ETL 파이프라인, 수작업 스키마 조정, 서로 분리된 시스템을 오가는 반복 쿼리가 필요해, 분석을 시작하기까지만 수 주가 걸린다.
아마존 퀵 리서치는 통합 연구 환경을 제공해 이 문제를 푼다. PubMed 같은 공개 바이오메디컬 데이터베이스를 비롯한 여러 출처에서 구조화·비구조화 데이터를 수집한 뒤, LLM 기반 합성으로 출처가 인용되고 버전이 관리되는 연구 보고서를 생성한다. AWS가 공개한 예시는 소아 육종(pediatric sarcoma)을 연구 영역으로 삼아 PubMed 등 공개 데이터셋을 활용했다.
이 도구는 자연어로 쓴 연구 질문을 해석해 병렬 조사가 가능한 구조화된 하위 주제로 나눈다. 데이터는 웹 검색(PubMed, ClinicalTrials.gov, 오픈액세스 저널), 파일 업로드(PDF·워드·엑셀·파워포인트), 그리고 Spaces·대시보드·지식베이스 같은 퀵 자산에서 끌어온다.
실행에 앞서 에이전트는 조사할 주제와 주제별로 쿼리할 출처, 분석 접근법을 담은 구조화된 계획을 먼저 내놓으며, 사용자는 이를 검토·수정한 뒤 본 실행에 들어갈 수 있다. 결과 보고서에는 출처 문서나 URL로 추적되는 인라인 인용이 붙고, 'Understand the statement' 기능으로 개별 결론의 근거 사슬을 확인할 수 있다.
특정 문장에 최대 400자 분량의 수정 코멘트를 달아 수정을 요청하면, 해당 부분만 범위로 새 연구 실행이 시작되고 버전 번호가 올라가며 이전 버전은 비교를 위해 보존된다. 보고서는 PDF나 워드로 내보낼 수 있고, 분량과 인용 밀도를 청중에 맞춰 조절하는 요약본(Executive, General, Custom)도 제공된다.
소아 육종 조사에서 에이전트가 생성한 계획은 네 가지 주제로 짜였다. 게놈 정보를 활용한 표적치료와 환자 선별, PAX3 같은 유전자 융합을 포함한 게놈 지형과 횡문근육종·유잉육종·골육종 등 아형, FDA가 승인한 표적치료의 작용 기전과 효능, 그리고 유전자 편집·세포 기반 치료 같은 미래 방향이다.
데이터 구성 계층인 Spaces는 최대 1만 개 파일을 대시보드·지식베이스 등과 함께 묶는 논리적 컨테이너로, 업로드 시 색인돼 연구 실행을 위한 검색 자료로 쓰인다. 아마존 퀵은 유료 서비스이며, 이 예시를 따라 하면 과금되는 리소스가 생성된다.