앤스로픽, AI 에이전트가 쓸 수 있게 생물학 데이터 인프라 바꿔야
앤스로픽 리서치가 생물학 데이터 인프라를 AI 에이전트가 다룰 수 있게 바꿔야 한다는 글을 6월 8일 공개했다. 로라 뤼베르트가 쓰고 여러 연구자가 참여한 이 글은, 과학 연구용 에이전트들이 바이러스학자들이 감시와 진단 분석법 개발에 쓰는 데이터베이스 NCBI Virus에서 서열 데이터를 받아오게 한 사례 연구를 근거로 든다.
클로드, 바이옴니(Biomni), 에디슨 애널리시스(Edison Analysis), GPT를 동원했지만 가장 강력한 모델조차 신뢰할 만한 데이터셋을 구성할 만큼의 정확도에 일관되게 이르지 못했다. 그런데 결정론적 검색 계층인 'gget virus'를 더하자 정확도가 거의 100%까지 올랐다. 연구진은 현재로서는 결정론적 검색 도구가 에이전트 워크플로를 더 믿을 만하게 만드는 데 결정적이며, 생물학 데이터베이스도 에이전트를 주요 사용자로 상정해 설계돼야 한다는 교훈을 끌어낸다.
연구진은 AI 에이전트로 생물학 데이터 인프라를 누비는 것을 자동차가 등장하기 전에 설계된 옛 도시를 운전하는 일에 비유한다. 인프라가 아름답고 정교할 수는 있어도 좁고 구불구불한 길(제각각인 파일 형식, 흩어진 데이터베이스, 일회성 검색 스크립트)이 가득해 현대식 차량이 다니기 어렵다는 것이다. 반대로 소프트웨어 인프라는 버전 관리, 잘 문서화된 API, 패키지 관리자처럼 사실상 자동차(에이전트)를 위해 닦인 길에 가깝다.
그 결과 코딩 에이전트는 생물학 에이전트보다 훨씬 빠르게 발전했다. 소프트웨어는 구조화된 디지털 워크플로와 안정적인 인터페이스를 제공하고, 테스트를 통과하는 패치로 깃허브 이슈를 해결하듯 빠르게 검증 가능한 결과를 내준다. 반면 데이터 검색과 검증에 필요한 전산생물학 인프라는 깨지기 쉽고 이질적이며 절차에 크게 의존한다. 연구진은 생물학 에이전트의 병목이 추론 능력만이 아니라 생물학 데이터를 질의할 결정론적 실행 계층이 널리 갖춰져 있지 않다는 데 있다고 본다.
생물학·과학 워크플로에서는 작은 오류도 심각한 결과를 부른다. 잘못된 유전체 빌드에서 좌표를 받아오면 이후의 생물학적 해석 전체가 무효가 될 수 있다. RefSeq와 GenBank 레코드를 의도치 않게 섞거나, 부분 유전체를 완전한 유전체로 취급하거나, 분절 바이러스의 분절 이름을 혼동하거나, 메타데이터 필드가 일관되지 않아 관련 레코드를 놓치는 경우도 마찬가지다.
이 마찰은 생물학만의 문제가 아니다. 안드레이 카파시는 몇 달 전 AI 시대의 소프트웨어를 다룬 강연에서, 작은 웹 앱을 바이브 코딩으로 만들었지만 인증·결제·배포를 실제로 붙이려다 브라우저 대시보드를 클릭하며 일주일을 날렸다고 토로했다. 그는 '코드가 가장 쉬운 부분이었고, 대부분의 일은 브라우저에서 무언가를 클릭하는 것이었다'며 아무도 이런 일을 해선 안 되고 에이전트를 위해 만들어야 한다고 결론지었다.
생물학자들은 AI 에이전트가 등장하기 한참 전부터 이 문제를 깎아내려는 도구들을 만들어 왔다. 바이오파이썬(Biopython), 바이오펄(BioPerl), 바이오줄리아(BioJulia), Entrez Direct, BioMart, gget 같은 라이브러리들이 생물학 데이터를 브라우저 인터페이스 밖으로 꺼내 직접 계산할 수 있게 하려는 시도다. 문제는 생물학 데이터가 하나의 데이터베이스와 인터페이스에 모여 있지 않고, 저마다 식별자·관례·형식·필터 논리가 다른 어수선한 도로망이라는 점이다.
특히 바이러스학은 더 까다로운 사례다. 백신과 진단 분석법 설계부터 단백질 모델 학습 데이터 구축까지, 연구 워크플로는 흔히 NCBI Virus에서 서열을 받아오는 데서 시작한다. NCBI Virus는 GenBank, RefSeq, 그리고 패소플렉서스(Pathoplexus)를 포함한 국제 INSDC 생태계의 바이러스 서열 레코드를 검색형 웹 인터페이스 뒤에 모아둔 것이다. 바이러스학 연구실에서는 NCBI Virus용 데이터셋 정제 지침이 사용자가 웹 인터페이스에서 손으로 재현해야 하는 복잡한 필터 목록 형태로 돌아다니는데, 이는 카파시가 불평한 바로 그 브라우저 클릭 작업이다.
콩고민주공화국에서 분디부교 바이러스로 인한 에볼라가 현재 유행 중인 사례는 바이러스 데이터 접근을 간소화하는 일이 생사를 가를 수 있음을 잘 보여준다. 2026년 5월 14일 콩고민주공화국의 INRB 킨샤사가 혈액 샘플 13건을 분석했고 이튿날 그중 8건에서 분디부교 바이러스 감염을 확인해 에볼라 유행이 선언됐다. 5월 29일까지 WHO는 콩고민주공화국에서 확진·의심 사례 1,000건 이상과 사망자 200명 이상을 보고했으며, 연구진은 첫 거의 완전한 유행 유전체를 만들어 이번 유행이 새로운 종간 전파 사건임을 밝히는 데 기여했다.
이 유전체들은 보건 당국에 세 가지 급한 질문을 던진다. 이번 유행 바이러스가 기존 에볼라와 얼마나 다른가, 기존 진단법으로 여전히 검출되는가, 기존 치료제가 여전히 보호 효과가 있는가다. 답하려면 새 유전체를 NCBI Virus와 패소플렉서스에 있는 과거 에볼라 유전체와 비교해야 하는데, 정작 첫 단계는 웹 인터페이스를 손으로 클릭하고 복잡한 필터를 일일이 재현하며 그 결과가 완전하고 정확하길 바라는 일이다. 연구진은 발병 대응부터 신약 설계, 생물학 모델링까지 에이전트가 과학적 발견을 돕게 하려면 사람만큼 안정적으로 누빌 수 있는 생물학 데이터 인프라를 만들어야 한다고 강조한다.