연구2026년 4월 30일 AM 07:04

Anthropic, 생물정보학 벤치마크 'BioMysteryBench' 공개… 99개 문제·전문가 작성, 'Claude 최신 세대가 전문가 패널도 못 푼 문제 해결'

Anthropic이 자사 디스커버리팀 연구자 Brianna의 글을 통해 새 생물정보학 벤치마크 'BioMysteryBench'를 공개했다. BioMysteryBench는 실제 세계의 지저분한 생물정보학 데이터를 활용해 Claude의 분석 능력을 평가하면서, 생물 데이터 특유의 복잡성과 노이즈가 평가 자체의 품질을 훼손하지 않도록 설계됐다.

BioMysteryBench는 다양한 생물정보학 분야에서 도메인 전문가가 작성한 99개의 문제로 구성됐다. 전문가들은 데이터셋을 수집한 뒤, 검증 불가능한 과학적 결론이 아니라 통제·객관 가능한 데이터의 속성에 근거해 문제를 만들도록 안내받았다. 이를 통해 '정답이 모호한 연구 문제'에 대한 평가 한계를 일정 부분 해소하려 한 셈이다.

핵심 결과는 세 가지다. 첫째, Claude의 생물학 분야 과학 역량이 세대를 거치며 빠르게 개선되고 있다. 둘째, 현재 모델들은 인간 전문가와 동등한 수준에서 과제를 해결한다. 셋째, 최신 세대 모델은 전문가 패널이 풀지 못한 문제 다수를 해결했고, 그 과정에서 인간과는 매우 다른 전략을 사용하는 경우도 있었다.

Anthropic은 과학, 특히 생물학에 대한 에이전트 벤치마크가 소프트웨어 엔지니어링의 SWE-bench처럼 '정전(canonical)' 위치를 차지하지 못하는 이유로 세 가지 구조적 난점을 지목했다. 연구 문제에는 단 하나의 정답이 없고, 같은 방향 안에서도 개별 결정이 매우 주관적이며, 노이즈가 큰 생물 데이터에서는 작은 차이가 전혀 다른 결론으로 이어지기 쉽다는 것이다.

이런 한계의 사례로 메트포르민 반응 예측 연구가 제시됐다. 2011년 한 논문은 두 코호트에서 재현된 메트포르민 반응 예측 변이를 보고했고, AMPK 활성화라는 그럴듯한 메커니즘도 제시했다. 1년 뒤 Diabetes Prevention Program이 같은 변이를 전당뇨인에서 검증했지만 효과가 없었고, 2012년 메타분석은 5개 코호트를 통합해 효과가 실재하나 처음 보고보다 다소 작다고 결론지었다. 메트포르민이 개발된 지 30년이 지났지만 1차 표적은 여전히 명확하지 않다.

기존 벤치마크들은 각각의 강점에도 한계가 분명했다. MMLU-Pro·GPQA·LAB-Bench·FrontierScience·Humanity의 마지막 시험(Humanity's Last Exam)은 지식·추론을 묻는 챗봇 시대 평가에 가깝고, BLADE는 모델이 인간 과학자와 유사한 분석 단계를 밟는지를, BixBench는 결론이 과학자의 결론과 일치하는지를, SciGym은 시뮬레이션 생물학 실험실에서 가설을 세워 직접 실험하도록 평가한다. ProteinGym과 CASP는 실험 데이터를 정답으로 두지만 과제 폭이 좁다는 한계가 있다.

BioMysteryBench는 이 같은 평가 방식들의 장점을 결합하고 한계를 보완하기 위해 등장했다. 실제 연구 데이터의 복잡성을 유지하면서도, 평가의 객관성을 확보하는 절충안을 모색한 것이 특징이다. Anthropic은 이번 결과를 토대로 Claude를 비롯한 모델들의 과학 역량 진보를 보다 정밀하게 추적할 수 있을 것으로 보고 있다.

Anthropic, 생물정보학 벤치마크 'BioMysteryBench' 공개… 99개 문제·전문가 작성, 'Claude 최신 세대가 전문가 패널도 못 푼 문제 해결'

관련 기사