앤스로픽, 클로드 화학 능력 첫 백서 공개…NMR 분석서 전용 SW와 견줘
앤스로픽이 클로드의 화학 능력을 끌어올리기 위해 합성·계산·분석 분야의 세계적 화학자들과 협업하고 있으며, 그 첫 결과물로 클로드가 화학자의 가장 흔한 분석 입력인 NMR 스펙트럼을 얼마나 잘 다루는지 검증한 백서를 공개했다. 이 작업은 앤스로픽 소속 화학자 데이비드 캠버가 수행했다.
화학자들은 분자를 다룰 때 손으로 그린 구조식, 기기 측정값, 데이터베이스 질의문, 특허와 논문의 표기법 사이를 오간다. 모두 같은 화학을 담고 있지만 각기 다른 종류의 숙련도를 요구한다. 이 표현들 사이를 번역하는 일은 시간이 많이 들고 규모를 따라잡기 어렵다. 세계 최대 화학 등록기관 CAS는 공개된 물질 2억 9천만 종 이상을 수록하고 있으며 매일 약 1만 5천 종이 새로 추가된다.
AI가 이런 연구 부담을 덜기에 적합하지만 화학 영역에서는 여전히 구상 단계에 머물러 있었다. 목표 분자에서 거꾸로 더 단순한 전구체를 추적해 합성 경로를 짜는 역합성, 반응 예측, 물성 추정 도구가 수년간 제시됐지만, 필요한 데이터가 부족하고 형식이 일관되지 않으며 유료 저널에 갇혀 있어 활용도가 고르지 않았다.
그럼에도 최신 프런티어 모델은 멀티모달이고 명시적 추론이 가능해, 사전 정리된 분자 데이터베이스에 의존하지 않고 저널 그림이나 손 스케치에서 화학 구조를 직접 읽어낸다. 또 추론 과정을 단계별로 보여주므로 화학자가 그 출력을 직접 검증할 수 있다.
이번 백서는 화학자의 가장 흔한 분석 입력인 NMR 스펙트럼을 다뤘다. NMR 분광법은 합성 화학에서 가장 시간이 많이 드는 단계 중 하나로, 화학자가 스펙트럼의 각 피크를 제안된 구조의 원자에 일일이 손으로 대응시켜야 한다. 앤스로픽은 클로드가 오늘날 화학자들이 쓰는 전용 NMR 소프트웨어와 견주어 어떤 성과를 내는지 시험했다.
평가는 모델 학습 시점 이후 ChemRxiv에 올라온 합성 화학 프리프린트에서 뽑은 화합물 20종으로 진행해 선택 편향을 피했다. 20종은 네 개의 구조 계열에 다섯 종씩 나뉘며, 각 계열은 서로 다른 NMR 난제를 담도록 골랐다. 클로드 모델 세 종(Opus 4.7, Opus 4.6, Sonnet 4.6)을 ChemDraw, MestReNova와 비교했다. 각 도구는 분자를 SMILES 문자열로 입력받아 수소와 탄소 피크가 1D NMR 스펙트럼의 어디에 나타날지 ppm 단위로 예측했다.
언어 모델은 실행마다 출력이 달라지므로 각 클로드 모델은 화합물당 세 번 질의해 평균을 냈고, 매번 같은 답을 내는 ChemDraw와 MestReNova는 한 번만 실행했다. 정확하다고 보는 허용 범위는 수소 ±0.20 ppm, 탄소 ±1.0 ppm으로 설정했다.
수소에서는 Opus 4.7이 평균 오차 ±0.079 ppm으로 가장 정확했다. 탄소에서는 Opus 4.7과 MestReNova가 각각 ±1.37 ppm, ±1.48 ppm으로 사실상 동률이었다. Opus 4.6은 중간 수준이었고 Sonnet 4.6이 가장 약했다. 클로로피리다진 계열의 까다로운 NH 양성자(실제 위치 6.8~7.9 ppm)에서 격차가 뚜렷했는데, Opus 4.7은 약간 낮게 잡았지만 일관됐고, Opus 4.6은 여러 ppm에 흩어졌으며, Sonnet 4.6은 10~13 범위로 실제와 크게 벗어났다.
피크 모양과 피크 사이 간격을 예측하는 데서는 전용 소프트웨어와 격차가 더 컸지만, Opus 4.7은 실험으로 보고된 분열 패턴을 어떤 도구보다 자주 맞혔다. 클로드 세 모델 모두 하위 피크 간격을 0.5헤르츠 이내로 약 80% 맞힌 반면 ChemDraw와 MestReNova는 26~35%에 그쳤다. Opus 4.7은 세 번의 반복 실행에서도 가장 일관된 결과를 냈다.
앤스로픽은 클로드가 화학자의 판단을 보완하는 일상적 번역·회상·통합 작업을 의미 있게 돕기 시작했다고 보며, 이 도움을 계속 확장할 계획이라고 밝혔다. 또한 기존 소프트웨어가 화학자에게 맡겨온 더 어려운 과제, 즉 실험 스펙트럼에서 거꾸로 구조를 제안하는 방향도 함께 시험했다고 덧붙였다.