구글 리서치, 오픈사이언스 25만+ 연구자 생태계 공개… DeepVariant·NeuralGCM·MedGemma 등 핵심 도구, Open Buildings 18억 건물·인도 농민 3,800만 명 SMS 몬순 예보
구글 리서치 사이언스 팀이 5월 1일 오픈사이언스 접근법으로 25만 명 이상의 연구자·개발자 글로벌 생태계를 지원했다는 자료를 공개했다. 구글은 오픈소스 소프트웨어와 오픈액세스 데이터셋이 현대 과학의 추진력이라고 강조하며, 책임 있고 포용적이며 엄밀한 연구 원칙 아래 글로벌 과학 커뮤니티와의 파트너십을 통해 자원을 유지한다고 밝혔다.
유전체학 분야에서는 DeepVariant·DeepConsensus·DeepPolisher가 원시 시퀀싱부터 최종 어셈블리까지 DNA 분석을 향상시켰고, 이 방법들은 글로벌 커뮤니티가 250만 명의 엑솜·전장 유전체를 처리하는 데 기여했다. 신경과학 분야에서는 flood-filling networks, Neuroglancer, TensorStore 등 자동 재구성·분석·시각화 도구를 공개했다. 인간 뇌 조직 1.4페타바이트 샘플인 H01 데이터셋은 20만 회 이상 접근됐고, MICrONS는 마우스 시각피질의 가장 큰 배선도와 기능 지도다.
지구·대기 모델링에서는 Open Buildings가 아프리카·남아시아·동남아시아·라틴아메리카·카리브 지역을 포함한 5,800만 km² 면적에서 18억 개 건물을 검출했다. Caravan은 커뮤니티 주도 대규모 수문학 데이터셋이며, 구글 홍수 예측은 150개국 20억 명을 대상으로 주요 홍수 예측을 제공한다. 도시 돌발 홍수용 Groundsource 데이터셋은 Gemini가 20년치 공공 데이터에서 추출한 260만 건의 과거 홍수 이벤트를 담고 있고, 150개국 이상을 포괄한다. 추가로 미분 가능한 하이브리드 대기 모델 NeuralGCM과 산불 연구용 고해상도 합성 데이터셋 FireBench도 공개됐다.
생물다양성 분야에서는 SpeciesNet이 야생동물 카메라 이미지에서 포유류·조류·파충류 등 2,498개 동물 카테고리를 분류한다. 헬스케어에서는 Health AI Developer Foundations(HAI-DEF)가 MedGemma 등 멀티모달 의료 텍스트·임상 추론·영상 이해용 오픈웨이트 파운데이션 모델을 제공해 누적 480만 다운로드를 기록했다. Open Health Stack(OHS)으로 만든 헬스케어 애플리케이션은 10개국 이상에서 6,500만 명 이상의 수혜자에게 배포됐다.
파트너십 측면에서 구글은 UC Santa Cruz Genomics Institute, Janelia Research Campus, Institute of Science & Technology Austria(ISTA), Centre for Population Genomics, 호주 국립과학기관 CSIRO, 인도 의과학연구소 AIIMS 등과 협업하고 있다. 또 Human Pangenome Research Consortium, Earth BioGenome Project, NIH BRAIN Initiative 같은 글로벌 컨소시엄도 지원한다. 구글은 인도·한국·일본·호주를 시작으로 개별 과학 개발자 커뮤니티 구축에 투자한다고 밝혔다.
실제 영향 사례도 공개됐다. UCSC Genomics Institute와 협업한 팬게놈 레퍼런스 개선으로 유전 변이 식별 오류가 50% 감소했다. 시카고대 Human-Centered Weather Forecasts Initiative는 NeuralGCM과 ECMWF 시스템으로 인도 몬순 도래를 최대 한 달 전에 예측해, 인도 농업·농민복지부와 함께 농민 3,800만 명에게 SMS로 전달했다. UN 난민기구(UNHCR) 등 글로벌 기관은 Open Buildings로 실향 인구 재해 대응 표본 추출을 최적화했다.
건강 분야에서도 사례가 이어진다. 존스홉킨스대 연구진은 H01 인간 뇌 재구성 데이터셋으로 새로운 뉴런 통신 방식을 발견했고, 이는 알츠하이머 등 질환에 시사점을 제공할 가능성이 있다. 스탠퍼드대 의대·UCSC와의 협력으로 시간 임계 사례에서 8시간 미만 전장 유전체 시퀀싱 진단을 달성하며 기네스 세계 기록을 세웠다. NIH 국립암연구소(NCI)·UCSC와는 메서드 개발·평가용 공개 암 유전체 시퀀스 세트를 공동 제작했고, DeepSomatic을 공동 개발해 Children's Mercy Hospital이 기존에 놓쳤던 암 변이를 발견했다.