연구2026년 4월 17일 AM 05:04

구글, 합성 데이터 생성 프레임워크 Simula 공개… '데이터셋 단위 메커니즘 디자인'으로 재정의

구글이 4월 16일 합성 데이터 생성 프레임워크 Simula를 공개했다. Tim R. Davidson 학생 연구원과 Hamza Harkous 시니어 스태프 리서치 사이언티스트가 주도한 이 연구는 합성 데이터 생성을 '데이터셋 단위 메커니즘 디자인(dataset-level mechanism design)'으로 재정의한다.

연구 내용은 논문 'Reasoning-Driven Synthetic Data Generation and Evaluation'으로 Transactions on Machine Learning Research에 게재됐다. 연구진은 전문화된 AI에 필요한 데이터가 본질적으로 희소하거나 접근이 불가능한 영역이 늘면서, 실제 데이터에만 의존하는 방식이 비용·속도·안전 대비 측면에서 한계를 드러낸다고 진단했다.

기존 합성 데이터 생성 방식은 수작업 프롬프트, 진화 알고리즘, 대규모 시드 데이터에 기대면서 확장성·설명 가능성·제어 가능성이 떨어지고, 대부분 샘플 단위에서만 최적화가 이뤄진다는 것이 연구진의 지적이다. Simula는 이를 극복하기 위해 '추론 우선(reasoning-first)' 방식을 채택해 시드가 필요 없는 에이전트형 파이프라인으로 데이터셋 전체를 제1원리에서부터 설계한다.

Simula는 생성 과정을 네 가지 축으로 분해한다. ①글로벌 다양성: 추론 모델이 대상 도메인의 개념 공간을 깊은 계층 구조의 '택소노미'로 매핑해 샘플링 스캐폴드로 활용한다. ②로컬 다양성: 택소노미 노드에서 파생한 메타 프롬프트로부터 다수의 구체 사례를 만들어 모드 붕괴를 방지한다. ③Complexification: 메타 프롬프트 일부를 정교하거나 어려운 형태로 변환해 난이도 분포를 의미 커버리지와 분리해 제어한다. ④Quality Checks: 정답 여부를 독립적으로 두 번 판단하는 '듀얼 크리틱(dual-critic)' 루프로 sycophancy(모델이 그럴듯한 출력에 동조하는 경향)를 완화한다.

평가 측면에서도 Simula는 추론 기반 지표를 도입했다. 택소노믹 커버리지(Taxonomic Coverage)와 LLM 기반 배치 비교로 개별 데이터 포인트에 체스식 Elo 레이팅을 부여하는 Calibrated Complexity Scoring이 대표적이다.

실험은 Gemini 2.5 Flash를 교사 모델, Gemma-3 4B를 학생 모델로 놓고 사이버 보안(CTIBench의 CTI-MCQ·CTI-RCM), 법률 추론(LEXam), 초등 수학(GSM8k), 다국어 학술 지식(Global MMLU) 등 5개 도메인에 대해 진행됐다. 도메인별로 최대 51만 2,000개(512K) 데이터 포인트를 생성했다.

결과는 세 가지 시사점으로 정리된다. 첫째, 메커니즘 디자인은 필수다. 글로벌 커버리지·로컬 다양성·크리틱을 결합한 완성형 Simula가 모든 도메인에서 단순 베이스라인을 앞섰다. 둘째, 고정된 레시피는 없다. GSM8k에서는 고난이도 데이터가 정확도를 10% 끌어올린 반면, 교사 모델이 상대적으로 약했던 LEXam에서는 오히려 성능을 떨어뜨렸다. 셋째, 품질이 곧 새로운 양이다. Simula는 기존 접근보다 적은 샘플로도 더 높은 다운스트림 성능을 달성했다.

Simula는 벤치마크용이 아니라 구글 내부 실전 제품의 데이터 엔진으로도 쓰이고 있다. Gemma 생태계의 ShieldGemma·FunctionGemma·MedGemma와 같은 특화 모델, 온디바이스·서버사이드 Gemini 안전 분류기가 Simula로 생성한 합성 데이터를 주요 백본으로 사용한다. 안드로이드 통화용 AI 스캠 탐지, Google Messages의 스팸 필터 등 사용자 보호 기능 출시에도 활용됐다.

구글, 합성 데이터 생성 프레임워크 Simula 공개… '데이터셋 단위 메커니즘 디자인'으로 재정의

관련 기사