엔비디아, 네모트론 학습용 '과제 기반 합성 Q&A 생성' 기법 공개
엔비디아가 대규모 언어모델(LLM) 네모트론(Nemotron) 계열을 학습시키는 데 사용한 '과제 기반 합성 Q&A 생성(task-seeded synthetic Q&A generation)' 워크플로우를 허깅페이스 블로그를 통해 공개했다. 일반 웹·코드·수학·다국어 데이터로 다진 기본기 위에, 명확한 정보 요구와 제한된 답변 형식, 근거와 답을 잇는 설명을 갖춘 압축된 학습 신호를 더하는 방식이다.
핵심 아이디어는 공개된 평가 과제의 '학습 분할(training split)'을 외워야 할 예시가 아니라 능력의 씨앗으로 쓰는 것이다. 모델이 폭넓은 씨앗 과제에서 재사용 가능한 행동을 익힌 뒤 관련 응용·평가로 옮겨가도록 하는 전이 학습 관점으로 데이터를 설계한다. 평가용 보류(held-out) 데이터와 시험 데이터는 생성 과정에서 제외했다.
효과는 수치로 확인됐다. 네모트론-3 나노(Nemotron-3 Nano) 모델에 1,000억 토큰을 추가로 학습시킨 실험에서, 과제 기반 합성 데이터는 MMLU-Pro를 1.8점, 평균 코드 성능을 1.9점, 상식 이해를 1.6점 높였고 GPQA는 11.1점이나 끌어올렸다. 평균 수학 성능은 변동 없이 유지됐다.
씨앗은 lm-eval-harness에서 제공되는 공개 과제의 학습 분할에서 가져왔다. 내부 파이프라인에서는 약 70개 공개 과제 데이터셋과 약 700개 하위 과제를 활용했으며, 각 과제에서 적합한 학습 분할만 씨앗으로 쓰고 시험 데이터는 생성에 사용하지 않았다.
씨앗 풀은 지식 집약형과 추론 집약형으로 나뉜다. 지식 집약형은 39개 과제·약 300개 하위 과제·약 300만 개 씨앗 샘플로 사실·과학·다국어·도메인 질의응답 능력을 겨냥했고, 추론 집약형은 34개 과제·약 400개 하위 과제·약 150만 개 씨앗 샘플로 분석·논리·수학·코드·상식 추론을 강화했다.
생성 과정은 다섯 단계로 이뤄진다. 씨앗 과제를 모으고, 과제마다 제각각인 형식을 통일된 JSONL 형태로 정규화한 뒤, 씨앗 예제의 능력은 유지하되 내용을 바꾼 새 질문을 만들고, 생성된 질문을 풀어 최종 답과 추론·지식·맥락을 덧붙인 다음, 스키마·형식 검사와 중복 제거·답안 검증으로 걸러 포장한다.
검증 방식은 데이터 유형에 따라 다르다. 객관식 과제는 다수결 답안 확인 등으로 직접 검증하기 쉽지만, 자유 생성형 과제는 과제별 추출과 필터링이 더 필요하다고 엔비디아는 설명했다. 또 답을 'B' 같은 보기 기호 대신 '손톱 밑에 낀 흙'처럼 의미가 담긴 텍스트로 저장하면 모델에 더 명확한 학습 신호를 준다고 덧붙였다.
엔비디아는 생성 데이터 가운데 라이선스가 호환되는 일부를 네모트론 울트라(Ultra)와 슈퍼(Super)의 상업용 모델 학습에 활용했다. 이런 접근은 앞선 네모트론 나노 사전학습에서 AGIEval 학습 데이터가 MMLU-Pro 성능을 높였던 사례와도 일치한다고 회사는 밝혔다.