연구2026년 5월 8일 AM 02:03

AWS, SageMaker AI에 'RLVR+GRPO' 검증 가능 보상 강화학습 가이드 공개… Qwen2.5-0.5B·GSM8K·8-shot 예시로 수학 추론 미세조정

AWS가 SageMaker AI 환경에서 검증 가능 보상 기반 강화학습(RLVR, Reinforcement Learning with Verifiable Rewards)을 적용해 대형 언어 모델의 수학 추론 능력을 개선하는 가이드를 AWS Machine Learning Blog에 공개했다. 핵심은 모델 출력의 정답 여부를 객관적·재현 가능한 규칙으로 자동 채점해 보상 해킹(reward hacking)을 줄이는 접근이다.

전통적 강화학습은 보상 신호의 신뢰성에서 한계를 보였다. 보상 함수가 불완전하거나 모호하면 모델은 의도된 행동 대신 점수를 극대화하는 우회 경로를 학습할 수 있다. AWS는 이 문제를 풀기 위해 모델 튜너가 직접 정의한 규칙 기반 피드백을 자동 채점에 활용하는 RLVR을 제시했다. 인간 평가 수집 병목 없이 빠른 반복이 가능하다는 점을 강조했다.

여기에 더해진 알고리즘이 GRPO(Group Relative Policy Optimization)다. 학습 데이터를 의미 있는 그룹으로 나누고 각 그룹의 베이스라인을 기준으로 상대 성능을 최적화한다. AWS는 이 방식이 학습 분산을 줄이고 수렴을 가속하며, 다양한 카테고리에서 일관된 성능을 내는 모델을 만들 수 있다고 설명했다.

또한 8-shot 형태의 퓨샷 예시를 함께 활용해 학습 효율을 끌어올렸다. 퓨샷 예시는 모델이 좋은 출력의 형태를 사전에 파악하도록 돕고, GRPO는 이를 바탕으로 프롬프트당 여러 후보 응답을 생성해 그룹 내 상대 성능을 학습에 반영한다. 검증 가능한 보상은 어떤 응답이 정답인지 즉시 확인해 준다.

실습 모델로는 Qwen2.5-0.5B가 사용됐다. AWS는 코드 생성 등 다른 사용 사례에는 Qwen2.5-Coder-7B처럼 더 큰 모델과 그에 맞는 학습 인스턴스가 필요하다고 안내했다. 데이터셋은 초등학교 수준 수학 문제 모음인 GSM8K(Grade School Math 8K)가 활용됐고, 보상 계산을 위해 각 문제의 최종 정답을 사전에 추출하는 데이터 준비 단계가 필요하다.

학습 작업은 SageMaker Training Jobs에서 ml.p4d.24xlarge 인스턴스를 통해 실행된다. 사전에 AWS 서비스 쿼터에서 해당 인스턴스의 학습 잡 사용량 한도를 계정 수준에서 증설해야 한다. SageMaker Studio JupyterLab 스페이스를 사용한다면 ml.t3.medium 노트북 인스턴스에 50GB 이상 저장 공간을 두고 작업하면 된다고 명시됐다. 미세조정 잡은 별도의 GPU 학습 인스턴스에서 실행되기 때문에 노트북 자체는 큰 사양이 필요하지 않다.

실행 절차는 GitHub 저장소 'aws-samples/amazon-sagemaker-generativeai'를 클론한 뒤 '3_distributed_training/reinforcement-learning/grpo-with-verifiable-reward' 디렉터리로 이동, model-finetuning-grpo-rlvr.ipynb 노트북을 Python 3.12 이상 커널로 실행하는 흐름이다.

AWS는 이번 가이드가 수학 추론, 코드 생성, 기호 조작처럼 출력의 정확성을 객관적으로 검증할 수 있는 작업에서 가장 효과적이라고 강조했다. RLVR과 GRPO, 퓨샷 예시 세 요소를 결합하면 인간 평가 병목 없이 보상 함수를 빠르게 반복 개선하고, 분포 외(out-of-distribution) 일반화에도 강건한 모델을 만들 수 있다는 점이 핵심 가치로 제시됐다.

AWS, SageMaker AI에 'RLVR+GRPO' 검증 가능 보상 강화학습 가이드 공개… Qwen2.5-0.5B·GSM8K·8-shot 예시로 수학 추론 미세조정

관련 기사