AWS, Amazon Bedrock 강화 파인튜닝 모범 사례 공개… 기본 모델 대비 정확도 최대 66% 향상
AWS가 Amazon Bedrock에서 강화 파인튜닝(Reinforcement Fine-Tuning, RFT)을 활용하는 모범 사례를 공개했다. RFT는 대규모 라벨링 데이터셋 없이 보상 신호를 통해 모델을 커스터마이징하는 기법으로, 기본 모델 대비 최대 66%의 정확도 향상을 달성할 수 있다.
RFT는 Amazon Nova 및 지원되는 오픈소스 모델에 적용할 수 있다. 기존 지도 파인튜닝(SFT)이 정답 쌍으로 직접 학습하는 것과 달리, RFT는 입력 데이터와 보상 함수를 사용한다. 모델이 후보 응답을 생성하면 보상 함수가 각 응답을 채점하고, 높은 보상을 받는 응답의 생성 확률을 높이는 방식이다.
RFT가 효과적인 영역은 크게 두 가지다. 첫째, 코드 생성의 테스트 통과, 수학 추론의 정답 검증, 구조화 데이터 추출의 스키마 검증 등 규칙으로 정확성을 자동 확인할 수 있는 작업이다. 이를 검증 가능한 보상 기반 강화학습(RLVR)이라 한다.
둘째, 콘텐츠 모더레이션, 챗봇, 창작 글쓰기 등 정량화가 어려운 주관적 작업이다. 이 경우 평가 루브릭에 따라 출력을 채점하는 판단 모델이 보상 함수 역할을 수행하며, 이를 AI 피드백 기반 강화학습(RLAIF)이라 한다.
Amazon Bedrock에서 보상 함수는 커스텀 AWS Lambda 함수로 구현되며, 규칙 기반과 모델 기반 접근법 모두 지원한다. AWS는 GSM8K 수학 추론 데이터셋을 예제로 들어 RFT의 작동 방식을 설명했다.
데이터셋 준비 관련 권장 사항도 제시됐다. RFT는 100~10,000개의 훈련 샘플을 지원하며, 초기 실험에는 100~200개로 시작해 프롬프트와 보상 함수가 의미 있는 학습 신호를 생성하는지 검증하는 것이 좋다. 일반적으로 200~5,000개가 강한 일반화와 일관된 성능을 제공한다.
복잡한 추론 작업이나 전문 도메인에서는 5,000~10,000개 샘플이 다양한 입력에 대한 견고성을 높인다. 데이터셋은 프로덕션에서 모델이 접할 전체 프롬프트 범위를 반영해야 하며, 편향된 데이터셋은 일반화 실패나 불안정한 훈련으로 이어질 수 있다.
AWS는 RFT가 기존 파인튜닝 대비 커스터마이징 비용과 복잡성을 줄이면서도 높은 정확도 향상을 달성할 수 있는 방법이라고 강조했다. 데이터셋 설계부터 보상 함수 전략, 하이퍼파라미터 튜닝까지의 실용적 가이드라인을 함께 제공했다.