연구2026년 5월 1일 AM 05:36

AWS, RFT용 'LLM-as-a-judge' 구현 가이드 공개… Amazon Nova·Bedrock·Lambda로 6단계 파이프라인, Boolean 채점·동시성 100·15분 타임아웃 권장

AWS 머신러닝 블로그가 강화학습 기반 파인튜닝(RFT)에서 'LLM-as-a-judge'를 활용해 모델을 정렬(alignment)하는 방법을 공개했다. 검증 가능 보상(RLVR)과 AI 피드백 보상(RLAIF) 두 갈래 중, RLAIF는 별도의 LLM이 후보 응답을 평가해 보상 신호를 만들어내는 방식이며, AWS는 Amazon Nova 모델을 활용한 RLAIF 적용을 사례로 제시했다.

일반 RFT 보상이 부분 문자열 일치(substring matching) 같은 단순 수치 점수에 의존하는 반면, LLM 판정자는 정확성·톤·안전성·관련성 등 다차원에 걸쳐 추론을 수행하고, '동료 검토 연구를 인용함'과 같이 근거(rationale)를 함께 제공해 진단성과 설명력을 더한다고 AWS는 설명했다.

판정자 아키텍처는 두 가지다. 단일 응답에 사전 정의 기준으로 수치 점수를 매기는 'Rubric 기반(점수형)'과, 두 후보 응답을 나란히 비교해 우월한 쪽을 고르는 'Preference 기반(선호형)'. Rubric은 분포 외 데이터(out-of-distribution)에 강하고 데이터 편향을 회피하며, Preference는 정책 모델이 참조 데이터 제약 없이 자유롭게 탐색해야 할 때 적합하다.

AWS는 LLM-as-a-judge 구현을 6단계로 정리했다. 판정자 아키텍처 선택, 평가 기준 정의, 판정 모델 선택·구성, 판정 프롬프트 정제, 프로덕션 평가 지표와의 정합화, 보상 Lambda 함수 구축 순이다. Rubric 판정자에는 1~10 척도보다 변동성이 적은 Boolean(pass/fail) 채점이 권장된다.

판정 모델은 Amazon Bedrock으로 구성하고 보상용 AWS Lambda 함수에서 호출한다. 모델 티어는 두 갈래다. 복잡 추론·다차원 채점에 적합한 헤비웨이트는 Amazon Nova Pro·Claude Opus·Claude Sonnet, 수학·코딩·범용 도메인용 라이트웨이트는 Amazon Nova 2 Lite·Claude Haiku를 추천한다.

보상 함수는 LLM 판정자에만 의존하지 말고, 빠르고 결정적인 구성요소를 결합하라는 것이 핵심 권고다. 형식 정확성(JSON 구조·필수 필드), 길이 페널티, 언어 일관성, 안전 필터를 우선 적용해 명백한 실패를 사전에 걸러내고, 비용이 큰 판정 호출 부담을 줄인다.

인프라 측면에서는 지수 백오프(exponential backoff)로 Bedrock API 레이트 리밋과 일시적 장애를 처리하고, ThreadPoolExecutor 또는 비동기 패턴으로 롤아웃 간 판정 호출을 병렬화해 지연을 낮추라고 명시한다. Lambda 타임아웃은 15분, 일반적 환경의 프로비저닝 동시성은 약 100을 권장한다.

오류 처리 가이드는 학습 단계 전체를 실패시키지 않고 0.5와 같은 중립/노이즈 보상을 반환하도록 설계할 것을 명시한다. 또한 동일 샘플을 여러 번 채점해 점수 분산을 측정하는 일관성 테스트로 판정자의 보정(calibration)을 검증해야 한다.

평가 기준은 프로덕션에서 모델을 측정할 지표를 그대로 반영해야 한다는 점도 강조됐다. 정확성·안전성과 같은 성공 기준과 임계값을 정의한 뒤, 각 기준을 판정자의 채점 차원에 매핑하고, 판정 점수가 평가 지표와 상관성을 갖는지 검증한 다음 대표 샘플과 엣지 케이스에서 시험하는 흐름이다.

AWS, RFT용 'LLM-as-a-judge' 구현 가이드 공개… Amazon Nova·Bedrock·Lambda로 6단계 파이프라인, Boolean 채점·동시성 100·15분 타임아웃 권장

관련 기사