연구2026년 6월 4일 AM 04:03

AWS, SFT·DPO 조합으로 소형 언어모델의 도구 호출 정확도 높이는 법 공개

AWS가 머신러닝 블로그에서 소형 언어모델(SLM)의 도구 호출 정확도를 높이는 방법으로 지도형 미세조정(SFT)과 직접 선호 최적화(DPO)를 함께 쓰는 기법을 공개했다. AI 에이전트는 복잡한 다단계 작업을 자율적으로 처리하지만, 정보를 가져오거나 행동을 실행하려면 올바른 도구를 호출해야 제 역할을 한다.

에이전트가 잘못된 도구를 고르거나 매개변수 형식을 틀리거나 작업 흐름을 끊으면 작업 완료 시간이 늘고 오류율과 지원 비용이 오르며 사용자 경험이 나빠진다. AWS는 에이전트 애플리케이션이 시범 단계에서 운영 단계로 넘어갈수록 요청마다 올바른 도구를 고르는 능력이 신뢰할 수 있는 자동화의 핵심이 된다고 설명했다.

SFT는 모델이 수행할 작업에 맞춰 고품질 데이터셋을 큐레이션해, 모델이 특정 작업을 어떻게 수행하고 특정 도구와 어떻게 상호작용해야 하는지 명시적 예시를 제공한다. 도구별 언어와 명령, 제약의 미묘한 차이를 가르치는 데 특히 효과적이다.

DPO는 인간 피드백이나 사전 정의된 목표를 훈련 루프에 직접 반영해 모델 출력을 목표 결과에 더 가깝게 맞춘다. 훈련 데이터에 '이렇게 하고 저렇게는 하지 말라'는 선호가 담겨 있어, 보상 함수나 보상 모델 없이도 강화학습과 같은 목표를 최적화한다. 이 방식은 자원 요구량과 훈련 시간을 줄이면서 품질을 유지한다.

두 기법을 함께 쓰면 언어모델을 다양한 디지털 도구와 연결하는 견고한 미세조정 틀이 만들어진다. AWS는 이를 통해 인간과 유사한 텍스트를 이해하고 생성하면서 외부 애플리케이션과 자율적으로 상호작용해 복잡한 작업을 수행하는 AI 시스템을 만들 수 있다고 밝혔다. 구현에는 허깅페이스 TRL 라이브러리를 사용한다.

실습은 Qwen3 1.7B 모델을 Amazon SageMaker AI 훈련 작업에서 미세조정하는 과정을 다룬다. SageMaker AI 훈련 작업은 분산 멀티 GPU와 멀티노드 구성을 지원하는 완전관리형 서비스로, 필요할 때 고성능 클러스터를 띄워 수십억 매개변수 모델을 더 빠르게 훈련하고 작업이 끝나면 자동으로 리소스를 종료한다. 훈련은 단일 ml.p4d.24xlarge 인스턴스에서 진행하며, 인프라와 훈련 루프 내부의 메트릭은 MLflow로 전송해 분석한다.

데이터셋은 엔비디아가 공개한 When2Call을 쓴다. 도구 호출 의사결정을 평가하도록 설계된 벤치마크로, 언제 도구 호출을 생성할지, 언제 후속 질문을 할지, 주어진 도구로 답할 수 없는 경우를 언제 표시할지, 도구가 필요해 보이지만 호출할 수 없을 때 어떻게 할지를 담는다.

데이터셋은 세 부분으로 나뉜다. SFT용 1만 5,000개 샘플, 선호 정렬(DPO)용 9,000개 샘플, 그리고 성능 테스트용으로 객관식(MCQ) 평가와 그 부분집합인 LLM-as-a-judge 파일이다. TRL의 SFTTrainer와 DPOTrainer가 요구하는 형식에 맞추려면 사용 가능한 도구 목록을 담은 시스템 프롬프트를 만들어 원본 메시지에 추가하고, DPO용으로는 chosen과 rejected 열을 갖춘 형식으로 전처리한 뒤 데이터를 아마존 S3에 저장한다.

실습 환경으로는 최소 50GB 스토리지를 갖춘 ml.t3.medium JupyterLab 노트북 인스턴스를 띄우고, 미세조정 작업 자체는 NVIDIA 가속기가 달린 별도의 임시 훈련 작업 인스턴스에서 실행한다. AWS는 base 모델과 여러 미세조정 변형의 도구 호출 정확도를 평가하고 비교해 모델 품질을 데이터 기반으로 판단하는 방법도 함께 제시했다.

AWS, SFT·DPO 조합으로 소형 언어모델의 도구 호출 정확도 높이는 법 공개

관련 기사