목록으로
연구2026년 4월 18일 AM 03:36

AWS, Nova Forge SDK 2편 공개… 데이터 믹싱 LoRA 파인튜닝으로 Nova 모델 도메인 적응

AWS가 Amazon Nova Forge SDK 시리즈의 두 번째 글을 공개하고, Amazon Nova 모델을 데이터 준비부터 학습·평가까지 파인튜닝하는 실습 가이드를 제시했다. 시리즈 첫 편이 커스터마이제이션 실험을 어떻게 시작하는지 다뤘다면, 2편의 주제는 도메인 데이터에 특화하면서도 모델의 범용 능력을 보존하는 기술, 이른바 '데이터 믹싱(data mixing)'이다.

AWS는 이전 글에서 고객 데이터와 아마존이 큐레이션한 데이터셋을 섞어 학습한 결과, MMLU(Massive Multitask Language Understanding) 점수를 기준선 근처로 유지하면서 1,420개 리프 카테고리의 Voice of Customer 분류 과제에서 F1을 12포인트 끌어올렸다고 소개했다. 반면 오픈소스 모델을 고객 데이터만으로 파인튜닝했을 때는 범용 능력이 거의 전면적으로 사라졌다고 지적했다.

실습 워크플로는 다섯 단계로 구성된다. 먼저 Nova Forge SDK와 AWS 리소스를 준비하는 환경 설정, 학습 데이터를 적재·정제·변환·검증·분할하는 데이터 준비, Amazon SageMaker HyperPod 런타임과 MLflow 추적, 데이터 믹싱 비율을 지정하는 학습 구성, Low-Rank Adaptation(LoRA) 기반 지도 미세조정을 실행하고 모니터링하는 모델 학습, 그리고 공개 벤치마크와 도메인 특화 평가를 수행하는 모델 평가가 이어진다.

사전 요건으로는 Amazon Nova Forge 접근 권한이 있는 AWS 계정, GPU 인스턴스로 구성된 SageMaker HyperPod 클러스터, Amazon SageMaker MLflow 애플리케이션, SageMaker·S3·CloudWatch 권한을 가진 IAM 역할, SageMaker Studio 또는 Jupyter 환경이 제시된다. 예시에서는 ml.p5.48xlarge 인스턴스 4대를 학습과 평가에 사용하며, AWS는 전체 학습 전에 max_steps=5 수준의 짧은 테스트 런으로 구성을 검증할 것을 권고했다.

설치 단계에서는 Nova Forge S3 배포 버킷에서 받은 HyperPod CLI를 설치한 뒤 같은 가상환경에 nova-forge-sdk를 추가하고, Jupyter 커널로 등록한다. 이후 S3 버킷과 접근 정책을 생성해 HyperPod 실행 역할에 S3 오브젝트 읽기·쓰기·삭제·리스트 권한을 부여한다. 가이드는 boto3 예제 코드로 계정·리전 감지, 버킷 생성, 정책 적용 과정을 보여준다.

데이터 준비 단계에서는 Nova Forge SDK가 JSONL, JSON, CSV를 지원한다. 예시 데이터셋은 Hugging Face의 MedReason(UCSC-VLAA/MedReason)으로, 약 3만 2,700건의 의료 추론 질의응답 쌍을 제공한다. SDK는 토큰 단위 검증을 강제하기 때문에 'System:', 'Assistant:' 같이 모델 채팅 템플릿의 시스템·사용자·어시스턴트 턴 구분자와 충돌하는 문자열은 콜론 앞에 공백을 삽입해 패턴을 깨뜨리고, [EOS]·<image> 같은 예약 토큰은 제거한다.

정제가 끝나면 JSONLDatasetLoader로 데이터를 로드한 뒤 transform()을 호출해 원문 Q&A를 Nova가 기대하는 멀티턴 채팅 템플릿 포맷으로 변환한다. 각 레코드는 'user' 역할의 질문과 'assistant' 역할의 답변을 포함한 messages 배열 구조로 재구성된다. 이어서 validate() 메서드가 채팅 템플릿 정합성, 잔존 금지 토큰 여부, 선택한 모델과 학습 방식의 요구 조건 충족 여부를 확인한다.

AWS는 이번 가이드가 '자신의 유스케이스에 바로 적용할 수 있는 반복 가능한 플레이북'을 제공한다고 설명했다. 고객 데이터만 사용한 학습이 범용 능력의 거의 전면적인 손실로 이어진다는 경고를 재확인하고, 데이터 믹싱을 활용한 실제 코드 레벨 절차를 SageMaker HyperPod·MLflow·LoRA 조합으로 정리한 것이 이 글의 핵심이다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사