AWS, Databricks Unity Catalog와 SageMaker AI 연계 LLM 파인튜닝 가이드 공개
AWS 머신러닝 블로그가 Databricks Unity Catalog의 거버넌스를 유지하면서 Amazon SageMaker AI에서 대형언어모델(LLM)을 파인튜닝하는 통합 패턴을 공개했다. SageMaker AI 학습 잡이 Amazon S3 객체를 읽을 때 Unity Catalog의 세분화된 권한 모델을 우회하면 정책 적용 불일치, 감사 누락, 컴플라이언스 노출 위험이 발생한다는 점이 배경이다.
전체 워크플로는 4단계로 구성된다. Unity Catalog가 관리하는 테이블에서 학습 데이터를 적절한 거버넌스 통제 하에 읽고, Amazon EMR Serverless의 Apache Spark로 전처리한 뒤, SageMaker AI Training 잡에서 Ministral-3-3B-Instruct 모델을 파인튜닝하고, 결과 모델 아티팩트를 Unity Catalog에 다시 등록해 원본 데이터부터 학습 모델까지 데이터 리니지를 추적한다.
구성 서비스는 다음과 같다. 워크플로 오케스트레이션과 모델 학습은 Amazon SageMaker AI Studio의 JupyterLab Space가 담당하고, 클러스터 관리 없는 Spark 기반 전처리는 Amazon EMR Serverless가 맡는다. Databricks Unity Catalog는 메타데이터 카탈로그·거버넌스·리니지 추적을 제공하며, 사전 학습 모델은 Hugging Face에서 받는다. 데이터와 모델 아티팩트 저장은 Amazon S3, 자격 증명 관리는 AWS Secrets Manager가 담당한다.
인증은 OAuth 2.0 기반이다. Databricks가 콘솔 외부 접근에 권장하는 서비스 프린시펄용 OAuth(M2M)를 사용해 단명 OAuth 토큰을 발급받으며, 클라이언트 ID와 시크릿은 AWS Secrets Manager에 저장해 관리한다.
예시 학습 데이터로는 SEC EDGAR의 S&P 500 기업 2023~2024년 10-K·10-Q 양식이 쓰인다. 공개 API로 양식을 내려받고 'Risk Factors' 섹션만 추출해 JSON 형식으로 S3에 업로드한다. 각 레코드에는 기업 식별자(CIK), 종목 코드, 법인명, 양식 유형, 회계 기간, 그리고 사업·재무·규제·운영 리스크에 대한 위험 요인 본문이 담긴다.
실행 환경 가이드도 함께 제시했다. SageMaker Studio Domain을 Quick Setup으로 생성한 뒤, JupyterLab Space를 ml.m5.2xlarge 인스턴스, SageMaker Distribution 3.8.0 이미지, 5GB 저장 공간으로 설정해 제공된 노트북을 실행하는 방식이다.
AWS는 이 패턴을 통해 기업이 기존 서비스를 그대로 사용하면서도 중앙 거버넌스를 유지하고, 보안·컴플라이언스 요건을 훼손하지 않으면서 데이터 리니지를 추적할 수 있다고 강조했다. 특히 규제 산업과 프로덕션 워크로드에서 어떤 데이터가 어떤 모델을 학습시켰는지에 대한 가시성 확보가 핵심이라는 설명이다.