연구2026년 4월 17일 PM 11:03

허깅페이스, 이커머스 대화형 에이전트용 RL 환경 'Ecom-RLVE' 공개… 8개 검증 환경·12축 난이도 커리큘럼

허깅페이스가 이커머스 대화형 에이전트 훈련을 위한 강화학습 환경 프레임워크 'Ecom-RLVE'를 공개했다. 기존 RLVE 프레임워크를 단일 턴 추론 퍼즐에서 다중 턴·도구 연동 이커머스 대화로 확장한 것이 특징이다. 이 프로젝트는 파이토치 OpenEnv 해커톤에서 시작됐다.

핵심 구성요소인 'EcomRLVE-GYM'은 8개의 검증 가능한 환경을 제공한다. 구체적으로 상품 탐색(Product Discovery), 대체상품 추천(Substitution), 장바구니 구성(Cart Building), 반품·교환(Return + Replacement), 주문 추적(Order Tracking), 정책 QA(Policy QA), 번들 플래닝(Bundle Planning), 다중 의도 여정(Multi-Intent Journey) 등이다. 각 환경은 절차적 문제 생성, 12축 난이도 커리큘럼, 알고리즘적으로 검증 가능한 보상으로 구성된다.

연구진은 Qwen 3 8B 모델을 DAPO 기법으로 300 스텝 학습시켰으며, 환경 스케일링과 적응형 난이도가 에이전트 기반 실제 과제 수행으로 전이된다는 초기 결과를 제시했다. 기존 RLVE-Gym은 정렬·곱셈·스도쿠 등 단일 턴 텍스트 퍼즐 400개 환경을 제공했으나, 에이전트 도메인으로의 확장은 과제로 남아 있었다.

허깅페이스는 감독 미세조정(SFT)만으로는 실제 이커머스가 요구하는 조합적 제약 조건, 부분 정보 대화, 다단계 거래 워크플로를 학습시키기 어렵다고 설명했다. 검증 가능한 보상 기반 강화학습(RLVR)은 '제품이 제약을 만족시켰는가, 장바구니가 올바른가, 반품이 적절한 주문 라인에 대해 시작됐는가' 같은 결과 지표를 직접 최적화할 수 있다.

보상 체계는 3단계로 구성된다. 과제 보상(Task reward)은 목표 달성 여부를 측정하고, 효율 보상(Efficiency reward)은 에이전트 실수로 인한 불필요한 턴만 감점한다. 할루시네이션 페널티(Hallucination penalty)는 세션 중 실제로 검색하지 않은 상품 ID를 추천하면 감점하며, 잘못된 JSON이나 불법 도구 호출은 즉시 실패 점수를 부여한다.

난이도는 단일 숫자 d가 12개 독립 축을 동시에 제어한다. 대표 4개 축을 보면 쉬움(d=0)·중간(d=6)·어려움(d=12) 기준으로 사용자 제약 수는 2·5·8개, 제약 생략 비율은 5%·70%·약 80%, 검색 결과 중 디스트랙터 비율은 0%·12%·24%, 대화 중 품절 발생률은 0%·30%·50%다. 나머지 8개 축은 턴 예산, 입력 노이즈, 컨텍스트 전환, 검색 깊이, 주문 이력 크기, 정책 복잡도, 도구 예산 등을 담당한다.

적응형 스케줄링은 각 환경이 에이전트의 성공률을 독립적으로 추적해 현재 난이도를 안정적으로 통과할 때만 상위 난이도로 진행한다. 이는 '학습하기에 너무 쉬움'과 '진전을 내기에 너무 어려움' 양극단을 피하고 에이전트의 능력 경계에서 훈련이 이뤄지도록 설계됐다.

장바구니 구성(E_CART) 환경은 상품 탐색, 변형(색상·크기·커넥터 등) 선택, 장바구니 관리, 명확화 대화, 다중 상품 주문 등 5가지 기술을 요구한다. 에이전트는 catalog_search, catalog_get_variants, cart_add, cart_view, user_get_visit_history, ask_user 등 6개 도구를 사용하며, 생성기는 난이도에 따라 1~5개의 타깃 상품을 샘플링한다. 평가는 (상품, 변형, 수량) 튜플에 대한 F1 점수로 이뤄진다.

허깅페이스, 이커머스 대화형 에이전트용 RL 환경 'Ecom-RLVE' 공개… 8개 검증 환경·12축 난이도 커리큘럼

관련 기사