연구2026년 4월 30일 PM 01:04

애플 ML, 편향 완화용 활성화 스티어링 'DSO' 공개… 강화학습으로 선형 변환 학습, VLM·LLM 공정성·성능 trade-off SOTA 달성

애플 머신러닝 리서치팀이 생성형 모델의 편향을 완화하는 새로운 추론 시점 제어 기법 'DSO(Direct Steering Optimization)'를 공개했다. 강화학습으로 모델 활성화(activation)에 적용할 선형 변환을 학습해, 인구통계학적 그룹 간 결과 분포를 균등하게 맞추면서도 모델 성능은 유지하도록 설계됐다.

논문은 시각·언어 모델(VLM)이 사용자를 대신해 의사결정을 내리는 사례를 동기로 든다. 시각장애인을 돕기 위해 "방 안의 누가 의사인가"를 식별하는 VLM이 입력 이미지의 인구통계학적 특성에 영향을 받아 여성을 의사로 인식하지 못하는 등 편향된 결과를 내놓을 수 있다는 점이 문제다.

기존 활성화 스티어링(activation steering) 기법은 대형 언어 모델(LLM)에서 보다 안전한 동작을 유도하는 추론 시점 제어 수단으로 활용돼 왔다. 그러나 연구팀은 "현재의 스티어링 방법은 편향을 교정하는 데 어려움을 겪는다"며, 인구통계학적 그룹 간 등확률(equiprobable) 결과가 요구되는 시나리오에서 한계를 드러냈다고 지적했다.

이를 해결하기 위해 DSO는 사전에 정의된 휴리스틱에 의존하지 않고, 강화학습으로 스티어링 활성화에 적용할 선형 변환을 직접 최적화한다. 편향 완화와 모델 능력 유지라는 두 목표를 동시에 충족하도록 변환을 학습시키는 구조다.

연구진은 DSO가 VLM과 LLM 모두에서 공정성과 모델 능력 간 트레이드오프 측면에서 최첨단(state-of-the-art) 성능을 달성했다고 밝혔다. 또한 추론 시점에 실무자가 직접 trade-off를 조절할 수 있도록 통제권을 제공한다는 점을 차별점으로 제시했다.

논문은 이 결과가 "모델 동작을 제어하기 위해 직접 최적화된 스티어링 전략을 설계하는 것의 이점"을 보여준다고 정리했다. 기존의 통제성에 대한 사전 정의된 휴리스틱에 의존하는 방법들보다 DSO가 더 효과적인 편향 개입 수단이 될 수 있다는 것이 연구진 주장이다.

저자는 Lucas Monteiro Paes, Nivedha Sivakumar, Oliver Wang, Masha Fedzechkina, Barry-John Theobald, Luca Zappella, Nicholas Apostoloff 등 7명이며, 애플 머신러닝 리서치 페이지를 통해 발표됐다.

애플 ML, 편향 완화용 활성화 스티어링 'DSO' 공개… 강화학습으로 선형 변환 학습, VLM·LLM 공정성·성능 trade-off SOTA 달성

관련 기사