애플 연구진, 개인화된 AI 정렬 프레임워크 P-GRPO 발표… 다양한 선호도 동시 학습으로 GRPO 능가
애플 ML 리서치 팀이 대형언어모델(LLM)의 개인화된 선호도 정렬을 위한 새로운 프레임워크 P-GRPO(Personalized Group Relative Policy Optimization)를 발표했다. Jialu Wang, Heinrich Peters 등 9명의 연구진이 참여한 이번 연구는 기존 RLHF(인간 피드백 기반 강화학습) 방식의 근본적 한계를 해결하는 데 초점을 맞췄다.
기존 RLHF와 GRPO는 단일 글로벌 목적함수에 최적화하기 때문에 다양한 개별 사용자 선호도를 반영하지 못하는 문제가 있다. 특히 GRPO의 그룹 기반 정규화는 모든 샘플이 교환 가능하다고 암묵적으로 가정하여, 다수 선호도 쪽으로 학습이 편향되고 소수 신호는 억제되는 구조적 한계를 갖고 있었다.
P-GRPO는 이점 추정(advantage estimation)을 즉각적인 배치 통계에서 분리하는 방식으로 이 문제를 해결한다. 동시 생성 그룹이 아닌 선호도 그룹별 보상 이력(preference-group-specific reward histories)에 대해 이점을 정규화함으로써, 서로 다른 선호도를 학습하는 데 필요한 대조 신호를 보존한다.
다양한 과제에 걸친 평가에서 P-GRPO는 표준 GRPO보다 일관되게 빠른 수렴 속도와 높은 보상을 달성했다. 이는 이질적인 선호도 신호를 회복하고 정렬하는 능력이 향상됐음을 보여준다.
연구진은 보상 이질성(reward heterogeneity)을 최적화 수준에서 고려하는 것이 범용 능력을 희생하지 않으면서 다양한 인간 선호도에 충실하게 정렬하는 모델을 구축하는 데 필수적이라고 결론지었다.
이번 연구는 AI 모델이 단일한 "평균적" 인간 선호도가 아닌, 개인별로 다른 선호도를 존중하며 동시에 학습할 수 있는 기술적 기반을 제시했다는 점에서 의미가 있다. 향후 AI 어시스턴트의 개인화 수준을 한 단계 끌어올릴 수 있는 접근법으로 주목된다.