애플, LLM의 젠더 편향 측정하는 벤치마크 데이터셋 ProText 공개
애플 ML 리서치 팀이 대규모 언어 모델(LLM)이 장문 텍스트에서 젠더를 어떻게 다루는지 측정하기 위한 새로운 벤치마크 데이터셋 ProText를 공개했다. 이 데이터셋은 요약이나 재작성 같은 텍스트 변환 작업에서 나타나는 젠더링과 미스젠더링 패턴을 체계적으로 평가할 수 있도록 설계됐다.
ProText는 Hadas Kotek, Margit Bowler, Patrick Sonnenberg, Yu'an Yang 등 4명의 연구원이 개발했다. 이 데이터셋은 다양한 문체를 갖춘 영문 장문 텍스트를 기반으로 하며, 기존의 대명사 해석(pronoun resolution) 벤치마크를 넘어서는 포괄적인 젠더 편향 평가를 목표로 한다.
데이터셋은 세 가지 차원으로 구성된다. 첫째는 테마 명사(Theme nouns)로, 이름, 직업, 호칭, 친족 용어를 포함한다. 둘째는 테마 카테고리(Theme category)로, 전형적 남성, 전형적 여성, 젠더 중립/비젠더 항목으로 분류된다. 셋째는 대명사 카테고리(Pronoun category)로, 남성형, 여성형, 젠더 중립형, 대명사 미사용의 네 가지로 나뉜다.
ProText의 핵심 특징은 젠더 이진법(gender binary)을 넘어선 평가가 가능하다는 점이다. 기존 벤치마크들이 주로 남성과 여성 두 가지 범주만 다룬 반면, ProText는 젠더 중립적 표현과 비젠더 표현까지 포괄해 보다 정밀한 편향 분석을 지원한다.
연구팀은 미니 케이스 스터디를 통해 데이터셋의 유효성을 검증했다. 2개의 프롬프트와 2개의 모델만으로도 젠더 편향, 고정관념, 미스젠더링, 젠더링에 관한 세밀한 인사이트를 도출할 수 있음을 확인했다.
케이스 스터디에서 연구팀은 체계적인 젠더 편향을 발견했다. 특히 입력 텍스트에 명시적인 젠더 단서가 없는 경우나, 모델이 이성애 규범적(heteronormative) 가정을 기본값으로 적용하는 경우에 편향이 두드러졌다.
이 연구는 최신 LLM을 활용한 텍스트 변환 작업에서 발생하는 미스젠더링 문제를 조명한다. 요약이나 재작성 과정에서 원문의 젠더 표현이 왜곡되거나 임의로 변경되는 현상은 AI 시스템의 공정성과 포용성에 직결되는 문제다.
ProText는 연구자와 개발자들이 자사 모델의 젠더 편향을 체계적으로 평가하고 개선하는 데 활용할 수 있는 도구로, AI의 젠더 공정성을 높이기 위한 벤치마크 인프라로서 의미가 있다.