애플, 수어 영상 가짜 주석 파이프라인 공개… 지화 인식 FSBoard 6.7% CER·ASL Citizen 74% SOTA, 통역사 약 500개·300+시간 데이터 공개
애플 머신러닝 리서치가 수어(ASL) 영상에 대한 가짜 주석(pseudo-annotation) 파이프라인을 공개했다. 수어 영상과 그에 대응하는 영어를 입력으로 받아, 글로스(gloss)·지화(fingerspelled words)·수어 분류자(sign classifiers)의 시간 구간을 포함한 가능성 높은 주석들의 순위 리스트를 출력한다.
연구진은 AI 기반 수어 통역이 고품질 주석 데이터의 부족으로 제약되고 있다고 진단했다. ASL STEM Wiki와 FLEURS-ASL 등 신규 데이터셋이 전문 통역사가 참여한 수백 시간 분량의 영상을 포함하지만, 대규모 주석 비용 부담으로 부분적으로만 주석되어 충분히 활용되지 못하고 있다는 것이다.
공개된 파이프라인은 자체 지화 인식기와 분리 수어 인식기(ISR, Isolated Sign Recognizer)의 희소(sparse) 예측에 K-Shot LLM 접근법을 결합해 주석을 추정한다. 영상 입력에 대해 가능한 글로스·지화·분류자 후보를 순위화해 시간 구간과 함께 제시하는 구조다.
파이프라인을 뒷받침하기 위해 단순하면서도 효과적인 베이스라인 지화·ISR 모델을 제시했다. 두 모델은 FSBoard에서 6.7% CER, ASL Citizen 데이터셋에서 74% top-1 정확도로 각각 SOTA를 달성했다.
검증과 골드 스탠더드 벤치마크 제공을 위해 전문 수어 통역사가 ASL STEM Wiki에서 약 500개 영상을 시퀀스 단위 글로스 레이블로 직접 주석했다. 레이블에는 글로스·분류자·지화 신호가 포함된다.
이 사람 주석과 300시간 이상의 가짜 주석은 보충 자료(supplemental material)로 공개된다. 저자는 Colin Lea, Vasileios Baltatzis, Connor Gillis, Raja Kushalnagar, Lorna Quandt, Leah Findlater다.
관련 기사
Goodfire, 기계론적 해석가능성 도구 'Silico' 출시… 데이터셋 구성·훈련 전 단계 디버깅 지원, Qwen 3 '트롤리 문제 뉴런' 발견·투명성 뉴런 부스트로 답변 9/10건 변경
구글 DeepMind, 'AI co-clinician' 연구 이니셔티브 공개… 1차 진료 98개 질의 중 97건 'zero critical errors', 멀티모달 시뮬레이션서 140개 항목 중 68개 PCP 동등·초과
애플, 비디오용 정규화 흐름 모델 'STARFlow-V' 공개… 디퓨전 일색 비디오 생성에 NF 기반 첫 입증, t2v·i2v·v2v 단일 모델 지원