TII, 6억 파라미터 Falcon Perception 공개… 단일 트랜스포머로 시각 인식·분할 통합
아랍에미리트 기술혁신연구소(TII)가 Falcon Perception을 공개했다. 0.6B(6억) 파라미터 규모의 얼리 퓨전 트랜스포머로, 자연어 프롬프트를 기반으로 오픈 보캐뷸러리 그라운딩과 세그멘테이션을 수행하는 모델이다. 이미지 패치와 텍스트를 하나의 시퀀스로 처리하며, 하이브리드 어텐션 마스크와 경량 출력 헤드를 통해 가변 개수의 인스턴스를 생성한다.
기존 오픈 보캐뷸러리 인식 시스템은 대부분 모듈형 파이프라인으로 구성되어 왔다. 고정된 비전 백본이 특징을 추출하고, 별도의 퓨전·디코더 단계에서 언어와 결합한 뒤, 추가 매칭·후처리 컴포넌트가 뒤따르는 구조다. TII는 이 접근 대신 단일 얼리 퓨전 트랜스포머 백본이 적절한 어텐션 패턴과 출력 인터페이스만으로 인식과 언어 모델링을 동시에 처리할 수 있는지를 실험했다.
핵심 설계는 하이브리드 어텐션 마스크에 있다. 이미지 토큰은 양방향으로 다른 모든 이미지 토큰에 어텐드하여 글로벌 시각 컨텍스트를 구축하고, 텍스트 및 태스크 토큰은 인과적으로 앞선 모든 시각 프리픽스와 텍스트에 어텐드한다. 이를 통해 동일한 백본이 이미지 토큰에서는 양방향 비전 인코더처럼, 태스크 토큰에서는 자기회귀 예측기처럼 동작한다.
밀집 예측을 위해 Chain-of-Perception이라는 구조화된 인터페이스를 도입했다. 각 인스턴스를 좌표(<coord>) → 크기(<size>) → 세그멘테이션(<seg>) 세 단계로 분해한다. 좌표를 먼저 확정해 어떤 객체인지 해소하고, 크기로 공간 범위를 정한 뒤, 최종적으로 업샘플된 이미지 피처와의 내적으로 풀 해상도 바이너리 마스크를 생성한다.
좌표 및 크기 헤드는 푸리에 특징 인코딩을 사용하여 연속 좌표를 랜덤 가우시안 프로젝션을 통해 고차원 사인파 공간으로 매핑한다. 세그멘테이션 헤드는 seg 토큰의 히든 스테이트와 콘텐츠 인식 업샘플된 이미지 피처 간 내적으로 작동하며, 디코더 기반 인스턴스 세그멘테이션에 흔히 사용되는 별도의 마스크-쿼리 메커니즘과 헝가리안 매칭이 불필요하다.
성능 면에서 Falcon Perception은 SA-Co 벤치마크에서 68.0 Macro-F1을 달성해 SAM 3의 62.3을 상회했다. 다만 존재 보정(Presence Calibration)에서는 MCC 0.64로 SAM 3의 0.82에 미치지 못했다. TII는 이 격차를 분석하기 위해 PBench라는 진단 벤치마크도 함께 도입했다. PBench는 단순 객체(L0), 속성·하위유형(L1), OCR 기반 식별(L2), 공간 이해(L3), 관계·상호작용(L4), 밀집 장면(Dense) 등 필요 역량별로 샘플을 분리해 단일 점수 대신 역량 프로파일을 제공한다.
학습에는 다중 교사 증류 방식을 채택했다. DINOv3(ViT-H)에서 세그멘테이션에 필수적인 로컬 피처를, SigLIP2에서 오픈 보캐뷸러리 이해를 위한 언어 정렬 피처를 각각 추출한다. 증류된 초기화는 ImageNet-1k에서 제로샷 74.25%, Pascal VOC에서 선형 프로브 mIoU 85.11%를 달성했다.
학습 데이터는 5,400만 장의 이미지, 1억 9,500만 개의 긍정 표현, 4억 8,800만 개의 하드 네거티브로 구성된다. 웹 스크래핑 이미지를 DINOv3 임베딩 기반 계층적 클러스터링으로 균일한 개념 커버리지를 확보하고, SAM 3·Qwen3-VL-30B·Moondream3의 앙상블 합의(IoU > 0.8)로 자동 수용 여부를 판정한다. 불일치 샘플은 인간 검증을 거친다. 긍정 대 부정 샘플 비율은 1:1로 유지해 존재 보정을 핵심 학습 목표로 설정했다.
TII는 Falcon OCR도 함께 공개했다. 0.3B(3억) 파라미터 규모로 olmOCR 벤치마크에서 80.3, OmniDocBench에서 88.6을 기록하며, 오픈소스 OCR 모델 중 가장 높은 처리량을 달성했다.