Sentence Transformers, 멀티모달 임베딩·리랭커 모델 공식 지원… 텍스트·이미지·오디오·비디오 교차 검색 가능
Hugging Face의 오픈소스 라이브러리 Sentence Transformers가 멀티모달 임베딩 및 리랭커 모델을 공식 지원한다. 이번 업데이트로 텍스트뿐 아니라 이미지, 오디오, 비디오를 하나의 공유 임베딩 공간에 매핑할 수 있게 되었으며, 시각 문서 검색, 교차 모달 검색, 멀티모달 RAG 파이프라인 등 새로운 활용 사례가 열렸다.
기존 Sentence Transformers의 임베딩 모델은 텍스트를 고정 크기 벡터로 변환하는 데 초점을 맞췄다. 멀티모달 임베딩 모델은 이를 확장해 서로 다른 모달리티의 입력을 동일한 임베딩 공간에 배치한다. 이를 통해 텍스트 쿼리로 이미지 문서를 검색하거나, 설명문으로 비디오 클립을 찾는 것이 기존의 유사도 함수만으로 가능해진다.
현재 지원되는 대표 모델은 Qwen3-VL-Embedding-2B와 Qwen3-VL-Reranker-2B이다. VLM 기반 모델 특성상 GPU가 필요하며, 2B 모델은 약 8GB, 8B 모델은 약 20GB의 VRAM이 요구된다. GPU가 없는 환경에서는 CLIP 등 텍스트 전용 모델이 더 적합하다고 안내하고 있다.
멀티모달 리랭커 모델도 함께 지원된다. 리랭커(Cross Encoder) 모델은 입력 쌍 간의 관련성 점수를 직접 계산하는 방식으로, 임베딩 모델보다 정확도가 높지만 각 쌍을 개별 처리해야 하므로 속도는 느리다. 텍스트와 이미지 입력을 혼합해 관련성을 평가할 수 있으며, 아키텍처 자체는 모델이 처리할 수 있는 모든 모달리티를 지원한다.
검색 파이프라인 구성을 위해 encode_query()와 encode_document() 메서드가 제공된다. 이 메서드들은 모델 설정에 지정된 쿼리용·문서용 프롬프트를 자동으로 적용해, 검색 시나리오에 맞는 최적화된 임베딩을 생성한다. Retrieve & Rerank 방식을 결합하면 대규모 문서에서 빠르게 후보를 추린 뒤 정밀 재순위를 매기는 파이프라인을 구축할 수 있다.
교차 모달 검색 시 유사도 점수가 동일 모달리티 내 비교보다 낮게 나타나는 이른바 '모달리티 갭' 현상이 존재한다. 서로 다른 모달리티의 임베딩이 공간 내 별도 영역에 군집하는 경향 때문이다. 그러나 상대적 순서는 유지되므로 검색 성능에는 영향이 없다고 설명하고 있다.
입력 형식은 URL, 로컬 파일 경로, PIL 이미지 객체 등 다양한 타입을 지원한다. 설치 시 필요한 모달리티에 따라 image, audio, video 등 추가 의존성을 선택적으로 설치할 수 있어, 불필요한 패키지 설치를 최소화할 수 있다.
이번 멀티모달 지원은 Sentence Transformers를 텍스트 검색 중심 라이브러리에서 범용 멀티모달 검색 프레임워크로 확장하는 의미를 갖는다. 이미 널리 사용되는 라이브러리의 기존 인터페이스를 그대로 유지하면서 멀티모달 기능을 추가한 점이 특징이다.