제품2026년 4월 15일 PM 09:08
구글 오픈소스 Magika, 딥러닝 기반 파일 유형 탐지 도구… 1억 건 학습 200개 이상 포맷 지원
구글이 개발한 AI 기반 파일 유형 탐지 도구 Magika가 깃허브 트렌딩에 진입하며 스타 13,366개를 기록했다. 하루 동안 833개의 새 스타를 획득하며 개발자 커뮤니티의 관심을 모으고 있다.
Magika는 딥러닝의 최근 발전을 활용하여 정확한 파일 유형 감지를 제공하는 도구다. 내부적으로 수 MB 수준의 고도로 최적화된 커스텀 모델을 사용하며, 단일 CPU에서도 밀리초 단위의 정밀한 파일 식별이 가능하다.
이 도구는 바이너리와 텍스트 파일 포맷을 모두 포함하는 200개 이상의 콘텐츠 유형에 걸쳐 약 1억 건의 샘플로 학습 및 평가되었다. 파일 크기와 무관하게 거의 일정한 추론 시간을 보장하며, 파일 콘텐츠의 제한된 부분만 활용한다.
Magika는 콘텐츠 유형별 임계값 시스템을 사용하여 모델의 예측을 신뢰할지, 아니면 일반 텍스트 문서나 알 수 없는 바이너리 데이터 같은 일반 라벨을 반환할지 결정한다. 고신뢰, 중신뢰, 최적 추측 등 다양한 예측 모드로 오류 허용 범위를 제어할 수 있다.
CLI 도구로서 디렉토리를 재귀적으로 스캔하는 기능을 제공하며, Python 모듈로도 사용 가능하다. 파일 경로, 바이트 데이터, 스트림 등 다양한 입력 방식을 지원하여 기존 워크플로우에 쉽게 통합할 수 있다.
보안 분석, 데이터 파이프라인, 파일 관리 시스템 등 파일 유형을 정확하게 판별해야 하는 다양한 분야에서 기존 시그니처 기반 탐지 방식의 대안으로 주목받고 있다.