목록으로
제품2026년 4월 10일 PM 08:40

마이크로소프트 MarkItDown, MCP 서버 지원 추가하며 깃허브 스타 97,000개 돌파

마이크로소프트의 오픈소스 문서 변환 도구 MarkItDown이 깃허브 트렌딩에 진입했다. 현재 깃허브 스타 97,812개를 기록하고 있으며, 하루 만에 2,353개의 스타가 추가되었다.

MarkItDown은 다양한 파일을 LLM 및 관련 텍스트 분석 파이프라인에서 사용할 수 있도록 마크다운으로 변환하는 경량 파이썬 유틸리티다. 제목, 목록, 표, 링크 등 문서의 중요 구조를 마크다운으로 보존하는 데 초점을 맞추고 있다.

최근 MCP(Model Context Protocol) 서버를 새로 제공하기 시작해 Claude Desktop 등 LLM 애플리케이션과의 통합을 지원한다. 또한 버전 0.0.1에서 0.1.0으로 업데이트되며 의존성 구조 변경, 스트림 처리 방식 개선 등 주요 변경 사항이 적용되었다.

현재 PowerPoint, Word, Excel, 이미지(EXIF 메타데이터 및 OCR), 오디오(EXIF 메타데이터 및 음성 전사), HTML, 텍스트 기반 포맷(CSV, JSON, XML), ZIP 파일, YouTube URL, EPub 등 다양한 파일 형식의 변환을 지원한다.

서드파티 플러그인 시스템도 도입되었다. markitdown-ocr 플러그인은 PDF, DOCX, PPTX, XLSX 변환기에 OCR 기능을 추가해 LLM 비전을 사용하여 내장 이미지에서 텍스트를 추출한다. 별도의 ML 라이브러리나 바이너리 의존성 없이 GPT-4o 등의 모델을 활용할 수 있다.

Azure Document Intelligence와의 통합도 지원해 고급 문서 변환이 필요한 경우 활용할 수 있다. Python 3.10 이상에서 동작하며, pip install을 통해 전체 또는 개별 파일 형식별로 선택적 설치가 가능하다.

프로젝트 측은 주류 LLM들이 방대한 양의 마크다운 형식 텍스트로 학습되어 마크다운을 잘 이해하며, 마크다운 표기법이 토큰 효율성도 높다고 설명한다. CLI와 파이썬 API, Docker를 통한 실행을 모두 지원한다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사