목록으로
제품2026년 5월 2일 PM 08:36

GitHub 'D4Vinci/Scrapling' 트렌딩… 페이지 변경 자동 적응·Cloudflare Turnstile 우회·MCP 내장 AI 웹스크래핑 프레임워크, 누적 40,685스타·당일 +1,284

D4Vinci가 공개한 파이썬 웹스크래핑 프레임워크 Scrapling이 GitHub 트렌딩 상단에 올랐다. 누적 스타는 40,685개, 당일에만 1,284개가 추가됐다. 단일 요청부터 풀 스케일 크롤까지 한 라이브러리에서 처리한다는 점을 내세운다.

핵심 차별점은 적응형(adaptive) 파서다. 웹사이트 디자인이 바뀌어도 파서가 변경 사항을 학습해 요소를 자동으로 다시 찾아낸다. CSS 셀렉터 호출 시 auto_save=True로 데이터를 저장해 두고, 이후 구조가 바뀌면 adaptive=True 옵션을 넘기는 방식으로 같은 요소를 다시 매칭한다.

안티봇 우회는 기본 탑재 기능이다. StealthyFetcher가 Cloudflare Turnstile과 Interstitial을 별도 자동화 없이 통과한다고 명시한다. 페처 클래스는 HTTP 요청용 Fetcher, 비동기용 AsyncFetcher, 스텔스용 StealthyFetcher, 동적 페이지용 DynamicFetcher 네 종류로 구성된다.

Spider API는 Scrapy와 유사한 형태다. start_urls와 비동기 parse 콜백, Request·Response 객체를 정의해 사용한다. 동시성 한도, 도메인별 쓰로틀링, 다운로드 지연을 설정할 수 있고, 단일 스파이더 안에서 HTTP 요청과 스텔스 헤드리스 브라우저를 세션 ID로 라우팅한다. 체크포인트 기반의 일시정지·재개와 'async for item in spider.stream()' 스트리밍 모드도 지원한다.

AI 연동을 위해 MCP 서버가 내장됐다. 프로젝트 설명은 "Scrapling을 활용해 타깃 콘텐츠를 먼저 추출한 뒤 Claude·Cursor 등 AI에 전달함으로써 운영 속도를 높이고 토큰 사용량을 최소화해 비용을 줄인다"고 밝힌다. AI 어시스턴트가 페이지 전체를 직접 읽는 대신 스크래퍼가 정제한 데이터만 받게 하려는 설계다.

동적 페이지 처리는 Playwright의 Chromium과 Google의 Chrome을 통한 풀 브라우저 자동화로 이뤄진다. FetcherSession·StealthySession·DynamicSession 세션 클래스로 쿠키와 상태를 유지하며, 내장 ProxyRotator가 순환 또는 커스텀 전략으로 모든 세션 유형에 걸쳐 프록시를 회전한다. HTTP 요청은 브라우저 TLS 지문과 헤더를 흉내 내고 HTTP/3를 사용할 수 있다.

부가 기능으로 약 3,500개 광고·트래커 도메인 차단, Cloudflare DoH(DNS-over-HTTPS)를 통한 DNS 누수 방지, 표준 라이브러리 대비 10배 빠른 JSON 직렬화가 명시됐다. 테스트 커버리지는 92%, 풀 타입 힌트 커버리지를 갖췄으며 PyRight·MyPy로 변경 시마다 자동 스캔된다. robots_txt_obey 플래그를 켜면 Disallow·Crawl-delay·Request-rate 지시어를 도메인별 캐싱과 함께 준수한다.

개발 도구로는 IPython 통합 셸이 제공된다. curl 요청을 Scrapling 요청으로 변환하거나 결과를 브라우저에서 바로 확인할 수 있다. 코드를 한 줄도 쓰지 않고 터미널에서 직접 URL을 스크랩할 수 있는 CLI도 포함된다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사