목록으로
정책2026년 4월 13일 PM 09:05

인터넷 아카이브 웨이백 머신, 주요 언론사 차단으로 존립 위기… AI 학습 우려가 원인

인터넷의 디지털 기록 보존을 담당해 온 인터넷 아카이브의 웨이백 머신이 주요 언론사들의 크롤러 차단으로 심각한 위기에 처했다. AI 기업들이 아카이브 데이터를 학습에 활용할 수 있다는 우려가 이번 차단 물결의 핵심 원인으로 지목되고 있다.

AI 탐지 스타트업 Originality AI의 분석에 따르면, 현재 23개 주요 뉴스 사이트가 인터넷 아카이브의 웹 크롤러 ia_archiverbot을 차단하고 있다. 뉴욕타임스와 소셜 플랫폼 레딧도 이에 포함된다. 가디언은 크롤러 자체는 차단하지 않지만, 인터넷 아카이브 API와 웨이백 머신 인터페이스에서 자사 콘텐츠를 필터링해 일반 사용자의 접근을 제한하고 있다.

USA Today Co.(구 Gannett)는 200개 이상의 매체를 운영하면서도 웨이백 머신의 아카이빙을 차단하고 있다. 아이러니하게도 이 회사는 최근 웨이백 머신을 활용해 미국 이민세관단속국(ICE)의 구금 정책 영향을 추적하는 탐사 보도를 발행한 바 있다. 웨이백 머신 디렉터 마크 그레이엄은 "그들은 웨이백 머신 덕분에 취재 조사를 수행할 수 있으면서도 동시에 접근을 차단하고 있다"고 지적했다.

뉴욕타임스 대변인 그레이엄 제임스는 "인터넷 아카이브에 있는 타임스 콘텐츠가 AI 기업들에 의해 저작권법 위반으로 사용되어 우리와 직접 경쟁하고 있다는 것이 문제"라고 밝혔다. 레딧 역시 AI 관련 우려를 이유로 웨이백 머신 크롤러를 차단했다고 밝힌 바 있다. 현재 미국에서는 100건 이상의 AI 저작권 소송이 진행 중이며, AI 기업의 무단 콘텐츠 학습을 둘러싼 출판사와 기술 기업 간 분쟁이 격화되고 있다.

이에 반발해 전자프론티어재단(EFF)과 Fight for the Future 등 시민단체가 기자들을 규합해 웨이백 머신 지지 운동에 나섰다. 이번 주 수집된 지지 서한에는 TV 앵커 레이첼 매도우, Spitfire News의 캣 텐버지, User Mag의 테일러 로렌츠 등 100명 이상의 현직 기자가 서명했다.

서한은 "과거 세대의 기자들은 지역 신문이나 공공 도서관의 물리적 아카이브에서 역사적 보도를 찾았지만, 많은 신문이 폐간되고 디지털 전용 보도를 보존할 명확한 경로가 없는 상황에서 저널리즘 기록 보호 작업은 점점 인터넷 아카이브에 의존하고 있다"고 강조했다.

인터넷 아카이브는 30년간 1조 개 이상의 웹 페이지를 아카이빙해 왔다. 이 비영리단체는 2020년 이후 여러 대형 법적 분쟁을 겪었으며, 가장 최근에는 빈티지 음반을 아카이빙한 Great 78s 프로젝트를 둘러싸고 최대 7억 달러의 배상을 요구한 주요 음악 출판사 그룹과 합의했다.

웨이백 머신에 필적할 만한 공개 도구는 현재 존재하지 않는다. 주요 뉴스 소스에 대한 접근이 계속 차단될 경우, 초기 디지털 기록이 접근 불가능하거나 영구 소실될 위험이 있다. 특히 웨이백 머신으로 아카이빙된 페이지는 미국 전역의 소송에서 증거로 빈번히 인용되어 왔기 때문에, 기능 약화는 책임 저널리즘뿐 아니라 법적 시스템에도 타격을 줄 수 있다.

마크 그레이엄은 뉴욕타임스 등 현재 크롤러를 차단하고 있는 출판사들과 "대화 중"이라고 밝혔다. 그는 "공개 웹의 점점 더 많은 부분이 잠기고 있는 것이 사회의 세계 이해 능력에 영향을 미치고 있다는 점은 의문의 여지가 없다"고 말했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사