산업2025년 3월 23일 AM 03:59

메타, AI 훈련 위해 불법 도서 데이터베이스 활용 논란?

메타(Meta)가 자사의 AI 모델인 ‘라마 3(Llama 3)’를 훈련시키기 위해 수백만 권의 불법 출판물을 활용했다는 의혹이 제기됐다. 미국 언론 _더 애틀랜틱(The Atlantic)_ 의 보도에 따르면, 메타는 자사 AI가 경쟁력을 갖기 위해 방대한 양의 고품질 텍스트가 필요했으나, 이를 합법적으로 확보하는 과정이 비용과 시간이 지나치게 많이 든다고 판단한 것으로 드러났다.

내부 회사 채팅 기록과 법원 제출 자료에 따르면, 메타 연구진은 여러 출판사 및 연구 기관과의 라이선스 계약 가능성을 논의했으나, 높은 비용과 긴 소요 기간을 이유로 만족스럽지 않다는 반응을 보였던 것으로 밝혀졌다. 한 연구원은 내부 대화에서 “이건 터무니없이 비싸다”고 언급했으며, 다른 고위 매니저는 “데이터를 받는 데 4주 이상 걸린다. 너무 느리다”고 불만을 표출했다.

결국 메타는 논란이 있는 온라인 도서 데이터베이스인 _Library Genesis(리브젠·LibGen)_ 를 활용한 것으로 보인다. 리브젠은 학술 논문과 상업 도서 등을 무단으로 수집·배포하는 사이트로, 저작권 위반 논란이 지속적으로 제기되어 왔다. AI 훈련을 위한 무단 데이터 활용은 기술 업계에서 반복적으로 문제가 되어 온 사안이다. 오픈AI(OpenAI), 구글(Google) 등 주요 AI 기업들도 저작권 보호 콘텐츠를 AI 모델 훈련에 사용한 혐의로 여러 차례 법적 대응을 받은 바 있다.

AI가 저작권이 있는 콘텐츠를 학습하는 것이 공정 이용(Fair Use)에 해당하는지 여부는 현재 명확히 규정되지 않은 상태로, 이번 메타 사례가 향후 법적 논쟁을 더욱 심화시킬 가능성이 크다. 메타는 이에 대한 공식 입장을 밝히지 않고 있으며, 법적 대응 가능성도 배제할 수 없는 상황이다. 한편 저작권 보호를 주장하는 작가 및 출판사들은 AI 기업들의 데이터 수집 방식에 대한 보다 강력한 규제가 필요하다고 주장하고 있다.

메타, AI 훈련 위해 불법 도서 데이터베이스 활용 논란?

관련 기사