연구2026년 4월 29일 PM 10:07
1931년 이전 텍스트로만 학습한 13B '빈티지' AI 'Talkie' 공개… 2,600억 토큰 공공 도메인 자료, 파이썬 없던 시대에도 +→- 기호 변환으로 코드 작성
연구자 닉 레빈(Nick Levine), 데이비드 듀베노(David Duvenaud, 전 Anthropic), 알렉 라드포드(Alec Radford, 전 OpenAI)가 1931년 이전 텍스트만으로 학습한 13B 파라미터 '빈티지' AI 모델 'Talkie'를 시연했다고 The Rundown AI가 보도했다. 인터넷보다 앞선 세계관을 가진 AI가 어떻게 사고하는지를 시험하기 위한 모델이다.
Talkie는 1931년 이전 책, 신문, 저널, 특허, 판례 등 미국 공공 도메인 자료 2,600억(260B) 토큰으로 학습됐다. 학습에는 현대 데이터가 일절 사용되지 않았다.
현대 데이터 없이 모델에 대화를 가르치기 위해 연구팀은 에티켓 매뉴얼과 요리책에서 인스트럭션을 추출했고, 답변 평가에는 Claude Sonnet 4.6을 활용했다.
파이썬 프로그래밍 언어는 1930년에 존재하지 않았지만, Talkie는 예시 코드의 더하기 기호(+)를 빼기 기호(-)로 바꾸는 방식으로 동작하는 코드를 작성해 일반화 능력을 입증했다고 The Rundown AI는 전했다.
AI 벤치마크는 모델이 자신의 테스트 데이터로 학습할 때 오염되는데, Talkie는 학습 시점이 현대 벤치마크보다 앞서 이 문제를 우회한다. 현행 프런티어 모델들이 비슷한 현대 웹 데이터를 학습해 결과물이 서로 비슷해지는 현상과도 대비된다.
연구팀은 GPT-3 수준의 버전을 다음 단계로 준비 중이라고 The Rundown AI는 덧붙였다.