오픈AI의 최신 추론 모델, '환각 현상' 오히려 심각해져
오픈AI가 최근 공개한 AI 추론 모델인 o3와 o4-mini가 우수한 성능에도 불구하고 환각 현상(hallucination)을 오히려 더 빈번히 일으키는 것으로 나타났다. 환각 현상은 AI 모델이 실제로 존재하지 않는 정보를 만들어내는 문제로, 해결이 매우 어려운 이슈 중 하나다.
일반적으로 새로운 AI 모델이 등장할 때마다 환각 현상 빈도는 줄어드는 경향을 보였지만, 오픈AI의 내부 평가에 따르면 이번 o3와 o4-mini는 이전 모델들보다 더 많은 환각을 일으킨다. 구체적으로, 사람에 대한 정확성을 평가하는 내부 벤치마크 ‘PersonQA’에서 o3 모델은 질문의 약 33%에서 잘못된 정보를 만들어냈으며, 이는 기존 모델 o1(16%)과 o3-mini(14.8%)의 두 배가 넘는 수치다. o4-mini는 이보다 심각한 48%의 환각 비율을 기록했다.
특히 제3자 기관인 비영리 AI 연구소 ‘트랜스루스(Transluce)’의 평가에서도 o3가 하지도 않은 행동을 했다고 주장하는 등 문제점을 나타냈다. 트랜스루스 연구원 닐 초두리는 “o 시리즈 모델에 적용된 강화학습 방식이 환각 문제를 더 증폭시킬 가능성이 있다”고 분석했다.
스탠포드 대학교 부교수이자 스타트업 워케라(Workera)의 CEO인 키안 카탄포루쉬도 o3 모델을 실제 업무에 적용하며 높은 성능을 확인했지만, 깨진 웹사이트 링크 등 잘못된 정보를 종종 생성한다고 밝혔다. 그는 이런 환각 현상 때문에 정확성이 중요한 산업에서는 모델 활용이 제한될 수 있다고 지적했다.
오픈AI는 환각 현상 해결을 위해 웹 검색 기능을 결합한 GPT-4o 모델이 간단한 질문 정확도 평가(SimpleQA)에서 90%의 높은 정확도를 보였다고 설명했다. 그러나 사용자가 외부 검색 제공자에게 프롬프트를 공개하는 데 동의해야 하는 한계점이 존재한다.
오픈AI 대변인 니코 펠릭스는 “모델의 환각 문제를 해결하기 위한 연구를 지속적으로 진행 중”이라며, “정확성과 신뢰성을 개선하기 위해 노력하고 있다”고 전했다.
지난해부터 AI 업계는 전통적인 AI 모델 성능 향상이 한계에 도달하면서 추론 모델 중심으로 전환하는 추세다. 그러나 추론 능력이 향상될수록 환각 현상이 늘어나는 역설적 현상은 AI 업계의 새로운 도전과제로 떠오르고 있다.