MIT 테크놀로지 리뷰 "AI 'Step 2'가 비어 있다"… 머콜 480개 직무 평가서 OpenAI·앤스로픽·구글 딥마인드 에이전트 모두 대다수 업무 실패
MIT 테크놀로지 리뷰가 AI 업계의 큰 약속과 현실 사이의 '잃어버린 연결고리'를 지적했다. 글은 사우스파크 1998년 에피소드 'Gnomes'에 등장하는 노움(gnome)들의 사업 계획 "Phase 1: 속옷 수집 → Phase 2: ? → Phase 3: 수익(Profit)"을 빌려, 현재 AI 기업들이 'Step 1: 기술 구축'과 'Step 3: 변혁'만 외치는 사이 'Step 2'가 공백으로 남아 있다고 주장했다.
글의 도입부에는 2월 런던에서 열린 반(反)AI 시위에서 필자가 입수한 전단지가 등장한다. 시위를 공동 주최한 국제 활동가 단체 Pause AI가 제작한 이 전단지는 "Step 1: 디지털 슈퍼 마인드 키우기. Step 2: ? Step 3: ?"라고 적은 뒤 독자에게 "도대체 Step 2가 무엇인지 알기 전까지 AI를 멈추라(Pause AI until we know what the hell Step 2 is)"고 호소했다.
Pause AI 측은 Step 2가 어떤 형태든 규제를 포함해야 한다는 입장이지만, 그 내용과 집행 주체에 대해서는 논의가 진행 중이다. 반대로 AI 옹호 측은 Step 3을 '구원'으로 보고 중간 단계를 흐릿하게 처리한다. OpenAI 수석 과학자 야쿠브 파초키(Jakub Pachocki)는 필자에게 AI를 "경제적으로 변혁적인 기술(economically transformative technology)"이라고 표현했다.
필자는 두 건의 최근 연구를 들어 과장된 기대에 제동을 건다. 앤스로픽이 발표한 첫 번째 연구는 LLM의 영향을 가장 크게 받을 직군으로 매니저·아키텍트·미디어 종사자를 꼽고, 정원 관리·건설·접객업은 영향이 적을 것이라고 예측했다. 다만 이 예측은 LLM이 잘 처리하는 것처럼 보이는 작업 유형에 기반한 것이지 실제 직장에서의 수행 성과를 측정한 결과가 아니라고 글은 지적한다.
두 번째는 AI 채용 스타트업 머콜(Mercor)이 2월 발표한 연구다. 머콜은 OpenAI·앤스로픽·구글 딥마인드의 최상위 모델로 구동되는 여러 AI 에이전트를 인간 뱅커·컨설턴트·변호사가 일상적으로 수행하는 480개 직무 과제로 평가했다. 그 결과 시험에 투입된 모든 에이전트가 자신에게 주어진 업무 대부분을 완수하지 못한 것으로 나타났다.
글은 두 결과의 격차에 대한 해석으로, 우선 발언 주체와 이해관계를 살필 것을 주문한다. 앤스로픽처럼 사업적 이해관계가 걸린 측이 "큰 변화가 임박했다"고 말할 때, 그 결론은 주로 AI 코딩 도구의 발전 속도에 근거한다는 것이다. 그러나 모든 업무가 코딩으로 해결되는 것은 아니며, LLM이 전략적 판단에는 약하다는 다른 연구 결과도 존재한다.
또한 AI 도구가 실제로 배치될 때는 사람과 기존 워크플로우가 뒤섞인 환경에서 작동해야 하며, 때로는 AI 도입이 상황을 더 악화시킬 수 있다고 글은 짚는다. 이를 변혁 수준으로 끌어올리려면 워크플로우 자체를 새 기술 중심으로 재구성해야 하며, 그 과정에는 시간과 결단이 필요하다.
글은 결론으로 'Step 2'의 공백이 정보 진공을 만들고, 그 자리를 매주 등장하는 자극적인 주장이 메우면서 단 한 건의 SNS 게시물이 시장을 뒤흔드는 상황으로 이어졌다고 진단한다. 이를 메우려면 모델 개발사의 투명성, 연구자와 기업 간 조율, 그리고 실제 배치 후 결과를 측정할 새로운 평가 방법이 필요하다고 강조한다.
관련 기사
AWS, SageMaker AI·MLflow로 Strands Agents 구축 가이드 공개… Qwen3 4B/8B 엔드포인트 배포·OpenAI 호환 API·서버리스 MLflow 추적·A/B 테스트 4단계 시연
허깅페이스, OpenAI Privacy Filter 활용 PII 보호 웹앱 3종 가이드 공개… 1.5B 모델·128K 컨텍스트·BIOES 디코딩에 gradio.Server 통합
'deepseek-ai/DeepSeek-V3' 깃허브 트렌딩… 671B MoE·14.8조 토큰·H800 278.8만 GPU시간 학습, FP8 혼합정밀·128K 컨텍스트