OpenAI, 머신러닝 챌린지 'Parameter Golf' 8주 결산 공개
OpenAI가 8주간 운영한 머신러닝 챌린지 'Parameter Golf'를 결산해 공개했다. 1,000명이 넘는 참가자가 2,000건 이상의 제출을 냈고, 옵티마이저 튜닝부터 양자화·테스트 타임 학습·새로운 모델링 아이디어까지 폭넓은 기법이 등장했다.
챌린지 규칙은 다음과 같다. 고정된 FineWeb 데이터셋에서 held-out loss를 최소화하되, 모델 가중치와 학습 코드를 합한 아티팩트 크기를 16 MB 이내로 유지하고, H100 8장에서 10분 안에 학습을 마쳐야 한다. OpenAI는 베이스라인과 데이터셋, 평가 스크립트를 제공해 참가자가 리포지토리를 포크해 개선한 뒤 GitHub로 제출하도록 했다.
기록 트랙에서 OpenAI는 9개 제출을 부각했다. 학습 최적화 부문에서는 @notapplica의 #60이 Muon 가중치 감쇠, spectral embedding 초기화, residual-mix 스케줄링, 컴파일된 평가 등 기존 개선들을 결합해 더 깊은 모델을 안정적으로 동작시켰다.
양자화 부문에서는 @signalrush가 #414에서 GPTQ-lite로 학습 후 가중치를 양자화한 첫 성공 사례를 만들었고, @dexhunter는 @raahilshah의 #634 위에서 full Hessian GPTQ를 적용한 #1060으로 압축 경로를 확장했다.
테스트 타임·평가 전략 부문에서는 @samacqua의 #77이 'score-first' 방식으로 이미 채점된 청크에만 LoRA 테스트 타임 학습을 적용하고 문서 경계에서 초기화하는 기법을 선보였다. @abaybektursun의 #1019는 학습된 모델로 calibration 텍스트를 직접 생성한 뒤 그 활성값으로 GPTQ 헤시안을 구성하는 self-generated GPTQ calibration을 시도했다.
새로운 모델·데이터 아이디어도 등장했다. @romeerp의 #1729는 대소문자를 무손실로 인코딩하는 CaseOps 토크나이저를 도입했고, @unnir의 #265는 GQA-aware 그룹 뷰가 결합된 부분 Exclusive Self Attention(XSA)을 제안했다. @aquariouseworkman의 #65는 학습형 이전 토큰 임베딩 블렌드와 인접 토큰 쌍 해시 피처를 새로 만든 SmearGate와 BigramHash를 도입했고, @msisovic의 #1204는 4·5번 레이어를 반복하고 학습 중반에야 재귀를 시작하는 mini depth recurrence로 재귀 레이어를 효과적으로 작동시킨 첫 사례가 됐다.
비기록 트랙에서는 15개 제출이 강조됐다. 비자기회귀 텍스트 모델링이나 동적 토큰화 같은 실험적 접근이 다수였으며, 순수 성능보다는 기술적 흥미를 기준으로 평가됐다. 그럼에도 트랙 절반의 제출이 1.22 BPB의 단순 베이스라인을 넘었고, 최상위 제출은 1.12 BPB까지 도달했다.
이번 챌린지의 가장 큰 변화는 AI 코딩 에이전트의 광범위한 활용이었다. 대다수 제출자가 작업에 에이전트를 사용했다고 밝혔으며, 실험 셋업과 낯선 코드 분석, 아이디어 검증의 마찰을 크게 낮췄다. RunPod은 100만 달러 규모의 컴퓨트를 후원해 진입장벽 완화에 함께 기여했다.
에이전트 활용은 운영상의 부담도 만들었다. 상위 제출의 작은 변형이 빠르게 확산하면서 노이즈가 늘었고, 가이드라인 밖에 있는 제출이 비정상적으로 높은 점수를 내자 다른 에이전트가 그 경로를 복제하는 사례도 있었다. OpenAI는 새 제출을 모니터링하고 사람 검토용으로 플래깅하는 Codex 기반 분류 봇을 자체 개발해 운영했다.
챌린지는 커뮤니티 도구도 키웠다. @notapplica와 그의 코딩 에이전트가 운영한 'Live Updates' 게시판은 주요 이벤트와 리더보드 접근을 정리해 참가자에게 공유했고, 제출이 규칙에 맞는지 확인해주는 커뮤니티 리뷰 도구도 등장했다. OpenAI는 이번 챌린지가 의미 있는 인재 발굴의 장이었다고 자평했다.