제품2026년 5월 16일 PM 12:31

데이터브릭스, GPT-5.5 도입… 자체 벤치마크 OfficeQA Pro 첫 50% 돌파

데이터브릭스가 OpenAI GPT-5.5를 자사 AI Unity Gateway에 추가해 엔터프라이즈 에이전트 워크플로에서 사용할 수 있게 했다. 자체 벤치마크 OfficeQA Pro에서 새 최첨단 성능을 세운 직후 결정이다.

OfficeQA Pro는 데이터브릭스가 운영하는 벤치마크로, 스캔된 PDF·레거시 파일·긴 컨텍스트 문서를 다루는 파싱과 검색, 근거 기반 추론 능력을 평가한다. 프로덕션 환경의 에이전트 시스템이 자주 무너지는 영역을 겨냥했다.

GPT-5.5는 에이전트 하니스 설정에서 정확도 50%를 처음 넘긴 모델이 됐고, 같은 벤치마크에서 직전 모델 GPT-5.4 대비 오류를 46% 줄였다.

가장 큰 향상은 파싱이 많이 들어가는 워크플로에서 나왔다. 데이터브릭스의 신지비(Singhvi)는 "5.4는 일부 자릿수를 제대로 추출하지 못하는 경우가 있었지만, 5.5는 옛 문서와 스캔된 PDF 파싱에서 단계 함수적 도약을 보였다"고 설명했다.

작은 추출 오류가 뒤 단계로 연쇄된다는 점도 강조됐다. 신지비는 "어떤 자릿수나 숫자를 못 뽑는 순간 에이전트가 그 뒤로 다루는 궤적 전체가 바뀐다"고 말했다.

멀티스텝 작업 오케스트레이션도 개선됐다. 5.4가 가끔 불필요한 검색 우회로를 만들어 비효율적인 궤적이 생기던 문제가 5.5에서 줄었고, 관련 컨텍스트 검색과 복잡한 워크플로 완수가 더 안정적이라고 회사 측은 밝혔다.

GPT-5.5는 데이터브릭스의 AI Unity Gateway를 거쳐 제공되며, 고객은 AgentBricks와 Agent Supervisor API로 만든 워크플로 안에서 사용한다. 이 구조에서 GPT-5.5는 전문 에이전트들을 거느리고 파싱·검색·실행을 감독한다.

신지비는 "Codex와 5.5의 조합은 시중의 어떤 에이전트·모델보다 앞선 최첨단"이라며 지식 업무 측면에서도 "단계 함수적 변화"가 있다고 평가했다.