연구2026년 5월 20일 AM 05:10

AllenAI, 위성 모델 OlmoEarth v1.1 공개… 추론 비용 최대 3배 절감

AllenAI가 위성 이미지 분석을 위한 트랜스포머 기반 모델 가족 'OlmoEarth v1.1'을 공개했다. v1.1은 모든 모델 크기에서 OlmoEarth v1 대비 컴퓨트 비용을 최대 3배까지 절감하면서, 연구 벤치마크와 파트너 과제에서 v1과 비슷한 성능을 유지했다.

OlmoEarth v1은 2025년 11월에 처음 공개됐고, 그 사이 파트너들은 맹그로브 변화 추적, 산림 손실 원인 분류, 국가 규모의 작물 종류 지도를 며칠 만에 생산하는 등 다양한 작업에 적용해 왔다. 수만에서 수십만 제곱킬로미터 단위로 위성 이미지를 처리할 때는 데이터 추출·전처리·추론·후처리 전 단계에서 컴퓨트 비용이 가장 큰 비중을 차지한다.

효율을 좌우하는 핵심 레버는 두 가지다. 모델 크기는 사용자가 컴퓨트 예산에 맞춰 고를 수 있도록 가족 형태로 공개되고, 토큰 시퀀스 길이는 컴퓨트 비용에 제곱으로 영향을 미친다. 시퀀스 길이를 조금만 줄여도 모델 실행 비용을 의미 있게 깎을 수 있다는 뜻이다. 비용 지표로는 한 번의 모델 전방 패스에 필요한 연산량을 추정하는 MACs(곱셈-누적 연산)를 사용한다.

AllenAI가 자주 다루는 Sentinel-2 위성 이미지는 위도·경도 픽셀(H·W), 시점 차원(T), 12개 채널(D=12)을 가진 텐서다. 기존 방식은 이미지를 p × p 크기의 공간 패치로 나눈 뒤, 패치별로 시점과 해상도 조합마다 토큰을 하나씩 만든다. 예컨대 시점 2개를 가진 Sentinel-2 입력은 패치당 시점 2 × 해상도 3종(10m, 20m, 60m) = 6개의 토큰을 만들어 낸다.

해상도별로 토큰을 따로 두는 방식은 Galileo와 SatMAE 같은 원격탐사 모델이 채택한 방식이고, SatMAE는 이렇게 했을 때 결과가 크게 좋아진다고 보고했다. 반면 CROMA는 해상도와 무관하게 모든 밴드를 하나의 토큰으로 묶는데, 토큰 수가 곱셈으로 쌓이는 구조여서 해상도를 합치면 토큰이 3분의 1로 줄어 사전학습·파인튜닝·추론 전반에서 실질적인 비용 절감이 생긴다.

그러나 단순히 토큰을 합치기만 하면 성능이 크게 떨어진다. AllenAI는 원격탐사 벤치마크인 m-eurosat kNN에서 단순 결합 시 10퍼센트포인트의 성능 하락을 관찰했다. Sentinel-2의 밴드를 서로 다른 토큰으로 두는 편이 OlmoEarth가 밴드 간 관계를 학습하기에 유리하다는 가설이다. 성능을 잃지 않고 토큰을 합치기 위해 사전학습 절차를 수정했고, 자세한 내용은 논문에 담았다고 밝혔다.

개발자에게는 가족 단위 절감이 직접적인 이점이다. OlmoEarth v1.1은 모든 크기에서 v1 대비 약 3분의 1 컴퓨트로 비슷한 성능을 내, 행성 규모의 지도를 잦은 주기로 갱신하는 작업에 유리하다. AllenAI는 일부 회귀(성능 저하) 사례가 있을 수 있다고 안내하며, 작업에 맞으면 파인튜닝과 추론에서 상당한 속도 향상을 볼 수 있다고 설명했다.

연구자에게는 학습 데이터셋이 v1과 동일하다는 점이 강점이다. v1과 v1.1 사이의 차이가 곧 방법론적 변화의 효과를 분리해 준다는 의미로, 원격탐사 모델 사전학습의 과학적 원리를 이해하는 데 도움이 되도록 설계했다고 밝혔다. 가중치는 Base·Tiny·Nano 세 가지 크기로 공개됐고, 학습 코드도 함께 제공된다.

AllenAI, 위성 모델 OlmoEarth v1.1 공개… 추론 비용 최대 3배 절감

관련 기사