연구2026년 6월 3일 AM 05:34

AWS, 학습 없이 자연어 프롬프트로 객체 탐지하는 아마존 노바 2 라이트 활용법 공개

AWS가 별도 학습 없이 자연어 프롬프트만으로 이미지 속 객체를 탐지하는 아마존 노바 2 라이트 활용법을 공개했다. 전통적인 컴퓨터 비전은 데이터 파이프라인, 모델 학습 인프라, 연산 자원, 전담 데이터 사이언스 팀 구축에 큰 초기 투자가 필요해 소규모 기업이나 팀에는 부담이 컸다.

아마존 베드록을 통해 제공되는 멀티모달 파운데이션 모델 노바 2 라이트는 학습이 전혀 필요 없다. "vehicle(차량)", "person(사람)", "dent(찌그러짐)" 같은 객체명을 지정하면 정밀한 경계 상자(바운딩 박스) 좌표를 구조화된 JSON 형식으로 돌려준다.

객체 탐지 솔루션은 네 단계로 작동한다. 먼저 탐지할 객체와 JSON 출력 형식을 지정하는 프롬프트 엔지니어링, 인프라 관리 없이 노바 2 라이트를 호출하는 아마존 베드록 단계, 노바가 반환한 0~1000 스케일의 정규화 좌표를 픽셀 위치로 변환하는 좌표 처리, 마지막으로 이미지에 경계 상자를 그려 검증하는 시각화다.

이미지와 탐지할 객체 목록을 베드록의 Converse API로 보내면, 노바 2 라이트가 이미지를 분석해 각 객체의 경계 상자 좌표를 JSON으로 반환한다. 좌표는 [x_min, y_min, x_max, y_max] 형식으로, 좌상단과 우하단 모서리를 나타낸다.

AWS는 거리 장면 이미지로 노바 2 라이트를 시험해 "vehicle"과 "stop sign(정지 표지판)" 두 종류를 탐지하게 했다. 별도 학습이나 미세조정 없이도 작거나 멀리 있거나 부분적으로 가려진 객체까지 정확히 잡아냈고, 자세한 설명 없이 기본 객체명만으로 경계 상자가 객체 경계에 빈틈없이 들어맞았다고 밝혔다.

비용도 낮은 편이다. 아마존 베드록은 입력 토큰 1,000개당 0.0003달러, 출력 토큰 1,000개당 0.0025달러가 든다. 이미지 한 장은 보통 입력 230토큰(약 0.000069달러), 출력 약 200토큰(약 0.0005달러)으로, 1만 장을 처리해도 약 5.69달러 수준이다. 배포에 걸리는 시간은 30~45분으로 추산했다.

노바 2 라이트는 베드록 API로 호출하므로 어떤 AWS 연산 서비스에서도 쓸 수 있다. 이벤트 기반 작업과 API 엔드포인트에는 자동 확장과 사용량 과금 방식의 AWS 람다가, 런타임 환경 제어나 장시간 작업에는 EC2가, 컨테이너 배포에는 ECS·EKS가 적합하다. 어느 서비스를 택하든 모두 동일한 베드록 Converse API를 호출한다.

AWS는 객체 탐지를 보여주는 샘플 서버리스 웹 애플리케이션도 만들었다. 클라우드프런트가 비공개 S3 버킷의 단일 페이지 앱을 전 세계에 배포하고, 사용자가 이미지와 탐지할 객체를 올리면 API 게이트웨이가 요청을 람다로 보낸다. 람다는 베드록 Converse API를 호출해 노바에 이미지와 프롬프트를 전달하고, 반환된 정규화 좌표를 픽셀 위치로 바꿔 주석이 달린 상자로 렌더링해 되돌려준다.

전체 소스 코드는 AWS CDK 인프라 정의와 람다 함수까지 포함해 공개 저장소에 제공된다. AWS CLI와 CDK를 설치하고 베드록 콘솔에서 노바 2 라이트 접근을 활성화하면 배포가 간단하다고 AWS는 설명했다.

AWS, 학습 없이 자연어 프롬프트로 객체 탐지하는 아마존 노바 2 라이트 활용법 공개

관련 기사