목록으로
제품2026년 5월 6일 AM 04:33

AWS, Bedrock AgentCore Browser에 'OS Level Actions' 도입… InvokeBrowser API로 OS 네이티브 다이얼로그·인증서 선택기까지 자동화, 마우스·키보드·스크린샷 8종 액션 지원

AWS가 Amazon Bedrock AgentCore Browser에 운영체제 수준에서 직접 입력을 제어할 수 있는 'OS Level Actions' 기능을 공개했다. 기존 Playwright나 Chrome DevTools Protocol(CDP) 기반 브라우저 자동화는 DOM이 노출하는 웹 계층 안에서만 동작했지만, 이번 업데이트로 운영체제가 렌더링하는 네이티브 다이얼로그와 보안 프롬프트, 인증서 선택기, 컨텍스트 메뉴까지 에이전트가 직접 다룰 수 있게 됐다.

AWS는 기존 웹 자동화 계층의 한계로 window.print() 호출 시 등장하는 시스템 인쇄 대화상자, 키보드 단축키, 마우스 우클릭 컨텍스트 메뉴, macOS 프라이버시 다이얼로그, 윈도 보안 프롬프트, 인증서 선택기 등을 꼽았다. 이런 화면들은 DOM 바깥에 있어 CDP가 인지하지 못하고 Playwright도 상호작용할 수 없으며, 특히 프로덕션 환경에서 특정 애플리케이션 상태나 OS 설정, 사용자 권한에 따라 갑자기 등장한다는 점이 문제로 지적됐다.

비전 모델 기반 에이전트의 경우 스크린샷을 모델에 전송해 좌표나 명령을 받아 실행하는 루프가 일반적이지만, 네이티브 UI가 떠오르는 순간 이 흐름이 끊긴다. 모델은 무엇을 해야 할지 정확히 판단하더라도 CDP가 OS가 그린 화면에 닿을 수 없어 실행 자체가 불가능했다고 AWS는 설명했다.

OS Level Actions는 신규 및 기존 브라우저 구성에서 별도 설정 없이 사용할 수 있다. 세션이 활성화된 뒤 InvokeBrowser API를 통해 액션을 디스패치하며, 한 번의 호출에 하나의 액션만 담을 수 있고 결과로 SUCCESS 또는 FAILED 상태를 반환한다. 활성 세션은 'x-amzn-browser-session-id' 헤더로 식별된다.

예상되는 상호작용 패턴은 '액션-스크린샷-반응' 루프다. 에이전트가 클릭이나 입력 같은 액션을 보내고, 스크린샷으로 화면 상태를 관찰한 뒤 다음 액션을 결정하는 식이다. AgentCore는 브라우저 창 바깥 영역까지 포함한 전체 OS 데스크톱을 캡처해 base64 인코딩된 PNG로 반환한다.

지원되는 액션은 마우스 제어, 키보드 입력, 시각 캡처 세 부류로 묶인 8종이다. 마우스 부문에는 mouseClick, mouseMove, mouseDrag, mouseScroll이 포함되며, mouseClick은 좌표를 생략하면 현재 커서 위치에서 좌클릭 단일 클릭으로 수행되고 클릭 횟수는 1~10회까지 지정할 수 있다. mouseScroll은 deltaY가 음수일 때 아래로 스크롤되며 범위는 -1000~1000이다.

키보드 부문은 keyType, keyPress, keyShortcut 세 가지다. keyType은 문자열을 그대로 입력하며 최대 10,000자까지 지원하고, keyPress는 단일 키를 1~100회까지 반복 입력한다. keyShortcut은 최대 5개 키 조합을 동시에 누르며 ['ctrl', 'a']처럼 배열로 전달한다. 키 이름은 모두 소문자여야 하며 a~z, 0~9 단일 문자와 enter·tab·space·backspace·delete·escape·ctrl·alt·shift 같은 명명된 키가 지원된다.

screenshot 액션만 데이터를 반환하는 액션으로, 전체 OS 데스크톱을 base64 PNG로 돌려준다. 다른 액션은 상태와 실패 시 에러 필드만 반환한다. 사용을 위해서는 컨트롤 플레인 클라이언트(bedrock-agentcore-control)와 데이터 플레인 클라이언트(bedrock-agentcore) 두 개가 필요하며, 실행 역할(IAM)에는 bedrock-agentcore:InvokeBrowser, bedrock-agentcore:StartBrowserSession, bedrock-agentcore:StopBrowserSession 권한이 요구된다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사