앤트로픽, ‘클로드 3.7 소네트’ AI 에이전트 기능 검증 위해 ‘포켓몬 레드’ 플레이 영상 공개

앤트로픽(Anthropic)이 최신 AI 모델 **‘클로드 3.7 소네트(Claude 3.7 Sonnet)’**의 인공지능(AI) 에이전트 기능을 검증하기 위해 닌텐도 클래식 게임 ‘포켓몬 레드(Pokémon Red)’를 직접 플레이하는 영상을 공개했다.

앤트로픽은 25일(현지시간) 트위치(Twitch)를 통해 클로드 3.7 소네트가 ‘포켓몬 레드’를 플레이하는 장면을 실시간으로 송출했으며, 해당 영상은 유튜브 등을 통해 재중계되고 있다.

‘포켓몬 레드’에서 검증된 클로드 3.7 소네트의 향상된 AI 에이전트 기능

‘포켓몬 레드’는 1996년 출시된 닌텐도용 RPG 게임으로, 플레이어는 방향키로 캐릭터를 이동시키고, 특정 이벤트 발생 시 메뉴를 선택하는 방식으로 게임을 진행한다.

앤트로픽은 이번 실험을 통해 클로드 3.7 소네트의 추론 능력과 복잡한 작업 수행 능력을 강조했다.

이전 버전의 클로드는 추론 모드 없이 게임을 플레이한 결과, 스토리가 시작되는 ‘팔레트 타운(Pallet Town)’에서 집 밖으로 나가는 것조차 실패했다. 하지만 클로드 3.7 소네트는 추론 모드를 적용한 상태에서 게임 내 보스를 격파하고 배지를 획득하는 데 성공했다.

앤트로픽은 이러한 실험 결과를 바탕으로 새로운 AI 모델이 복잡한 환경에서 추론을 통해 문제를 해결하는 능력이 크게 향상되었음을 시사한다고 설명했다.

특히, 이번 영상에서 게임 화면 왼쪽에 클로드 3.7 소네트의 실시간 추론 과정이 그대로 노출되면서, AI가 문제를 해결하는 사고 방식이 투명하게 공개됐다. 이를 지켜본 사용자들은 “클로드가 나와 같은 생각을 하고 있다”라며 감탄하는 반응을 보이기도 했다.

게임, AI 벤치마크 도구로 활용 증가… AI 에이전트 평가 방식 진화

게임을 활용한 AI 성능 검증은 이번이 처음이 아니다.

  • 2023년 4월, **미스트랄 AI(Mistral AI)**는 격투 게임 **‘스트리트 파이터(Street Fighter)’**를 통해 대형언어모델(LLM) 간 대결을 실험한 바 있다. 당시 GPT-3.5가 오픈AI와 미스트랄 AI의 다른 모델들을 제치고 우승을 차지했다.
  • 하지만 당시 실험은 단순한 캐릭터 조작에 초점을 맞췄던 반면, 이번 테스트는 AI가 게임 내 복잡한 환경과 전략적 의사결정을 수행할 수 있는지를 평가하는 방식이라는 점에서 차이가 있다.

이처럼 게임은 AI의 문제 해결 능력과 적응력을 평가하는 중요한 벤치마크 도구로 자리 잡고 있다. 특히, AI 에이전트의 실용성을 검증하는 실험이 늘어나면서, 향후 다양한 게임이 AI 테스트 환경으로 활용될 가능성이 높아지고 있다.

Comments

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다