인공지능

앤트로픽, '클로드 3.7 소네트' 포켓몬 플레이 영상 공개

aiproductmanager 2025. 3. 3. 18:46
728x90
반응형

 

 

https://www.twitch.tv/claudeplayspokemon

 

ClaudePlaysPokemon - Twitch

Claude Plays Pokemon - Debut Stream

www.twitch.tv

 


앤트로픽이 새로운 모델 '클로드 3.7 소네트'의 인공지능(AI) 에이전트 기능을 측정하기 위해 사용한 '포켓몬' 게임 플레이 영상을 공개했다.  

앤트로픽은 25일(현지시간) 트위치를 통해 클로드 3.7 소네트가 '포켓몬 레드'를 직접 플레이하는 영상을 게시했다. 이는 유튜브 등에서 재중계되고 있다.

이 게임은 1996년 발매된 닌텐도용 게임이다. 플레이어는 방향키로 캐릭터를 움직이며 상황이 발생할 때 메뉴를 고르는 식으로 게임을 진행할 수 있다.

앤트로픽은 전날 새 모델을 공개하며 추론 모드가 없는 기존 버전의 클로드는 포켓몬 스토리가 시작되는 팔레트 타운의 집 밖으로 나가는 데에도 실패했지만, 추론 모드를 적용한 클로드 3.7 소네트는 게임의 보스와 싸워 배지를 획득하는 데 성공했다고 전한 바 있다. 

이를 통해 복잡한 작업에서 추론 능력으로 문제를 해결하는 에이전트 기능이 향상됐다는 설명이다.

나아가 이 과정을 공개한 것이다. 특히 게임 플레이 화면 왼쪽에는 클로드가 문제 해결을 위해 추론하는 과정을 그대로 노출했다.

사용자들은 이를 지켜보며 추론 방식에 대한 평가를 내리고 있다. "클로드가 나와 같은 생각을 하고 있다"라며 감탄하는 반응도 등장했다.

https://www.youtube.com/watch?v=4panxmPVTjI

 



AI의 성능을 측정하기 위해 게임을 활용한 것이 처음은 아니다. 지난해 4월에는 미스트랄 AI가 게임 '스트리트 파이터'를 활용, 대형언어모델(LLM) 간의 대결을 진행한 바 있다. 당시에는 'GPT-3.5'가 오픈AI와 미스트랄 AI의 다른 모델들을 꺾고 우승을 차지했다.

물론, 캐릭터 단순 조작에 불과했던 당시와 이번 테스트는 좀 다르다. 포켓몬을 클리어하려면 다양한 상황에 맞는 대응이 필요하기 때문이다. 

이처럼 게임은 AI의 유용한 벤치마크 도구로도 꼽힌다. 특히 AI 에이전트의 능력을 측정하기 위해 게임을 활용하는 사례는 늘어날 것으로 보인다.

출처 : AI타임스(https://www.aitimes.com)

728x90
반응형