인공지능

genie-3, 구글의 실시간 영상 제작 플랫폼,텍스트 프롬프트로 생성된 3D 환경에서 실시간으로 상호작용

망고노트 2025. 8. 14. 08:00
728x90
반응형

https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/

 

Genie 3: A New Frontier for World Models

Today we are announcing Genie 3, a general purpose world model that can generate an unprecedented diversity of interactive environments. Given a text prompt, Genie 3 can generate dynamic worlds...

deepmind.google

DeepMind의 Genie 3: 세계 모델링의 새로운 경계

2025년 8월에 공개된 DeepMind의 Genie 3는 AI 기반 세계 모델링 분야에서 중요한 진전을 보여줍니다.

  • Genie 3는 이전 모델들과 달리, 간단한 텍스트 프롬프트로 생성된 3D 환경에서 실시간으로 상호작용할 수 있게 해줍니다.
  • 720p 해상도, 초당 24 프레임으로 3D 세계를 렌더링하며, 이전 모델들이 10~20초 정도 유지하던 장면을 몇 분간 지속시킬 수 있습니다.

주요 특징

  • 실시간 상호작용: 사용자는 날씨를 바꾸거나 물건을 추가하는 등 가상 세계를 동적으로 탐험하고 수정할 수 있으며, 환경을 다시 불러올 필요가 없습니다.
  • 지속적인 메모리 유지: 벽에 그림을 그리는 등 환경에 가한 변화가 장면 전환 후에도 유지되어 현실감과 연속성을 높입니다.
  • 자기회귀 세계 모델링: 영상 데이터를 바탕으로 학습된 자기회귀 모델을 사용해 물리 법칙을 내재화하고 시공간적 일관성을 갖춘 시뮬레이션을 구현합니다.

활용 및 한계

  • Genie 3는 AI 에이전트 훈련, 교육용 시뮬레이션, 몰입형 가상현실 경험 등 다양한 분야에서 가능성을 보여줍니다.
  • 그러나 현재 메모리 유지 시간이 몇 분에 불과하며, 복잡한 실제 지형 시뮬레이션에는 한계가 있습니다.
  • 또한, 아직 일반에 공개되지 않았으며 제한된 테스터만 접근할 수 있습니다.

텍스트 프롬프트가 주어지면 Genie 3는 초당 24프레임으로 실시간으로 탐색할 수 있는 역동적인 세계를 생성할 수 있으며, 720p의 해상도에서 몇 분 동안 일관성을 유지

 

 

Genie 3는 AI 기반 세계 모델링 분야에서 큰 발전을 이룬 모델로 보입니다.


Genie 3의 핵심 기술과 특징

Genie 3는 이전 모델들과는 차별화되는 몇 가지 중요한 특징을 가지고 있습니다.

  • 실시간 상호작용: 텍스트 프롬프트로 생성된 3D 환경에서 사용자가 날씨를 바꾸거나 물건을 추가하는 등 실시간으로 환경을 수정하고 탐험할 수 있습니다. 이는 기존 모델들이 단순히 정적인 장면을 생성하던 것과 비교했을 때 매우 큰 진전입니다.
  • 지속적인 메모리 유지: 환경에 가해진 변화가 장면이 전환된 후에도 유지됩니다. 예를 들어, 벽에 그림을 그린 후 다른 곳으로 이동했다가 다시 돌아와도 그림이 그대로 남아있어 높은 현실감과 연속성을 제공합니다.
  • 자기회귀 세계 모델링: 영상 데이터를 통해 학습된 자기회귀 모델을 사용하여 물리 법칙과 시공간적 일관성을 갖춘 시뮬레이션을 구현합니다. 이는 현실 세계와 유사한 상호작용을 가능하게 하는 핵심 기술입니다.
  • 고해상도 및 장시간 지속: 720p 해상도와 초당 24 프레임으로 3D 세계를 렌더링하며, 이전 모델들이 10~20초 정도 유지하던 장면을 몇 분간 지속시킬 수 있습니다.

Genie 3의 활용 및 한계

Genie 3는 다양한 분야에서 혁신적인 가능성을 제시하지만, 아직 해결해야 할 과제들도 남아있습니다.

  • 활용 가능성:
    • AI 에이전트 훈련: 현실과 유사한 가상 환경에서 AI 에이전트를 훈련시켜 효율성을 높일 수 있습니다.
    • 교육용 시뮬레이션: 과학 실험이나 역사적 사건 재현 등 몰입감 있는 교육 콘텐츠 제작에 활용될 수 있습니다.
    • 몰입형 가상현실 경험: 사용자에게 더욱 현실감 있고 상호작용적인 가상현실 경험을 제공할 수 있습니다.
  • 현재의 한계:
    • 제한적인 메모리 유지 시간: 현재는 메모리 유지 시간이 몇 분에 불과하여 장시간의 복잡한 시뮬레이션에는 한계가 있습니다.
    • 복잡한 지형 시뮬레이션의 어려움: 아직까지는 복잡한 실제 지형을 완벽하게 시뮬레이션하는 데 어려움이 있습니다.
    • 제한된 접근성: 일반에 공개되지 않았고, 소수의 테스터만 접근할 수 있습니다.

Genie 3는 아직 초기 단계이지만, 실시간 상호작용과 지속적인 메모리 유지 기능을 통해 AI가 가상 세계를 이해하고 모델링하는 방식에 있어 중요한 전환점이 될 것으로 기대됩니다.

 
 

Genie 3의 경쟁 환경

현재까지 공개된 정보에 따르면, Genie 3와 직접적으로 경쟁하는 서비스는 아직 많지 않은 것으로 보입니다. Genie 3는 단순한 텍스트-비디오 생성 모델을 넘어, 사용자가 실시간으로 상호작용하고 수정할 수 있는 3D 세계를 생성한다는 점에서 독보적인 위치를 차지하고 있습니다.

  • 기존 텍스트-비디오 모델과의 차이: OpenAI의 Sora와 같은 기존 모델들은 사용자가 개입할 수 없는 고정된 비디오 클립을 생성하는 반면, Genie 3는 사용자의 행동에 반응하는 인터랙티브한 3D 가상 세계를 만들어냅니다.
  • 잠재적 경쟁자:
    • xAI (일론 머스크): xAI의 CEO인 일론 머스크는 Genie 3의 경쟁 모델을 두 달 내에 출시할 계획이라고 밝힌 바 있습니다. 이는 텍스트 프롬프트 기반의 실시간 세계 생성을 목표로 하며, 특히 자율주행 차량(FSD) 훈련을 위한 가상 시뮬레이션에 활용될 가능성이 높습니다.
    • 기존 게임 엔진: Unreal Engine 5와 같은 기존 게임 엔진들은 이미 복잡하고 현실적인 3D 세계를 구축할 수 있지만, Genie 3와 같은 AI 모델처럼 텍스트 프롬프트만으로 즉시 세계를 생성하고 실시간으로 물리 법칙을 학습하는 방식과는 다릅니다. Genie 3가 발전하면 기존 게임 엔진의 역할을 대체하거나 보완할 수 있을 것으로 예상됩니다.

기능 및 성능 비교

구분 DeepMind Genie 3 기존 텍스트-비디오 모델 (예: Sora) 잠재적 경쟁 모델 (예: xAI의 계획)
기능 실시간 상호작용 가능한 3D 세계 생성, 텍스트 프롬프트로 환경 수정, 지속적인 메모리 유지 고정된 비디오 클립 생성, 사용자의 개입 불가 실시간 세계 생성 (계획 중), 자율주행 등 특정 목적에 특화될 가능성
해상도 720p 모델마다 상이 (일반적으로 고해상도 지원) 미공개
지속 시간 몇 분간 지속 (Genie 2의 10-20초에서 크게 향상) 상대적으로 짧은 클립 (수십 초) 미공개
물리 법칙 영상 데이터를 통해 학습된 자기회귀 모델 기반, 현실적인 물리 시뮬레이션 물리적 일관성이 떨어질 수 있음 미공개
 

가격 및 접근성

현재까지 Genie 3는 일반에 공개되지 않았으며, 제한된 테스터만 접근할 수 있습니다. 따라서 가격 정책에 대한 정보는 공개된 바가 전혀 없습니다.

  • 현재 상태: 연구 개발 단계에 있으며, Google DeepMind 내부와 일부 협력 파트너를 중심으로 테스트가 진행되고 있습니다.
  • 예상: 정식 서비스로 출시될 경우, 일반 사용자보다는 AI 에이전트 훈련, 시뮬레이션 개발 등 특정 산업 분야를 위한 B2B 서비스로 제공될 가능성이 높습니다. 가격은 사용량, 기능 범위 등에 따라 다양하게 책정될 것으로 보입니다.

Genie 3는 "세계 모델링"이라는 새로운 영역을 개척하며 기존 AI 모델들과의 단순한 비교를 넘어섭니다. 특히 실시간 상호작용과 장기적인 메모리 유지 기능은 기존의 정적인 콘텐츠 생성 모델과는 완전히 다른 패러다임을 제시하고 있습니다. 앞으로 xAI와 같은 다른 빅테크 기업들이 유사한 모델을 출시하며 경쟁 구도가 형성될 것으로 예상됩니다.

 

 

현재 DeepMind의 Genie 3는 아직 한국을 포함한 일반 대중에게는 공개되지 않았습니다.

  • 제한적인 접근성: Genie 3는 현재 제한된 연구용 프리뷰(limited research preview) 단계에 있으며, DeepMind가 안전성, 편향성, 책임 있는 사용 등에 대한 모니터링을 진행하고 있습니다.
  • 테스터 위주 공개: 현재는 소수의 신뢰할 수 있는 개발자나 학계 관계자들만 접근할 수 있는 것으로 알려져 있습니다.

따라서 한국에 거주하는 일반 사용자가 지금 Genie 3를 직접 사용해 보는 것은 불가능합니다.

Genie 3는 AGI(범용 인공지능)를 향한 중요한 단계로 여겨지고 있으며, 기술적 완성도와 안전성 확보가 우선시되는 모델입니다. 정식 출시일이나 일반 공개 계획에 대해서는 아직 구체적으로 발표된 바가 없으므로, 앞으로의 소식을 계속 주시해야 할 것 같습니다.

728x90
반응형