2024년 2월 26일
Genie: Generative Interactive Environments
(Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel)
We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.
https://sites.google.com/view/genie-2024/home
비디오에 대한 VQ-VAE 토크나이저와 MaskGIT를 통한 생성 모델에 Latent Action Model을 붙여 생성 비디오에 대한 조작이 가능하게 했습니다. Latent Action Model은 현재 스텝과 이전 스텝의 입력을 받아 VQ-VAE로 8개 정도의 Vocabulary를 갖도록 인코딩한 다음, 이 인코딩된 토큰과 이전 스텝의 입력으로 디코딩하도록 해서 학습시켰습니다. 즉 이전 스텝의 프레임들과 다음 스텝의 액션을 기반으로 현 스텝의 프레임을 예측하게 하는 것이죠.
굉장히 흥미롭네요. 액션에 대한 다음 시점의 변화를 예측하는 World Models를 비디오 입력만을 사용해 학습할 수 있는 가능성입니다. 현재는 플랫포머나 로봇에 적용한 결과만 소개하고 있긴 합니다만.
#video-generation #world-models