2023년 11월 8일
https://arxiv.org/abs/2311.04145
https://i2vgen-xl.github.io/index.html
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models (Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou)
비디오 생성 모형. 입력 이미지에 대해 global/local feature를 뽑아서 저해상도 영상을 3D UNet으로 만들고, 이 결과를 텍스트와 결합해서 refine하는 모델을 추가로 사용했군요.
이런 클립 느낌의 생성은 많이 향상된 것 같던데...이 다음 단계가 궁금하네요.
#video #diffusion
https://arxiv.org/abs/2311.04219
OtterHD: A High-Resolution Multi-modality Model (Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, Ziwei Liu)
고해상도 vision-language 모델. Fuyu-8B (https://www.adept.ai/blog/fuyu-8b) 기반으로 instruction tuning 시점에 더 큰 이미지를 사용한 작업이군요. multi resolution training을 했더니 학습 시점보다 큰 해상도에 대해서도 적용하는 것이 가능했다고.
#vision-language #multimodal