2023년 12월 6일
https://arxiv.org/abs/2312.02520
Towards More Unified In-context Visual Understanding (Dianmo Sheng, Dongdong Chen, Zhentao Tan, Qiankun Liu, Qi Chu, Jianmin Bao, Tao Gong, Bin Liu, Shengwei Xu, Nenghai Yu)
In-context learning 시나리오에서 이미지 및 텍스트 출력이 모두 가능하도록 만들기 위한 시도. 이미지를 Quantize 하고 텍스트와 같이 Autoregressive 학습을 했습니다.
텍스트와 이미지의 갭 때문에 이미지 출력이 가능한 것은 필요하다는 생각이 드네요. 물론 이미지 출력이 필요한 과제들이 꼭 중요하다고 할 수는 없겠지만요. 이미지 생성을 Autoregressive하게 하는가 Diffusion을 붙이는가, Autoregressive 하게 한다면 Quantize를 어떻게 할 것인가 등이 문제겠군요.
#multimodal #multimodal_generation #vision-language #in_context_learning
https://arxiv.org/abs/2312.02519
Creative Agents: Empowering Agents with Imagination for Creative Tasks (Chi Zhang, Penglin Cai, Yuhui Fu, Haoqi Yuan, Zongqing Lu)
마인크래프트 건축물 만들기. 지시에 대해 텍스트로 상상/구상하고 Diffusion 모델로 이미지를 생성합니다. 이걸 조합해서 Behavioral Cloning으로 모델을 만들어서 실행하거나 혹은 GPT-4V로 코드를 생성시켜서 해봤군요.
결과물 자체는 좀 하다 만 듯한 게 나오긴 했습니다만 재미있네요. 한동안 GPT-4V로 웹 인터페이스 코드를 작성하는 프로그램이 화제가 됐었는데 인터페이스를 그릴 필요도 없어지겠다 싶기도 합니다.
#multimodal_generation
https://arxiv.org/abs/2312.02696
Analyzing and Improving the Training Dynamics of Diffusion Models (Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine)
오랜만에 Tero Karras의 논문을 보네요. 학습의 불안정성을 해소하기 위해 아키텍처를 갈아 엎고, activation 크기의 증가를 억제하기 위해 Weight Normalization을 도입했습니다. Weight Normalization도 정말 오랜만에 봅니다.
Weight Normalization을 도입하니 weight가 커지는 경향이 있어서 강제로 weight를 normalize 하는 것과 함께 learning rate schedule을 조절하고 group normalization을 날린 후 pixel normalization을 끼워넣고 scaling layer를 추가했네요. 이렇게 모델을 깎고 깎아 ImageNet-512 FID SOTA를 찍었습니다.
StyleGAN 시절에도 느꼈던 것이지만 모델을 분석하고 개선하는 것에 타의 추종을 불허하는군요. 이렇게 보면 이미 뻔하고 뻔한 아키텍처라고 해도 학습 동역학을 깊게 이해한다면 개선할 수 있는 여지가 많다는 생각이 들죠. 트랜스포머 LM을 깎아볼 생각은 없을지 궁금하네요.
#diffusion