2023년 4월 2주차
https://arxiv.org/abs/2304.02602
Generative Novel View Synthesis with 3D-Aware Diffusion Models (Eric R. Chan, Koki Nagano, Matthew A. Chan, Alexander W. Bergman, Jeong Joon Park, Axel Levy, Miika Aittala, Shalini De Mello, Tero Karras, Gordon Wetzstein)
오...저는 이 정도 퀄리티의 single/few image view synthesis는 처음 보는 것 같네요. 이미지 입력을 임베딩하고 이 임베딩으로 rendering, rendering 결과를 diffusion model로 denoising 하는 구조입니다.
https://nvlabs.github.io/genvs/
#nerf #ddpm
https://arxiv.org/abs/2304.02642
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models (Xuhui Jia, Yang Zhao, Kelvin C.K. Chan, Yandong Li, Han Zhang, Boqing Gong, Tingbo Hou, Huisheng Wang, Yu-Chuan Su)
이미지에서 object encoder로 object를 추출한 다음 이를 활용해서 object 기반 이미지 생성을 하기 위한 방법이군요. 다만 object mask를 쓰고 도메인 특화 방법인 것 같다는 느낌이 있네요.
#ddpm
https://arxiv.org/abs/2304.03283
Diffusion Models as Masked Autoencoders (Chen Wei, Karttikeya Mangalam, Po-Yao Huang, Yanghao Li, Haoqi Fan, Hu Xu, Huiyu Wang, Cihang Xie, Alan Yuille, Christoph Feichtenhofer)
얼마 전에 generative model들이 representation 측면에서는 contrastive model에 미치지 못하지 않았냐...라고 했을 때 mae를 보면 꼭 그렇지도 않을 수 있지 않겠나 하는 생각을 했었는데요. 마침 (메타에서!) diffusion과 masked autoencoding을 결합해 inpainting과 downstream task에 대한 transfer가 가능한 모델을 만들었네요.
#ddpm #representation
https://arxiv.org/abs/2304.03411
InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning (Jing Shi, Wei Xiong, Zhe Lin, Hyun Joon Jung)
인코더를 사용한 text2img의 personalization 결과가 하나 더 나왔군요. 이쪽의 특징은 concept embedding에 더해 패치 단위 임베딩에 대한 cross attention을 adapter 형식으로 text2img 모델에 추가했다는 것이겠네요.
https://jshi31.github.io/InstantBooth/
#ddpm #image_editing
https://arxiv.org/abs/2304.03277
Instruction Tuning with GPT-4 (Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao)
아니 MSR에서 instruction dataset을 GPT-4로 생성해서 공개했네요. RLHF용 comparison data까지 만들었습니다. 물론 비상업적 용도로만 사용 가능하다는 라이센스를 명시하긴 했는데 그건 대체로 다 그렇긴 하죠. 어차피 다들 이런 거 할 거 알고 있으니까 그냥 우리가 만든거 써 라는 느낌인지...여하간 그렇습니다.
#instruct
https://arxiv.org/abs/2304.03216
On the Pareto Front of Multilingual Neural Machine Translation (Liang Chen, Shuming Ma, Dongdong Zhang, Furu Wei, Baobao Chang)
multitask, 여기서는 multilingual nmt에서 loss weight에 성능이 monotonic하게 변화하는 것도 사실 이상적인 상황이고, training data의 수에 따라 loss weight를 증가시킬 수록 성능이 향상되다가 오히려 다시 감소하는 패턴이 나타날 수 있다는 지적이군요. 이를 커버하기 위해서는 데이터의 수를 고려하는 scaling law를 고려해야 한다는 주장. 흥미롭군요. llm 같은 경우는 1 epoch training이 기본이니 이 이슈에 해당되지는 않을 것 같긴 하지만요.
#multilingual #multitask #scaling
https://arxiv.org/abs/2304.03442
Generative Agents: Interactive Simulacra of Human Behavior (Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, Meredith Ringel Morris, Percy Liang, Michael S. Bernstein)
llm을 사용해 사람처럼 행동하고 상호작용하는 agent를 만들고 시뮬레이션한 연구. SNS에 이미 많이 회자되고 있는데 데모를 한 번 보시면 좋을 것 같습니다. https://reverie.herokuapp.com/arXiv_Demo/ llm을 사용해 npc의 대사를 자동 생성하면 어떨까 하는 아이디어가 많이 나왔는데, 사실 llm으로 그 이상을 할 수 있다는 것(즉 npc에게 다양한 행동을 하도록 할 수 있다는 것)을 보여주고 있네요.
역시 이런 적용에서도 가장 큰 문제는 memory와 planning에 대응하는 문제인 것으로 보입니다. 이미 많이 제기되고 있는 문제이기 때문에 이 부분에 대한 탐색도 이뤄지고 있을 것 같은데요. 반대로 이 문제가 해소된다면 대체 어떤 일이 일어날지 궁금해지네요.
#llm