2023년 3월 1주차
https://arxiv.org/abs/2303.00750
StraIT: Non-autoregressive Generation with Stratified Image Transformer (Shengju Qian, Huiwen Chang, Yuanzhen Li, Zizhao Zhang, Jiaya Jia, Han Zhang)
nonautoregressive token generation 기반 이미지 생성 모델입니다. VQ-VAE-2 기반 모델을 정말 오랜만에 보게 되네요.
#image_generation #vq #non-autoregressive
https://arxiv.org/abs/2303.00354
Unlimited-Size Diffusion Restoration (Yinhuai Wang, Jiwen Yu, Runyi Yu, Jian Zhang)
가변 크기 이미지에 대한 diffusion model을 사용한 image restoration. 패치 단위 결합에서는 패치들이 잘 조화되지 않으니 overlapping patch에 대해서 겹치는 지점을 마스킹해서 유지시키는 방식으로 복원해나가는 방식이네요. 추가적으로 low resolution 이미지에 대한 복원 결과를 global guidance로 사용합니다. 결과물이 이미지 복원이라기보다는 거의 재창조 수준이네요.
#image_restoration #ddpm
https://arxiv.org/abs/2303.01416
3D generation on ImageNet (Ivan Skorokhodov, Aliaksandr Siarohin, Yinghao Xu, Jian Ren, Hsin-Ying Lee, Peter Wonka, Sergey Tulyakov)
이미지넷 규모의 3d 생성 모델. 카메라 모델을 수정해서 원점 외의 지점에서도 시작할 수 있게 바꾸고 depth supervision과 pretrained resnet을 사용한 discriminator에 대한 distillation이 들어갔네요.
#3d_generative_model
https://arxiv.org/abs/2303.01469
Consistency Models (Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever)
오 이거 흥미로운 모델이 나왔네요. diffusion 모델의 path 중 특정 시점의 포인트를 입력으로 받아 원점을 예측하는 모델 (consistency function) 로 1 스텝으로 이미지를 생성하거나 추가 스텝으로 생성 퀄리를 높일 수 있는 모델입니다. 기존 모델에서 distillation 하거나 scratch에서부터 학습하는 것도 가능하네요.
#ddpm #generative_model
https://arxiv.org/abs/2303.01500
Dropout Reduces Underfitting (Zhuang Liu, Zhiqiu Xu, Joseph Jin, Zhiqiang Shen, Trevor Darrell)
학습 초기의 dropout은 학습을 쉽게 만들어주고(underfit 감소) 학습 후기의 dropout은 일반화 성능을 높여준다는(overfit 감소) 연구. 그러니 overfit 하는 모델은 학습 후기 dropout이 좋고 underfit하는 모델은 학습 초기 dropout을 쓰는 것이 좋다는 아이디어군요.
underfit/overfit은 어떻게 구분할 것인가? 일반적인 dropout을 사용한다고 가정했을 때 dropout을 쓴 모델이 나으면 overfit이고 안 쓴 모델이 나으면 underfit이라는 가정으로 시도했습니다.
#dropout #regularization
https://arxiv.org/abs/2303.01037
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages (Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara Sainath, Pedro Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Françoise Beaufays, Yonghui Wu)
300개 언어에 대해 1200만 시간 분량의 오디오로 unsupervised audio/language pretraining + asr training을 수행한 2B conformer 모델이군요. ChatGPT는 그렇다치고 전통적인(?) 분야인 NMT에서는 DeepL이 등장하고 ASR에서는 Whisper가 저렴하게 API로 공개되고 있으니 이쪽도 골치 아프겠다 싶네요.
#asr #multilingual
https://arxiv.org/abs/2303.01494
Image as Set of Points (Xu Ma, Yuqian Zhou, Huan Wang, Can Qin, Bin Sun, Chang Liu, Yun Fu)
image에 대한 새로운 feature representation을 위한 방법. 이미지 내 영역에 cluster center를 배치하고 similarity 기반으로 clustering, cluster feature를 similarity에 따라 결합, 다시 similarity 기반으로 각 feature들을 업데이트한다는 순서입니다. attention하고 너무 비슷하지 않은가? 싶긴 하네요.
그렇지만 오랜만에 이런 시도를 보니 재미있네요. ICLR 2023 oral/top 5%라고 합니다.
#backbone
https://arxiv.org/abs/2303.02506
Prismer: A Vision-Language Model with An Ensemble of Experts (Shikun Liu, Linxi Fan, Edward Johns, Zhiding Yu, Chaowei Xiao, Anima Anandkumar)
multimodal vision language model. 이미지 입력 뿐만이 아니라 depth나 object detection 결과 같은 것들을 결합해서 사용한다는 발상. flamingo 스타일의 frozen vision encoder/language decoder를 사용하고 추가로 인코더와 디코더에 어댑터를 사용했군요.
#multimodal #vision-language