2023년 3월 2주차
https://arxiv.org/abs/2303.03378
PaLM-E: An Embodied Multimodal Language Model (Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence)
vit + palm으로 로보틱스 과제 태클하기. image/language 결합은 요즘 유행(?)대로 이미지 임베딩을 텍스트 시퀀스의 토큰으로 끼워넣는 방식을 사용했네요. 좀 더 나아가서 이미지 임베딩으로 2d가 아닌 3d aware한 임베딩 (이미지 셋으로부터 novel view synthesis를 하도록 학습시킨 모델)을 사용해서 성능을 올릴 수 있다고 보고했군요.
흥미로운 포인트 중 하나는 모델 규모가 562B 정도까지 올라가니 로보틱스 과제에 (텍스트도 포함되어 있긴 합니다만) 파인튜닝을 해도 nlg 과제에 대한 성능이 크게 안 빠진다는 것이네요.
#robotics #llm #multimodal #3d
https://arxiv.org/abs/2303.04048
Is ChatGPT a Good NLG Evaluator? A Preliminary Study (Jiaan Wang, Yunlong Liang, Fandong Meng, Haoxiang Shi, Zhixu Li, Jinan Xu, Jianfeng Qu, Jie Zhou)
nmt 메트릭으로서 sota였던 것처럼 nlg 메트릭으로서도 ChatGPT가 sota라는 보고.
#metric
https://arxiv.org/abs/2303.03846
Larger language models do in-context learning differently (Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, Tengyu Ma)
in context learning에서 train set의 label (positive/negative)을 flip하면 semantic prior에 강하게 의존하는 모델은 여전히 flip 되지 않은 예측을 할 것이고 케이스와 지시에 따를 수 있는 모델은 semantic prior를 거슬러서 flip된 예측을 할 수 있겠죠. semantic prior를 덮어쓰고 지시에 따르는 현상이 일정 규모 이상의 모델에서만 나타난다는 결과입니다. 비슷하게 label을 엉뚱하게 (foo/bar) 제공했을 때에도 큰 모델에서만 이에 맞게 작동하는 현상이 나타납니다. 늘 그랬듯 크기는 곧 질이죠.
그러나 한 가지 규명되고 있지 않은 것은 학습 토큰 수에 따른 변화일 것 같네요. chinchilla vs palm에 대한 결과는 있으니 추측은 가능하지만 확정적이지는 않지 않은가 싶습니다.
#llm #in_context_learning
https://arxiv.org/abs/2303.04248
TRACT: Denoising Diffusion Models with Transitive Closure Time-Distillation (David Berthelot, Arnaud Autef, Jierui Lin, Dian Ang Yap, Shuangfei Zhai, Siyuan Hu, Daniel Zheng, Walter Talbot, Eric Gu)
Apple에서 diffusion model에 대한 distillation 연구가 나왔군요. progressive distillation의 반복적인 distillation 과정에서 오류가 누적되면서 발생하는 퀄리티 저하를 해소하기 위해 (그리고 성가시기도 할 테니) distillation phase를 한두 번으로 줄여보고자 하는 시도입니다. 결과적으로는 2:1이 아닌 더 큰 distillation ratio를 위한 방법이네요.
얼마 전 나온 Consistency Models가 생각나는군요. 그런데, 물론 실험 세팅을 고려해서 fair하게 비교하는 것이 어렵긴 하지만, 놀랍게도 Consistency Models가 보고한 스코어가 더 좋습니다.
#ddpm #distillation
https://arxiv.org/abs/2303.03915
The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset (Hugo Laurençon, Lucile Saulnier, Thomas Wang, Christopher Akiki, Albert Villanova del Moral, Teven Le Scao, Leandro Von Werra, Chenghao Mou, Eduardo González Ponferrada, Huu Nguyen, Jörg Frohberg, Mario Šaško, Quentin Lhoest, Angelina McMillan-Major, Gerard Dupont, Stella Biderman, Anna Rogers, Loubna Ben allal, Francesco De Toni, Giada Pistilli, Olivier Nguyen, Somaieh Nikpoor, Maraim Masoud, Pierre Colombo, Javier de la Rosa, Paulo Villegas, Tristan Thrush, Shayne Longpre, Sebastian Nagel, Leon Weber, Manuel Muñoz, Jian Zhu, Daniel Van Strien, Zaid Alyafeai, Khalid Almubarak, Minh Chien Vu, Itziar Gonzalez-Dios, Aitor Soroa, Kyle Lo, Manan Dey, Pedro Ortiz Suarez, Aaron Gokaslan, Shamik Bose, David Adelani, Long Phan, Hieu Tran, Ian Yu, Suhas Pai, Jenny Chim, Violette Lepercq, Suzana Ilic, Margaret Mitchell, Sasha Alexandra Luccioni, Yacine Jernite)
ROOTS 코퍼스 논문이 아카이브에 올라왔군요. BLOOM과 ROOTS 코퍼스에 대해서는 말이 많은데 사실 말이 많다는 것은 그만큼 배울 게 많다는 의미라고 할 수도 있겠습니다.
https://twitter.com/alisabets/status/1589393707111165953
#dataset #llm
https://arxiv.org/abs/2303.04671
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models (Chenfei Wu, Shengming Yin, Weizhen Qi, Xiaodong Wang, Zecheng Tang, Nan Duan)
요즘 MS는 ChatGPT를 끼워넣은 시스템을 만드는 작업을 많이 하는 군요. 이쪽은 여러 비전 모델(캡셔닝, 이미지 에디팅 등)을 준비한 다음 유저의 입력에 따라 필요한 모델을 호출해 결과를 돌려주는 시스템입니다.
#chatgpt #multimodal
https://arxiv.org/abs/2303.05125
Cones: Concept Neurons in Diffusion Models for Customized Generation (Zhiheng Liu, Ruili Feng, Kai Zhu, Yifei Zhang, Kecheng Zheng, Yu Liu, Deli Zhao, Jingren Zhou, Yang Cao)
diffusion 모델의 attention 레이어의 key-value가 생성 이미지에 포함되는 개념 및 객체와 관계가 있다는 연구의 연장에서 그 레이어 내에서 개념과 관계되는 파라미터를 그래디언트로 찾겠다는 시도군요. 재미있네요.
#ddpm #image_editing
https://arxiv.org/abs/2303.05511
Scaling up GANs for Text-to-Image Synthesis (Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park)
와 GAN잡이들이 이걸 또 깎아냈군요. 4K 이미지들의 위용이 엄청납니다.
https://mingukkang.github.io/GigaGAN/
#gan #text2img
https://arxiv.org/abs/2303.06182
Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference (Haiyang Huang, Newsha Ardalani, Anna Sun, Liu Ke, Hsien-Hsin S. Lee, Anjali Sridhar, Shruti Bhosale, Carole-Jean Wu, Benjamin Lee)
moe 학습, moe vision language, mode 추론 논문까지 나오는군요. 이것도 MS에서 나왔으면 다음에 진짜 moe 모델을 하나 deploy 하려고 하는가 싶었겠지만 다행히도(?) 그렇지는 않네요.
#mixture_of_experts
https://arxiv.org/abs/2303.06318
A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training (Siddharth Singh, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He, Abhinav Bhatele)
마침 또 moe 논문이 보이는군요. moe에서 expert scaling은 효과가 점진적으로 감소하니 모델 또한 따라서 커져야 하고, 이 scaling에 적절한 3d parallel (data, tensor, expert) + zero를 디자인했다는 결과입니다. 6.7B + 16 expert로 40B 모델까지 테스트해봤군요.
#mixture_of_experts
https://arxiv.org/abs/2303.06424
Regularized Vector Quantization for Tokenized Image Synthesis (Jiahui Zhang, Fangneng Zhan, Christian Theobalt, Shijian Lu)
vq-vae에 대한 regularization으로 codebook collapse를 방지하는 방법에 대한 결과군요. 토큰 분포가 uniform하도록 하는 regularization + stochastic sampling된 토큰과 deterministic하게 뽑힌 토큰을 마스크로 결합해서 같이 학습에 사용하는 접근이군요.
#vq
https://arxiv.org/abs/2303.06349
Resurrecting Recurrent Neural Networks for Long Sequences (Antonio Orvieto, Samuel L Smith, Albert Gu, Anushan Fernando, Caglar Gulcehre, Razvan Pascanu, Soham De)
https://arxiv.org/abs/2303.06296
Stabilizing Transformer Training by Preventing Attention Entropy Collapse (Shuangfei Zhai, Tatiana Likhomanenko, Etai Littwin, Dan Busbridge, Jason Ramapuram, Yizhe Zhang, Jiatao Gu, Josh Susskind)
요즘 애플에서도 논문이 좀 나오는군요. attention 행렬의 row vector의 엔트로피가 너무 빠르게 감소하는 것이 학습 불안정성의 원인이고 이에 대해 놀랍게도 spectral norm(!) & scaling factor를 써서 태클했네요. power iteration이 할만하다고는 하지만 큰 모델에서는 부담스러울 것 같긴 합니다.
pre ln, adaptive optimizer, lr warmup 같은 것이 없어도 학습이 된다고 보고하고 있네요. 트랜스포머 학습의 불안정성에 대한 보고들을 종합하면 여러모로 attention weight의 phase transition이 너무 급격하게 발생하는 것과 관계가 있는 것 같긴 합니다. 이걸 얼마나 효율적이고 효과적으로 잡을 수 있는지가 중요한 방향인 것 같긴 하네요.
#transformer #stability