2023년 2월 4주차
https://arxiv.org/abs/2302.09650
Scaling Laws for Multilingual Neural Machine Translation (Patrick Fernandes, Behrooz Ghorbani, Xavier Garcia, Markus Freitag, Orhan Firat)
scaling law 논문은 많이 나왔지만 multitask나 multilingual로 가면 좀 흥미로워지네요. NMT에서 학습시 각 언어의 가중치 비율과 scaling이 무관하게 움직인다는 것, 즉 모델이 커지면 가중치와는 관계 없이 일정하게 향상된다는 것, 모델 크기와는 관계 없이 각 언어에 사용되는 실질 파라미터는 가중치에 의해 결정된다는 것, 추가로 EN -> XX 번역의 경우 타겟 언어의 유사도와 성능은 관계가 없으며 시너지는 XX -> EN의 형태로 multilingual 인코딩을 할 때 발생한다는 것을 보였네요. 이쪽 결과는 디코더가 아니라 인코더에서 공유가 발생한다는 이전 결과들과 합치하는 것 같습니다.
결과적으로 모델 크기와 가중치에 따라 각 언어에 대해 달성할 수 있는 성능을 예측하는 커브를 그릴 수 있었네요.
#multilingual #nmt #scaling-law
https://arxiv.org/abs/2302.09664
Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation (Lorenz Kuhn, Yarin Gal, Sebastian Farquhar)
llm이 모른다고 할 수 있는 방법이 있는가 보니 (늘 뉴럴넷의 문제에 답이 된다고 여겨지는) uncertainty가 있었네요. 여기서 해결하고 싶은 것은 단순히 생성된 시퀀스의 불확실성이 아니라 의미적 불확실성입니다.
일단 M개 시퀀스를 생성한 다음 NLI로 entailment를 체크해서 entail이 되는지를 확인한 다음 entail 되는 시퀀스들을 클러스터링해서 이 클러스터들로 엔트로피를 계산하는 방식입니다. 역시나 uncertainty가 흔히 그렇듯 하나의 샘플을 위해 M개 (여기서는 10개 정도) 샘플링을 해야 한다는 것이 문제인데...요즘 서비스들을 고려하면 쓸 수 있는 방법도 있지 않을까요.
#llm #uncertainty
https://arxiv.org/abs/2302.09778
Composer: Creative and Controllable Image Synthesis with Composable Conditions (Lianghua Huang, Di Chen, Yu Liu, Yujun Shen, Deli Zhao, Jingren Zhou)
이미지를 다양한 형태로 분해하고, 분해된 요소(스케치 등)에 conditional하게 생성하는 모델을 만들어서 이미지를 변형하는 모델을 만들었다는 느낌이네요. 아무렇지도 않게 4.5B 짜리 GLIDE를 만들었군요.
#ddpm #image_editing
https://arxiv.org/abs/2302.10149
Poisoning Web-Scale Training Datasets is Practical (Nicholas Carlini, Matthew Jagielski, Christopher A. Choquette-Choo, Daniel Paleka, Will Pearce, Hyrum Anderson, Andreas Terzis, Kurt Thomas, Florian Tramèr)
이미지-텍스트 데이터는 주로 URL과 텍스트 페어만 공개되어 있으니 만료된 URL을 사서 엉뚱한 이미지를 제공하는 방법으로 공격할 수 있고, 위키피디아 같은 경우 스냅샷 데이터를 사용하니 스냅샷 시점 직전에 데이터를 끼워넣는 방법으로 공격이 가능하다는 아이디어. 1,000 달러 정도면 모델에 영향을 미치는 공격이 가능한 것 같네요. 이런 반달리즘은 분명히 가능할 것 같습니다. 이미지를 빨리 확보해놓거나 최소한 해시라도 갖춰야 할 것 같다는 생각이네요.
#dataset
https://arxiv.org/abs/2302.09915
TA-MoE: Topology-Aware Large Scale Mixture-of-Expert Training (Chang Chen, Min Li, Zhihua Wu, Dianhai Yu, Chao Yang)
오랜만에 MoE 최적화 논문을 보네요. GPU간 연결 상태를 고려해서 routing 한다는 아이디어입니다. 뭔가 본래 MoE는 각 데이터에 대해서 최적인 전문 모델을 사용해서 성능을 올린다가 원 motivation이었던 것 같은데 요즘은 모델을 쪼갠다/sparse하게 만든다에 초점이 맞춰진 것 같네요.
과연 MoE 기반 모델이 차기 거대 모델로서 등장할까요? 궁금하네요.
#mixture_of_experts
https://arxiv.org/abs/2302.10724
ChatGPT: Jack of all trades, master of none (Jan Kocoń, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szydło, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Kocoń, Bartłomiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Miłkowski, Marcin Oleksy, Maciej Piasecki, Łukasz Radliński, Konrad Wojtasik, Stanisław Woźniak, Przemysław Kazienko)
ChatGPT는 사람들이 알아서 테스트를 해주고 있네요. 역설적으로 이 모든 과제들의 합 조차도 범용적인 것은 아니며 역으로 이 과제 모두를 포괄하는 범용성이 얼마나 중요한 것인지를 보여주는 것 같기도 합니다. 그리고 개별 과제들의 성능은 모델에 쓰는 연산량에 따라 계속해서 나아지겠죠.
#instruct #llm
https://arxiv.org/abs/2302.10586
Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels (Zebin You, Yong Zhong, Fan Bao, Jiacheng Sun, Chongxuan Li, Jun Zhu)
semi supervised classifier -> pseudo label -> class conditional diffusion -> pseudo image -> classifier라는 흐름이군요. 오랜만에 이런 스타일의 연구를 보니 재미있네요.
#semi_supervised_learning #ddpm #self_supervised
https://arxiv.org/abs/2302.10866
Hyena Hierarchy: Towards Larger Convolutional Language Models (Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher Ré)
SSM으로 가다보니 다시 CNN으로 돌아오게 되는 것도 흥미로운 상황이네요.
#state_space_model #convolution
https://arxiv.org/abs/2302.10688
On Calibrating Diffusion Probabilistic Models (Tianyu Pang, Cheng Lu, Chao Du, Min Lin, Shuicheng Yan, Zhijie Deng)
diffusion 모델의 reverse process에 들어오는 스코어 함수가 마팅게일이며 기대값이 0이 되어야 하는데 실제 스코어 함수를 근사하는 모델은 기대값이 0이 아니다, 따라서 기대값이 0이 되도록 조정해주면(calibration) 특성이 나아진다...그런 결과입니다. 일단 기대값을 빼주기만 하면 되는 느낌이라 재학습이 필요하지는 않군요.
sde로 formulation 되면서 확률맨들이 전가의 보도처럼 휘두르고 있군요. 무시무시.
#ddpm
https://arxiv.org/abs/2302.11665
AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving (Zhuohan Li, Lianmin Zheng, Yinmin Zhong, Vincent Liu, Ying Sheng, Xin Jin, Yanping Huang, Zhifeng Chen, Hao Zhang, Joseph E. Gonzalez, Ion Stoica)
Alpa는 모델 서빙을 위한 개발 작업을 하고 있군요. 새삼 OpenAI의 90% 비용 절감의 레시피가 궁금해지네요.
https://github.com/Ying1123/FlexGen https://github.com/Ying1123/FlexGen/blob/main/docs/paper.pdf
off-loading으로 175B 수준의 LLM을 T4 레벨의 GPU로 추론하기. 이전이라면 굳이 off-loading 까지 써가면서 해야하는가 하는 생각이었는데 최근에는 일정 수준의 레이턴시만 보장할 수 있으면 이런 방법으로 스루풋을 끌어올리는 것도 괜찮은 전략이 아닐까 하는 생각이 드네요.
https://arxiv.org/abs/2302.11710
Controlled and Conditional Text to Image Generation with Diffusion Prior (Pranav Aggarwal, Hareesh Ravi, Naveen Marri, Sachin Kelkar, Fengbin Chen, Vinh Khuc, Midhun Harikumar, Ritiz Tambi, Sudharshan Reddy Kakumanu, Purvak Lapsiya, Alvin Ghouas, Sarah Saber, Malavika Ramprasad, Baldo Faieta, Ajinkya Kale)
clip image embedding prior + latent diffusion 모델이군요. 그냥 prior만 붙이면 심심하고 어도비이기도 하니 컬러 히스토그램을 추가 입력으로 사용했네요. 사실 condition으로 추가할 수 있는 것은 다양하겠지만 컬러 팔레트도 흥미로운 요소라고 할 수 있을 것 같긴 합니다.
#ddpm
https://arxiv.org/abs/2302.12128
On the Generalization Ability of Retrieval-Enhanced Transformers (Tobias Norlund, Ehsan Doostmohammadi, Richard Johansson, Marco Kuhlmann)
https://arxiv.org/abs/2302.12813
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback (Baolin Peng, Michel Galley, Pengcheng He, Hao Cheng, Yujia Xie, Yu Hu, Qiuyuan Huang, Lars Liden, Zhou Yu, Weizhu Chen, Jianfeng Gao)
retrieval augment 같은 문제는 이미 retrieve된 텍스트를 사용해 답을 강화한다를 넘어 retrieval과 llm을 어떻게 조합해 전체 시스템을 구성할 것인가의 문제로 넘어가고 있군요. retrieval 혹은 llm generation을 결정하는 policy, retrieve된 문서를 가공하는 모듈, llm에 생성 프롬프트를 제공하는 모듈, 생성 텍스트의 품질을 평가하는 모듈, 그리고 이 과정을 저장하는 모듈로 구성된 시스템이네요.
#retrieval #llm