2023년 3월 3주차
https://arxiv.org/abs/2303.06594
ChatGPT Asks, BLIP-2 Answers: Automatic Questioning Towards Enriched Visual Descriptions (Deyao Zhu, Jun Chen, Kilichbek Haydarov, Xiaoqian Shen, Wenxuan Zhang, Mohamed Elhoseiny)
https://arxiv.org/abs/2303.06865
High-throughput Generative Inference of Large Language Models with a Single GPU (Ying Sheng, Lianmin Zheng, Binhang Yuan, Zhuohan Li, Max Ryabinin, Daniel Y. Fu, Zhiqiang Xie, Beidi Chen, Clark Barrett, Joseph E. Gonzalez, Percy Liang, Christopher Ré, Ion Stoica, Ce Zhang)
flexgen 논문이 나왔군요. off loading으로 적은 gpu 메모리에 대해서도 llm inference를 하기 위한 방법입니다. 논문에서도 밝히고 있는 것처럼 일정 레이턴시만 달성할 수 있으면 스루풋을 극대화하는 것이 일반적인 시나리오일 것 같긴 합니다.
#llm
https://arxiv.org/abs/2303.07226
Scaling Vision-Language Models with Sparse Mixture of Experts (Sheng Shen, Zhewei Yao, Chunyuan Li, Trevor Darrell, Kurt Keutzer, Yuxiong He)
moe vision-language 모델이군요. moe 모델은 늘 유망주라는 느낌인데 급부상할 시점이 올까요. 좀 궁금하긴 합니다.
#mixture_of_experts #vision-language #scaling-law
https://arxiv.org/abs/2303.08128
ViperGPT: Visual Inference via Python Execution for Reasoning (Dídac Surís, Sachit Menon, Carl Vondrick)
https://arxiv.org/abs/2303.08302
A Comprehensive Study on Post-Training Quantization for Large Language Models (Zhewei Yao, Cheng Li, Xiaoxia Wu, Stephen Youn, Yuxiong He)
llm에 대한 ptq 실험 결과네요. 요즘 MS에서 llm 근처만 가는 논문이 나와도 다 수상해 보입니다.
#llm #quantization
https://openai.com/research/gpt-4
아침부터 떠들썩해서 다들 보셨겠지만 여하간 제 소감을 적어보겠습니다. 구글이 PaLM API를 제공한다는 소식도 있었는데 그건 완벽하게 묻혀버리겠군요.
수치적인 향상은 당연하고 당연히 질적 향상 (이전에 불가능했던 능력의 추가) 도 있는 것으로 보입니다. 상당수 벤치마크들에서 Few shot으로 각 벤치마크의 SOTA를 뛰어넘었습니다. 불가능했던 능력의 추가에 대해서는 많은 정보가 있지는 않은데 Inverse Scaling Prize의 Hindsight Neglect가 풀렸다는 것이 그걸 시사하고 있네요.
그리고 루머로 나왔던 이야기들이 거의 맞았습니다. Vision Multimodal이고, Multilingual이고 (번역을 고려했을 때 이렇게 비교할 수 있는 건 아니지만 한국어 MMLU 스코어가 ChatGPT 영어 MMLU 스코어보다 높습니다.) 8k와 32k context length를 지원합니다.
그런데 문제는...모델 디테일에 대한 정보가 거의 없습니다. scaling curve를 다시 추정한 다음 그걸로 모델을 개발했고 결과가 정확했다는 것 정도. 이젠 영업 기밀이 되었다는 걸 시사하는 것 같네요. 사람들이 추측으로 정보를 캐내긴 하겠지만 사실 아직 ChatGPT 모델 크기가 어느 정도인지도 잘 모르는 상황이라는 것을 고려해보면 쉽지는 않을 듯 합니다.
100 페이지짜리 논문의 나머지 부분들은 수많은 평가 기록입니다. 그만큼 다면적이고 다층적인 평가를 했다는 것을 시사하기도 하지만 모델의 능력에 대한 과시처럼 보이기도 하네요. 평가 슈트를 공개했는데 (https://github.com/openai/evals) 평가해보고 우리 모델의 능력과 격차를 경험해보라는 의미 아닐까요.
굉장하다 싶으면서도 격차가 엄청나게 벌어졌다는 생각이 드네요. 이전에 GPT-4가 그러할 것처럼 GPT-5 또한 질적인 향상이 있을 가능성이 높다는 말을 늘 했었는데, GPT-4가 어떤 모델일지도 알 수 없는 상황에서 개발되고 있을 GPT-5를 기다리게 되는 상황이 되어버렸군요. 저자 목록이 너무 길어져서 다른 페이지에 실려있는데 거의 OpenAI 전체가 이 작업을 하고 있는 게 아닌가 싶네요. 개인적으로는 LLM 학습에 대한 스터디를 하고 있었는데 그게 의미가 있을까 하는 생각이 조금 듭니다.
https://arxiv.org/abs/2303.09522
P+P+: Extended Textual Conditioning in Text-to-Image Generation (Andrey Voynov, Qinghao Chu, Daniel Cohen-Or, Kfir Aberman)
text2img 모델의 각 레이어마다 다른 text embedding이 들어갈 수 있도록 허용해 textual inversion을 개선한다는 아이디어...굉장히 stylegan 시절의 느낌이 나는군요.
#ddpm #text2img
https://arxiv.org/abs/2303.09014
ART: Automatic multi-step reasoning and tool-use for large language models (Bhargavi Paranjape, Scott Lundberg, Sameer Singh, Hannaneh Hajishirzi, Luke Zettlemoyer, Marco Tulio Ribeiro)
몇 가지 과제군과 과제군에 속하는 문제들을 푸는 예시 프로그램을 만들고, llm에 주어진 과제에 대해 필요한 프로그램들을 프롬프트로 줘서 과제에 맞는 프로그램을 생성하고, 이 프로그램에는 검색 같은 외부 도구를 호출할 수 있는 구문이 있어서 필요에 맞게 도구를 호출해 사용한다...는 흐름이군요. 가장 문제는 주어진 과제에 맞는 프로그램들을 인출하는 부분으로 보이긴 하네요. 고성능을 위해선 이 프로그램 선정에 held-out set을 사용해야 했다는 것을 보면요.
#in_context_learning #prompt #llm
https://arxiv.org/abs/2303.09556
Efficient Diffusion Training via Min-SNR Weighting Strategy (Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, Baining Guo)
오...diffusion model에 대한 학습 가속과 성능 향상이군요. 결과적으로는 SNR weighting에서 min(SNR, gamma)로 clipping 해주는 방법이 되네요.
#ddpm
https://arxiv.org/abs/2303.09752
CoLT5: Faster Long-Range Transformers with Conditional Computation (Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai)
다들 32K context length의 비법을 알아내려 하는 시점에 구글 리서치에서 한 사례가 나왔군요. LongT5 기반인데 (https://arxiv.org/abs/2112.07916) local attention 기반의 lightweight transformer + moe 스타일의 라우팅으로 소수 임베딩을 추출한 다음 그에 대한 heavyweight transformer 조합이군요. 저도 여러모로 long range 문제에 대해서는 local attention이 자연스럽지 않나 하는 생각을 하게 되는데...아직 증거가 부족한 것 같긴 하네요.
#efficient_attention
https://arxiv.org/abs/2303.10130
GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models (Tyna Eloundou, Sam Manning, Pamela Mishkin, Daniel Rock)
모델 디테일에 대한 공개는 하지 않으면서 모델의 임팩트에 대한 내용은 내보내는군요. (pr?) GPT-4가 실제 직무와 직무에서 필요한 과제에 얼마나 영향을 미칠까...하는 분석입니다. 영향을 미친다는 것은 GPT-4 혹은 GPT-4 + 추가 도구를 사용해서 과제의 소요 시간을 절반으로 단축하는 과제가 얼마나 되는가의 여부네요. 최근 많이 나오는 이야기처럼 임금이 높은 직종이 영향을 받을 가능성이 높다고 보고 있긴 하네요.
뭐 이런 형태의 리포트가 늘 그렇듯 실제로 얼마나 의미가 있을지는 알기 어렵긴 합니다. 시간이 지나면(혹은 지나야만) 알게 되겠죠.
#llm
https://arxiv.org/abs/2303.12733
On the De-duplication of LAION-2B (Ryan Webster, Julien Rabin, Loic Simon, Frederic Jurie)
LAION-2B에 대한 deduplication. 웹 크롤링 데이터들을 프리트레이닝에 쓰기 시작하면서 중요해진 퀄리티 컨트롤, 그 중에서도 중요한 것이 deduplication이라고 할 수 있을 것 같네요. CLIP으로 dedup을 했더니 700M이 duplicate였다는 결과입니다. 사실 내부적으로는 다들 dedup을 해서 쓰고 있었을 것 같긴 하네요.
#dataset #clip