2023년 6월 3주차
https://arxiv.org/abs/2306.06687
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark (Zhenfei Yin, Jiong Wang, Jianjian Cao, Zhelun Shi, Dingning Liu, Mukai Li, Lu Sheng, Lei Bai, Xiaoshui Huang, Zhiyong Wang, Wanli Ouyang, Jing Shao)
https://arxiv.org/abs/2306.06688
Language Versatilists vs. Specialists: An Empirical Revisiting on Multilingual Transfer Ability (Jiacheng Ye, Xijia Tao, Lingpeng Kong)
llm의 multilingual transfer에 대한 연구. non english 데이터의 양이 작더라도, english에 대해서 더 많이 학습된 모델 (llama)이 multilingual 데이터에 대해 학습된 모델 (bloom) 보다 더 나을 수 있다는 것이 중요한 부분인 듯 싶네요. 어떻게 보면 각 언어에 대해 약간의 데이터만 확보해도 각 언어를 상당 부분 지원할 수 있다는 것을 시사한다고 볼 수 있겠네요.
#multilingual
https://arxiv.org/abs/2306.07174
Augmenting Language Models with Long-Term Memory (Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei)
long context transformer 모델이 하나 더 나왔군요. 트랜스포머 백본의 key/value를 캐싱한 다음, 현 스텝의 트랜스포머의 hidden state와 retrieval한 key/value를 결합해 토큰을 예측하는 side network를 옆에 부착한 형태의 모델입니다.
long context와 관련된 방법들이 많이 나오는데 비교가 쉽지는 않네요. 다만 종종 그렇듯 이런 방법들이 결과적으로는 엇비슷할 가능성도 있다고 보입니다.
#transformer
https://arxiv.org/abs/2306.07052
Gradient Ascent Post-training Enhances Language Model Generalization (Dongkeun Yoon, Joel Jang, Sungdong Kim, Minjoon Seo)
pretraining objective에 대한 gradient ascent로 lm을 post training 하면 downstream task에 대한 성능이 향상된다는 결과. gradient ascent를 sharpness aware minimization과 연관해서 설명하고 있는데 (sam에서 loss를 상승시키는 eps를 찾는 부분을 가리키는 것 같긴 하네요.) 흥미롭군요.
#lm
https://arxiv.org/abs/2306.07915
Image Captioners Are Scalable Vision Learners Too (Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer)
contrastive learning이 아닌 caption generation 같은 generative pretraining이 vision encoder 학습에도 효과적이라는 연구. 특이한 것은 autoregressive loss 뿐만 아니라 non autoregressive loss도 결합해서 같이 학습시켰다는 점이네요. vision encoder는 쓸만한 것이 나오긴 하는데 text decoder를 어떻게 좀 더 활용할 수 있는지가 중요한 부분이 될 것 같군요.
#multimodal #vision-language
https://arxiv.org/abs/2306.07536
TART: A plug-and-play Transformer module for task-agnostic reasoning (Kush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré)
llm 같은 모델을 사용해 새로운 과제를 수행하게 하는 방법인데...아이디어가 굉장히 신기하네요. in context learning처럼 데이터와 레이블 페어에 대한 임베딩을 사용해 레이블을 예측하게 하는데, 실제 데이터를 사용하는 대신 gaussian random noise를 입력으로 주고 레이블을 logistic regression으로 예측하게 하는 방법을 사용합니다. 즉 완전히 synthetic한 데이터로 추가 모듈을 학습하고, 테스트 시에는 실제 텍스트에 대해 생성한 임베딩을 입력으로 줘서 각 과제에 사용하는 방식이네요. in context learning과 finetuning의 장점을 결합한다는 제안이네요.
#in_context_learning
https://arxiv.org/abs/2306.08568
WizardCoder: Empowering Code Large Language Models with Evol-Instruct (Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang)
wizardcoder 논문이 나왔군요.
#llm
https://arxiv.org/abs/2306.08997
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models (Sarah J. Zhang, Samuel Florin, Ariel N. Lee, Eamon Niknafs, Andrei Marginean, Annie Wang, Keith Tyser, Zad Chin, Yann Hicke, Nikhil Singh, Madeleine Udell, Yoon Kim, Tonio Buonassisi, Armando Solar-Lezama, Iddo Drori)
MIT 전공 시험 문제들을 대해 GPT-4 + 프롬프트 엔지니어링으로 풀어봤더니 정답율 100% (!) 가 나왔다는 결과. 데이터 leak일 수도 있고 평가에 뭔가 문제가 있었을 가능성도 있지만...여하간 너무 높은 수치가 나오는군요.
#llm
https://arxiv.org/abs/2306.09479
Inverse Scaling: When Bigger Isn't Better (Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller, Ameya Prabhu, Euan McLean, Aaron Kirtland, Alexis Ross, Alisa Liu, Andrew Gritsevskiy, Daniel Wurgaft, Derik Kauffman, Gabriel Recchia, Jiacheng Liu, Joe Cavanagh, Max Weiss, Sicong Huang, The Floating Droid, Tom Tseng, Tomasz Korbak, Xudong Shen, Yuhui Zhang, Zhengping Zhou, Najoung Kim, Samuel R. Bowman, Ethan Perez)
inverse scaling, 모델 학습 규모가 커지면 오히려 성능이 떨어지는 과제들이 다시 정리되어 나왔군요.
#llm
https://arxiv.org/abs/2306.09896
Demystifying GPT Self-Repair for Code Generation (Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama)
llm으로 코드를 생성하고, 생성된 코드를 실행해본 다음 에러 메시지를 사용해 피드백을 생성하고, 이 피드백을 기반으로 코드를 고치는 파이프라인에 대한 분석. 흥미로운 포인트는 피드백 생성 모델이 GPT-3.5일 때는 이 파이프라인에 의한 개선이 보이지 않지만, GPT-4일 때는 개선이 보인다는 점이네요. 물론 GPT-4 보다도 사람이 피드백을 줄 때의 향상이 더 크긴 합니다.
#llm
https://arxiv.org/abs/2306.09782
Full Parameter Fine-tuning for Large Language Models with Limited Resources (Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu)
lora 대신 full parameter finetuning을 메모리를 아끼면서 할 수 있는가. sgd를 써서 optimizer state를 없애고 그래디언트가 들어오면 파라미터를 업데이트하고 그래디언트를 지우는 방식으로 처리 + activation checkpointing 조합이군요. sgd를 써야 한다는 것이 제약이고 global grad norm clipping을 못 쓴다는 것이 제약인데...괜찮은 결과를 보고하고 있긴 하네요.
#finetuning #llm
https://arxiv.org/abs/2306.09683
Scaling Open-Vocabulary Object Detection (Matthias Minderer, Alexey Gritsenko, Neil Houlsby)
https://arxiv.org/abs/2306.10209
ZeRO++: Extremely Efficient Collective Communication for Giant Model Training (Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Connor Holmes, Samyam Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He)
소문이 돌던 ZeRO++가 나왔군요. 주로 weight/gradient에 대한 quantization으로 communication volume를 축소시킨 것이 주요한 방법이군요. 괜찮을지 모르겠네요.