2023년 8월 4주차
https://arxiv.org/abs/2308.10379
Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models (Bilgehan Sel, Ahmad Al-Tawaha, Vanshaj Khattar, Lu Wang, Ruoxi Jia, Ming Jin)
https://arxiv.org/abs/2308.10882
Giraffe: Adventurles in Expanding Context Lengths in LLMs (Arka Pal, Deep Karkhanis, Manley Roberts, Samuel Dooley, Arvind Sundararajan, Siddartha Naidu)
length extrapolation에 대한 결과 하나. 이쪽은 rope basis에 대해 truncation을 적용해 high frequency는 보존하고 low frequency를 clipping 해봤군요.
결과들이 복잡하긴 한데 perplexity를 보면 context length 2배 증가 정도를 기대할 수 있지 않나 싶습니다.
https://blog.abacus.ai/blog/2023/08/22/giraffe-long-context-llms/
개인적으로 GPT-4나 Claude 2에 대해서 가장 궁금한 점 중 하나가 대체 positional embedding으로 뭘 썼는가네요.
https://arxiv.org/abs/2308.11878
Cabrita: closing the gap for foreign languages (Celio Larcher, Marcos Piau, Paulo Finardi, Pedro Gengo, Piero Esposito, Vinicius Caridá)
https://arxiv.org/abs/2308.12284
D4: Improving LLM Pretraining via Document De-Duplication and Diversification (Kushal Tirumala, Daniel Simig, Armen Aghajanyan, Ari S. Morcos)
메타에서 프리트레이닝 데이터셋 샘플링 관련 결과를 냈군요. fuzzy dedup 위에 추가적인 dedup과 클러스터링을 사용한 diversification 입니다. 같은 토큰 수로 학습시켰을 때 샘플링된 데이터셋의 퍼포먼스가 더 낫고, 데이터 양을 고정하고 샘플링으로 2 epoch 학습을 시키는 시나리오에서도 전체 데이터셋으로 1 epoch 학습하는 것보다 나은 결과를 냈군요.
다만 웹 데이터셋에서 이슈가 발생하네요.
여담이지만 llama가 fuzzy dedup을 안 했다는 증거가 하나 추가됐네요.
#pretraining
[[210714 Deduplicating Training Data Makes Language Models Better]] [[230719 Llama 2]]
https://arxiv.org/abs/2308.12014
From Instructions to Intrinsic Human Values -- A Survey of Alignment Goals for Big Models (Jing Yao, Xiaoyuan Yi, Xiting Wang, Jindong Wang, Xing Xie)
https://arxiv.org/abs/2308.12097
Instruction Position Matters in Sequence Generation with Large Language Models (Yijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou)
instruction-input context-response 형태의 instruction prompt에서 instruction이 먼저 나오는가 input context가 먼저 나오는가가 성능에 영향을 미친다는 주장. 아주 큰 차이는 아닌 것 같긴 한데...차이가 있다면 causal lm의 특성이겠죠.
#instruction-tuning
https://arxiv.org/abs/2308.12067
InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4 (Lai Wei, Zihao Jiang, Weiran Huang, Lichao Sun)
아니 MiniGPT-4를 기반으로 했다고 InstructionGPT-4라는 이름을 붙이지는 않았으면 좋겠는데 말이죠...여하간 VQA 등에서 모아온 vision-language instruction 셋에서 200개만 뽑아다 써도 충분하더라는 결과입니다.
#instruction-tuning
https://arxiv.org/abs/2308.12038
Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages (Jinyi Hu, Yuan Yao, Chongyi Wang, Shan Wang, Yinxu Pan, Qianyu Chen, Tianyu Yu, Hanghao Wu, Yue Zhao, Haoye Zhang, Xu Han, Yankai Lin, Jiao Xue, Dahai Li, Zhiyuan Liu, Maosong Sun)
frozen multilingual lm + 영어 vision-language 데이터로 vision-language 모델을 만들고 영어 instruction 데이터와 번역한 instruction 데이터를 섞어서 튜닝. 번역한 instruction을 사용한 이유는 영어 외의 언어로 질문을 해도 영어로 대답하는 문제 때문이라고.
#vision-language #multimodal
https://arxiv.org/abs/2308.12066
Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference (Ranggi Hwang, Jianyu Wei, Shijie Cao, Changho Hwang, Xiaohu Tang, Ting Cao, Mao Yang, Minsoo Rhu)
이젠 MS에서 MoE 관련된 논문이 왜 많이 나오는지 명확해졌죠. 이 논문에서는 MoE 레이어들을 CPU 메모리에 offloading 한 다음 MoE 레이어를 필요할 때 GPU로 전송하는 방법을 고안했네요. MoE 레이어를 사용하는 바로 그 시점에 GPU에 올리면 부하가 크니 MoE 레이어를 선택하는 게이트가 현 MoE 레이어를 선택하는 것이 아니라 다음 MoE 레이어를 선택하게 만들었네요. 사용할 MoE 레이어를 미리 알 수 있으니 전송도 미리 해놓을 수 있다는 식이군요.
#mixture_of_experts #efficiency
https://arxiv.org/abs/2308.13111
Bayesian low-rank adaptation for large language models (Adam X. Yang, Maxime Robeyns, Xi Wang, Laurence Aitchison)
bayesian lora. laplace approximation에 lora와 kfac로 다루는 파라미터를 줄이려 시도했네요. bayesian nn은 오랜만에 보는군요.
#bayesian
https://arxiv.org/abs/2308.12966
Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities (Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou)
Qwen LM을 사용한 vision-language 모델이 올라왔군요. 프리트레이닝된 LM을 얼린 상태로 vision-language pretraining, OCR, captioning, grounding 등에 대해 multi task training, 이후 채팅 데이터로 supervised finetuning을 거쳤군요.
#instruction-tuning #vision-language #multimodal
https://arxiv.org/abs/2308.13320
Fine-tuning can cripple your foundation model; preserving features may be the solution (Jishnu Mukhoti, Yarin Gal, Philip H.S. Torr, Puneet K. Dokania)
clip finetuning에서 발생하는 forgetting 문제 이야기. clip 같은 pretrained model은 unlabeled data에서 무엇을 배웠는지 알 수 없으니 무엇을 잊어버린는지 확인하는 것도 까다롭다는 이야기를 하면서 feature space가 지나치게 변화하지 않도록 penalty를 걸어주는 것으로 문제를 감소시킬 수 있다는 결과를 보여주는 군요.
#finetuning
https://arxiv.org/abs/2308.13137
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models (Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo)
weight quantization 방법. quantization에서 발생하는 error를 보정하기 위한 튜닝, dynamic range 학습, smoothquant처럼 activation에서 발생하는 outlier 문제를 weight로 이전하는 트릭을 결합했군요.
llama 시리즈에 대해 결과는 흥미롭네요. 다만 quantization을 적용하기 전에 우리가 perplexity 0.1의 의미가 무엇인지 충분히 이해하고 있는 것인지 의문스럽다는 생각이 요즘 드네요.
#quantization