2023년 9월 22일
https://arxiv.org/abs/2309.12307
LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models (Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song Han, Jiaya Jia)
efficient long context finetuning. local attention을 사용하되 헤드 절반은 시퀀스를 shift해서 local window 사이에 overlap이 발생하게 합니다. 이 패턴을 사용했을 때 추론 시에는 그냥 full attention을 사용할 수 있었다고 하네요. lora를 사용하는데 lora만으로는 부족하기에 임베딩과 normalization 레이어를 같이 튜닝.
뭔가 LM-Infinite (https://arxiv.org/abs/2308.16137) 이 생각나기도 하네요. 다만 extrapolation이 아니라 그냥 long context finetuning을 하자는 쪽으로 무게중심이 쏠리는 것 같기도 합니다. 그리고 long context finetuning을 할 것이라면, 사실 자원이 있다면 full finetuning을 고려하는 것이 나을 수도 있겠죠.
#transformer #long_context
https://arxiv.org/abs/2309.12288
The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" (Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans)
LM이 A는 B다라는 텍스트로 학습되었을 때 B는 A라는 일반화가 가능한지에 대한 테스트. 여러 조건에서 해봤지만 안 되더라는 결론입니다. 원인으로 추측한 이유가 재미있네요. A는 B다라는 텍스트로 학습을 하면 A 임베딩에 B의 정보가 들어가게 될 텐데, 대칭적이라면 B에도 A에 대한 정보가 들어가야겠지만 그렇게 되리라는 보장이 없죠.
대칭성의 문제가 되는 것 같은데, 적절한 대칭성이 이런 문제에 큰 도움이 될 수 있겠죠. 그렇지만 자연어에 대해서 우리가 어떤 적절한 대칭성을 모델에 주입할 수 있을까요?
#generalization #lm
https://arxiv.org/abs/2309.12284
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models (Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu)
GSM8K와 MATH에 대해 GPT-3.5로 답안을 여러 개 만든다거나, 질문을 여러 버전으로 만들어서 데이터셋을 보강하고 학습시켜서 성능 향상. 다만 다른 벤치마크에 대한 일반화 성능 향상이 결합되지 않으면 GSM8K와 MATH에 대한 추가 데이터 사용이라고 해야 하지 않을까? 싶네요.
#dataset
https://arxiv.org/abs/2309.11998
LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset (Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang)
lmsys chatbot arena에서 수집된 1M 건의 대화 데이터. 다만 unsafe한 대화가 많이 있고, openai moderation api로 레이블링을 하긴 했지만 이게 얼마나 정확한가도 문제가 되겠네요. 거기에 jailbreak 시도까지 들어 있어서 쓰려면 고민을 많이 해야할 듯 합니다. 거기에 대화 자체가 분포에 편향이 꽤 있겠죠.
#dataset
https://arxiv.org/abs/2309.11674
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models (Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla)
프리트레이닝된 LM에 Llama에 부족한 언어의 코퍼스를 monolingual하게 학습시키고, 소량의 병렬 코퍼스를 학습시키면 SoTA를 깨는 성능을 낼 수 있다는 결과. 병렬 코퍼스가 많으면 프리트레이닝에서 습득한 것이 사라질 뿐이니 많을 필요는 없고 품질이 더 중요하다고 보고 있네요. 다만 데이터셋 오염에서 자유로울까? 하는 생각은 있습니다.
#nmt
https://arxiv.org/abs/2309.11568
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model (Nolan Dey, Daria Soboleva, Faisal Al-Khateeb, Bowen Yang, Ribhu Pathria, Hemant Khachane, Shaheer Muhammad, Zhiming (Charles)Chen, Robert Myers, Jacob Robert Steeves, Natalia Vassilieva, Marvin Tom, Joel Hestness)
cerebras의 BTLM-3B에 대한 리포트. SlimPajama를 사용했습니다. long context 부분이 눈에 띄었는데 약간 의아한 부분은 LongEval-Lines와 LongEval-Topics라는 두 retrieval 과제에 대해 MPT-7B, BTLM-3B, XGen-7B의 패턴이 많이 다르다는 것이네요. 플롯 legend를 잘못 넣었나 싶기도 하고...
그 외에도 lr decay 조정, SwiGLU vs GeLU, RoPE vs ALiBi 등에 대한 ablation이 있습니다. μP (https://arxiv.org/abs/2203.03466) 에서 별로 효과를 못 봤다고 했던 것 같은데 (https://arxiv.org/abs/2304.03208) 계속 쓰고 있네요.
#llm #long_context