2023년 9월 18일
https://arxiv.org/abs/2309.08520
Scaling Laws for Sparsely-Connected Foundation Models (Elias Frantar, Carlos Riquelme, Neil Houlsby, Dan Alistarh, Utku Evci)
weight sparse 모델에 대한 scaling law. optimal sparsity contour이 핵심적이라고 할 수 있을 듯 한데, pretraining flops와 non zero parameter의 수에 대해 최저 loss를 달성하는 sparsity 수준에 대한 커브입니다. Chinchilla (dense optimal 모델) 보다 더 많은 pretraining flops를 투입할 수록 optimal sparsity의 수준 또한 올라간다는 것이 메인 포인트군요.
또한 같은 flops를 투입했을 때 sparse 모델이 (파라미터 수로 따졌을 때) 몇 배의 파라미터를 가진 dense 모델과 동일할 것인가를 추산하는 것도 가능합니다.
sparse 모델을 효율적으로 학습과 추론에 쓸 수 있다고 한다면 weight sparsity가 유용한 도구가 될 수 있다는 것을 시사하는 것으로 보이네요. moe와 비교하면 어떨까도 흥미로운 부분이겠습니다.
#sparsity #efficient_training #efficiency
https://arxiv.org/abs/2309.08168
Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding (Jun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Gang Chen, Sharad Mehrotra)
speculative sampling에서 drafting을 작은 llm이 아니라 큰 llm + 레어이 건너뛰기으로 대체한 방법. 건너뛸 레이어는 최적화로 찾아봤습니다. layer skipping을 이렇게 활용했다는 것 자체가 재밌네요.
#efficiency
https://arxiv.org/abs/2309.08210
Investigating Answerability of LLMs for Long-Form Question Answering (Meghana Moorthy Bhat, Rui Meng, Ye Liu, Yingbo Zhou, Semih Yavuz)
적당히 긴 (2k) 상황에서 question answering 과제의 퍼포먼스 비교. chatgpt vs llama 7/13b로 비교했을 때 차이가 꽤 있네요.
#llm
https://arxiv.org/abs/2309.08586
Replacing softmax with ReLU in Vision Transformers (Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith)
attention에서 softmax 대신 relu를 쓰면 어떨까 하는 생각. 이 아이디어를 다시 보니 반갑네요.
#transformer
https://arxiv.org/abs/2309.08589
Chain-of-Thought Reasoning is a Policy Improvement Operator (Hugh Zhang, David C. Parkes)
chain of thought로 문제를 풀게 하고, 푼 결과를 chain of thought prompt 없이 정답 샘플로 사용해서 파인튜닝하기. 덧셈 과제에서 학습때 N 자리수의 덧셈을 봤다면 N+1 덧셈을 chain of thought로 풀 수 있다는 것을 활용해서 반복적으로 확장하는 방식으로 6자리 덧셈 샘플로 19자리 덧셈까지 도달하는 테스트를 해봤네요.
#in_context_learning
https://arxiv.org/abs/2309.08591
Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings (Chen Cecilia Liu, Fajri Koto, Timothy Baldwin, Iryna Gurevych)
속담을 써서 multilingual lm을 테스트해봤군요. 속담을 greedy decoding으로 완성할 수 있는가와 속담의 의미를 묻는 질문에 대답할 수 있는가를 테스트했습니다.
#multilingual