2023년 8월 5주차
https://arxiv.org/abs/2308.15987
FPTQ: Fine-grained Post-Training Quantization for Large Language Models (Qingyuan Li, Yifan Zhang, Liang Li, Peng Yao, Bo Zhang, Xiangxiang Chu, Yerui Sun, Li Du, Yuchen Xie)
W4A8 quantization 결과가 하나 나왔군요. 자주 나오는 activation의 scale을 weight로 옮겨주는 트릭과 groupwise quantization 조합이군요.
4 bit quantization에 발생하는 perplexity 손실이 감수 가능한 정도인가 하는 질문이 다시 떠오르긴 하네요. (애초에 여기선 perplexity 자체를 보고하지 않고 있습니다만.) 큰 모델을 quantization 하는 것이 더 작은 모델을 쓰는 것보다 낫다는 표현을 하긴 하지만, 반대로 생각하면 가장 고성능의 모델을 제공하고 싶은 상황에서는 별 소용이 없다는 의미이기도 하죠.
#quantization
https://arxiv.org/abs/2308.16137
LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models (Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang)
context length 뻘글을 쓰자마자 또...우선 lm에서 ood length generalization이 안 되는 이유를 분석.
학습에서 보지 않은 거리의 토큰들을 보게 되어서. relative pe의 경우 학습에 보지 않은 거리에 있는 토큰들에 대해 logit이 증가하는데 이것이 모델에서 다시 ood 값이 될 수 있음.
또한 logit이 증가하지 않는 이상 입력 토큰 수가 많아질수록 attention의 entropy가 증가함.
그렇다면 attention window를 제한하면 되지 않을까? 그렇지만 lm은 positional embedding이 없는 상황에도 위치 정보가 인코딩 되어 있기 때문에 초기 토큰과 이후 토큰을 구분하는 경향이 있고, window를 만들어 초기 토큰이 사라져버리면 다시 ood 상황이 발생하게 됨.
그래서 제안하는 방법. 놀랍게도 BigBird (https://arxiv.org/abs/2007.14062) 같은 global attention + local attention의 조합. 프리트레이닝에서 봤던 context length를 window로 해서 local attention을 잡고, 추가적으로 앞 부분 토큰 N개를 볼 수 있도록 global attention을 설정.
결과적으로 perplexity, generation, key retrieval에서 일정 정도 결과를 보여줌. positional embedding의 특성이나 프리트레이닝 시점의 local attention의 가능성에 대해서 생각해볼 필요가 있을까 싶기도.
#transformer
https://arxiv.org/abs/2308.16824
Can Programming Languages Boost Each Other via Instruction Tuning? (Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang)
code llm을 특정 언어의 instruction 데이터로 튜닝했을 때 다른 언어의 성능도 향상되는지에 대한 결과. 결과는 그렇다 이긴 합니다. Anthropic의 결과 (https://arxiv.org/abs/2308.03296) 와 InstructGPT의 자연어에 대한 일반화 (https://twitter.com/janleike/status/1625207251630960640) 를 고려해보면 기대 가능한 결과일 것 같긴 합니다.
#instruction-tuning