2023년 7월 4주차
https://arxiv.org/abs/2307.08701
AlpaGasus: Training A Better Alpaca with Fewer Data (Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin)
Alpaca 데이터셋을 ChatGPT로 필터링해서 높은 퀄리티의 샘플만 남겨 학습시켰더니 성능이 더 향상됐다는 결과. LIMA도 시사하는 사실이지만 instruction tuning은 최고 품질의 데이터만 사용하는 것이 더 나은 것 같다는 증거군요.
그나저나 데이터셋 구축도 필터링도 ChatGPT가 해준 셈이네요. ChatGPT가 오픈소스 LM들을 다 만들어주는 느낌...
#alignment #instruction-tuning
https://arxiv.org/abs/2307.08775
GEAR: Augmenting Language Models with Generalizable and Efficient Tool Resolution (Yining Lu, Haoping Yu, Daniel Khashabi)
도구 사용 LM. 도구/설명/예시의 triplet을 입력으로 해서 작은 LM으로 API call을 하고, API call 결과를 사용해 가장 적절한 도구를 골라오는 방식이네요.
#alignment #llm
https://arxiv.org/abs/2307.08621
Retentive Network: A Successor to Transformer for Large Language Models (Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei)
오...이건 좀 흥미롭네요. 기본적으로 linear attention에서 positional한 요소를 강화한 모델이라는 느낌인데...7B 정도에서까지 트랜스포머보다 나은 scaling curve를 보여줬네요.
개인적으로는 long context length에서 어느 정도까지 성능이 나올지 궁금하긴 합니다. 2048 정도까지는 괜찮다고 보고하고 있긴 하지만 rwkv도 2048 length 이상에서 문제가 있었던 것 같네요.
#linear_attention #recurrent
https://github.com/Dao-AILab/flash-attention
Flash Attention 2가 나왔군요. Flash Attention 자체도 엄청난데 거기서 FLOPS/s가 두 배로 점프한 건 굉장하네요.
https://arxiv.org/abs/2307.09009
How is ChatGPT's behavior changing over time? (Lingjiao Chen, Matei Zaharia, James Zou)
ChatGPT/GPT-4가 시간이 지남에 따라 성능이 떨어지고 있다는 추측에 대한 결과. 실제로 3월과 6월 모델이 수학 문제 등에 대해서 성능이 꽤 다르군요. (낮아졌습니다.) ChatGPT-3.5는 꽤 향상되기도 했는데...이상한 패턴이네요.
OpenAI 쪽에서는 성능이 나아지면 나아졌지 열화되지는 않았다고 했는데 그와 어긋나는 증거네요. 성능을 유지하면서 유지보수를 해나가는 작업이 까다롭다는 것을 보여주는 것인가 싶기도 합니다.
https://arxiv.org/abs/2307.09782
ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats (Xiaoxia Wu, Zhewei Yao, Yuxiong He)
int8 대신 fp8 activation을 쓰고, 아예 weight도 fp4를 쓰는 것도 괜찮을 것 같은데? 라는 결과네요. H100이 있다면 할 수 있는 일...
#quantization
https://arxiv.org/abs/2307.10928
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets (Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo)
align된 llm의 성능을 각 사례에 필요한 스킬들로 나눠서 측정. 큰 단계에서 preference를 보는 것이 아니라 스킬 레벨에서, 예컨대 논리성이나 간결성 같은 특성을 보는 벤치마크군요. 꽤 좋은 척도 같네요.
#alignment #benchmark
https://arxiv.org/abs/2307.11088
L-Eval: Instituting Standardized Evaluation for Long Context Language Models (Chenxin An, Shansan Gong, Ming Zhong, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu)
long context benchmark 셋과 테스트 결과가 하나 나왔군요.
#transformer #benchmark
https://arxiv.org/abs/2307.10635
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models (Xiaoxuan Wang, Ziniu Hu, Pan Lu, Yanqiao Zhu, Jieyu Zhang, Satyen Subramaniam, Arjun R. Loomba, Shichang Zhang, Yizhou Sun, Wei Wang)
오늘은 벤치마크가 많이 나오는군요. 대학 시험 문제를 풀게 시켜서 점수를 보고, 더 나아가 오답에서 어떤 스킬이 필요했고 그 스킬의 한계로 문제가 발생했는지를 사람이 직접 찾아봤네요.
#benchmark