2023년 10월 4일
https://arxiv.org/abs/2310.00811
Sparse Backpropagation for MoE Training (Liyuan Liu, Jianfeng Gao, Weizhu Chen)
MoE 학습에서 sampling으로 인해 고려되지 않는 그래디언트를 반영해서 MoE 모델의 학습 속도를 향상시킬 수 있다는 결과. 논문에서도 언급되는 부분인데 MoE의 효과를 신뢰롭게 보기 위해서는 좀 더 대규모의 실험이 필요할 것 같긴 하네요.
#moe
https://arxiv.org/abs/2310.02263
Contrastive Post-training Large Language Models on Data Curriculum (Canwen Xu, Corby Rosset, Luciano Del Corro, Shweti Mahajan, Julian McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao)
더 강한 모델(GPT-4)의 샘플을 positive, 더 약한 모델(GPT-3.5)의 샘플을 negative로 놓고 DPO나 SLiC 같은 offline 방법으로 학습시켰을 때 SFT 모델에 대해 향상이 있었다는 결과. 모델 크기로 synthetic reward를 만들었던 연구 (https://arxiv.org/abs/2305.13735) 가 생각나네요.
논문의 의도와는 다르겠지만 negative sample을 사용하는 것의 효과를 조금 보여주는 것이 아닌가 싶습니다.
#alignment
https://arxiv.org/abs/2310.02226
Think before you speak: Training Language Models With Pause Tokens (Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan)
모델이 다음 토큰을 예측하기 전에 pause 토큰을 삽입해 토큰 예측에 지연을 준 모델. 결과가 아주 강력한 것 같진 않긴 합니다만 모델이 쓸 수 있는 토큰을 임의로 추가한 논문들 (https://arxiv.org/abs/2309.16588, https://arxiv.org/abs/2309.17453) 을 보면서 했던 생각이 벌써 결과로 나온 셈이라 재미있네요.
#transformer #lm
https://arxiv.org/abs/2310.00898
Enable Language Models to Implicitly Learn Self-Improvement From Data (Ziqi Wang, Le Hou, Tianjian Lu, Yuexin Wu, Yunxuan Li, Hongkun Yu, Heng Ji)
LLM의 생성 결과를 개선하는 모델. preference를 사용해 비교적 좋지 않은 텍스트를 condition으로 해서 더 나은 텍스트를 생성하는 SFT와 좋은 텍스트와 좋지 않은 텍스트의 차이를 예측하는 RM으로 RLHF를 진행하는 군요. 이렇게 만든 모델로 모델 생성 결과를 개선할 수 있고, 이걸 반복적으로 적용할 수도 있습니다.
여담이지만 응답 하나를 받아 reward score를 만드는 모델보다 응답 둘을 입력으로 받아 비교하는 모델이 나을 수 있다는 것은 SLiC에서도 언급하고 있는 부분이긴 합니다. 다만 응답 토큰 수를 더 써야 한다는 게 문제인데...프롬프트는 공유하니 그럭저럭 할만 할 수도 있겠네요.
#alignment #rl
https://arxiv.org/abs/2309.16779
Intriguing properties of generative classifiers (Priyank Jaini, Kevin Clark, Robert Geirhos)
이미지에 대한 생성 모델(diffusion, autoregressive)로 분류기를 구성해서 분류 모델과 특성을 비교한 결과. (특히 diffusion) 생성 모델에서 높은 shape bias를 보여주고 사람과 비슷한 에러를 발생시키는 특성이 있네요. 다만 diffusion 학습에서 사용되는 노이즈가 발생시킨 효과가 커서 생성 모델 자체의 특성이라고 보기는 좀 어려울 것 같기도 합니다.
#ddpm #autoregressive_model #generative_model
https://arxiv.org/abs/2310.01889
Ring Attention with Blockwise Transformers for Near-Infinite Context (Hao Liu, Matei Zaharia, Pieter Abbeel)
Blockwise Transformer (https://arxiv.org/abs/2305.19370) 에 Ring Self Attention (https://arxiv.org/abs/2105.13120) 을 결합했다는 느낌이군요. 기본적으로는 하드웨어에 올릴 수 있다가 포인트인 논문이긴 합니다만...시퀀스 길이 512K에서 Llama 13B를 튜닝한 결과가 툭 제시되어 있네요.
#efficient_training