2023년 9월 27일
https://arxiv.org/abs/2309.15028
Making PPO even better: Value-Guided Monte-Carlo Tree Search decoding (Jiacheng Liu, Andrew Cohen, Ramakanth Pasunuru, Yejin Choi, Hannaneh Hajishirzi, Asli Celikyilmaz)
PPO 학습된 모델과 Value function을 가져와서 MCTS로 토큰 디코딩을 시도. 말만 들어도 비싼 방법이라 대략 20 토큰 정도의 길이로만 테스트했네요. 비용 문제는 차치하고 전 서치가 흥미로운 방향이 아닌가 싶습니다. The Bitter Lesson에서 AI 발전에서 가장 효과적이었던 두 가지로 학습과 서치를 언급했던 것을 생각하면요.
#rl #search #decoding
https://arxiv.org/abs/2309.14509
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models (Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He)
DeepSpeed Ulysses 리포트가 올라왔네요. 블로그에 올라왔던 것과 비슷한 정도의 내용입니다.
#long_context
https://arxiv.org/abs/2309.14525
Aligning Large Multimodal Models with Factually Augmented RLHF (Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, Yu-Xiong Wang, Yiming Yang, Kurt Keutzer, Trevor Darrell)
Vision-Language 모델에서 할루시네이션을 억제하기 위한 RLHF 방법. 할루시네이션을 감지하기 위한 Reward Model이 필요한데, 일단 어노테이션 과정에서 할루시네이션을 찾아내도록 가이드를 했고, RM 입력으로 이미지와 이미지의 캡션을 사실에 대한 추가 정보를 제공하는 소스로 결합했네요.
할루시네이션이 발생한다는 것을 넘어 할루시네이션을 잡는 구체적인 방법이 중요한 상황에서 흥미로운 사례가 아닌가 싶습니다. Vision-Language 모델 뿐만 아니라 Language Only 사례에서도 이런 식으로 추가 사실 정보를 제공하는 방식을 고려할 수 있지 않을까 싶네요.
#vision-language #multimodal #alignment #hallucination
https://arxiv.org/abs/2309.14717
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models (Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian)
QLoRA처럼 Quantization이 된 Weight를 사용하는 것을 넘어, 튜닝 결과물도 Quantization이 되어있는 상태였으면 좋겠다는 아이디어에서 나온 결과. Groupwise Quantzation을 사용하고, 그에 대응해 같은 그룹 내의 LoRA Weight는 공유되도록 만들어서 학습. 흥미롭네요. 다만 나온 결과 수치들이 Llama의 결과와는 꽤 달라서 어떻게 평가해야 할지는 좀 어렵습니다.
#efficient_training #quantization
https://arxiv.org/abs/2309.14592
Efficient Post-training Quantization with FP8 Formats (Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang)
FP8 PTQ에 대한 실험. FP8 학습의 장점으로 나오는 것 중 하나가 PTQ를 할 필요가 없다는 것이었는데...FP8 학습이 얼마나 잘 되는지 궁금하네요.
#quantization
https://arxiv.org/abs/2309.15112
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition (Pan Zhang, Xiaoyi Dong Bin Wang, Yuhang Cao, Chao Xu, Linke Ouyang, Zhiyuan Zhao, Shuangrui Ding, Songyang Zhang, Haodong Duan, Hang Yan, Xinyue Zhang, Wei Li, Jingwen Li, Kai Chen, Conghui He, Xingcheng Zhang, Yu Qiao, Dahua Lin, Jiaqi Wang)
Interleaved Vision-Language 모델은 이제 기본이군요. EVA-CLIP (https://arxiv.org/abs/2211.07636) Vision 인코더 + InternLM (https://github.com/InternLM/InternLM) Language 디코더에 Perceiver 스타일 샘플러를 붙였군요. 이쪽은 BLIP-2 (https://arxiv.org/abs/2301.12597) 의 차용으로 보이긴 합니다만.
이렇게 모아보니 중국 내에서 자체 구축한 모델로 구성되었다는 게 눈에 띄기도 하네요. 추가로 InternLM의 정체도 궁금하군요.
#vision-language #multimodal
https://arxiv.org/abs/2309.15098
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models (Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi)
질문에 대해 사실로 답한 경우와 그렇지 않은 경우에 트랜스포머 내부에는 어떤 차이가 있을까? 여기서는 질문의 제약 조건, 예를 들어 Bad Romance를 부른 사람이 누구인가라는 질문에서의 Bad Romance와 같이 답변해야 하는 사람 혹은 대상(엔티티)을 한정하는 토큰에 대해 Attention 가중치가 어떠한가에 주목했네요. 사실을 답할 때 이 제약 조건에 대한 Attention 가중치가 그렇지 않을 때에 비해 높다고 합니다. 그리고 이 가중치를 사용해 사실을 답했는지 아닌지를 구분하는 것이 가능하다고 하는 군요.
대답해야 할 사람이 유명한 경우, 즉 코퍼스에서 흔히 등장할 법한 경우에 정답 확률이 높아진다는 것을 보면 어제 소개한 Embers of Autoregression (https://arxiv.org/abs/2309.13638) 이 떠오르는 군요.
#llm #transformer