2023년 9월 14일
https://arxiv.org/abs/2309.06657
Statistical Rejection Sampling Improves Preference Optimization (Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J. Liu, Jialu Liu)
Direct Preference Optimization (https://arxiv.org/abs/2305.18290) 과 SLiC-HF (https://arxiv.org/abs/2305.10425) 을 분석해서 개선한 방법이군요.
DPO. DPO는 학습 중인 policy에서 나온 샘플이 아니라 어떤 다른 policy에서 샘플링한 결과에 대한 preference label을 사용하는 방법이죠.
SLiC-HF (sample-rank variant)는 학습 중인 policy를 사용해서 샘플링한 다음, reward model로 preference label을 부여해서 학습하는 방법입니다.
제안된 방법 RSO는 reward에 대해 optimal한 policy를 사용해서 샘플링한 다음, reward model로 preference label을 부여해서 학습하는 방법입니다.
차이는 optimal policy를 사용하는가에 있는 것 같고 (optimal policy가 목표이기 때문에 optimal policy에서 나온 샘플을 쓰는 것이 좋다는 아이디어입니다.) 그러면 optimal policy에서 샘플링을 어떻게 할 것인가? rejection sampling을 사용합니다.
흥미롭네요. DPO와 SLiC-HF보다 나은 결과를 보고하고 있습니다. 그러나 PPO와 비교하면 어떨까요. 그 결과가 없긴 하네요.
#alignment #rl
Phi-1.5에 대한 dataset contamination 가능성에 대한 Susan Zhang의 지적에 (https://x.com/suchenzang/status/1701615026648605095) 대해 Phi-1.5의 저자가 반박했군요. (https://x.com/EldanRonen/status/1701815969277259870) 아마 이 논란은 좀 더 갈 것 같습니다. (https://x.com/suchenzang/status/1702004679222378751)
데이터셋, 데이터셋을 어떻게 구축했는가에 대한 정보 자체도 공개하고 있지 않은 상황이라 응답이 다소 방어적이고 그런 현상이 나타나지 않았다 정도인 것 같네요. 물론 데이터셋이 공개되어 있다고 해도 이 문제에 대해 결론을 내기는 까다롭겠죠. 어쩌면 새로운 벤치마크나 실제 파인튜닝을 통한 활용 시에 어떤 결과를 보여주는지를 통해 간접적으로 평가하는 것이 나을 수도 있겠다 싶습니다.
사람들이 열광하고 있는 아이디어인 더 높은 퀄리티의 데이터셋을 사용하면 더 적은 양의 데이터로 더 작은 모델을 사용해도 고성능을 낼 수 있다는 발상 자체는 어떨까요? 그럴 것 같기는 합니다. 큰 모델의 필요성도 노이즈가 많은 데이터의 문제로 인해 더 강화되는 측면이 있을 수 있겠죠. 물론 현재 높은 퀄리티의 데이터라는 것이 그 노이즈가 많은 데이터를 큰 모델로 대규모로 학습한 다음 instruction tuning과 rlhf를 거친 모델의 결과라는 점에서 "높은 퀄리티의 데이터"라고만 말하는 것이 적절한가 싶긴 합니다만.
#dataset
https://arxiv.org/abs/2309.07124
RAIN: Your Language Models Can Align Themselves without Finetuning (Yuhui Li, Fangyun Wei, Jinjing Zhao, Chao Zhang, Hongyang Zhang)
샘플링 과정에서 트리 서치를 사용해서 harmlessness alignment를 수행하는 방법이군요. 현재 토큰에서 스코어가 높은 토큰들의 브랜치들을 탐색한 다음, lm을 사용해서 harmlessness 스코어를 만들고, 이 스코어를 통해 거쳐온 경로의 스코어를 업데이트하는 방식으로 탐색해서 (MCTS스럽군요) 가장 많이 방문한 경로를 샘플로 선택하는 방법입니다. 느리다는 것이 문제이긴 한데 Constitutional AI처럼 이렇게 만든 샘플로 다시 튜닝하는 것을 생각할 수도 있을 것 같고...흥미롭네요.
#alignment
https://arxiv.org/abs/2309.07120
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics (Haoqin Tu, Bingchen Zhao, Chen Wei, Cihang Xie)
CC3M과 LLaVA (https://arxiv.org/abs/2304.08485) 의 데이터로 튜닝했더니 TruthfulQA 스코어가 향상되더라는 발견. 이미지 빼고 텍스트만으로도 향상이 있긴 하군요. 이미지-텍스트 데이터에서 텍스트의 특정한 패턴 때문에 향상이 있을 수도 있고 LLaVA 같은 데이터에서 뭔가가 있었을 수도 있을 것 같고 그렇네요. 이미지-텍스트 데이터의 어떤 긍정적인 패턴이 있다고 하면 좋은 일이겠지만요.
#vision-language #multimodal
https://arxiv.org/abs/2309.07045
SafetyBench: Evaluating the Safety of Large Language Models with Multiple Choice Questions (Zhexin Zhang, Leqi Lei, Lindong Wu, Rui Sun, Yongkang Huang, Chong Long, Xiao Liu, Xuanyu Lei, Jie Tang, Minlie Huang)
안전성과 관련된 multiple choice question들로 구성된 벤치마크. 일단 multiple choice question이기 때문에 심플하다는 것은 논문에서도 소개하는 장점입니다. 다만 안전하게 행동하는가, 안전한 응답을 생성하는가와는 별개로 안전한 것과 그렇지 않은 것을 구분할 수 있는 능력이 있는가를 묻는 것이긴 하죠.
#benchmark
https://github.com/baichuan-inc/Baichuan2
https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf
Baicuhan의 LLM 버전 2가 나왔군요. 7B와 13B 모델을 2.6T 분량의 데이터에 학습시켰습니다. 기술 분야의 비중이 큰 학습 데이터라거나 126K 수준의 vocab 등이 눈에 띄네요.
또 한 가지 흥미로운 점은 프리트레이닝 뿐만 아니라 RLHF를 사용한 alignment와 Safety에 대한 고려까지 진행했다는 부분이네요.
그리고 토크나이저에서 발견된 재미있는 사실 하나. https://x.com/suchenzang/status/1702126326369636631
#llm #alignment
https://arxiv.org/abs/2309.06933
DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models (Namhyuk Ahn, Junsoo Lee, Chunggi Lee, Kunhee Kim, Daesik Kim, Seung-Hun Nam, Kibeom Hong)
스타일과 추가적으로 객체에 대한 textual inversion 모델이군요.
#ddpm #style_transfer