2023년 12월 20일
https://arxiv.org/abs/2312.12436
A Challenger to GPT-4V? Early Explorations of Gemini in Visual Expertise (Chaoyou Fu, Renrui Zhang, Haojia Lin, Zihan Wang, Timin Gao, Yongdong Luo, Yubo Huang, Zhengye Zhang, Longtian Qiu, Gaoxiang Ye, Yunhang Shen, Mengdan Zhang, Peixian Chen, Sirui Zhao, Xiawu Zheng, Shaohui Lin, Deqiang Jiang, Di Yin, Peng Gao, Ke Li, Xing Sun, Rongrong Ji)
Gemini와 GPT-4는 가만히 있어도 학계에서 검증을 해주네요. Gemini Pro도 Vision 능력이 GPT-4V와 비슷한 것 같다는 이야기는 나오는 것 같고, 텍스트에 대해서는 GPT-3.5와 비슷하거나 못 미친다는 이야기(https://arxiv.org/abs/2312.11444) 가 많은 듯 싶습니다. Alignment나 필터링과 관련된 이슈도 고려해야 할 것 같긴 하지만요.
#benchmark #multimodal
https://arxiv.org/abs/2312.11420
Tuning LayerNorm in Attention: Towards Efficient Multi-Modal LLM Finetuning (Bingchen Zhao, Haoqin Tu, Chen Wei, Jieru Mei, Cihang Xie)
LayerNorm 튜닝은 사실 어댑터 초창기에 많이 쓰던 트릭이었는데 이렇게 다시 등장하는군요. Multimodal LLM 학습에 쓸 수 있을 것 같다는 결과입니다.
#efficient_training #multimodal
https://arxiv.org/abs/2312.11456
Gibbs Sampling from Human Feedback: A Provable KL- constrained Framework for RLHF (Wei Xiong, Hanze Dong, Chenlu Ye, Han Zhong, Nan Jiang, Tong Zhang)
Offline과 Online 세팅의 RLHF에 대한 이론적 분석. Pessimism/Uncertainty를 고려해야할 필요성에 대한 부분이 눈에 띄네요. DPO와 RSO에 대해서도 분석하는데 RSO의 문제 의식이기도 했던 Preference 샘플이 Optimal Policy가 아니라 Offline Policy에서 생성되는 것의 한계를 지적하네요. 여러모로 생각해볼만한 여지가 있지 않나 싶습니다. 하려고 하는 것이 Offline RL이라면 Offline RL에 대해서 먼저 생각해보는 것이 필요하지 않나 싶네요. (ReST에서 은근슬쩍 Offline RL 방법들을 끌어들인느 것처럼.)
#rlhf