2023년 12월 26일
https://arxiv.org/abs/2312.14238
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks (Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai)
https://github.com/OpenGVLab/InternVL
ViT 6B와 Llama 7B를 묶어서 CLIP으로 프리트레이닝, 이 두 모델을 Cross Attention으로 묶은 다음 Generative/Constrastive/Matching Loss로 학습, 그 위에 13B 디코더를 붙여서 Instruction Tuning 순서로 구축한 모델이군요.
#multimodal #vision-language #clip #instruction-tuning
https://arxiv.org/abs/2312.14862
YAYI 2: Multilingual Open-Source Large Language Models (Yin Luo, Qingchao Kong, Nan Xu, Jia Cao, Bao Hao, Baoyu Qu, Bo Chen, Chao Zhu, Chenyang Zhao, Donglei Zhang, Fan Feng, Feifei Zhao, Hailong Sun, Hanxuan Yang, Haojun Pan, Hongyu Liu, Jianbin Guo, Jiangtao Du, Jingyi Wang, Junfeng Li, Lei Sun, Liduo Liu, Lifeng Dong, Lili Liu, Lin Wang, Liwen Zhang, Minzheng Wang, Pin Wang, Ping Yu, Qingxiao Li, Rui Yan, Rui Zou, Ruiqun Li, Taiwen Huang, Xiaodong Wang, Xiaofei Wu, Xin Peng, Xina Zhang, Xing Fang, Xinglin Xiao, Yanni Hao, Yao Dong, Yigang Wang, Ying Liu, Yongyu Jiang, Yungan Wang, Yuqi Wang, Zhangsheng Wang, Zhaoxin Yu, Zhen Luo, Wenji Mao, Lei Wang, Dajun Zeng)
중국 LLM 업계도 경쟁이 치열하네요. 30B / 2.65T 학습. 눈에 띄는 것은 천 개 단위의 휴리스틱으로 데이터 클리닝을 했다는 것, 데이터 비율에서 인터넷 크롤링 데이터가 50% 수준까지 낮아졌다는 부분이네요. 요즘 중국 LLM 모델이 종종 그렇듯 RLHF까지 거쳤습니다.
Contamination에 대한 언급이 없어서 신뢰하기 어렵지만 벤치마크 스코어가 굉장합니다. MMLU 80.5, HumanEval 53.1 등.
#llm #multilingual
https://arxiv.org/abs/2312.14591
Reasons to Reject? Aligning Language Models with Judgments (Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi)
텍스트 Critic (Judgment)로 피드백을 주는 방법. Instruction (x), Response (y), Judgment (j)의 Triplet에서 x, y와 x, y, j가 Align된 경우 (Align-P), 즉 좋은 y를 생성한 경우, x, y, j는 Align 되어 있으나 x, y가 Align 되지 않은 경우, 즉 좋은 y를 생성하지 못한 경우 (Align-N), 그리고 좋은 y를 생성하지 못한 경우에서 j를 Negative가 아니라 임의의 Postive 피드백으로 교환한 경우를 생각합니다 (Misalign).
Align-N은 x, y, j가 Align 되어 있기에 Misalign 보다 확률이 높은 토큰들이 존재하고 이 확률이 높은 토큰들에 Unlikelihood Loss를 줍니다. 그렇지 않은 토큰들과 Align-P, 그리고 Align-N + Judgment에 대해서는 MLE 학습을 하네요.
텍스트 피드백을 사용하는 방법들에 대한 연구들이 종종 나왔었는데 꽤 재미있는 접근이지 않은가 싶습니다. Judgment와 Align 되어 있으니 확률이 높아진다라는 가정에 의존하지만요.
#feedback
https://arxiv.org/abs/2312.14232
Parrot Captions Teach CLIP to Spot Text (Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou)
LAION 같은 데이터에 텍스트가 포함된 이미지 & 캡션에 이미지에 포함된 텍스트가 그대로 들어간 조합이 너무 많아서 텍스트 발견에 지나치게 집중되지 않는가 하는 주장. 사실 OCR 능력을 생각하면 텍스트 발견 또한 중요한 능력이긴 할 것이라 한쪽을 포기하는 것 외의 좀 더 나은 방법이 없을까 하는 생각을 하게 되네요. (모델 규모가 커지면 나아질지도...)
#clip #dataset
https://arxiv.org/abs/2312.13558
The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction (Pratyusha Sharma, Jordan T. Ash, Dipendra Misra)
LLM의 Weight를 Low rank approximation하면 여러 벤치마크에서 성능이 향상된다는 결과. High order factor에 Low order factor와 충돌하는 사실들이 저장되어 있고, 그래서 그걸 삭제하면 성능이 더 나아질 수 있다고 제안하고 있네요. Regularization 같은 관점으로 보면 상당히 흥미로운 결과입니다만 이 과정에서 삭제되는 정보가 다른 과제나 OOD 상황에서 필요할 수 있지 않을까 하는 것이 문제겠군요. (https://x.com/AndrewLampinen/status/1739107003119837586)
#regularization #llm #transformer