2023년 9월 19일
https://arxiv.org/abs/2309.09400
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages (Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen)
167개 언어에 대한 6.3T 토큰 데이터셋이군요. OSCAR와 mC4 코퍼스를 합친 다음 추가적인 클리닝과 dedup을 수행해서 만들어졌습니다. 사실 영어 단일 언어 코퍼스를 만드는 것도 쉽지 않은데 multilingual 데이터셋을 고품질로 구축하는 건 정말 까다롭지 않나 싶기도 하네요. 어도비 리서치에서 참여했는데 어도비도 LLM 작업을 할지 궁금하네요.
#corpus #dataset
https://arxiv.org/abs/2309.09958
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models (Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen)
llava를 33B, 65B로 키워봤군요. 이미지 해상도 증가, text only instruction data 사용 같은 부분에서 추가적인 성능 향상을 발견했습니다. lora와 qlora가 잘 된다, multimodal instruction tuning이 language task에 대해서도 도움이 된다 같은 결과도 발견했네요.
#multimodal #vision-language
https://arxiv.org/abs/2309.09117
Contrastive Decoding Improves Reasoning in Large Language Models (Sean O'Brien, Mike Lewis)
작은 모델과 큰 모델의 logit 차이를 사용하는 constrastive decoding이 여러 과제에서 성능을 향상시킨다는 결과. 얼마 전에도 contrastive decoding을 사용한 결과가 나왔었죠. (https://arxiv.org/abs/2309.03883) 흥미롭네요.
#decoding