2023년 11월 1일
https://arxiv.org/abs/2310.19341
Skywork: A More Open Bilingual Foundation Model (Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou)
https://github.com/SkyworkAI/Skywork
13B, 3.2T 토큰 학습의 영어/중국어 bilingual llm이네요. 데이터셋 디테일 등에서 역시 개략적인 정보 밖에 없지만 학습 과정은 좀 재미있네요. 2T 정도 학습시키다가 계획 변경으로 추가 데이터 1T에 학습시키고, STEM 쪽 데이터로 200B를 더 학습 시킨 과정에 대한 이야기가 나와 있습니다.
추가로 GSM8K의 학습 데이터를 다른 모델들이 코퍼스에 넣고 있는 것이 아닌가 하는 분석을 하고 있습니다. 학습 셋과 테스트 셋에 대한 perplexity가 좀 차이가 있는데? 하는 분석이네요. 논문에서도 주장하는 것이지만 이런 벤치마크 오염은 피하는 쪽이 좋지 않을까 싶습니다.
#llm #multilingual #pretraining
https://arxiv.org/abs/2310.19531
InfoEntropy Loss to Mitigate Bias of Learning Difficulties for Generative Language Models (Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu)
와 Focal Loss! 정말 오랜만에 보네요. focal loss를 여러 개의 타당한 토큰이 있는 LM 프리트레이닝 상황에 맞게 수정해서 학습시켰더니 성능이 향상되더라는 결과입니다. focal loss의 직관처럼 쉬운 토큰보다는 어려운 토큰에 가중치를 더 주는 쪽이 효율적이지 않겠나...하는 것이네요.
#pretraining #loss
https://arxiv.org/abs/2310.20707
What's In My Big Data? (Yanai Elazar, Akshita Bhagia, Ian Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hanna Hajishirzi, Noah A. Smith, Jesse Dodge)
The Pile, RedPajama, LAION-2B 같은 코퍼스에 대한 분석. 도메인 분포, 중복 문서나 반복 문자열들, 벤치마크 오염 등에 대한 탐색입니다. 코퍼스 분석과, 그리고 코퍼스 구축 시의 선택들이 모델에 실제로 어떤 영향을 미치는가 하는 것은 흥미로운 주제이지만...요즘은 이게 중요한 비밀이 되어가는 느낌이네요.
#dataset
https://arxiv.org/abs/2310.19956
The Impact of Depth and Width on Transformer Language Model Generalization (Jackson Petty, Sjoerd van Steenkiste, Ishita Dasgupta, Fei Sha, Dan Garrette, Tal Linzen)
트랜스포머의 넓이 vs 깊이. 여기서는 좀 특이하게 모델(임베딩) 차원은 고정하고 ffn의 hidden dimension과 레이어의 수를 바꿔가면서 테스트해봤네요. 뉴럴넷 판의 교훈처럼 넓은 모델보다 깊은 모델이 낫다, 그렇지만 깊이 상승에 따라 성능 향상폭은 감소하고 ffn hidden dimension이 임베딩 차원 이하로 가는 순간 성능이 감소하기 시작한다는 것이 나타나네요.
compositional generalization에서 깊이의 역할에 대해서도 논하고 있습니다만 사실 결과로 봐선 compositional generalization에서도 쉬운 것만 풀리는 것이 아닌가 하는 느낌이네요.
조금 다른 이야기지만 트랜스포머의 레이어 수는 동작하는 알고리즘의 복잡도나 단계를 결정한다는 느낌이 있고, 그런 의미에서 Universal Transformer나 Equilibrium Model 같은 임의 깊이 모델들에서도 뭔가 다음 세대 모델에 대한 힌트를 발견할 수 있지 않을까? 하는 생각이 드네요.
#transformer
https://arxiv.org/abs/2310.19909
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks (Micah Goldblum, Hossein Souri, Renkun Ni, Manli Shu, Viraj Prabhu, Gowthami Somepalli, Prithvijit Chattopadhyay, Mark Ibrahim, Adrien Bardes, Judy Hoffman, Rama Chellappa, Andrew Gordon Wilson, Tom Goldstein)
이미지 백본에 대한 다양한 과제에 대한 퍼포먼스 비교입니다. 이미지 분류 같은 프리트레이닝은 모든 아키텍처에 대해서 했지만 다른 프리트레이닝 방법은 특정 아키텍처에 대해서만 되어 있다거나, 이미지넷 1K에 대한 프리트레이닝 결과만 있다거나 하는 등의 특징이 있어서 좀 자세히 봐야할 것 같군요.
그래도 논문에서 발견한 것들을 정리해보면 이렇습니다.
이미지넷 21K에 대해 supervised pretraining한 ConvNeXt가 가장 강력. Swin이 ViT보다 나음.
ViT가 CNN보다 scaling이 더 잘 되는 듯.
supervised가 나은가 self supervised가 나은가? 학습 데이터셋 크기가 달라서 비교하기 어렵지만 분류나 retrieval에는 SSL이 나은 것 같기도. 그런데 supervised training이 detection과 segmentation에서는 스코어가 더 잘 나오는 듯.
과제들의 성능은 상관관계가 높음.
ViT는 linear probing보다 파인튜닝의 수혜를 봄.
ViT 중에서는 CLIP이 가장 강력.
MAE나 Diffusion보다는 supervised 혹은 contrastive learning이 더 나았음.
#backbone #vit #cnn
https://arxiv.org/abs/2310.20499
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models (Tian Liang, Zhiwei He, Jen-tes Huang, Wenxuan Wang, Wenxiang Jiao, Rui Wang, Yujiu Yang, Zhaopeng Tu, Shuming Shi, Xing Wang)
LLM을 평가하는 방법 제안. 단어를 주고 그 단어나 그와 비슷한 단어를 설명하는 방법 하나와, 라이어 게임 비슷한 멀티 에이전트 게임을 시키는 방법을 제안하네요. Skill-Mix (https://arxiv.org/abs/2310.17567) 같은 느낌이 있습니다. 흥미롭지만 이런 형태의 벤치마크가 어떤 능력을 측정하는가 하는 것에 대해 생각해보게 되네요. (물론 기존 벤치마크가 측정하는 것이 모두 명확하다고 하기는 어렵겠지만요.)
#benchmark #evaluation
https://arxiv.org/abs/2310.19240
M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models (Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li, Lifeng Shang, Qun Liu, Kam-Fai Wong)
다양한 과제에 대한 long context benchmark suite. context length에 따른 성능 변화의 slope를 비교한다거나 하는 것도 재미있네요.
#long_context #benchmark
https://arxiv.org/abs/2310.20550
CapsFusion: Rethinking Image-Text Data at Scale (Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu)
요즘 이미지-텍스트 데이터셋에 캡션 다시 달기가 유행인데, 캡션을 생성해봤더니 깨끗하긴 하지만 캡션에 포함된 정보가 부족하더라, 그에 반해 원 데이터는 노이즈가 많지만 정보가 풍부하더라 하는 발견에서 시작한 연구네요. 생성한 캡션과 원 텍스트를 결합해서 ChatGPT로 개선한 텍스트를 가지고 캡션 개선 모델을 만들어서 데이터셋을 구축했습니다.
캡션 모델, 데이터셋의 원 텍스트, 이미지와 텍스트라는 각각의 modal을 어떻게 결합해서 더 나은 이미지-텍스트 데이터를 구축할 것인가가 꽤 흥미롭고 중요한 주제인 것 같네요.
#captioning #vision-language #multimodal #dataset
https://arxiv.org/abs/2310.20410
FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models (Yuxin Jiang, Yufei Wang, Xingshan Zeng, Wanjun Zhong, Liangyou Li, Fei Mi, Lifeng Shang, Xin Jiang, Qun Liu, Wei Wang)
원래의 지시(instruction)에 제약 조건을 추가하면서 난이도를 바꾸는 형태로 만든 벤치마크. 예를 들어 영화 5개 추천해줘라는 지시에 대해 중국 영화라는 제약, 또 1990년 이전에 나온 영화라는 제약을 추가하는 식이네요. 이쪽도 Skill-Mix (https://arxiv.org/abs/2310.17567) 를 연상시키는 점이 있습니다.
제약 조건의 추가로 난이도를 조절한다는 아이디어들이 꽤 재미있네요. 이런 형태의 벤치마크가 실제 사용성과 어떤 관계가 있는가가 중요할 텐데, 제약 조건를 따르는 능력이라는 것은 실용적으로도 꽤 의미가 있지 않을까 싶습니다.
#benchmark