2023년 10월 31일
https://together.ai/blog/redpajama-data-v2
RedPajama 데이터 v2. Common Crawl의 84개 덤프를 가져와서 처리한 다음, perplexity로 묶은 버킷 중 분포의 꼬리를 제외한 문서들에 대해 deduplication을 하고 추가로 quality 필터링을 할 수 있는 메타 데이터를 추가한 형태군요. 그렇게 메타 데이터까지 추가된 문서가 20B, 토큰 수로는 30T 정도가 됩니다. 영어, 독일어, 프랑스어, 스페인어, 이탈리아어 5개 언어를 커버하네요.
#dataset
https://arxiv.org/abs/2310.18313
FP8-LM: Training FP8 Large Language Models (Houwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang, Ze Liu, Yifan Xiong, Ziyue Yang, Bolin Ni, Jingcheng Hu, Ruihang Li, Miaosen Zhang, Chen Li, Jia Ning, Ruizhe Wang, Zheng Zhang, Shuguang Liu, Joe Chau, Han Hu, Peng Cheng)
FP8 학습 방법. Transformer Engine의 대안이라고 할 수 있겠네요. gradient allreduce와 ZeRO에서 scaling factor를 고려하는 것과 low precision optimizer가 메인 포인트군요. FP16과 성능이 동등하다고 이야기하고 있는데 대규모로, 끝까지 학습했을 때에도 성능 차이가 없는지 궁금하긴 합니다.
#efficient_training
https://arxiv.org/abs/2310.17680
CodeFusion: A Pre-trained Diffusion Model for Code Generation (Mukul Singh, José Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen)
nl2code diffusion 모델. 자연어 인코더, 임베딩에 대한 denoiser, 임베딩을 토큰으로 전환하는 디코더로 구성되어 있네요. diffusion 모델의 텍스트 생성에 대한 적용에서 길이나 fertility 예측 같은 문제들이 앞으로 어떻게 풀릴지 궁금합니다. (이 논문은 고정 크기로 패딩하는 방식입니다.)
그런데 diffusion 모델 자체보다도 논문에서 gpt-3.5-turbo를 20B라고 적어놓아서 그게 더 화제가 되고 있네요. 오타다, 실제 유출이다 등등의 이야기가 나오고 있는데...과연 진실은?
#ddpm #non-autoregressive