2024년 1월 2일
https://arxiv.org/abs/2401.00134
Unicron: Economizing Self-Healing LLM Training at Scale (Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou)
모델 학습의 규모가 커지면서 Workload Manager를 구축하는 것도 중요한 문제가 되고 있군요. 효율적인 Distributed Training 세팅과 마찬가지로 에러를 빠르게 발견하고 복구하는 것도 실질적인 MFU의 상승으로 이어지겠죠.
#distributed_training
https://arxiv.org/abs/2401.00368
Improving Text Embeddings with Large Language Models (Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei)
LLM으로 Retrieval 데이터셋 만들기. 우선 Retrieval 과제들을 만들고, 이 과제를 기반으로 쿼리, Postive/Negative 문서를 생성하는군요. 쿼리에서 문서까지 모두 생성 데이터인데 작동하네요.
#synthetic-data #retrieval
https://arxiv.org/abs/2401.00448
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws (Nikhil Sardana, Jonathan Frankle)
Chinchilla Scaling Law에 추론 시의 비용도 고려해보자...는 아이디어. Chinchilla의 Parametric Fit이 이 상황에서도 충분한가 하는 생각은 드네요. 모델이 얼마나 쓰일 것인가도 가늠하기 어려운 문제고요.
#efficiency