SkyLadder: Better and Faster Pretraining via Context Window Scheduling
arXiv Daily 덕에 매일 좋은 논문들 읽고 있습니다.
배치 사이즈 늘려가며 학습하는 예시나 Shortformer 학습 관련해서 참고할만한 논문이 또 있을까요?
사례로는 PaLM (https://arxiv.org/abs/2204.02311), Llama 3 (https://arxiv.org/abs/2407.21783), 그리고 DeepSeek 모델들이 있습니다. (https://arxiv.org/abs/2405.04434, https://arxiv.org/abs/2412.19437)
https://arxiv.org/pdf/2501.08313
이미 보셨겠지만, MinMax 0.1에서 "The power-law fit for the training loss and the critical batch size"도 계산해두었더군요!
하이퍼파라미터에 대한 Scaling Law는 요즘 인기 있는 방법인데 이를 배치 크기 스케줄링과 연결했다는 건 재미있는 지점이네요.
가장 mainstream 모델에서도 쓰고 있었군요 ㅎㅎ 감사합니다
arXiv Daily 덕에 매일 좋은 논문들 읽고 있습니다.
배치 사이즈 늘려가며 학습하는 예시나 Shortformer 학습 관련해서 참고할만한 논문이 또 있을까요?
사례로는 PaLM (https://arxiv.org/abs/2204.02311), Llama 3 (https://arxiv.org/abs/2407.21783), 그리고 DeepSeek 모델들이 있습니다. (https://arxiv.org/abs/2405.04434, https://arxiv.org/abs/2412.19437)
https://arxiv.org/pdf/2501.08313
이미 보셨겠지만, MinMax 0.1에서 "The power-law fit for the training loss and the critical batch size"도 계산해두었더군요!
하이퍼파라미터에 대한 Scaling Law는 요즘 인기 있는 방법인데 이를 배치 크기 스케줄링과 연결했다는 건 재미있는 지점이네요.
가장 mainstream 모델에서도 쓰고 있었군요 ㅎㅎ 감사합니다