5 Comments
User's avatar
Toby Kim's avatar

arXiv Daily 덕에 매일 좋은 논문들 읽고 있습니다.

배치 사이즈 늘려가며 학습하는 예시나 Shortformer 학습 관련해서 참고할만한 논문이 또 있을까요?

Expand full comment
Kim Seonghyeon's avatar

사례로는 PaLM (https://arxiv.org/abs/2204.02311), Llama 3 (https://arxiv.org/abs/2407.21783), 그리고 DeepSeek 모델들이 있습니다. (https://arxiv.org/abs/2405.04434, https://arxiv.org/abs/2412.19437)

Expand full comment
Toby Kim's avatar

https://arxiv.org/pdf/2501.08313

이미 보셨겠지만, MinMax 0.1에서 "The power-law fit for the training loss and the critical batch size"도 계산해두었더군요!

Expand full comment
Kim Seonghyeon's avatar

하이퍼파라미터에 대한 Scaling Law는 요즘 인기 있는 방법인데 이를 배치 크기 스케줄링과 연결했다는 건 재미있는 지점이네요.

Expand full comment
Toby Kim's avatar

가장 mainstream 모델에서도 쓰고 있었군요 ㅎㅎ 감사합니다

Expand full comment