2023년 1월 3주차
https://arxiv.org/abs/2301.08745
Is ChatGPT A Good Translator? A Preliminary Study (Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Zhaopeng Tu)
chatgpt의 번역 능력 테스트 같은 연구도 나오는군요. 독일어 같은 리소스가 많은 언어에서는 구글 번역과도 비슷하게 나오는군요. chatgpt에 대체 어떤 데이터들이 들어가 있는지 다들 관심이 많은데 약간 단서가 될 수 있는 부분인 것 같기도 합니다. 특히 X -> English는 english lm 능력 때문에 성능이 잘 나오는데 데이터가 부족한 언어의 경우 English -> X에서 문제가 생기는 것이 아닐까라는 추측도 있네요.
#chatgpt #nmt
https://arxiv.org/abs/2301.08984
SuperScaler: Supporting Flexible DNN Parallelization via a Unified Abstraction (Zhiqi Lin, Youshan Miao, Guodong Liu, Xiaoxiang Shi, Quanlu Zhang, Fan Yang, Saeed Maleki, Yi Zhu, Xu Cao, Cheng Li, Mao Yang, Lintao Zhang, Lidong Zhou)
distributed parallelization 최적화. megatron, deepspeed, alpa를 베이스라인으로 비교한 결과들이라는 게 흥미롭네요.
#distributed_training