2023년 9월 26일
https://arxiv.org/abs/2309.14327
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention (Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He)
DeepSpeed에서 Image-Text 채팅을 위한 모델 프레임워크를 만들었군요. 전반적인 구조는 이미지 토큰을 텍스트 토큰과 결합하는 일반적인(?) 형태인데, 이미지 토큰은 이미지 인코더를 거쳐왔으니 토큰 사이 Attention이 필요하지 않다, 텍스트와 이미지 토큰에 대한 Attention은 분리되어야 한다는 제안을 하고 있군요. 어느 정도의 효과인지는 나와있지 않지만요.
#vision-language #multimodal
https://arxiv.org/abs/2309.14322
Small-scale proxies for large-scale Transformer training instabilities (Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith)
트랜스포머의 학습 불안정성과 그 원인으로 지목되는 두 현상(Attention Logit의 증가와 출력 Logit의 발산)을 작은 모델에서도 LR을 높임으로써 재현할 수 있다는 결과. 이 결과를 기반으로 불안정성을 해소하기 위한 방법들을 테스트했군요. 여기서 안정성을 보는 척도는 높은 LR에서의 발산 여부와, LR의 변동에 따른 Loss의 변동 기대값입니다.
QK LayerNorm (https://arxiv.org/abs/2302.05442). Attention Logit의 증가와 관련되어 있죠. QK LayerNorm은 모든 모델 규모에서 불안정성을 낮춰줍니다.
z-loss (https://arxiv.org/abs/2204.02311). 출력 Logit의 발산과 관련되어 있죠. 안정성을 높여주지만 큰 모델에서는 Weight Decay로 커버가 되는 것 같군요.
Warmup. Warmup이 길면 더 안정합니다.
Independent Weight Decay. AdamW의 일반적인 구현에서는 업데이트가 LR * Weight Decay로 되어 있죠. 이걸 분리해서 LR 따로 Weight Decay 따로 지정하면 좀 더 안정합니다.
깊은 모델이 넓은 모델보다 불안정합니다. 그렇다고 안정성을 위해 깊이를 희생할 필요는 없지만요.
μP (https://arxiv.org/abs/2203.03466). 이거 다들 찍먹해보는 군요. 안정성에는 영향이 없다고 합니다. 그렇지만 어차피 최적 하이퍼파라미터를 찾기 위한 방법이니 안정성을 요구할 문제는 아니긴 하죠.
Attention Logit의 불안정성은 ReLU 같은 걸 써도 발생하는 걸로 봐선 Softmax 때문은 아니라고 합니다.
LR이 어느 정도일 때 불안정해질 것인지 예측이 가능한가? 아직 증거가 부족하지만 그런 것 같다고 합니다.
한 가지 더. 모델이 클 때 낮은 단계의 레이어에서 그래디언트의 크기가 Adam의 eps보다 작아지면 불안정해질 수 있습니다. eps를 키워서 안정하게 만드는 건 봤는데 eps를 낮춰서 안정성을 높이는 건 여기서 처음 보네요.
Weight의 Norm의 증가를 억제하는 방법은 여러 가지 있겠지만 제가 익숙한 건 AdamP (https://arxiv.org/abs/2006.08217) 같은 접근입니다. QK LayerNorm 등의 도입 없이 이런 수정을 통해 불안정성을 해소할 수 있을지 궁금하네요.
#transformer #stability
https://arxiv.org/abs/2309.13638
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve (R. Thomas McCoy, Shunyu Yao, Dan Friedman, Matthew Hardy, Thomas L. Griffiths)
Sparks of AGI (https://arxiv.org/abs/2303.12712) 를 겨냥한 제목이죠. LM이 굉장한 능력을 보여주고 있지만 Autoregressive Modeling으로 인해 발생하는 잔재가 있을 것이다...라는 생각입니다. 여러 가지가 있겠지만 주로 다루는 건 다음 세 가지네요.
흔한 과제보다 드문 과제에 취약하다. 예를 들어 알파벳 순으로 정렬하는 것보다 역순으로 정렬하는 것에 약합니다.
생성하는 텍스트의 확률이 낮은 경우 취약하다. 역순으로 나열된 단어를 정방향으로 뒤집는 과제를 시켜보면 정방향 텍스트가 더 확률이 높은 텍스트을 때 성능이 더 높습니다.
입력 텍스트의 확률이 낮은 경우 취약하다. 다만 입력 텍스트에 대해서는 일반화가 더 잘 될 것이라고 예상했고, 실제로 효과가 크지 않네요.
사실 이런 것보다 논문에서 더 중요하게 말하고 싶은 건 (사람과 비슷한가를 보는 것이 아니라) LM을 LM이 학습한 목표와 과제의 측면에서 볼 필요가 있다는 메시지일 것 같네요. Thomas Griffith는 계산인지과학 쪽에서 유명한데 요즘 이런 작업도 하는군요.
#autoregressive_model #llm
https://arxiv.org/abs/2309.13876
Reproducing Whisper-Style Training Using an Open-Source Toolkit and Publicly Available Data (Yifan Peng, Jinchuan Tian, Brian Yan, Dan Berrebbi, Xuankai Chang, Xinjian Li, Jiatong Shi, Siddhant Arora, William Chen, Roshan Sharma, Wangyou Zhang, Yui Sudo, Muhammad Shakeel, Jee-weon Jung, Soumi Maiti, Shinji Watanabe)
Whisper 같은 모델을 공개된 데이터로 한 번 만들어보자는 프로젝트입니다. 일단 공개되어 있는 데이터셋들을 모아 180K 시간의 데이터로 모델을 만들어냈군요. 흥미로운데 역시 데이터가 더 필요한 것 같다는 느낌이네요.
#asr
https://arxiv.org/abs/2309.13345
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models (Zican Dong, Tianyi Tang, Junyi Li, Wayne Xin Zhao, Ji-Rong Wen)
Long Context 벤치마크. Retrieval 위주 과제가 아니라 할루시네이션 검출이나 코드 완성 같은 다른 과제들이 들어가 있네요. 흥미로운데 눈에 띄는 것 중 하나는 GPT-3.5-16K가 비교적 강한 와중에 Claude 2 100K가 비교적 약한 것 같다는 것이네요.
#long_context
https://arxiv.org/abs/2309.13308
Calibrating LLM-Based Evaluator (Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang)
LLM을 사용한 평가를 사람의 평가와 어떻게 캘리브레이션할 것인가. 일단 사람의 평가 결과를 모읍니다. 평가 결과를 몇 개 샘플링해서 LLM에게 입력으로 주고 평가 기준을 생성하게 합니다. 그리고 이렇게 생성된 평가 기준 중 괜찮은 것들을 골라, 평과 결과 셋에서의 성능을 보고, 틀리는 케이스를 가져와서 다시 LLM에 입력으로 주고 평가 기준을 개선하게 합니다.
캘리브레이션이라는 목적을 걸긴 했지만 프롬프트 튜닝 기법이라는 측면에서 봐야하지 않을까 싶네요.
#evaluation #prompt