2023년 10월 18일
https://openreview.net/forum?id=AL1fq05o7H
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
State Space Model 기반으로 파라미터가 입력에 따라 변화할 수 있도록 만든 모델이군요. 꽤 흥미로운 결과를 보여주고 있습니다. LM에서는 1.4B 정도의 결과까지 나와 있는데 더 큰 규모에서의 결과가 궁금하네요.
#state_space_model
https://arxiv.org/abs/2310.10837
Approximating Two-Layer Feedforward Networks for Efficient Transformers (Róbert Csordás, Kazuki Irie, Jürgen Schmidhuber)
MoE를 MLP에 대한 근사로 보고, 반대로 MLP를 더 잘 근사하는 MoE를 디자인해본다는 아이디어군요. Transformer-XL을 WikiText-103에 대해 학습한다는 좀 이전의 세팅이긴 합니다. MoE를 채택한다고 하면 MoE 디자인에 대해 탐색하는 것은 의미가 있을 듯 싶긴 하네요.
#moe
https://arxiv.org/abs/2310.11441
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V (Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao)
GPT-4V에 입력으로 주는 이미지에, SAM으로 영역을 검출한 후 번호를 적어서 주면 grounding 능력이 향상된다는 결과군요. 이걸 보면서 텍스트가 이미지에 대해 얼마나 성긴 혹은 추상적인 표현인가 하는 생각이 드네요. 그런 의미에서는 이미지를 생성할 수 있는 능력이 이미지를 이해하는 프로세스에도 중요할 수도 있겠다 싶습니다.
#prompt #instance_segmentation #multimodal #vision-language
https://arxiv.org/abs/2310.10908
Emergent Mixture-of-Experts: Can Dense Pre-trained Transformers Benefit from Emergent Modular Structures? (Zihan Qiu, Zeyu Huang, Jie Fu)
Dense한 모델을 MoE 모델로 쪼개는 방법에 대한 연구군요. MoE를 Dense한 모델의 근사로 보는 연구 (https://arxiv.org/abs/2310.10837) 와 결합해서 생각한다면 흥미로운 지점이 있지 않나 싶습니다.
#moe
https://arxiv.org/abs/2310.00492
From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning (Xuansheng Wu, Wenlin Yao, Jianshu Chen, Xiaoman Pan, Xiaoyang Wang, Ninghao Liu, Dong Yu)
Instruction tuning 과정에서 모델에는 어떤 변화가 발생하는가? 일단 instruction에 해당하는 토큰에 대한 attention weight가 증가하고, 학습에 사용된 instruction 시나리오에 관련된 방향으로 ffn에 인코딩된 지식의 분포가 변화하고, instruction에 자주 등장하는 동사에 대한 attention이 증가하는 군요. 얻을 수 있는 통찰은 여럿이겠지만 전 instruction tuning에 사용되는 데이터셋의 다양성이 아주 중요하다는 것을 시사하는 증거로 보이네요.
#instruction-tuning
https://arxiv.org/abs/2310.11453
BitNet: Scaling 1-bit Transformers for Large Language Models (Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei)
1 bit weight를 사용하는 트랜스포머. Quantization은 아니고 1 bit로 학습한다는 것을 전제하고 있습니다. Straight through estimator를 사용해서 학습시키는데 30B 까지 일단 학습이 되네요. 더 오래 학습시켰을 때의 결과가 궁금하긴 합니다.
scaling curve를 고려했을 때 동일 비트 기준의 효율성을 달성할 수 있을지가 포인트가 되겠군요.
#efficiency
https://arxiv.org/abs/2310.07096
Sparse Universal Transformer (Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan)
Universal Transformer가 다시 눈에 띄네요. Universal Transformer처럼 레이어를 재사용하되 레이어 내의 Attention과 FFN을 모두 MoE로 바꿨군요. 추가로 새로운 Halting 방법을 제안했습니다. Universal Transformer 계통의 방법이 파라미터 효율성을 넘어 Transformer LM의 성능 향상에 도움이 될 수 있을지가 궁금해지네요.
#transformer