2023년 5월 5주차
https://arxiv.org/abs/2305.18290
Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn)
오...아주 흥미로운 접근이네요. RL objective에 Bradley-Terry preference model (https://en.wikipedia.org/wiki/Bradley–Terry_model) 을 결합해서 reward function, reinforcement learning이 필요하지 않은 objective를 만들었습니다. 그냥 preference data에 대해 직접 학습시켜버리는 형태가 되는군요.
#alignment
https://arxiv.org/abs/2305.18565
PaLI-X: On Scaling up a Multilingual Vision and Language Model (Xi Chen, Josip Djolonga, Piotr Padlewski, Basil Mustafa, Soravit Changpinyo, Jialin Wu, Carlos Riquelme Ruiz, Sebastian Goodman, Xiao Wang, Yi Tay, Siamak Shakeri, Mostafa Dehghani, Daniel Salz, Mario Lucic, Michael Tschannen, Arsha Nagrani, Hexiang Hu, Mandar Joshi, Bo Pang, Ceslee Montgomery, Paulina Pietrzyk, Marvin Ritter, AJ Piergiovanni, Matthias Minderer, Filip Pavetic, Austin Waters, Gang Li, Ibrahim Alabdulmohsin, Lucas Beyer, Julien Amelot, Kenton Lee, Andreas Peter Steiner, Yang Li, Daniel Keysers, Anurag Arnab, Yuanzhong Xu, Keran Rong, Alexander Kolesnikov, Mojtaba Seyedhosseini, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut)
구글의 새 vision-language 모델이군요. vit-22B에 ul2 32B 모델의 결합입니다. 비전과 텍스트 모델의 규모를 비슷하게 가져가는 것이 좋은 것 같다고 말하고 있네요.
1단계 프리트레이닝에서는 224px로 다양한 과제에 대해서 학습시키고, 2단계 프리트레이닝은 이미지 입력 크기를 448, 672, 756px로 늘려가면서 OCR과 object detection에 대해 학습시킵니다.
여러모로 비전 모델도 큰 것을 사용하고 높은 해상도에서 학습시키는 것이 좋다는 결론이군요.
#vision-language #multimodal
https://arxiv.org/abs/2305.18295
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths (Zeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo)
diffusion 모델에서 등장했던 time 방향의 mixture of expert에 더해, 토큰에 대한 spatial attention map을 사용해 각 토큰에 대한 spatial expert들을 결합하는 spatial mixture of expert를 사용해 구성한 모델이네요. 이 개선 하나만으로 달성한 성능은 아니겠지만 샘플 이미지들의 퀄리티가 꽤 좋아 보입니다.
#ddpm
https://arxiv.org/abs/2305.19370
Blockwise Parallel Transformer for Long Context Large Models (Hao Liu, Pieter Abbeel)
memory efficient하게 long context attention을 구현하기. q를 쪼개고 kv를 다시 쪼개서 계산하는 방식이군요. 실제로 이렇게 학습하는 것이 정말로 잘 돌아갈지가 궁금하긴 한데...여하간 이제 context length를 늘리는 것 자체는 큰 문제는 되지 않는 것 같군요. 실제로 그 context length를 잘 활용하는가와는 별개로.
#efficiency
https://arxiv.org/abs/2305.18741
Grokking of Hierarchical Structure in Vanilla Transformers (Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning)
dyck 같은 문제에 대해서 트랜스포머 학습에서 grokking이 나타나며, 최적으로 학습된 문제는 트리 구조가 나타난다는 결과군요. 이쪽은 toy task이긴 하지만 일반적인 language pretraining도 많은 경우에 undertraining 상황이 아닐까 싶습니다. 특별한 수정 없이 더 오래 학습하기만 해도 개선이 있을 수 있지 않을까 싶네요.
#transformer
https://arxiv.org/abs/2305.20050
Let's Verify Step by Step (Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe)
OpenAI의 수학 문제를 푸는 모델이군요. 중요한 포인트는 최종 결과에 대해서만 reward를 주는 것이 아니라 중간 단계들에 대해 reward를 주는 것이네요. 추가적으로 labeling 비용을 줄이기 위해 active learning을 사용했습니다. 방법은 현재 reward model이 높은 스코어를 반환하지만 최종적으로는 답이 틀린 케이스를 모아서 labeling 하는 방식이네요.
결론적으로 rlhf를 사용해 모델의 추론 능력을 향상시킬 수 있다는 증거가 되겠네요.
#alignment
https://arxiv.org/abs/2305.19466
The Impact of Positional Encoding on Length Generalization in Transformers (Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy)
https://arxiv.org/abs/2305.19466
The Impact of Positional Encoding on Length Generalization in Transformers (Amirhossein Kazemnejad, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Payel Das, Siva Reddy)
causal mask 때문에 transformer decoder에서는 positional encoding 없이도 위치 정보를 추론할 수 있다는 것이 알려져 있었죠. 다르게 말하면 positional encoding이 존재하는 경우에도 causal mask를 통해 모델이 위치 정보를 파악할 수 있다는 의미라 문제가 복잡해진다는 느낌이었는데 힌트가 좀 더 생겼네요.
positional encoding이 없는 경우 T5 스타일의 relative positional encoding이 학습되는 것 같다고 합니다. alibi는 거리에 따라 attention weight가 감소한다는 느낌이고 rotary나 absolute pe는 비교적 uniform 하다고 하면 T5나 positional encoding이 없는 경우는 거리에 따라 감소하다가 비교적 장거리에 대해서 다시 attention weight가 증가하는 것 같은 패턴이네요.
학습한 과제가 algorithmic한 문제들이라서 이 결과가 natural language에 대해 갖는 의미로 바로 연결하기는 어려울 것 같긴 합니다.
#positional_encoding