2023년 12월 5일
https://x.com/huybery/status/1730127387109781932
Qwen-72B가 나왔네요. 3T 토큰 학습인 걸 보면 Qwen-14B에서 모델 규모를 키운 버전이 아닐까 싶네요. Qwen, Yi, Baichuan2, InternLM 등 중국 LM들의 경쟁이 치열합니다.
이 정도 규모의 모델을 풀어버리는 것을 보면 (당연하다면 당연한 이야기이지만) 알리바바가 노리는 다음 단계 모델은 더 큰 규모일까요? 궁금하네요.
#llm
https://arxiv.org/abs/2312.00752
Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Albert Gu, Tri Dao)
Mamba가 arXiv에 올라왔군요. Albert Gu와 Tri Dao의 작품이었네요. OpenReview 버전 (https://openreview.net/forum?id=AL1fq05o7H) 과의 차이를 보면 2.8B 버전에 대한 결과가 추가되었다는 것이 있겠네요.
구현도 올라왔습니다. https://github.com/state-spaces/mamba
State Space Model이 꽤 빠르게 발전하고 있네요. 내년에는 또 더 좋은 결과를 볼 수 있지 않을까 싶습니다.
#state_space_model
https://arxiv.org/abs/2312.00785
Sequential Modeling Enables Scalable Learning for Large Vision Models (Yutong Bai, Xinyang Geng, Karttikeya Mangalam, Amir Bar, Alan Yuille, Trevor Darrell, Jitendra Malik, Alexei A Efros)
이미지들의 시퀀스를 VQGAN으로 토크나이즈 한 다음 autoregressive loss로 학습. 여기서 이미지 시퀀스는 비디오 뿐만 아니라 비디오와 어노테이션의 페어들, 혹은 이미지와 어노테이션의 페어, 3D multiview 이미지, 같은 카테고리의 이미지 등 묶일 수 있는 다양한 이미지들을 포함합니다.
다양한 형태의 이미지 기반 프롬프팅이 가능하다는 것이 흥미로운 부분일 듯 하네요. 이미지 다음 단계로 다들 비디오를 기대하고 있는 것 같은데 규모가 더 커졌을 때 어떤 결과로 이어질지 궁금하네요.
#video #autoregressive_model
https://arxiv.org/abs/2312.00763
Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses (Xiao Ma, Swaroop Mishra, Ariel Liu, Sophie Su, Jilin Chen, Chinmay Kulkarni, Heng-Tze Cheng, Quoc Le, Ed Chi)
채팅 인터페이스의 대안을 만들고자 하는 작업도 계속 나오는 군요. 유저가 과제를 주면 LLM이 과제를 분해해서 선택지를 유저에게 다시 제공하고, 유저가 다시 선택하는 것을 반복해서 트리 형태의 탐색을 한 다음 결과를 정리하는 형태의 인터페이스입니다.
#ux
https://arxiv.org/abs/2311.18775
CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation (Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal)
interleaved multimodal input & multimodal generation. 입력으로는 frozen encoder를 붙이고 출력으로는 diffusion을 붙이는 형태로군요. 이미지 뿐만 아니라 오디오 입출력도 포함했다는 게 특징이군요. 이미지 입출력, 오디오 입출력은 다음 세대 LLM의 기본 조건이 되지 않을까 싶기도 합니다. 더 나아가면 비디오 입출력까지도.
#multimodal #audio #vision-language
https://arxiv.org/abs/2312.00210
DREAM: Diffusion Rectification and Estimation-Adaptive Models (Jinxin Zhou, Tianyu Ding, Tianyi Chen, Jiachen Jiang, Ilya Zharkov, Zhihui Zhu, Luming Liang)
https://www.tianyuding.com/projects/DREAM/
diffusion 모델이 학습 시에는 ground truth에 접근 가능하고 추론 시에는 노이즈에서 작동한다는 것으로 인해 발생하는 갭을 줄이기 위한 방법. diffusion의 학습/추론 갭에 대한 문제는 다른 지점에서도 나왔었는데 (https://arxiv.org/abs/2305.08891) 이쪽은 더 과감하군요.
대응 방법은 학습 시에 모델의 출력으로 디노이징해서 타겟 이미지를 만든 다음 이 타겟 이미지에 대해 다시 학습시키는 것입니다. 더 빠른 수렴과 성능 향상이 나타나는 군요. 선사 시대 방법이지만 Scheduled Sampling (https://arxiv.org/abs/1506.03099) 같은 것도 생각나고 그렇습니다.
#diffusion
https://arxiv.org/abs/2312.01552
The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning (Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi)
정렬된 모델과 베이스 모델의 토큰 확률 차이를 보니 주로 응답 스타일과 관련된 토큰들에서 변화가 컸다고 하네요. 반대로 정보와 관련된 토큰에서는 차이가 작았다고 합니다. LIMA에서 시작된 (https://arxiv.org/abs/2305.11206) Alignment 튜닝은 스타일을 보정하는 것일 뿐이라는 계통의 결과입니다.
그러니 In-context learning으로도 풀 수 있지 않을까? 하는 생각으로 시스템 프롬프트와 ChatGPT 스타일의 응답 3개로 프롬프트를 만들어 테스트해봤습니다. 결과적으로 꽤 잘 된다는 것을 발견했습니다.
In-context learning으로 일단 대화가 되게 만들고 그 위에 RLHF를 올린다는 발상은 Anthropic (https://arxiv.org/abs/2204.05862) 이나 SALMON (https://arxiv.org/abs/2310.05910) 에서도 발견할 수 있는 결과죠. 다만 현재 오픈소스 LLM들의 주요 전략인 필터링된 GPT-4 응답을 충분히 많이 집어넣는다와는 결이 다릅니다. 전 FLAN 류의 Instruction following 데이터셋을 프리트레이닝에 첨가하면 In-context learning 수준에서도 꽤 괜찮은 수준이 가능하지 않을까 하는 생각이 있습니다.
#alignment
https://arxiv.org/abs/2312.00968
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts (Jialin Wu, Xia Hu, Yaqing Wang, Bo Pang, Radu Soricut)
프리트레이닝된 모델에 Soft MoE (https://arxiv.org/abs/2308.00951) 기반 expert를 추가한다는 아이디어군요. Multimodal 시나리오에서 모델을 얼려놓는 것으로는 한계가 있다는 요즘 결과들 (https://arxiv.org/abs/2311.03079, https://arxiv.org/abs/2311.04257) 과 조합해서 볼 수 있을 것 같네요.
#multimodal #vision-language
https://arxiv.org/abs/2312.00886
Nash Learning from Human Feedback (Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot)
https://x.com/misovalko/status/1731696738379936160
Bradley-Terry 모델을 Preference 모델, 즉 두 개의 응답을 받아 선호하는 응답을 분류하는 모델로 바꾸고 이 Preference에 대한 내시 균형을 목표로 최적화하는 방법. 내시 균형 상태에서는 다른 모든 Policy 보다 선호되는 Policy에 도달하게 되죠.
Bradley-Terry 모델이 아니라 Preference 모델을 선택한 것이 중요한 포인트일 것 같은데, 여기서는 x > y, y > z, z > x를 모델링 할 수 있는 것 (non transitivity) 을 오히려 장점이라고 보고 있습니다. 사람의 다양한 선호를 고려할 수 있다는 것, 그리고 샘플링 분포에 의존하지 않는다고 말하고 있네요.
Preference 모델이 더 나을 수 있지 않은가라는 이야기는 SLiC-HF (https://arxiv.org/abs/2305.10425) 에서도 나왔었죠. 문제 의식과 방법은 완전히 다르지만 응답 페어를 쓰는 접근도 생각나네요. (https://arxiv.org/abs/2310.00212)
#alignment #rlhf