2023년 11월 21일
https://arxiv.org/abs/2311.10768
Memory Augmented Language Models through Mixture of Word Experts (Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus)
단어 기반 routing을 하는 MoE. 여기서 단어는 입력 토큰 그대로가 아니라 위키피디아를 사용해 구축된, 더 많은 vocabulary를 갖는 단어입니다. 그리고 이 단어에 expert를 분배합니다. 즉 하나의 단어를 구성하는 여러 subword에 대해 하나의 expert가 부여되게 되죠.
그리고 expert의 크기를 줄이는 대신 8K, 32K 까지 숫자를 늘렸습니다. 이를 통해 각 expert가 각 단어에 관련된 지식를 저장하는 일종의 외부 메모리로 기능할 수 있다고 기대하고 있네요.
새로운 토크나이저를 사용한다는 것이 좀 신경쓰이긴 하지만 routing 문제를 해결해서 expert의 수를 훨씬 더 늘리고 sparse activation을 한다면 retrieval 기반 lm처럼 지식을 모델에서 분리하는 괜찮은 방법이지 않나 싶기는 하네요.
#moe
https://arxiv.org/abs/2311.11829
System 2 Attention (is something you might need too) (Jason Weston, Sainbayar Sukhbaatar)
LM이 잘못된, 혹은 불필요한 맥락 정보가 주어졌을 때 잘못된 텍스트를 생성하는 경향이 있고, 이에 대해 불필요한 정보를 걷어내게 하는 프롬프트로 맥락 텍스트를 다시 생성한 다음 이 텍스트로 추론했을 때 성능이 향상된다는 결과. 이 방법으로 아첨을 줄일 수 있었다고 하네. (https://arxiv.org/abs/2310.13548) 노트 정리를 시키거나 (https://arxiv.org/abs/2311.09210) negative 샘플에 대한 내성을 키우는 것 (https://arxiv.org/abs/2311.09198) 과 비슷한 선상에 있는 아이디어가 아닐까 싶습니다.
#prompt
https://arxiv.org/abs/2311.11045
Orca 2: Teaching Small Language Models How to Reason (Arindam Mitra, Luciano Del Corro, Shweti Mahajan, Andres Codas, Clarisse Simoes, Sahaj Agrawal, Xuxi Chen, Anastasia Razdaibiedina, Erik Jones, Kriti Aggarwal, Hamid Palangi, Guoqing Zheng, Corby Rosset, Hamed Khanpour, Ahmed Awadallah)
GPT-4에서 응답을 뽑을 때 시스템 프롬프트가 중요하다는 것에서 시작된 데이터셋 개선. FLAN 같은 데이터셋의 각 과제에 따라 성능에 가장 효과적인 시스템 프롬프트로 응답을 생성하고 그 응답으로 모델을 학습한다는 흐름입니다.
#instruction-tuning