2023년 10월 11일
https://arxiv.org/abs/2310.06825
Mistral 7B (Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed)
지금 가장 화제인 모델 중 하나인 Mistral 7B. 리포트 형식으로 내서 추가적인 정보가 있을까 싶었는데 딱히 없는 것 같네요. 어떤 데이터를 어떻게 가공해서 어느 정도로 학습시켰는지 아주 궁금한 모델 중 하나입니다.
#llm
https://arxiv.org/abs/2310.06786
OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text (Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, Jimmy Ba)
Common Crawl로 구축한 수학 문서 데이터. LaTeX를 추출해야 한다는 문제가 있어서 더 까다롭죠. 구축한 데이터는 14.7B로 Minerva (https://arxiv.org/abs/2206.14858, 17.5B) 와 규모 측면에서는 거의 비슷합니다.
#dataset
https://arxiv.org/abs/2310.06452
Understanding the Effects of RLHF on LLM Generalisation and Diversity (Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis, Jelena Luketina, Eric Hambro, Edward Grefenstette, Roberta Raileanu)
RLHF 과정이 LLM의 OOD에 대한 일반화와 diversity에 어떤 영향을 미치는가에 대한 탐색. 패턴은 거의 케바케인 것 같긴 합니다만 RLHF를 거치면 diversity가 낮아지는 효과는 좀 분명하게 나타나는 것 같고, OOD 상황에서의 일반화에 도움이 될 수도 있다는 가능성이 약간 보이는 것 같군요.
#rl #alignment
https://arxiv.org/abs/2310.06450
Constructive Large Language Models Alignment with Diverse Feedback (Tianshu Yu, Ting-En Lin, Yuchuan Wu, Min Yang, Fei Huang, Yongbin Li)
문제의 난이도를 쪼개 쉬운 문제는 비평(Critique)을 받아 모델이 직접 개선하게 하고, 중간 난이도의 문제는 개선된 버전의 결과를 받아오고(Refinement), 어려운 문제는 두 샘플 중 선호(Preference) 피드백을 받아온다는 아이디어군요. 사실 이렇게 하는 것이 어떤 의미인지가 분명하게 나와있지는 않은 것 같습니다만...피드백 데이터를 수집하는 프로세스를 구축하는데 참고할 수 있지 않을까 싶긴 하네요.
#alignment
https://arxiv.org/abs/2310.06830
Lemur: Harmonizing Natural Language and Code for Language Agents (Yiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu)
코드와 자연어 둘 다 잘 하는 모델을 만들자는 기획. 사실 CodeLlama의 70B 버전 같은 느낌이 있긴 있습니다. (자연어-코드 비율 1:10으로 프리트레이닝, SFT 등.) 다만 모델 크기의 차이인지 데이터셋 구성의 디테일 차이인지 CodeLlama 34B와는 벤치마크 스코어가 좀 다르긴 하네요. 여하간 이걸로 Agent 구현에 필요한 능력에 있어 향상이 있었다는 이야기를 하고 있습니다.
#llm
https://arxiv.org/abs/2310.06117
Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models (Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, Denny Zhou)
질문이 주어지면 바로 답을 하는 것이 아니라 질문과 관련되어 있지만 좀 더 일반적이고 고수준의 문제에 대한 질문을 생성한 다음, 그 질문에 대한 답을 사용해서 답을 하는 프롬프팅이군요. RAG와 결합하기 좋은 방식이라는 느낌이죠.
#prompt #in_context_learning