2023년 12월 18일
https://arxiv.org/abs/2312.10003
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent (Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar)
검색 같은 도구를 사용하게 한 다음 도구 사용 과정을 모델이 평가하게 해서 좋은 샘플들을 뽑아 튜닝하는 접근. ReST 같은 방법인데 모델이 평가하게 하는 것으로도 성능 향상이 있을 수 있다는 부분이 포인트겠네요.
여담이지만 구글은 프롬프팅을 코드 형태로 하는 것을 꽤 선호하는 것 같네요. LLM에 코딩 능력만 충분히 있다면 의도 전달이나 출력 파싱 등에 코드는 꽤 편리한 인터페이스일 듯 합니다.
#self-improvement
https://arxiv.org/abs/2312.09979
The Art of Balancing: Revolutionizing Mixture of Experts for Maintaining World Knowledge in Language Model Alignment (Shihan Dou, Enyu Zhou, Yan Liu, Songyang Gao, Jun Zhao, Wei Shen, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Xiaoran Fan, Shiliang Pu, Jiang Zhu, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang)
Instruction tuning 데이터를 증가시켜보면 어떤 과제에 대해서는 성능이 향상되는데 지식을 묻는 과제들, Closed Book Question Answering에 대해서는 성능이 떨어진다, 이 문제를 LoRA로 MoE를 구성해 대응하겠다는 아이디어입니다.
구체적인 대응 방법과는 별개로 1. 대규모의 Instruction tuning 데이터는 (요즘 많이 하는 것처럼) 프리트레이닝에 밀어넣는 것이 편리할 수 있다. 2. MoE 모델이 이 문제에 대해 전반적으로 유용할 수 있겠다는 생각이 드네요.
#instruction-tuning #efficient_training #moe
https://arxiv.org/abs/2312.09300
Self-Evaluation Improves Selective Generation in Large Language Models (Jie Ren, Yao Zhao, Tu Vu, Peter J. Liu, Balaji Lakshminarayanan)
응답의 Sequence likelihood는 응답 퀄리티를 평가하기에는 썩 좋지 않지만, 문제를 바꿔 응답 결과를 고르는 Multiple question 형태에서 정답을 고르게 하면 성능이 향상된다는 결과. 논문의 흐름은 생성한 결과를 필터링하기 위함에 맞춰져 있는 것 같지만 별개로 피드백으로서 쓸 수 있을 것처럼 보이긴 하네요.
#calibration #alignment