2023년 9월 1주차
https://arxiv.org/abs/2309.00384
BatchPrompt: Accomplish more with less (Jianzhe Lin, Maurice Diesendruck, Liang Du, Robin Abraham)
각 데이터 샘플보다 프롬프트가 더 길어지면 배 보다 배꼽이 더 커지는 격이니 데이터를 여럿 묶어 배치화하면 좋겠다는 아이디어. 그런데 그냥 묶어서 한 번에 처리하면 성능이 떨어지니 샘플 순서를 섞어 여러 번 호출한 다음 voting을 결합. 사실 API의 제약에 대한 우회라고 보이긴 하네요.
#efficiency
https://arxiv.org/abs/2309.00754
Efficient RLHF: Reducing the Memory Usage of PPO (Michael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, Yelong Shen)
rlhf 비용 감소. lora를 썼다는 부분에서 예상할 수 있듯 actor, critic에 대해 lora adapter 교체로 대응하고 ref는 lora를 끄는 방식으로 대응, 그리고 actor에 헤드를 두 개 달아 autoregressive generation (sft)와 preference modeling (rm)에 대응하게 한 방법입니다. 결과적으로 모델 하나에 lora adapter 2개로 ppo를 할 수 있게 되죠.
다만 오픈소스 커뮤니티에서 ppo가 인기 없는 이유는 컴퓨팅 자원과 데이터의 필요도 있지만 rlhf가 딱히 필요하지 않다는 분위기도 한 몫 하는 것 같네요.
#rl #alignment
https://arxiv.org/abs/2309.00359
Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior (Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy)
llm이 학습된 텍스트는 그 특성상 의미적 정보는 추출될 수 있지만 그 텍스트가 다른 사람에게 어떤 영향을 미쳤는지, 그리고 어떤 영향을 미치기 위해서 작성되었는지에 대한 정보는 없다는 아이디어. 예를 들어 글을 썼을 때 좋아요가 얼마나 나왔는지 조회수가 얼마나 나왔는지 같은 메타 데이터는 없다는 것이죠. 이걸 활용하면 조회수나 좋아요 같은 것을 목표로 하는 텍스트를 생성할 수 있지 않겠는가 하는 제안입니다.
#text_gen
https://arxiv.org/abs/2309.00267
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi)
summarization에 대해 feedback from llm을 시도했군요. summarization에 특화된 preamble을 사용하긴 했습니다만 constitutional ai의 사례처럼 다양한 과제에 대한 constitution을 만드는 것이 가능하지 않을까 싶기도 하네요.
다만 답답한 것 중 하나는 모델 테스트를 PaLM 2에 대해서 했다 보니 실험 모델에 대해서는 PaLM 2 Extra-Small 이라고만 되어 있습니다. 대체 어느 정도의 모델인지 알 수가 없네요.
#alignment
https://arxiv.org/abs/2309.00986
ModelScope-Agent: Building Your Customizable Agent System with Open-source Large Language Models (Chenliang Li, Hehong Chen, Ming Yan, Weizhou Shen, Haiyang Xu, Zhikai Wu, Zhicheng Zhang, Wenmeng Zhou, Yingda Chen, Chen Cheng, Hongzhu Shi, Ji Zhang, Fei Huang, Jingren Zhou)
agent 시스템 구축을 위한 학습 데이터와 파이프라인, 도구 사용을 위한 프레임워크, 평가 프레임워크 등의 선물 세트군요.
#tool