2023년 8월 1주차
https://arxiv.org/abs/2308.00675
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models (Cheng-Yu Hsieh, Si-An Chen, Chun-Liang Li, Yasuhisa Fujii, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister)
도구 사용법을 demonstration 대신 문서를 가져다 쓸 수 있고, 주어진 지시에 대해 문서가 주어진 도구를 코드 생성으로 조합해서 실행시킨다...이런 흐름이네요. transformers agent와 비슷한 것 같은데요.
#alignment #tool
https://arxiv.org/abs/2308.00951
From Sparse to Soft Mixtures of Experts (Joan Puigcerver, Carlos Riquelme, Basil Mustafa, Neil Houlsby)
sparse routing 대신 softmax를 사용한 soft routing으로, N개의 클러스터(슬롯)으로 토큰을 묶은 다음 각 클러스터에 각각의 expert network를 사용하는 방식이네요. 흥미롭긴 한데 lm 같은 케이스에는 적용하기 어렵겠군요.
#moe
https://arxiv.org/abs/2308.01904
DETR Doesn't Need Multi-Scale or Locality Design (Yutong Lin, Yuhui Yuan, Zheng Zhang, Chen Li, Nanning Zheng, Han Hu)
오랜만에 detr이라는 이름을 보니 반갑네요. multiscale architecture 없이 plain detr로 성능을 끌어올리는 작업을 했습니다. attention에 box query와의 relative position 차이에 대한 bias를 주는 것과 mim pretraining이 핵심이군요. 사실 multiscale이 반드시 필요한 것은 아니라는 것은 object detection 쪽에 좀 알려져 있었던 부분이니 그 연장선상에서 볼 수도 있지 않을까 싶습니다.
#detr #multiscale
https://arxiv.org/abs/2308.01544
Multimodal Neurons in Pretrained Text-Only Transformers (Sarah Schwettmann, Neil Chowdhury, Antonio Torralba)
https://arxiv.org/abs/2308.01825
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models (Zheng Yuan, Hongyi Yuan, Chengpeng Li, Guanting Dong, Chuanqi Tan, Chang Zhou)
mathematical reasoning vs pretrain & sft. sft 혹은 in context learning으로 gsm8k를 테스트했을 때의 성능이 pretrain loss에 대해 거의 선형적으로 움직이는 군요. pretrain loss가 낮아질수록 sft 데이터에 대한 의존도도 낮아집니다.
추가로 rejection sampling을 사용해 sft 데이터를 보강하는 방식으로 작은 모델에서 성능을 크게 향상시킨 결과도 보고했네요. 여기서의 rejection sampling이 feedback 기반 튜닝으로도 생각할 수 있다는 것을 고려하면 feedback의 잠재적인 효과를 보여주는 것 같기도 합니다.
#llm
https://arxiv.org/abs/2308.02151
Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization (Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, Rithesh Murthy, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese)
reflexion과 같은 선상에서 llm이 action을 취하고 그 action에 대한 결과를 토대로 llm의 action을 개선하는 피드백 루프를 구성했군요. 여기서는 llm의 action과 그 결과, 메모리를 종합해 llm에 주입할 프롬프트를 생성하는 lm을 놓고 이 lm을 rl 기반으로 학습시켰습니다. actor는 고정해놓은 채로 actor가 과거의 시도를 기반으로 planning을 하고 새로운 시도를 할 수 있게 하는 부분을 lm과 rl로 구현했다고 볼 수 있겠네요.
뭐 그런데 이런 프레임워크의 핵심은 피드백 루프 이상으로 reward의 존재 자체라는 생각이 드네요. reward를 확보할 수 있다면 많은 것이 가능하겠지만 reward를 확보하기 어렵다면 문제가 어려워지겠죠. 그런 의미에서는 풀기 원하는 문제에 대해 reward를 구성하는 것 자체 중요하지 않을까 싶습니다.