2023년 12월 15일
https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision (Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, Jeff Yu)
약한 모델이 생성한 데이터로 강한 모델을 튜닝했을 때의 성능을 얼마나 개선할 수 있는가? 하는 문제입니다. 의도는 사람이 사람을 뛰어넘는(Superhuman) 수준의 모델을 어떻게 튜닝할 수 있는가 하는 것이죠. Anthropic에서도 비슷한 연구를 했었죠. (https://arxiv.org/abs/2211.03540)
일단 약한 모델이 생성한 데이터로 학습했을 때 강한 모델이 약한 모델보다 나은 성능을 보여주는 현상은 나타납니다. 성능을 더 개선하기 위해서 모델 크기 순서대로 레이블을 만들고 튜닝하는 것과 (Bootstrapping) 강한 모델 자체의 Confidence를 사용해 Pseudo Label을 만들어 Regularization 하는 방법을 테스트해봤습니다. 레이블과는 별개로 데이터 자체에 대해 Autoregressive 학습을 시키는 방법도 테스트해봤군요.
아직 갭이 있지만 점진적으로 갭을 줄여나갈 수 있는 가능성은 확인된 것 같네요. Weak Supervision 같은 고전적인 문제가 이 맥락에서 다시 등장했다는 것이 흥미롭습니다.
#alignment
https://www.nature.com/articles/s41586-023-06924-6
Mathematical discoveries from program search with large language models (Bernardino Romera-Paredes, Mohammadamin Barekatain, Alexander Novikov, Matej Balog, M. Pawan Kumar, Emilien Dupont, Francisco J. R. Ruiz, Jordan S. Ellenberg, Pengming Wang, Omar Fawzi, Pushmeet Kohli, Alhussein Fawzi)
조합론 같은 종류의 문제를 LLM 코드 생성으로 푼 사례군요. 딥마인드가 해왔던 matmul 알고리즘 발견이나 (https://deepmind.google/discover/blog/discovering-novel-algorithms-with-alphatensor/) 정렬 알고리즘 최적화 (https://deepmind.google/discover/blog/alphadev-discovers-faster-sorting-algorithms/) 의 연장선상에 있다는 느낌이 드네요.
#search
https://arxiv.org/abs/2312.08578
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions (Jack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano)
요즘 관심이 뜨거운 웹 이미지-텍스트 페어의 캡션 퀄리티 문제에 대한 접근. 전체 이미지와 SAM으로 뽑은 마스크를 사용해 평균 1,111 단어 분량의 굉장히 상세한 캡션이 달린 데이터셋을 만들었습니다.
이걸로 CLIP을 평가하려고 하니 단어가 너무 많아서 쓸 수가 없어 요약 버전을 만들었군요. 이 요약 버전으로 VLM들을 평가해봤고 전반적으로 성능이 좋지 않지만 NegCLIP이 괜찮아 보이는 결과를 냈습니다.
그래서 NegCLIP의 loss를 첨가해서 CLIP을 데이터셋에 튜닝하는 것으로 성능 향상을 관찰했네요. VLM 쪽에 새로운 데이터가 필요하다는 것을 강력하게 시사하는 듯 합니다. 이미 다들 같은 생각이겠지만요.
#vision-language #clip #dataset
https://arxiv.org/abs/2312.09244
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking (Jacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant)
프리트레이닝 혹은 파인튜닝에서 시드가 다른 Reward 모델들은 In distribution에서는 성능이 비슷하지만 OOD에서는 성능이 다르다는 발견. 앙상블, 특히 프리트레이닝 시점부터 시드가 다른 모델들의 앙상블이 이 문제를 완화시켜 주지만 Reward Hacking을 완전히 막지는 못하더라는 결과입니다. 뭔가 Reward 모델의 규모가 더 커지면 나아질까 싶긴 하네요.
#alignment
https://arxiv.org/abs/2312.09241
TinyGSM: achieving >80% on GSM8k with small language models (Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang)
Phi를 어떻게 받아들여야 하는지 가늠하기 어려운데 MSR는 Phi를 계속 밀어붙여볼 생각인 것 같군요. GSM8K를 타겟해서 파이썬 코드 형태의 데이터를 만들고, Phi를 튜닝한 다음 Verifier도 만들어 성능을 찍어본 결과입니다.
#llm #synthetic-data
https://arxiv.org/abs/2312.08935
Math-Shepherd: A Label-Free Step-by-Step Verifier for LLMs in Mathematical Reasoning (Peiyi Wang, Lei Li, Zhihong Shao, R.X. Xu, Damai Dai, Yifei Li, Deli Chen, Y.Wu, Zhifang Sui)
수학에 대한 Process Reward Model을 데이터 없이 만드는 방법. 추론 과정이 답으로 이어지는지의 여부를 통해 데이터를 만드는 방법입니다. Chain-of-Thought 프롬프트를 답을 사용해서 만든 것과 비슷한 접근이군요. (https://arxiv.org/abs/2312.02179) 점점 더 답만 있으면 많은 걸 할 수 있다는 사례들이 나오고 있네요. (답만 있으면 된다는 것도 이상한 표현이긴 합니다만.)
#synthetic-data
https://arxiv.org/abs/2312.06709
AM-RADIO: Agglomerative Model -- Reduce All Domains Into One (Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov)
Vision 모델을 어떤 objective로 학습해야 할지도 어려운 문제이고 다양한 objective나 task로 학습시키고 싶은 충동이 있죠. DINOv2, CLIP, SAM을 모두 teacher로 사용해서 큰 모델에 distillation 해버린 방법이네요. Pseudo labeling도 고려되고 있다는 것을 생각하면 이런 distllation도 괜찮을 수 있다 싶습니다.
#multitask #distillation #backbone
https://arxiv.org/abs/2312.09237
Pixel Aligned Language Models (Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid)
이미지에 대해 텍스트 이외의 형태로 지시나 프롬프트를 줄 수 있는 방법에 대한 시도들이 많이 나오네요. (https://arxiv.org/abs/2312.09158, https://arxiv.org/abs/2312.09128) 이쪽에서는 박스 입출력이 가능한 인코더와 헤드를 붙였군요. 이런 프롬프팅과 출력은 필요할 수 있다고 보입니다. 다만 추가적인 모듈 없이 자연스럽게 학습될 수 있는 세팅이면 좋을 것 같긴 하네요.
#prompt #vision-language