2023년 8월 3주차
https://arxiv.org/abs/2308.07037
Bayesian Flow Networks (Alex Graves, Rupesh Kumar Srivastava, Timothy Atkinson, Faustino Gomez)
Alex Graves는 요즘 어떤 작업을 하고 있는지 궁금했는데 이런 걸 하고 있었군요. (NNAISENSE라는 회사를 타이틀로 달고 있네요.)
diffusion 모델과 비슷한데 노이즈가 추가된 샘플 위에서 작동하는 diffusion 모델과는 달리 데이터 분포에 대한 파라미터를 업데이트하는 방식으로 작동하는 모델입니다.
베이지안 모델이 늘 그렇듯 흥미롭긴 합니다. 다만 어떤 강점이 있는지가 그냥은 명확하게 보이진 않네요. 일단 텍스트 시퀀스 같은 discrete 데이터에 대해 미분 가능한 방식으로 접근할 수 있다는 것이 한 가지 포인트인 듯 합니다.
#ddpm
https://arxiv.org/abs/2308.06912
CausalLM is not optimal for in-context learning (Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut)
prefix lm이 in-context learning에 대해 우수하다는 이야기. prefix lm은 in-context learning 상황에서 least square solution으로 수렴하지만 causal lm은 online gradient descent의 경로를 따르기 때문에 prefix lm이 근본적으로 우수하다는 주장입니다.
그 증거로 palm 2를 flan에 대해 prefix lm 혹은 causal lm으로 학습시킨 결과를 비교하고 있네요. palm 2 report의 결과와 어떻게 조합해서 생각할 수 있을지가 좀 모호하긴 합니다.
prefix lm은 자주 나오는 떡밥인데 좋다는 결과도 있고 애매하다는 결과도 있어서 정말 애매하네요. 구글 쪽에서는 좋아하는 것 같긴 한데요.
#lm
https://arxiv.org/abs/2308.07124
OctoPack: Instruction Tuning Code Large Language Models (Niklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui, Terry Yue Zhuo, Swayam Singh, Xiangru Tang, Leandro von Werra, Shayne Longpre)
코드 커밋 메시지와 diff를 instruction 데이터로 사용하는 방법이네요. 흥미로운 방법인 것 같습니다. 위의 self alignment와 결합하면 더 나은 결과를 얻을 수 있을 것 같네요.그리고 self alignment와 이 연구는 ChatGPT의 결과를 사용한 방법과 그렇지 않은 방법을 구분하기 시작하고 있군요.
[[230509 StarCoder]] 사실 starcoder에도 코드 커밋 메시지를 pretrain에 사용했다. 차이라면 instruction tuning에 사용했다는 것과 필터링 방법, 프롬프트 형식인 듯.
fix에 대해서만 성능 향상이 두드러지는 것도 참조할 부분.
#code #instruct #alignment
https://arxiv.org/abs/2308.07317
Platypus: Quick, Cheap, and Powerful Refinement of LLMs (Ariel N. Lee, Cole J. Hunter, Nataniel Ruiz)
#instruction-tuning
https://arxiv.org/abs/2308.07921
Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification (Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li)
코드 사용이 llm의 문제 해결 능력에 어떤 영향을 미치는지 테스트. GPT-4 코드 인터프리터를 사용해서 프롬프트로 코드 사용 횟수를 정해준 다음에 성능이 어떻게 변화하는지를 일단 관측했습니다. 코드 사용 횟수가 늘어날수록 성능이 향상된다는 것이 나타나네요.
여기에 verification을 유도하는 프롬프트를 사용해고, k개 샘플을 뽑은 뒤 verification 결과로 voting하게 만드니 50점대 점수가 나오던 MATH에서 84.32 (!)에 도달했네요. 굉장합니다.
#llm #code #reasoning
https://arxiv.org/abs/2308.08268
It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models (Xingcheng Xu, Zihao Pan, Haipeng Zhang, Yanqing Yang)
사칙연산이 트랜스포머의 ood generalization의 한계를 보여주는 예제로 흔히 사용되는데...여기서는 ood 상황에서 트랜스포머 응답의 패턴을 봤습니다. 흥미로운 것은 3 자리 숫자의 덧셈이나 곱셈으로 학습시켰을 때 4 자리 숫자 (ood)를 입력하면 천의 자리 숫자를 무시한다는 결과를 얻었네요.
즉 a + b에 대해서 (a mod 10^3) + (b mod 10^3) 이 결과로 나온다는 것입니다.
물론 이렇게 천의 자리 숫자를 무시하고 나머지 3 자리에 대해서 작동하는 패턴이 보인다고 해도 이걸 어떻게 잘 뜯어고치면 4 자리 숫자에 대해서도 일반화 되도록 동작하게 만들 수 있다는 의미가 되는 것은 아니지만...흥미로운 사실인 것 같네요.
#transformer #generalization
https://arxiv.org/abs/2308.08747
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning (Yun Luo, Zhen Yang, Fandong Meng, Yafu Li, Jie Zhou, Yue Zhang)
https://arxiv.org/abs/2308.08708
Consciousness in Artificial Intelligence: Insights from the Science of Consciousness (Patrick Butlin, Robert Long, Eric Elmoznino, Yoshua Bengio, Jonathan Birch, Axel Constant, George Deane, Stephen M. Fleming, Chris Frith, Xu Ji, Ryota Kanai, Colin Klein, Grace Lindsay, Matthias Michel, Liad Mudrik, Megan A. K. Peters, Eric Schwitzgebel, Jonathan Simon, Rufin VanRullen)
AI가 의식을 가질 수 있을까? 이것도 너무 길긴 한데 요약을 보면 의식에 대한 여러 이론들 중 현 AI 시스템이 구현하고 있는 것은 없지만, AI로 구현하지 못할 이유는 없는 것 같다군요.
엄밀하게는 사람도 다른 사람이 의식이 있다고 말하기는 어렵죠. 대체로 생물학적 유사성이 의식의 근거가 되는 것 같은데 AI는 생물학적 유사성이 없으니 문제가 되겠습니다. 그렇지만 저라면 AI가 의식을 갖고 있는 것처럼 행동한다면 의식을 갖고 있는 것이라고 생각할 것 같습니다.
https://arxiv.org/abs/2308.08998
Reinforced Self-Training (ReST) for Language Modeling (Caglar Gulcehre, Tom Le Paine, Srivatsan Srinivasan, Ksenia Konyushkova, Lotte Weerts, Abhishek Sharma, Aditya Siddhant, Alex Ahern, Miaosen Wang, Chenjie Gu, Wolfgang Macherey, Arnaud Doucet, Orhan Firat, Nando de Freitas)
구글 딥마인드의 Alignment 알고리즘. 기본적으로는 rejection sampling과 비슷하게 샘플링을 한 다음 reward score로 필터링하고 필터링된 데이터셋으로 학습하는 방식입니다. 차이가 있다면 필터링 기준을 높여가면서 iterative하게 한다는 것과 학습 loss를 cross entropy 외에도 다른 offline rl loss를 고려했다는 것이겠네요.
테스트를 기계 번역에 대해 했다는 것도 재미있네요. 기계 번역에 preference modeling이 필요하다는 것을 보여주는 사례가 아닐지.
#alignment
https://arxiv.org/abs/2308.09597
ChatHaruhi: Reviving Anime Character in Reality via Large Language Model (Cheng Li, Ziang Leng, Chenxi Yan, Junyi Shen, Hao Wang, Weishi MI, Yaying Fei, Xiaoyang Feng, Song Yan, HaoSheng Wang, Linkang Zhan, Yaokai Jia, Pingyu Wu, Haozhen Sun)
https://arxiv.org/abs/2308.09687
Graph of Thoughts: Solving Elaborate Problems with Large Language Models (Maciej Besta, Nils Blach, Ales Kubicek, Robert Gerstenberger, Lukas Gianinazzi, Joanna Gajda, Tomasz Lehmann, Michal Podstawski, Hubert Niewiadomski, Piotr Nyczyk, Torsten Hoefler)
Tree of Thought가 있으니 Graph of Thought는 당연한 확장일지도 모르겠네요. Tree of Thought와의 차이는 루프를 돌면서 refining이 가능하다는 것, 서로 다른 Thought들의 체인을 결합할 수 있다는 점이네요. 과제는 정렬 같은 토이들을 풀었습니다.
일단 scoring이 필요하다는 것이 하나겠군요. 계속해서 나오는 단계를 verification 해줄 수 있는 도구의 존재가 필요하다는 문제의 연장이겠습니다. 또한 각 Thought들이 설계되어야 한다는 것이 문제겠네요. 사실상 거의 문제를 풀어서 제공하는 것에 가까워 보이기도 합니다. 그래프 혹은 트리를 통한 추론 과정이 학습 가능해야 한다는 것도 한 가지 중요한 목표로 보이는 군요.
#reasoning
https://arxiv.org/abs/2308.09610
On the Effectiveness of LayerNorm Tuning for Continual Learning in Vision Transformers (Thomas De Min, Massimiliano Mancini, Karteek Alahari, Xavier Alameda-Pineda, Elisa Ricci)
https://arxiv.org/abs/2308.09351
RLIPv2: Fast Scaling of Relational Language-Image Pre-training (Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao)
https://arxiv.org/abs/2308.09372
Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers (Tobias Christian Nauen, Sebastian Palacio, Andreas Dengel)