2023년 6월 4주차
https://arxiv.org/abs/2306.10968
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models (Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng)
llama의 multilingual capability를 개선하기 위해 interactive translation, 즉 번역 과제를 single turn으로 끝내는 게 아니라 여러 번 사용자와 상호작용하면서 번역문을 개선하는 형태의 multi turn 대화를 사용해 모델을 튜닝했군요. 흥미로운데 이 interactive translation 데이터를 어떻게 구축했는지에 대한 정보가 전혀 없는 것 같네요.
#llm #alignment
https://arxiv.org/abs/2306.10998
RepoFusion: Training Code Models to Understand Your Repository (Disha Shrivastava, Denis Kocetkov, Harm de Vries, Dzmitry Bahdanau, Torsten Scholak)
https://arxiv.org/abs/2306.11816
Learning to Generate Better Than Your LLM (Jonathan D. Chang, Kiante Brantley, Rajkumar Ramamurthy, Dipendra Misra, Wen Sun)
guide lm이라는 모델을 하나 따로 놓고 prompt에 대해 guide lm이 추가로 rollin을 생성하게 한 다음 이 rollin에 대해 policy lm이 rollout을 만드는 식으로 돌아가는 rl 기반 튜닝 방법이군요. guide lm이 rollin을 생성하게 하는 것으로 더 나은 exploration을 가능하게 한다는 것이 요점 같긴 하네요.
#llm #alignment
https://arxiv.org/abs/2306.11644
Textbooks Are All You Need (Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li)
1.3B 모델 + 7B 토큰으로 HumanEval 50.6% 달성. 대부분의 코드 데이터가 정보량이 크지 않거나, 코드 자체만으로는 이해하기 어려운 케이스가 많으니 이런 코드들을 필터링하고 6B 정도 뽑아온 다음, GPT-3.5로 교과서적인 형태의 파이썬 예시들과 파이썬 문제들을 1B, 180M 정도 생성한 다음 이걸로 모델을 학습시켰군요.
논문에서도 언급하는 것처럼 GPT-3.5를 경유해서 data leak이 있을 가능성이 있을 것 같긴 한데...여하간 흥미롭네요.
[[230512 TinyStories]]
#llm
https://arxiv.org/abs/2306.12599
Constant Memory Attention Block (Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Yoshua Bengio, Mohamed Osama Ahmed)
https://arxiv.org/abs/2306.12509
Deep Language Networks: Joint Prompt Training of Stacked LLMs using Variational Inference (Alessandro Sordoni, Xingdi Yuan, Marc-Alexandre Côté, Matheus Pereira, Adam Trischler, Ziang Xiao, Arian Hosseini, Friederike Niedtner, Nicolas Le Roux)
기본적으로는 llm에 대한 prompt optimization 방법인데...여기서는 더 나아가 llm 모델의 출력을 다시 llm에 입력으로 주는 방식으로 추론한다고 했을 때 두 llm에 대한 prompt 두 개를 최적화하는 방법을 다루고 있네요. llm을 iterative하게 적용했을 때 어떤 것이 가능할지에 대한 탐색들이 요즘 보이는 듯 한데 어떻게 될지 궁금하네요.
#llm
https://arxiv.org/abs/2306.12213
Limits for Learning with Language Models (Nicholas Asher, Swarnadeep Bhar, Akshay Chaturvedi, Julie Hunter, Soumya Paul)
https://arxiv.org/abs/2306.12925
AudioPaLM: A Large Language Model That Can Speak and Listen (Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor, Ramanovich, Marco Tagliasacchi, Alexandru Tudor, Mihajlo Velimirović, Damien Vincent, Jiahui Yu, Yongqiang Wang, Vicky Zayats, Neil Zeghidour, Yu Zhang, Zhishuai Zhang, Lukas Zilka, Christian Frank)
LLM에 이미지 입력이 들어가는 것처럼 곧 오디오 입력이 들어갈 것이라는 예측이 많았는데 PaLM 2에서 먼저 공개했군요. 오디오를 토큰화해서 입력하는 단순한 방법입니다. 오디오 입출력이 가능해지니 speech translation, asr, speech to text translation 등등이 가능해졌군요.
#llm #audio #speech
https://arxiv.org/abs/2306.12929
Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing (Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort)
transformer에서 quantization을 어렵게 하는 outlier들은 대체 왜 생기는 것일까? 이 논문의 제안은 attention이 residual path의 hidden representation을 업데이트 하지 않는 동작(no-op)을 수행하기 위해 만들어진다는 것이네요. 따라서 이런 no-op 동작을 수행할 수 있는 메커니즘(gating 등)을 추가하면 outlier가 상당히 억제된다고 합니다.
quantization을 위한 것이긴 하지만 transformer의 동작에 대해 알려주는 바가 있는 듯 하네요. 100M 수준의 작은 모델에 대한 결과라 더 큰 모델에서의 패턴이 어떨지는 탐색의 여지가 있을 듯 하지만 여하간 흥미롭습니다.
#transformer
https://arxiv.org/abs/2306.13651
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models (Neel Jain, Khalid Saifullah, Yuxin Wen, John Kirchenbauer, Manli Shu, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein)
데이터셋 구축을 피하고 llm 평가하기. 간단히 요약하면 텍스트 시퀀스에 특정한 perturbation을 주었을 때 모델의 perpelxity 등의 변화를 측정하는 방식입니다. 사실 데이터셋 구축이라는 문제를 perturbation을 설계하는 문제로 바꿨다는 느낌이죠.
#llm #evaluation
https://arxiv.org/abs/2306.13649
GKD: Generalized Knowledge Distillation for Auto-regressive Sequence Models (Rishabh Agarwal, Nino Vieillard, Piotr Stanczyk, Sabela Ramos, Matthieu Geist, Olivier Bachem)
lm에 대한 distillation이 별로 성공적이지는 않았는데...최근 distillation 시도가 많이 나오는 군요. 단 perplexity를 맞추기보다는 샘플 퀄리티를 맞추는데 집중한다는 느낌입니다. reverse kl을 쓰고 student가 생성한 샘플을 사용해서 distillation을 하는 군요. reverse kl을 쓴다는 건 얼마 전 나온 https://arxiv.org/abs/2306.08543 이 연구와 통하네요.
샘플링 퀄리티를 맞춘다는 시도는 충분히 자연스럽게 나올만 하지만 고려하는 샘플의 도메인을 어디까지 커버할 수 있는가의 측면에서 불안하긴 하네요.
#distillation #llm
https://arxiv.org/abs/2306.13840
Beyond Scale: the Diversity Coefficient as a Data Quality Metric Demonstrates LLMs are Pre-trained on Formally Diverse Data (Alycia Lee, Brando Miranda, Sanmi Koyejo)
fisher information을 사용해 코퍼스의 diversity를 측정하는 방법이네요. 결과가 직관적이기는 한데 이렇게 측정된 diversity가 downstream task에 대해 어떻게 영향을 미칠지, 이 메트릭을 어느 정도 신뢰할 수 있을지가 궁금하긴 하네요.
#llm #dataset
https://arxiv.org/abs/2306.14048
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models (Zhenyu Zhang, Ying Sheng, Tianyi Zhou, Tianlong Chen, Lianmin Zheng, Ruisi Cai, Zhao Song, Yuandong Tian, Christopher Ré, Clark Barrett, Zhangyang Wang, Beidi Chen)
key-value 캐시에서 attention weight가 크게 발생하는 key/value를 위주로 캐시를 유지하는 방식으로 캐시 크기를 고정시켜 메모리를 절감하고, 배치 크기를 향상시켜 throughput을 향상시키는 방법이군요. multi query attention도 그렇고 key-value 캐시를 효율화하는 것이 중요한 포인트네요.
#efficiency