2023년 5월 4주차

Sep 09, 2023

A PhD Student's Perspective on Research in NLP in the Era of Very Large Language Models (Oana Ignat, Zhijing Jin, Artem Abzaliev, Laura Biester, Santiago Castro, Naihao Deng, Xinyi Gao, Aylin Gunal, Jacky He, Ashkan Kazemi, Muhammad Khalifa, Namho Koh, Andrew Lee, Siyang Liu, Do June Min, Shinka Mori, Joan Nwatu, Veronica Perez-Rosas, Siqi Shen, Zekun Wang, Winston Wu, Rada Mihalcea)

거대 모델의 시대의 NLP 연구자들의 생존 전략. 큰 레벨이 아니라 구체적인 연구 주제와 연구 방향에 대해서 정리하고 있습니다.

#llm #nlp

https://arxiv.org/abs/2305.13245

GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai)

multi head attention을 multi query attention으로 바꾸기. 체크포인트를 가져다 추가 튜닝을 해주면 괜찮게 된다고 합니다. multi query attention이 성능이 좀 떨어지니 n개 head를 사용하는 group query attention도 제안했군요.

T5에 대한 결과이긴 합니다. TPU에서는 multi query attention의 효과가 굉장히 큰 것으로 나타나는데 GPU에서는 어떨지 궁금하네요.

#transformer

https://arxiv.org/abs/2305.13534

How Language Model Hallucinations Can Snowball (Muru Zhang, Ofir Press, William Merrill, Alisa Liu, Noah A. Smith)

llm의 hallucination 중에서, 실제로 모델이 응답을 바로잡을 수 있는 경우에도 이전에 잘못 생성한 문장, hallucination 때문에 그 문장과의 consistency를 유지하기 위해 hallucination을 계속해서 생성하는 경우가 있다는 연구. hallucination의 snowball 입니다.

사실 shaking the foundations에서 언급했었던 모델의 생성 결과가 증거가 되어버리는 문제가 극명하게 드러나는 사례라고 할 수 있을 듯 싶네요.

#llm #alignment

https://arxiv.org/abs/2305.13230

To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis (Fuzhao Xue, Yao Fu, Wangchunshu Zhou, Zangwei Zheng, Yang You)

LLM 시대에 데이터를 더 수급하기 어려우니 multi epoch training을 할만한가에 대한 탐색. 이쪽도 T5로 실험하긴 했는데...결과는 이렇습니다.

일단 multi epoch training이 성능이 떨어지거나 overfit을 유발하는 것은 맞는 듯.
데이터 자체가 많으면 multi epoch training의 문제도 완화되는 듯.
아무래도 multi epoch로 가면 dropout을 써야할수도.

전반적으로 palm에서 실험했던 결과, 즉 아주 나쁘지는 않고 향상이 있을 수도 있는데 역시 one epoch에는 미치지 못하는 것 같다와 상통하는 결과가 아닐까 싶습니다.

#llm

https://arxiv.org/abs/2305.13301

Training Diffusion Models with Reinforcement Learning (Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine)

https://arxiv.org/abs/2305.13735

Aligning Large Language Models through Synthetic Feedback (Sungdong Kim, Sanghwan Bae, Jamin Shin, Soyoung Kang, Donghyun Kwak, Kang Min Yoo, Minjoon Seo)

더 큰 모델이 생성한 응답이 작은 모델이 생성한 응답보다 더 나을 것이다와 같은 가정을 바탕으로 synthetic한 comparison 데이터를 구축하고, 이 데이터로 reward model을 학습. user/bot 역할을 맡은 두 llm과 reward model을 사용해 synthetic하게 dialog 데이터를 만들어 학습, 그리고 이 sft와 rm 모델을 기반으로 ppo. 흥미롭네요.

#llm #alignment #ai-feedback

https://arxiv.org/abs/2305.14201

Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks (Tiedong Liu, Bryan Kian Hsiang Low)

llama로 arithmetic task에 대해 파인튜닝해본 결과에 대한 보고. 학습시키면 꽤 잘 하네요. 다만 llama의 숫자에 대한 tokenization이 꽤 많이 도움이 되는 듯 하다고.

#llm

https://arxiv.org/abs/2305.14314

QLoRA: Efficient Finetuning of Quantized LLMs (Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer)

요즘 작고 빠르게 할 수 있다고 하면 반응이 어마어마한데, 그런 측면에서 최근 가장 화제가 되는 논문일 것 같네요. 4 bit weight only quantization, quantization parameter에 대한 quantization에 lora를 결합하고 필요시 optimizer state에 소모되는 GPU 메모리를 CPU에 paging 하는 방식으로 GPU 하나에서 65B 모델을 파인튜닝하는데 성공했습니다.

이렇게 만든 모델 Guanaco가 ELO로 GPT-3.5-Turbo를 뛰어넘는 Elo를 기록했군요.

#quantization #llm #alignment #finetuning

https://arxiv.org/abs/2305.14342

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training (Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma)

새로운 optimizer가 또 나왔군요. optimizer 업계의 영원한 떡밥인 second order optimizer입니다. 학습 속도 두 배 향상 & 같은 iteration에서는 더 낮은 loss를 보여준다고 보고하고 있네요. 다만 LLM에 대해서라고 하지만 GPT-2 770M 레벨의 실험이라 더 대규모에서 어떨지가 궁금하긴 합니다.

#optimizer

https://arxiv.org/abs/2305.14196

ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding (Uri Shaham, Maor Ivgi, Avia Efrat, Jonathan Berant, Omer Levy)

https://arxiv.org/abs/2305.14705

Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models (Sheng Shen, Le Hou, Yanqi Zhou, Nan Du, Shayne Longpre, Jason Wei, Hyung Won Chung, Barret Zoph, William Fedus, Xinyun Chen, Tu Vu, Yuexin Wu, Wuyang Chen, Albert Webson, Yunxuan Li, Vincent Zhao, Hongkun Yu, Kurt Keutzer, Trevor Darrell, Denny Zhou)

그리고 정말로 moe라고 하면 이 논문을 생각해보게 되네요. mixture of expert lm이 instruction tuning과 결합되었을 때 상당한 부스트가 발생한다는 결과입니다. 물론 저자들 중 일부가 OpenAI로 옮겼다고 하고요.

#mixture_of_experts

https://arxiv.org/abs/2305.15324

Model evaluation for extreme risks (Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe)

https://arxiv.org/abs/2305.16264

Scaling Data-Constrained Language Models (Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel)

아주 중요한 scaling law 결과가 나왔네요. 데이터 반복이 있을 때(multi epoch)에 대한 scaling law 입니다. 일단 4 epoch 정도까지는 데이터 반복도 새 데이터 정도의 가치가 있다는 것을 발견했고, 데이터 반복이 있을 때 chinchilla scaling law에 비해 모델 크기를 줄이고 학습 토큰을 늘리는 것이 더 optimal 하다는 것을 발견했습니다.

그리고 추가로 natural language의 부족한 부분을 코드 데이터로 채우는 것이 좋은 전략이라는 것 또한 발견했네요.

이제 2T 이상의 토큰이 학습에 필요해지는 시점에서 multi epoch가 의미가 생기는 시점이 가까워져 오고 있고...그에 대비하기 위해서는 반드시 체크해야 하는 결과인 듯 싶습니다.

#llm #scaling

https://arxiv.org/abs/2305.15717

The False Promise of Imitating Proprietary LLMs (Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song)

https://arxiv.org/abs/2305.17126

Large Language Models as Tool Makers (Tianle Cai, Xuezhi Wang, Tengyu Ma, Xinyun Chen, Denny Zhou)

과제에 필요한 도구(파이썬 스크립트)를 LLM이 만들게 하고, 이 도구를 다른 LLM이 써서 과제를 수행하게 하는 시스템. 도구 제작 LLM은 강력하지만 비싼 모델, 도구 사용 LLM은 더 저렴한 모델을 사용한다는 발상이군요.

#llm #alignment #tool

https://arxiv.org/abs/2305.16958

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies (Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg)

forward KL의 mode coverage behavior가 생성 퀄리티에 해로울 수 있으니 reverse kl의 mode dropping behavior를 결합할 수 있다면 좀 더 낫지 않을까 하는 아이디어. 딱 gan이 유행하던 시기에 많이 하던 방식의 분석이긴 하네요. 여러모로 모델이 충분히 강력해지면 이 문제는 해소되는 경향이 크지 않은가 싶긴 한데요.

#lm

https://arxiv.org/abs/2305.16960

Training Socially Aligned Language Models in Simulated Human Society (Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi)

굉장히 흥미로운 alignment 방법이네요. 여러 llm agent들을 상호작용할 수 있게 해서 작은 사회를 만들고, llm이 생성한 응답을 다른 llm agent가 feedback하게 해서 그 결과로 align을 한다는 접근이군요. agent base model의 영향을 많이 받은 듯한 접근인데...모델을 지능적인 agent처럼 다루는 것이 통하는 시점이 왔네요.

다만 이런 방식의 alignment 절차에서 social network를 고려한다는 것이 어떤 의미일까 하는 생각은 들긴 하네요.

#alignment

https://arxiv.org/abs/2305.17333

Fine-Tuning Language Models with Just Forward Passes (Sadhika Malladi, Tianyu Gao, Eshaan Nichani, Alex Damian, Jason D. Lee, Danqi Chen, Sanjeev Arora)

2023년 5월 4주차

Discussion about this post