2023년 11월 15일

Nov 15, 2023

The Transient Nature of Emergent In-Context Learning in Transformers (Aaditya K. Singh, Stephanie C.Y. Chan, Ted Moskovitz, Erin Grant, Andrew M. Saxe, Felix Hill)

주어진 맥락을 통해 예측하는 in-context learning과 모델이 학습 과정에서 기억한 것을 통해 예측하는 in-weights learning. omniglot을 사용한 토이 과제에서 학습이 길어지면 in-context learning 능력은 피크를 찍었다가 감소하고 in-weights learning이 점점 더 증가한다는 것이 나타났네요.

왜 in-weight learning이 in-context learning보다 선호될까요? 어쩌면 in-context learning에서 soft attention으로 copy 하는 과정에서 발생하는 에러를 고려했을 때 샘플을 기억해버리는 것이 더 정확할 수 있어서일 수도 있겠습니다. 그러면 애초에 in-context learning이 초반에 더 두드러지게 나타나는 이유는 무엇인가? 그건 알기 어렵네요.

데이터가 크고, 클래스가 많고, 임베딩이 크고, zipf 분포를 따르고, regularization이 걸리면 이 경향이 약화되거나 사라진다는 것으로 나타나서 자연어에서 문제가 되지는 않을 것 같습니다. 다만 in-context learning이 모델 학습 과정에서 임의적으로 나타나는 능력일 수 있다는 사실 자체가 흥미로운 듯 싶네요.

#in_context_learning

https://arxiv.org/abs/2311.08105

DiLoCo: Distributed Low-Communication Training of Language Models (Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Rachita Chhaparia, Yani Donchev, Adhiguna Kuncoro, Marc'Aurelio Ranzato, Arthur Szlam, Jiajun Shen)

써야 하는 GPU 규모가 늘어나면서 하나의 클러스터에서 synchronous하게 학습하는 것이 더 어려워지고 있으니, federated learning에서 아이디어를 따와서 하나의 클러스터 내에서 학습한 다음 클러스터 간에서 그래디언트를 합쳐 최적화한다는 아이디어군요. 결과적으로 통신 요구량도 크게 줄어들고 클러스터 간 대역폭이 작은 경우에도 좀 더 할만해지죠.

그래서 성능은 잘 보존되나? 라고 하면 잘 보존되는 것처럼 보이네요. 400M 정도의 모델이긴 하지만요. 논문에서는 모델이 더 커지면 더 잘 될 것이라고 추측하고 있는데 실제로 그럴지 궁금하네요.

#efficient_training

https://arxiv.org/abs/2311.07919

Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models (Yunfei Chu, Jin Xu, Xiaohuan Zhou, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou, Jingren Zhou)

LM에 오디오 입력을 붙이는 작업도 눈에 띄기 시작하네요. (https://arxiv.org/abs/2311.06753) 어쨌든 다음 세대의 LM은 음성 입출력과 이미지 입출력 정도는 기본적으로 탑재해야 할 것 같습니다. 어쩌면 동영상도 입력 정도는 가능해야 할 것 같네요.

#audio

https://arxiv.org/abs/2311.07911

Instruction-Following Evaluation for Large Language Models (Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou)

instruction following을 사람으로 평가하자니 비싸고 재현이 어렵고, LLM을 쓰자니 얼마나 신뢰로운지 우려스럽고. 그래서 JSON으로 응답해, 대문자로만 응답해 같이 알고리즘으로 평가 가능한 프롬프트로 평가하는 방법을 고안했네요. 물론 이런 방식의 평가는 결국 과제의 다양성에서 한계가 있겠습니다만, 어차피 벤치마크와 평가는 하나만으로 모든 것을 커버하기는 어렵고, 이런 형태의 평가도 그 벤치마크 수트 중 하나가 될 수 있다고 생각하면 괜찮을 것 같네요.

#evaluation

https://arxiv.org/abs/2311.08401

Fine-tuning Language Models for Factuality (Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn)

사실과 관련된 할루시네이션을 억제하기. 모델의 생성 결과를 쪼개서 주장들을 추출하고, 이 추출한 주장을 레퍼런스와 결합해서 사실인지 판단하거나 레퍼런스가 없다면 모델의 uncertainty로 평가한 방법입니다. 그리고 이렇게 구축한 사실에 대한 선호를 사용해 DPO를 했네요.

사실과 관련된 피드백으로 할루시네이션을 감소시킬 수 있다는 사례나 결과가 공개된 것 많지 않은 상황에서 그 자체만으로도 흥미로운 결과가 아닐까 싶네요.

#hallucination #alignment

https://arxiv.org/abs/2311.08182

Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning (Shengguang Wu, Keming Lu, Benfeng Xu, Junyang Lin, Qi Su, Chang Zhou)

instruction tuning 데이터셋을 쪼개서 일부 데이터셋에 대해 튜닝하고, 튜닝한 모델로 나머지 데이터에 대한 임베딩을 뽑아서 기존 데이터와 가장 다른 샘플들을 뽑는 것으로 instruction tuning 데이터셋을 샘플링한다는 아이디어군요. 흥미로운 것은 데이터 전체를 쓰는 것보다 더 나은 결과를 보고하는 사례도 있다는 것이네요.

#instruction-tuning

https://arxiv.org/abs/2311.08045

Adversarial Preference Optimization (Pengyu Cheng, Yifan Yang, Jian Li, Yong Dai, Nan Du)

RLHF 과정에서 policy의 생성 분포가 RM을 학습한 분포와 달라지면서 발생하는 차이가 문제가 되죠. 이전에는 policy로 다시 생성해서 데이터를 재구축 하는 방식을 많이 썼는데, 이런 반복적인 방식을 줄일 수 있는 방법이 있지 않을까 하는 아이디어입니다. golden response가 있다고 했을 때 golden response와 policy의 샘플을 사용해서 RM을 업데이트하고, 업데이트한 RM으로 RL을 하는 방법입니다. 전반적으로 golden response와 생성 샘플을 구분하게 한다는 점에서 adversarial traning과 비슷하다는 이야기를 하고 있네요.

문제는 golden response가 있어야 한다는 것이겠죠. 여기서는 GPT-4 응답을 썼는데 실전에서는 golden response를 만드는 것이 RM 데이터를 새로 만드는 것보다 비쌀 듯 싶습니다.

#rlhf

https://arxiv.org/abs/2311.07689

MART: Improving LLM Safety with Multi-round Automatic Red-Teaming (Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao)

LLM으로 red-teaming을 하는 방법이군요. 일단 시드 프롬프트로 새로운 프롬프트를 생성하게 한 다음, 공격에 성공한 프롬프트를 모아 red-teaming 모델을 학습시키고, 방어에 성공한 응답을 모아 목표 모델을 학습시키는 방법이네요. 공격 프롬프트를 생성한다는 것은 흥미로운데 이 과정에서 프롬프트가 얼마나 정교해질 수 있는지는 궁금하네요.

#safety

https://arxiv.org/abs/2311.05698

Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities (AJ Piergiovanni, Isaac Noble, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova)

비디오, 오디오, 텍스트에 대한 multimodal 모델. 비디오와 오디오는 서로 정렬되어 있다고 보고, ViT로 임베딩한 다음 Combiner로 결합합니다. Combiner로는 트랜스포머나 토큰 튜링 머신(!)을 사용합니다. 이렇게 결합된 임베딩을 autoregressive latent 트랜스포머에 입력하고, 이 latent 임베딩을 autoregressive reconstruction 트랜스포머에 넣어 비디오와 오디오를 예측하게 합니다. 이 모델에서 나온 latent 임베딩을 텍스트 디코더와 cross attetnion으로 결합했네요. 대체 트랜스포머가 몇 종류 사용된 걸까요.

#video #multimodal

https://blog.vllm.ai/2023/11/14/notes-vllm-vs-deepspeed.html

DeepSpeed FastGen (https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-fastgen) 이 vLLM 보다 더 나은 퍼포먼스를 보고하면서 경쟁(?)이 붙었네요. vLLM이 시나리오에 따라 더 나은 퍼포먼스를 보여줄 수 있다는 주장입니다. 개인적으로는 vLLM이 적용하기 쉬웠던 경험이 있어서 여전히 경쟁력 있는 퍼포먼스를 보여주고 있다는 게 반갑네요.

#efficiency

2023년 11월 15일

Discussion about this post