2023년 10월 17일

Oct 17, 2023

DistillSpec: Improving Speculative Decoding via Knowledge Distillation (Yongchao Zhou, Kaifeng Lyu, Ankit Singh Rawat, Aditya Krishna Menon, Afshin Rostamizadeh, Sanjiv Kumar, Jean-François Kagy, Rishabh Agarwal)

Speculative Decoding이 효율적이려면 Drafter 모델과 Verifier 모델이 잘 정렬되어 있어서 채택율(Acceptance rate)이 높은 것이 효과적이겠죠. 채택율을 높이기 위해 Drafter로 생성한 샘플에 대해 distill 한다는 아이디어입니다. 최근에 흡사한 아이디어가 나왔었죠. (https://arxiv.org/abs/2310.07177)

파인튜닝 까지 거치는 과정들을 고려하면 Drafter를 잘 구성하는 것이 까다롭겠다는 생각을 했었는데 그 문제에 대응할 수 있는 도구가 주어졌다는 느낌이네요.

#efficiency #distillation

https://arxiv.org/abs/2310.08992

CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules (Hung Le, Hailin Chen, Amrita Saha, Akash Gokul, Doyen Sahoo, Shafiq Joty)

코딩 문제를 문제에 필요한 서브 모듈로 쪼갠 다음 서브 모듈을 구현하고, 샘플링으로 만든 여러 서브 모듈을 클러스터링해서 대표 서브 모듈들을 추출하고, 이 추출된 서브 모듈들을 자기 보완 하는 방식으로 푸는 접근이군요. 성능 향상이 꽤 보이는 듯 한데, Self-Repair (https://arxiv.org/abs/2306.09896) 의 연장선상에서 모델의 성능이 향상될 수록 성능 향상폭이 같이 증가한다는 느낌이네요.

#code #prompt

https://arxiv.org/abs/2310.08754

Tokenizer Choice For LLM Training: Negligible or Crucial? (Mehdi Ali, Michael Fromm, Klaudia Thellmann, Richard Rutmann, Max Lübbering, Johannes Leveling, Katrin Klug, Jan Ebert, Niclas Doll, Jasper Schulze Buschhoff, Charvi Jain, Alexander Arno Weber, Lena Jurkschat, Hammam Abdelwahab, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Samuel Weinbach, Rafet Sifa, Stefan Kesselheim, Nicolas Flores-Herr)

토크나이저 비교 분석. monolingual/multilingual 상황에서 BPE vs Unigram과 HuggingFace vs SentencePiece, vocab 수 등에 대해 fertility와 parity (서로 다른 언어의 토큰화 이후 길이 차이 비교) 같은 intrinsic metric과 downstream task에 대한 비교 결과를 봤습니다.

downstream task에 대한 차이는 미묘한 것 같아서 fertility가 꽤 괜찮은 지표일지도 모르겠다는 생각이 드네요. 그렇지만 조금이라도 나은 결과가 나온 세팅을 채택하는 것은 괜찮겠죠. 여담이지만 영어는 33K vocab 정도로 충분하다는 것 같습니다.

#tokenizer

https://arxiv.org/abs/2310.08825

From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models (Dongsheng Jiang, Yuchen Liu, Songlin Liu, Xiaopeng Zhang, Jin Li, Hongkai Xiong, Qi Tian)

CLIP의 마지막 레이어의 feature만 따와서 multimodal 모델을 구성하는 경우가 많은데, 여러 레이어의 feature를 결합하는 것이 낫지 않을까, 또 DINO v2 같은 이미지 only 학습한 모델은 어떨까 하는 아이디어입니다. DINO v2가 꽤 좋은 성능을 보여주는 것이 흥미로운 부분인 것 같네요.

SLIP (https://arxiv.org/abs/2112.12750) 에서 image only contrastive learning이 image-text contrastive learning을 보완해줄 수 있다고 했던 것과 연결해서 볼 수 있지 않을까 싶습니다. MAE 같은 masked image modeling 방법에서 효과를 못 본 것도 비슷하군요.

#self_supervised #multimodal #contrastive_learning

https://arxiv.org/abs/2310.08920

Embarrassingly Simple Text Watermarks (Ryoma Sato, Yuki Takezawa, Han Bao, Kenta Niwa, Makoto Yamada)

텍스트 워터마크에 대한 아이디어. 스페이스를 U+0020 대신 U+2004로 바꿔버리면 어떨까 하는 발상입니다. 유니코드에서는 보이는 방식은 거의 같은데 코드를 바꿀 수 있는 방법은 많이 있죠. 물론 이런 워터마크를 지우는 것도 너무 간단하긴 하지만요.

그래서 의미를 바꾸지 않으면서 텍스트에 워터마크를 넣는 것의 어려움에 대해서도 이야기하고 있습니다. 그런 측면에서 한동안 텍스트 워터마크와 관련된 연구들이 나오다가 지금은 거의 포기 상태인 것 같기도 하네요.

#safety

https://arxiv.org/abs/2310.09199

PaLI-3 Vision Language Models: Smaller, Faster, Stronger (Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut)

이미지와 텍스트 토큰을 인코더 입력으로 사용하는 seq2seq 모델. 인코더-디코더 모델에 SigLIP, UL2 등 구글이 좋아하는 고전적인 스타일의 취가 물씬 풍기는 군요. 개인적으로 multimodal input/output의 가장 효과적인 결합 방식이 궁금하긴 합니다. 물론 규모가 커지면 뭐든 괜찮겠지만 약간 더 효율성을 높인다는 측면에서...

#multimodal #vision-language #seq2seq

https://arxiv.org/abs/2310.09930

FiLM: Fill-in Language Models for Any-Order Generation (Tianxiao Shen, Hao Peng, Ruoqi Shen, Yao Fu, Zaid Harchaoui, Yejin Choi)

left2right generation에서 벗어나려는 시도는 오랜만에 보네요. masked lm objective에 masking probability를 고정으로 두는 것이 아니라 베타 분포에서 샘플링한다는 아이디어입니다. 결과적으로는 infilling 시나리오 외에는 그냥 left2right만 생각해도 되지 않을까 하는 느낌은 있습니다만.

#lm #autoregressive_model #mlm

https://arxiv.org/abs/2310.10631

Llemma: An Open Language Model For Mathematics (Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck)

수학과 관련된 코드, 수학과 관련된 웹 크롤, (https://arxiv.org/abs/2310.06786) 논문을 섞어 Code Llama를 추가 튜닝하는 것으로 수학 특화 모델을 만들었군요. Minerva보다 작은 규모에서 Minerva 수준의 성능을 보여주는 군요.

도구 사용으로 수학 문제를 푼다거나 formal proof를 생성하는 등의 과제가 가능하군요. 흥미롭네요.

#lm

https://arxiv.org/abs/2310.10505

ReMax: A Simple, Effective, and Efficient Method for Aligning Large Language Models (Ziniu Li, Tian Xu, Yushun Zhang, Yang Yu, Ruoyu Sun, Zhi-Quan Luo)

PPO 대신 REINFORCE (!)에 baseline으로 variance reduction을 해서 RLHF를 해보자는 아이디어군요. baseline으로는 프롬프트에 대해 추가로 뽑은 샘플에 대한 reward를 사용하는군요. Pairwise PPO (https://arxiv.org/abs/2310.00212) 와 꽤 비슷하지 않나? 하는 생각입니다.

#rl #alignment

https://arxiv.org/abs/2310.10537

Microscaling Data Formats for Deep Learning (Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verilli, Ralph Wittig, Eric Chung)

blockwise scale exponent를 가지고 low precision fp training/inference를 해보려는 시도군요. MS, AMD, Intel, Meta, NVIDIA, Qualcomm에서 모두 참여했네요. 이런 방법으로 FP8 이하로 내려가 보려고 하는 것일까 하는 생각이 듭니다.

#efficient_training

https://arxiv.org/abs/2310.10477

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis (Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu)

harmful한 응답을 생성하도록 프롬프트로 유도하고, 생성된 harmful한 응답이 왜 harmful한지에 대해 비평을 생성하게 한 다음, 응답과 비평을 결합해서 SFT를 하면 harmless한 응답을 생성하라고 했을 때의 성능이 나아진다는 결과군요. 일부러 좋지 않은 응답을 생성한다는 점에서는 RLCD가 생각나기도 하네요. (https://arxiv.org/abs/2307.12950)

비평을 생성하는 것이 왜 조건에 따라 생성하는 것에 도움이 되는가에 대한 설명이 있긴 합니다만, 여전히 신기하긴 하네요.

#alignment #safety

https://arxiv.org/abs/2310.10638

In-Context Pretraining: Language Modeling Beyond Document Boundaries (Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Scott Yih, Mike Lewis)

LM 프리트레이닝 시에 문서를 랜덤하게 연결하는 대신 retrieval로 관계가 있는 문서끼리 연결해서 학습시키면 어떨까 하는 아이디어군요. 문서 경계를 넘어서는 관계를 학습할 수 있다는 것 자체도 플러스이고, 학습 과정에서 큰 정보가 없는 문서에 대해 attention을 계산하는 것이 무의미하다고 보면 그 자체로도 학습 효율성에 도움이 될 수 있겠군요.

이 방법으로 특별히 문제가 될 만한 부분이 없다는 점에서 꽤 유용한 개선이 되지 않을까 싶습니다. 배치 간에 correlation을 만드는 것은 RNN LM 시절의 트릭인데 (여기서는 배치 내이긴 하지만) 비슷한 아이디어를 보게 된 것 같아 반갑네요.

#pretraining #lm #retrieval

2023년 10월 17일

Discussion about this post