2023년 5월 3주차
https://arxiv.org/abs/2305.08891
Common Diffusion Noise Schedules and Sample Steps are Flawed (Shanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang)
오...굉장히 도발적인 제목이네요. stable diffusion의 scheduler의 문제로 밝거나 어두운 이미지를 생성하지 못하는 문제가 있었다는 지적입니다.
#ddpm
https://arxiv.org/abs/2305.08675
Improved baselines for vision-language pre-training (Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal)
clip pretraining에 대한 튜닝. augmentation 투입과 non contrastive loss 추가가 메인이군요.
#clip
https://arxiv.org/abs/2305.08298
Symbol tuning improves in-context learning in language models (Jerry Wei, Le Hou, Andrew Lampinen, Xiangning Chen, Da Huang, Yi Tay, Xinyun Chen, Yifeng Lu, Denny Zhou, Tengyu Ma, Quoc V. Le)
파인튜닝을 고려한 프롬프팅이라는 느낌이네요. instruction을 제시하지 않고, answer도 자연어 토큰이 아니라 그냥 임의의 토큰을 사용하는 방식으로 튜닝하면 성능이 오른다는 것인데...사실 in context learning 이전의 정석이 아닌가 싶기도 합니다.
#llm #prompt
https://arxiv.org/abs/2305.09312
Exploring the Impact of Layer Normalization for Zero-shot Neural Machine Translation (Zhuoyuan Mao, Raj Dabre, Qianying Liu, Haiyue Song, Chenhui Chu, Sadao Kurohashi)
post norm이 더 나은 것 같다는 결과가 하나 더 나왔군요. 학습 안정성만 아니면 post norm이 맞는 선택인 것 같긴 한데...바로 그 학습 안정성(과 전례)가 문제긴 하네요.
#normalization
https://arxiv.org/abs/2305.09636
SoundStorm: Efficient Parallel Audio Generation (Zalán Borsos, Matt Sharifi, Damien Vincent, Eugene Kharitonov, Neil Zeghidour, Marco Tagliasacchi)
mask 기반 nonautoregressive audio generation. TPUv4에서 30초 분량의 오디오를 2초 정도에 생성할 수 있다고 하는군요. 스크립트를 사용해서 대화를 생성하는 건 꽤 신기하네요.
#non-autoregressive #audio_generation
https://arxiv.org/abs/2305.09781
SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification (Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Xinhao Cheng, Zeyu Wang, Rae Ying Yee Wong, Zhuoming Chen, Daiyaan Arfeen, Reyna Abhyankar, Zhihao Jia)
https://arxiv.org/abs/2305.09617
Towards Expert-Level Medical Question Answering with Large Language Models (Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, Mike Schaekermann, Amy Wang, Mohamed Amin, Sami Lachgar, Philip Mansfield, Sushant Prakash, Bradley Green, Ewa Dominowska, Blaise Aguera y Arcas, Nenad Tomasev, Yun Liu, Renee Wong, Christopher Semturs, S. Sara Mahdavi, Joelle Barral, Dale Webster, Greg S. Corrado, Yossi Matias, Shekoofeh Azizi, Alan Karthikesalingam, Vivek Natarajan)
Med-PaLM 2에 대한 추가 정보가 나왔길래 가져왔습니다. 특별한 건 아니고 벤치마크네요. 중간에 GPT-4 스코어도 나오는데 스코어가 살벌하네요. Med-PaLM 2는 도메인 특화 모델인데 대체로 비슷하고 더 나은 스코어를 찍기도 합니다.
#llm
https://arxiv.org/abs/2305.10276
Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models (Hanxu Hu, Hongyuan Lu, Huajian Zhang, Wai Lam, Yue Zhang)
planning 능력을 검증할 수 있는 벤치마크를 제안하고, chain of thought를 개선해서 자연어 대신 간략화된 기호로 prompting하는 방법을 제안했네요. 기호로 변환하기 쉬운 과제라는 특성이 있긴 합니다만, 그것과는 llm이 자연어보다 기호, 더 나아가 임의적인 기호에서 더 나은 특성을 보여준다는 것은 흥미로운 부분인 듯 싶습니다.
#in_context_learning #prompt
https://arxiv.org/abs/2305.10429
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining (Sang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu)
LLM의 프리트레이닝 코퍼스의 도메인 비율을 결정하는 방법. 작은 모델을 균등 비율 샘플링으로 학습시킨 다음, 이 모델을 기준으로 특정 도메인의 loss가 과도하게 커지지 않도록 도메인 비율을 최적화하고, 이 최적화된 비율을 사용해 본격적으로 모델을 학습. 더 빠르게 더 고성능의 모델을 학습. Multilingual 상황도 도메인이라고 보고 다룰 수 있지 않을지.
#dataset #multitask #llm #pretraining
https://arxiv.org/abs/2305.10314
LeTI: Learning to Generate from Textual Interactions (Xingyao Wang, Hao Peng, Reyhaneh Jabbarvand, Heng Ji)
피드백 혹은 reward를 0 or 1로 주는 것이 아니라 텍스트를 사용해서 줄 수 있는가 하는 연구. 여기서는 이런 문제에서 늘 좋은 도구가 되어주는 파이썬 인터프리터를 사용했네요. 테스트 케이스를 사용해 0 or 1 reward를 주고, 인터프리터의 에러 메시지를 텍스트에 붙이고 파인튜닝하는 방식으로 텍스트 피드백을 결합했네요. 파이썬 에러 메시지가 갈수록 친절해지고 있으니 그것도 도움이 되겠군요.
#prompt #alignment
https://arxiv.org/abs/2305.10425
SLiC-HF: Sequence Likelihood Calibration with Human Feedback (Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu)
이쪽은 RLHF의 대안적인 방법. 시퀀스 우도를 캘리브레이션하는 방법. RLHF를 위해서는 모델을 여러 개 올려야 하고 샘플링까지 병행해야 한다는 것이 부담스러워서 이런 방법이 매력적이긴 하다. 거기에 다른 모델로 수집한 데이터로 학습된 Reward 모델을 쓸 수 있다는 것도 장점으로 꼽고 있다.
다만 문제는 현재 RLHF의 의미나 효과에 대해 아는 것이 많지 않다는 것. 일단 RLHF와 대안적 방법을 비교해서 더 나은 방법을 채택하자면 양자에 대한 경험이 모두 있어야 할 것이고, 어느 것이 더 나은지를 평가할 수 있는 기준 또한 있어야 한다. 모두 만만한 일은 아니다. 한 쪽을 생략하고 간다면 편리하겠지만 일단 RLHF로 성공한 선례가 있기 때문에 그러기에는 영 걸리는 지점이 있고. 그 선례(OpenAI, Anthropic 등)들은 RLHF에서 다음 단계로 넘어갈 수도 있겠지만 그것도 이미 기존 방법에 대한 경험이 있기에 가능한 것일 것이다.
여하간 이쪽에서도 RLHF 튜닝은 부담스러웠는지 RLHF와의 비교는 논문에 공개된 샘플 텍스트를 끌어와서 했다.
[[230529 Direct Preference Optimization]]
#alignment
https://arxiv.org/abs/2305.10266
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability (Eleftheria Briakou, Colin Cherry, George Foster)
palm에서 bilingual 문서, 혹은 더 나아가 translation pair인 문서가 번역 성능에 어떤 영향을 미쳤는가 하는 분석이네요. 역시나 bilingual, translation 문서가 번역 성능에 큰 영향을 미쳤지만...모델이 커지고, zero shot이 아니라 few shot으로 넘어가면 이 문서들을 제외시켰을 때의 성능 감소폭이 줄어드는군요. cross lingual transfer의 측면에서 꽤 시사점이 있는 듯 싶네요.
#llm #nmt #multilingual
https://arxiv.org/abs/2305.10601
Tree of Thoughts: Deliberate Problem Solving with Large Language Models (Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, Karthik Narasimhan)
선형적으로 진행되는 chain of thought의 한계를 극복하고자 트리 서치를 사용한 방법을 고안했군요. crosswords 같은 비교적 토이에 가까워보이는 과제를 하긴 했습니다만 여하간 흥미롭네요.
autoregressive lm의 한계로 꼽히는 planning의 문제를 lm을 submodule로 사용하는 agent를 만드는 것으로 극복하려는 시도가 많이 나오고 있는 것 같습니다. 애초에 모델에 planning이 가능한 요소를 결합하는 방법도 있고, 모델을 감싸서 planning이 가능한 시스템을 만드는 방법 두 가지가 있다고 하면 장기적으로 어느 쪽이 답이 될지 궁금하네요.
#in_context_learning #prompt
https://arxiv.org/abs/2305.11169
Evidence of Meaning in Language Models Trained on Programs (Charles Jin, Martin Rinard)
https://arxiv.org/abs/2305.11206
LIMA: Less Is More for Alignment (Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy)
alignment는 모델에 능력을 추가하는 과정이 아니라 답변 스타일을 정해주는 과정이기 때문에 데이터가 많이 필요하지 않고, 답변 스타일을 잘 통일해서 큐레이션된 데이터를 만들면 충분할 수 있다는 제안이군요. 1000개 분량의 데이터셋을 구축해서 rlhf 없이 supervised finetuning으로 경쟁력 있는 결과를 냈습니다. adversarial prompt 등에 대해서는 좀 아쉽다고 하긴 하네요.
#alignment
구글이 달리기 시작했네.
https://arxiv.org/abs/2305.10429
LLM의 프리트레이닝 코퍼스의 도메인 비율을 결정하는 방법. 작은 모델을 균등 비율 샘플링으로 학습시킨 다음, 이 모델을 기준으로 특정 도메인의 loss가 과도하게 커지지 않도록 도메인 비율을 최적화하고, 이 최적화된 비율을 사용해 본격적으로 모델을 학습. 더 빠르게 더 고성능의 모델을 학습. Multilingual 상황도 도메인이라고 보고 다룰 수 있지 않을지.
https://arxiv.org/abs/2305.10425
이쪽은 RLHF의 대안적인 방법. 시퀀스 우도를 캘리브레이션하는 방법. RLHF를 위해서는 모델을 여러 개 올려야 하고 샘플링까지 병행해야 한다는 것이 부담스러워서 이런 방법이 매력적이긴 하다. 거기에 다른 모델로 수집한 데이터로 학습된 Reward 모델을 쓸 수 있다는 것도 장점으로 꼽고 있다.
다만 문제는 현재 RLHF의 의미나 효과에 대해 아는 것이 많지 않다는 것. 일단 RLHF와 대안적 방법을 비교해서 더 나은 방법을 채택하자면 양자에 대한 경험이 모두 있어야 할 것이고, 어느 것이 더 나은지를 평가할 수 있는 기준 또한 있어야 한다. 모두 만만한 일은 아니다. 한 쪽을 생략하고 간다면 편리하겠지만 일단 RLHF로 성공한 선례가 있기 때문에 그러기에는 영 걸리는 지점이 있고. 그 선례(OpenAI, Anthropic 등)들은 RLHF에서 다음 단계로 넘어갈 수도 있겠지만 그것도 이미 기존 방법에 대한 경험이 있기에 가능한 것일 것이다.
여하간 이쪽에서도 RLHF 튜닝은 부담스러웠는지 RLHF와의 비교는 논문에 공개된 샘플 텍스트를 끌어와서 했다.
https://arxiv.org/abs/2305.11778
Cross-Lingual Supervision improves Large Language Models Pre-training (Andrea Schioppa, Xavier Garcia, Orhan Firat)
T5 pretraining에 NMT objective를 추가해서 학습했을 때의 효과. QA나 summarization 같은 과제에 대한 in context learning 시나리오에서 영어 성능에는 영향을 미치지 않고 다른 언어에 대한 성능을 끌어올릴 수 있다는 결과군요.
#nmt #llm #multilingual