2023년 9월 2주차
https://arxiv.org/abs/2309.01219
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models (Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, Shuming Shi)
할루시네이션에 대한 리뷰. 뭔가 해결책으로 논의되고 있는 것 중에 놓친 것이 있을까 싶어서 들여다봤는데 pretraining 혹은 sft 데이터를 깨끗하게 만들기 외에는 Schulman의 behavioral cloning과 rlhf에 대한 논의에 크게 의존하는 느낌이 있네요. 이 부분에 대한 노하우와 지식이 잘 알려져 있지 않다는 느낌.
#hallucination
https://arxiv.org/abs/2309.01809
Are Emergent Abilities in Large Language Models just In-Context Learning? (Sheng Lu, Irina Bigoulaeva, Rachneet Sachdeva, Harish Tayyar Madabushi, Iryna Gurevych)
llm의 emergent한 능력은 in-context learning과 instruction tuning에 기인한 것이 아닌가, in-context learning 요인을 제거한 뒤 보면 emergent한 능력이 나타나는 것 같지는 않다는 주장이네요. in-context learning이 된다는 것이 emergent한 능력이 아닌가 하는 생각이 바로 드는데, in-context learning을 finetuning과 비슷한 것으로 볼 수 있지 않은가 하는 추측과 조합하면 딱 그렇다고 말하기는 어렵다는 것이 주장입니다. 생각해볼 여지가 있는 듯 싶네요.
#in_context_learning
https://arxiv.org/abs/2309.01826
One Wide Feedforward is All You Need (Telmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan)
enc-dec 모델에서 dec 부분의 ffn을 빼버리고 enc 모델의 ffn을 크게 만들어 모든 레이어에서 공유해보겠다는 아이디어. dec 모델을 가볍게 만들기 위한 시도의 일환으로 보이긴 합니다만...어쩐지 moe와 결합하면 재미있을 것 같기도 하네요.
#transformer
https://arxiv.org/abs/2309.01940
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models (Lingyue Fu, Huacan Chai, Shuang Luo, Kounianhua Du, Weiming Zhang, Longteng Fan, Jiayi Lei, Renting Rui, Jianghao Lin, Yuchen Fang, Yifan Liu, Jingkuan Wang, Siyuan Qi, Kangning Zhang, Weinan Zhang, Yong Yu)
코드에 대한 벤치마크 세트. bilingual인 이유는 중국어 텍스트가 있기 때문입니다.
#benchmark
https://arxiv.org/abs/2309.02411
Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices (Bojia Zi, Xianbiao Qi, Lingzhi Wang, Jianan Wang, Kam-Fai Wong, Lei Zhang)
ReLoRA (Stack More Layers Differently) (https://arxiv.org/abs/2307.05695) 비슷한 아이디어라는 느낌이군요. optimizer state와 lr을 조정하는 대신 업데이트된 lora weight와 이전 lora weight의 차이를 메인 파라미터에 반영하는 방식입니다. 이런 식의 low rank adaptation을 사용해 full rank training으로 전환하는 방법이 꽤 흥미롭다고 생각하는데...더 좋은 결과들이 나올지 궁금하네요. low rank gradient approximation과 대략 비슷한 걸까요?
#efficiency #efficient_training
https://arxiv.org/abs/2309.02144
Making Large Language Models Better Reasoners with Alignment (Peiyi Wang, Lei Li, Liang Chen, Feifan Song, Binghuai Lin, Yunbo Cao, Tianyu Liu, Zhifang Sui)
cot로 그냥 파인튜닝을 하면 잘못된 cot에 대해 perplexity를 낮게 부여하는 경우가 생기고 이것이 문제다, 그러니 올바른 cot와 잘못된 cot 사이에 contrastive loss를 붙여보자...는 아이디어입니다. 딱 봐도 openai가 rl로 풀고 싶어하는 (혹은 풀고 있는) 문제로 보이네요.
#reasoning #prompt
https://arxiv.org/abs/2309.02591
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning (Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan)
메타발 multimodal generation 모델이군요. 특징적인 것은 1. retrieval을 사용해 추가 이미지-텍스트 페어를 입력 시퀀스에 결합. 2. infilling objective 사용 3. contrastive decoding 적용이 될 것 같군요.
추가적으로 sft 단계를 거쳐 text guided image editing 같은 과제를 수행할 수 있게 했습니다.
Gemini도 그렇고 multimodal input/output이 가능한 모델을 만드는 쪽으로 발전해나가고 있는 것 같은데 그런 모델들이 어떤 모양새일지 힌트가 되지 않나 싶네요. 다만 Midjourney 같은 경우 aesthetics를 많이 신경 쓴 결과라고 보이는데, 이런 multimodal 모델들이 aesthetic한 측면을 잘 커버해줄지 궁금하긴 합니다. 그것도 된다고 하면...너무 대기업의 횡포 아닐까요?
#multimodal #vision-language
https://arxiv.org/abs/2309.03179
SLiMe: Segment Like Me (Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh)
diffusion으로 vision task를 푼 사례 하나 더. part segmentation을 했습니다. 이미지-레이블 페어 하나를 가지고 diffusion 모델의 self attention map이 레이블처럼 나오도록 텍스트 임베딩을 학습시킨 다음 이미지를 넣어주면 된다는 결과입니다.
#semantic_segmentation #ddpm
https://arxiv.org/abs/2309.03883
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models (Yung-Sung Chuang, Yujia Xie, Hongyin Luo, Yoon Kim, James Glass, Pengcheng He)
어제 (https://arxiv.org/abs/2309.02654) 에 이어 모델 내부를 뜯어서 hallucination을 감소시켜 보겠다는 아이디어가 나왔군요. 사실과 관련된 정보는 상위 레이어에서 들어오는 경향이 있어서, 상위 레이어 이전 결과와의 차이를 사용하는 contrastive decoding을 사용해서 사실의 반영 정도를 증폭하겠다는 접근입니다.
#alignment
https://arxiv.org/abs/2309.03576
DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions (Haochen Wang, Junsong Fan, Yuxi Wang, Kaiyou Song, Tong Wang, Zhaoxiang Zhang)
mae에서 positional embedding 일부를 masking한 다음 position을 예측하게 하는 식으로 self supervision을 하는 방법이군요. 오랜만에 이런 논문을 보니 반갑네요.
#self_supervised
https://arxiv.org/abs/2309.03852
FLM-101B: An Open LLM and How to Train It with $100K Budget (Xiang Li, Yiqun Yao, Xin Jiang, Xuezhi Fang, Xuying Meng, Siqi Fan, Peng Han, Jing Li, Li Du, Bowen Qin, Zheng Zhang, Aixin Sun, Yequan Wang)
function preserving expansion (https://arxiv.org/abs/2305.02869, https://arxiv.org/abs/2308.06103) 을 사용해 llm을 학습해본 시도. 학습 효율화라고 하면 시도해보게 되는 방법 중 하나인데 지금까지 그렇게 성공적인 결과를 보여준 적은 없는 것 같네요
#efficient_training
https://arxiv.org/abs/2309.03895
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks (Zigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Han Hu, Dong Chen, Baining Guo)
비전-퍼슨들은 diffusion을 기반으로 multitask 통합을 하고 싶어하는 느낌이 있네요. segmentation, keypoint detection, image enhancement, image editing을 통합했습니다. autoregressive model과 한 판 할 수 있을까요?
#multitask #multimodal #vision-language
https://arxiv.org/abs/2309.03409
Large Language Models as Optimizers (Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen)
blackbox optimization을 llm으로 풀기. 기본적으로 이전에 파라미터 x에 대해서 나온 결과들을 주고 다음 파라미터를 찍어보라고 프롬프팅을 합니다. traveling salesman problem 같은 걸 풀어보는데, 놀랍게도 되긴 하지만 효율적이진 않죠.
그래서 좀 더 흥미로운 응용인 프롬프트 최적화를 테스트해봤네요. 결과가 꽤 재미있습니다. GSM8K에서 Let’s think step by step을 Take a deep breath and work on this problem step-by-step로 개선했군요.
#llm #optimization
https://arxiv.org/abs/2309.03450
XGen-7B Technical Report (Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryściński, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Joty, Caiming Xiong)
salesforce의 llm 학습 시도. 자연어 95%로 1차 학습한 다음 자연어 47.5%, 코드 52.5%로 2차 학습, 그리고 자연어 1차 학습 동안에도 3 단계로 나눠 sequence length를 증가시키면서 학습했군요. 그 외에는 llama를 많이 따라갔습니다. 학습 불안정성에 대한 이야기를 많이 하는데 parallel layer보다 sequential layer가, layer norm보다 rms norm이, gelu보다 swiglu가 더 안정적이라고 언급하는군요. 뭔가 salesforce가 코드를 주로 해보다가 자연어 모델 학습 실험을 해봤다는 느낌이 있네요.
#llm