2023년 6월 1주차
https://arxiv.org/abs/2306.00978
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang, Song Han)
weight only quantization에서 activation scale을 고려해 per channel scaling factor를 찾는 방법. tensor core를 사용하는 고속 커널까지 만들었군요. GPTQ와 유사하거나 더 나은 성능을 보이면서 더 고속으로 작동할 여지가 있어 보입니다. 중요한 결과로 보이네요.
#quantization
https://arxiv.org/abs/2306.00989
Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles (Chaitanya Ryali, Yuan-Ting Hu, Daniel Bolya, Chen Wei, Haoqi Fan, Po-Yao Huang, Vaibhav Aggarwal, Arkabandhu Chowdhury, Omid Poursaeed, Judy Hoffman, Jitendra Malik, Yanghao Li, Christoph Feichtenhofer)
https://arxiv.org/abs/2306.00980
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds (Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren)
https://arxiv.org/abs/2306.00983
StyleDrop: Text-to-Image Generation in Any Style (Kihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, Dilip Krishnan)
single style image를 사용한 stylized text-to-image. 특이하게 masked image generation 모델을 사용했네요. 파인튜닝 기반인데 오버피팅 문제를 학습 과정에서 모델이 생성한 이미지 중 괜찮은 것을 골라 학습 데이터셋으로 추가하는 방식으로 태클했습니다.
#ddpm #style_transfer
https://arxiv.org/abs/2306.01693
Fine-Grained Human Feedback Gives Better Rewards for Language Model Training (Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi)