2023년 2월 2주차
https://arxiv.org/abs/2302.02284
Design Booster: A Text-Guided Diffusion Model for Image Translation with Spatial Layout Preservation (Shiqi Sun, Shancheng Fang, Qian He, Wei Liu)
이쪽도 structure preserving image editing인데 이쪽은 아예 학습 시에 이미지를 condition으로 주는 방식을 썼군요. 샘플링 시에 이미지/텍스트 condition의 비율을 바꾸는 것으로 structure를 얼마나 보존할지를 조절할 수 있다...라고 합니다.
#image_editing #ddpm
https://arxiv.org/abs/2302.02676
Chain of Hindsight Aligns Language Models with Feedback (Hao Liu, Carmelo Sferrazza, Pieter Abbeel)
rl 없이 align하기. 모델 생성 결과와 사람의 평가/랭킹 결과에 대해 이를 합친 시퀀스를 만든 다음 (A 문장이 B보다 낫다, B는 C와 비슷하다 식으로 이어붙입니다.) 가장 평가가 좋은 시퀀스를 예측하게 만드네요. 뭔가 오답노트 만들기 같은데 이게 왜 되는 거지? 싶은 느낌이 있습니다.
#llm #alignment
https://arxiv.org/abs/2302.03027
Zero-shot Image-to-Image Translation (Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan Lu, Jun-Yan Zhu)
captioning model로 이미지를 invert 한 다음, source/target 텍스트를 lm으로 증폭시켜서 mean clip embedding을 추출하고 이 embedding을 사용해서 edit 하면서 cross attention에 guidance를 줘서 structure를 보존하는 접근이군요.
https://pix2pixzero.github.io/
#image_editing #ddpm
https://arxiv.org/abs/2302.03528
Efficiently Upgrading Multilingual Machine Translation Models to Support More Languages (Simeng Sun, Maha Elbayad, Anna Sun, James Cross)
https://arxiv.org/abs/2302.03202
Exploring the Benefits of Training Expert Language Models over Instruction Tuning (Joel Jang, Seungone Kim, Seonghyeon Ye, Doyoung Kim, Lajanugen Logeswaran, Moontae Lee, Kyungjae Lee, Minjoon Seo)
LG AI Research 쪽의 연구군요. multitask instruction finetuning에서 수많은 과제를 학습하는 것보다 하나의 과제만 학습한 모델이 그 학습 과제와 유사한 과제들에서 성능이 더 나을 수 있다는 결과. 그러니 개별 과제에 대해 adapter tuning을 하고 테스트 시점에서는 주어진 과제 텍스트와 유사한 텍스트에 학습된 모델을 꺼내와서 추론시키면 더 나을 수 있다, 이런 느낌이군요.
그렇지만 모델이 왕창 커지면 또 다른 문제가 될 것 같긴 합니다.
#multitask #instruct
https://arxiv.org/abs/2302.03668
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery (Yuxin Wen, Neel Jain, John Kirchenbauer, Micah Goldblum, Jonas Geiping, Tom Goldstein)
text2img의 prompt tuning 테크닉이군요. continuous vector embedding이 아니라 word token을 생성할 수 있는 것을 목표로 합니다. 방법은 비교적 심플하게 gradient descent로 임베딩을 최적화하고 가장 유사한 토큰으로 projection 하는 것의 반복이네요.
text2img의 프롬프트는 벌써 쌓인 양도 어마어마하고 영업 비밀(?)처럼 돌아다니는 것 같던데 이 부분이 꽤 재미있다고 생각합니다. 개인적으로는 AI/ML 모델이 사회에서 확산되고 채택되는 양식에 대한 하나의 흥미로운 사례라고 봅니다.
#prompt #text2img
https://arxiv.org/abs/2302.03686
Long Horizon Temperature Scaling (Andy Shih, Dorsa Sadigh, Stefano Ermon)
흠...흥미롭네요. autoregressive lm에서 temperature scaling을 한다고 하면 각 타임 스텝의 토큰의 logit을 temperature T로 scaling 해주는 방식으로 접근하죠. 그러나 이 접근은 각 토큰에 대한 scaling이지 전체 토큰 시퀀스에 대한 scaling, 즉 log(p(x))/T 는 아니라는 것에 대한 대안이네요. temperature에 대해 전체 샘플에 대한 distribution을 근사하도록 튜닝이 필요하긴 하지만 lm 뿐만 아니라 ddpm 같은 사례에도 적용이 가능하군요.
#calibration #lm #ddpm
https://arxiv.org/abs/2302.04264
Nerfstudio: A Modular Framework for Neural Radiance Field Development (Matthew Tancik, Ethan Weber, Evonne Ng, Ruilong Li, Brent Yi, Justin Kerr, Terrance Wang, Alexander Kristoffersen, Jake Austin, Kamyar Salahi, Abhik Ahuja, David McAllister, Angjoo Kanazawa)
nerf 개발 도구. 나온 줄 모르고 있었는데 꽤 근사해 보이네요.
https://docs.nerf.studio/en/latest/
#nerf
https://arxiv.org/abs/2302.03917
Noise2Music: Text-conditioned Music Generation with Diffusion Models (Qingqing Huang, Daniel S. Park, Tao Wang, Timo I. Denk, Andy Ly, Nanxin Chen, Zhengdong Zhang, Zhishuai Zhang, Jiahui Yu, Christian Frank, Jesse Engel, Quoc V. Le, William Chan, Wei Han)
요즘 음악 생성 판도 뒤집히고 있는 것 같던데 이쪽도 이제 어떤 임계점을 곧 넘게 되지 않을까 하는 생각도 드네요. 이미지 생성에 비하면 오타쿠들이 좀 적은 것이 아닌가 하는 생각은 있습니다만.
https://google-research.github.io/noise2music/
#audio_generation
https://arxiv.org/abs/2302.04304
Q-Diffusion: Quantizing Diffusion Models (Xiuyu Li, Long Lian, Yijiang Liu, Huanrui Yang, Zhen Dong, Daniel Kang, Shanghang Zhang, Kurt Keutzer)
diffusion 모델에 대한 quantization. 각 타임 스텝 별로 출력 분포가 달라진다는 게, 그리고 오차가 누적된다는 게 주요 문제인 것 같군요. 그런데 8bit 까지는 베이스라인도 꽤 괜찮아서 논문의 목표는 4bit 까지 내려가는 것인 것 같네요.
#ddpm #quantization
https://arxiv.org/abs/2302.04542
Efficient Attention via Control Variates (Lin Zheng, Jianbo Yuan, Chong Wang, Lingpeng Kong)
https://arxiv.org/abs/2302.04931
In-Context Learning with Many Demonstration Examples (Mukai Li, Shansan Gong, Jiangtao Feng, Yiheng Xu, Jun Zhang, Zhiyong Wu, Lingpeng Kong)
transformer lm의 context length가 그리 넉넉하지 않은데 in-context learning을 위해 프롬프트와 예제를 추가하다보면 더 부족해지죠. 그 문제에 대한 제안이네요. 사실 핵심은 long-range efficient attention과 efficient attention의 locality + ciruclar positional embedding을 사용한 length extrapolation입니다. 여기서 efficient attention으로는 EVA (https://arxiv.org/abs/2302.04542) 를 썼습니다. (놀랍게도 저자가 한 명 빼고 안 겹치네요.)
EVA 논문의 설명이 복잡하긴 한데 이 논문의 요약을 따르자면 청킹 / 청크 밖 원격 feature 내에 efficient attention과 pooling, remote feature와 청크 내 feature에 대한 plain attention 조합이군요. 이 설명으로는 window attention + long rang feature의 조합으로 보이네요.
지금 openai나 구글에서는 context length 문제에 대해 어떻게 대응하고 있는지 궁금하긴 합니다. (그냥 gpt-3 그대로일까요?)
#efficient_attention #transformer
https://arxiv.org/abs/2302.04871
In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition (Yiran Xu, Zhixin Shu, Cameron Smith, Jia-Bin Huang, Seoung Wug Oh)
gan이 아직 살아남은 분야가 3d 얼굴 생성이죠. 여기서는 inversion을 할 때 잘 안 되는 이유를 ffhq 밖으로 나가게 하는(ood) 요소들, 예를 들어 메이크업 같은 문제에서 찾고 있네요. 그래서 이런 ood 요소를 in domain 요소와는 따로 모델링한 다음 composite 하는 방식을 취했습니다. mode coverage 문제를 이렇게 해소하네요.
https://in-n-out-3d.github.io/
#3d_generative_model #gan_inversion
https://arxiv.org/abs/2302.04858
Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning (Zhuolin Yang, Wei Ping, Zihan Liu, Vijay Korthikanti, Weili Nie, De-An Huang, Linxi Fan, Zhiding Yu, Shiyi Lan, Bo Li, Ming-Yu Liu, Yuke Zhu, Mohammad Shoeybi, Bryan Catanzaro, Chaowei Xiao, Anima Anandkumar)
retrieval augment를 꼭 텍스트에 대해서만 쓸 필요는 없겠죠. vision-language 모델에서 이미지 입력으로 이미지-캡션 페어를 retrieval 해서 이 캡션을 사용해 캡션을 생성하겠다는 생각.
#vision-language
https://arxiv.org/abs/2302.04761
Toolformer: Language Models Can Teach Themselves to Use Tools (Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom)
외부 도구를 API로 호출해서 사용할 수 있는 lm 만들기. API 호출 구문이 삽입된 텍스트를 생성하도록 파인튜닝 하는 것이라 이 API 호출이 삽입된 데이터를 만드는 게 가장 중요한 부분입니다. 자주 그렇듯 lm에 in-context learning으로 이 예시 텍스트를 샘플링하게 만드는 방식으로 태클했네요.
#llm #tool
https://arxiv.org/abs/2302.05206
The Wisdom of Hindsight Makes Language Models Better Instruction Followers (Tianjun Zhang, Fangchen Liu, Justin Wong, Pieter Abbeel, Joseph E. Gonzalez)
rl 없이 instruct tuning을 해보자. instruction prompt / query에 모델로 샘플링한 answer로 triplet을 만든 다음 이 answer의 스코어가 높아지도록 instruction prompt를 편집하는 방식으로 작동하는군요. 스코어 평가는 그렇다 치고 instruction prompt를 편집하는 것이 문제인데 여기서는 prompt 자체를 정답 생성 / 오답 생성으로 만들고 편집은 negation을 취하는 방식으로 했습니다. 흠.
#instruct #reinforcement_learning
https://arxiv.org/abs/2302.05578
Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented Large Language Models (Renat Aksitov, Chung-Ching Chang, David Reitter, Siamak Shakeri, Yunhsuan Sung)
retrieval augment가 lm의 hallucination 문제를 해소할 수 있는 수단으로 여겨지고 있지만 그냥 retrieve 해서 앞에 붙인다고 해서 되는 문제는 아니겠죠. fluency (그럴 듯하고 퀄리티 높은 텍스트 생성)과 accountability (근거 텍스트에 충실한 텍스트 생성) 에 trade off가 발생하리라고 생각하고 이 두 메트릭을 자동 측정할 수 있는 방법 개발, 그리고 여러 조건에서 이 스코어가 어떻게 변화하는지를 분석했네요.
take away 메시지를 보면 결과적으로 좋은 retriever를 사용해서 context length를 넘지 않을 정도로 사용해야 하고 작은 모델을 쓰는 경우는 샘플을 여러 개 뽑아서 re-ranking을 해야한다가 되는 군요.
#retrieval #llm