2023년 6월 5주차
https://arxiv.org/abs/2306.14111
Is RLHF More Difficult than Standard RL? (Yuanhao Wang, Qinghua Liu, Chi Jin)
rlhf는 reward가 아니라 preference signal에 대해 학습되는데, preference는 정보가 reward보다 부족하기 때문에 학습이 더 어려워지는 것이 아닌가? 하는 질문이네요. 일단 논문의 결론은 기존 rl 방법으로 풀 수 있고 rl에 비해 rlhf가 더 어렵지는 않은 것 같다고 하네요. 생각해보지 않았던 문제인데 흥미롭군요.
#alignment #rl
https://arxiv.org/abs/2306.14435
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing (Yujun Shi, Chuhui Xue, Jiachun Pan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai)
그새 diffusion에 드래그 기능을 탑재한 모델이 나왔군요.
#image_editing
https://arxiv.org/abs/2306.14824
Kosmos-2: Grounding Multimodal Large Language Models to the World (Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei)
Kosmos-2가 나왔군요. 여기서 주로 수행한 작업은 텍스트 내 각 명사에 대한 bounding box, 텍스트 내 지시 표현 (referring expression)에 대한 bounding box 데이터셋을 image-text pair 데이터셋을 통해 구축했다는 것이겠네요.
#vision-language #multimodal
https://arxiv.org/abs/2306.14636
Localized Text-to-Image Generation for Free via Cross Attention Control (Yutong He, Ruslan Salakhutdinov, J. Zico Kolter)
text2img 모델에서 segmentation map 등을 사용한 localization 기능 추가. image-text cross attention을 segmentation map을 사용해 마스킹하는 방식으로 조작하는 접근이군요. 재미있네요.
#text2img #image_editing
https://arxiv.org/abs/2306.15063
Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression (Allan Raventós, Mansheej Paul, Feng Chen, Surya Ganguli)
https://arxiv.org/abs/2306.15091
Understanding In-Context Learning via Supportive Pretraining Data (Xiaochuang Han, Daniel Simig, Todor Mihaylov, Yulia Tsvetkov, Asli Celikyilmaz, Tianlu Wang)
https://arxiv.org/abs/2306.15658
CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a $10,000 Budget; An Extra $4,000 Unlocks 81.8% Accuracy (Xianhang Li, Zeyu Wang, Cihang Xie)
CLIPA(https://arxiv.org/abs/2305.07017) 의 아이디어는 큰 모델일수록 이미지/텍스트 토큰을 날려서 길이를 줄여도 성능 저하가 적다는 것이었는데...이걸 규모를 키워서 실험해봤군요.
#vision-language #contrastive_learning #multimodal
https://arxiv.org/abs/2306.15595
Extending Context Window of Large Language Models via Positional Interpolation (Shouyuan Chen, Sherman Wong, Liangjian Chen, Yuandong Tian)
position encoding interpolation 얼마 전에 블로그로 돌아다녔는데, 같은 아이디어가 논문으로 나왔군요. position encoding interpolation이 그냥 파인튜닝한 것보다 낫고, 파인튜닝을 할 때도 그냥 하는 것보다는 position encoding interpolation 이후에 하는 것이 낫다는 것을 시사하고 있네요. (그냥 파인튜닝을 하면 context window가 거의 늘어나지 않는 것처럼 보입니다.)
#positional_encoding
https://arxiv.org/abs/2306.15419
Free-style and Fast 3D Portrait Synthesis (Tianxiang Ma, Kang Zhao, Jianxin Sun, Jing Dong, Tieniu Tan)
stylized eg3d군요. 재밌네요.
https://tianxiangma.github.io/FF3D/
#3d_generative_model
https://arxiv.org/abs/2306.15273
IDOL: Indicator-oriented Logic Pre-training for Logical Reasoning (Zihang Xu, Ziqing Yang, Yiming Cui, Shijin Wang)
https://arxiv.org/abs/2306.15400
Length Generalization in Arithmetic Transformers (Samy Jelassi, Stéphane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, François Charton)
트랜스포머의 계산에 대한 extrapolation 실험. 덧셈 같은 경우 relative positional encoding을 쓰면 기본적으로 숫자의 자리수 증가에 대해 generalization이 되는데 곱셈 같은 경우는 안 되는군요. 그런데 500 샘플 정도의 긴 자리수의 곱셈 예제를 추가해주면 또 잘 된다고 합니다. 트랜스포머에 곱셈을 수행하기 위한 구조가 어느 정도 형성되어 있다는 의미 같은데, 동시에 그걸 바로 활용하도록(extrapolation) 학습되지는 않는다는 것을 시사하는 듯 하네요.
#transformer
https://arxiv.org/abs/2306.16410
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language (William Berrios, Gautam Mittal, Tristan Thrush, Douwe Kiela, Amanpreet Singh)
캡셔닝이나 태깅 같은 텍스트를 출력하는 이미지 모델들의 결과를 텍스트 only lm에 붙여서 multimodal task를 수행한다...는 아이디어군요.
한 가지 생각: multimodal gpt-4가 출동하면 어떨까? 두 번쨰 생각: 모듈들을 붙여 파이프라인을 만드는 접근이 다시 인기를 얻는 듯. 그렇지만 지금까지 딥 러닝 판에서는 늘 결국에는 end2end가 승리해왔다고 봐야하지 않을까.
#multimodal #vision-language #llm
https://arxiv.org/abs/2306.16388
Towards Measuring the Representation of Subjective Global Opinions in Language Models (Esin Durmus, Karina Nyugen, Thomas I. Liao, Nicholas Schiefer, Amanda Askell, Anton Bakhtin, Carol Chen, Zac Hatfield-Dodds, Danny Hernandez, Nicholas Joseph, Liane Lovitt, Sam McCandlish, Orowa Sikder, Alex Tamkin, Janel Thamkul, Jared Kaplan, Jack Clark, Deep Ganguli)
국가나 집단 별로 의견이 갈리는 질문들, 예를 들어 좋은 민주주의 vs 강한 경제 같은 질문들을 구축하고 llm이 그에 대해 어떻게 응답하는지, 실제 각 국가 집단에서의 응답은 어떤지, 그리고 프롬프팅을 사용해서 llm의 응답을 각 국가에 가깝게 맞출 수 있는지를 실험했네요.
분명 문제가 될 수 있는 문제이긴 한데 여러모로 까다롭네요. 가치의 영역이기 때문에...
#alignment
https://arxiv.org/abs/2306.17165
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training (Zitian Chen, Mingyu Ding, Yikang Shen, Wei Zhan, Masayoshi Tomizuka, Erik Learned-Miller, Chuang Gan)
https://arxiv.org/abs/2306.16793
Benchmarking Large Language Model Capabilities for Conditional Generation (Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann)
llm의 generation task들에 대한 테스트군요. encoder-decoder vs decoder-only, multilinguality, few-shot vs finetuning 등의 조건에서 data to text, english generation, crosslingual generation, multilingual summarization 등의 과제에 대해 테스트해봤군요.대체로 기대할만한 결과가 나온 것 같긴 합니다. (finetuning이 few shot보다 강하긴 함, encoder-decoder 모델이 이점이 있긴 하지만 decoder only 모델이 커지면 따라잡을 수 있음, multilingual input보다 output이 어려움 등.) 그나저나 code-davinci-002가 새삼 강한 모델이구나 싶네요.
#llm #evaluation
https://arxiv.org/abs/2306.17154
Generate Anything Anywhere in Any Scene (Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee)
https://arxiv.org/abs/2306.17156
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors (Tung Phung, Victor-Alexandru Pădurean, José Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares)
https://arxiv.org/abs/2306.17107
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding (Yanzhe Zhang, Ruiyi Zhang, Jiuxiang Gu, Yufan Zhou, Nedim Lipka, Diyi Yang, Tong Sun)
https://arxiv.org/abs/2306.17563
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting (Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky)
llm으로 query-passage 사이의 relevancy를 ranking. 적절한 prompt를 주고 passage a 혹은 b가 relevant한가를 묻는가 하는 일반적인 방식이지만 이 논문의 요점은 N개 passage가 있을 때 O(N^2) comparison을 피하는 것이네요. sorting에 착안해서 sorting 알고리즘 진행 과정의 comparator로 사용하는 방식을 사용했습니다.
#llm
https://arxiv.org/abs/2306.17843
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors (Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem)
single image to 3d generation. nerf로 coarse level representation을 구성한 다음 mesh 기반 방법으로 넘겨 fine grained rendering을 만드는 방식이군요. 각각의 방법들도 충분히 복잡한데 여기에 2d, 3d prior로 각각 diffusion이 모델이 들어가는 군요.
이 계통 연구들이 지속적으로 나오는데 전 얼핏 봐서는 퀄리티의 향상을 체감하기 어렵네요. 이런 계통의 연구를 기반으로 한 도구들, 예를 들어 사진으로 게임 애셋을 만드는 도구는 상품화 되어있는 것 같던데 얼마나 쓸만할지 궁금하네요.
https://guochengqian.github.io/project/magic123/
#3d_generative_model
https://arxiv.org/abs/2306.17492
Preference Ranking Optimization for Human Alignment (Feifan Song, Bowen Yu, Minghao Li, Haiyang Yu, Fei Huang, Yongbin Li, Houfeng Wang)
accepted vs rejected pair만 고려하는 것이 아니라 여러 prompt-response 샘플 사이의 preference ranking을 고려하는 ranking loss를 만들고 그걸로 policy 모델을 직접 학습시키는 방법이네요. 어쩐지 RRHF의 확장이라는 느낌이군요.
흥미로운데 평가 결과가 아주 확연하지는 않은 것 같네요.
#alignment