2023년 5월 2주차
https://arxiv.org/abs/2305.04241
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens (Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng)
long context length transformer. 논문을 특이하게 썼네요. 중요한 토큰들을 선정해서 사용한다는 것은 retrieval 기반 방법들과 비슷한데...이쪽에서는 토큰들을 압축해서 중요한 토큰을 만들어내는 방식이군요. 꽤 복잡하긴 합니다.
약간 다른 결이지만 사람은 그리 크지 않은 작업 기억과 장기 기억으로 책 읽고 이해하기 같은 과제를 어떻게 수행하는 것일까요? 습득한 정보를 장기 기억에 입력하고, 인출해서 새로운 정보와 결합하고, 이 결합된 정보를 다시 장기 기억에 입력하는 루프가 돌아가는 것이 아닐까 하는 생각을 해봅니다. 정교하게 구현하려면 까다롭겠지만 LLM을 이 루프의 부품으로 써서 비슷한 기능을 할 수 있게 하는 것은 꽤 가능하지 않을까 싶네요. 이 논문에서 중요 토큰들을 업데이트 하는 과정이 이런 추측을 연상하게 하는 지점이 있어서 써봤습니다.
#efficient_attention #transformer
https://arxiv.org/abs/2305.04160
X-LLM: Bootstrapping Advanced Large Language Models by Treating Multi-Modalities as Foreign Languages (Feilong Chen, Minglun Han, Haozhi Zhao, Qingyang Zhang, Jing Shi, Shuang Xu, Bo Xu)
별 관계는 없지만 Grammar as a Foreign Language가 떠오르는 제목이군요. 이미지나 비디오에서 BLIP-2, 오디오에 대해서 ASR을 사용해 텍스트와 비교적 정렬된 임베딩을 만들고, 어댑터를 달아서 LLM과 연결하는 스타일의 방법입니다. 전 이런 걸 보면 늘 OCR 성능이 궁금하네요.
#multimodal
https://arxiv.org/abs/2305.05364
Large Language Model Programs (Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li)
슈미트후버 선생님의 이름이 딱 보여서 봤습니다. 알고리즘을 구성하고 그 알고리즘 내에 LLM을 끼워넣는다는 (요즘 많이 유행하는) 아이디어입니다. QA에 대한 알고리즘을 만들어봤네요. 질문에 대해 필요한 텍스트들을 LLM으로 찾아내고, 각 지문들과 그 지문들에 의거한 추론을 LLM으로 생성하고, 각 지문에 대한 추론들을 트리 형태로 구축해 LLM으로 순위를 매기고, 이 과정을 반복해서 트리 탐색을 하고 답을 내리는 식이군요.
end2end의 이상에서는 좀 멀어지는 느낌이지만...이런 알고리즘을 구성하는 것 자체는 흥미롭다 싶습니다.
#llm #prompt
https://arxiv.org/abs/2305.05181
MoT: Pre-thinking and Recalling Enable ChatGPT to Self-Improve with Memory-of-Thoughts (Xiaonan Li, Xipeng Qiu)
메모리에 대한 이야기를 했는데 잘 들어맞는 듯한 연구가 하나 나왔군요. unlabeled dataset에 대해 CoT로 생성한 텍스트를 메모리로 집어넣고, 메모리에서 새 지문에 대해 관련 있는 텍스트를 인출해 새 질문에 대한 답을 한다는 흐름입니다.
#llm #prompt
https://arxiv.org/abs/2305.06161
StarCoder: may the source be with you! (Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, João Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Muñoz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries)
https://arxiv.org/abs/2305.06474
Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction (Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng)
llm을 recommender system에 적용해보려는 시도도 많이 나오네요. few shot으로는 매력적이지 않은데 finetuning 까지 하면 성능적 이점이 보인다고 합니다.
#recommender
https://arxiv.org/abs/2305.07017
An Inverse Scaling Law for CLIP Training (Xianhang Li, Zeyu Wang, Cihang Xie)
https://arxiv.org/abs/2305.06575
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models (Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, Furu Wei)
llm의 번역 능력이 아쉽다 싶으면 단어 사전을 앞에다 붙여주면 됩니다. ㅋㅋㅋ
#llm
https://arxiv.org/abs/2305.06908
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model (Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo)
consistency model을 speech/singing voice synthesis에 적용해본 사례가 나왔네요.
#speech #audio_synthesis
https://arxiv.org/abs/2305.06677
INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Large Language Models (H S V N S Kowndinya Renduchintala, Krishnateja Killamsetty, Sumit Bhatia, Milan Aggarwal, Ganesh Ramakrishnan, Rishabh Iyer, Balaji Krishnamurthy)
LM 학습에 쓰는 데이터셋을 distill 할 수 있지 않을까 하는 생각. 방법은 lm representation을 사용한 core set sampling 같은 느낌이네요. 보통은 성능 감소를 고려했을 때 이런 방법이 매력적이지 않은데...학습 비용이 감당하기 힘들 정도로 증가하고 있는 lm 업계의 상황에서는 이렇게 비용을 아껴 고가치 데이터셋을 더 투입할 수 있으면 그것도 괜찮지 않을까 싶기도 합니다.
#llm #dataset
https://arxiv.org/abs/2305.06500
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning (Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi)
https://arxiv.org/abs/2305.07019
Musketeer (All for One, and One for All): A Generalist Vision-Language Model with Task Explanation Prompts (Zhaoyang Zhang, Yantao Shen, Kunyu Shi, Zhaowei Cai, Jun Fang, Siqi Deng, Hao Yang, Davide Modolo, Zhuowen Tu, Stefano Soatto)
vision-language를 사용한 all-in-one (grounding, captioning, detection, 등등...) vision 모델. 메인 아이디어는 과제에 대해 설명하는 프롬프트를 입력해 과제 간의 간섭을 줄인다는 것이네요.
#vision-language #multimodal #multitask
https://arxiv.org/abs/2305.07004
Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting (Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, Furu Wei)
cross lingual 상황에서의 프롬프팅. 너는 X 언어에 대한 전문가다. 질문을 영어로 번역하고 step by step으로 답을 생성해라라는 식의 프롬프트입니다. 질문은 다른 언어로 쓰고 영어로 답하라거나 하는 프롬프트는 종종 쓰였죠.
#llm
https://arxiv.org/abs/2305.07011
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers (Dahun Kim, Anelia Angelova, Weicheng Kuo)
https://arxiv.org/abs/2305.07021
Simple Token-Level Confidence Improves Caption Correctness (Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach)
https://huggingface.co/blog/starchat-alpha
HuggingFace가 StarCoder를 instruction tuning한 모델을 만들었네요.
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/
이미지/비디오, 텍스트, 오디오, Depth, 적외선, 관성 측정값이라는 6가지 modality에 대한 joint embedding이네요. 흥미로운 포인트는 이미지와 다른 modality간의 pair만으로 학습했을 때에도 각각의 modality들 사이에서도 임베딩이 align 되었다는 부분일 듯 싶습니다.
#embedding #contrastive_learning
https://arxiv.org/abs/2305.07185
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers (Lili Yu, Dániel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer, Mike Lewis)
byte level tokenizer free transformer. patch embedding으로 byte sequence를 묶고, 그 위에서 일반적인 트랜스포머 레이어를 쌓은 다음 출력 단에 각 patch 내에서 동작하는 레이어를 하나 올린 형태입니다. 이쪽 연구는 꽤 오랜만에 보네요. 토크나이저는 다들 어떻게든 해결하고 싶은 대상이긴 하지만 byte representation의 임의성과 지금까지 나왔던 character level 모델들의 결과를 보면 잘 될까...하는 생각이 들긴 하네요.
#transformer #tokenizer
https://arxiv.org/abs/2305.07759
TinyStories: How Small Can Language Models Be and Still Speak Coherent English? (Ronen Eldan, Yuanzhi Li)
묘한 연구네요. gpt-3.5나 gpt-4로 쉽게 이해할 수 있는 이야기를 작성하게 해서 데이터셋을 만든 다음, 이 데이터에 대해 10M 정도의 작은 모델을 학습시켰을 때 자연스러운 문장 생성 등의 특징을 관찰할 수 있었다는 보고입니다.
#transformer #lm
https://arxiv.org/abs/2305.07922
CodeT5+: Open Code Large Language Models for Code Understanding and Generation (Yue Wang, Hung Le, Akhilesh Deepak Gotmare, Nghi D.Q. Bui, Junnan Li, Steven C.H. Hoi)
salesforce에서 code llm을 하나 더 냈군요. 흥미롭게도 T5 기반입니다. unimodal code 데이터에 1차 프리트레이닝, docstring text와 code bimodal 데이터를 사용한 2차 프리트레이닝과 함께 span denoising, causal lm, constrastive loss 등을 사용해서 학습하고, 인코더/디코더 only 혹은 seq2seq 모델로 사용하는 방법을 구상했네요.
code llm pretraining objective에 대해서 고민을 많이 한 것 같던데 이게 그 결론일까 싶네요.
#llm
https://arxiv.org/abs/2305.07895
On the Hidden Mystery of OCR in Large Multimodal Models (Yuliang Liu, Zhang Li, Hongliang Li, Wenwen Yu, Mingxin Huang, Dezhi Peng, Mingyu Liu, Mingrui Chen, Chunyuan Li, Lianwen Jin, Xiang Bai)
generative vision-language 모델의 ocr 능력에 대한 분석. 패치에서 텍스트를 인식하는 능력은 sota 모델과 큰 차이가 나지 않는군요. 문제는 일반적인 scene이나 문서에 대해서인데 여기서는 좀 그냥저냥이라는 느낌도 있네요. 논문에서 지적하는 것처럼 이미지 크기에 제약이 심하다는 점이 중요한 부분일 것 같습니다.
마찬가지로 논문에서 지적하는 부분인데 gpt-4가 보고하고 있는 성능은 꽤 높아서...어떻게 하고 있는지가 궁금하긴 하네요. 일단 기본적으로 보통 하는 것보다 이미지 크기가 클 가능성이 높을 것 같습니다.
#multimodal #vision-language