2023년 1월 5주차
https://arxiv.org/abs/2301.13310
Alternating Updates for Efficient Transformers (Cenk Baykal, Dylan Cutler, Nishanth Dikkala, Nikhil Ghosh, Rina Panigrahy, Xin Wang)
densenet 시절의 아이디어를 이런 형태로 다시 보게 되네요. 임베딩 벡터의 일부 dimension에만 transformer layer를 적용, 전체 dimension에는 간단한 vector 연산을 적용, 이후 이 둘을 결합해 결과 보정이라는 방식으로 실질 dimension을 늘리면서 연산 증가는 억제할 수 있다는 아이디어군요. 그런데 이건 단어 임베딩에만 적용해본 것 같네요.
#efficiency
https://arxiv.org/abs/2301.13826
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models (Hila Chefer, Yuval Alaluf, Yael Vinker, Lior Wolf, Daniel Cohen-Or)
text2image의 cross attention map에서 특정 텍스트 토큰이 잘 반영되지 않는 경우를 막도록 (최소 한 패치에서나마 attention이 주어지도록) 제어해서 텍스트에 좀 더 잘 부합하는 이미지를 만들겠다는 아이디어군요.
https://arxiv.org/abs/2208.01626 의 사례도 그렇고 이 cross attention map을 사용해서 할 수 있는 것들이 많다고 생각을 합니다. 그런데 생각을 한다기에는 이미 많은 사람들이 쓰고 있는 방법일지도 모르겠네요.
#ddpm #text2img
https://arxiv.org/abs/2301.13379
Faithful Chain-of-Thought Reasoning (Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong, Marianna Apidianaki, Chris Callison-Burch)
chain-of-thought에서 사고 과정을 자연어가 아니라 외부 도구로 작동 가능한 코드/기호의 형태로 변환하도록 prompting을 하는 방법. 외부 도구를 사용하려는 시도의 연장이라고 할 수 있겠네요. 이쪽은 코드를 생성하도록 prompting을 한 부분을 고려해야겠지만 여하간 코드에 대해 학습한 것이 llm의 reasoning 능력에 영향을 미칠 수도 있다는 생각이 드네요.
#llm #prompt
https://arxiv.org/abs/2301.13823
Grounding Language Models to Images for Multimodal Generation (Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried)
오...이거 흥미롭네요. frozen visual encoder와 language 모델을 사용하면서 cross attention 없이 visual embedding을 k개의 임베딩 벡터로 변환해서 lm 입력에 바로 집어넣는 방식을 택했습니다. 추가로 retrieval token을 시퀀스에 추가해서 image retrieval이 가능하도록 했네요. 결과적으로 이미지/텍스트가 interleave된 대화를 처리할 수 있고 모델에서 이미지를 제안할 수도 있게 됐군요. 데이터는 interleave된 데이터를 따로 쓴 것은 아니고 image-caption 페어를 연달아 연결하는 방식으로 학습했습니다.
#multimodal_generation #vision-language #llm
https://arxiv.org/abs/2302.00083
In-Context Retrieval-Augmented Language Models (Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham)
이쪽도 retrieve된 텍스트를 lm 입력 앞에 붙여서 활용한다는 아이디어군요. 사실 retrieval을 사용하는 것이 좀 더 효율적인 모델을 만든다는 보고는 이전부터 있었는데 폭넓게 쓰이게 될지 궁금하긴 하네요. (사실 이건 gpt 같은 모델들에 retrieval이 들어갈 것인가가 결정할 것 같다는 생각이 들긴 합니다.)
(이 논문과는 별개로) retrieval이나 knowledge base가 붙으면 사실 제공과 관련된 많은 문제들이 해결될 것이라는 것이 약간 자연스럽게 가정으로 깔리는 경우가 많은 것 같은데 전 사실 이쪽이 요즘 의문스럽긴 합니다. 우리가 원하는 사실이라는 것이 수집된 정보에서 바로 도출되는 종류는 아닐 것 같다는 생각이 있네요. 자체적인 판단 기준에 따른 의사 결정과 불확실함에 대한 증거의 비율, 더 나아가 적극적인 증거 수집과 창출이 필요한 문제가 아닐까 싶기도 합니다.
#lm #retrieval
https://arxiv.org/abs/2302.00093
Large Language Models Can Be Easily Distracted by Irrelevant Context (Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed Chi, Nathanael Schärli, Denny Zhou)
엉뚱한 문장이 끼어들었을 때 llm의 in context learning 성능이 감소하는 것에 대한 벤치마크와 대응 방법에 대한 탐색이군요. 가장 괜찮은 것은 sub program으로 문제 분해 + chain of thought + 여러 답을 샘플링하고 majority voting인 것 같긴 하네요. (least-to-most prompting + self-consistency).
#llm #in_context_learning
https://arxiv.org/abs/2301.13688
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning (Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts)
instruction tuning을 tuning한 과정에 대한 리포트군요. instructgpt 덕분에 이제 많이 친근해진(?) rlhf가 아니라 다양한 nlp task에 대해서 학습시키는 형태의 작업입니다.
#instruct