2023년 7월 2주차
https://arxiv.org/abs/2307.02421
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models (Chong Mou, Xintao Wang, Jiechong Song, Ying Shan, Jian Zhang)
draggan이 나오니 다들 잽싸게 diffusion에 drag 기능을 추가하는 작업에 착수했네요. 이쪽은 drag 기능에 객체 이동, 객체 크기 조절, 그리고 약간 drag의 범주를 넘는 것 같은데 다른 이미지에서 이미지 특징을 "끌어다가" 붙여넣는 기능을 추가했군요.
#image_editing
https://arxiv.org/abs/2307.02053
Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning (Deepanway Ghosal, Yew Ken Chia, Navonil Majumder, Soujanya Poria)
vicuna에 flan 데이터셋을 붙이면 좋더라는 결과군요. flan이 흥미로운 데이터셋이긴 한데 최근 인기 있는 dialog 형식과 달라서 애매해진 것이 아쉽긴 하네요.
#multitask #instruction-tuning
https://arxiv.org/abs/2307.02483
Jailbroken: How Does LLM Safety Training Fail? (Alexander Wei, Nika Haghtalab, Jacob Steinhardt)
gpt-4와 claude에 대한 탈옥 연구. 유저들은 끊임없이 탈옥 방법을 고안하고 openai나 anthropic은 그걸 막는 과정이 계속 반복되고 있죠. 물론 대놓고 harmful하면 후폭풍을 감당하기 어려울 것 같긴 하지만 이런 형태의 탈옥 시도에 뚫리는 것 자체가 정말로 문제가 되는 것일까...하는 생각도 들긴 합니다. 물론 초지능에 대해 우려하는 것처럼 탈옥을 했더니 모델이 서버를 뚫고 나오더라 이러면 문제가 되겠지만요.
#alignment
https://arxiv.org/abs/2307.02486
LongNet: Scaling Transformers to 1,000,000,000 Tokens (Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Furu Wei)
attention sparsification인데 dilated conv 스타일로 만들었습니다. dilated라는 표현을 정말 오랜만에 보는 느낌이군요. sparse attention이라고 하면 bigbird 같은 스타일이 생각나지만 이쪽은 실제로 꽤 고속으로 작동하도록 만들 수 있는 모양입니다. 메모리 제약이 아니라면 sequence length에 대한 제약이 거의 없다는 느낌이네요.
#efficient_attention
https://arxiv.org/abs/2307.02477
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks (Zhaofeng Wu, Linlu Qiu, Alexis Ross, Ekin Akyürek, Boyuan Chen, Bailin Wang, Najoung Kim, Jacob Andreas, Yoon Kim)
일반적인 세계와는 다른 counterfactual 세계를 가정하고 문제를 풀게 해보는 실험. 예를 들어 10진법이 아니라 9진법을 쓴다고 가정하고 계산 문제를 풀게 해본 연구입니다. 이런 접근으로 문제 특화적인 어떤 규칙이나 패턴이 아니라 추상적인, 범용적으로 문제를 푸는 메커니즘이 있는지를 평가해볼 수 있겠죠. 대체로 성능이 휙휙 떨어집니다. 오히려 랜덤 수준으로 붕괴하지 않는 경우가 꽤 있다는 것이 더 놀랍기도 하네요.
#evaluation #llm
https://arxiv.org/abs/2307.02628
SkipDecode: Autoregressive Skip Decoding with Batching and Caching for Efficient LLM Inference (Luciano Del Corro, Allie Del Giorno, Sahaj Agarwal, Bin Yu, Ahmed Awadallah, Subhabrata Mukherjee)
early exit이 llm 판에 등장했군요. 그런데 전통적인 early exit과는 달리 배치 처리 등을 고려해서, 하위 레이어에서 exit 하는 대신 하위 레이어를 skip하고 상위 레이어를 쓰는 방식입니다. 추가적으로 토큰 단위로 쓰는 레이어의 수가 monotonic 하게 감소하는 세팅을 고정해놓네요. 흥미롭긴 한데 성능 변화를 감안해서 최적화하기가 까다로울 것 같군요. 늘 그렇지만 큰 모델을 최적화하다가 그냥 작은 모델을 쓰는 것이 나은 상황이 되어버리는 것을 조심해야겠죠.
#efficiency
https://arxiv.org/abs/2307.02770
Censored Sampling of Diffusion Models Using 3 Minutes of Human Feedback (TaeHo Yoon, Kibeom Myoung, Keon Lee, Jaewoong Cho, Albert No, Ernest K. Ryu)
diffusion 모델에 대한 censoring. censoring이라고 표현했지만 human feedback을 샘플링에 결합하는 방법이라고 생각할 수 있지 않을까 싶네요. 사람의 피드백 정보를 기반으로 reward model을 만들고 이 모델을 샘플링 과정에 결합하는 방법입니다.
#ddpm
https://arxiv.org/abs/2307.03170
Focused Transformer: Contrastive Training for Context Scaling (Szymon Tworkowski, Konrad Staniszewski, Mikołaj Pacek, Yuhuai Wu, Henryk Michalewski, Piotr Miłoś)
knn + long context 상황에서 distractor에 영향을 받는 것을 방지하기 위한 학습 배치 구성이네요. 구체적으로는 배치에서 문서의 이전 context와 현 context를 임베딩하고, 나머지 다른 문서들도 임베딩한 다음 다른 문서들에서 나온 임베딩을 distractor로 쓰는 방식입니다. 배치 내에서 처리하므로 학습 가능해서 query-key가 distractor에 대해 강인해진다는 주장을 하네요.
정작 knn은 논문의 메인 모델인 longllama에는 안 썼으니 이 배치 구성이 요점이라고 할 수 있지 않을까 싶네요. pass key retrieval을 가뿐히 256k 까지 성공했는데...세팅 자체가 pass key retrieval에 좀 유리한 것은 아닐까 싶습니다.
#efficient_attention
https://arxiv.org/abs/2307.03172
Lost in the Middle: How Language Models Use Long Contexts (Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang)
document qa를 시켜보면 long context 모델의 경우에도 관련된 정보가 들어있는 문서의 위치에 따라 성능이 많이 달라진다는 연구. 아예 앞에 있거나 뒤에 있는 경우에 성능이 높네요. 인코더-디코더 모델과 디코더 모델을 비교한 것을 보면 autoregressive한 특성도 영향을 미치는 것 같습니다.
위에서 소개한 논문과 조합해서 생각해보면 distractor에 대해 강인한 특성을 주는 것이 long context를 실질적으로 활용하는 것에 중요할 수 있겠다는 생각이 드네요.
#lm #transformer
https://arxiv.org/abs/2307.03025
Style Over Substance: Evaluation Biases for Large Language Models (Minghao Wu, Alham Fikri Aji)
llm 평가에 슬슬 크라우드워커를 쓰는 경우가 생기고 있는데, 사람에게 평가를 시키면 사실 관계 같은 것보다는 스타일에 영향을 더 받아서 GPT-4만 못할 수 있다는 결과. 사실 관계 문제 이상으로 elo rating의 차이를 보면 크라우드워커의 평가가 썩 좋지 않았던 것으로 보이기도 합니다.
이건 평가의 문제이긴 하지만, OpenAI나 Anthropic이 괜히 데이터 구축에 엄청난 공을 들인 것이 아니겠죠.
사실 전반적으로 ML 논문에 사람의 평가 결과를 싣는 경우가 꽤 있는데 그 과정에 문제가 많다는 이야기는 계속 있었죠.
#llm #evaluation
https://openai.com/blog/introducing-superalignment
OpenAI가 보유 연산력의 20%를 투입해서 초지능에 대한 alignment 기술을 4년 내로 달성하기 위한 팀을 만들었군요. 구체적으로 자동화된 alignment 연구자를 만드는 것이 목표라고 합니다.
AGI가 아니라 초지능이 목표인 이유는 이후 몇 년 동안 어떤 수준의 기술적 진전이 있을지 모르기 때문에 훨씬 더 높은 목표를 잡은 것이라고 하네요.
OpenAI가 갖고 있을 연산력의 규모를 생각하면 20%는 alignment에 대해서는 굉장히 큰 규모로 보이네요. 뭐 반대로 나머지 80%는 capability에 쓰겠다는 의미이기도 하겠습니다만.
https://arxiv.org/abs/2307.02768
Training Models to Generate, Recognize, and Reframe Unhelpful Thoughts (Mounica Maddela, Megan Ung, Jing Xu, Andrea Madotto, Heather Foran, Y-Lan Boureau)
https://arxiv.org/abs/2307.03381
Teaching Arithmetic to Small Transformers (Nayoung Lee, Kartik Sreenivasan, Jason D. Lee, Kangwook Lee, Dimitris Papailiopoulos)
transformer로 arithmetic을 어떻게 학습시켜야 generalizable한가에 대한 연구. 일반적으로 하는 것처럼 123 + 456 = 579 같이 학습시키는 것은 suboptimal하다고 보고 있네요. 결과 자릿수를 뒤집어 123+456 = 975와 같이 하는 것만으로도 성능이 갑자기 뛰어오릅니다. 덧셈 알고리즘 자체가 뒤에서부터 시작한다는 것을 생각하면 자연스럽죠.
그러나 이런 트릭을 모든 연산에 대해서 쓸 수는 없고...그래서 cot 기반의 scratchpad를 사용하는 방법을 고려합니다. 이걸로 곱셉 뿐만 아니라 sin이나 sqrt 계산까지 해냈네요.
계속 지적되어온 autoregressive 모델의 planning과 working memory 문제를 생각하게 되네요. 이 문제를 돌파할 수 있다면 많은 것이 풀릴 듯 한데...그럴 수 있는 방법을 상상하기가 쉽지 않네요.
#transformer