2023년 9월 13일
https://x.com/suchenzang/status/1701615026648605095
https://x.com/suchenzang/status/1701747947191615697
Phi-1.5에 dataset contamination이 있을 수 있다는 Susan Zhang의 분석. 사실 Phi-1의 경우에는 contamination에 대해 언급하고 있긴 합니다만
1.5의 경우에는 데이터셋에 대해 더 감추고 있어서 불분명하죠. 그럴수록 dataset contamination을 언급하지 않는 결과는 믿지 말라는 이야기에 주의할 수밖에 없겠죠. https://x.com/suchenzang/status/1686832735716003840
개인적으로 저는 여기서 사용한 synthetic data 자체가 구조적으로 벤치마크에 유리한 점이 있지 않을까 싶습니다. instruction tuning이 벤치마크에 이점이 있는 것처럼요. 좋은 모델이 벤치마크에서 좋은 결과를 얻는다고 해서 그 역이 성립하는 것은 아니겠죠.
#dataset #benchmark
https://arxiv.org/abs/2309.06380
InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation (Xingchao Liu, Xiwen Zhang, Jianzhu Ma, Jian Peng, Qiang Liu)
small step distillation이 잘 되는 diffusion 모델 학습. diffusion의 궤도가 직선적일수록 더 작은 스텝으로 distill 하는 것이 잘 된다는 아이디어에서 시작해 기존 stable diffusion 모델의 trajectory를 직선화하는 학습 방법을 고안했습니다. 참 요즘 이런 접근들을 보면 낭만적이다 싶네요.
#diffusion #distillation
https://arxiv.org/abs/2309.05858
Uncovering mesa-optimization algorithms in Transformers (Johannes von Oswald, Eyvind Niklasson, Maximilian Schlegel, Seijin Kobayashi, Nicolas Zucchet, Nino Scherrer, Nolan Miller, Mark Sandler, Blaise Agüera y Arcas, Max Vladymyrov, Razvan Pascanu, João Sacramento)
transformer 내부에서 gradient descent가 발생할 수 있고 또 그렇다는 아이디어가 있었죠. (https://arxiv.org/abs/2212.07677) 이 논문에서는 in context learning 상황이 아니라 autoregressive 상황에서 이러한 최적화(mesa optimization)이 발생할 수 있는지를 분석합니다.
그런데 이게 좀 까다로운 게 causal mask가 있을 때는 online gradient descent가 발생해서 최적이 아니라는 연구가 얼마 전에 나왔었죠. (https://arxiv.org/abs/2308.06912) 그래서 여기서는 대안적인 알고리즘을 고안한 다음 이 알고리즘이 transformer 내부에서 나타날 수 있는지를 관찰했습니다. 거기에 이 mesa optimization 자체를 수행하는 레이어를 디자인하기도 했네요.
synthetic한 세팅에서 실험한 결과에서 제안된 알고리즘을 probing으로 확인했고, 이 synthetic한 모델이 synthetic한 few shot 과제에서 in context learning을 할 수 있다는 것을 발견했네요. 덤으로 induction head도 재발견했습니다. (https://arxiv.org/abs/2209.11895)
자연어에 대해서도 실험해봤는데 분명하진 않지만 이런 optimization이 자연어 autoregressive 모델에서도 발생하고 있지 않을까? 하는 추측을 하고 있네요. 굉장히 흥미롭습니다.
#transformer #in_context_learning #autoregressive_model
https://arxiv.org/abs/2309.06180
Efficient Memory Management for Large Language Model Serving with PagedAttention (Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica)
paged attention 논문이 나왔군요. 사실 저는 최근에 보기 시작했는데 볼수록 유용한 도구인 것 같다는 생각이 드네요. 트랜스포머 때문에 이렇게까지 해야 하다니라는 생각도 들긴 합니다만.
#efficiency
https://arxiv.org/abs/2309.06275
Re-Reading Improves Reasoning in Language Models (Xiaohan Xu, Chongyang Tao, Tao Shen, Can Xu, Hongbo Xu, Guodong Long, Jian-guang Lou)
causal lm이라 bidirectionality가 없다면 입력을 한 번 더 넣어주면 된다는 아이디어군요. 질문을 한 번 더 읽어보라면서 질문을 반복하는 방법입니다. 솔직히 재미있네요.
#prompt #in_context_learning
https://arxiv.org/abs/2309.05950
Language Models as Black-Box Optimizers for Vision-Language Models (Samuel Yu, Shihong Liu, Zhiqiu Lin, Deepak Pathak, Deva Ramanan)
llm으로 프롬프트 최적화를 시도한 결과가 하나 더 나왔군요. (https://arxiv.org/abs/2309.03409)
#prompt
https://arxiv.org/abs/2309.05793
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models (Li Chen, Mengyi Zhao, Yiheng Liu, Mingxu Ding, Yangyang Song, Shizun Wang, Xu Wang, Hao Yang, Jing Liu, Kang Du, Min Zheng)
얼굴 특화 image customization 모델. 이쪽 수요가 많은 것 같긴 하네요. 사실 gan 시절부터 얼굴이 가장 인기 있는 주제 중 하나이긴 했죠.
https://photoverse2d.github.io/
#image_editing