2023년 7월 3주차
https://arxiv.org/abs/2307.04725
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai)
diffusion animation 모델은 처음 보는데 재미있네요. sd 모델을 들고와서 영상 입출력이 가능하도록 추가 모듈을 끼워넣고, dreambooth나 lora 같은 personalized 모델에 이 추가 모듈을 가져와서 영상 생성을 하는 방식이군요.
https://animatediff.github.io/
#ddpm
https://arxiv.org/abs/2307.04657
BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset (Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang)
https://arxiv.org/abs/2307.04684
FreeDrag: Point Tracking is Not You Need for Interactive Point-based Image Editing (Pengyang Ling, Lin Chen, Pan Zhang, Huaian Chen, Yi Jin)
https://arxiv.org/abs/2307.04721
Large Language Models as General Pattern Machines (Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng)
https://arxiv.org/abs/2307.04686
VampNet: Music Generation via Masked Acoustic Token Modeling (Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo)
https://arxiv.org/abs/2307.05663
Objaverse-XL: A Universe of 10M+ 3D Objects (Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan, Christian Laforte, Vikram Voleti, Samir Yitzhak Gadre, Eli VanderBilt, Aniruddha Kembhavi, Carl Vondrick, Georgia Gkioxari, Kiana Ehsani, Ludwig Schmidt, Ali Farhadi)
https://arxiv.org/abs/2307.04964
Secrets of RLHF in Large Language Models Part I: PPO (Rui Zheng, Shihan Dou, Songyang Gao, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Limao Xiong, Lu Chen, Zhiheng Xi, Yuhao Zhou, Nuo Xu, Wenbin Lai, Minghao Zhu, Rongxiang Weng, Wensen Cheng, Cheng Chang, Zhangyue Yin, Yuan Hua, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang)
바이트댄스에서 RLHF 상황에서 PPO에 대해 정리하고 몇 가지 가능한 옵션들을 테스트해봤군요. 일반적인 세팅과 크게 다르지는 않는데 reward normalization이 주요한 차이일 것 같네요.
코드 공개도 했으니 코드 체크를 다시 한 번 해봐야겠습니다.
그나저나 Part I이라서 Part II에는 그러면 무슨 이야기를 하려고 하는 건가...싶었는데 좋은 reward model이 없는 상황에 대한 것이라고 하네요. 어쩐지 이쪽이 더 궁금하군요.
#alignment #reinforcement_learning
https://arxiv.org/abs/2307.06857
Self-consistency for open-ended generations (Siddhartha Jain, Xiaofei Ma, Anoop Deoras, Bing Xiang)
https://arxiv.org/abs/2307.05695
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates (Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky)
아예 lora로 scratch에서부터 학습시키는 것도 괜찮지 않을까 싶었는데 그 방법이 나왔네요. 그런데 그냥 lora로만 학습시키면 low rank로 제약이 걸리니 일정 스텝마다 기본 weight를 lora로 학습된 weight로 치환하고 다시 lora를 리셋해서 학습하는 방법입니다. 재미있네요.
https://arxiv.org/abs/2108.06098
요새 hadamard product로 lora의 rank를 뻥튀기시키는 방법도 나왔던데 이런 것과 결합하면 또 재미있지 않을까 싶습니다.
#efficient_training
https://twitter.com/AnthropicAI/status/1678759122194530304?s=20
Claude 2가 나왔습니다.
https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
테크니컬 리포트...조차 아니고 모델 카드가 나왔네요. Anthropic 답게 주로 안전성에 대한 언급이 많습니다. 유행이 된 GRE 점수 같은 것도 있긴 하네요.
흥미로운 건 Helpful, Honest, and Harmless eval에서 human preference로 학습된 모델보다 5 shot LM이 파라미터 규모가 충분히 커지면 더 나아진다는 것(대략 200B)이네요.
추가로 long context도 눈에 띕니다. 100K를 공개했었는데 200K까지 확장했군요. long context를 보이는 방식으로 각 토큰 위치별 loss의 평균을 내고 power law fit을 했습니다. 생각해보면 간단하게 해볼 만한 좋은 방법인 것 같은데 이런 플롯을 그리는 걸 잘 보진 못했네요.
https://twitter.com/OfirPress/status/1679004167980064769?s=20
https://arxiv.org/abs/2307.06290
Instruction Mining: High-Quality Instruction Data Selection for Large Language Models (Yihan Cao, Yanbin Kang, Lichao Sun)
https://arxiv.org/abs/2307.06440
No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models (Jean Kaddour, Oscar Key, Piotr Nawrot, Pasquale Minervini, Matt J. Kusner)
트랜스포머의 효율적인 학습을 위한 방법들을 비교. 최종적으로 결국 베이스라인과 비슷비슷하다는 건 어쩔 수 없고...그나마 학습 가속을 보이는 것은 layer stacking, 레이어 수가 작은 모델을 더 많은 모델로 복붙하는 접근이네요. 학습 속도를 한 두 배 정도 빠르게 만들 수 있으면 엄청날 것 같은데...과연 그런 방법이 나올 수 있을지.
#efficient_training
https://arxiv.org/abs/2307.06304
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution (Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lučić, Neil Houlsby)
aspect ratio를 보존하면서 vit 학습. 패딩 없이 이미지 패치들을 1d로 쭉 붙이고 이미지 경계를 침범하지 않도록 attention masking, 그리고 각 이미지별로 pooling 하는 방법입니다. lm 학습에 쓰이는 방법을 채택한 것이라고 할 수 있겠네요.
구글 딥마인드에서 했으니 Gemini 학습용으로 테스트해본 것이겠네요.
#vit
https://www.theverge.com/23778745/demis-hassabis-google-deepmind-ai-alphafold-risks
https://arxiv.org/abs/2307.06945
In-context Autoencoder for Context Compression in a Large Language Model (Tao Ge, Jing Hu, Xun Wang, Si-Qing Chen, Furu Wei)
long context 대응을 위한 방법. lm을 인코더로 삼아 context를 밀어넣고 몇 개 토큰으로 압축한 다음 그걸 lm에 입력하는 방법. 계속 나오는 context를 압축하려는 시도이긴 하죠. 일단 저는 토큰을 그대로 쓰는 것보다는 임베딩을 쓰는 쪽이 맞긴 맞지 않나...싶습니다.
MS에서 나왔는데 이쪽에서도 정말 온갖 방법을 다 해보고 있다는 생각이 드네요. Anthropic이 100K를 찍는 걸 보면 사실 이 문제에 대응하는 정석적인 방법은 이미 알음알음 알고 있을 것 같은데...
#llm