2023년 2월 1주차
https://arxiv.org/abs/2302.00402
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video (Haiyang Xu, Qinghao Ye, Ming Yan, Yaya Shi, Jiabo Ye, Yuanhong Xu, Chenliang Li, Bin Bi, Qi Qian, Wei Wang, Guohai Xu, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou)
vision/text/image-text/video-text 통합 모델이군요.
#multimodal
https://arxiv.org/abs/2302.01318
Accelerating Large Language Model Decoding with Speculative Sampling (Charlie Chen, Sebastian Borgeaud, Geoffrey Irving, Jean-Baptiste Lespiau, Laurent Sifre, John Jumper)
딥 마인드에서 이런 작업을 했군요. llm으로 토큰 한 번 뽑는 시간과 K개 토큰에 대한 logit을 계산하는 시간이 비슷하니, 작은 lm으로 일단 K개 토큰을 뽑고 그 K개 토큰을 llm으로 평가해서 쓸만한 토큰 subsequence를 rejection sampling으로 뽑는 방법입니다. TPU에서 대략 2배 정도의 속도 향상이 있었군요.
#autoregressive_model #decoding
https://arxiv.org/abs/2302.01329
Dreamix: Video Diffusion Models are General Video Editors (Eyal Molad, Eliahu Horwitz, Dani Valevski, Alex Rav Acha, Yossi Matias, Yael Pritch, Yaniv Leviathan, Yedid Hoshen)
오...이거 재미있네요.
#video #image_editing
https://arxiv.org/abs/2302.01327
Dual PatchNorm (Manoj Kumar, Mostafa Dehghani, Neil Houlsby)
앞으로 vit patch embedding 전후에는 layer norm을 끼워넣는 것으로.
#normalization #vit
https://arxiv.org/abs/2302.01226
Factor Fields: A Unified Framework for Neural Fields and Beyond (Anpei Chen, Zexiang Xu, Xinyue Wei, Siyu Tang, Hao Su, Andreas Geiger)
implicit representation들을 포괄하는 프레임워크를 만든 후 (좌표 변환, feature representation, 그리고 이 representation의 곱에 대한 projection) 이 프레임워크에서 새로운 형태의 모델을 만들었네요. instantngp의 정신 나간 학습 속도에는 당해내기 어렵지만 퀄리티나 few-shot transfer 등에서의 결과는 흥미롭군요.
#implicit_representation
https://arxiv.org/abs/2302.00923
Multimodal Chain-of-Thought Reasoning in Language Models (Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola)
multimodal reasoning을 할 수 있도록 multimodal chain of thought가 가능한 모델을 구성했다는 느낌이네요.
#multimodal #vision-language
https://arxiv.org/abs/2302.01973
Measuring The Impact Of Programming Language Distribution (Gabriel Orlanski, Kefan Xiao, Xavier Garcia, Jeffrey Hui, Joshua Howland, Jonathan Malmaud, Jacob Austin, Rishah Singh, Michele Catasta)
https://arxiv.org/abs/2302.01918
PyGlove: Efficiently Exchanging ML Ideas as Code (Daiyi Peng, Xuanyi Dong, Esteban Real, Yifeng Lu, Quoc V. Le)
머신 러닝 모델 개발에서 발생하는 수많은 변경과 실험에 대해 대응할 수 있는 코드를 어떻게 만들 것인가군요. 예를 들어 resnet의 conv를 전부 dw conv로 바꾸고 싶다면 어떻게 할 것인가? 같은 문제를 생각해볼 수 있겠습니다. 여기서 제안하는 것은 symbolic programming과 패치 기반 수정이군요.
여기에 대한 대안이 있는가? 라고 하면 전 dependency injection과 강력한 configuration system 기반 설계가 아닐까 합니다. 서로 장단이 있을 것 같은데 좀 더 생각해봐야겠네요. 여하간 ML 실험과 개발에 맞는 프레임워크의 확립이 요청되는 시점이라고 생각합니다.
파이토치 쪽에서는 torch.fx로 그래프를 패치하는 방법을 생각해볼 수 있겠네요.
#mlops
https://arxiv.org/abs/2302.02088
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis (Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu)
nerf 쪽에서는 요즘 공간 음향 쪽에 대한 연구가 종종 나오네요.
https://liangsusan-git.github.io/project/avnerf/
#nerf
https://arxiv.org/abs/2302.02060
Representation Deficiency in Masked Language Modeling (Yu Meng, Jitin Krishnan, Sinong Wang, Qifan Wang, Yuning Mao, Han Fang, Marjan Ghazvininejad, Jiawei Han, Luke Zettlemoyer)
mlm에서 mask 토큰을 쓰면 mask 토큰에 대해 상당한 표현력을 쓰기 때문에 손해가 발생하고, 그러니 mask 토큰 없는 objective를 쓰면 성능 향상이 있다는 보고. 이런 문제를 태클하는 건 좀 오랜만에 보는 것이긴 하네요. (다들 autoregressive 모델을 하러 갔다 보니.)
#mlm