2023년 2월 3주차
https://arxiv.org/abs/2302.05872
I$^2$SB: Image-to-Image Schrödinger Bridge (Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, Anima Anandkumar)
gan에서 optimal transport로 묘기하던 것이 diffusion의 등장과 함께 지나가는가 했더니 이젠 optimal transport와 sde를 결합한 묘기가 등장하고 있네요. image restoration에 schrodigner bridge를 적용한 방법인데 수학을 다 걷어내고 나면 핵심은 프로세스의 양 끝단, 입력과 출력 사이의 중간 지점을 샘플링하고 이 샘플을 모델에 통과시켜 입력과 출력의 차이를 예측하게 하는 방식으로 보입니다.
흥미로운 건 이 접근을 쓰니 super resolution 같은 경우엔 low res 이미지에서 점진적으로 high res로 이미지가 향상되는 프로세스가 나타난다는 것이네요.
#ddpm #sde #image_restoration
https://arxiv.org/abs/2302.06608
3D-aware Blending with Generative NeRFs (Hyunsu Kim, Gayoung Lee, Yunjey Choi, Jin-Hwa Kim, Jun-Yan Zhu)
3d generative 모델에서 이미지 블렌딩하기. 2d 이미지처럼 블렌딩하면 2d 이미지를 위에 갖다 붙인 느낌이 나니 3d aware한 블렌딩이 필요하겠네요. 일단 이미지를 3d 구조를 활용해 align한 다음 이 이미지들의 perceptual loss와 density 차이의 loss를 사용해 latent code를 최적화하는 방식이군요. 흥미롭네요.
#image_editing #3d_generative_model
https://arxiv.org/abs/2302.06646
Simple Hardware-Efficient Long Convolutions for Sequence Modeling (Daniel Y. Fu, Elliot L. Epstein, Eric Nguyen, Armin W. Thomas, Michael Zhang, Tri Dao, Atri Rudra, Christopher Ré)
Flash Attention으로 유명한 팀의 state space model 연구. ssm 효율적인 구현에는 결국 convolution을 사용하니 처음부터 convolution을 쓰면 되지 않을까 하는 아이디어. 적절하게 convolution kernel을 regularize 해주면 가능하다는 결과군요. 추가로 Flash Butterfly라는 최적화된 커널도 만들었습니다.
결과는 흥미롭네요. 역시 long range 문제에서 성능이나 효율성에 강점이 있고요. state space model은 scaling 연구가 나오면 채택율이 높아질 것 같은데 scaling 실험 자체를 할 수 있는 자원이 있는 곳이 드무니...아쉽네요.
#state_space_model
https://arxiv.org/abs/2302.06675
Symbolic Discovery of Optimization Algorithms (Xiangning Chen, Chen Liang, Da Huang, Esteban Real, Kaiyuan Wang, Yao Liu, Hieu Pham, Xuanyi Dong, Thang Luong, Cho-Jui Hsieh, Yifeng Lu, Quoc V. Le)
구글 쪽에서 또 optimizer 탐색을 했네요. (이전에 한 번 했던 게 맞을까요? 이런 작업을 워낙 많이 해서 헷갈리네요.) 개인적으로 흥미로운 부분은 찾은 알고리즘이 상당히 간단하고 weight decay를 제외하면 weight update는 sign이라는 것이네요.
#optimizer #search
https://arxiv.org/abs/2302.07388
Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models (Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro)
https://arxiv.org/abs/2302.07400
Score-based Diffusion Models in Function Space (Jae Hyun Lim, Nikola B. Kovachki, Ricardo Baptista, Christopher Beckham, Kamyar Azizzadenesheli, Jean Kossaifi, Vikram Voleti, Jiaming Song, Karsten Kreis, Jan Kautz, Christopher Pal, Arash Vahdat, Anima Anandkumar)
유클리드 공간에서의 diffusion을 넘어 함수 공간에서의 diffusion.
https://arxiv.org/abs/2302.07867
Learning Performance-Improving Code Edits (Aman Madaan, Alexander Shypula, Uri Alon, Milad Hashemi, Parthasarathy Ranganathan, Yiming Yang, Graham Neubig, Amir Yazdanbakhsh)
코드를 작성해주는 것도 가능하지만 코드를 수정해서 최적화해주는 모델을 만들면 어떨까라는 아이디어군요. 이 용도의 데이터셋을 구성해서 파인 튜닝하거나 in-context learning을 했더니 25% 케이스에서 2.5배의 속도 향상을 보여줬다는 결과입니다.
#in_context_learning #llm
https://arxiv.org/abs/2302.07979
PRedItOR: Text Guided Image Editing with Diffusion Prior (Hareesh Ravi, Sachin Kelkar, Midhun Harikumar, Ajinkya Kale)
LDM 기반 이미지 에디팅이군요. 일단 이미지의 clip embedding에 prior를 사용해서 텍스트 에디팅을 적용한 뒤 원 이미지를 적절한 강도의 reverse ddim으로 latent로 전환해서 다시 샘플링하는 방식이군요.
요즘 이런 연구의 평가 기준은 커뮤니티에 받아들여질지 아닐지가 아닐까 하는 생각도 듭니다.
#image_editing #ddpm
https://arxiv.org/abs/2302.07459
The Capacity for Moral Self-Correction in Large Language Models (Deep Ganguli, Amanda Askell, Nicholas Schiefer, Thomas Liao, Kamilė Lukošiūtė, Anna Chen, Anna Goldie, Azalia Mirhoseini, Catherine Olsson, Danny Hernandez, Dawn Drain, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jackson Kernion, Jamie Kerr, Jared Mueller, Joshua Landau, Kamal Ndousse, Karina Nguyen, Liane Lovitt, Michael Sellitto, Nelson Elhage, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Sandipan Kundu, Saurav Kadavath, Scott Johnston, Shauna Kravec, Sheer El Showk, Tamera Lanham, Timothy Telleen-Lawton, Tom Henighan, Tristan Hume, Yuntao Bai, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Christopher Olah, Jack Clark, Samuel R. Bowman, Jared Kaplan)
Anthropic의 LLM을 RLHF로 학습시켰을 때 답변의 윤리성을 분석한 연구네요. 22B에서 비윤리적인 답변을 피하는 경향이 발생하기 시작하고 모델이 커지고 RLHF가 누적되면서 점진적으로 향상된다고 합니다. 사실상 instruct gpt 계통 모델의 크기의 최저선을 긋는 결과가 아닐까 싶네요.
#instruct #llm #ethics
https://arxiv.org/abs/2302.08509
3D-aware Conditional Image Synthesis (Kangle Deng, Gengshan Yang, Deva Ramanan, Jun-Yan Zhu)
http://www.cs.cmu.edu/~pix2pix3D/
자그마치나 pix2pix3D! 2d label map에서 3d 생성이 가능하다는 건 재미있네요. 다만 이 사례는 3d라기보다는 양각된 이미지처럼 보이긴 하는군요.
별개로 3d 모델로 가니 sticking이 더 두드러지게 눈에 띄긴 하네요. 이쪽이 해소가 될 수 있을지 궁금하긴 합니다.
#3d_generative_model
https://arxiv.org/abs/2302.08215
Aligning Language Models with Preferences through f-divergence Minimization (Dongyoung Go, Tomasz Korbak, Germán Kruszewski, Jos Rozen, Nahyeon Ryu, Marc Dymetman)
https://arxiv.org/abs/2302.08005
Decoupled Model Schedule for Deep Learning Training (Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang, Yida Wang)
AWS 쪽에서 나온 학습 최적화 프레임워크군요. torch.fx 기반으로 operator fusion, 커널 갈아끼우기, tensor parallelism, pipeline parallelism 등의 적용을 자동 최적화하기 위한 도구네요. https://github.com/awslabs/slapo 코드도 공개되어 있습니다. 이쪽 연구들은 코드량을 같이 기술하던데 3k 정도면 그래도 동종 업계에서는 가장 작은 편이군요.
그래프를 편집하는 방식의 최적화와 모듈을 갈아끼우는 방식의 최적화 중 어느 쪽이 더 효과적이고 편리한가의 문제는 중요한 디자인 결정인 것 같긴 합니다.
#efficient_training #distributed_training
https://arxiv.org/abs/2302.08113
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation (Omer Bar-Tal, Lior Yariv, Yaron Lipman, Tali Dekel)
여러 diffusion process를 결합해 하나의 diffusion process로 구성하는 방법. 이미지에 대한 변환, 예를 들어 특정 영역에 대한 크롭에 대한 diffusion step과 전체 이미지에 대한 diffusion의 크롭이 일치하도록 최적화하는 방식이네요.
결과물이 전위적이네요. 학습이 필요하지 않은 방법이기도 해서 뭔가 응용이 생기지 않을까 싶습니다.
#image_editing #ddpm
https://arxiv.org/abs/2302.08582
Pretraining Language Models with Human Preferences (Tomasz Korbak, Kejian Shi, Angelica Chen, Rasika Bhalerao, Christopher L. Buckley, Jason Phang, Samuel R. Bowman, Ethan Perez)
alignment reward를 파인튜닝이 아니라 프리트레이닝 시점부터 결합하는 것이 더 유리하지 않은가라는 연구. reward 모델로 계산한 스코어를 추가 condition으로 결합할 수도 있고 아니면 unlikelihood 같은 loss에 결합할 수도 있겠네요.
condition으로 결합하는 것은 얼마 전에 나왔던 https://arxiv.org/abs/2302.07388 와 유사하다고 할 수 있을 것 같네요. 이쪽이 더 다양한 활용 방법을 비교 분석했다고 할 수 있을 듯 합니다. 다만...이쪽에서도 가장 강력한 방법은 condition 추가라고 보는 것 같네요.
#llm #instruct #alignment
https://arxiv.org/abs/2302.08007
Shared Microexponents: A Little Shifting Goes a Long Way (Bita Rouhani, Ritchie Zhao, Venmugil Elango, Rasoul Shafipour, Mathew Hall, Maral Mesmakhosroshahi, Ankit More, Levi Melnick, Maximilian Golub, Girish Varatkar, Lei Shao, Gaurav Kolhe, Dimitry Melts, Jasmine Klar, Renee L'Heureux, Matt Perry, Doug Burger, Eric Chung, Zhaoxia Deng, Sam Naghshineh, Jongsoo Park, Maxim Naumov)
마이크로소프트와 메타에서 나온 새로운 low precision 포맷이네요. 이전 같으면 어차피 하드웨어 지원이 없으면 못 쓰는데...정도로 생각했지만 지금 같이 대규모 추론과 학습이 필요한 상황에서 이 두 회사 레벨이라면 칩을 만드는 것도 가능하겠다 하는 생각이 드네요.
#quantization