2023년 12월 12일
https://arxiv.org/abs/2312.06585
Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models (Avi Singh, John D. Co-Reyes, Rishabh Agarwal, Ankesh Anand, Piyush Patil, Peter J. Liu, James Harrison, Jaehoon Lee, Kelvin Xu, Aaron Parisi, Abhishek Kumar, Alex Alemi, Alex Rizkowsky, Azade Nova, Ben Adlam, Bernd Bohnet, Hanie Sedghi, Igor Mordatch, Isabelle Simpson, Izzeddin Gur, Jasper Snoek, Jeffrey Pennington, Jiri Hron, Kathleen Kenealy, Kevin Swersky, Kshiteej Mahajan, Laura Culp, Lechao Xiao, Maxwell L. Bileschi, Noah Constant, Roman Novak, Rosanne Liu, Tris Warkentin, Yundi Qian, Ethan Dyer, Behnam Neyshabur, Jascha Sohl-Dickstein, Noah Fiedel)
네...모두가 예상하고 기대하던 방향의 결과가 나왔군요. ReST (https://arxiv.org/abs/2308.08998) 기반으로 바이너리 리워드를 줄 수 있는 MATH, APPS에 대하 튜닝해본 시도입니다. 여러 이터레이션을 돌릴 수 있는 것은 아닌데 (이터레이션에 따라 성능이 감소합니다.) 사람이 작성한 솔루션으로 튜닝하는 것보다 성능이 더 나을 수 있다는 것을 보였습니다. 헝가리 고교 수학 시험이나 Big Bench 과제들에 대한 Transfer도 가능했군요. 이런 형태로 리워드를 줄 수 있는 과제들을 많이 세팅하면 모델의 전반적인 추론 능력 향상 등을 기대할 수 있다는 증거로 보이네요.
서치와 RL로 인간을 뛰어넘는 퍼포먼스를 낼 수 있지만 역시 문제는 리워드죠.
#synthetic-data #rl
https://arxiv.org/abs/2312.06663
CAD: Photorealistic 3D Generation via Adversarial Distillation (Ziyu Wan, Despoina Paschalidou, Ian Huang, Hongyu Liu, Bokui Shen, Xiaoyu Xiang, Jing Liao, Leonidas Guibas)
3D 생성은 퀄리티가 올라올 때까지 기다려보려고 했었는데 지금이 그 때인가 싶기도 하네요. 흥미롭게도 Triplane GAN 기반으로 diffusion 모델을 distillation 하는 방법이군요.
#3d_generative_model
https://arxiv.org/abs/2312.06647
4M: Massively Multimodal Masked Modeling (David Mizrahi, Roman Bachmann, Oğuzhan Fatih Kar, Teresa Yeo, Mingfei Gao, Afshin Dehghan, Amir Zamir)
애플에서도 간간히 논문이 눈에 띄는군요. Vision multitask에 대해 이미지 생성은 masked autoencoding으로 하고 시퀀스 생성은 autoregressive 학습을 시켰네요. 데이터셋은 pseudo labeling을 했습니다. 이미지 도메인에서는 Multitask, generative pretraining이 관심이 높아지는 듯 합니다. (너무 당연한 말일까요?)
#multimodal #non-autoregressive
https://arxiv.org/abs/2312.06662
Photorealistic Video Generation with Diffusion Models (Agrim Gupta, Lijun Yu, Kihyuk Sohn, Xiuye Gu, Meera Hahn, Li Fei-Fei, Irfan Essa, Lu Jiang, José Lezama)
https://walt-video-diffusion.github.io/
이미지/비디오에 대한 Causal 오토인코더를 학습시키고 그 위에 Window attention을 사용하는 latent diffusion transformer를 올렸군요.
#video_generation
https://arxiv.org/abs/2312.05328
Bad Students Make Great Teachers:Active Learning Accelerates Large-Scale Visual Understanding (Talfan Evans, Shreya Pathak, Hamza Merzic, Jonathan Schwarz, Ryutaro Tanno, Olivier J. Henaff)
작은, 이미 학습된 모델과 온라인으로 학습하는 모델 하나를 두고 loss 차이를 통해 샘플을 선정하는 방식으로 active learning. 학습한 모델한테는 쉽지만 학습 중의 모델에는 어려운 샘플은 가치가 높다는 것이고, 둘 모두에게 쉽거나 둘 모두에게 어려운(어쩌면 레이블 에러) 샘플은 가치가 낮다는 식입니다.
큰 모델과 별개로 작은 모델 두 개를 갖고 가야 하기 때문에 실제 연산 효율성이 높은가가 문제가 되긴 합니다만, 일단 작은 모델로 샘플을 뽑아놓으면 여러 번 쓸 수 있으니 전반적으로는 괜찮을까 싶기도 하네요.
논문에서도 언급하는 DoReMi (https://arxiv.org/abs/2305.10429) 도 그렇고 샘플링 분포나 커리큘럼 또한 중요한 요소인데 어떤 영향을 미치는지 충분히 알려져 있지 않으니 이건 직접 실험해서 결과를 축적해야만 커버할 수 있는 영역일 듯 싶네요. 요새 instruction 데이터를 프리트레이닝에 넣는 것을 넘어 프리트레이닝 종반에 집중적으로 배치하고 있는 게 아니냐는 이야기도 나오는데 여하간 중요한 노하우일 것 같습니다.
#curriculum #active_learning