2023년 1월 4주차
https://arxiv.org/abs/2301.09515
StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis (Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila)
text2img gan을 한 번 팠군요. 샘플 퀄리티 향상도 있긴 하지만 diffusion 쪽에는 미치지 못하는 것 같고 sampling speed를 좀 더 강조하긴 했습니다. 그렇지만 여러모로 대세에 영향을 미치기는 쉽지 않을 것 같네요.
#gan #text2img
https://arxiv.org/abs/2301.09595
Zorro: the masked multimodal transformer (Adrià Recasens, Jason Lin, Joāo Carreira, Drew Jaegle, Luyu Wang, Jean-baptiste Alayrac, Pauline Luc, Antoine Miech, Lucas Smaira, Ross Hemsley, Andrew Zisserman)
video-audio multimodal 모델이군요. 핵심 포인트는 masked attention을 사용해 video only/audio only/fused representation을 만드는 쪽입니다.
#multimodal #video #audio
https://arxiv.org/abs/2301.10226
A Watermark for Large Language Models (John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein)
최근에는 이렇게 vocab set을 제한하는 방식으로 watermark를 하는 방법이 나오기도 했죠.
https://twitter.com/tomgoldsteincs/status/1618287665006403585
#llm
https://arxiv.org/abs/2301.11305
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature (Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn)
lm에서 생성된 텍스트를 어떻게 탐지할 것인가가 이제 중요한 문제가 됐네요. 이 논문의 가정은 lm이 생성한 텍스트는 사람이 쓴 텍스트와는 달리 perturbation에 따라 probability estimate가 크게 달라질 것이라는 가정을 사용해서 탐지 알고리즘을 설계했습니다. 다만 결국 텍스트를 생성한 lm에 접근이 가능해야할 것 같다는 게 문제네요.
#llm
https://arxiv.org/abs/2301.11325
MusicLM: Generating Music From Text (Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank)
https://google-research.github.io/seanet/musiclm/examples/
text2music. 어느 정도의 결과인지는 다음 트윗 타래를 인용하는 것이 적절할 것 같네요.
https://twitter.com/keunwoochoi/status/1618809167573286912
#audio_generation
https://arxiv.org/abs/2301.10972
On the Importance of Noise Scheduling for Diffusion Models (Ting Chen)
이미지 크기에 따라 optimal한 noise schedule이 다른 것을 고려하기 위한 방법. noise schedule은 1 - t 같은 schedule로 고정한 다음 input pixel value에 대해 적절한 scaling factor를 잡는 방법을 사용했군요. sr 1 stage 모델로 1024px 이미지 생성에 성공했군요.
#ddpm
https://arxiv.org/abs/2301.11093
simple diffusion: End-to-end diffusion for high resolution images (Emiel Hoogeboom, Jonathan Heek, Tim Salimans)
이쪽도 pixel level diffusion으로 high resolution 생성을 커버하는 시도군요. noise schedule를 64x64를 기준으로 snr을 유지하도록 잡는 방법 (이쪽이 좀 더 근본 있어 보이네요), high frequency detail에 대해 loss가 집중되는 것을 막기 위한 multiscale loss, 16x16 feature map을 집중적으로 scaling, dwt나 strided conv를 사용해서 입력을 바로 downsampling, low resolution feature map에만 dropout 적용 등을 결합했습니다. pixel 레벨로 생성하고 distillation을 사용해서 괜찮은 속도 (TPU에서 0.4초 정도)를 낼 수 있다는 제안이네요.
#ddpm