2024년 1월 1일
https://arxiv.org/abs/2312.16682
Some things are more CRINGE than others: Preference Optimization with the Pairwise Cringe Loss (Jing Xu, Andrew Lee, Sainbayar Sukhbaatar, Jason Weston)
DPO 등에 대한 대안적 방법. Negative에 대해 Unlikelihood를 해버리면 다른 어떤 토큰들의 확률이 높아지는가에 대해서는 통제가 되지 않죠. 그래서 확률이 높은 Top-K 토큰을 Positive로 설정 학습하는 방법입니다. 추가적으로 Positive와 Negative 사이의 마진이 작을 때에만 Loss를 적용하는 것과 Reward Model을 사용해 반복적으로 학습하는 방법을 시도했네요.
#rlhf
https://arxiv.org/abs/2312.17742
Learning Vision from Models Rivals Learning Vision from Data (Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola)
ImageNet 클래스 같은 컨셉들을 기반으로 LLM을 사용해 캡션을 만들고, 이 캡션을 기반으로 이미지를 생성한 다음 Self Supervised Learning Objective들을 결합해서 학습시키면 CLIP이나 DINO에 준하는 퍼포먼스를 낼 수 있다는 결과네요. 사실 Diffusio이 나온 초기부터 Diffusion으로 생성한 샘플을 이미지 모델 학습용으로 사용할 수 있다는 결과가 있었는데...이런 결과들을 종합해보면 이미지 영역에서 합성 데이터는 꽤 가능한 접근으로 보이네요.
#synthetic-data #vision-language #image_generation #captioning #representation
https://arxiv.org/abs/2312.17296
Structured Packing in LLM Training Improves Long Context Utilization (Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Henryk Michalewski, Łukasz Kuciński, Piotr Miłoś)
LLM 학습에 랜덤한 문서를 이어붙이는 것이 아니라 관련성 높은 문서를 이어붙이는 것으로 성능을 높이겠다는 아이디어. In-context Pretraining (https://arxiv.org/abs/2310.10638) 과 비슷하군요. 여기서는 Top-K개를 사용해서 관련성이 다양한 문서를 이어붙이는 시도를 했다는 것이 차이겠네요.
사실 가끔 관련 없는 문서도 붙이는 쪽이 모델에 필요할 수도 있겠지만, 여하간 관련성 높은 문서들을 사용해 시퀀스를 구성하는 것은 꽤 좋은 방법으로 보입니다.
#pretraining #llm #retrieval
https://arxiv.org/abs/2312.17120
Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math (Zengzhi Wang, Rui Xia, Pengfei Liu)
OpenWebMath (https://arxiv.org/abs/2310.06786) 와 비슷한 수학 코퍼스. 그러나 OpenWebMath와는 달리 웹 페이지 뿐만 아니라 서적이나 arXiv 등 더 다양한 소스에서 10B 토큰을 모았네요.
서적이나 논문 등에서 Common Crawl에 잡히지 않는 데이터를 수집하고 적절하게 포매팅하는 것은 아주 중요한 작업이죠. 집중해서 계속 해나가야할 문제라는 생각이 듭니다.
#corpus
https://arxiv.org/abs/2312.17172
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action (Jiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi)
이미지, 텍스트, 오디오 등을 입력으로 받아 이미지, 텍스트, 오디오, 로봇 액션 같은 출력이 가능한 인코더-디코더 모델. 텍스트 외의 모달리티에 대해 2D RoPE를 사용하고, QK Normalization과 Scaled Cosine Attention 같은 학습 안정화 트릭들, UL2 Objective, Dynamic Packing을 사용한 학습 효율성 개선 등 전반적으로 흥미로운 부분들이 많습니다.
#multimodal #image_generation #audio_generation
https://arxiv.org/abs/2312.16903
Spike No More: Stabilizing the Pre-training of Large Language Models (Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki)
트랜스포머의 학습 불안정성을 Weight와 Embedding의 Scale을 줄이는 것으로 해결한다는 아이디어. Attention Score의 Normalizer sqrt(d)를 키우는 것으로 학습을 더 안정하게 할 수 있다는 트릭도 그렇고 출력의 크기가 학습에 꽤 영향을 미치는 것이 아닌가 싶네요.
Tero Karras가 하는 작업처럼 (https://arxiv.org/abs/2312.02696) 트랜스포머도 마음 먹고 튜닝하면 의외의 개선점들이 꽤 있을 수 있지 않을까 싶습니다.
#transformer #initialization #normalization
https://arxiv.org/abs/2312.17661
Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models (Yuqing Wang, Yun Zhao)
Gemini Pro에 대한 상식(Commonsense) 위주의 평가. 다들 Gemini를 평가하는데 관심이 꽤 높군요. Gemini Ultra가 공개되면 또 재미있어지겠네요.
#benchmark