2023년 12월 14일
https://openai.com/blog/axel-springer-partnership
OpenAI가 미디어 그룹 Axel Springer와 협약을 체결했군요. 뉴스 컨텐츠를 ChatGPT가 응답에 사용할 수 있게 하기 위함 + 뉴스 데이터를 학습에 사용하기 위함이라고 하는데 방점이 어디 찍혀있을지 궁금하네요. Springer라고 하면 학습에 사용하기 위함일 것이라고 생각할 것 같은데 말이죠.
https://deepmind.google/technologies/imagen-2/
구글이 Imagen 2를 공개했군요. 캡션을 반영하는 능력 향상, 사람의 미학적 선호에 따라 데이터셋을 재구성하여 샘플 퀄리티를 향상시키는 것과 같은 요즘 다들 해야하는(?) 작업에 더불어 스타일 conditioning 기능과 inpainting/outpainting 기능을 제공하고 워터마크를 삽입하는 것도 지원하는군요.
https://arxiv.org/abs/2312.04927
Zoology: Measuring and Improving Recall in Efficient Language Models (Simran Arora, Sabri Eyuboglu, Aman Timalsina, Isys Johnson, Michael Poli, James Zou, Atri Rudra, Christopher Ré)
https://hazyresearch.stanford.edu/blog/2023-12-11-zoology1-analysis
Attention과 State Space Model의 중요한 차이는 Attention에서는 각 토큰에서 필요한 정보를 이전 토큰들에서 찾아올 수 있다는 것이죠. 그 차이가 가장 잘 드러나는 것이 Associative Recall, 즉 컨텍스트에서 나타나는 패턴을 가져올 수 있는 능력이죠. Attention은 이걸 아주 쉽게 풀 수 있지만 State Space Model에서는 State의 차원이 길이에 따라 증가해야만 가능하죠.
대안은 무엇인가? 하면 역시 Attention을 몇 개 붙여주는 것이 가장 좋은 것처럼 보이네요. Multi-head Long Convolution (Hyena) (https://arxiv.org/abs/2310.18780) 도 이 문제에 대해서는 도움이 되는 것으로 보입니다. Striped Hyena 같은 Long Convolution과 Attention의 절충이 트랜스포머보다 실제로 나을 수 있다는 생각이 드네요.
#state_space_model #attention
https://arxiv.org/abs/2312.07395
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames (Pinelopi Papalampidi, Skanda Koppula, Shreya Pathak, Justin Chiu, Joe Heyward, Viorica Patraucean, Jiajun Shen, Antoine Miech, Andrew Zisserman, Aida Nematzdeh)
(이미지도 해상도가 높아지면 그렇지만) 비디오는 정말 토큰 싸움(?)이군요. 이미지와 짧은 영상 -> 긴 영상 순서로 Video-Language Contrastive Pretraining을 하고 Temporal Pooling에 Perceiver로 Resample, Token masking에 PEFT가 들어갔네요. 결과적으로는 심플한 게 맞나 싶긴 합니다. 어쩔 수 없는 점이 있지만요.
#video_transformer #contrastive_learning
https://arxiv.org/abs/2312.08366
See, Say, and Segment: Teaching LMMs to Overcome False Premises (Tsung-Han Wu, Giscard Biamby, David Chan, Lisa Dunlap, Ritwik Gupta, Xudong Wang, Joseph E. Gonzalez, Trevor Darrell)
Multimodal 모델에서 없는 걸 찾아내라고 해도 뭔가를 찾아내는 문제에 대한 해소. Positive 샘플 뿐만 아니라 Negative 샘플에 대해서도 학습을 해야 해소가 되는데, 기존 데이터셋의 Negative 샘플은 너무 무맥락이라 이 문제에 도움이 되지 않았다고 주장하고 있네요. Negative 샘플을 만들어서 사용하는 것으로 해소할 수 있었다고 하고 있습니다.
LLM의 Syncophancy 문제와 비슷하게 보이기도 하네요. 결국 이런 문제들은 Negative를 쓰는 것이 요청되는 것인가 싶습니다.
#vision-language