2023년 12월 13일
https://arxiv.org/abs/2312.07533
VILA: On Pre-training for Visual Language Models (Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han)
Vision-Language 모델의 프리트레이닝과 파인튜닝에 대한 발견들. 프로젝터를 사용하는 시나리오에서는:
LLM 얼리기 vs LLM 파인튜닝하기. 파인튜닝하는 것이 낫다. 특히 in-context learning에서 성능 차이가 많이 난다. 프로젝터는 단순한 linear model을 쓰는 쪽이 낫다. 파인튜닝을 했을 때 이미지와 텍스트 임베딩이 더 잘 정렬되기 때문인 것으로 추측. 이미지/텍스트 expert를 분리하는 것보다 파인튜닝이 효과적.
interleaved 데이터셋 사용은 필수적. 텍스트 성능이 폭락. 그래도 성능이 떨어지는 것을 막을 수는 없으니 텍스트 데이터(instruction) 추가가 바람직.
이미지 크기는 중요하지만 토큰이 아깝다면 downsampling을 고려해볼만 하지 않을까.
전반적으로 LLM을 얼려놓는 것으로는 한계가 있다는 것을 다시 한 번 확인한 것 같네요. 텍스트와 멀티모달 데이터를 같이 학습하는 형태의 학습 계획을 만드는 것이 좋은 전략이라고 할 수 있겠네요. 프리트레이닝 단계가 아니라면 continual pretraining 전략도 생각해볼 수 있지 않을까 싶네요.
#multimodal #vision-language #instruction-tuning
https://arxiv.org/abs/2312.07541
SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration (Daniel Duckworth, Peter Hedman, Christian Reiser, Peter Zhizhin, Jean-François Thibert, Mario Lučić, Richard Szeliski, Jonathan T. Barron)
https://smerf-3d.github.io/
구글은 NeRF 연구를 꾸준히 하고 있네요. (다들 Gaussian Splatting으로 넘어간 느낌이긴 합니다만.) navigation이 가능한 넓은 scene을 실시간으로 렌더링할 수 있는 모델입니다. 데모를 한 번 보시면 재미있을 것 같네요.
#nerf
https://arxiv.org/abs/2312.06742
Honeybee: Locality-enhanced Projector for Multimodal LLM (Junbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh)
Vision-Language 모델에서 이미지와 텍스트를 연결하는 리샘플러로 트랜스포머를 많이 쓰는데, locality 손실이 일어나니 그냥 ResNet을 쓰는 것은 어떤가...하는 아이디어군요.
#vision-language #cnn
https://arxiv.org/abs/2312.07398
LLMEval: A Preliminary Study on How to Evaluate Large Language Models (Yue Zhang, Ming Zhang, Haipeng Yuan, Shichun Liu, Yongyao Shi, Tao Gui, Qi Zhang, Xuanjing Huang)
LLM 평가하기. GPT-4 평가도 수치는 잘 찍힌 것 같은데 편향이나 의도하지 않은 패턴 때문인지 어노테이터를 직접 구해서 평가하는 것이 최선이 아닌가 하는 이야기를 하고 있네요. 다면적인 평가가 필요하고 특히 수치 뿐만 아니라 질적인 평가가 늘 동반되어야 하지 않는가 싶습니다.
#evaluation
https://arxiv.org/abs/2312.06968
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model (Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang)
Vision-Language 모델에서 할루시네이션 억제. Contrastive loss를 추가하고 할루시네이션이 발새한 캡션을 임의로 만들어서 contrastive loss에 추가하는 형태군요. 할루시네이션 억제에는 결국 할루시네이션에 대한 직접적인 처벌을 추가하는 것이 가장 명확한 방향인가 싶습니다. (텍스트에 대해서도 그렇듯.)
#vision-language #hallucination