2023년 10월 26일
https://arxiv.org/abs/2310.16656
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation (Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan)
요즘 이미지 생성은 캡션 다시 달기가 주요 주제군요. 100개 정도의 캡션을 만들어서 튜닝한 것으로 캡셔닝 모델을 만들고 그걸로 다시 캡션을 달아서 시도해봤군요.
#captioning #text2img
https://arxiv.org/abs/2310.16764
ConvNets Match Vision Transformers at Scale (Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De)
NFNet을 다시 가져와서 scaling curve를 찍어봤군요. 여러모로 ViT와 별 차이가 없는 것 같은데? 라는 결론. robustness라거나 좀 더 다양한 특성이나 장단점을 따져볼 수 있겠지만, ConvNeXt에서 나타났던 것처럼 아키텍처적 선택을 좀 맞춰주면 그것도 대체로 비슷하지 않을까 싶습니다. 사실 그렇지 않다는 증거가 특별히 있었던 것도 아니긴 하죠.
#vit #cnn #scaling-law
https://arxiv.org/abs/2310.16763
SuperHF: Supervised Iterative Learning from Human Feedback (Gabriel Mukobi, Peter Chatain, Su Fong, Robert Windesheim, Gitta Kutyniok, Kush Bhatia, Silas Alberti)
Policy로 샘플링하고, 샘플들을 Reward Model로 랭킹해서 K개 뽑아내고, K개 뽑아낸 샘플로 SFT 하고, 추가로 KL penalty를 붙여서 RLHF를 하는 알고리즘. 샘플링하고 Reward Model로 걸러낸 샘플에 대해 SFT를 한다는 비슷한 알고리즘들이 여럿 나오고 괜찮은 결과들을 보고하고 있는 것을 보면 충분히 가능한 방법이 아닌가 싶기도 합니다. PPO도 오랫동안 튜닝한 결과라고 하고 있는 걸 보면 유의미한 비교가 아닐까 싶고요. Negative sample의 사용은 필요하지 않은 걸까요? 이 부분도 관심이 가는 군요.
#rlhf #alignment
https://arxiv.org/abs/2310.16809
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation (Yongxin Shi, Dezhi Peng, Wenhui Liao, Zening Lin, Xinhong Chen, Chongyu Liu, Yuyi Zhang, Lianwen Jin)
GPT-4V에 대한 OCR 성능 벤치마크. 논문에서도 나타나는 것처럼 라틴 문자 외에는 OCR 성능이 눈에 띄게 낮은 것 같긴 하더군요. OCR은 실제로 해당 문자에 대한 이미지를 실제로 많이 보지 않는 이상 다른 언어에서의 transfer 같은 것을 기대하기 어려운 문제라고 봐야할 것 같습니다. GPT-4V에 대해 노려볼만한 한계라고 할 수 있지 않을까요? 실제로 다국어 데이터 구축을 해서 성능 향상을 하기 시작하면 계속 우위를 점유하기는 어렵겠지만요.
#ocr #multimodal #vision-language
https://arxiv.org/abs/2310.16825
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images (Aaron Gokaslan, A. Feder Cooper, Jasmine Collins, Landan Seguin, Austin Jacobson, Mihir Patel, Jonathan Frankle, Cory Stephenson, Volodymyr Kuleshov)
이미지 생성 모델의 저작권 문제를 좀 완화해보자는 아이디어네요. LAION은 쓰지 않고 Creative Commons 라이센스를 확인할 수 있는 이미지만 사용하려는 시도입니다. 그런데 Creative Commons 라이센스가 달린 이미지들은 캡션이 없는 경우가 많으니 캡션을 달아줘야 하는데, 이 캡셔닝 모델은 LAION으로 학습된 모델을 사용합니다. 캡션은 이미지에 대한 굉장한 손실 압축이니 원 이미지에 대해서 아주 제한된 정보만을 준다고 보는 거죠.
아예 캡션을 다는 것부터 시작하자고 생각하면 이런 시도도 가능하네요. 흥미롭군요.
#text2img #dataset #captioning