2023년 11월 16일
https://arxiv.org/abs/2311.09215
ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy (Kirill Vishniakov, Zhiqiang Shen, Zhuang Liu)
ConvNeXt vs ViT, CLIP (LAION-400M) vs Supervised (ImageNet-21K). 전반적으로 ConvNeXt가 ViT와 비슷하거나 우수하고, CLIP의 shape bias가 좋다는 이야기를 하고 있습니다. 다만 모델이 모두 100M 이하네요. 모델이 커지면 패턴이 바뀔 수도 있다는 이야기도 나오긴 합니다만...더 큰 모델에서의 결과가 있어야 확정할 수 있는 부분이겠죠.
#vit #cnn #robustness
https://arxiv.org/abs/2311.09198
Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering (He Junqing, Pan Kunhao, Dong Xiaoqun, Song Zhuoyang, Liu Yibo, Liang Yuxin, Wang Hao, Sun Qianguo, Zhang Songxin, Xie Zejian, Zhang Jiaxing)
long context 상황에서 발생하는 lost in the middle 현상에 대한 대처. 중요한 포인트는 attention weight 자체가 주로 instruction이 있는 앞쪽과 뒤쪽에 쏠리고 있고, 중간 부분에 attention weight가 그다지 주어지지 않다 보니 lost in the middle이 발생하는 것이 자연스러울 수 있다는 부분일 듯 싶네요.
이 논문에서는 임의로 negative 문서를 추가해서 채워넣는 방식으로 QA 과제를 만들어서 학습시키는 방법으로 이 문제를 해소할 수 있었다고 제안합니다. 문제를 풀기 위해 문제에 직접 튜닝했다는 느낌이긴 합니다. 다만 lost in the middle을 테스트하는데 사용하는 형태의 데이터가 instruction tuning 과정에서 없을 수 있겠다는 것과 (그래서 long context 성능의 한계를 포착하는 것에는 한계가 있을 수 있다는 것), long context 과제를 위한 instruction tuning이 필요하겠다는 생각이 드네요.
#long_context
https://arxiv.org/abs/2311.09204
Fusion-Eval: Integrating Evaluators with LLMs (Lei Shu, Nevan Wichers, Liangchen Luo, Yun Zhu, Yinxiao Liu, Jindong Chen, Lei Meng)
LLM을 사용한 평가 방법인데, LLM으로 평가할 때 NLI, Bluert 같은 메트릭에 대한 설명을 제공하고 이 메트릭의 결과도 활용해서 평가하게 하는 방식이군요. 꽤 재미있는 방법이네요. 도구 사용 같은 느낌도 들고요.
#evaluation
https://arxiv.org/abs/2311.09210
Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models (Wenhao Yu, Hongming Zhang, Xiaoman Pan, Kaixin Ma, Hongwei Wang, Dong Yu)
RAG 상황에서 retrieve한 문서에 대해서 요약하고 질문과의 관련성에 대한 평가를 생성하게 한 다음 답을 하게 하는 방법이네요. retrieve한 문서의 퀄리티나 관련성의 문제를 해소하는데 좀 도움이 되지 않을까 싶습니다. 재미있네요.
#retrieval
https://arxiv.org/abs/2311.08981
Speculative Contrastive Decoding (Hongyi Yuan, Keming Lu, Fei Huang, Zheng Yuan, Chang Zhou)
Contrastive Decoding에도 Speculative Decoding에도 모두 Teacher와 Student 모델이 필요하니 이걸 붙여서 같이 하자는 아이디어입니다. Contrastive Decoding이 성능을 향상시킨다는 이야기는 최근에도 많이 나왔는데 (https://arxiv.org/abs/2210.15097, https://arxiv.org/abs/2309.03883, https://arxiv.org/abs/2309.09117) 질적인 측면에서 텍스트가 어떻게 달라지는지 궁금하네요.
#efficiency #sampling