2023년 12월 19일
https://arxiv.org/abs/2312.10523
Paloma: A Benchmark for Evaluating Language Model Fit (Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge)
다양한 데이터 소스에서 가져온 문서들에 대한 Perplexity로 LM을 비교하고자 하는 벤치마크. Decontamination과 데이터 순서에 대한 조건을 명시적으로 요구합니다. 이걸 지켜서 결과를 제출하는 케이스가 드물 것 같긴 한데 여하간 흥미로운 벤치마크가 될 것 같네요.
#benchmark
https://arxiv.org/abs/2312.10302
One Shot Learning as Instruction Data Prospector for Large Language Models (Yunshui Li, Binyuan Hui, Xiaobo Xia, Jiaxi Yang, Min Yang, Lei Zhang, Shuzheng Si, Junhao Liu, Tongliang Liu, Fei Huang, Yongbin Li)
Instruction tuning 데이터셋의 필터링 방법. 고정된 과제 셋을 만들어놓고, 각 instruction 샘플들을 프롬프트로 붙였을 때와 붙이지 않았을 때 과제 셋에 대한 likelihood의 차이를 스코어로 쓰는 방식이군요. 과제에 대해 성능을 향상시킬 수 있는 샘플이라면 학습할 가치가 높다는 아이디어군요.
#instruction-tuning
https://arxiv.org/abs/2312.10240
Rich Human Feedback for Text-to-Image Generation (Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katie Collins, Yiwen Luo, Yang Li, Kai J Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam)
생성 이미지에 대해서 다차원 퀄리티 평가, (Plausibility, Alignment, Aesthetics, Overall) 아티팩트나 텍스트와 매치되지 않는 부분을 히트맵 형태로 지정, 그리고 반영되지 않은 텍스트 키워드를 지정하도록 데이터셋을 어노테이션했네요. 그리고 이 데이터로 예측 모델을 만들 수 있는지 테스트했습니다.
생성 모델에서 퀄리티 평가는 이제 거의 필수이거나 당연한 과정이라고 해야겠네요. 과거 Discriminative 모델에 대해서 만들었던 데이터보다 난이도가 훨씬 더 높은 듯 하다는 게 문제이긴 합니다만.
#dataset #preference