2023년 9월 21일
https://arxiv.org/abs/2309.11235
OpenChat: Advancing Open-source Language Models with Mixed-Quality Data (Guan Wang, Sijie Cheng, Xianyuan Zhan, Xiangang Li, Sen Song, Yang Liu)
높은 퀄리티의 instruction 데이터 (GPT-4)와 낮은 퀄리티의 insturction 데이터 (GPT-3.5)가 섞여 있는 상황에서의 튜닝. 기본적으로 reward condition을 주고 학습하되, 추가적으로 loss를 reward로 reweighting 한다는 느낌이군요. 그렇다면 그냥 GPT-4 데이터만 쓴 것과 비교하면 어떤가 싶은데 그 비교는 없는 것 같네요.
#instruction
https://arxiv.org/abs/2309.11497
FreeU: Free Lunch in Diffusion U-Net (Chenyang Si, Ziqi Huang, Yuming Jiang, Ziwei Liu)
diffusion 모델의 skip connection의 가중치를 상대적으로 낮추면 디노이즈 성능이 향상되고 퀄리티 향상으로 이어진다는 결과. skip connection이 고주파수의 노이즈를 전달하는 효과가 있고, 이걸 억제하면 상대적으로 사람이 체감하는 퀄리티가 높아지는 것 같다는 설명으로 보이네요.
#ddpm
https://arxiv.org/abs/2309.11495
Chain-of-Verification Reduces Hallucination in Large Language Models (Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston)
할루시네이션을 억제하는 프롬프팅. 일단 답을 생성하고, 답의 팩트 체크를 위한 질문들을 생성하고, 그 질문에 대해 응답하고, 그 결과를 사용해 답을 개선하는 방식입니다.
Sparks of AGI (39분 30초)에서도 언급 됐던 부분인데 현재 LLM의 문제 중 하나는 너무 빨리 답을 생성하려는 경향이 아닌가 싶네요.
#hallucination #prompt
https://arxiv.org/abs/2309.11499
DreamLLM: Synergistic Multimodal Comprehension and Creation (Runpei Dong, Chunrui Han, Yuang Peng, Zekun Qi, Zheng Ge, Jinrong Yang, Liang Zhao, Jianjian Sun, Hongyu Zhou, Haoran Wei, Xiangwen Kong, Xiangyu Zhang, Kaisheng Ma, Li Yi)
image-text interleaved generation. clip 임베딩에 정렬한다거나 하는 대신, 이미지 생성 쿼리 토큰에 대해서 나온 임베딩을 projection 해서 diffusion을 사용해 loss를 계산해 학습시키고, 타겟 이미지를 다시 projection해서 lm의 입력으로 주는 흐름이군요.
#vision-language #multimodal_generation
https://arxiv.org/abs/2309.11419
Kosmos-2.5: A Multimodal Literate Model (Tengchao Lv, Yupan Huang, Jingye Chen, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, Shaoxiang Wu, Guoxin Wang, Cha Zhang, Furu Wei)
Kosmos 팀이 이번에는 문서 OCR 모델을 만들었군요. 레이아웃 박스와 텍스트를 예측하는 과제와 마크다운을 예측하는 과제를 결합했습니다. Nougat (https://arxiv.org/abs/2308.13418) 도 반응이 꽤 좋던데, OCR 뿐만 아니라 데이터 수집과 코퍼스 구축의 중요한 도구가 되지 않을까 싶네요.
#ocr #multimodal