2023년 10월 12일
https://arxiv.org/abs/2310.07713
InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining (Boxin Wang, Wei Ping, Lawrence McAfee, Peng Xu, Bo Li, Mohammad Shoeybi, Bryan Catanzaro)
NVIDIA에서 RETRO (https://arxiv.org/abs/2112.04426) 의 규모를 키워봤습니다. NVIDIA는 요즘 retrieval augmentation에 관심이 많네요. NVIDIA 쪽에서 자주 등장하는 GPT-43B를 사용해 100B 토큰에 대해 RETRO 학습을 추가로 한 다음, 그냥 100B 토큰에 대해 추가 학습시킨 모델과 비교해봤습니다.
흥미로운 점은 진행한 instruction tuning에서 retrieval encoder를 부분적으로만 사용하고, 추론 시에는 아예 사용하지 않았는데도 성능적 향상이 있었다는 것입니다. 논문의 제안대로라면 retrieval training이 단순히 retrieval 기능을 탑재시켜주는 것이 아니라 뭔가 다른 특성을 모델에 주입한다는 의미라는 것인데요. 흥미로운 포인트네요.
#retrieval #llm #continual_learning
https://arxiv.org/abs/2310.07064
Large Language Models can Learn Rules (Zhaocheng Zhu, Yuan Xue, Xinyun Chen, Denny Zhou, Jian Tang, Dale Schuurmans, Hanjun Dai)
예시에서 규칙을 생성하게 한 다음, 생성한 규칙 중 쓸만한 규칙만 골라서 이 규칙을 기반으로 답을 생성하게 하는 프롬프팅. 9진수 계산 같은 문제나 친족 관계 추론 같은 문제에 테스트한 사례이긴 합니다만 방법이 흥미롭네요. 구글에서 프롬프팅과 관련된 결과가 많이 나오는데 뭔가 내부에서 프롬프팅으로 이것저것 해본 결과를 공유하고 있는 것 같기도 하네요.
#in_context_learning #prompt
https://arxiv.org/abs/2310.07702
ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models (Yingqing He, Shaoshu Yang, Haoxin Chen, Xiaodong Cun, Menghan Xia, Yong Zhang, Xintao Wang, Ran He, Qifeng Chen, Ying Shan)
작은 해상도에서 학습된 diffusion 모델을 사용해 더 큰 해상도의 이미지를 샘플링하기. dilated attention과 convolution, 그리고 dilation으로 발생하는 아티팩트를 억제하기 위한 캘리브레이션 과정으로 구성되는군요.
https://yingqinghe.github.io/scalecrafter/
#ddpm