2023년 11월 17일

Nov 17, 2023

Striped Attention: Faster Ring Attention for Causal Transformers (William Brandon, Aniruddha Nrusimha, Kevin Qian, Zachary Ankner, Tian Jin, Zhiye Song, Jonathan Ragan-Kelley)

Ring Attention (https://arxiv.org/abs/2310.01889) 에 대한 개선 작업이군요. Ring Attention에서는 Key/Value를 연속된 형태로 자르는데, Causal Mask를 생각하면 계산이 필요하지 않은 블럭들이 있죠. 그런데 이 블럭들이 워커마다 불균일하게 발생하기 때문에 (어떤 워커에서는 계산이 필요한데 다른 워커에서는 계산이 필요한 등) 이 문제를 해소하기 위해 연속된 형태가 아니라 일정 스텝만큼 건너뛰는 형태로 잘라서 계산한다는 아이디어입니다.

#efficient_training

https://arxiv.org/abs/2311.09528

HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM (Zhilin Wang, Yi Dong, Jiaqi Zeng, Virginia Adams, Makesh Narsimhan Sreedhar, Daniel Egert, Olivier Delalleau, Jane Polak Scowcroft, Neel Kant, Aidan Swope, Oleksii Kuchaiev)

SteerLM (https://arxiv.org/abs/2310.05344) 을 좀 더 밀어붙였군요. SteerLM에서는 오픈 데이터셋을 사용했다면 여기서는 직접 데이터를 구축했네요. 프롬프트를 수집하고 Correctness, Coherence, Complexity, Verbosity를 속성으로 정해 어노테이션했습니다. 이렇게 속성을 명시적으로 사용해서 그걸 조절할 수 있는 옵션이 주어지는 것도 의미가 있을 것 같네요.

#alignment

https://arxiv.org/abs/2311.10089

Emu Edit: Precise Image Editing via Recognition and Generation Tasks (Shelly Sheynin, Adam Polyak, Uriel Singer, Yuval Kirstain, Amit Zohar, Oron Ashual, Devi Parikh, Yaniv Taigman)

이미지 편집 모델. 일단 다양한 CV 과제나 편집 과제를 준비합니다. instruction은 Llama 2로 생성하고, instruction에 상응하는 이미지 페어는 이미지 편집 모델을 사용해서 생성합니다. 편집이나 과제에 따라서 다른데 여기서 중요하게 언급하는 것 중 하나는 특정 영역만 편집해야 하는 과제네요. 이런 경우에 대해 생성한 페어의 정확도를 높이기 위해 마스크를 적용했습니다. 이 마스크는 또한 DINO와 SAM으로 만들어지고요.

이렇게 구축한 데이터셋을 과제 임베딩과 같이 학습시킵니다. 과제 임베딩을 쓴다는 것도 포인트인데, 반대로 few shot으로 새로운 과제에 대해 임베딩을 학습해서 사용할 수 있다고 하네요.

#image_editing

https://arxiv.org/abs/2311.10093

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models (Omri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski)

일관된 캐릭터로 이미지를 생성하는 방법. 일단 이미지를 여러 장 생성한 다음 DINOv2로 feature를 뽑고 클러스터링합니다. 너무 작은 클러스터는 빼고 나머지 클러스터 중 클러스터 내 원소 사이의 거리가 가장 좁은 클러스터를 고릅니다. 그 다음 이 클러스터 내 이미지로 모델을 튜닝합니다. 그리고 이 과정을 충분히 좁은 클러스터가 나올 때까지 반복합니다. 뭔가 의도와 맞는 클러스터가 잘 걸려야 할 것 같긴 합니다만 샘플들이 꽤 인상적이네요.

#image_generation

https://arxiv.org/abs/2311.09682

MacGyver: Are Large Language Models Creative Problem Solvers? (Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja Marjieh, Nanyun Peng, Yejin Choi, Thomas L. Griffiths, Faeze Brahman)

재미있는 벤치마크네요. 창의성과 물리적 조건에 대한 이해를 평가하는 벤치마크라고 할 수 있을 텐데, 일상적인 사물을 새로운 방식으로 사용해 문제를 해결해야 하는 과제입니다. GPT-4를 사용해 문제를 만들고 사람이 검증하는 형태로 구축했네요. 다만 GPT-4 성능이 사람과 벌써(?) 근접하게 나오는 것 같은 게 문제일 수 있을 것 같네요. 문제의 복잡성과 제약을 높이는 시도가 들어가 있긴 하지만 은연 중에 GPT-4가 풀기 쉬운 형태의 문제로의 편향이 있을 가능성은 없을까 싶기도 합니다.

LLM과 사람에 대한 비교에서 재미있는 포인트가 있네요. 사람이 잘 아는 것, 특히 일상 생활과 관련된 것에서는 사람의 퍼포먼스가 높은데, 특정 도메인에 대해서는 LLM이 나은 경우가 발생한다고 합니다. LLM이 굉장히 넓은 영역에 대해 지식을 갖고 있다는 게 가져오는 효과가 아닐까 싶네요.

#benchmark

2023년 11월 17일

Discussion about this post