2023년 1월 5일
https://arxiv.org/abs/2401.02415
LLaMA Pro: Progressive LLaMA with Block Expansion (Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan)
Layer Stacking. SOLAR (https://arxiv.org/abs/2312.15166) 같은 접근과는 달리 Function Preserving Expansion을 사용했고 하부 레이어는 얼렸군요. 이 디자인 덕에 코드와 수학 위주로 데이터를 밀어넣었는데 자연어 과제들에서도 성능이 향상되었다는 것을 중점적으로 소개하고 있긴 합니다. (수학 코퍼스 덕이지 않을까 하는 생각도 들긴 합니다만.) MoE와의 비교 등도 눈에 띄네요.
#efficient_training
https://arxiv.org/abs/2401.01952
Instruct-Imagen: Image Generation with Multi-modal Instruction (Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia)
Multimodal Instruction으로 지시할 수 있는 이미지 생성 모델. 중요한 단계는 Retrieval을 사용해서 Conditional generation을 학습시킨 것이 아닐까 싶네요. 이후 기존 이미지 데이터셋으로 Depth/Mask2Image나 Style2Image 같은 Instruction을 만들어 학습시킵니다.
Controllability라거나 Identity 보존 등의 중요한 문제에 대한 의미 있는 진전이 아닌가 싶네요.
#instruction-tuning #multimodal #image_generation
https://arxiv.org/abs/2401.02412
LLM Augmented LLMs: Expanding Capabilities through Composition (Rachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar)
능력이 서로 다른 LLM 두 개를 얼린 다음 Cross Attention으로 연결해서 새로운 과제를 풀게 해보자...인데 사실 Vision Backbone과 LLM을 연결하는 일반적인 방법과 비슷하죠. 코딩 능력 결합 같은 다른 형태의 과제들로 일반화했다는 의미가 있겠네요.
#transformer