2024년 4월 1일
Jamba: A Hybrid Transformer-Mamba Language Model
(Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham)
We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows resource- and objective-specific configurations. In the particular configuration we have implemented, we end up with a powerful model that fits in a single 80GB GPU. Built at large scale, Jamba provides high throughput and small memory footprint compared to vanilla Transformers, and at the same time state-of-the-art performance on standard language model benchmarks and long-context evaluations. Remarkably, the model presents strong results for up to 256K tokens context length. We study various architectural decisions, such as how to combine Transformer and Mamba layers, and how to mix experts, and show that some of them are crucial in large scale modeling. We also describe several interesting properties of these architectures which the training and evaluation of Jamba have revealed, and plan to release checkpoints from various ablation runs, to encourage further exploration of this novel architecture. We make the weights of our implementation of Jamba publicly available under a permissive license.
Jamba (https://www.ai21.com/blog/announcing-jamba) 리포트가 나왔군요. 전반적으로 Mixtral과 비슷하다는 느낌이 드는데 Mixtral 수준의 모델을 만드는 것이 쉽지 않다는 것을 고려하면 그 자체로 흥미롭지 않나 싶네요.
Long Context 과제들에 대해서도 성능이 나쁘지 않는 것 같습니다. 흥미롭네요. 공개된 모델이니 분석해보면 여러모로 SSM/Attention 하이브리드의 가능성에 대해 알 수 있지 않을까 싶습니다.
#state-space-model #transformer #llm
Gecko: Versatile Text Embeddings Distilled from Large Language Models
(Jinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim)
We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with generating diverse, synthetic paired data using an LLM. Next, we further refine the data quality by retrieving a set of candidate passages for each query, and relabeling the positive and hard negative passages using the same LLM. The effectiveness of our approach is demonstrated by the compactness of the Gecko. On the Massive Text Embedding Benchmark (MTEB), Gecko with 256 embedding dimensions outperforms all existing entries with 768 embedding size. Gecko with 768 embedding dimensions achieves an average score of 66.31, competing with 7x larger models and 5x higher dimensional embeddings.
합성 데이터를 사용한 임베딩 모델 학습. 일단 QA 데이터셋의 Question-Answer 페어 등을 사용해 사전 파인튜닝을 합니다. 그리고 합성 데이터를 사용하는데 순서는 다음과 같습니다.
웹 코퍼스에서 문서를 가져와 그 문서에 대해 수행할 과제를 작성하고 작성한 과제 기반으로 질문을 생성
임베딩 모델을 사용해 질문에 대한 Positive Candidate를 Retrieval하고 LLM을 사용해 랭킹함. 마찬가지로 Hard Negative Candidate도 수집
1번 단계로 다양성을 확보하고 2번 단계로 퀄리티를 확보한다고 할 수도 있겠습니다.
#synthetic-data #retrieval
Are We on the Right Way for Evaluating Large Vision-Language Models?
(Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Jiaqi Wang, Yu Qiao, Dahua Lin, Feng Zhao)
Large vision-language models (LVLMs) have recently achieved rapid progress, sparking numerous studies to evaluate their multi-modal capabilities. However, we dig into current evaluation works and identify two primary issues: 1) Visual content is unnecessary for many samples. The answers can be directly inferred from the questions and options, or the world knowledge embedded in LLMs. This phenomenon is prevalent across current benchmarks. For instance, GeminiPro achieves 42.9% on the MMMU benchmark without any visual input, and outperforms the random choice baseline across six benchmarks over 20% on average. 2) Unintentional data leakage exists in LLM and LVLM training. LLM and LVLM could still answer some visual-necessary questions without visual content, indicating the memorizing of these samples within large-scale training data. For example, Sphinx-X-MoE gets 43.6% on MMMU without accessing images, surpassing its LLM backbone with 17.9%. Both problems lead to misjudgments of actual multi-modal gains and potentially misguide the study of LVLM. To this end, we present MMStar, an elite vision-indispensable multi-modal benchmark comprising 1,500 samples meticulously selected by humans. MMStar benchmarks 6 core capabilities and 18 detailed axes, aiming to evaluate LVLMs' multi-modal capacities with carefully balanced and purified samples. These samples are first roughly selected from current benchmarks with an automated pipeline, human review is then involved to ensure each curated sample exhibits visual dependency, minimal data leakage, and requires advanced multi-modal capabilities. Moreover, two metrics are developed to measure data leakage and actual performance gain in multi-modal training. We evaluate 16 leading LVLMs on MMStar to assess their multi-modal capabilities, and on 7 benchmarks with the proposed metrics to investigate their data leakage and actual multi-modal gain.
Vision Language Model들의 레이더 차트를 정리할 시점이 왔군요. 현 벤치마크에서 두 가지 문제를 지적합니다. 1. 텍스트만으로도 풀 수 있는 문제가 많다. 예를 들어 여기 있는 원형 지대의 모양은 어떤 모양인가? 답: 원형 이런 문제들이 있습니다. 2. 대규모 데이터를 학습하니 발생하는 데이터셋 오염.
이를 테스트하기 위해 LLM으로 답을 할 수 없는 샘플들만 걸러낸 다음 다시 검수를 거쳐서 벤치마크를 만들었습니다. 텍스트만으로도 풀 수 있는 사례에 대해서는 VLM에 이미지를 준 경우와 주지 않은 경우의 차이를 사용해서, 데이터셋 오염에 대해서는 이미지를 주지 않은 경우의 VLM과 베이스 LLM의 성능 차이를 통해 측정합니다.
재미있네요. 이런 모델들은 실제로 이미지를 얼마나 잘 활용하고 있는가를 체크하는 것이 중요하죠. 그리고 이 정도의 차이가 할루시네이션 같은 문제에 대한 퍼포먼스로 이어질 수도 있겠죠.
조금 더 덧붙이자면 개인적으로는 Vision-Language 모델에서 할루시네이션이 발생하는 원인을 추적해보면 꽤 재미있지 않을까 싶습니다. 데이터셋의 노이즈와 이미지를 제대로 활용하지 못하는 Underfit (그리고 이쪽은 노이즈에서 연원할 수 있겠죠)이 기본적인 문제가 아닐까 하는 게 바로 드는 추측이긴 합니다. 그런 의미에서 얼마나 이미지를 사용해 답을 하고 있는가를 측정하는 것이 문제의 진단 도움이 되지 않을까 싶습니다.
#vision-language #multimodal #benchmark