2023년 10월 27일
보스턴 다이내믹스에서 스팟에 ChatGPT를 붙인 영상을 공개했네요. 채팅 기능 탑재, 그리고 특정한 성격을 부여하는 것과 VQA를 사용한 상황 파악 정도가 중점인 듯 합니다. 로봇과 LLM을 결합하려는 시도들이 요즘 많은 듯 한데 뭔가 재미있는 게 나올 수 있지 않을까 싶네요.
#robotics
https://arxiv.org/abs/2310.17623
Proving Test Set Contamination in Black Box Language Models (Yonatan Oren, Nicole Meister, Niladri Chatterji, Faisal Ladhak, Tatsunori B. Hashimoto)
테스트 데이터셋 오염에 대한 테스트 방법 개발. 테스트 데이터를 봤다면 테스트 데이터 내 샘플 순서대로 배치된 샘플에 대한 likelihood가 순서가 뒤바뀐 샘플의 likelihood 보다 높을 것이라는 가정 하에서 테스트했군요.
Llama-2와 Mistral에서 MMLU에 대한 오염이 의심되는 것을 발견했고, Llama-2에서 데이터셋 오염에 대해 분석한 결과를 생각해보면 타당한 결과처럼 보이네요. 흥미로운 것 중 하나는 Mistral에서 AI2-ARC에 대한 테스트셋 오염이 발견됐다는 것입니다. 원인이 무엇일지 궁금하네요.
방법에서 드러나는 한계인데 이건 테스트 데이터셋이 거의 순서대로 학습에 들어갔다는 가정을 깔고 있습니다. 그렇지만 좀 더 간접적으로 혹은 부분적으로 데이터셋 오염이 일어날 수 있는 방법은 많으니 그 부분까지는 아직 알기 어렵네요.
#dataset
https://arxiv.org/abs/2310.17157
Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time (Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen)
FFN의 뉴런이나 Attention 헤드가 희소하다고 보고 이걸 사용해 FFN, Attention의 일부만 계산하자는 아이디어. 그러나 입력과 관계 없이 Pruning을 하는 것은 아니고 입력에 따라 쓰일 헤드나 뉴런을 찾는 MLP를 붙여서 하는 접근입니다.
배치 추론에는 잘 안 맞겠지만 흥미롭네요. (이 논문에서도 OPT를 썼는데) ReLU의 희소함을 이용할 수 있지 않을까라는 연구도 생각나네요. (https://arxiv.org/abs/2310.04564) 그리고 참 MoE스러운 접근이다 싶은데 이런 sparse 모델들에 대한 관심이 계속 높아지이 않을까 싶습니다.
#sparsity #efficiency
https://arxiv.org/abs/2310.15141
SpecTr: Fast Speculative Decoding via Optimal Transport (Ziteng Sun, Ananda Theertha Suresh, Jae Hun Ro, Ahmad Beirami, Himanshu Jain, Felix Yu)
Speculative Sampling을 드래프트 토큰의 분포와 타겟 분포 사이의 optimal transport 문제로 봤군요. 기존의 Speculative Sampling은 토큰 하나 단위로 했을 때 최적인 알고리즘이고요. 여기서는 optimal transport 관점에서 드래프트를 여러 개 만들었을 때 사용할 수 있는 알고리즘을 개발했습니다. 병렬로 여러 개의 드래프트를 만들어서 쓸 수 있다면 좀 더 향상시킬 수 있는 여지가 있다...이런 측면이군요.
#decoding #efficiency
https://arxiv.org/abs/2310.17022
Controlled Decoding from Language Models (Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang, Yanping Huang, Zhifeng Chen, Heng-Tze Cheng, Michael Collins, Trevor Strohman, Jilin Chen, Alex Beutel, Ahmad Beirami)
요즘 Reward를 사용해 디코딩하는 접근들이 많이 나오는군요. Value를 사용해 디코딩 하는 방법과 이 디코딩을 위한 Value를 학습하는 방법을 다룹니다.
#decoding #rl
https://arxiv.org/abs/2310.17567
Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models (Dingli Yu, Simran Kaur, Arushi Gupta, Jonah Brown-Cohen, Anirudh Goyal, Sanjeev Arora)
k개 스킬과 주제를 사용해서 작문을 하게 하는 벤치마크 방법. 여기서 스킬이란 메타포, 삼단논법, 물리학 같은 것들입니다. 이 스킬들을 반영한 텍스트를 생성하게 하는 거죠. LLM의 텍스트를 다루고 생성하는 능력을 보여주는 과제이기도 하고, k가 늘어날수록 LLM이 학습 시점에 볼 가능성이 거의 없어진다는 것이 또 흥미로운 부분이죠.
GPT-4는 k = 5 수준에서도 굉장한 능력을 보여주네요. 여하간 흥미로운 평가 방법이 될 것 같습니다.
그나저나 HuggingFace Open LLM 리더보드를 직접적으로 저격하고 있네요. 리더보드를 둘러싼 상황에 환멸(?)을 느끼는 사람들이 많은 것 같습니다.
#benchmark