2023년 11월 23일

Nov 23, 2023

https://www.anthropic.com/index/claude-2-1

Claude 2.1이 나왔군요. 200K context length, 할루시네이션을 절반으로 억제, 도구 사용, 시스템 프롬프트 등을 추가했군요.

https://x.com/GregKamradt/status/1727018183608193393 200K context length에 대한 retrieval 테스트 결과입니다. 다만 이런 종류의 과제에서는 long context 능력에 더해 관계 없는 맥락 텍스트를 다루는 능력 자체도 필요하다는 생각이 드네요.

#llm

https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

Stable Video Diffusion. Stable Diffusion 2.1에서 시작해, 비디오를 자르고 필터링해 만든 클립에 캡션을 달아 구축한 데이터셋으로 비디오 프리트레이닝을 하고, 높은 품질의 비디오 데이터셋으로 다시 파인튜닝을 하는 흐름으로 진행했습니다. 늘 그렇지만 데이터와 모델의 규모가 곧 차이라는 생각이 드네요.

#video_generation

https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/

Sam Altman이 언급한 중요한 진전에 대한 기사입니다. Q* 라는 알고리즘을 개발했고 연산력을 사용해 수학 문제를 풀 수 있었다고 합니다. Grade School 수준의 수학을 태클했다고 하니 GSM8K를 했나? 하는 생각이 드네요.

이름도 그렇고 간간히 나오는 이야기도 그렇고 RL 계통의 방법인 듯 한데, Process Reward Model 같은 것으로 MATH를 풀던 것에 비해 Grade School 수학을 풀었다고 하면 어떤 의미인지 궁금하네요. 뭔가 사람의 피드백 없이 돌아가는 알고리즘이고, 현재는 비교적 단순한 수준이지만, 알고리즘 자체의 포텐셜이 굉장하다거나 그런 상황일까 싶습니다.

https://arxiv.org/abs/2311.13133

LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms (Aditi Jha, Sam Havens, Jeremey Dohmann, Alex Trott, Jacob Portes)

LIMA와 Instruct 데이터셋(HH-RLHF, Dolly-15K, 그리고 여러 데이터셋들)을 통해 튜닝했을 때 성능 변화에 대한 실험. 전통적인 NLP 과제에서는 Instruct 데이터셋이 좋았고, LIMA 테스트셋으로 GPT-4 평가를 했을 때는 당연하게도(?) LIMA가 좋았다, 그래서 다양한 데이터셋을 섞는 것은 좋은 것 같다, 그렇지만 데이터셋이 많을 필요는 없는 것 같다는 결론입니다.

#instruction-tuning

https://arxiv.org/abs/2311.12983

GAIA: a benchmark for General AI Assistants (Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom)

AI 어시스턴트를 위한 벤치마크. 도구 사용을 전제하고 필요한 도구의 수와 단계에 따라 난이도를 설정했습니다. 3 단계까지 있는데 현재 1, 2 단계도 제대로 되지 않는 수준이네요. 이 벤치마크의 3 단계를 달성할 수 있다면 어시스턴트로서 파급력이 있을 것이라는 목표 같은 느낌의 벤치마크가 아닐까 싶습니다.

#benchmark

https://arxiv.org/abs/2311.13581

PaSS: Parallel Speculative Sampling (Giovanni Monea, Armand Joulin, Edouard Grave)

Speculative Sampling에서 작은 모델을 쓰는 대신 한 번에 여러 토큰을 출력하도록 학습시킨 큰 모델 하나를 쓰는 방법. 여러 토큰을 생성하도록 학습시키는 것도 또 다른 문제이긴 하겠지만요.

#efficiency

https://arxiv.org/abs/2311.13600

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs (Viraj Shah, Nataniel Ruiz, Forrester Cole, Erika Lu, Svetlana Lazebnik, Yuanzhen Li, Varun Jampani)

컨텐츠 LoRA와 스타일 LoRA를 결합하는 방법. 흔히 하는 방식처럼 가중 평균을 하는 것은 교란이 일어날 수 있어 한계가 있고, 따라서 LoRA 행렬의 각 컬럼마다 가중치를 곱해서 결합하도록 하고, 이 가중치를 학습시키는 방법이네요.

#adapter

https://inflection.ai/inflection-2

Inflection의 두 번째 모델이 나왔군요. H100 5천 대, FP8 학습으로 50일 가량 학습했다고 하네요. 10^25 FLOPs 정도입니다.

성능적으로 세계 2위의 LLM이라는 자평에 걸맞게 PaLM 2에 대해 좀 더 우세를 보이고 있네요. 다만 10^25 FLOPs면 루머로 떠도는 PaLM 2의 학습 FLOPs의 수 배, GPT-4의 절반 정도의 규모인데 Llama 2, PaLM 2와 아주 큰 차이가 보이는 것 같지 않다는 게 걸리네요.

이건 Falcon-180B 때와 비슷한 현상인 것 같습니다.

왜 그런가...에 대해 생각해보게 되네요. 한 가지 가능성은 데이터셋의 퀄리티와 큐레이션 때문에 연산 투입량에 비해서 성능이 충분히 올라오지 않았다는 것, 다른 가능성은 PLM 자체만으로 벤치마크에서 성능을 향상시키는 것이 한계가 있고, Instruction Tuning을 거친 이후에야 PLM에 투입한 연산량에 따른 차이가 드러나기 시작할 수 있다는 것이 아닐까 싶습니다. 물론 둘 다 추측의 영역이긴 하죠.

별개로 FP8 학습이 이 정도 규모에서도 잘 작동한다는 것을 보여주는 사례가 될 것 같네요.

#llm

2023년 11월 23일

Discussion about this post