2023년 4월 5주차
https://arxiv.org/abs/2304.13013
Stable and low-precision training for large-scale vision-language models (Mitchell Wortsman, Tim Dettmers, Luke Zettlemoyer, Ari Morcos, Ali Farhadi, Ludwig Schmidt)
8 bit training이 가능할까 싶었는데 이런 결과들을 보니 가능할 것 같기도 하네요. int8 (추가적으로 fp8) 학습입니다. 학습 안정성을 챙기는 것이 중요한데 대응 방법은 Adam에서 update가 치솟는 케이스에 대한 방지(Adafactor와의 결합), 그리고 계속 말썽을 부리는 임베딩은 그냥 고정해버리기네요. 저자 직강(?)을 참조해보시는 것도 좋을 것 같습니다.
https://twitter.com/Mitchnw/status/1651253867517206531?s=20
#quantization #optimizer
https://arxiv.org/abs/2304.15004
Are Emergent Abilities of Large Language Models a Mirage? (Rylan Schaeffer, Brando Miranda, Sanmi Koyejo)
지금 화제가 되고 있는 논문이기도 하고, 내가 관심 있는 주제와도 관련이 있어서 공유. 간단하게 소개하면 LLM의 창발적인 특성, 즉 특정한 능력이 일정 규모를 넘어가는 시점 이후에만 나타나는 현상에 대한 논문이다. (물리학자들이 이런 현상을 창발적이라고 불러도 되는가에 대해서 문제를 삼기도 하지만...일단 그건 차치하고.)
위 논문의 요점은 이 현상이 불연속적이거나 비선형적인 메트릭을 쓰기 때문이라고 본다. 즉 Cross Entropy 같은 지표에 대해서는 모델이 점진적으로 계속 개선되고 있는데, 정확도 같은 메트릭은 그 지표가 일정 수준 이상으로 낮아지는 시점에서만 눈에 띄게 상승하기 때문에 창발적인 것처럼 보인다는 것이다. 그러니 선형적인 메트릭을 쓰면 Cross Entropy의 개선이 메트릭에 대해서도 나타나게 되고 창발적인 현상은 사라진다. 모델 규모나 혹은 학습 FLOPS에 대해 각 과제들에 대한 성능도 점진적으로 개선되는 것이다.
그런데...사실 이 가능성은 창발적 특성을 다룬 원 논문에서도 제기하고 있다. (https://arxiv.org/abs/2206.07682) Appendix A에 나오는 설명인데, 논문에서 나타난 창발적 특성이 사실 Cross Entropy는 계속해서 개선되고 있는데 사용한 메트릭 때문에 보이지 않는가 하는 가설을 테스트한다. 겹치는 내용인데 이 논문에서는 이 Appendix를 언급하고 있지 않은 것 같아 약간 이상하다 싶다.
어쨌든 원 논문의 Appendix에서도 실제로 Cross Entropy는 학습 FLOPS에 따라 점진적으로 개선되기는 하고, 메트릭에는 그 변화가 바로 반영되지 않는다는 것을 발견한다. 그런데 추가로 여기서 발견하는 것은 Cross Entropy가 점진적으로 감소하지만, 창발적인 특성이 나타나는 지점에서는 Cross Entropy가 급격하게 감소하는 현상이 나타나거나, 혹은 정답과 오답의 확률의 차이가 증가하기 시작하는 지점이 있다는 것이다. 이렇게 보면 창발적인 요소는 여전히 존재한다고 말할 수 있는 것처럼 보인다.
이전에 다룬 논문의 결과도 그렇고 (https://arxiv.org/abs/2303.13506) 나는 여전히 특정 능력은 특정 규모 이상에서만 현저히 나타난다고 볼 수 있는 증거가 좀 더 강력하지 않은가 싶다. 그리고 실용적인 관점에서도, 능력이 조금씩 개선되고 있다고 하더라도 그것이 유의미해지는가의 기준은 근본적으로 불연속적이거나 비선형적인 점이 있을 수 있다고 본다. 즉 정확도가 모델의 개선을 반영하는 것에는 별로 좋은 지표가 아닐 수 있지만, 실용적으로 모델이 의미 있는 수준이 되었는가 하는 점에 대해서는 괜찮은 지표일 수 있다.
그리고 여전히...지금 중요한 문제 하나에 대해서는 아직 증거가 부족한 듯 싶다. 그건 작은 모델을 더 많은 데이터에 학습하는 것으로 더 큰 모델을 더 적은 데이터에 학습한 것과 동등한 특성을 가질 수 있는가 하는 것이다.
Chinchilla Optimal, 그리고 LLaMA가 추가로 제공한 증거는 비교적 작은 LLM도 더 많은 데이터에 대한 학습으로 더 큰 모델의 학습 Loss를 따라잡을 수 있다는 것을 시사한다. 그렇다면 문제는 그렇게 만든 모델, 즉 학습 Loss가 동일한 작은 모델과 큰 모델은 그 모델이 보여주는 특성과 능력의 측면에서 동일한가 하는 것이다. 동일하다면 작은 모델을 더 오래 학습하는 것은 좋은 전략이면서 최선의 전략일 수 있다. 왜냐면 그만큼 추론 비용을 아낄 수 있으니까. 그렇지 않고, 작은 모델과 큰 모델은 학습 Loss가 비슷하더라도 질적으로 다르다면, 우리는 모델을 우리가 원하는 특성을 가질 수 있는 정도까지 키워야 한다.
https://arxiv.org/abs/2304.14953
CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data (Michał Turski, Tomasz Stanisławek, Karol Kaczmarek, Paweł Dyda, Filip Graliński)
Common Crawl에서 PDF 파일들을 쭉 모았군요. 사실 진짜 문제는 이후 PDF에서 레이아웃을 사용해 텍스트를 포매팅하는 것일 것 같지만...여튼 그렇습니다.
#dataset
https://arxiv.org/abs/2305.00050
Causal Reasoning and Large Language Models: Opening a New Frontier for Causality (Emre Kıcıman, Robert Ness, Amit Sharma, Chenhao Tan)
causality에 대한 접근이라기보다는 GPT-4가 두 변수 사이의 인과적 관계를 추론할 수 있는지, counterfactual reasoning을 할 수 있는지, 주어진 상황에 대한 기술을 보고 특정 행위자의 행동이 결과에 충분 혹은 필요 조건이었는지를 말할 수 있는지 등의 과제를 가지고 GPT-4의 causal reasoning 능력과 그에 필요한 현실 세계의 인과적 구조를 알고 있는지를 테스트했다는 느낌이군요. GPT-3.5만 해도 과거 모델들에 비해 성능 향상이 꽤 눈에 띄는데 GPT-4는 거의 압도적인 수준이군요.
#causality #llm
https://arxiv.org/abs/2304.14999
Empirical Analysis of the Strengths and Weaknesses of PEFT Techniques for LLMs (George Pu, Anirudh Jain, Jihan Yin, Russell Kaplan)
lora 같은 parameter efficient fine tuning 방법들에 대한 비교. FLAN-T5로 몇 가지 과제에 대해 파인튜닝한 결과인데...성능이 엇비슷한 것 같네요.
#finetuning
https://arxiv.org/abs/2304.14802
ResiDual: Transformer with Dual Residual Connections (Shufang Xie, Huishuai Zhang, Junliang Guo, Xu Tan, Jiang Bian, Hany Hassan Awadalla, Arul Menezes, Tao Qin, Rui Yan)
transformer와 layer norm의 잔혹사에 다시 한 획이 추가됐네요. pre layer norm은 representation collapse, 즉 상위 레이어의 출력에 대한 기여 정도가 감소하는 문제가 있고, post layer norm은 gradient vanish가 있으니 이 둘을 합쳐 두 가지 경로를 동시에 유지한다...라는 발상이군요. 효과가 아주 크진 않은 것 같은데 layer norm을 두 개 사용하고 elementwise add가 몇 번 더 추가되는 것이 조금 아쉽긴 하네요.
별개로 비교 결과로 B2T라고 하는, post layer norm + skip conn 추가로 태클한 논문이 있는데 (https://arxiv.org/abs/2206.00330) 이것도 나쁘지 않아 보이네요.
#transformer #normalization
https://arxiv.org/abs/2305.00118
Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 (Kent K. Chang, Mackenzie Cramer, Sandeep Soni, David Bamman)
GPT-4 학습에 대체 어떤 책들을 집어넣었을까? 책에서 한 문단 정도를 가져온 다음 등장 인물 이름을 가리고 이걸 예측하게 했습니다. 예측 성공율로 따졌을 때 이상한 나라의 앨리스 같은 고전적인 소설들이 높고...해리포터 같은 것도 잘 예측하는 군요. 결과적으로 저작권이 살아 있는 책들도 꽤 들어가 있다는 것을 확인했습니다.
그렇지만 이게 GPT-4 학습 데이터에 일부러 저작권이 있는 책들도 넣었다는 증거는 아닌 것 같고, 저작권이 있는 책들도 부분적으로나마 인터넷에 돌아다니는 경우가 많기 때문인 것으로 보이기는 합니다. 그렇지만 여기서 테스트한 책들이 대부분 소설, 베스트셀러 등이라서 아마 OpenAI가 더 관심이 있을 학술적인 서적에 대해서 확인된 것은 아니긴 하네요.
#llm