2023년 3월 4주차
https://arxiv.org/abs/2303.11366
Reflexion: an autonomous agent with dynamic memory and self-reflection (Noah Shinn, Beck Labash, Ashwin Gopinath)
https://arxiv.org/abs/2303.11305
SVDiff: Compact Parameter Space for Diffusion Fine-Tuning (Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas, Feng Yang)
diffusion 모델에 대한 parameter efficient finetuning, multi subject generation, single image editing 방법이군요.
parameter efficient finetuning의 경우 svd를 적용한 모델 weight에 대하 singular value를 조작하는 방식으로 진행됩니다.
multi subject generation은 cutmix처럼 이미지를 잘라붙이기 + cross attention을 잘라 붙인 각 영역에 국한하는 unmix regularization을 적용해서 학습합니다.
single image editing은 parameter efficient finetuning으로 이미지/텍스트 페어에 대해 reconstruction으로 학습하고 추론 시에는 텍스트를 수정하는 방식입니다.
parameter efficient finetuning이 인기인 시점에서 lora에 비해서도 좀 더 근본 넘치는(?) 접근인 svd를 사용한 방식이군요. 다른 문제에서는 어느 정도 효과가 있을지 궁금하네요.
#ddpm #image_editing
https://arxiv.org/abs/2303.12528
MEGA: Multilingual Evaluation of Generative AI (Kabir Ahuja, Rishav Hada, Millicent Ochieng, Prachi Jain, Harshita Diddee, Samuel Maina, Tanuja Ganu, Sameer Segal, Maxamed Axmed, Kalika Bali, Sunayana Sitaram)
MS의 text-davinci-003에 대한 multilingual 평가. GPT-4는 어떨지가 궁금하긴 하네요. 여하간 multilingual 문제에 대한 인식을 갖고 있는 것 같으니 GPT-5는 multilingual 문제에 대해서 더 보완되어 나올 것이라는 것은 분명할 듯 싶습니다.
#llm #multilingual
https://arxiv.org/abs/2303.12570
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation (Fengji Zhang, Bei Chen, Yue Zhang, Jin Liu, Daoguang Zan, Yi Mao, Jian-Guang Lou, Weizhu Chen)
레포 단위에서 코드를 retrieval해서 autocomplete를 강화하는 모델. 일단 모델이 코드를 생성하고, 생성한 코드로 retrieval을 하고, retrieval된 코드로 다시 생성 결과를 수정하는 방식이군요. VSCode 코파일럿도 나왔던데 MS가 뭘 하고 있는지 다 드러나고 있네요.
#llm #retrieval
https://arxiv.org/abs/2303.12712
Sparks of Artificial General Intelligence: Early experiments with GPT-4 (Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang)
GPT-4에 대해서 또 능력 자랑이 나왔군요. MS에서 나왔고 보면 GPT-4 초기 모델부터 분석하고 있습니다. 결론은 일반 지능이라고 할 만한 단초들이 보인다. autoregressive 모델의 한계는 있음 정도겠네요. 일반 지능이라는 것의 막대한 무게감을 생각했을 때 단초가 보인다고 하는 것 자체도 엄청난 일일 것 같긴 합니다.
수많은 평가 예제들이 있고 기존 벤치마크 데이터셋들의 한계를 강조하고 있네요. 한 가지 재미있는 샘플은 tikz로 유니콘을 그리게 시키고, 거기서 뿔 부분의 코드를 뺀 다음, 뿔을 추가하라고 했더니 뿔을 추가했다는 부분입니다. multimodal 모델도 아닌 모델이 tikz 코드에서 뿔 부분을 찾아낼 수 있었다는 것을 시사하네요.
#llm
https://arxiv.org/abs/2303.13506
The Quantization Model of Neural Scaling (Eric J. Michaud, Ziming Liu, Uzay Girit, Max Tegmark)
요즘 관심이 있는 모델 크기와 모델의 capability에 대한 정돈된 접근인 듯 해서 소개.
scaling에서 중요한 것은 모델의 크기와 데이터의 수 양쪽이 중요한 것으로 보인다는 것. LLaMA의 결과를 보면 작은 모델을 더 오래 학습하는 것으로 큰 모델과 동등한 결과를 얻을 수 있지 않을까 하는 생각이 들지만...지금까지의 증거들로는 큰 모델에서만 습득할 수 있는 capability가 있는 것으로 보인다. 즉 모델의 크기 증가에 따라 emergent한 능력들이 나타나는 것 같다. (https://arxiv.org/abs/2206.07682, https://arxiv.org/abs/2302.07459 등. 물론 데이터셋 구성의 차이 등과 같은 문제가 섞여 있어 깔끔한 결론을 내기 어려운 것 같긴 하지만.)
모델 크기가 능력을 결정한다고 하면 우리가 필요로 하는 능력을 얻기 위해서는 어느 정도 크기가 필요한가가 중요한 부분인데 사실 이 부분에 대한 정보는 많지 않은 것 같다. (애초에 우리가 필요로 하는 능력이 무엇인지 잘 파악하고 있는 상태도 아니라고 봐야할 것이다.) 이 논문은 그런 실용적인 질문에 대한 답은 아니지만 생각과 분석의 프레임워크는 제공한다고 할 수 있을 것 같다. 논문의 가정은 다음과 같다:
모델이 가질 수 있는 스킬들은 이산적으로 존재한다. (quanta) 스킬의 숙련도가 점진적으로 증가한다기보다는 스킬을 획득했는가 아닌가라는 식으로 돌아간다고 볼 수 있겠다. 이 스킬에는 예를 들어 라인 길이를 79 문자로 맞추기 같은 것도 포함된다.
이 quanta들은 loss를 감소시키는데 유용한 정도가 다르기에, loss의 감소 정도에 따라 시퀀스를 이루게 된다. 그러니 전반적인 loss를 감소시키는데 가장 유용한 quanta를 습득하고, 순위가 낮은 quanta들은 나중에 습득하게 된다.
이 quanta들이 loss를 감소시키는데 사용되는 비율은 power law를 따른다.
이렇게 가정했을 때 모델의 크기는 배울 수 있는 quanta의 양을 결정하고 데이터에서 이런 능력이 필요한 사례의 등장 횟수가 quanta가 학습될 것인지 아닐 것인지를 결정한다는 주장이다. 그러니까 특정 quanta를 학습하려면 quanta를 학습할 수 있는 capacity (모델 크기)가 있어야 하고, 실제로 quanta를 학습해야 하는 필요가 발생해야 한다. (데이터의 양) 위 가정들을 받아들였을 때 모델의 크기와 데이터의 양이 loss의 감소에 대해 power law scaling을 야기하게 된다는 결론이다.
quanta는 이산적이기에 이 quanta가 습득되는가 아닌가라는 binary한 문제이지만, 어떤 능력의 경우에는 여러 quanta가 결합되어 작동하기에 모델의 크기 증가 -> quanta의 증가에 따라 이 quanta들이 합쳐지면서 성능이 점진적으로 증가하는 것으로 나타나고, 어떤 능력의 경우에는 quanta의 존재 유무 자체가 결정적인 영향을 미치기에 일정 규모까지는 능력이 나타나지 않았다가 특정 규모부터 능력이 발생하는 emergent한 현상이 발생한다, 이런 가설로 점진적으로 성능이 향상되는 스킬들과 창발적으로 등장하는 스킬들을 설명할 수 있다고 주장하고 있다.
실제로 llm이 이렇게 돌아가는가? 그건 아직 확실하지는 않은 것 같다. 다만 개인적으로는 그럴 듯한 것 같다는 생각이 들긴 한다. 뉴럴넷에서 특정 기능을 전담하는 회로가 존재한다는 사례들이 꽤 있는 듯 해서 그렇다.
어쨌든 이게 당면한 문제들에 대한 답을 바로 주지는 않는다. 모델이 커져야 발생할 수 있는 능력이 있다는 것을 받아들이더라도 실제로 모델을 키워서 학습해봐야 그 규모에서 어떤 능력이 발생하는지를 알 수 있다.
실용적인 측면에서는 설명과는 별개로 능력이 모델 규모에 대해 emergent하다는 사실 혹은 가정 자체가 중요할 것이다. 이건 더 큰 모델에서만 얻을 수 있는 능력이 있으며 더 작은 모델에서는 그 능력을 얻을 수 없을 수 있다는 것을 시사하고, 최적화의 관점에서는 우리가 어떤 능력이 어떤 규모에서 발생한다는 것을 아는 상태에서 우리에게 필요한 모델의 크기의 최저선을 그을 수도 있다는 것을 의미할 것이다.
개인적으로 이런 emergent behavior와 multilingual 문제에 대한 scaling law가 요즘 많이 궁금하다. 결국 증거 없이 할 수 있는 이야기는 제한적이라 좀 더 데이터가 많이 나오길 기대.
https://arxiv.org/abs/2303.14177
Scaling Expert Language Models with Unsupervised Domain Discovery (Suchin Gururangan, Margaret Li, Mike Lewis, Weijia Shi, Tim Althoff, Noah A. Smith, Luke Zettlemoyer)
domain expert moe 모델이군요. domain 설정을 k-means clustering으로 했는데...전 이게 늘 찝찝하긴 하네요. 도메인 지식을 주입하는 것이 이제 더 꺼림칙한 시대가 되었다보니.
#mixture_of_experts