2023년 5월 1주차
https://arxiv.org/abs/2305.01115
In-Context Learning Unlocked for Diffusion Models (Zhendong Wang, Yifan Jiang, Yadong Lu, Yelong Shen, Pengcheng He, Weizhu Chen, Zhangyang Wang, Mingyuan Zhou)
text2image에 대한 in context learning...그러니까 텍스트 프롬프트, 그리고 입력 이미지를 어떤 출력 이미지로 바꿔야 하는지에 대한 pair, 그리고 변환할 추가 입력 이미지를 넣으면 입력에 맞게 변환된 이미지를 생성한다는 것이군요. 전반적인 접근은 controlnet에 추가적인 입력을 넣는다는 느낌이네요. 구체적으로 어디 쓸 수 있을지는 잘 모르겠지만 여하간 재미있긴 합니다.
#few_shot #ddpm #text2img
https://arxiv.org/abs/2305.00729
What Do Self-Supervised Vision Transformers Learn? (Namuk Park, Wonjae Kim, Byeongho Heo, Taekyung Kim, Sangdoo Yun)
contrastive learning vs masked image modeling. training objective가 시사하는 것처럼 contrastive learning은 global한 feature를 추출하는 것에 치중하는 경향이 있고 masked image modeling은 비교적 local한 feature를 추출하는 경향이 있군요. 결론적으로...둘 다 하면 좋습니다.
#self_supervised #contrastive_learning #mlm
https://arxiv.org/abs/2305.01569
Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation (Yuval Kirstain, Adam Polyak, Uriel Singer, Shahbuland Matiana, Joe Penna, Omer Levy)
text2img 모델의 텍스트 프롬프트와, 생성된 두 이미지, 그리고 그 중 어느 쪽을 유저들이 선호했는가에 대한 데이터셋. 크라우드워커가 아니라 유저들의 피드백 결과로 레이블링 되었다는 것을 강조하고 있군요. midjourney도 super resolution 과정에서 유저가 특정 이미지를 선택하게 하는 것으로 선호 레이블을 모으고 있다고 하던데 Stability AI 쪽에서도 비슷한 작업을 한 것을 보면 같은 쪽으로 생각이 모인 것 같네요.
그래서 이 선호도 데이터셋으로 무엇을 할 수 있는가...하면 무궁무진할 것 같군요.
#text2img
https://twitter.com/jefrankle/status/1652918238018260992?s=20
https://twitter.com/jefrankle/status/1653038984065433603?s=20
https://arxiv.org/abs/2305.01625
Unlimiformer: Long-Range Transformers with Unlimited Length Input (Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley)
overlapping window를 사용해서 긴 시퀀스의 청크들을 인코더로 인코딩하고, 이렇게 만들어진 임베딩을 디코더에서 knn으로 top-k개 가져와서 cross attention에 사용한다...이런 방법이군요. 어차피 입력 시퀀스 길이가 길어지면 인코더 입력을 k개로 truncation 하는 것과 비슷하다고 보는 느낌이네요. 여하간 이 방법으로 99%의 attention mass를 유지 가능하다고 주장합니다.
인코더-디코더 모델에만 가능하고 이런 형태를 사용했을 때 attention mass가 유지되는 현상이 autoregressive lm에서 어느 정도 기대할 수 있는지 궁금하긴 합니다. 그렇지만 저도 이런 형태의 knn query가 꽤 괜찮은 접근이 아닌가 하는 생각이 들긴 합니다. 어차피 벡터 데이터베이스도 많이 쓰는데요.
#seq2seq
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
3D Gaussian Splatting for Real-Time Radiance Field Rendering (Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, George Drettakis)
Splatting 기반 real time rendering. SfM으로 추출한 포인트 클라우드에서 3d gaussian 셋을 만들고, 이를 기반으로 렌더링하면서 3d gaussian을 최적화 하는 방법. 학습 속도, 추론 속도 둘 다 빠르고 1080p 수준에서 높은 퀄리티를 보여준다고 하는군요. 샘플 영상이 인상적입니다.
SfM으로 추출한 포인트 클라우드에서 시작한다는 점을 고려했을 때 camera pose estimation을 녹여 넣기는 좀 어렵지 않을까 싶긴 하네요.
#neural_rendering #nerf
https://arxiv.org/abs/2305.02440
Cheaply Evaluating Inference Efficiency Metrics for Autoregressive Transformer APIs (Deepak Narayanan, Keshav Santhanam, Peter Henderson, Rishi Bommasani, Tony Lee, Percy Liang)
LLM 모델의 efficiency를 염탐하기 위한 방법이네요. latency가 프롬프트 토큰 인코딩과 토큰 생성으로 구성된다고 보고, 동일한 하드웨어와 소프트웨어로 측정한 지표와 API 호출로 측정된 latency를 디노이징한 것을 비교해서 추론 속도를 추정하고, 나타나는 성능을 엮어서 성능과 latency의 트레이드오프를 측정하거나 추론 비용을 추정하는 작업입니다.
#llm #efficiency
https://arxiv.org/abs/2305.02309
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages (Erik Nijkamp, Hiroaki Hayashi, Caiming Xiong, Silvio Savarese, Yingbo Zhou)
Salesforce의 code lm에 대한 분석. 요약은:
prefix lm 딱히 장점이 없는 듯. 이건 https://arxiv.org/abs/2205.11726 이 연구와도 합치하지 않나 싶습니다. (하이브리드는 애매한...)
infilling은 아무 트레이드오프 없이 그냥 성능이 오르지는 않는 듯. 어떤 문제에 대해서는 문제가 생김.
그렇지만 아주 큰 손해는 아닌 듯 해서 UL2 스타일로 autoregressive lm + span corruption을 50% 비율로 섞고, 추가로 span corruption이 document boundary만 넘지 않도록 주의해서 적용해봄.
자연어와 코드를 섞으면 자연어/코드 과제에 대해 성능이 조금씩 떨어지긴 하는데 크게 떨어지는 것 같지는 않아서 섞는 것이 괜찮을 것 같음
위와 같습니다.
#lm
https://arxiv.org/abs/2305.02790
BranchNorm: Robustly Scaling Extremely Deep Transformers (Yijin Liu, Xianfeng Zeng, Fandong Meng, Jie Zhou)
트랜스포머 normalizatin 잔혹사. post ln 기반으로 y = LN(x + aF(x)), a는 학습 iteration에 따라 천천히 증가시키는 방법입니다. DeepNorm에서도 y = LN(ax + F(x)) 같은 식으로 접근했는데 residual branch의 비중이 높게 잡히는 부작용이 생기니 학습 진행에 따라 감소시키겠다는 아이디어군요.
post ln이 성능상 이점이 있지만 학습이 불안정한데, 일단 학습 초반만 넘기면 된다는 느낌이기도 하네요. 다만 대규모 모델에 대해서도 통할 것인가, 그리고 이런 학습 iteration에 대한 scheduling hyperparameter가 더 생기는 것이 귀찮다, 정도가 문제겠군요.
#normalization #transformer
https://arxiv.org/abs/2305.03111
Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs (Jinyang Li, Binyuan Hui, Ge Qu, Binhua Li, Jiaxi Yang, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Chenhao Ma, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li)
LLM을 text2sql 모델로 사용해 데이터베이스 인터페이스로 사용할 수 있을까? 현재는 chain of thought와 추가 정보 등을 사용해도 인간의 92.96에 대해 gpt-3.5-turbo는 40.08 정도로 기대에 못 미친다는 결론입니다. GPT-4나 더 정교한 시스템이면 성능이 향상될 수 있을 것 같긴 한데...어디까지 도달할 수 있을지 궁금하네요.
#llm
https://arxiv.org/abs/2305.02582
On the Expressivity Role of LayerNorm in Transformers' Attention (Shaked Brody, Uri Alon, Eran Yahav)
layer norm이 attention에 미치는 영향. 이 논문에서는 layer norm의 효과를 1. 모든 키를 동일한 하이퍼플레인으로 projection. 2. 모든 키를 동일한 norm으로 scaling으로 보는군요. 1번의 효과는 모든 키들을 동등하게 선택할 수 있는 가능성을 부여하는 것이고 2번의 효과는 특정 키가 선택되지 않거나 못하는 문제를 해소하는 것으로 보는군요.
#transformer #attention #normalization
https://arxiv.org/abs/2305.03047
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision (Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan)
수백 라인 정도의 어노테이션으로 LLM align. 주제 기반으로 LLM이 답하기 어려운 instruction을 LLM으로 생성, 사전에 지정된 원칙을 사용해 LLM으로 적절한 응답을 생성, 프롬프트들을 제거한 다음 만들어진 대화 기록으로 파인튜닝, 그리고 이후 적절한 스타일의 응답을 생성하도록 프롬프트를 주고 생성된 대화로 Distill 하는 순서로 진행합니다.
여러모로 사람이 직접 어노테이션한 Open Assistant 등에 비해서는 밀리는 듯 하지만 꽤 흥미로운 접근으로 보이네요.
#alignment #instruction-tuning
https://arxiv.org/abs/2305.03053
ZipIt! Merging Models from Different Tasks without Training (George Stoica, Daniel Bolya, Jakob Bjorner, Taylor Hearn, Judy Hoffman)
모델 두 개를 합쳐 두 모델의 기능을 통합하는 하나의 모델을 만들기. 각 모델의 레이어에서 correlation이 높은 feature들을 골라 합치는 행렬과, 이 합쳐진 feature를 분리하는 행렬의 조합으로 새 weight 행렬을 만드는 식이군요. 재미있네요.