2023년 12월 8일
https://github.com/ContextualAI/HALOs/blob/main/assets/report.pdf
Human-Centered Loss Functions (Kawin Ethayarajh, Winnie Xu, Dan Jurafsky, Douwe Kiela)
응답 A > 응답 B 같은 preference가 아니라 개별 응답이 좋다/나쁘다를 사용해서 피드백을 줄 수 있을까? 사실 코드 실행 피드백 같이 Pass/Fail 피드백을 주는 경우에는 자연스러운 세팅이죠. Anthropic에서 Binary Discrimination vs Ranked Preference Modeling (https://arxiv.org/abs/2112.00861) 으로 테스트한 세팅이기도 하고요. 문제는 어떤 데이터가 자연스러운가 or 어노테이션에서 높은 퀄리티를 확보할 수 있는가인데 preference가 자연스러운 경우가 많지 않나 싶긴 하네요.
#alignment
https://arxiv.org/abs/2312.04557
GenTron: Delving Deep into Diffusion Transformers for Image and Video Generation (Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua)
요즘은 CNN이 들어가 있으면 트랜스포머로 바꾸고 싶어지는 시대죠. Class conditional 트랜스포머 diffusion 모델을 text2img 문제로 가져왔군요. 추가적으로 temporal attention을 사용해 비디오 생성도 태클했습니다. 비디오 생성에 대해서는 비디오 데이터의 퀄리티 한계와 temporal한 부분에 대해 지나치게 많은 학습 시그널이 들어가는 문제에 대해 다뤘군요.
#video_generation #diffusion #text2img
https://arxiv.org/abs/2312.04455
Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use (Yuhan Chen, Ang Lv, Ting-En Lin, Changyu Chen, Yuchuan Wu, Fei Huang, Yongbin Li, Rui Yan)
RoPE를 사용하는 경우 attention weight에서 발생하는 진동이 성능에 영향을 미칠 수 있다는 문제군요. oscillation의 피크에 있을 때와 골에 있을 때 성능 차이가 있다고 합니다. 논문에서는 base를 바꿔서 이 문제에 대응하는 방법을 고안하고 있는데 사실 RoPE의 oscillation 문제를 해결할 필요가 있겠다는 생각이 들긴 하네요. https://arxiv.org/abs/2212.10554
#positional_encoding
https://arxiv.org/abs/2312.04511
An LLM Compiler for Parallel Function Calling (Sehoon Kim, Suhong Moon, Ryan Tabrizi, Nicholas Lee, Michael W. Mahoney, Kurt Keutzer, Amir Gholami)
LLM Planner로 질의에 대해 최대한 병렬적으로 실행할 수 있도록 함수 호출을 구성하게 해서 순차적으로 함수를 실행하는 비효율성을 해소하려는 시도. 하필 작업 중에 OpenAI가 다중 함수 호출 기능을 추가해버리긴 했네요. 여하간 검색 같은 사례에서 불필요하게 순차 실행하는 부분을 제거하는 것은 사용자 경험에 중요할 듯 싶습니다.
#agent #llm
https://arxiv.org/abs/2312.04567
Scaling Laws of Synthetic Images for Model Training ... for Now (Lijie Fan, Kaifeng Chen, Dilip Krishnan, Dina Katabi, Phillip Isola, Yonglong Tian)
이미지 생성 모형으로 생성된 이미지로 모델을 학습시켰을 때의 scaling law. 실제 이미지를 쓰는 것이 더 scalable 하지만 OOD 데이터셋에 대해서는 생성 이미지를 사용하는 것도 비슷한 scalability를 보여주는군요. 다만 이미지 생성 모델이 학습된 데이터의 양과 노이즈 등이 영향을 미칠 수 있지 않을까 싶네요.
클래스 별로 나눠봤는데 생성 퀄리티가 좋은 클래스와 그렇지 않은 클래스 사이에서 scalability가 많이 달라지긴 하네요.
#synthetic-data
https://arxiv.org/abs/2312.03818
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want (Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang)
이미지 위에서 특정 객체를 가리키기 위해 표시를 하는 시도가 등장하고 있는데 그러면 이미지 자체를 변형하게 되죠. 그래서 알파 채널처럼 마스크를 붙여주면 어떨까 하는 시도. 마스크는 요즘 객체와 관련된 문제에 대한 만능 모델인 SAM을 썼습니다.
모델의 개형은 완전히 다르지만 Sequential Modeling (https://arxiv.org/abs/2312.00785) 시도를 연상시키는 부분이 있네요. 이 세팅이 꽤 괜찮지 않나 싶습니다.
#vision-language
https://arxiv.org/abs/2312.03884
WonderJourney: Going from Anywhere to Everywhere (Hong-Xing Yu, Haoyi Duan, Junhwa Hur, Kyle Sargent, Michael Rubinstein, William T. Freeman, Forrester Cole, Deqing Sun, Noah Snavely, Jiajun Wu, Charles Herrmann)
https://kovenyu.com/wonderjourney/
지속적인 3D scene을 생성하는 파이프라인. 다음 scene이 어떠해야 하는지를 LLM으로 생성하고, 3d generation 파이프라인에서는 scene들이 부드럽게 연결되도록 노력했네요.
#3d_generative_model
https://arxiv.org/abs/2312.04474
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator (Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter)
Scratchpad를 연상시키는 방법입니다. https://arxiv.org/abs/2112.00114 질의를 해결하기 위해 코드를 생성하되, 실행 가능한 코드는 파이썬으로 실행하고 실행할 수 없는 부분은 LLM이 실행해서 상태를 예측하도록 만들었습니다.
예를 들어 사물의 목록을 리스트로 바꾸고 길이를 가져오는 건 파이썬으로 실행 가능한데, 그 사물 중 무엇이 과일이냐 같은 것은 파이썬으로 만들기 어렵죠. 이 부분을 LLM이 커버해줍니다. 재미있네요. 코드가 문제를 절차적으로 해결하고 그 단계가 상세하게 기술된 형태의 데이터여서인지 이런 자연어 과제에 도움이 되네요.
#code #prompt