2023년 10월 6일
https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY
OpenAI Hyung Won Chung의 강연이 있었네요. Scaling이 시사하는 강력한 사실 - 지금 되지 않는다고 해서 앞으로도 되지 않을 것이라고 말할 수 없다는 , 그리고 RLHF를 learned loss로 보는 관점에 대한 이야기군요.
https://x.com/hwchung27/status/1710003293223821658
https://arxiv.org/abs/2310.03734
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency (Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan)
와 Cycle Consistency! 정말 오랜만에 들어보는 표현 같네요. Image-to-Text와 Text-to-Image 모듈을 학습시키는데, Unpaired Image/Text를 사용하기 위해 CycleGAN 같은 Cycle Consistency를 주입합니다.
기본적으로 I2T와 T2I는 이미지-텍스트 인코더를 공유하고 독립적인 이미지/텍스트 디코더를 사용합니다. 이미지 인코더는 MAE 기반이네요.
Text-Image-Text: T2I로 텍스트에서 이미지 생성, 마스킹한 이미지를 I2T에 입력으로 주고 입력 텍스트를 사용해 Loss를 계산합니다.
Image-Text-Image: I2T로 이미지에서 텍스트를 생성하고, 마스킹한 이미지와 생성한 텍스트를 사용해 T2I로 마스킹된 부분에 대해 입력 이미지로 Loss를 계산합니다.
Paired 데이터를 사용하는 것과 대비해 비슷한 scalability를 보여주고, 이미지-텍스트 페어의 퀄리티가 낮을 경우를 고려하면 오히려 더 나아질 수도 있다는 결과를 시사하네요. 흥미롭습니다.
#text2img #captioning
https://arxiv.org/abs/2310.02304
Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation (Eric Zelikman, Eliana Lorch, Lester Mackey, Adam Tauman Kalai)
LLM을 사용해서 과제의 답변을 개선하는 프로그램인 Improver를 가정해보죠. 간단하게 이 답변을 개선해보라고 하는 프롬프트를 사용하는 프로그램을 생각해볼 수 있겠죠. 이 논문은 이 Improver를 Improver를 사용해 개선할 수 있는가라는 문제를 다룹니다. 실제로 개선이 되고 개선된 Improver가 다른 과제에도 일반화가 가능하군요.
이렇게 찾아낸 Improver들을 보니 Beam Search나 Simulated Annealing, Bandit 등을 사용하는 알고리즘이 나타났다고 하네요. 이건 예를 들어 Tree of Thoughts (https://arxiv.org/abs/2305.10601) 같은 알고리즘을 LLM을 사용해 찾아낼 수 있다는 것을 시사한다고 할 수 있겠죠. 좀 충격적이네요.
#refinement