https://cdn.openai.com/papers/dall-e-3.pdf
DALL-E 3에 대한 리포트가 공개됐군요. 요즘 스타일의 "Technical Report"는 아니고 그보다는 디테일이 더 들어있습니다. 역시 핵심은 이미지-텍스트 데이터셋에 대한 Recaptioning 작업이군요.
대략 어떻게 생긴 모델인지에 대한 힌트와, GPT-4를 사용해 사용자 입력을 캡션으로 변환하는 프롬프트 등에 대해서도 기술되어 있습니다. SDXL은 그렇다 치고 Midjourney 5.2와도 Human evaluation을 한 것을 보면 이미지 생성 쪽에서의 경쟁을 의식하고 있다는 의미는 아닐까 하는 생각도 합니다.
#text2img #captioning
https://arxiv.org/abs/2310.11616
Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach (David Ilić)
요인분석으로 LM의 성능의 85%를 설명하는 단일 요인을 추출할 수 있었다는 결과. 흥미롭기도 하지만 실용적으로도 모델 비교나 평가에 유용할 수 있지 않을까 싶습니다. 다만 insturction tuning된 모델들이 분석을 복잡하게 만들지 않나 싶네요.
https://www.reddit.com/r/MachineLearning/comments/17a31qb/r_85_of_the_variance_in_language_model
레딧 포스트를 보다가 https://arxiv.org/abs/2306.10062 비슷하게 요인 분석을 시도한 연구를 발견했습니다. 여기서는 세 가지 요인을 제안했네요.
#lm
https://arxiv.org/abs/2310.11971
Improving Generalization of Alignment with Human Preferences through Group Invariant Learning (Rui Zheng, Wei Shen, Yuan Hua, Wenbin Lai, Shihan Dou, Yuhao Zhou, Zhiheng Xi, Xiao Wang, Haoran Huang, Tao Gui, Qi Zhang, Xuanjing Huang)
RLHF에서 데이터 내에 존재하는 그룹들의 차이로 인한 분산을 감소시키는 방식으로 일반화 성능을 향상시키고자 하는 방법. 사전에 주어진 그룹 정보를 사용하는 것이 아니라 그룹을 추정하는 방식으로 접근했다는 것이 중요한 부분일 듯 하네요.
#rl #alignment
https://arxiv.org/abs/2310.12773
Safe RLHF: Safe Reinforcement Learning from Human Feedback (Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang)
같은 데이터에 대해 Helpfulness와 Harmlessness 레이블을 독립적으로 수집하고, 수집한 Helpfulness 데이터로 Reward 모델을, Harmlessness 데이터로 Cost 모델을 만듭니다. 그리고 이 두 모델을 결합해서 Harmlessness라는 제약 조건 하에서 Helpfulness를 최대화하는 문제를 라그랑주 승수로 풀었네요. 굉장히 흥미롭습니다. 고정된 가중치로 결합하는 방법에 대한 유의미한 진전이 될 수 있지 않을까 싶네요.
https://github.com/PKU-Alignment/safe-rlhf
1M 규모의 Helpfulness, Harmlessness 데이터를 구축했다고 하고 공개 예정이라고 합니다. 데이터 구축과 RLHF 파이프라인을 세 번 돌리는 게 보통 작업은 아니었을 텐데...북경대가 대단하긴 하네요.
#safety #rl #alignment
https://arxiv.org/abs/2310.12931
Eureka: Human-Level Reward Design via Coding Large Language Models (Yecheng Jason Ma, William Liang, Guanzhi Wang, De-An Huang, Osbert Bastani, Dinesh Jayaraman, Yuke Zhu, Linxi Fan, Anima Anandkumar)
LLM으로 Reward function을 최적화해서 RL에 사용할 수 있다는 연구. LLM을 사용한 blackbox optimization의 사례들처럼 Fitness에 대한 Reward function 최적화라고 할 수 있겠군요. 펜 돌리기를 해내는 건 신기하네요.
https://eureka-research.github.io/
#rl #llm
Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach 에서 쓴 샘플모델들이 open LLM leaderboard에 있는 걸 썼다는 것 같은데, 그러면 llama 파인튜닝한 모델들이 대부분 아닐까요?
Llm의 지식획득이 대부분이 pretraining 단계애서 된다고 보면, 대부분 같은 지식을 갖고 있으니 높은 g값이 나올 수 밖에 없는 셋팅이 아닌가 싶기도 합니다 🤔