2023년 11월 7일
OpenAI DevDay
https://openai.com/blog/new-models-and-developer-products-announced-at-devday
https://openai.com/blog/introducing-gpts
GPT-4 Turbo. 128K context length, 더 고속이고 GPT-4보다 향상된 성능. 지식의 범위가 2023년 4월까지 확장됨. 입력 토큰 비용 1/3, 출력 토큰 비용 1/2. 비전 지원.
Functional Calling의 정확도 향상, 한 번에 여러 함수를 호출할 수 있음.
XML 등의 포맷 제약에 대한 정확도 향상. JSON으로 출력 포맷을 강제할 수 있음.
시드 지정과 log prob 리턴 가능.
GPT-3.5 Turbo 성능 강화. 입력 토큰 비용 1/3, 출력 토큰 비용 1/2. GPT-3.5 파인튜닝 또한 입력 토큰 비용 1/4, 출력 토큰 비용 1/2.7, 16K context length 지원.
API 개선. 대화 쓰레드를 자동 관리할 수 있음. 코드 인터프리터, Retrieval, Function call 접근 가능.
DALL-E 3, TTS API 추가.
GPT-4 파인튜닝 추가.
GPT-4 커스텀 모델. 추가 도메인에 대한 프리트레이닝에서부터 RL까지 전 단계에 대해 커스텀화할 수 있음.
GPTs. 프롬프트, 플러그인, Retrieval을 위한 데이터 등을 지정해서 ChatGPT를 커스텀화할 수 있는 도구. 스토어로 공개할 수도 있고 내부 사용만을 위한 모델을 만들 수도 있음.
Whisper v3, Consistency Decoder를 오픈소스로 공개.
https://arxiv.org/abs/2311.03285
S-LoRA: Serving Thousands of Concurrent LoRA Adapters (Ying Sheng, Shiyi Cao, Dacheng Li, Coleman Hooper, Nicholas Lee, Shuo Yang, Christopher Chou, Banghua Zhu, Lianmin Zheng, Kurt Keutzer, Joseph E. Gonzalez, Ion Stoica)
다양한 lora를 배치 처리하고 효율적으로 추론하는 문제에 대한 대응. lora를 합치는 대신 기본 weight로 matmul을 하고, lora에 대해서는 배치 처리를 위한 커스텀 커널을 만들었군요. 거기에 같은 lora를 쓰는 리퀘스트들끼리 묶는다거나 paged attention을 확장해 lora weight를 올려놓는다거나 하는 최적화들도 들어갔습니다.
당연히 바닐라 모델이나 lora merge를 한 모델보다는 퍼포먼스가 떨어질 수밖에 없긴 한데...그럭저럭 할만해 보이는 것 같이 보이기도 하네요. 배치 처리가 쉬운 어댑터를 쓰는 쪽이 맞지 않을까 싶었는데 이렇게까지 만든 시스템이 있다고 하면 lora를 고려해볼만할 것 같네요.
#efficiency #adapter
https://arxiv.org/abs/2311.03079
CogVLM: Visual Expert for Pretrained Language Models (Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang)
vision-language 모델에서 이미지 인코더 임베딩에 대한 projection 정도를 학습하고 나머지를 전부 얼리는 대신, 이미지 토큰에 대해서는 추가적인 attention과 ffn expert를 추가해서 이 expert도 튜닝하자는 아이디어.
OpenAI가 관심 있는 게 multimodal 모델의 from scratch 학습이라고 하는데...이 논문을 보니 MoE와 from scratch 학습이 결합되면 꽤 재미있을 것 같다는 느낌이 드네요.
#vision-language #multimodal #moe
https://arxiv.org/abs/2311.02684
Octavius: Mitigating Task Interference in MLLMs via MoE (Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin, Si Liu, Lu Sheng, Wanli Ouyang, Yu Qiao, Jing Shao)
이쪽도 어떻게 보면 비슷한 아이디어네요. 여러 modality과 과제를 통합하기 위해서 lora로 MoE 형태의 모델을 만들고, 각 instruction에 따라 특정한 expert lora를 선택하게 하는 방법. 포인트 클라우드 같은 입력도 시도해봤군요.
#multimodal #instruction-tuning #moe
https://arxiv.org/abs/2311.02462
Levels of AGI: Operationalizing Progress on the Path to AGI (Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg)
AGI의 조건에 대한 이야기. 일단 퍼포먼스의 측면에서 AI가 아님, 기술이 없는 사람과 비슷하거나 나음, 기술이 있는 성인의 50분위 수준, 전문가 - 기술이 있는 성인의 90분위 수준, 거장 - 기술이 있는 성인의 99분위 수준, 그리고 인류 전체를 초월함으로 나누고, 범용적이냐 특정 과제에 국한되어 있느냐로 나눴군요.
최근 평균적인 사람이 할 수 있는 작업을 할 수 있으면 AGI다 수준의 정의를 많이 하는데 그것의 연장선상이라고 할 수 있을 것 같습니다.
거기에 퍼포먼스에 따라 AI 시스템의 가능한 자율성에도 단계를 매겼군요. 사람이 모두 하는 단계, 사람이 과제를 모두 통제하고 AI는 평범한 하위 과제를 수행하는 단계, 사람이 지시하면 AI가 중요한 작업을 하는 단계, AI와 사람이 동등하게 협업하는 단계, AI가 주도하고 사람은 가이드와 피드백을 제공하거나 하위 과제를 수행하는 단계, 그리고 완전히 자율적인 AI 순서군요.
#ai
https://arxiv.org/abs/2311.02805
Tailoring Self-Rationalizers with Multi-Reward Distillation (Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren)
답과 함께 타당한 근거를 제시할 수 있는 모델 만들기. 근거에 대해서 논리적이고 상식적인가(Plausibility), 명료하고 반복적이지 않은가(Diverse), 정답과 일관되는가(Consistent)라는 세 가지 타겟을 설정하고 이 타겟에 대해 RL을 한다는 접근이군요. 기본적으로 multi reward 문제가 되고, 여기서는 Quark를 사용해서 풀었습니다.
#alignment