2024년 3월 5일
Claude 3
Claude 3가 나왔습니다.
벤치마크 성능은 GPT-4를 상회하는 수준입니다. 슬슬 벤치마크가 포화되었다는 느낌이 드는데 그 중 흥미로운 것은 GPQA네요. 각 분야의 박사급 전문가들이 구글까지 사용했을 때 80% 정도의 스코어가 나오는 벤치마크입니다. (https://arxiv.org/abs/2311.12022) GPT-4보다 베이스 모델이 더 강력한 것이 아닐까 하는 느낌이 드네요.
200K Context Length를 지원하고, 1M 까지 준비한 것으로 보입니다. 다만 Long Context 성능에서 Gemini 1.5 Pro와 비교하는 것도 흥미로울 듯 하네요.
비용이 GPT-4 Turbo의 2배 이상입니다. API는 사용 가능해서 테스트해보니 영어/한글 모두 cl100k와 비슷한 수준인 것 같습니다. 한글 OCR은 테스트해봤는데 아주 만족스럽지는 않지만 지금까지 나온 모델들 중에서는 가장 나은 느낌입니다.
GPT-4가 갑자기 가성비 모델이 된 것 같은 상황이네요. Claude 3의 퍼포먼스를 좀 더 살펴봐야겠지만요.
#llm
Scaling Rectified Flow Transformer for High-Resolution Image Synthesis
(Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podel,l Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach)
Stable Diffusion 3. Flow Matching/Rectified Flow (https://arxiv.org/abs/2209.03003) 기반이군요. 사실 여기에서 시작해서 타임스텝에 대한 샘플링 분포, DiT, Latent 채널 증가, 캡션 개선, 백본 개선, 고해상도 튜닝에서의 안정성을 위한 조정 등 수많은 튜닝들이 결합되었네요. 하나의 개선이 중점이 아니라 종합적인 제품을 만드는 것이기에 당연한 흐름이긴 합니다만.
#text-to-image #flow