2023년 11월 22일
https://arxiv.org/abs/2311.12022
GPQA: A Graduate-Level Google-Proof Q&A Benchmark (David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R. Bowman)
생물학, 물리학, 화학에 대해 PhD들을 모아 만든 고난이도 문제 벤치마크. 전문가들에게 구글링을 허용해도 정확도가 70 ~ 80% 밖에 나오지 않는 정도의 난이도네요. (비전문가는 30% 수준입니다.) GPT-4가 현재 40% 정도 수준의 성능을 보여주는 군요.
#benchmark
https://arxiv.org/abs/2311.12424
Looped Transformers are Better at Learning Learning Algorithms (Liu Yang, Kangwook Lee, Robert Nowak, Dimitris Papailiopoulos)
In-context Learning에 대해 Mesa optimization이라는 아이디어에서 시작해 트랜스포머 자체를 SGD 같은 iterative algorithm을 더 잘 학습할 수 있도록 바꿔볼 수 있을까라는 아이디어네요. Universal Transformer나 Implicit Model과 비슷하게 하나의 레이어를 반복적으로 적용하되, 입력 임베딩을 매 반복마다 더해주는 차이가 있습니다. 추가로 학습 시에 레이어 적용 횟수의 최저값을 하이퍼파라미터로 지정하는 군요.
iteration의 증가에 따라 결과값이 고정점으로 수렴하는 모델이 되고, 학습 시 적용한 iteration보다 많은 iteration에 대해서도 일반화가 가능해지는 군요. 복잡도가 높은 함수에 대해서는 트랜스포머와 엇비슷한 것 같긴 합니다. 여하간 arbitrary depth 모델은 꽤 흥미로운 주제가 아닌가 싶습니다.
#in_context_learning #transformer