2024년 5월 13일
ThunderKittens
(Hazy Research)
H100에서 행렬곱을 효율적으로 구현하는 것이 CUDA에 이골이 난 사람들에게도 굉장히 까다로운 작업인 이유들이군요.
이 분석 과정을 거친 끝에 ThunerKittens라는 DSL를 개발했군요. Triton 이상으로 단순한 듯 하면서도 기존의 Flash Attention 구현보다도 더 고속입니다. 재미있네요.
#hardware #efficiency
MAP-NEO
(Multimodal Art Projection)
Multimodal Art Projection (https://m-a-p.ai/) 이라는 곳에서 LLM을 공개하면서 데이터셋과 데이터 파이프라인을 공개했네요. (https://huggingface.co/datasets/m-a-p/Matrix, https://github.com/multimodal-art-projection/MAP-NEO/tree/main/Matrix) 웹 크롤 필터링 파이프라인 뿐만 아니라 레이아웃 분석을 통한 PDF 데이터 추출과 DeepSeekMath 스타일의 수학 데이터 발굴 파이프라인도 포함되어 있습니다.
#dataset #llm
State-Free Inference of State-Space Models: The Transfer Function Approach
(Rom N. Parnichkun, Stefano Massaroli, Alessandro Moro, Jimmy T.H. Smith, Ramin Hasani, Mathias Lechner, Qi An, Christopher Ré, Hajime Asama, Stefano Ermon, Taiji Suzuki, Atsushi Yamashita, Michael Poli)
We approach designing a state-space model for deep learning applications through its dual representation, the transfer function, and uncover a highly efficient sequence parallel inference algorithm that is state-free: unlike other proposed algorithms, state-free inference does not incur any significant memory or computational cost with an increase in state size. We achieve this using properties of the proposed frequency domain transfer function parametrization, which enables direct computation of its corresponding convolutional kernel's spectrum via a single Fast Fourier Transform. Our experimental results across multiple sequence lengths and state sizes illustrates, on average, a 35% training speed improvement over S4 layers -- parametrized in time-domain -- on the Long Range Arena benchmark, while delivering state-of-the-art downstream performances over other attention-free approaches. Moreover, we report improved perplexity in language modeling over a long convolutional Hyena baseline, by simply introducing our transfer function parametrization. Our code is available at https://github.com/ruke1ire/RTF.
State Space Model을 전달 함수로 표현해서 Diagonalization 같은 트릭 없이 효유적 연산이 가능하게 한 방법. 강렬한 신호 처리의 냄새가 나는군요.
#state-space-model