FlashKDA: كيرنل CUTLASS من Moonshot لـ Kimi
٢ مايو ٢٠٢٦
Moonshot أطلقت FlashKDA كمصدر مفتوح، وهو CUTLASS CUDA kernel لـ Kimi Delta Attention. بديل مباشر لـ flash-linear-attention مع تسريع في الـ prefill يصل إلى 2.22 ضعف على H20 GPUs.
Moonshot أطلقت FlashKDA كمصدر مفتوح، وهو CUTLASS CUDA kernel لـ Kimi Delta Attention. بديل مباشر لـ flash-linear-attention مع تسريع في الـ prefill يصل إلى 2.22 ضعف على H20 GPUs.