[Kernel] Optimize the recurrent op

2025-12-21 11:18:00 +08:00
parent 58c1db5073
commit 004e164bdb
1 changed files with 2 additions and 1 deletions
--- a/vllm_kunlun/ops/fla/fused_recurrent.py
+++ b/vllm_kunlun/ops/fla/fused_recurrent.py
@@ -44,6 +44,7 @@ class FusedRecurrentFunction(torch.autograd.Function):
            h0_indices=ssm_state_indices,
            num_accepted_tokens=num_accepted_tokens,
            use_qk_l2norm_in_kernel=use_qk_l2norm_in_kernel,
+            is_h0_transposed=True
        )
        return o, final_state

@@ -150,4 +151,4 @@ def fused_recurrent_gated_delta_rule(
        num_accepted_tokens,
        use_qk_l2norm_in_kernel,
    )
-    return o, final_state
+    return o, final_state