[CI] Make AttentionBackend interface compatible to fix broken CI (#1893)

vLLM commit 752c6ade2e removed `blocksparse_params` for attention backend. This PR does the same change to make CI happy. - vLLM version: v0.9.2 - vLLM main: 9499e26e2a --------- Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> Signed-off-by: Yikun Jiang <yikunkero@gmail.com> Co-authored-by: Yikun Jiang <yikunkero@gmail.com>
2025-07-21 08:21:06 +08:00
parent 54f2b31184
commit a8b316ac5b
4 changed files with 118 additions and 10 deletions
--- a/vllm_ascend/attention/attention_v1_torchair.py
+++ b/vllm_ascend/attention/attention_v1_torchair.py
@@ -29,7 +29,7 @@ from vllm.v1.worker.gpu_input_batch import InputBatch

 from vllm_ascend.attention.attention_v1 import AscendAttentionState
 from vllm_ascend.utils import (ACL_FORMAT_FRACTAL_NZ, aligned_16, is_310p,
-                               nd_to_nz_2d)
+                               nd_to_nz_2d, vllm_version_is)


 class AscendAttentionTorchairBackend(AttentionBackend):
@@ -41,6 +41,8 @@ class AscendAttentionTorchairBackend(AttentionBackend):

    @staticmethod
    def get_impl_cls() -> Type["AscendAttentionTorchairBackendImpl"]:
+        if vllm_version_is("0.9.2"):
+            return AscendAttentionTorchairBackendImpl092
        return AscendAttentionTorchairBackendImpl

    @staticmethod
@@ -333,7 +335,6 @@ class AscendAttentionTorchairBackendImpl(AttentionImpl):
        alibi_slopes: Optional[List[float]],
        sliding_window: Optional[int],
        kv_cache_dtype: str,
-        blocksparse_params: Optional[Dict[str, Any]] = None,
        logits_soft_cap: Optional[float] = None,
        attn_type: str = AttentionType.DECODER,
        kv_sharing_target_layer_name: Optional[str] = None,
@@ -501,3 +502,36 @@ class AscendAttentionTorchairBackendImpl(AttentionImpl):
                "to use ascend scheduler.")

        return output.view(num_tokens, self.hidden_size)
+
+
+class AscendAttentionTorchairBackendImpl092(AscendAttentionTorchairBackendImpl
+                                            ):
+
+    def __init__(
+        self,
+        num_heads: int,
+        head_size: int,
+        scale: float,
+        num_kv_heads: int,
+        alibi_slopes: Optional[List[float]],
+        sliding_window: Optional[int],
+        kv_cache_dtype: str,
+        blocksparse_params: Optional[Dict[str, Any]] = None,
+        logits_soft_cap: Optional[float] = None,
+        attn_type: str = AttentionType.DECODER,
+        kv_sharing_target_layer_name: Optional[str] = None,
+        use_irope: bool = False,
+    ) -> None:
+        super().__init__(
+            num_heads=num_heads,
+            head_size=head_size,
+            scale=scale,
+            num_kv_heads=num_kv_heads,
+            alibi_slopes=alibi_slopes,
+            sliding_window=sliding_window,
+            kv_cache_dtype=kv_cache_dtype,
+            logits_soft_cap=logits_soft_cap,
+            attn_type=attn_type,
+            kv_sharing_target_layer_name=kv_sharing_target_layer_name,
+            use_irope=use_irope,
+        )