Drop vLLM 0.13.0 support (#6069)

### What this PR does / why we need it? Drop vLLM 0.13.0 support, upgrade to 0.14.0 - vLLM version: v0.13.0 - vLLM main: d68209402d --------- Signed-off-by: hfadzxy <starmoon_zhang@163.com>
2026-01-23 09:45:08 +08:00
parent 27a513b672
commit 819a4459ce
39 changed files with 86 additions and 272 deletions
--- a/vllm_ascend/kv_offload/cpu_npu.py
+++ b/vllm_ascend/kv_offload/cpu_npu.py
@@ -2,19 +2,11 @@ import numpy as np
 import torch
 from vllm.logger import init_logger
 from vllm.utils.platform_utils import is_pin_memory_available
+from vllm.v1.attention.backend import AttentionBackend  # type: ignore
 from vllm.v1.kv_offload.mediums import CPULoadStoreSpec, GPULoadStoreSpec
 from vllm.v1.kv_offload.worker.worker import (OffloadingHandler,
                                              TransferResult, TransferSpec)

-from vllm_ascend.utils import vllm_version_is
-
-# isort: off
-if vllm_version_is('0.13.0'):
-    from vllm.attention.backends.abstract import AttentionBackend  # type: ignore
-else:
-    from vllm.v1.attention.backend import AttentionBackend  # type: ignore
-# isort: on
-
 logger = init_logger(__name__)


--- a/vllm_ascend/kv_offload/npu.py
+++ b/vllm_ascend/kv_offload/npu.py
@@ -3,6 +3,7 @@ from typing import Optional

 import torch
 from vllm.config import VllmConfig
+from vllm.v1.attention.backend import AttentionBackend  # type: ignore
 from vllm.v1.kv_offload.abstract import LoadStoreSpec, OffloadingManager
 from vllm.v1.kv_offload.backends.cpu import CPUBackend
 from vllm.v1.kv_offload.lru_manager import LRUOffloadingManager
@@ -12,14 +13,6 @@ from vllm.v1.kv_offload.worker.worker import OffloadingHandler
 from vllm.v1.kv_cache_interface import KVCacheConfig

 from vllm_ascend.kv_offload.cpu_npu import CpuNpuOffloadingHandler
-from vllm_ascend.utils import vllm_version_is
-
-# isort: off
-if vllm_version_is('0.13.0'):
-    from vllm.attention.backends.abstract import AttentionBackend  # type: ignore
-else:
-    from vllm.v1.attention.backend import AttentionBackend  # type: ignore
-# isort: on


 class NPUOffloadingSpec(OffloadingSpec):
@@ -27,10 +20,7 @@ class NPUOffloadingSpec(OffloadingSpec):
    def __init__(self,
                 vllm_config: VllmConfig,
                 kv_cache_config: Optional[KVCacheConfig] = None):
-        if vllm_version_is('0.13.0'):
-            super().__init__(vllm_config)
-        else:
-            super().__init__(vllm_config, kv_cache_config)
+        super().__init__(vllm_config, kv_cache_config)

        num_cpu_blocks = self.extra_config.get("num_cpu_blocks")
        if not num_cpu_blocks: