[CI] Remove compatibility maintenance for vllm v0.10.1 and v0.10.1.1 (#2840)

### What this PR does / why we need it? Remove compatibility maintenance for vllm v0.10.1 and v0.10.1.1 ### Does this PR introduce _any_ user-facing change? branch main of vllm-ascend will not be compatible with vllm v0.10.1 and v0.10.1.1 ### How was this patch tested? CI passed with existing test. - vLLM version: v0.10.1.1 - vLLM main: 6fb2788163 --------- Signed-off-by: MengqingCao <cmq0113@163.com>
2025-09-10 08:43:10 +08:00
parent 93e28e6862
commit edf1f600ad
22 changed files with 340 additions and 876 deletions
--- a/vllm_ascend/worker/npu_input_batch.py
+++ b/vllm_ascend/worker/npu_input_batch.py
@@ -39,8 +39,6 @@ from vllm.v1.spec_decode.utils import is_spec_decode_unsupported
 from vllm.v1.utils import copy_slice
 from vllm.v1.worker.block_table import MultiGroupBlockTable

-from vllm_ascend.utils import vllm_version_is
-

@dataclass
 class CachedRequestState:
@@ -49,8 +47,7 @@ class CachedRequestState:
    prompt_token_ids: list[int]
    mm_kwargs: list[MultiModalKwargsItem]
    mm_positions: list[PlaceholderRange]
-    # TODO: remove Optional after 0.10.1.1
-    mm_hashes: Optional[list[str]]
+    mm_hashes: list[str]
    sampling_params: Optional[SamplingParams]
    pooling_params: Optional[PoolingParams]
    generator: Optional[torch.Generator]
@@ -726,20 +723,13 @@ class InputBatch:
            pooling_params = [
                self.pooling_params[req_id] for req_id in self.req_ids
            ]
-        if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-            return PoolingMetadata(
-                prompt_lens=torch.from_numpy(
-                    self.num_prompt_tokens[:self.num_reqs]).to(self.device),
-                prompt_token_ids=self.sampling_metadata.prompt_token_ids,
-                pooling_params=pooling_params,
-            )
-        else:
-            return PoolingMetadata(
-                prompt_lens=torch.from_numpy(
-                    self.num_prompt_tokens[:self.num_reqs]),
-                prompt_token_ids=self.sampling_metadata.prompt_token_ids,
-                pooling_params=pooling_params,
-            )
+
+        return PoolingMetadata(
+            prompt_lens=torch.from_numpy(
+                self.num_prompt_tokens[:self.num_reqs]),
+            prompt_token_ids=self.sampling_metadata.prompt_token_ids,
+            pooling_params=pooling_params,
+        )

    def _make_prompt_token_ids_tensor(self) -> torch.Tensor:
        max_prompt_len = self.num_prompt_tokens[:self.num_reqs].max()