[CI] Remove compatibility maintenance for vllm v0.10.1 and v0.10.1.1 (#2840)

### What this PR does / why we need it? Remove compatibility maintenance for vllm v0.10.1 and v0.10.1.1 ### Does this PR introduce _any_ user-facing change? branch main of vllm-ascend will not be compatible with vllm v0.10.1 and v0.10.1.1 ### How was this patch tested? CI passed with existing test. - vLLM version: v0.10.1.1 - vLLM main: 6fb2788163 --------- Signed-off-by: MengqingCao <cmq0113@163.com>
2025-09-10 08:43:10 +08:00
parent 93e28e6862
commit edf1f600ad
22 changed files with 340 additions and 876 deletions
--- a/tests/ut/core/test_scheduler.py
+++ b/tests/ut/core/test_scheduler.py
@@ -13,18 +13,12 @@ from vllm.v1.core.kv_cache_utils import (get_request_block_hasher,
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.kv_cache_interface import (FullAttentionSpec, KVCacheConfig,
                                        KVCacheGroupSpec)
-from vllm.v1.outputs import ModelRunnerOutput
+from vllm.v1.outputs import DraftTokenIds, ModelRunnerOutput
 from vllm.v1.request import Request, RequestStatus
 from vllm.v1.structured_output import StructuredOutputManager

 from tests.ut.base import TestBase
 from vllm_ascend.core.scheduler import AscendScheduler
-from vllm_ascend.utils import vllm_version_is
-
-if not (vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1")):
-    from vllm.v1.outputs import DraftTokenIds
-else:
-    DraftTokenIds = None

 EOS_TOKEN_ID = 50256
 MODEL = "Qwen3-0.6B"
@@ -54,25 +48,13 @@ def create_requests(
                                     prompt_logprobs=prompt_logprobs)
    requests = []
    for i in range(num_requests):
-        if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-            request = Request(request_id=f"{i}",
-                              prompt_token_ids=[i] * num_tokens,
-                              sampling_params=sampling_params,
-                              multi_modal_kwargs=None,
-                              multi_modal_placeholders=None,
-                              multi_modal_hashes=None,
-                              eos_token_id=EOS_TOKEN_ID,
-                              pooling_params=None,
-                              block_hasher=get_request_block_hasher(
-                                  block_size, hash_fn))
-        else:
-            request = Request(request_id=f"{i}",
-                              prompt_token_ids=[i] * num_tokens,
-                              sampling_params=sampling_params,
-                              eos_token_id=EOS_TOKEN_ID,
-                              pooling_params=None,
-                              block_hasher=get_request_block_hasher(
-                                  block_size, hash_fn))
+        request = Request(request_id=f"{i}",
+                          prompt_token_ids=[i] * num_tokens,
+                          sampling_params=sampling_params,
+                          eos_token_id=EOS_TOKEN_ID,
+                          pooling_params=None,
+                          block_hasher=get_request_block_hasher(
+                              block_size, hash_fn))
        requests.append(request)
    return requests

@@ -85,25 +67,15 @@ def make_output(scheduler):
    }
    sampled_token_ids = [[1000]] * len(scheduler.running)
    logprobs = None
-    if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-        modelrunner_output = ModelRunnerOutput(
-            req_ids=req_ids,
-            req_id_to_index=req_id_to_index,
-            sampled_token_ids=sampled_token_ids,
-            spec_token_ids=None,
-            logprobs=logprobs,
-            prompt_logprobs_dict={},
-            pooler_output=[],
-        )
-    else:
-        modelrunner_output = ModelRunnerOutput(
-            req_ids=req_ids,
-            req_id_to_index=req_id_to_index,
-            sampled_token_ids=sampled_token_ids,
-            logprobs=logprobs,
-            prompt_logprobs_dict={},
-            pooler_output=[],
-        )
+
+    modelrunner_output = ModelRunnerOutput(
+        req_ids=req_ids,
+        req_id_to_index=req_id_to_index,
+        sampled_token_ids=sampled_token_ids,
+        logprobs=logprobs,
+        prompt_logprobs_dict={},
+        pooler_output=[],
+    )
    return modelrunner_output


@@ -304,69 +276,34 @@ class TestAscendScheduler(TestBase):
            scheduler.running.append(req)
            req.status = RequestStatus.RUNNING

-        if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={
-                    requests[0].request_id: 1,
-                    requests[1].request_id: 2
-                },
-                total_num_scheduled_tokens=3,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [],
-                    requests[1].request_id: [10]
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_input_ids=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[req.request_id for req in requests],
-                req_id_to_index={
-                    req.request_id: i
-                    for i, req in enumerate(requests)
-                },
-                sampled_token_ids=[[EOS_TOKEN_ID], [
-                    10, 11
-                ]],  # First request hits EOS, second continues
-                spec_token_ids=None,
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
-        else:
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={
-                    requests[0].request_id: 1,
-                    requests[1].request_id: 2
-                },
-                total_num_scheduled_tokens=3,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [],
-                    requests[1].request_id: [10]
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_mm_hashes=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[req.request_id for req in requests],
-                req_id_to_index={
-                    req.request_id: i
-                    for i, req in enumerate(requests)
-                },
-                sampled_token_ids=[[EOS_TOKEN_ID], [
-                    10, 11
-                ]],  # First request hits EOS, second continues
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
+        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
+                                           scheduled_cached_reqs=[],
+                                           num_scheduled_tokens={
+                                               requests[0].request_id: 1,
+                                               requests[1].request_id: 2
+                                           },
+                                           total_num_scheduled_tokens=3,
+                                           scheduled_encoder_inputs={},
+                                           scheduled_spec_decode_tokens={
+                                               requests[0].request_id: [],
+                                               requests[1].request_id: [10]
+                                           },
+                                           num_common_prefix_blocks=0,
+                                           finished_req_ids=set(),
+                                           free_encoder_mm_hashes=[],
+                                           structured_output_request_ids={},
+                                           grammar_bitmask=None)
+        model_output = ModelRunnerOutput(
+            req_ids=[req.request_id for req in requests],
+            req_id_to_index={
+                req.request_id: i
+                for i, req in enumerate(requests)
+            },
+            sampled_token_ids=[[EOS_TOKEN_ID], [10, 11]
+                               ],  # First request hits EOS, second continues
+            logprobs=None,
+            prompt_logprobs_dict={},
+            pooler_output=[])

        scheduler.update_from_output(scheduler_output, model_output)

@@ -391,67 +328,35 @@ class TestAscendScheduler(TestBase):
            scheduler.running.append(req)
            req.status = RequestStatus.RUNNING

-        if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={
-                    requests[0].request_id: 3,
-                    requests[1].request_id: 2
-                },
-                total_num_scheduled_tokens=5,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [10, 42],
-                    requests[1].request_id: [13]
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_input_ids=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[req.request_id for req in requests],
-                req_id_to_index={
-                    req.request_id: i
-                    for i, req in enumerate(requests)
-                },
-                sampled_token_ids=[[10, 42, 12],
-                                   [13, 14]],  # First request hits stop token
-                spec_token_ids=None,
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
-        else:
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={
-                    requests[0].request_id: 3,
-                    requests[1].request_id: 2
-                },
-                total_num_scheduled_tokens=5,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [10, 42],
-                    requests[1].request_id: [13]
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_mm_hashes=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[req.request_id for req in requests],
-                req_id_to_index={
-                    req.request_id: i
-                    for i, req in enumerate(requests)
-                },
-                sampled_token_ids=[[10, 42, 12],
-                                   [13, 14]],  # First request hits stop token
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
+        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
+                                           scheduled_cached_reqs=[],
+                                           num_scheduled_tokens={
+                                               requests[0].request_id: 3,
+                                               requests[1].request_id: 2
+                                           },
+                                           total_num_scheduled_tokens=5,
+                                           scheduled_encoder_inputs={},
+                                           scheduled_spec_decode_tokens={
+                                               requests[0].request_id:
+                                               [10, 42],
+                                               requests[1].request_id: [13]
+                                           },
+                                           num_common_prefix_blocks=0,
+                                           finished_req_ids=set(),
+                                           free_encoder_mm_hashes=[],
+                                           structured_output_request_ids={},
+                                           grammar_bitmask=None)
+        model_output = ModelRunnerOutput(
+            req_ids=[req.request_id for req in requests],
+            req_id_to_index={
+                req.request_id: i
+                for i, req in enumerate(requests)
+            },
+            sampled_token_ids=[[10, 42, 12],
+                               [13, 14]],  # First request hits stop token
+            logprobs=None,
+            prompt_logprobs_dict={},
+            pooler_output=[])

        scheduler.update_from_output(scheduler_output, model_output)

@@ -475,67 +380,35 @@ class TestAscendScheduler(TestBase):
            scheduler.running.append(req)
            req.status = RequestStatus.RUNNING

-        if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={
-                    requests[0].request_id: 3,
-                    requests[1].request_id: 1
-                },
-                total_num_scheduled_tokens=4,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [10, 11],
-                    requests[1].request_id: []
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_input_ids=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[req.request_id for req in requests],
-                req_id_to_index={
-                    req.request_id: i
-                    for i, req in enumerate(requests)
-                },
-                sampled_token_ids=[[10, 11, 12],
-                                   [13]],  # First request exceeds max_tokens
-                spec_token_ids=None,
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
-        else:
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={
-                    requests[0].request_id: 3,
-                    requests[1].request_id: 1
-                },
-                total_num_scheduled_tokens=4,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [10, 11],
-                    requests[1].request_id: []
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_mm_hashes=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[req.request_id for req in requests],
-                req_id_to_index={
-                    req.request_id: i
-                    for i, req in enumerate(requests)
-                },
-                sampled_token_ids=[[10, 11, 12],
-                                   [13]],  # First request exceeds max_tokens
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
+        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
+                                           scheduled_cached_reqs=[],
+                                           num_scheduled_tokens={
+                                               requests[0].request_id: 3,
+                                               requests[1].request_id: 1
+                                           },
+                                           total_num_scheduled_tokens=4,
+                                           scheduled_encoder_inputs={},
+                                           scheduled_spec_decode_tokens={
+                                               requests[0].request_id:
+                                               [10, 11],
+                                               requests[1].request_id: []
+                                           },
+                                           num_common_prefix_blocks=0,
+                                           finished_req_ids=set(),
+                                           free_encoder_mm_hashes=[],
+                                           structured_output_request_ids={},
+                                           grammar_bitmask=None)
+        model_output = ModelRunnerOutput(
+            req_ids=[req.request_id for req in requests],
+            req_id_to_index={
+                req.request_id: i
+                for i, req in enumerate(requests)
+            },
+            sampled_token_ids=[[10, 11, 12],
+                               [13]],  # First request exceeds max_tokens
+            logprobs=None,
+            prompt_logprobs_dict={},
+            pooler_output=[])
        scheduler.update_from_output(scheduler_output, model_output)

        # Verify first request stopped due to length
@@ -556,52 +429,27 @@ class TestAscendScheduler(TestBase):
        scheduler.requests[requests[0].request_id] = requests[0]
        scheduler.running.append(requests[0])

-        if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={requests[0].request_id: 3},
-                total_num_scheduled_tokens=3,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [EOS_TOKEN_ID, 10]
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_input_ids=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[requests[0].request_id],
-                req_id_to_index={requests[0].request_id: 0},
-                sampled_token_ids=[[EOS_TOKEN_ID, 10, 11]],
-                spec_token_ids=None,
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
-
-        else:
-            scheduler_output = SchedulerOutput(
-                scheduled_new_reqs=[],
-                scheduled_cached_reqs=[],
-                num_scheduled_tokens={requests[0].request_id: 3},
-                total_num_scheduled_tokens=3,
-                scheduled_encoder_inputs={},
-                scheduled_spec_decode_tokens={
-                    requests[0].request_id: [EOS_TOKEN_ID, 10]
-                },
-                num_common_prefix_blocks=0,
-                finished_req_ids=set(),
-                free_encoder_mm_hashes=[],
-                structured_output_request_ids={},
-                grammar_bitmask=None)
-            model_output = ModelRunnerOutput(
-                req_ids=[requests[0].request_id],
-                req_id_to_index={requests[0].request_id: 0},
-                sampled_token_ids=[[EOS_TOKEN_ID, 10, 11]],
-                logprobs=None,
-                prompt_logprobs_dict={},
-                pooler_output=[])
+        scheduler_output = SchedulerOutput(
+            scheduled_new_reqs=[],
+            scheduled_cached_reqs=[],
+            num_scheduled_tokens={requests[0].request_id: 3},
+            total_num_scheduled_tokens=3,
+            scheduled_encoder_inputs={},
+            scheduled_spec_decode_tokens={
+                requests[0].request_id: [EOS_TOKEN_ID, 10]
+            },
+            num_common_prefix_blocks=0,
+            finished_req_ids=set(),
+            free_encoder_mm_hashes=[],
+            structured_output_request_ids={},
+            grammar_bitmask=None)
+        model_output = ModelRunnerOutput(
+            req_ids=[requests[0].request_id],
+            req_id_to_index={requests[0].request_id: 0},
+            sampled_token_ids=[[EOS_TOKEN_ID, 10, 11]],
+            logprobs=None,
+            prompt_logprobs_dict={},
+            pooler_output=[])

        scheduler.update_from_output(scheduler_output, model_output)

@@ -652,23 +500,13 @@ class TestAscendScheduler(TestBase):
                512)

            # Model output of the first request.
-            if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=[requests[0].request_id],
-                    req_id_to_index={requests[0].request_id: 0},
-                    sampled_token_ids=[[0]],
-                    spec_token_ids=None,
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    pooler_output=[])
-            else:
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=[requests[0].request_id],
-                    req_id_to_index={requests[0].request_id: 0},
-                    sampled_token_ids=[[0]],
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    pooler_output=[])
+            model_runner_output = ModelRunnerOutput(
+                req_ids=[requests[0].request_id],
+                req_id_to_index={requests[0].request_id: 0},
+                sampled_token_ids=[[0]],
+                logprobs=None,
+                prompt_logprobs_dict={},
+                pooler_output=[])

            scheduler.update_from_output(scheduler_output0,
                                         model_runner_output)
@@ -678,23 +516,13 @@ class TestAscendScheduler(TestBase):
            # request is still running.
            scheduler.schedule()
            # Model output of the second request.
-            if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=[requests[1].request_id],
-                    req_id_to_index={requests[1].request_id: 0},
-                    sampled_token_ids=[[0]],
-                    spec_token_ids=None,
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    pooler_output=[])
-            else:
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=[requests[1].request_id],
-                    req_id_to_index={requests[1].request_id: 0},
-                    sampled_token_ids=[[0]],
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    pooler_output=[])
+            model_runner_output = ModelRunnerOutput(
+                req_ids=[requests[1].request_id],
+                req_id_to_index={requests[1].request_id: 0},
+                sampled_token_ids=[[0]],
+                logprobs=None,
+                prompt_logprobs_dict={},
+                pooler_output=[])

            scheduler.update_from_output(scheduler_output1,
                                         model_runner_output)
@@ -746,29 +574,19 @@ class TestAscendScheduler(TestBase):
                req_id = requests[i].request_id
                self.assertEqual(output.num_scheduled_tokens[req_id], 1)
                self.assertNotIn(req_id, output.scheduled_spec_decode_tokens)
-            if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=req_ids,
-                    req_id_to_index=req_to_index,
-                    sampled_token_ids=[[0] for _ in range(len(requests))],
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    spec_token_ids=spec_tokens,
-                    pooler_output=[])
-            else:
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=req_ids,
-                    req_id_to_index=req_to_index,
-                    sampled_token_ids=[[0] for _ in range(len(requests))],
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    pooler_output=[])
-                draft_token_ids = DraftTokenIds(req_ids, spec_tokens)
+
+            model_runner_output = ModelRunnerOutput(
+                req_ids=req_ids,
+                req_id_to_index=req_to_index,
+                sampled_token_ids=[[0] for _ in range(len(requests))],
+                logprobs=None,
+                prompt_logprobs_dict={},
+                pooler_output=[])
+            draft_token_ids = DraftTokenIds(req_ids, spec_tokens)

            engine_core_outputs = scheduler.update_from_output(
                output, model_runner_output)
-            if not (vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1")):
-                scheduler.update_draft_token_ids(draft_token_ids)
+            scheduler.update_draft_token_ids(draft_token_ids)

            for i in range(len(requests)):
                running_req = scheduler.running[i]
@@ -804,23 +622,14 @@ class TestAscendScheduler(TestBase):
                else:
                    self.assertNotIn(req_id,
                                     output.scheduled_spec_decode_tokens)
-            if vllm_version_is("0.10.1.1") or vllm_version_is("0.10.1"):
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=req_ids,
-                    req_id_to_index=req_to_index,
-                    sampled_token_ids=output_tokens,
-                    spec_token_ids=None,
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    pooler_output=[])
-            else:
-                model_runner_output = ModelRunnerOutput(
-                    req_ids=req_ids,
-                    req_id_to_index=req_to_index,
-                    sampled_token_ids=output_tokens,
-                    logprobs=None,
-                    prompt_logprobs_dict={},
-                    pooler_output=[])
+
+            model_runner_output = ModelRunnerOutput(
+                req_ids=req_ids,
+                req_id_to_index=req_to_index,
+                sampled_token_ids=output_tokens,
+                logprobs=None,
+                prompt_logprobs_dict={},
+                pooler_output=[])

            engine_core_outputs = scheduler.update_from_output(
                output, model_runner_output)