[CI] Fix broken ci (#2530)

vLLM commit https://github.com/vllm-project/vllm/pull/22711 changed the encode cache entries logic, this PR adapt the same change for vllm ascend to make CI happy. Co-Authored-By: zhoux77899 <zhouxiang100@huawei.com> - vLLM version: v0.10.1.1 - vLLM main: 0ff902f3b4 Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
2025-08-26 07:42:24 +08:00
parent 99bf25af76
commit 7e494e94a9
5 changed files with 256 additions and 123 deletions
--- a/tests/ut/core/test_scheduler.py
+++ b/tests/ut/core/test_scheduler.py
@@ -295,24 +295,25 @@ class TestAscendScheduler(TestBase):
            scheduler.running.append(req)
            req.status = RequestStatus.RUNNING

-        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
-                                           scheduled_cached_reqs=[],
-                                           num_scheduled_tokens={
-                                               requests[0].request_id: 1,
-                                               requests[1].request_id: 2
-                                           },
-                                           total_num_scheduled_tokens=3,
-                                           scheduled_encoder_inputs={},
-                                           scheduled_spec_decode_tokens={
-                                               requests[0].request_id: [],
-                                               requests[1].request_id: [10]
-                                           },
-                                           num_common_prefix_blocks=0,
-                                           finished_req_ids=set(),
-                                           free_encoder_input_ids=[],
-                                           structured_output_request_ids={},
-                                           grammar_bitmask=None)
        if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 1,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [],
+                    requests[1].request_id: [10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[req.request_id for req in requests],
                req_id_to_index={
@@ -327,6 +328,24 @@ class TestAscendScheduler(TestBase):
                prompt_logprobs_dict={},
                pooler_output=[])
        else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 1,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [],
+                    requests[1].request_id: [10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[req.request_id for req in requests],
                req_id_to_index={
@@ -363,25 +382,25 @@ class TestAscendScheduler(TestBase):
            scheduler.running.append(req)
            req.status = RequestStatus.RUNNING

-        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
-                                           scheduled_cached_reqs=[],
-                                           num_scheduled_tokens={
-                                               requests[0].request_id: 3,
-                                               requests[1].request_id: 2
-                                           },
-                                           total_num_scheduled_tokens=5,
-                                           scheduled_encoder_inputs={},
-                                           scheduled_spec_decode_tokens={
-                                               requests[0].request_id:
-                                               [10, 42],
-                                               requests[1].request_id: [13]
-                                           },
-                                           num_common_prefix_blocks=0,
-                                           finished_req_ids=set(),
-                                           free_encoder_input_ids=[],
-                                           structured_output_request_ids={},
-                                           grammar_bitmask=None)
        if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=5,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 42],
+                    requests[1].request_id: [13]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[req.request_id for req in requests],
                req_id_to_index={
@@ -395,6 +414,24 @@ class TestAscendScheduler(TestBase):
                prompt_logprobs_dict={},
                pooler_output=[])
        else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 2
+                },
+                total_num_scheduled_tokens=5,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 42],
+                    requests[1].request_id: [13]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[req.request_id for req in requests],
                req_id_to_index={
@@ -429,26 +466,25 @@ class TestAscendScheduler(TestBase):
            scheduler.running.append(req)
            req.status = RequestStatus.RUNNING

-        scheduler_output = SchedulerOutput(scheduled_new_reqs=[],
-                                           scheduled_cached_reqs=[],
-                                           num_scheduled_tokens={
-                                               requests[0].request_id: 3,
-                                               requests[1].request_id: 1
-                                           },
-                                           total_num_scheduled_tokens=4,
-                                           scheduled_encoder_inputs={},
-                                           scheduled_spec_decode_tokens={
-                                               requests[0].request_id:
-                                               [10, 11],
-                                               requests[1].request_id: []
-                                           },
-                                           num_common_prefix_blocks=0,
-                                           finished_req_ids=set(),
-                                           free_encoder_input_ids=[],
-                                           structured_output_request_ids={},
-                                           grammar_bitmask=None)
-
        if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 1
+                },
+                total_num_scheduled_tokens=4,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 11],
+                    requests[1].request_id: []
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[req.request_id for req in requests],
                req_id_to_index={
@@ -462,6 +498,24 @@ class TestAscendScheduler(TestBase):
                prompt_logprobs_dict={},
                pooler_output=[])
        else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={
+                    requests[0].request_id: 3,
+                    requests[1].request_id: 1
+                },
+                total_num_scheduled_tokens=4,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [10, 11],
+                    requests[1].request_id: []
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[req.request_id for req in requests],
                req_id_to_index={
@@ -493,22 +547,21 @@ class TestAscendScheduler(TestBase):
        scheduler.requests[requests[0].request_id] = requests[0]
        scheduler.running.append(requests[0])

-        scheduler_output = SchedulerOutput(
-            scheduled_new_reqs=[],
-            scheduled_cached_reqs=[],
-            num_scheduled_tokens={requests[0].request_id: 3},
-            total_num_scheduled_tokens=3,
-            scheduled_encoder_inputs={},
-            scheduled_spec_decode_tokens={
-                requests[0].request_id: [EOS_TOKEN_ID, 10]
-            },
-            num_common_prefix_blocks=0,
-            finished_req_ids=set(),
-            free_encoder_input_ids=[],
-            structured_output_request_ids={},
-            grammar_bitmask=None)
-
        if vllm_version_is("0.10.1.1"):
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={requests[0].request_id: 3},
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [EOS_TOKEN_ID, 10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_input_ids=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[requests[0].request_id],
                req_id_to_index={requests[0].request_id: 0},
@@ -519,6 +572,20 @@ class TestAscendScheduler(TestBase):
                pooler_output=[])

        else:
+            scheduler_output = SchedulerOutput(
+                scheduled_new_reqs=[],
+                scheduled_cached_reqs=[],
+                num_scheduled_tokens={requests[0].request_id: 3},
+                total_num_scheduled_tokens=3,
+                scheduled_encoder_inputs={},
+                scheduled_spec_decode_tokens={
+                    requests[0].request_id: [EOS_TOKEN_ID, 10]
+                },
+                num_common_prefix_blocks=0,
+                finished_req_ids=set(),
+                free_encoder_mm_hashes=[],
+                structured_output_request_ids={},
+                grammar_bitmask=None)
            model_output = ModelRunnerOutput(
                req_ids=[requests[0].request_id],
                req_id_to_index={requests[0].request_id: 0},