[Quickfix] update CachedRequestState as NewRequestData changed (#2367)

### What this PR does / why we need it? 1. update `CachedRequestState` as `NewRequestData` changed in https://github.com/vllm-project/vllm/pull/22570 2. drop maintenance of vllm v0.10.0 in the branch main ### Does this PR introduce _any_ user-facing change? N/A ### How was this patch tested? CI passed with existing test. - vLLM version: v0.10.0 - vLLM main: 92ff41abea --------- Signed-off-by: MengqingCao <cmq0113@163.com>
2025-08-15 07:35:27 +08:00
parent 2ad7e1251e
commit 61866b8ac6
18 changed files with 77 additions and 285 deletions
--- a/tests/ut/kv_connector/test_remote_prefill_lifecycle.py
+++ b/tests/ut/kv_connector/test_remote_prefill_lifecycle.py
@@ -25,7 +25,6 @@ from tests.ut.kv_connector.utils import (assert_scheduler_empty,
                                         create_model_runner_output,
                                         create_request, create_scheduler,
                                         create_vllm_config)
-from vllm_ascend.utils import vllm_version_is


 def test_basic_lifecycle():
@@ -91,13 +90,10 @@ def test_basic_lifecycle():

    # (2b): forward(): request finishes recv.
    model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
-    if vllm_version_is("0.10.0"):
-        model_runner_output.finished_recving = [request_id]
-    else:
-        from vllm.v1.worker.kv_connector_model_runner_mixin import \
-            KVConnectorOutput  # type: ignore  # noqa
-        model_runner_output.kv_connector_output = KVConnectorOutput(
-            finished_recving=[request_id])
+    from vllm.v1.worker.kv_connector_model_runner_mixin import \
+        KVConnectorOutput  # type: ignore  # noqa
+    model_runner_output.kv_connector_output = KVConnectorOutput(
+        finished_recving=[request_id])

    # (2c): update_from_output():
    engine_core_outputs = scheduler.update_from_output(scheduler_output,
@@ -211,13 +207,10 @@ def test_full_block_prompt():
    # # STEP (2): Recv.
    scheduler_output = scheduler.schedule()
    model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
-    if vllm_version_is("0.10.0"):
-        model_runner_output.finished_recving = [request_id]
-    else:
-        from vllm.v1.worker.kv_connector_model_runner_mixin import \
-            KVConnectorOutput  # type: ignore  # noqa
-        model_runner_output.kv_connector_output = KVConnectorOutput(
-            finished_recving=[request_id])
+    from vllm.v1.worker.kv_connector_model_runner_mixin import \
+        KVConnectorOutput  # type: ignore  # noqa
+    model_runner_output.kv_connector_output = KVConnectorOutput(
+        finished_recving=[request_id])
    scheduler.update_from_output(scheduler_output, model_runner_output)
    assert len(scheduler.waiting) == 1
    assert (request_id in scheduler.finished_recving_kv_req_ids)