Reapply "[Refactor] Unify full-graph parameter update logic (#6041)" (#6227) (#6231)

This reverts commit 95649344aa. The CI failure doesn't related to this change. Let's reapply it. - vLLM version: v0.14.0 - vLLM main: d68209402d
2026-01-26 09:04:54 +08:00
parent c38c838d03
commit 4e3919e965
10 changed files with 420 additions and 415 deletions
--- a/tests/ut/compilation/test_acl_graph.py
+++ b/tests/ut/compilation/test_acl_graph.py
@@ -24,12 +24,15 @@ from vllm.forward_context import BatchDescriptor, ForwardContext
 from tests.ut.base import TestBase
 from vllm_ascend.attention.attention_v1 import (AscendMetadata,
                                                AscendMetadataForDecode)
+from vllm_ascend.attention.context_parallel.attention_cp import \
+    AscendAttentionCPImpl
+from vllm_ascend.attention.context_parallel.mla_cp import AscendMlaCPImpl
 from vllm_ascend.attention.mla_v1 import (AscendMLADecodeMetadata,
                                          AscendMLAMetadata)
 from vllm_ascend.compilation.acl_graph import (
    ACLGraphEntry, ACLGraphWrapper, get_draft_graph_params, get_graph_params,
-    set_draft_graph_params, set_graph_params, update_attn_dcp_pcp_params,
-    update_draft_graph_params_workspaces, update_mla_attn_dcp_pcp_params)
+    set_draft_graph_params, set_graph_params,
+    update_draft_graph_params_workspaces)


 class TestACLGraphEntry(TestBase):
@@ -811,8 +814,9 @@ class TestPCPDCPGraphParams(TestBase):
             out, lse))

        with patch("torch_npu._C._npu_setStream", return_value=None):
-            update_mla_attn_dcp_pcp_params(self.update_stream, forward_context,
-                                           4)
+            AscendMlaCPImpl.update_graph_params(
+                self.update_stream, forward_context, 4
+            )

        _mock_graph_task_end.assert_called_once()

@@ -852,6 +856,8 @@ class TestPCPDCPGraphParams(TestBase):
             out, lse, 2, 0, 0))

        with patch("torch_npu._C._npu_setStream", return_value=None):
-            update_attn_dcp_pcp_params(self.update_stream, forward_context, 4)
+            AscendAttentionCPImpl.update_graph_params(
+                self.update_stream, forward_context, 4, None
+            )

        _mock_graph_task_end.assert_called_once()
--- a/tests/ut/spec_decode/test_eagle_proposer.py
+++ b/tests/ut/spec_decode/test_eagle_proposer.py
@@ -333,11 +333,11 @@ class TestEagleProposerDummyRun(TestBase):
        self.proposer.dummy_run(num_tokens=64, with_prefill=True, num_reqs=4)
        self.assertTrue(self.proposer._runnable.call_count == 1)

-    @patch("vllm_ascend.spec_decode.eagle_proposer.update_attn_params")
+    @patch("vllm_ascend.spec_decode.eagle_proposer.update_full_graph_params")
    @patch("vllm_ascend.spec_decode.eagle_proposer.get_forward_context")
    @patch("vllm_ascend.spec_decode.eagle_proposer.set_ascend_forward_context")
    def test_dummy_run_in_graph_capture(self, mock_context, mock_get_context,
-                                        mock_update_attn_params):
+                                        mock_update_full_graph_params):
        last_use_cuda_graph = self.proposer.use_cuda_graph
        mock_return_context = MagicMock()
        mock_return_context.cudagraph_runtime_mode = CUDAGraphMode.FULL
@@ -352,14 +352,14 @@ class TestEagleProposerDummyRun(TestBase):
                                in_graph_capturing=True,
                                aclgraph_runtime_mode=CUDAGraphMode.FULL)
        self.assertTrue(self.proposer._runnable.call_count == 1)
-        mock_update_attn_params.assert_not_called()
+        mock_update_full_graph_params.assert_not_called()
        self.proposer.use_cuda_graph = last_use_cuda_graph

-    @patch("vllm_ascend.spec_decode.eagle_proposer.update_attn_params")
+    @patch("vllm_ascend.spec_decode.eagle_proposer.update_full_graph_params")
    @patch("vllm_ascend.spec_decode.eagle_proposer.get_forward_context")
    @patch("vllm_ascend.spec_decode.eagle_proposer.set_ascend_forward_context")
    def test_dummy_run_in_graph_run(self, mock_context, mock_get_context,
-                                    mock_update_attn_params):
+                                    mock_update_full_graph_params):
        last_use_cuda_graph = self.proposer.use_cuda_graph
        mock_return_context = MagicMock()
        mock_return_context.cudagraph_runtime_mode = CUDAGraphMode.FULL
@@ -374,7 +374,7 @@ class TestEagleProposerDummyRun(TestBase):
                                in_graph_capturing=False,
                                aclgraph_runtime_mode=CUDAGraphMode.FULL)
        self.assertTrue(self.proposer._runnable.call_count == 1)
-        self.assertTrue(mock_update_attn_params.call_count == 1)
+        self.assertTrue(mock_update_full_graph_params.call_count == 1)
        self.proposer.use_cuda_graph = last_use_cuda_graph