Revert "[MoE] [Refactor] Remove manual memory cleanup (#3365)" (#3483)

This reverts commit 4f937f561d. ### What this PR does / why we need it? This reverts commit 4f937f561d. ### Does this PR introduce _any_ user-facing change? No ### How was this patch tested? e2e & ut - vLLM version: v0.11.0rc3 - vLLM main: https://github.com/vllm-project/vllm/commit/v0.11.0 Signed-off-by: Pr0Wh1teGivee <calvin_zhu0210@outlook.com>
2025-10-15 22:25:46 +08:00
parent f69a83b7ba
commit cec1fab509
8 changed files with 500 additions and 572 deletions
--- a/tests/ut/ops/test_moe_comm_method.py
+++ b/tests/ut/ops/test_moe_comm_method.py
@@ -45,7 +45,7 @@ class TestMoECommMethod(TestBase):
        # Mock prepare finalize
        mock_pf_instance = MagicMock()
        mock_pf_instance.prepare.return_value = (torch.randn(4, 8),
-                                                 torch.randn(4, 2), None, None)
+                                                 torch.randn(4, 2), None)
        mock_pf_instance.finalize.return_value = torch.randn(4, 8)
        mock_prepare_finalize.return_value = mock_pf_instance

@@ -59,18 +59,15 @@ class TestMoECommMethod(TestBase):
        # Test prepare method
        hidden_states = torch.randn(3, 8)
        router_logits = torch.randn(3, 2)
-        h_out, r_out, mc2_mask, context_metadata = comm_impl.prepare(
-            hidden_states, router_logits)
+        h_out, r_out = comm_impl.prepare(hidden_states, router_logits)

        # Verify prepare was called with correct arguments
        mock_pf_instance.prepare.assert_called_once_with(
            hidden_states, router_logits, False, False, None)

        # Test finalize method
-        comm_impl.finalize(h_out,
-                           reduce_results=True,
-                           context_metadata=context_metadata)
-        mock_pf_instance.finalize.assert_called_once_with(h_out, True, None)
+        comm_impl.finalize(h_out, reduce_results=True)
+        mock_pf_instance.finalize.assert_called_once_with(h_out, True)

    @patch("vllm_ascend.ops.moe.moe_comm_method.get_current_vllm_config")
    @patch("vllm_ascend.ops.moe.moe_comm_method.get_forward_context")
@@ -93,8 +90,7 @@ class TestMoECommMethod(TestBase):
        mock_pf_instance = MagicMock()
        mock_pf_instance.prepare.return_value = (torch.randn(4, 8),
                                                 torch.randn(4, 2),
-                                                 torch.tensor([1, 0, 1,
-                                                               0]), None)
+                                                 torch.tensor([1, 0, 1, 0]))
        mock_pf_instance.finalize.return_value = torch.randn(4, 8)
        mock_prepare_finalize.return_value = mock_pf_instance

@@ -108,18 +104,15 @@ class TestMoECommMethod(TestBase):
        # Test prepare method
        hidden_states = torch.randn(3, 8)
        router_logits = torch.randn(3, 2)
-        h_out, r_out, mc2_mask, context_metadata = comm_impl.prepare(
-            hidden_states, router_logits)
+        h_out, r_out = comm_impl.prepare(hidden_states, router_logits)

        # Verify prepare was called with correct arguments
        mock_pf_instance.prepare.assert_called_once_with(
            hidden_states, router_logits, False, False, None)

        # Test finalize method
-        comm_impl.finalize(h_out,
-                           reduce_results=True,
-                           context_metadata=context_metadata)
-        mock_pf_instance.finalize.assert_called_once_with(h_out, True, None)
+        comm_impl.finalize(h_out, reduce_results=True)
+        mock_pf_instance.finalize.assert_called_once_with(h_out, True)

    @patch("vllm_ascend.ops.moe.moe_comm_method.get_current_vllm_config")
    @patch("vllm_ascend.ops.moe.moe_comm_method.get_forward_context")
@@ -142,7 +135,7 @@ class TestMoECommMethod(TestBase):
        # Mock prepare finalize
        mock_pf_instance = MagicMock()
        mock_pf_instance.prepare.return_value = (torch.randn(4, 8),
-                                                 torch.randn(4, 2), None, None)
+                                                 torch.randn(4, 2), None)
        mock_pf_instance.finalize.return_value = torch.randn(4, 8)
        mock_prepare_finalize.return_value = mock_pf_instance

@@ -156,8 +149,7 @@ class TestMoECommMethod(TestBase):
        # Test prepare method
        hidden_states = torch.randn(3, 8)
        router_logits = torch.randn(3, 2)
-        h_out, r_out, mc2_mask, context_metadata = comm_impl.prepare(
-            hidden_states, router_logits)
+        h_out, r_out = comm_impl.prepare(hidden_states, router_logits)

        # Verify prepare was called with correct arguments
        mock_pf_instance.prepare.assert_called_once_with(