[main][misc]change default capture size for Qwen3-MoE when using full dp (#4199)

### What this PR does / why we need it? Currently, the default `cudagraph_capture_size` in vLLM is `[1, 2, 4 ,8 ,16 ,24 ,... , max_capture_size]`. However, this is not always the best choice on different situations. This PR aims to change the default setting when running Qwen3-MoE on full dp (`dp_size > 1` && `tp_size == 1`) setting, which is usually applied in Large-Scale EP. old : `[1, 2, 4 ,8 ,16 ,24 ,... , max_capture_size]` new: `[1, 2, 5 ,10 ,15, 16 ,24 ,... , max_capture_size]` This is mainly because the performance of `_npu_paged_attention` op degrades dramatically on old settings. We hope to provide better performance if users do not set specific `cudagraph_capture_size`. ### Does this PR introduce _any_ user-facing change? The default `cudagraph_capture_size` is modified in above cases. However, if `cudagraph_capture_size` has already set by users, this PR won't have any influence on this. ### How was this patch tested? - vLLM version: v0.11.0 - vLLM main: 2918c1b49c --------- Signed-off-by: Angazenn <supperccell@163.com>
2025-11-18 08:41:45 +08:00
parent da1cd9c7ca
commit 10a046ddce
3 changed files with 81 additions and 3 deletions
--- a/tests/ut/test_platform.py
+++ b/tests/ut/test_platform.py
@@ -330,6 +330,7 @@ class TestNPUPlatform(TestBase):
        )

    @patch("vllm_ascend.utils.is_310p", return_value=False)
+    @patch("vllm_ascend.utils.update_default_aclgraph_sizes")
    @patch("vllm_ascend.ascend_config.check_ascend_config")
    @patch("vllm_ascend.ascend_config.init_ascend_config")
    @patch(
@@ -337,7 +338,8 @@ class TestNPUPlatform(TestBase):
    )
    def test_check_and_update_config_unsupported_compilation_level(
            self, mock_init_recompute, mock_init_ascend, mock_check_ascend,
-            mock_is_310p):
+            mock_update_default, mock_is_310p):
+        mock_update_default.return_value = MagicMock()
        mock_init_ascend.return_value = TestNPUPlatform.mock_vllm_ascend_config(
        )
        vllm_config = TestNPUPlatform.mock_vllm_config()
@@ -410,6 +412,7 @@ class TestNPUPlatform(TestBase):
            )

    @patch("vllm_ascend.utils.is_310p", return_value=False)
+    @patch("vllm_ascend.utils.update_default_aclgraph_sizes")
    @patch("vllm_ascend.ascend_config.check_ascend_config")
    @patch("vllm_ascend.ascend_config.init_ascend_config")
    @patch(
@@ -417,7 +420,8 @@ class TestNPUPlatform(TestBase):
    )
    def test_check_and_update_config_torchair_enabled_compilation(
            self, mock_init_recompute, mock_init_ascend, mock_check_ascend,
-            mock_is_310p):
+            mock_update_default, mock_is_310p):
+        mock_update_default.return_value = MagicMock()
        mock_ascend_config = TestNPUPlatform.mock_vllm_ascend_config()
        mock_ascend_config.torchair_graph_config.enabled = True
        mock_init_ascend.return_value = mock_ascend_config