[E2E] Optimize the E2E test time. (#5294)

### What this PR does / why we need it? Add cudagraph_capture_sizes for E2E CI test. - vLLM version: release/v0.13.0 - vLLM main: ad32e3e19c Signed-off-by: menogrey <1299267905@qq.com>
2025-12-26 14:17:50 +08:00
parent 29d2fe653d
commit 45c5bcd962
22 changed files with 57 additions and 5 deletions
--- a/tests/e2e/multicard/long_sequence/test_basic.py
+++ b/tests/e2e/multicard/long_sequence/test_basic.py
@@ -122,6 +122,7 @@ def test_models_pcp_dcp_piece_wise():
                    decode_context_parallel_size=2,
                    max_num_batched_tokens=1024,
                    enable_expert_parallel=True,
+                    cudagraph_capture_sizes=[1, 2, 4, 8],
                    block_size=128) as runner:
        runner.model.generate(prompts, sampling_params)

@@ -132,6 +133,7 @@ def test_models_pcp_dcp_piece_wise():
                    prefill_context_parallel_size=2,
                    decode_context_parallel_size=1,
                    enable_expert_parallel=True,
+                    cudagraph_capture_sizes=[1, 2, 4, 8],
                    block_size=128,
                    quantization="ascend") as runner:
        runner.model.generate(prompts, sampling_params)