Refactor e2e CI (#2276)

Refactor E2E CI to make it clear and faster 1. remove some uesless e2e test 2. remove some uesless function 3. Make sure all test runs with VLLMRunner to avoid oom error 4. Make sure all ops test end with torch.empty_cache to avoid oom error 5. run the test one by one to avoid resource limit error - vLLM version: v0.10.1.1 - vLLM main: a344a5aa0a Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
2025-09-02 09:02:22 +08:00
parent 0df059f41a
commit fef18b60bc
41 changed files with 374 additions and 1757 deletions
--- a/tests/e2e/multicard/test_torchair_graph_mode.py
+++ b/tests/e2e/multicard/test_torchair_graph_mode.py
@@ -23,6 +23,7 @@ import os
 from typing import Dict

 from tests.e2e.conftest import VllmRunner
+from vllm_ascend.ascend_config import clear_ascend_config

 os.environ["PYTORCH_NPU_ALLOC_CONF"] = "max_split_size_mb:256"

@@ -54,7 +55,6 @@ def _deepseek_torchair_test_fixture(
            dtype="half",
            tensor_parallel_size=tensor_parallel_size,
            distributed_executor_backend="mp",
-            enforce_eager=False,
            additional_config=additional_config,
    ) as vllm_model:
        # use greedy sampler to make sure the generated results are fix
@@ -85,6 +85,8 @@ def test_e2e_deepseekv3_with_torchair():
    }
    _deepseek_torchair_test_fixture(additional_config)

+    clear_ascend_config()
+

 def test_e2e_deepseekv3_with_torchair_ms_mla():
    additional_config = {
@@ -95,6 +97,8 @@ def test_e2e_deepseekv3_with_torchair_ms_mla():
    }
    _deepseek_torchair_test_fixture(additional_config)

+    clear_ascend_config()
+

 def test_e2e_deepseekv3_with_torchair_v1scheduler():
    additional_config = {
@@ -104,6 +108,8 @@ def test_e2e_deepseekv3_with_torchair_v1scheduler():
    }
    _deepseek_torchair_test_fixture(additional_config, use_v1_schduler=True)

+    clear_ascend_config()
+

 def _pangu_torchair_test_fixture(
    additional_config: Dict,
@@ -131,7 +137,6 @@ def _pangu_torchair_test_fixture(
            dtype="half",
            tensor_parallel_size=tensor_parallel_size,
            distributed_executor_backend="mp",
-            enforce_eager=False,
            additional_config=additional_config,
            enable_expert_parallel=True,
    ) as vllm_model:
@@ -163,6 +168,8 @@ def test_e2e_pangu_with_torchair():
    }
    _pangu_torchair_test_fixture(additional_config)

+    clear_ascend_config()
+

 def _qwen_torchair_test_fixture(
    model,
@@ -221,6 +228,9 @@ def _qwen_torchair_test_fixture(
 def test_e2e_qwen2_with_torchair():
    _qwen_torchair_test_fixture("Qwen/Qwen2.5-0.5B-Instruct", 2, False)

+    clear_ascend_config()
+

 def test_e2e_qwen3_moe_with_torchair():
    _qwen_torchair_test_fixture("Qwen/Qwen3-30B-A3B", 2, True)
+    clear_ascend_config()