Drop torchair (#4814)

aclgraph is stable and fast now. Let's drop torchair graph mode now. TODO: some logic to adapt torchair should be cleaned up as well. We'll do it in the following PR. - vLLM version: v0.12.0 - vLLM main: ad32e3e19c Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> Co-authored-by: Mengqing Cao <cmq0113@163.com>
2025-12-10 09:20:40 +08:00
parent ba9cda9dfd
commit 835b4c8f1d
84 changed files with 77 additions and 16881 deletions
--- a/tests/ut/test_platform.py
+++ b/tests/ut/test_platform.py
@@ -31,7 +31,6 @@ class TestNPUPlatform(TestBase):
    @staticmethod
    def mock_vllm_ascend_config():
        mock_ascend_config = MagicMock()
-        mock_ascend_config.torchair_graph_config.enabled = False
        mock_ascend_config.xlite_graph_config.enabled = False
        mock_ascend_config.enable_shared_expert_dp = False
        return mock_ascend_config
@@ -403,47 +402,6 @@ class TestNPUPlatform(TestBase):
                CUDAGraphMode.NONE,
            )

-    @patch('vllm_ascend.utils.get_ascend_device_type',
-           return_value=AscendDeviceType._910_93)
-    @patch("vllm_ascend.utils.update_default_aclgraph_sizes")
-    @patch("vllm_ascend.ascend_config.check_ascend_config")
-    @patch("vllm_ascend.ascend_config.init_ascend_config")
-    @patch(
-        "vllm_ascend.core.recompute_schedule_config.RecomputeSchedulerConfig.initialize_from_config"
-    )
-    def test_check_and_update_config_torchair_enabled_compilation(
-            self, mock_init_recompute, mock_init_ascend, mock_check_ascend,
-            mock_update_default, mock_soc_version):
-        mock_update_default.return_value = MagicMock()
-        mock_ascend_config = TestNPUPlatform.mock_vllm_ascend_config()
-        mock_ascend_config.torchair_graph_config.enabled = True
-        mock_init_ascend.return_value = mock_ascend_config
-        vllm_config = TestNPUPlatform.mock_vllm_config()
-        vllm_config.model_config.enforce_eager = False
-        vllm_config.parallel_config.decode_context_parallel_size = 1
-        vllm_config.parallel_config.prefill_context_parallel_size = 1
-        vllm_config.parallel_config.tensor_parallel_size = 1
-        mock_init_recompute.return_value = MagicMock()
-        vllm_config.scheduler_config = MagicMock()
-
-        vllm_config.compilation_config.mode = CompilationMode.VLLM_COMPILE
-
-        with self.assertLogs(logger="vllm", level="INFO") as cm:
-            from vllm_ascend import platform
-
-            importlib.reload(platform)
-            self.platform.check_and_update_config(vllm_config)
-        self.assertTrue("Torchair compilation enabled" in cm.output[0])
-
-        self.assertEqual(
-            vllm_config.compilation_config.mode,
-            CompilationMode.NONE,
-        )
-        self.assertEqual(
-            vllm_config.compilation_config.cudagraph_mode,
-            CUDAGraphMode.NONE,
-        )
-
    @patch('vllm_ascend.utils.get_ascend_device_type',
           return_value=AscendDeviceType._910_93)
    @patch("vllm_ascend.ascend_config.check_ascend_config")
@@ -503,16 +461,6 @@ class TestNPUPlatform(TestBase):
            "vllm_ascend.worker.worker_v1.NPUWorker",
        )

-        test_ascend_config = TestNPUPlatform.mock_vllm_ascend_config()
-        test_ascend_config.torchair_graph_config.enabled = True
-        mock_init_ascend.return_value = test_ascend_config
-        vllm_config.parallel_config.worker_cls = "auto"
-        self.platform.check_and_update_config(vllm_config)
-        self.assertEqual(
-            vllm_config.parallel_config.worker_cls,
-            "vllm_ascend.torchair.torchair_worker.NPUTorchairWorker",
-        )
-
        test_ascend_config = TestNPUPlatform.mock_vllm_ascend_config()
        test_ascend_config.xlite_graph_config.enabled = True
        mock_init_ascend.return_value = test_ascend_config
@@ -550,14 +498,7 @@ class TestNPUPlatform(TestBase):
        self.platform.check_and_update_config(vllm_config)
        self.assertEqual(vllm_config.compilation_config.custom_ops, [])

-    @patch('vllm_ascend.platform.get_ascend_config')
-    def test_get_attn_backend_cls_use_v1_and_mla(self, mock_get_ascend_config):
-        mock_config = MagicMock()
-        mock_config.torchair_graph_config.enabled = False
-        mock_config.enable_shared_expert_dp = False
-
-        mock_get_ascend_config.return_value = mock_config
-
+    def test_get_attn_backend_cls_use_v1_and_mla(self):
        result = self.platform.get_attn_backend_cls(
            selected_backend="ascend",
            head_size=64,
@@ -570,56 +511,7 @@ class TestNPUPlatform(TestBase):
        self.assertEqual(result,
                         "vllm_ascend.attention.mla_v1.AscendMLABackend")

-    @patch('vllm_ascend.platform.get_ascend_config')
-    def test_get_attn_backend_cls_use_v1_mla_and_torchair(
-            self, mock_get_ascend_config):
-        mock_config = MagicMock()
-        mock_config.torchair_graph_config.enabled = True
-
-        mock_get_ascend_config.return_value = mock_config
-
-        result = self.platform.get_attn_backend_cls(
-            selected_backend="ascend",
-            head_size=64,
-            dtype="float16",
-            kv_cache_dtype="float16",
-            block_size=64,
-            #use_sfa=False,
-            use_mla=True,
-        )
-        self.assertEqual(
-            result,
-            "vllm_ascend.torchair.torchair_mla.AscendMLATorchairBackend")
-
-    @patch('vllm_ascend.platform.get_ascend_config')
-    def test_get_attn_backend_cls_use_v1_and_torchair(self,
-                                                      mock_get_ascend_config):
-        mock_config = MagicMock()
-        mock_config.torchair_graph_config.enabled = True
-
-        mock_get_ascend_config.return_value = mock_config
-
-        result = self.platform.get_attn_backend_cls(
-            selected_backend="ascend",
-            head_size=64,
-            dtype="float16",
-            kv_cache_dtype="float16",
-            block_size=64,
-            #use_sfa=False,
-            use_mla=False,
-        )
-        self.assertEqual(
-            result,
-            "vllm_ascend.torchair.torchair_attention.AscendAttentionTorchairBackend"
-        )
-
-    @patch('vllm_ascend.platform.get_ascend_config')
-    def test_get_attn_backend_cls_use_v1_only(self, mock_get_ascend_config):
-        mock_config = MagicMock()
-        mock_config.torchair_graph_config.enabled = False
-
-        mock_get_ascend_config.return_value = mock_config
-
+    def test_get_attn_backend_cls_use_v1_only(self):
        result = self.platform.get_attn_backend_cls(
            selected_backend="ascend",
            head_size=64,