[Main2Main] Upgrade vLLM to 0226 (#6813)

### What this PR does / why we need it? Breaking: 1. https://github.com/vllm-project/vllm/pull/33452 2. https://github.com/vllm-project/vllm/pull/33451 3. https://github.com/vllm-project/vllm/pull/32567 4. https://github.com/vllm-project/vllm/pull/32344 ### Does this PR introduce _any_ user-facing change? ### How was this patch tested? - vLLM version: v0.15.0 - vLLM main: 83b47f67b1 --------- Signed-off-by: MrZ20 <2609716663@qq.com> Signed-off-by: gcanlin <canlinguosdu@gmail.com> Co-authored-by: MrZ20 <2609716663@qq.com>
2026-02-27 16:05:21 +08:00
parent 80316c5824
commit e4458b2d2b
40 changed files with 117 additions and 184 deletions
--- a/tests/e2e/singlecard/compile/backend.py
+++ b/tests/e2e/singlecard/compile/backend.py
@@ -20,15 +20,10 @@ from typing import Any

 import torch.fx as fx
 from torch._inductor.decomposition import select_decomp_table
+from vllm.compilation.passes.fx_utils import OpOverload
 from vllm.config import get_current_vllm_config

 from vllm_ascend.compilation.compiler_interface import compile_fx
-from vllm_ascend.utils import vllm_version_is
-
-if vllm_version_is("0.15.0"):
-    from vllm.compilation.fx_utils import OpOverload  # type: ignore
-else:
-    from vllm.compilation.passes.fx_utils import OpOverload


 class TestBackend:
--- a/tests/e2e/singlecard/compile/test_norm_quant_fusion.py
+++ b/tests/e2e/singlecard/compile/test_norm_quant_fusion.py
@@ -19,6 +19,7 @@ import pytest
 import torch
 import torch.nn as nn
 import vllm.config
+from vllm.compilation.passes.fx_utils import OpOverload
 from vllm.config import ModelConfig, VllmConfig
 from vllm.distributed import ensure_model_parallel_initialized, init_distributed_environment
 from vllm.utils.system_utils import update_environment_variables
@@ -27,13 +28,7 @@ import vllm_ascend.ops.register_custom_ops  # noqa
 from tests.e2e.singlecard.compile.backend import TestBackend
 from vllm_ascend.ascend_forward_context import set_ascend_forward_context
 from vllm_ascend.compilation.passes.norm_quant_fusion_pass import AddRMSNormQuantFusionPass
-from vllm_ascend.utils import enable_custom_op, vllm_version_is
-
-if vllm_version_is("0.15.0"):
-    from vllm.compilation.fx_utils import OpOverload  # type: ignore
-else:
-    from vllm.compilation.passes.fx_utils import OpOverload
-
+from vllm_ascend.utils import enable_custom_op

 # Cache backend to avoid duplicate pattern registration
 _backend_cache = None
--- a/tests/ut/eplb/core/test_eplb_utils.py
+++ b/tests/ut/eplb/core/test_eplb_utils.py
@@ -22,9 +22,9 @@ class TestAscendConfig(unittest.TestCase):
            "eplb_config": {"dynamic_eplb": True, "num_redundant_experts": 2},
        }
        from vllm.model_executor.layers.fused_moe.config import RoutingMethodType
-        if vllm_version_is("0.15.0"):
+        if vllm_version_is("0.16.0"):
            moe_parallel_config = FusedMoEParallelConfig(
-                2, 0, 1, 2, 1, 1, 1, 1, True, "hccl", enable_eplb=True)
+                2, 0, 1, 2, 1, 1, 1, 1, True, "hccl", is_sequence_parallel=True, enable_eplb=True)
            moe_config = FusedMoEConfig(
                num_experts=8,
                experts_per_token=8,
--- a/tests/ut/quantization/test_modelslim_config.py
+++ b/tests/ut/quantization/test_modelslim_config.py
@@ -15,10 +15,7 @@ from vllm_ascend.quantization.modelslim_config import (
 )
 from vllm_ascend.utils import ASCEND_QUANTIZATION_METHOD, vllm_version_is

-if vllm_version_is("v0.15.0"):
-    from vllm.attention.layer import Attention  # type: ignore
-else:
-    from vllm.model_executor.layers.attention import Attention
+from vllm.model_executor.layers.attention import Attention


 class TestAscendModelSlimConfig(TestBase):