init v0.11.0rc0

2025-10-14 10:38:28 +08:00
parent 67afd0ea78
commit 66dc16f966
278 changed files with 28130 additions and 11708 deletions
--- a/tests/ut/models/conftest.py
+++ b/tests/ut/models/conftest.py
@@ -0,0 +1,114 @@
+from types import SimpleNamespace
+from unittest.mock import MagicMock, Mock, patch
+
+import pytest
+import torch
+from transformers import PretrainedConfig
+from vllm.config import CacheConfig, EPLBConfig, ParallelConfig
+from vllm.distributed.parallel_state import GroupCoordinator
+
+
+@pytest.fixture
+def base_config():
+    config = PretrainedConfig(
+        hidden_size=128,
+        num_attention_heads=8,
+        num_hidden_layers=2,
+        intermediate_size=256,
+        hidden_act="silu",
+        rms_norm_eps=1e-6,
+        rope_theta=10000.0,
+        max_position_embeddings=2048,
+        n_routed_experts=4,
+        n_shared_experts=1,
+        moe_intermediate_size=256,
+        num_experts_per_tok=2,
+        routed_scaling_factor=1.0,
+        first_k_dense_replace=0,
+        moe_layer_freq=1,
+        kv_lora_rank=16,
+        qk_nope_head_dim=16,
+        qk_rope_head_dim=16,
+        v_head_dim=32,
+        topk_method="noaux_tc",
+        scoring_func="softmax",
+        norm_topk_prob=True,
+        n_group=1,
+        topk_group=1,
+        vocab_size=10000,
+    )
+    return config
+
+
+@pytest.fixture
+def vllm_config(base_config):
+    model_config = SimpleNamespace(
+        hf_config=base_config,
+        tensor_parallel_size=1,
+        dtype=torch.float32,
+        use_mla=True,
+        quant_config=None,
+        max_model_len=2048,
+    )
+    parallel_config = MagicMock(spec=ParallelConfig)
+    eplb_config = MagicMock(spec=EPLBConfig)
+    eplb_config.num_redundant_experts = 0
+    parallel_config.eplb_config = eplb_config
+
+    cache_config = CacheConfig()
+    vllm_config = Mock()
+    vllm_config.model_config = model_config
+    vllm_config.cache_config = cache_config
+    vllm_config.quant_config = None
+    vllm_config.parallel_config = parallel_config
+    return vllm_config
+
+
+@pytest.fixture
+def mock_distributed():
+    tp_group = Mock(spec=GroupCoordinator)
+    tp_group.rank_in_group = 0
+    tp_group.world_size = 1
+    tp_group.device_group = Mock()
+
+    dp_group = Mock(spec=GroupCoordinator)
+    dp_group.rank_in_group = 0
+    dp_group.world_size = 1
+
+    ep_group = Mock(spec=GroupCoordinator)
+    ep_group.rank_in_group = 0
+    ep_group.world_size = 1
+    ep_group.device_group = Mock()
+    ep_group.device_group.rank.return_value = 0
+    ep_group.device_group.size.return_value = 1
+
+    pp_group = Mock(spec=GroupCoordinator)
+    pp_group.rank_in_group = 0
+    pp_group.world_size = 1
+
+    mock_vllm_config = Mock()
+    mock_vllm_config.scheduler_config = Mock(max_num_seqs=256)
+    mock_vllm_config.model_config = Mock(max_model_len=2048, quant_config=None)
+
+    with patch("vllm_ascend.models.deepseek_v2.get_tensor_model_parallel_rank", return_value=0), \
+            patch("vllm_ascend.models.deepseek_v2.get_tensor_model_parallel_world_size", return_value=1), \
+            patch("vllm_ascend.models.deepseek_v2.get_tp_group", return_value=tp_group), \
+            patch("vllm_ascend.models.deepseek_v2.get_pp_group", return_value=pp_group), \
+            patch("vllm_ascend.models.deepseek_v2.get_pp_group",
+                  return_value=Mock(is_first_rank=False, is_last_rank=False)), \
+            patch("vllm_ascend.ops.fused_moe.get_current_vllm_config", return_value=mock_vllm_config), \
+            patch("vllm_ascend.ops.moe.token_dispatcher.torch.distributed.get_rank", return_value=0), \
+            patch("vllm_ascend.ops.moe.token_dispatcher.get_ascend_soc_version", return_value=None), \
+            patch.dict("vllm.distributed.parallel_state.__dict__", _TP=tp_group, _EP=ep_group, _DP=dp_group,
+                       _PP=pp_group), \
+            patch.dict("vllm_ascend.distributed.parallel_state.__dict__", _MC2=ep_group), \
+            patch("torch.npu.current_device", return_value=0):
+        yield
+
+
+@pytest.fixture
+def mock_forward_context():
+    forward_context = Mock(in_profile_run=False, with_prefill=False)
+    with patch("vllm_ascend.models.deepseek_v2.get_forward_context",
+               return_value=forward_context):
+        yield
--- a/tests/ut/models/test_deepseek_mtp.py
+++ b/tests/ut/models/test_deepseek_mtp.py
@@ -13,10 +13,13 @@ from vllm_ascend.models.deepseek_mtp import (
 class TestCustomDeepSeekMultiTokenPredictorLayer(PytestBase):

    @pytest.fixture
-    def setup_mtp_layer(self, mocker: MockerFixture):
+    def setup_mtp_layer(self, mocker: MockerFixture, vllm_config: VllmConfig,
+                        mock_distributed):
        config = PretrainedConfig(vocab_size=1000,
                                  hidden_size=768,
                                  rms_norm_eps=1e-5)
+        mocker.patch("vllm_ascend.models.deepseek_mtp.get_current_vllm_config",
+                     return_value=vllm_config)
        mocker.patch(
            "vllm.model_executor.layers.vocab_parallel_embedding.VocabParallelEmbedding.__init__",
            return_value=None)
@@ -29,15 +32,15 @@ class TestCustomDeepSeekMultiTokenPredictorLayer(PytestBase):
            "vllm_ascend.models.deepseek_mtp.CustomDeepSeekShareHead.__init__",
            return_value=None)
        mocker_deepseek_v2_decode_layer = mocker.patch(
-            "vllm_ascend.models.deepseek_v2.CustomDeepseekV2DecoderLayer.__init__",
+            "vllm.model_executor.models.deepseek_v2.DeepseekV2DecoderLayer.__init__",
            return_value=None)
        mocker.patch(
            "vllm_ascend.ops.vocab_parallel_embedding.AscendVocabParallelEmbedding.__init__",
            return_value=None)
-        mocker.patch("vllm_ascend.utils.get_ascend_config",
+        mocker.patch("vllm_ascend.models.deepseek_v2.get_ascend_config",
                     return_value=mocker.Mock())

-        mtp_layer = CustomDeepSeekMultiTokenPredictorLayer(config, "", None)
+        mtp_layer = CustomDeepSeekMultiTokenPredictorLayer(config, "0", None)
        mocker_deepseek_v2_decode_layer.assert_called_once()
        return mtp_layer

@@ -165,8 +168,6 @@ class TestCustomDeepSeekMTP(PytestBase):
        mocker.patch(
            "vllm_ascend.models.deepseek_mtp.CustomDeepSeekMultiTokenPredictorLayer.__call__",
            return_value=None)
-        mocker.patch("vllm.model_executor.layers.sampler.get_sampler",
-                     return_value=None)
        mocker.patch(
            "vllm_ascend.ops.vocab_parallel_embedding.AscendVocabParallelEmbedding.__init__",
            return_value=None)
--- a/tests/ut/models/test_deepseek_v2.py
+++ b/tests/ut/models/test_deepseek_v2.py
@@ -12,169 +12,23 @@
 # limitations under the License.
 # This file is a part of the vllm-ascend project.
 #
-from types import SimpleNamespace
 from unittest.mock import Mock, patch

 import pytest
 import torch
-from transformers import PretrainedConfig
 from vllm.config import CacheConfig
-from vllm.distributed.parallel_state import GroupCoordinator
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead

-from vllm_ascend.models.deepseek_v2 import (
-    CustomDeepseekV2MergedReplicatedLinear, CustomDeepseekV2MLAAttention,
-    CustomDeepseekV2MLP, CustomDeepseekV2MoE,
-    CustomDeepseekV2RowParallelLinear,
-    CustomDeepseekV2RowParallelLinearReplaceAllreduce,
-    CustomDeepseekV2SiluAndMul, LogitsProcessor, ParallelLMHead)
+from vllm_ascend.models.deepseek_v2 import (CustomDeepseekV2MLAAttention,
+                                            CustomDeepseekV2RowParallelLinear)


-@pytest.fixture
-def base_config():
-    config = PretrainedConfig(
-        hidden_size=128,
-        num_attention_heads=8,
-        num_hidden_layers=2,
-        intermediate_size=256,
-        hidden_act="silu",
-        rms_norm_eps=1e-6,
-        rope_theta=10000.0,
-        max_position_embeddings=2048,
-        n_routed_experts=4,
-        n_shared_experts=1,
-        moe_intermediate_size=256,
-        num_experts_per_tok=2,
-        routed_scaling_factor=1.0,
-        first_k_dense_replace=0,
-        moe_layer_freq=1,
-        kv_lora_rank=16,
-        qk_nope_head_dim=16,
-        qk_rope_head_dim=16,
-        v_head_dim=32,
-        topk_method="noaux_tc",
-        scoring_func="softmax",
-        norm_topk_prob=True,
-        n_group=1,
-        topk_group=1,
-        vocab_size=10000,
-    )
-    return config
-
-
-@pytest.fixture
-def vllm_config(base_config):
-    model_config = SimpleNamespace(
-        hf_config=base_config,
-        tensor_parallel_size=1,
-        dtype=torch.float32,
-        use_mla=False,
-        quant_config=None,
-        max_model_len=2048,
-    )
-
-    cache_config = CacheConfig()
-    vllm_config = Mock()
-    vllm_config.model_config = model_config
-    vllm_config.cache_config = cache_config
-    vllm_config.quant_config = None
-    return vllm_config
-
-
-@pytest.fixture
-def mock_distributed():
-    tp_group = Mock(spec=GroupCoordinator)
-    tp_group.rank_in_group = 0
-    tp_group.world_size = 1
-    tp_group.device_group = Mock()
-
-    dp_group = Mock(spec=GroupCoordinator)
-    dp_group.rank_in_group = 0
-    dp_group.world_size = 1
-
-    ep_group = Mock(spec=GroupCoordinator)
-    ep_group.rank_in_group = 0
-    ep_group.world_size = 1
-
-    pp_group = Mock(spec=GroupCoordinator)
-    pp_group.rank_in_group = 0
-    pp_group.world_size = 1
-
-    mock_vllm_config = Mock()
-    mock_vllm_config.scheduler_config = Mock(max_num_seqs=256)
-    mock_vllm_config.model_config = Mock(max_model_len=2048, quant_config=None)
-
-    with patch("vllm_ascend.models.deepseek_v2.get_tensor_model_parallel_rank", return_value=0), \
-            patch("vllm_ascend.models.deepseek_v2.get_tensor_model_parallel_world_size", return_value=1), \
-            patch("vllm_ascend.models.deepseek_v2.get_tp_group", return_value=tp_group), \
-            patch("vllm_ascend.models.deepseek_v2.get_ep_group", return_value=ep_group), \
-            patch("vllm_ascend.models.deepseek_v2.get_dp_group", return_value=dp_group), \
-            patch("vllm_ascend.models.deepseek_v2.get_pp_group", return_value=pp_group), \
-            patch("vllm_ascend.models.deepseek_v2.get_pp_group",
-                  return_value=Mock(is_first_rank=False, is_last_rank=False)), \
-            patch("vllm_ascend.ops.fused_moe.get_current_vllm_config", return_value=mock_vllm_config), \
-            patch.dict("vllm.distributed.parallel_state.__dict__", _TP=tp_group, _EP=ep_group, _DP=dp_group,
-                       _PP=pp_group), \
-            patch.dict("vllm_ascend.distributed.parallel_state.__dict__", _MC2=ep_group), \
-            patch("torch.npu.current_device", return_value=0):
-        yield
-
-
-@pytest.fixture
-def mock_forward_context():
-    forward_context = Mock(in_profile_run=False, with_prefill=False)
-    with patch("vllm_ascend.models.deepseek_v2.get_forward_context",
-               return_value=forward_context):
-        yield
-
-
-def test_custom_deepseek_v2_silu_and_mul():
-    torch.set_default_device("cpu")
-
-    silu = CustomDeepseekV2SiluAndMul()
-    assert silu.weight_scale is None
-
-    x = torch.randn(2, 4)
-    output = silu.forward_oot(x)
-    assert output.shape == (2, 2)
-
-    weight_scale = Mock(return_value=torch.tensor(0.1))
-    silu = CustomDeepseekV2SiluAndMul(weight_scale=weight_scale)
-    quant_x = torch.randint(-128, 127, (2, 4), dtype=torch.int32)
-    dynamic_scale = torch.randn(2, 1)
-    with patch("torch_npu.npu_dequant_swiglu_quant",
-               return_value=torch.randn(2, 4)):
-        output = silu.forward_oot((quant_x, dynamic_scale))
-        assert output.shape == (2, 4)
-
-
-def test_custom_deepseek_v2_merged_replicated_linear(mock_distributed):
-    linear = CustomDeepseekV2MergedReplicatedLinear(input_size=128,
-                                                    output_sizes=[64, 64],
-                                                    bias=False,
-                                                    quant_config=None)
-    assert linear.output_sizes == [64, 64]
-
-    param = Mock()
-    param.data = torch.zeros(128, 128)
-    param.output_dim = 1
-    param.is_gguf_weight = False
-    param.is_gguf_weight_type = False
-    loaded_weight = torch.randn(128, 64)
-    linear.weight_loader(param, loaded_weight, loaded_shard_id=0)
-
-    with pytest.raises(AssertionError):
-        linear.weight_loader(param, torch.randn(128, 32), loaded_shard_id=0)
-
-
-@pytest.mark.parametrize("cls", [
-    CustomDeepseekV2RowParallelLinearReplaceAllreduce,
-    CustomDeepseekV2RowParallelLinear
-])
+@pytest.mark.parametrize("cls", [CustomDeepseekV2RowParallelLinear])
 def test_row_parallel_linear(cls, mock_distributed):
    linear = cls(input_size=128, output_size=64, bias=False, quant_config=None)
    linear.quant_method = Mock()
    linear.quant_method.apply.return_value = torch.randn(2, 4, 64)
-
    input_ = torch.randn(2, 4, 128)
    with patch("vllm_ascend.models.deepseek_v2.split_tensor_along_last_dim",
               return_value=[torch.randn(2, 4, 64)]):
@@ -187,52 +41,10 @@ def test_row_parallel_linear(cls, mock_distributed):
    assert output[0].shape == (2, 4, 64)


-def test_custom_deepseek_v2_mlp(mock_distributed, base_config):
-    mlp = CustomDeepseekV2MLP(hidden_size=128,
-                              intermediate_size=256,
-                              hidden_act="silu",
-                              quant_config=None)
-    assert isinstance(mlp.act_fn, CustomDeepseekV2SiluAndMul)
-
-    x = torch.randn(2, 4, 128)
-    output = mlp(x)
-    assert output.shape == (2, 4, 128)
-
-    with patch("vllm_ascend.models.deepseek_v2.QuantizationConfig"
-               ) as mock_quant_config:
-        mock_quant_config.name = "w8a8dynamic"
-        with pytest.raises(NotImplementedError):
-            CustomDeepseekV2MLP(hidden_size=128,
-                                intermediate_size=256,
-                                hidden_act="silu",
-                                quant_config=mock_quant_config,
-                                force_replicate=False)
-    with pytest.raises(ValueError):
-        CustomDeepseekV2MLP(hidden_size=128,
-                            intermediate_size=256,
-                            hidden_act="relu",
-                            quant_config=None)
-
-
-def test_custom_deepseek_v2_moe(mock_distributed, base_config,
-                                mock_forward_context):
-    base_config.n_shared_experts = 1
-    moe = CustomDeepseekV2MoE(config=base_config,
-                              quant_config=None,
-                              prefix="mlp")
-    assert moe.top_k == 2
-
-    x = torch.randn(2, 4, 128)
-    attn_metadata = Mock(num_prefills=1)
-    with patch("vllm_ascend.ops.fused_moe.AscendFusedMoE.__call__",
-               return_value=(torch.randn(2, 4, 128), torch.randn(2, 4, 128))):
-        output = moe(x, attn_metadata)
-        assert output.shape == (2, 4, 128)
-
-
+@patch("torch.ops.vllm.mla_forward")
@patch("torch_npu.npu_rms_norm")
-def test_custom_deepseek_v2_mla_attention(mock_rms_norm, mock_distributed,
-                                          base_config):
+def test_custom_deepseek_v2_mla_attention(mock_rms_norm, mock_mla_forward,
+                                          mock_distributed, base_config):
    mock_rms_norm.return_value = (torch.randn(2, 128), torch.randn(2, 128))

    attn = CustomDeepseekV2MLAAttention(config=base_config,
@@ -253,8 +65,8 @@ def test_custom_deepseek_v2_mla_attention(mock_rms_norm, mock_distributed,
    with patch.object(attn.mla_attn,
                      "__call__",
                      return_value=torch.randn(2, 4, 128)):
-        with pytest.raises(AssertionError):
-            attn(positions, x)
+        attn(positions, x)
+        mock_mla_forward.assert_called_once()

    attn = CustomDeepseekV2MLAAttention(config=base_config,
                                        hidden_size=128,
--- a/tests/ut/models/test_qwen2_5_vl.py
+++ b/tests/ut/models/test_qwen2_5_vl.py
@@ -286,6 +286,22 @@ class TestAscendQwen2_5_VisionTransformer(PytestBase):
            "vllm_ascend.models.qwen2_5_vl.parallel_state.get_tensor_model_parallel_world_size",
            return_value=2,
        )
+        mocker.patch(
+            "vllm_ascend.ops.linear.divide",
+            return_value=2,
+        )
+
+        mock_group = mocker.MagicMock()
+        mock_group.rank_in_group = 0
+        mock_group.world_size = 2
+        mocker.patch(
+            "vllm_ascend.ops.linear_op.get_tp_group",
+            return_value=mock_group,
+        )
+        mocker.patch(
+            "vllm.distributed.parallel_state.get_tp_group",
+            return_value=mock_group,
+        )

        vision_transformer = AscendQwen2_5_VisionTransformer(
            vision_config,
@@ -341,6 +357,46 @@ class TestAscendQwen2_5_VisionTransformer(PytestBase):
        cos_new, _ = vision_transformer.cal_cos_sin(self.input_data)
        assert cos_new.shape == (1, 32, 1, 2)

+    def test_pad_qkv_bias(self, mocker: MockerFixture):
+        attention = self.init_vision_transformer(mocker)
+        mocker.patch("torch.nn.Module.__setattr__")
+        mocker.patch("torch.nn.Module.__getattr__")
+        mocker.patch("torch.nn.Module.__delattr__")
+        res = attention.pad_qkv_bias(torch.rand((300)))
+        assert res.shape[0] == 384
+
+    def test_pad_qkv_weight(self, mocker: MockerFixture):
+        attention = self.init_vision_transformer(mocker)
+        mocker.patch("torch.nn.Module.__setattr__")
+        mocker.patch("torch.nn.Module.__getattr__")
+        mocker.patch("torch.nn.Module.__delattr__")
+        res = attention.pad_qkv_weight(torch.rand((300, 300)))
+        assert res.shape == (384, 300)
+
+    def test_pad_proj_weight(self, mocker: MockerFixture):
+        attention = self.init_vision_transformer(mocker)
+        mocker.patch("torch.nn.Module.__setattr__")
+        mocker.patch("torch.nn.Module.__getattr__")
+        mocker.patch("torch.nn.Module.__delattr__")
+        res = attention.pad_proj_weight(torch.rand((300, 300)))
+        assert res.shape == (300, 384)
+
+    def test_pad_qkv_weight_scale_offset(self, mocker: MockerFixture):
+        attention = self.init_vision_transformer(mocker)
+        mocker.patch("torch.nn.Module.__setattr__")
+        mocker.patch("torch.nn.Module.__getattr__")
+        mocker.patch("torch.nn.Module.__delattr__")
+        res = attention.pad_qkv_weight_scale_offset(torch.rand((300, 1)))
+        assert res.shape == (384, 1)
+
+    def test_pad_qkv_deq_scale_quant_bias(self, mocker: MockerFixture):
+        attention = self.init_vision_transformer(mocker)
+        mocker.patch("torch.nn.Module.__setattr__")
+        mocker.patch("torch.nn.Module.__getattr__")
+        mocker.patch("torch.nn.Module.__delattr__")
+        res = attention.pad_qkv_deq_scale_quant_bias(torch.rand((300)))
+        assert res.shape[0] == 384
+
    def test_forward(self, mocker: MockerFixture):
        vision_transformer = self.init_vision_transformer(mocker)
        mocker.patch("torch.nn.Module.__setattr__")
--- a/tests/ut/models/test_qwen3_moe.py
+++ b/tests/ut/models/test_qwen3_moe.py
@@ -15,41 +15,11 @@
 import math
 import unittest

-import pytest
 import torch
-from vllm.model_executor.models.qwen3_moe import Qwen3MoeForCausalLM

-from vllm_ascend.models.qwen3_moe import CustomQwen3MoeForCausalLM
 from vllm_ascend.torchair.models.qwen3_moe import CustomQwen3MoeAttention


-class TestCustomQwen3MoeForCausalLM:
-
-    def test_class_inheritance(self):
-        assert issubclass(CustomQwen3MoeForCausalLM, Qwen3MoeForCausalLM)
-
-    @pytest.mark.parametrize("key, expected", [
-        ("qkv_proj", ["q_proj", "k_proj", "v_proj"]),
-        ("gate_up_proj", ["gate_proj", "up_proj"]),
-        ("experts",
-         ["experts.0.gate_proj", "experts.0.up_proj", "experts.0.down_proj"]),
-    ])
-    def test_packed_modules_mapping(self, key, expected):
-        assert CustomQwen3MoeForCausalLM.packed_modules_mapping[
-            key] == expected
-
-    def test_packed_modules_mapping_structure(self):
-        expected_mapping = {
-            "qkv_proj": ["q_proj", "k_proj", "v_proj"],
-            "gate_up_proj": ["gate_proj", "up_proj"],
-            "experts": [
-                "experts.0.gate_proj", "experts.0.up_proj",
-                "experts.0.down_proj"
-            ]
-        }
-        assert CustomQwen3MoeForCausalLM.packed_modules_mapping == expected_mapping
-
-
 class DummyRMSNorm:

    def __init__(self, dim: int, eps: float = 1e-6):