xc-llm-ascend/tests/ut/distributed/test_communicator.py

import unittest
from unittest.mock import MagicMock, patch

import torch
import torch.distributed as dist

from vllm_ascend.distributed.device_communicators.npu_communicator import \
    NPUCommunicator


class TestNPUCommunicator(unittest.TestCase):

    @patch("vllm.config.get_current_vllm_config", return_value=None)
    @patch("torch.npu.current_device", return_value=MagicMock())
    @patch("torch.npu.set_device", return_value=MagicMock())
    @patch("torch.distributed.get_process_group_ranks",
           return_value={
               0: 0,
               1: 1
           })
    @patch("torch.distributed.get_group_rank", return_value={0: 0, 1: 1})
    @patch("torch.distributed.is_initialized", return_value=True)
    @patch("torch.distributed.get_rank", return_value=1)
    @patch("torch.distributed.is_initialized", return_value=True)
    @patch("torch.distributed.get_backend", return_value="hccl")
    @patch("torch.distributed.get_rank", return_value=1)
    @patch("torch.distributed.get_world_size", return_value=2)
    @patch("torch.distributed.get_process_group_ranks", return_value=[0, 1])
    @patch("torch.npu.device")
    def test_all_to_all_with_sizes(self, *_):

        def patched_all_to_all(output_tensor_list,
                               input_tensor_list,
                               group=None,
                               async_op=False):
            output_tensor_list[:] = ([
                torch.tensor([10, 20]),
                torch.tensor([50, 60])
            ])

        torch.distributed.all_to_all = patched_all_to_all

        scatter_sizes = [2, 2]
        gather_sizes = [2, 2]
        input_ = torch.tensor([10, 20, 30, 40])

        with patch.dict(dist.distributed_c10d._world.pg_map, {dist.group.WORLD: MagicMock()}, clear=False):
            comm = NPUCommunicator(cpu_group=dist.group.WORLD)

        output = comm.all_to_all(input_,
                                 scatter_sizes=scatter_sizes,
                                 gather_sizes=gather_sizes)

        assert output.tolist() == [10, 20, 50, 60]

    @patch("vllm.config.get_current_vllm_config", return_value=None)
    @patch("torch.npu.current_device", return_value=MagicMock())
    @patch("torch.npu.set_device", return_value=MagicMock())
    @patch("torch.distributed.get_process_group_ranks",
           return_value={
               0: 0,
               1: 1
           })
    @patch("torch.distributed.get_group_rank", return_value={0: 0, 1: 1})
    @patch("torch.distributed.is_initialized", return_value=True)
    @patch("torch.distributed.get_rank", return_value=1)
    @patch("torch.distributed.is_initialized", return_value=True)
    @patch("torch.distributed.get_backend", return_value="hccl")
    @patch("torch.distributed.get_rank", return_value=1)
    @patch("torch.distributed.get_world_size", return_value=2)
    @patch("torch.distributed.get_process_group_ranks", return_value=[0, 1])
    @patch("torch.npu.device")
    def test_all_to_all_without_sizes(self, *_):

        def patched_all_to_all(output_tensor_list,
                               input_tensor_list,
                               group=None,
                               async_op=False):
            output_tensor_list[:] = ([
                torch.tensor([[10, 20]]),
                torch.tensor([[50, 60]])
            ])

        torch.distributed.all_to_all = patched_all_to_all

        input_ = torch.tensor([[10, 20], [30, 40]])

        with patch.dict(dist.distributed_c10d._world.pg_map, {dist.group.WORLD: MagicMock()}, clear=False):
            comm = NPUCommunicator(cpu_group=dist.group.WORLD)
            output = comm.all_to_all(input_, scatter_dim=0, gather_dim=0)

        assert output.tolist() == [[10, 20], [50, 60]]
Add ut for test_communicator.py (#2293) ### What this PR does / why we need it? Add ut for test_communicator.py - vLLM version: v0.10.0 - vLLM main: https://github.com/vllm-project/vllm/commit/e5ebeeba531755a78f68413e88a23d061404f3e3 Signed-off-by: yangqinghao-cmss <yangqinghao_yewu@cmss.chinamobile.com> 2025-08-09 08:26:04 +08:00			`import unittest`
[2/N][Feat] Add MC2 communication method for MoE layers (#2469) ### What this PR does / why we need it? This method replaces the previous all-gather approach for small numbers of tokens. The key changes include: - A new `AscendFusedMoE` layer that handles token splitting, local computation, and final aggregation via all-gather. - Logic in the model runner to dynamically select between the new MC2 method and the existing all-gather method based on the number of input tokens. - Sharding the MoE communication mask across tensor-parallel ranks. ### Does this PR introduce _any_ user-facing change? None. ### How was this patch tested? Test case fixed. - vLLM version: v0.10.1.1 - vLLM main: https://github.com/vllm-project/vllm/commit/b00e69f8ca55f4a82847d39466f57ceb748324c1 --------- Signed-off-by: Yizhou Liu <liu_yizhou@outlook.com> 2025-08-26 19:05:23 +08:00			`from unittest.mock import MagicMock, patch`
Add ut for test_communicator.py (#2293) ### What this PR does / why we need it? Add ut for test_communicator.py - vLLM version: v0.10.0 - vLLM main: https://github.com/vllm-project/vllm/commit/e5ebeeba531755a78f68413e88a23d061404f3e3 Signed-off-by: yangqinghao-cmss <yangqinghao_yewu@cmss.chinamobile.com> 2025-08-09 08:26:04 +08:00
			`import torch`
			`import torch.distributed as dist`

[Refactor]Refactor of vllm_ascend/distributed module (#5719) ### What this PR does / why we need it? Based on the RFC:https://github.com/vllm-project/vllm-ascend/issues/5604 This PR is a refactoring of vllm_ascend/distributed, moving all kv_transfer realtaed codes into a dedicated folder, which has already been done in vLLM ### Does this PR introduce _any_ user-facing change? NA ### How was this patch tested? - vLLM version: v0.13.0 - vLLM main: https://github.com/vllm-project/vllm/commit/2f4e6548efec402b913ffddc8726230d9311948d --------- Signed-off-by: lty <linhebiwen@gmail.com> 2026-01-15 08:57:40 +08:00			`from vllm_ascend.distributed.device_communicators.npu_communicator import \`
			`NPUCommunicator`
Add ut for test_communicator.py (#2293) ### What this PR does / why we need it? Add ut for test_communicator.py - vLLM version: v0.10.0 - vLLM main: https://github.com/vllm-project/vllm/commit/e5ebeeba531755a78f68413e88a23d061404f3e3 Signed-off-by: yangqinghao-cmss <yangqinghao_yewu@cmss.chinamobile.com> 2025-08-09 08:26:04 +08:00

			`class TestNPUCommunicator(unittest.TestCase):`

			`@patch("vllm.config.get_current_vllm_config", return_value=None)`
			`@patch("torch.npu.current_device", return_value=MagicMock())`
			`@patch("torch.npu.set_device", return_value=MagicMock())`
			`@patch("torch.distributed.get_process_group_ranks",`
			`return_value={`
			`0: 0,`
			`1: 1`
			`})`
			`@patch("torch.distributed.get_group_rank", return_value={0: 0, 1: 1})`
			`@patch("torch.distributed.is_initialized", return_value=True)`
			`@patch("torch.distributed.get_rank", return_value=1)`
			`@patch("torch.distributed.is_initialized", return_value=True)`
			`@patch("torch.distributed.get_backend", return_value="hccl")`
			`@patch("torch.distributed.get_rank", return_value=1)`
			`@patch("torch.distributed.get_world_size", return_value=2)`
			`@patch("torch.distributed.get_process_group_ranks", return_value=[0, 1])`
			`@patch("torch.npu.device")`
			`def test_all_to_all_with_sizes(self, *_):`

			`def patched_all_to_all(output_tensor_list,`
			`input_tensor_list,`
			`group=None,`
			`async_op=False):`
			`output_tensor_list[:] = ([`
			`torch.tensor([10, 20]),`
			`torch.tensor([50, 60])`
			`])`

			`torch.distributed.all_to_all = patched_all_to_all`

			`scatter_sizes = [2, 2]`
			`gather_sizes = [2, 2]`
			`input_ = torch.tensor([10, 20, 30, 40])`

[Main2Main] Upgrade vLLM to 0303 (#6944) ### What this PR does / why we need it? break: - https://github.com/vllm-project/vllm/pull/34102 Disable_full param replaced with valid_modes/invalid_modes API - https://github.com/vllm-project/vllm/pull/35503 Now must return float compilation_time - https://github.com/vllm-project/vllm/pull/35564 New sequence_lengths param added - https://github.com/vllm-project/vllm/pull/33807 A check was performed (if runner_backend != "auto") - https://github.com/vllm-project/vllm/pull/34861 `BaseDeviceCommunicator` now accesses PyTorch's internal `pg_map` to check process group state - https://github.com/vllm-project/vllm/pull/35274 Important change: - https://github.com/vllm-project/vllm/pull/28672 `matcher_utils` directly accesses `torch.ops._C.*` during the import phase. In the Ascend environment, some unregistered ops trigger `AttributeError`, causing e2e initialization failure. https://github.com/vllm-project/vllm-ascend/actions/runs/22607260487/job/65502047131#step:10:2323 https://github.com/vllm-project/vllm/blob/main/vllm/compilation/passes/fusion/matcher_utils.py#L29 This PR adds temporary compatibility placeholders (rms_norm, fused_add_rms_norm, rotate_embedding, static/dynamic fp8 quant, silu_and_mul) to `vllm_ascend/patch/platform/patch_fusion_matcher_compat_ops.py` to ensure no crashes during the import phase. Upstream repairs will be considered later. ### Does this PR introduce _any_ user-facing change? ### How was this patch tested? - vLLM version: v0.16.0 - vLLM main: https://github.com/vllm-project/vllm/commit/15d76f74e2fdb12a95ea00f0ca283acf6219a2b7 --------- Signed-off-by: MrZ20 <2609716663@qq.com> Signed-off-by: gcanlin <canlinguosdu@gmail.com> Co-authored-by: Meihan-chen <jcccx.cmh@gmail.com> Co-authored-by: Claude Code <noreply@anthropic.com> Co-authored-by: gcanlin <canlinguosdu@gmail.com> 2026-03-06 09:08:52 +08:00			`with patch.dict(dist.distributed_c10d._world.pg_map, {dist.group.WORLD: MagicMock()}, clear=False):`
			`comm = NPUCommunicator(cpu_group=dist.group.WORLD)`
Add ut for test_communicator.py (#2293) ### What this PR does / why we need it? Add ut for test_communicator.py - vLLM version: v0.10.0 - vLLM main: https://github.com/vllm-project/vllm/commit/e5ebeeba531755a78f68413e88a23d061404f3e3 Signed-off-by: yangqinghao-cmss <yangqinghao_yewu@cmss.chinamobile.com> 2025-08-09 08:26:04 +08:00
			`output = comm.all_to_all(input_,`
			`scatter_sizes=scatter_sizes,`
			`gather_sizes=gather_sizes)`

			`assert output.tolist() == [10, 20, 50, 60]`

			`@patch("vllm.config.get_current_vllm_config", return_value=None)`
			`@patch("torch.npu.current_device", return_value=MagicMock())`
			`@patch("torch.npu.set_device", return_value=MagicMock())`
			`@patch("torch.distributed.get_process_group_ranks",`
			`return_value={`
			`0: 0,`
			`1: 1`
			`})`
			`@patch("torch.distributed.get_group_rank", return_value={0: 0, 1: 1})`
			`@patch("torch.distributed.is_initialized", return_value=True)`
			`@patch("torch.distributed.get_rank", return_value=1)`
			`@patch("torch.distributed.is_initialized", return_value=True)`
			`@patch("torch.distributed.get_backend", return_value="hccl")`
			`@patch("torch.distributed.get_rank", return_value=1)`
			`@patch("torch.distributed.get_world_size", return_value=2)`
			`@patch("torch.distributed.get_process_group_ranks", return_value=[0, 1])`
			`@patch("torch.npu.device")`
			`def test_all_to_all_without_sizes(self, *_):`

			`def patched_all_to_all(output_tensor_list,`
			`input_tensor_list,`
			`group=None,`
			`async_op=False):`
			`output_tensor_list[:] = ([`
			`torch.tensor([[10, 20]]),`
			`torch.tensor([[50, 60]])`
			`])`

			`torch.distributed.all_to_all = patched_all_to_all`

			`input_ = torch.tensor([[10, 20], [30, 40]])`

[Main2Main] Upgrade vLLM to 0303 (#6944) ### What this PR does / why we need it? break: - https://github.com/vllm-project/vllm/pull/34102 Disable_full param replaced with valid_modes/invalid_modes API - https://github.com/vllm-project/vllm/pull/35503 Now must return float compilation_time - https://github.com/vllm-project/vllm/pull/35564 New sequence_lengths param added - https://github.com/vllm-project/vllm/pull/33807 A check was performed (if runner_backend != "auto") - https://github.com/vllm-project/vllm/pull/34861 `BaseDeviceCommunicator` now accesses PyTorch's internal `pg_map` to check process group state - https://github.com/vllm-project/vllm/pull/35274 Important change: - https://github.com/vllm-project/vllm/pull/28672 `matcher_utils` directly accesses `torch.ops._C.*` during the import phase. In the Ascend environment, some unregistered ops trigger `AttributeError`, causing e2e initialization failure. https://github.com/vllm-project/vllm-ascend/actions/runs/22607260487/job/65502047131#step:10:2323 https://github.com/vllm-project/vllm/blob/main/vllm/compilation/passes/fusion/matcher_utils.py#L29 This PR adds temporary compatibility placeholders (rms_norm, fused_add_rms_norm, rotate_embedding, static/dynamic fp8 quant, silu_and_mul) to `vllm_ascend/patch/platform/patch_fusion_matcher_compat_ops.py` to ensure no crashes during the import phase. Upstream repairs will be considered later. ### Does this PR introduce _any_ user-facing change? ### How was this patch tested? - vLLM version: v0.16.0 - vLLM main: https://github.com/vllm-project/vllm/commit/15d76f74e2fdb12a95ea00f0ca283acf6219a2b7 --------- Signed-off-by: MrZ20 <2609716663@qq.com> Signed-off-by: gcanlin <canlinguosdu@gmail.com> Co-authored-by: Meihan-chen <jcccx.cmh@gmail.com> Co-authored-by: Claude Code <noreply@anthropic.com> Co-authored-by: gcanlin <canlinguosdu@gmail.com> 2026-03-06 09:08:52 +08:00			`with patch.dict(dist.distributed_c10d._world.pg_map, {dist.group.WORLD: MagicMock()}, clear=False):`
			`comm = NPUCommunicator(cpu_group=dist.group.WORLD)`
			`output = comm.all_to_all(input_, scatter_dim=0, gather_dim=0)`
Add ut for test_communicator.py (#2293) ### What this PR does / why we need it? Add ut for test_communicator.py - vLLM version: v0.10.0 - vLLM main: https://github.com/vllm-project/vllm/commit/e5ebeeba531755a78f68413e88a23d061404f3e3 Signed-off-by: yangqinghao-cmss <yangqinghao_yewu@cmss.chinamobile.com> 2025-08-09 08:26:04 +08:00
			`assert output.tolist() == [[10, 20], [50, 60]]`