Upgrade to new vllm commit (#3719)

### What this PR does / why we need it? Upgrade to new vllm commit: c9461e05a4 - Fix many imports, caused by https://github.com/vllm-project/vllm/pull/26908 - Fix import ```sha256```, caused by https://github.com/vllm-project/vllm/pull/27169 - Remove ```SchedulerConfig.send_delta_data```, caused by https://github.com/vllm-project/vllm/pull/27142 - Fix ```FusedMoE``` because of dual stream execution, caused by https://github.com/vllm-project/vllm/pull/26440 ### Does this PR introduce _any_ user-facing change? N/A ### How was this patch tested? CI passed with new added/existing test. - vLLM version: v0.11.0rc3 - vLLM main: 17c540a993 --------- Signed-off-by: MengqingCao <cmq0113@163.com> Signed-off-by: Icey <1790571317@qq.com> Co-authored-by: MengqingCao <cmq0113@163.com>
2025-10-25 15:36:32 +08:00
parent 226f832c0b
commit d9cdc65854
37 changed files with 229 additions and 71 deletions
--- a/vllm_ascend/distributed/cpu_offload_manager/metadata.py
+++ b/vllm_ascend/distributed/cpu_offload_manager/metadata.py
@@ -9,11 +9,18 @@ import torch
 import vllm.envs as envs
 import zmq
 from vllm.config import KVTransferConfig, VllmConfig
-from vllm.utils import get_dtype_size, logger, make_zmq_socket
+from vllm.utils import logger
 from vllm.v1.kv_cache_interface import AttentionSpec

 from vllm_ascend.distributed.cpu_offload_manager.cpu_kv_cache_manager import \
    CPUKVCacheManager
+from vllm_ascend.utils import vllm_version_is
+
+if vllm_version_is("0.11.0"):
+    from vllm.utils import get_dtype_size, make_zmq_socket
+else:
+    from vllm.utils.network_utils import make_zmq_socket
+    from vllm.utils.torch_utils import get_dtype_size


@dataclass
--- a/vllm_ascend/distributed/llmdatadist_c_mgr_connector.py
+++ b/vllm_ascend/distributed/llmdatadist_c_mgr_connector.py
@@ -25,19 +25,25 @@ from vllm.distributed.kv_transfer.kv_connector.v1.base import (
 from vllm.distributed.parallel_state import (get_dcp_group, get_tp_group,
                                             get_world_group)
 from vllm.forward_context import ForwardContext
-from vllm.utils import get_ip, logger
+from vllm.utils import logger
 from vllm.v1.core.kv_cache_manager import KVCacheBlocks
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.request import Request, RequestStatus

 import vllm_ascend.envs as envs_ascend
 from vllm_ascend.utils import (AscendSocVersion, get_ascend_soc_version,
-                               prefill_context_parallel_enable)
+                               prefill_context_parallel_enable,
+                               vllm_version_is)

 if prefill_context_parallel_enable():
    from vllm.distributed.parallel_state import \
        get_prefill_context_model_parallel_rank

+if vllm_version_is("0.11.0"):
+    from vllm.utils import get_ip
+else:
+    from vllm.utils.network_utils import get_ip
+
 TORCH_DTYPE_TO_NPU_DTYPE = {
    torch.half: llm_datadist.DataType.DT_FLOAT16,
    torch.float16: llm_datadist.DataType.DT_FLOAT16,
--- a/vllm_ascend/distributed/mooncake/mooncake_engine.py
+++ b/vllm_ascend/distributed/mooncake/mooncake_engine.py
@@ -7,7 +7,7 @@ from typing import Generator, List, Optional, Union
 # Third Party
 import torch
 from vllm.config import VllmConfig
-from vllm.utils import get_kv_cache_torch_dtype, logger
+from vllm.utils import logger

 from vllm_ascend.distributed.mooncake.config_data import (
    ChunkedTokenDatabase, LasyerMultiBlockReqMeta, MooncakeConnectorMetadata,
@@ -16,6 +16,12 @@ from vllm_ascend.distributed.mooncake.kv_transfer import (
    KVCacheStoreLayerRecvingThread, KVCacheStoreLayerSendingThread,
    KVCacheStoreRecvingThread, KVCacheStoreSendingThread, KVTransferThread)
 from vllm_ascend.distributed.mooncake.mooncake_store import Mooncakestore
+from vllm_ascend.utils import vllm_version_is
+
+if vllm_version_is("0.11.0"):
+    from vllm.utils import get_kv_cache_torch_dtype
+else:
+    from vllm.utils.torch_utils import get_kv_cache_torch_dtype


 class MooncakeEngine:
--- a/vllm_ascend/distributed/mooncake_connector.py
+++ b/vllm_ascend/distributed/mooncake_connector.py
@@ -26,13 +26,19 @@ from vllm.distributed.kv_transfer.kv_connector.v1.base import (
    KVConnectorBase_V1, KVConnectorMetadata, KVConnectorRole)
 from vllm.distributed.parallel_state import (get_tensor_model_parallel_rank,
                                             get_tp_group)
-from vllm.utils import get_ip, logger, make_zmq_path, make_zmq_socket
+from vllm.utils import logger
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.request import RequestStatus

 import vllm_ascend.envs as envs_ascend
 from vllm_ascend.ascend_config import get_ascend_config, init_ascend_config
 from vllm_ascend.distributed.mooncake.transfer_engine import get_global_te
+from vllm_ascend.utils import vllm_version_is
+
+if vllm_version_is("0.11.0"):
+    from vllm.utils import get_ip, make_zmq_path, make_zmq_socket
+else:
+    from vllm.utils.network_utils import get_ip, make_zmq_path, make_zmq_socket

 if TYPE_CHECKING:
    from vllm.attention.backends.abstract import AttentionMetadata
--- a/vllm_ascend/distributed/mooncake_layerwise_connector.py
+++ b/vllm_ascend/distributed/mooncake_layerwise_connector.py
@@ -26,7 +26,7 @@ from vllm.distributed.kv_transfer.kv_connector.v1.base import (
    KVConnectorBase_V1, KVConnectorMetadata, KVConnectorRole)
 from vllm.distributed.parallel_state import (get_tensor_model_parallel_rank,
                                             get_tp_group, get_world_group)
-from vllm.utils import get_ip, logger, make_zmq_path, make_zmq_socket
+from vllm.utils import logger
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.request import RequestStatus

@@ -34,6 +34,12 @@ import vllm_ascend.envs as envs_ascend
 from vllm_ascend.ascend_config import get_ascend_config
 from vllm_ascend.distributed.utils import (align_memory,
                                           kv_alltoall_and_rearrange)
+from vllm_ascend.utils import vllm_version_is
+
+if vllm_version_is("0.11.0"):
+    from vllm.utils import get_ip, make_zmq_path, make_zmq_socket
+else:
+    from vllm.utils.network_utils import get_ip, make_zmq_path, make_zmq_socket

 if TYPE_CHECKING:
    from vllm.attention.backends.abstract import AttentionMetadata