Drop 0.11.0 support (#4377)

There is a lot hack code for v0.11.0, which makes the code hard to upgrade to newer vLLM version. Since v0.11.0 will release soon. Let's drop v0.11.0 support first. Then we'll upgrade to v0.11.2 soon. - vLLM version: v0.11.0 - vLLM main: 2918c1b49c Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com>
2025-11-24 17:08:20 +08:00
parent 41ddb06554
commit a1f142b7ad
80 changed files with 467 additions and 1755 deletions
--- a/vllm_ascend/distributed/mooncake/config_data.py
+++ b/vllm_ascend/distributed/mooncake/config_data.py
@@ -10,14 +10,7 @@ import torch
 from vllm.distributed.kv_transfer.kv_connector.v1.base import \
    KVConnectorMetadata
 from vllm.utils import logger
-
-from vllm_ascend.utils import vllm_version_is
-
-if vllm_version_is("0.11.0"):
-    from vllm.utils import cdiv
-else:
-    from vllm.utils.math_utils import cdiv
-
+from vllm.utils.math_utils import cdiv
 from vllm.v1.core.sched.output import NewRequestData

 DEFAULT_GLOBAL_SEGMENT_SIZE = 3355443200  # 3.125 GiB
--- a/vllm_ascend/distributed/mooncake/mooncake_engine.py
+++ b/vllm_ascend/distributed/mooncake/mooncake_engine.py
@@ -8,6 +8,7 @@ from typing import Generator, List, Optional, Union
 import torch
 from vllm.config import VllmConfig
 from vllm.utils import logger
+from vllm.utils.torch_utils import get_kv_cache_torch_dtype

 from vllm_ascend.distributed.mooncake.config_data import (
    ChunkedTokenDatabase, LasyerMultiBlockReqMeta, MooncakeConnectorMetadata,
@@ -16,12 +17,6 @@ from vllm_ascend.distributed.mooncake.kv_transfer import (
    KVCacheStoreLayerRecvingThread, KVCacheStoreLayerSendingThread,
    KVCacheStoreRecvingThread, KVCacheStoreSendingThread, KVTransferThread)
 from vllm_ascend.distributed.mooncake.mooncake_store import Mooncakestore
-from vllm_ascend.utils import vllm_version_is
-
-if vllm_version_is("0.11.0"):
-    from vllm.utils import get_kv_cache_torch_dtype
-else:
-    from vllm.utils.torch_utils import get_kv_cache_torch_dtype


 class MooncakeEngine:
--- a/vllm_ascend/distributed/mooncake/mooncake_store.py
+++ b/vllm_ascend/distributed/mooncake/mooncake_store.py
@@ -6,18 +6,13 @@ from mooncake.store import ReplicateConfig  # type: ignore
 from vllm.config import ParallelConfig
 from vllm.distributed.parallel_state import get_tensor_model_parallel_rank
 from vllm.utils import logger
+from vllm.utils.network_utils import get_ip

 from vllm_ascend.distributed.mooncake.config_data import MooncakeEngineKey
 from vllm_ascend.distributed.mooncake.transfer_engine import get_global_te
-from vllm_ascend.utils import vllm_version_is

 from .config_data import MooncakeStoreConfig

-if vllm_version_is("0.11.0"):
-    from vllm.utils import get_ip
-else:
-    from vllm.utils.network_utils import get_ip
-
 METADATA_BYTES_LEN = 24
 BASE_PORT = int(os.getenv("VLLM_BASE_PORT", "8790"))

--- a/vllm_ascend/distributed/mooncake/mooncake_store_connector_v1.py
+++ b/vllm_ascend/distributed/mooncake/mooncake_store_connector_v1.py
@@ -10,6 +10,7 @@ from vllm.distributed.kv_transfer.kv_connector.v1.base import (
    KVConnectorBase_V1, KVConnectorMetadata, KVConnectorRole)
 from vllm.forward_context import ForwardContext
 from vllm.utils import logger
+from vllm.utils.network_utils import make_zmq_socket
 from vllm.v1.core.kv_cache_manager import KVCacheBlocks
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.request import Request
@@ -18,12 +19,6 @@ from vllm.v1.serial_utils import MsgpackDecoder, MsgpackEncoder
 from vllm_ascend.distributed.mooncake.config_data import (
    LoadSpec, MooncakeConnectorMetadata, ReqMeta, RequestTracker)
 from vllm_ascend.distributed.mooncake.mooncake_engine import MooncakeEngine
-from vllm_ascend.utils import vllm_version_is
-
-if vllm_version_is("0.11.0"):
-    from vllm.utils import make_zmq_socket
-else:
-    from vllm.utils.network_utils import make_zmq_socket


 class MooncakeConnectorV1(KVConnectorBase_V1):