Upgrade to vllm 0.17.0 corex v4.1 overlay

2026-04-29 19:38:22 +08:00
parent 8fac6062e4
commit 938d0854a5
430 changed files with 35969 additions and 14511 deletions
--- a/vllm/model_executor/model_loader/default_loader.py
+++ b/vllm/model_executor/model_loader/default_loader.py
@@ -13,6 +13,7 @@ from transformers.utils import SAFE_WEIGHTS_INDEX_NAME

 from vllm.config import ModelConfig
 from vllm.config.load import LoadConfig
+from vllm import envs
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.torchao import torchao_version_at_least
 from vllm.model_executor.model_loader.base_loader import BaseModelLoader
@@ -32,6 +33,8 @@ from vllm.model_executor.model_loader.weight_utils import (
 )
 from vllm.tracing import instrument
 from vllm.transformers_utils.repo_utils import list_filtered_repo_files
+from vllm import envs
+

 logger = init_logger(__name__)

@@ -287,8 +290,7 @@ class DefaultModelLoader(BaseModelLoader):
                self.load_config.safetensors_load_strategy = "torchao"

        weights_to_load = {name for name, _ in model.named_parameters()}
-        all_weights = self.get_all_weights(model_config, model)
-        loaded_weights = model.load_weights(all_weights)
+        loaded_weights = model.load_weights(self.get_all_weights(model_config, model))

        self.counter_after_loading_weights = time.perf_counter()
        logger.info_once(
@@ -298,7 +300,8 @@ class DefaultModelLoader(BaseModelLoader):
        )
        # We only enable strict check for non-quantized models
        # that have loaded weights tracking currently.
-        if model_config.quantization is None and loaded_weights is not None:
+        opt_flag = envs.VLLM_MOE_OPT_LEVEL != 0 or envs.VLLM_LINEAR_OPT_LEVEL != 0
+        if model_config.quantization is None and loaded_weights is not None and not opt_flag:
            weights_not_loaded = weights_to_load - loaded_weights
            if weights_not_loaded:
                raise ValueError(