Update to new version of base image

2025-10-24 15:45:06 +08:00
parent ee04aead1e
commit fad74b701b
476 changed files with 1270 additions and 46 deletions
--- a/vllm/model_executor/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/pycache/custom_op.cpython-310.pyc
+++ b/vllm/model_executor/pycache/custom_op.cpython-310.pyc
--- a/vllm/model_executor/pycache/parameter.cpython-310.pyc
+++ b/vllm/model_executor/pycache/parameter.cpython-310.pyc
--- a/vllm/model_executor/pycache/pooling_metadata.cpython-310.pyc
+++ b/vllm/model_executor/pycache/pooling_metadata.cpython-310.pyc
--- a/vllm/model_executor/pycache/sampling_metadata.cpython-310.pyc
+++ b/vllm/model_executor/pycache/sampling_metadata.cpython-310.pyc
--- a/vllm/model_executor/pycache/utils.cpython-310.pyc
+++ b/vllm/model_executor/pycache/utils.cpython-310.pyc
--- a/vllm/model_executor/guided_decoding/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/guided_decoding/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/guided_decoding/pycache/guided_fields.cpython-310.pyc
+++ b/vllm/model_executor/guided_decoding/pycache/guided_fields.cpython-310.pyc
--- a/vllm/model_executor/guided_decoding/pycache/lm_format_enforcer_decoding.cpython-310.pyc
+++ b/vllm/model_executor/guided_decoding/pycache/lm_format_enforcer_decoding.cpython-310.pyc
--- a/vllm/model_executor/guided_decoding/pycache/outlines_decoding.cpython-310.pyc
+++ b/vllm/model_executor/guided_decoding/pycache/outlines_decoding.cpython-310.pyc
--- a/vllm/model_executor/guided_decoding/pycache/outlines_logits_processors.cpython-310.pyc
+++ b/vllm/model_executor/guided_decoding/pycache/outlines_logits_processors.cpython-310.pyc
--- a/vllm/model_executor/guided_decoding/outlines_logits_processors.py
+++ b/vllm/model_executor/guided_decoding/outlines_logits_processors.py
@@ -23,12 +23,21 @@ from typing import Callable, DefaultDict, Dict, List, Union
 import torch
 from lark import Lark
 from outlines import grammars
-from outlines.caching import cache
+from outlines.caching import cache, disable_cache
 from outlines.fsm.guide import CFGGuide, Generate, Guide, RegexGuide, Write
 from outlines.fsm.json_schema import build_regex_from_schema
 from pydantic import BaseModel
 from transformers import PreTrainedTokenizerBase
+import vllm.envs as envs
+from vllm.logger import init_logger
+logger = init_logger(__name__)

+if envs.VLLM_V0_USE_OUTLINES_CACHE:
+    logger.warning("Enabling outlines cache. This is an unbounded on-disk "
+                   "cache. It may consume a lot of disk space and should "
+                   "not be used with untrusted clients.")
+else:
+    disable_cache()

 class BaseLogitsProcessor:

--- a/vllm/model_executor/layers/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/activation.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/activation.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/layernorm.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/layernorm.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/linear.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/linear.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/logits_processor.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/logits_processor.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/pooler.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/pooler.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/rejection_sampler.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/rejection_sampler.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/resampler.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/resampler.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/rotary_embedding.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/rotary_embedding.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/sampler.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/sampler.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/spec_decode_base_sampler.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/spec_decode_base_sampler.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/typical_acceptance_sampler.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/typical_acceptance_sampler.cpython-310.pyc
--- a/vllm/model_executor/layers/pycache/vocab_parallel_embedding.cpython-310.pyc
+++ b/vllm/model_executor/layers/pycache/vocab_parallel_embedding.cpython-310.pyc
--- a/vllm/model_executor/layers/fused_moe/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/fused_moe/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/fused_moe/pycache/fused_marlin_moe.cpython-310.pyc
+++ b/vllm/model_executor/layers/fused_moe/pycache/fused_marlin_moe.cpython-310.pyc
--- a/vllm/model_executor/layers/fused_moe/pycache/fused_moe.cpython-310.pyc
+++ b/vllm/model_executor/layers/fused_moe/pycache/fused_moe.cpython-310.pyc
--- a/vllm/model_executor/layers/fused_moe/pycache/layer.cpython-310.pyc
+++ b/vllm/model_executor/layers/fused_moe/pycache/layer.cpython-310.pyc
--- a/vllm/model_executor/layers/fused_moe/pycache/moe_pallas.cpython-310.pyc
+++ b/vllm/model_executor/layers/fused_moe/pycache/moe_pallas.cpython-310.pyc
--- a/vllm/model_executor/layers/linear.py
+++ b/vllm/model_executor/layers/linear.py
@@ -132,7 +132,7 @@ class UnquantizedLinearMethod(LinearMethodBase):
              layer: torch.nn.Module,
              x: torch.Tensor,
              bias: Optional[torch.Tensor] = None) -> torch.Tensor:
-        if (x.shape[0] == 16384 or x.shape[0] == 15360):
+        if (x.shape[0] == 8192 or x.shape[0] == 16384 or x.shape[0] == 15360):
            if bias is None:
                return x @ layer.weight.T
            else:
--- a/vllm/model_executor/layers/mamba/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/mamba/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/mamba/ops/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/mamba/ops/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/mamba/ops/pycache/causal_conv1d.cpython-310.pyc
+++ b/vllm/model_executor/layers/mamba/ops/pycache/causal_conv1d.cpython-310.pyc
--- a/vllm/model_executor/layers/mamba/ops/pycache/mamba_ssm.cpython-310.pyc
+++ b/vllm/model_executor/layers/mamba/ops/pycache/mamba_ssm.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/aqlm.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/aqlm.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/awq.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/awq.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/awq_marlin.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/awq_marlin.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/awq_triton.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/awq_triton.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/base_config.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/base_config.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/bitsandbytes.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/bitsandbytes.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/deepspeedfp.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/deepspeedfp.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/experts_int8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/experts_int8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/fbgemm_fp8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/fbgemm_fp8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/fp8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/fp8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/gguf.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/gguf.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/gptq.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/gptq.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/gptq_marlin.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/gptq_marlin.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/gptq_marlin_24.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/gptq_marlin_24.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/ipex_quant.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/ipex_quant.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/kv_cache.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/kv_cache.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/marlin.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/marlin.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/modelopt.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/modelopt.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/neuron_quant.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/neuron_quant.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/qqq.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/qqq.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/schema.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/schema.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/tpu_int8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/tpu_int8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/pycache/w8a16.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/pycache/w8a16.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/pycache/compressed_tensors.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/pycache/compressed_tensors.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/pycache/compressed_tensors_moe.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/pycache/compressed_tensors_moe.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/pycache/utils.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/pycache/utils.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_scheme.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_scheme.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w4a16_24.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w4a16_24.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w8a16_fp8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w8a16_fp8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w8a8_fp8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w8a8_fp8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w8a8_int8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_w8a8_int8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_wNa16.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/pycache/compressed_tensors_wNa16.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/compressed_tensors/utils.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/utils.py
@@ -1,4 +1,4 @@
-import re
+import regex as re
 from enum import Enum
 from typing import Any, Dict, Iterable, Optional, Union

--- a/vllm/model_executor/layers/quantization/kernels/pycache/MPLinearKernel.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/kernels/pycache/MPLinearKernel.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/kernels/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/kernels/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/kernels/pycache/machete.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/kernels/pycache/machete.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/kernels/pycache/marlin.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/kernels/pycache/marlin.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/layer_utils.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/layer_utils.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/machete_utils.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/machete_utils.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_fp8.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_fp8.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_test.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_test.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_test_24.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_test_24.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_test_qqq.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/marlin_utils_test_qqq.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/quant_utils.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/quant_utils.cpython-310.pyc
--- a/vllm/model_executor/layers/quantization/utils/pycache/w8a8_utils.cpython-310.pyc
+++ b/vllm/model_executor/layers/quantization/utils/pycache/w8a8_utils.cpython-310.pyc
--- a/vllm/model_executor/model_loader/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/model_loader/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/model_loader/pycache/loader.cpython-310.pyc
+++ b/vllm/model_executor/model_loader/pycache/loader.cpython-310.pyc
--- a/vllm/model_executor/model_loader/pycache/neuron.cpython-310.pyc
+++ b/vllm/model_executor/model_loader/pycache/neuron.cpython-310.pyc
--- a/vllm/model_executor/model_loader/pycache/openvino.cpython-310.pyc
+++ b/vllm/model_executor/model_loader/pycache/openvino.cpython-310.pyc
--- a/vllm/model_executor/model_loader/pycache/tensorizer.cpython-310.pyc
+++ b/vllm/model_executor/model_loader/pycache/tensorizer.cpython-310.pyc
--- a/vllm/model_executor/model_loader/pycache/utils.cpython-310.pyc
+++ b/vllm/model_executor/model_loader/pycache/utils.cpython-310.pyc
--- a/vllm/model_executor/model_loader/pycache/weight_utils.cpython-310.pyc
+++ b/vllm/model_executor/model_loader/pycache/weight_utils.cpython-310.pyc
--- a/vllm/model_executor/model_loader/tensorizer.py
+++ b/vllm/model_executor/model_loader/tensorizer.py
@@ -2,7 +2,7 @@ import argparse
 import dataclasses
 import io
 import os
-import re
+import regex as re
 import time
 from dataclasses import dataclass
 from functools import partial
--- a/vllm/model_executor/model_loader/weight_utils.py
+++ b/vllm/model_executor/model_loader/weight_utils.py
@@ -85,7 +85,7 @@ def convert_bin_to_safetensor_file(
    pt_filename: str,
    sf_filename: str,
 ) -> None:
-    loaded = torch.load(pt_filename, map_location="cpu")
+    loaded = torch.load(pt_filename, map_location="cpu", weights_only=True)
    if "state_dict" in loaded:
        loaded = loaded["state_dict"]
    shared = _shared_pointers(loaded)
@@ -373,7 +373,7 @@ def np_cache_weights_iterator(
                    disable=not enable_tqdm,
                    bar_format=_BAR_FORMAT,
            ):
-                state = torch.load(bin_file, map_location="cpu")
+                state = torch.load(bin_file, map_location="cpu", weights_only=True)
                for name, param in state.items():
                    param_path = os.path.join(np_folder, name)
                    with open(param_path, "wb") as f:
@@ -422,7 +422,7 @@ def pt_weights_iterator(
            disable=not enable_tqdm,
            bar_format=_BAR_FORMAT,
    ):
-        state = torch.load(bin_file, map_location="cpu")
+        state = torch.load(bin_file, map_location="cpu", weights_only=True)
        for name, param in state.items():
            yield name, param
        del state
--- a/vllm/model_executor/models/pycache/init.cpython-310.pyc
+++ b/vllm/model_executor/models/pycache/init.cpython-310.pyc
--- a/vllm/model_executor/models/pycache/arctic.cpython-310.pyc
+++ b/vllm/model_executor/models/pycache/arctic.cpython-310.pyc
--- a/vllm/model_executor/models/pycache/baichuan.cpython-310.pyc
+++ b/vllm/model_executor/models/pycache/baichuan.cpython-310.pyc
--- a/vllm/model_executor/models/pycache/bart.cpython-310.pyc
+++ b/vllm/model_executor/models/pycache/bart.cpython-310.pyc
--- a/vllm/model_executor/models/pycache/blip.cpython-310.pyc
+++ b/vllm/model_executor/models/pycache/blip.cpython-310.pyc
--- a/vllm/model_executor/models/pycache/blip2.cpython-310.pyc
+++ b/vllm/model_executor/models/pycache/blip2.cpython-310.pyc
--- a/Show More
+++ b/Show More