From 9ae7d0ffefd5b4e3ace5087fb752e97c7508b423 Mon Sep 17 00:00:00 2001 From: i-peixingyu Date: Fri, 24 Apr 2026 15:44:57 +0800 Subject: [PATCH] =?UTF-8?q?=E6=B7=BB=E5=8A=A0=20README.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 32 ++++++++++++++++++++++++++++++++ 1 file changed, 32 insertions(+) create mode 100644 README.md diff --git a/README.md b/README.md new file mode 100644 index 0000000..701ca06 --- /dev/null +++ b/README.md @@ -0,0 +1,32 @@ +# Biren166M vLLM Patched 镜像 + +## 背景 + +在 Biren166M GPU 上跑大批量模型 benchmark 时,部分模型因 tokenizer 配置问题导致 vLLM 启动失败。本仓库通过在基础镜像上打 patch,修复已知的兼容性问题,无需逐个修改模型文件。 + +## 镜像信息 + +| 项目 | 值 | +|------|----| +| 基础镜像 | `git.modelhub.org.cn:9443/enginex/xc-llm-biren166m:26.01` | +| Patched 镜像 | `git.modelhub.org.cn:9443/enginex/xc-llm-biren166m:26.01-patch-tokenizer` | + +## 已修复问题 + +### Patch 1:extra_special_tokens 类型兼容 + +**问题:** 部分模型的 `tokenizer_config.json` 中 `extra_special_tokens` 字段为 `list` 类型,而 transformers 库要求其为 `dict`,导致 vLLM 启动时报错崩溃。 + +**修复文件:** `transformers/tokenization_utils_base.py` + +**修复方式:** 在 `_set_model_specific_special_tokens` 方法入口处,检测到 `list` 类型时自动转换为 `dict`。 + +**已验证模型:** +- `beyoru/Luna-Ethos` ✅ +- `boqiny/Qwen3-8B-FengGe-SFT` ✅ + +## 构建方法 + +```bash +docker build -t git.modelhub.org.cn:9443/enginex/xc-llm-biren166m:26.01-patch-tokenizer . +docker push git.modelhub.org.cn:9443/enginex/xc-llm-biren166m:26.01-patch-tokenizer