first commit

2026-06-29 17:04:41 +08:00
commit a2a00f102e
7 changed files with 327 additions and 0 deletions
--- a/.gitea/docker-build-push.yml
+++ b/.gitea/docker-build-push.yml
@@ -0,0 +1,132 @@
+name: Docker Build and Push
+
+on:
+  push:
+    tags:
+      - "v*"
+
+jobs:
+  docker:
+    runs-on: amd64-ubuntu-24.04
+
+    steps:
+      - name: Clone repository
+        run: |
+          git clone "${{ gitea.server_url }}/${{ gitea.repository }}.git" .
+          git checkout "${{ gitea.ref_name }}"
+
+      - name: Set image metadata
+        run: |
+          IMAGE_NAME="$(echo "${{ gitea.repository }}" | tr '[:upper:]' '[:lower:]' | tr '_' '-')"
+          IMAGE="${DOCKER_REGISTRY}/${DOCKER_USERNAME}/${IMAGE_NAME}:${{ gitea.ref_name }}"
+
+          echo "IMAGE_NAME=${IMAGE_NAME}" >> "$GITEA_ENV"
+          echo "IMAGE=${IMAGE}" >> "$GITEA_ENV"
+
+      - name: Load and Validate Task Info
+        run: |
+          set -a
+          . .gitea/workflows/task_info.env
+          set +a
+
+          for name in FRAMEWORK GPU_TYPE TASK_TYPE; do
+            eval "value=\${${name}:-}"
+            if [ "$name" = "FRAMEWORK" ] && [ -z "$value" ]; then
+              echo "${name} is empty in .gitea/workflows/task_info.env"
+              exit 1
+            fi
+
+            echo "${name}=${value}" >> "$GITEA_ENV"
+          done
+
+      - name: Validate Image Verify Metadata
+        run: |
+          if [ -z "${FIXED_TOKEN:-}" ]; then
+            echo "FIXED_TOKEN is not configured on runner"
+            exit 1
+          fi
+
+          if ! response="$(curl --silent --show-error --location --get 'https://modelhub.org.cn/adminApi/image-verify/validate' \
+            --header "Xc-Token: ${FIXED_TOKEN}" \
+            --data-urlencode "gpuType=${GPU_TYPE:-}" \
+            --data-urlencode "taskType=${TASK_TYPE:-}")"; then
+            echo "failed to call image verify validate API"
+            exit 1
+          fi
+
+          VALIDATE_RESPONSE="$response" python3 - <<'PY'
+          import json
+          import os
+          import sys
+
+          raw = os.environ.get("VALIDATE_RESPONSE", "")
+          try:
+              body = json.loads(raw)
+          except json.JSONDecodeError:
+              print("image verify validate API returned invalid JSON")
+              print(raw)
+              sys.exit(1)
+
+          if body.get("code") == 0 and body.get("data") is True:
+              print("image verify metadata validation passed")
+              sys.exit(0)
+
+          message = body.get("message") or "unknown error"
+          print(f"image verify metadata validation failed: {message}")
+          print(raw)
+          sys.exit(1)
+          PY
+
+      - name: Login to Docker Registry
+        run: |
+          echo "$DOCKER_PASSWORD" | docker login "$DOCKER_REGISTRY" \
+            -u "$DOCKER_USERNAME" \
+            --password-stdin
+
+      - name: Build Docker Image
+        run: |
+          docker build -t "$IMAGE" .
+
+      - name: Push Docker Image
+        run: |
+          for attempt in 1 2 3; do
+            echo "Starting docker push attempt ${attempt}/3 for ${IMAGE}"
+            docker push "$IMAGE" &
+            PUSH_PID=$!
+
+            while kill -0 "$PUSH_PID" 2>/dev/null; do
+              echo "docker push is still running at $(date -u '+%Y-%m-%dT%H:%M:%SZ')"
+              sleep 60
+            done
+
+            if wait "$PUSH_PID"; then
+              echo "docker push completed successfully"
+              exit 0
+            fi
+
+            echo "docker push failed on attempt ${attempt}/3"
+            sleep 30
+          done
+
+          echo "docker push failed after 3 attempts"
+          exit 1
+
+      - name: Notify Image Verify
+        run: |
+          if [ -z "${FIXED_TOKEN:-}" ]; then
+            echo "FIXED_TOKEN is not configured on runner"
+            exit 1
+          fi
+
+          curl --silent --show-error --fail-with-body --location --request POST 'https://modelhub.org.cn//adminApi/image-verify' \
+            --header "Xc-Token: ${FIXED_TOKEN}" \
+            --header 'Content-Type: application/json' \
+            --data-raw "{
+              \"framework\": \"${FRAMEWORK}\",
+              \"gpuType\": \"${GPU_TYPE}\",
+              \"imageUrl\": \"${IMAGE}\",
+              \"taskType\": \"${TASK_TYPE}\",
+              \"createBy\": \"${{ gitea.actor }}\",
+              \"repoUrl\": \"${{ gitea.server_url }}/${{ gitea.repository }}\",
+              \"tag\": \"${{ github.ref_name }}\"
+            }"
--- a/.gitea/task_info.env
+++ b/.gitea/task_info.env
@@ -0,0 +1,3 @@
+FRAMEWORK=vllm_tokenizerz_patch
+GPU_TYPE=Kunlun_P800
+TASK_TYPE=text-generation
--- a/9
+++ b/9
@@ -0,0 +1,9 @@
+FROM harbor-contest.4pd.io/sunjichen/xc-llm-kunlun:latest
+
+COPY entrypoint.sh /opt/entrypoint.sh
+COPY fix_tokenizer.py /opt/fix_tokenizer.py
+COPY detect_tokenizer.py /opt/detect_tokenizer.py
+
+RUN chmod +x /opt/entrypoint.sh
+
+ENTRYPOINT ["/opt/entrypoint.sh"]
--- a/README.md
+++ b/README.md
@@ -0,0 +1,50 @@
+# xc-llm-kunlun-fix-tokenizer
+
+基于 `harbor-contest.4pd.io/sunjichen/xc-llm-kunlun:latest` 的 tokenizer 自动修复镜像，解决部分模型 `tokenizer_config.json` 中 `tokenizer_class` 为 `TokenizersBackend` 等非标准类名导致 vLLM 启动失败的问题。
+
+## 问题背景
+
+某些经过训练/合并的模型，其 `tokenizer_config.json` 中存在以下问题：
+- `tokenizer_class` 被设置为 `TokenizersBackend`、`TiktokenTokenizer` 等 transformers 不识别的类名
+- `extra_special_tokens` 字段为 list 格式，而 transformers 期望 dict 格式
+
+这会导致 `AutoTokenizer.from_pretrained` 抛出 `ValueError`，vLLM 服务无法启动。
+
+## 修复方式
+
+容器启动时自动检测 `tokenizer_config.json`，若存在问题则将 tokenizer 文件复制到 `/tmp/fixed_tokenizer/` 并修复配置，再以 `--tokenizer /tmp/fixed_tokenizer` 参数启动 vLLM。原始模型目录不做任何修改。
+
+## 使用方式
+
+将原 docker run 命令中的镜像名替换为本镜像，并去掉 `--entrypoint vllm`，改为直接传参：
+
+```bash
+docker run -dit --name <container_name> \
+  -p 44825:8000 \
+  --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \
+  --tmpfs /dev/shm:rw,nosuid,nodev,exec,size=64g \
+  --ulimit memlock=-1 \
+  --device=/dev/xpu0:/dev/xpu0 \
+  --device=/dev/xpuctrl:/dev/xpuctrl \
+  -v /path/to/model:/model \
+  <this-image> \
+  /model --port 8000 --served-model-name llm \
+  --max-model-len 2048 --gpu-memory-utilization 0.9 \
+  --enforce-eager --trust-remote-code -tp 1
+```
+
+## 环境变量
+
+| 变量 | 默认值 | 说明 |
+|---|---|---|
+| `AUTO_FIX_TOKENIZER` | `auto` | `auto`：自动检测；`1`/`true`：强制修复；其他值：跳过修复 |
+| `MODEL_DIR` | `/model` | 模型路径（通常通过命令行第一个参数传入） |
+| `FIX_TOKENIZER_DIR` | `/tmp/fixed_tokenizer` | 修复后 tokenizer 文件的临时目录 |
+
+## 构建
+
+```bash
+docker build -t xc-llm-kunlun-fix-tokenizer:latest .
+```
+
+CI 通过推送 `v*` tag 自动触发构建并推送镜像。
--- a/detect_tokenizer.py
+++ b/detect_tokenizer.py
@@ -0,0 +1,25 @@
+import os
+import json
+
+def detect(model_dir):
+    cfg_path = os.path.join(model_dir, "tokenizer_config.json")
+
+    if os.path.exists(cfg_path):
+        with open(cfg_path) as f:
+            cfg = json.load(f)
+        cls = cfg.get("tokenizer_class", "")
+    else:
+        cls = ""
+
+    files = os.listdir(model_dir)
+
+    if "tokenizer.json" in files:
+        return "fast", cls
+
+    if "tokenizer.model" in files:
+        return "sentencepiece", cls
+
+    if "vocab.json" in files and "merges.txt" in files:
+        return "bpe", cls
+
+    return "unknown", cls
--- a/entrypoint.sh
+++ b/entrypoint.sh
@@ -0,0 +1,39 @@
+#!/bin/bash
+set -e
+
+MODEL_DIR=${1:-/model}
+shift || true
+
+FIX_TOKENIZER_DIR=/tmp/fixed_tokenizer
+AUTO_FIX=${AUTO_FIX_TOKENIZER:-auto}
+
+echo "[entrypoint] model dir: $MODEL_DIR"
+
+NEED_FIX=0
+
+if [ "$AUTO_FIX" = "1" ] || [ "$AUTO_FIX" = "true" ]; then
+    NEED_FIX=1
+elif [ "$AUTO_FIX" = "auto" ]; then
+    if [ -f "$MODEL_DIR/tokenizer_config.json" ]; then
+        if grep -q "TokenizersBackend\|TiktokenTokenizer" "$MODEL_DIR/tokenizer_config.json"; then
+            NEED_FIX=1
+        fi
+        # 检测 extra_special_tokens 是否为 list 格式
+        if grep -q '"extra_special_tokens":\s*\[' "$MODEL_DIR/tokenizer_config.json"; then
+            NEED_FIX=1
+        fi
+    fi
+fi
+
+if [ $NEED_FIX -eq 1 ]; then
+    echo "[entrypoint] fixing tokenizer..."
+    python3 /opt/fix_tokenizer.py
+    TOKENIZER_ARG="--tokenizer $FIX_TOKENIZER_DIR"
+else
+    echo "[entrypoint] tokenizer OK, skip fix"
+    TOKENIZER_ARG=""
+fi
+
+echo "[entrypoint] starting vllm..."
+
+exec vllm serve "$MODEL_DIR" $TOKENIZER_ARG "$@"
--- a/fix_tokenizer.py
+++ b/fix_tokenizer.py
@@ -0,0 +1,69 @@
+import os
+import shutil
+import json
+from detect_tokenizer import detect
+
+MODEL_DIR = os.environ.get("MODEL_DIR", "/model")
+OUT_DIR = os.environ.get("FIX_TOKENIZER_DIR", "/tmp/fixed_tokenizer")
+
+os.makedirs(OUT_DIR, exist_ok=True)
+
+def copy_if_exists(name):
+    src = os.path.join(MODEL_DIR, name)
+    if os.path.exists(src):
+        shutil.copy(src, OUT_DIR)
+
+# 复制所有可能相关文件
+for f in [
+    "tokenizer.json",
+    "tokenizer_config.json",
+    "special_tokens_map.json",
+    "vocab.json",
+    "merges.txt",
+    "tokenizer.model",
+]:
+    copy_if_exists(f)
+
+typ, orig_cls = detect(MODEL_DIR)
+
+cfg_path = os.path.join(OUT_DIR, "tokenizer_config.json")
+
+if os.path.exists(cfg_path):
+    with open(cfg_path) as f:
+        cfg = json.load(f)
+else:
+    cfg = {}
+
+# ===== 自动修复策略 =====
+if typ == "fast":
+    cfg["tokenizer_class"] = "PreTrainedTokenizerFast"
+
+elif typ == "sentencepiece":
+    cfg["tokenizer_class"] = "LlamaTokenizer"
+
+elif typ == "bpe":
+    cfg["tokenizer_class"] = "GPT2TokenizerFast"
+
+else:
+    cfg["tokenizer_class"] = "PreTrainedTokenizerFast"
+
+# 特殊 case 修复
+bad_classes = [
+    "TokenizersBackend",
+    "TiktokenTokenizer",
+]
+
+if orig_cls in bad_classes:
+    print(f"[fix] override bad tokenizer_class: {orig_cls} → {cfg['tokenizer_class']}")
+
+# 修复 extra_special_tokens: list → dict 格式
+if "extra_special_tokens" in cfg and isinstance(cfg["extra_special_tokens"], list):
+    orig_list = cfg["extra_special_tokens"]
+    cfg["extra_special_tokens"] = {token: token for token in orig_list}
+    print(f"[fix] converted extra_special_tokens from list ({len(orig_list)} items) to dict format")
+
+# 写回
+with open(cfg_path, "w") as f:
+    json.dump(cfg, f)
+
+print(f"[fix_tokenizer] done → {OUT_DIR}")