enginex-biren-vllm/Dockerfile

# 基于壁仞官方 vLLM 推理镜像
FROM git.modelhub.org.cn:9443/enginex/xc-llm-biren166m:26.01

# 镜像元信息
LABEL maintainer="enginex"
LABEL description="vLLM inference engine for Biren BR166M (SUPA) GPU"
LABEL version="26.01"

# 设置工作目录
WORKDIR /workspace

# 复制壁仞适配代码
COPY vllm_br/ /workspace/vllm_br/

# 如果需要覆盖基础镜像中的 vllm（按需启用）
# COPY vllm/ /workspace/vllm/

# 确保 vllm_br 可被 Python 发现
ENV PYTHONPATH="/workspace:${PYTHONPATH}"

# 默认使用 V1 引擎
ENV VLLM_USE_V1=1

# SUPA 设备相关默认配置
ENV VLLM_BR_WEIGHT_TYPE=NUMA
ENV VLLM_BR_QUANT_METHOD=INT8

# 暴露 vLLM API 服务端口
EXPOSE 8000

ENTRYPOINT ["python", "-m", "vllm.entrypoints.openai.api_server"]