kunlunxin
适配 kunlunxin 昆仑芯R200-8F加速卡的大模型推理服务镜像
启动
使用docker方式启动
docker run -it --rm \
--net=host \
-v /mnt/disk0/models/model-qwen1-5-72b-chat/:/model \
-e MODEL_NAME=qwen1.5-72b \
-e NUM_GPUs=4 \
-e WEIGHT_ONLY_PRECISION=int8 \
--device /dev/xpuctrl \
--device /dev/xpu0 \
--device /dev/xpu1 \
--device /dev/xpu2 \
--device /dev/xpu3 \
slx-infer-kunlunxin:release-0.1-pipe-1-commit-cd30b38d
参数说明
环境变量
-
MODEL_PATH: 模型在容器中的路径,默认为
/model -
MODEL_NAME: 模型名字,用于api接口中
-
PORT:端口,默认
80 -
BUILD_SCRIPT_ROOT:编译脚本目录,一般不需要修改
-
WEIGHT_ONLY_PRECISION:量化权重的精度,
int8或int4 -
ENGINE_DIR:编译后的模型存储路径,默认
./xtrt_engine -
BUILD_EXTRA:编译用到的额外参数
参数
基本与vllm相同,可以使用--help查看。
由于后端的engine使用的是xtrt的engine,所以相关的参数无效或造成未知的结果,所以不建议修改相关参数。
Description
Languages
Python
95.8%
Dockerfile
4.2%