Files
enginex-c_series-vllm/README.md
2025-08-28 16:13:08 +08:00

13 lines
817 B
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# metax-c500-vllm
本项目包含了对于原版 vllm 的升级,使其可以在沐曦 C500芯片上支持运行 gpt-oss
本项目中提供的 Dockerfile 中的主要内容为:
1.`vllm` 目录覆盖到镜像中的 `/opt/conda/lib/python3.10/site-packages/vllm`。运行`gpt-oss`时需指定`VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1`
2.`code_generator.py` 覆盖到镜像中的 `/opt/conda/lib/python3.10/site-packages/triton/compiler/code_generator.py`
镜像成功编译以后,可以参照标准 vllm 使用方式。
注意,目前该版本暂时分为两个分支(即将合并为一个分支)
- main 分支:支持 gpt-oss-20b-BF16 版本https://huggingface.co/unsloth/gpt-oss-20b-BF16
- feat/gpt-oss 分支:支持原版 gpt-oss-20b 模型https://huggingface.co/openai/gpt-oss-20b