forked from EngineX-MetaX/enginex-c_series-vllm
更新 README.md
This commit is contained in:
11
README.md
11
README.md
@@ -1,4 +1,13 @@
|
||||
# metax-c500-vllm
|
||||
|
||||
1. 支持 `gpt-oss`:将 `vllm` 目录覆盖到镜像中的 `/opt/conda/lib/python3.10/site-packages/vllm`。运行`gpt-oss`时需指定`VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1`
|
||||
本项目包含了对于原版 vllm 的升级,使其可以在沐曦 C500芯片上支持运行 gpt-oss
|
||||
|
||||
本项目中提供的 Dockerfile 中的主要内容为:
|
||||
1. 将 `vllm` 目录覆盖到镜像中的 `/opt/conda/lib/python3.10/site-packages/vllm`。运行`gpt-oss`时需指定`VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1`
|
||||
2. 将 `code_generator.py` 覆盖到镜像中的 `/opt/conda/lib/python3.10/site-packages/triton/compiler/code_generator.py`
|
||||
|
||||
镜像成功编译以后,可以参照标准 vllm 使用方式。
|
||||
|
||||
注意,目前该版本暂时分为两个分支(即将合并为一个分支)
|
||||
- main 分支:支持 gpt-oss-20b-BF16 版本,https://huggingface.co/unsloth/gpt-oss-20b-BF16
|
||||
- feat/gpt-oss 分支:支持原版 gpt-oss-20b 模型,https://huggingface.co/openai/gpt-oss-20b
|
||||
Reference in New Issue
Block a user