metax-c500-vllm

本项目包含了对于原版 vllm 的升级,使其可以在沐曦 C500芯片上支持运行 gpt-oss, qwen3-omni

本项目中提供的 Dockerfile 中的主要内容为:

  1. vllm 目录覆盖到镜像中的 /opt/conda/lib/python3.10/site-packages/vllm。运行gpt-oss时需指定VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1
  2. code_generator.py 覆盖到镜像中的 /opt/conda/lib/python3.10/site-packages/triton/compiler/code_generator.py

镜像成功编译以后,可以参照标准 vllm 使用方式。

Description
运行于沐曦曦云C系列算力卡的【文本生成】引擎 vLLM 特制优化版本,基于 transformer 架构,支持 gpt-oss 等最新流行模型
Readme 64 MiB
Languages
Python 100%