enginex-mlu370-vllm

Files

History

Chranos 8511fe8530 add qwen3

2026-02-04 17:22:39 +08:00

add qwen3

2026-02-04 17:22:39 +08:00

benchmark_context_latency.py

add qwen3

2026-02-04 17:22:39 +08:00

offline_inference.py

add qwen3

2026-02-04 17:22:39 +08:00

README.md

add qwen3

2026-02-04 17:22:39 +08:00

该example是vLLM中进行Context Parallel和Ring Attention的实验，mlu_hijack是对仓库代码的劫持，避免修改主仓库代码

目前仅对LLaMA2系列模型进行了精度验证

暂不支持300系列设备

python examples/cambricon_custom_func/context_parallel/offline_inference.py

设置环境变量export CONTEXT_PARALLEL_EN=1|True|true|TRUE， LLM主接口传入context_parallel_size参数