add qwen3

2026-02-04 17:22:39 +08:00
parent d1c0f68ab4
commit 8511fe8530
1932 changed files with 300426 additions and 0 deletions
--- a/vllm-v0.6.2/examples/cambricon_custom_func/chunked_pipeline_parallel/README.md
+++ b/vllm-v0.6.2/examples/cambricon_custom_func/chunked_pipeline_parallel/README.md
@@ -0,0 +1,48 @@
+# 背景
+
+此示例用于在vLLM中演示chunked parallel pipeline功能，通过mlu_hijck机制将需要修改的代码劫持到当前目录，避免修改主仓库代码。
+
+# 支持模型
+
+- LlamaForCausalLM
+- CustomForCausalLM
+
+# Demo运行方式
+
+当前Chunked Parallel Pipeline仅支持通过AsyncLLMEngine方式用paged mode运行。
+
+- 设置环境变量
+
+```bash
+export CHUNKED_PIPELINE_PARALLEL_EN=true
+```
+
+- 启动server进程
+```bash
+# 设置engine超时阈值。
+export VLLM_ENGINE_ITERATION_TIMEOUT_S=180
+
+python -m vllm.entrypoints.openai.api_server \
+    --port ${PORT} \
+    --model ${MODEL_PATH} \
+    --swap-space 16 \
+    --pipeline-parallel-size ${PP_SIZE} \
+    --max-num-batched-tokens ${MAX_TOKENS_NUM} \
+    --enable-chunked-prefill \
+    --worker-use-ray \
+    --enforce-eager
+```
+
+- 启动client进程
+这里以随机数为例，可以选用真实数据集。
+```bash
+python benchmarks/benchmark_serving.py \
+    --backend vllm \
+    --model ${MODEL_PATH} \
+    --dataset-name random \
+    --num-prompts ${NUM_PROMPT} \
+    --port ${PORT} \
+    --random-input-len ${INPUT_LEN} \
+    --random-output-len 1 \
+    --request-rate inf
+```