enginex-mlu370-vllm/vllm-v0.6.2/examples/cambricon_custom_func/chunked_pipeline_parallel/README.md

# 背景

此示例用于在vLLM中演示chunked parallel pipeline功能，通过mlu_hijck机制将需要修改的代码劫持到当前目录，避免修改主仓库代码。

# 支持模型

- LlamaForCausalLM
- CustomForCausalLM

# Demo运行方式

当前Chunked Parallel Pipeline仅支持通过AsyncLLMEngine方式用paged mode运行。

- 设置环境变量

```bash
export CHUNKED_PIPELINE_PARALLEL_EN=true
```

- 启动server进程
```bash
# 设置engine超时阈值。
export VLLM_ENGINE_ITERATION_TIMEOUT_S=180

python -m vllm.entrypoints.openai.api_server \
    --port ${PORT} \
    --model ${MODEL_PATH} \
    --swap-space 16 \
    --pipeline-parallel-size ${PP_SIZE} \
    --max-num-batched-tokens ${MAX_TOKENS_NUM} \
    --enable-chunked-prefill \
    --worker-use-ray \
    --enforce-eager
```

- 启动client进程
这里以随机数为例，可以选用真实数据集。
```bash
python benchmarks/benchmark_serving.py \
    --backend vllm \
    --model ${MODEL_PATH} \
    --dataset-name random \
    --num-prompts ${NUM_PROMPT} \
    --port ${PORT} \
    --random-input-len ${INPUT_LEN} \
    --random-output-len 1 \
    --request-rate inf
```
-												add qwen3

											
										
										
											2026-02-04 17:22:39 +08:00
+								# 背景
 								此示例用于在vLLM中演示chunked parallel pipeline功能，通过mlu_hijck机制将需要修改的代码劫持到当前目录，避免修改主仓库代码。
 								# 支持模型
 								- LlamaForCausalLM
 								- CustomForCausalLM
 								# Demo运行方式
 								当前Chunked Parallel Pipeline仅支持通过AsyncLLMEngine方式用paged mode运行。
 								- 设置环境变量
 								```bash
 								export CHUNKED_PIPELINE_PARALLEL_EN=true
 								```
 								- 启动server进程
 								```bash
 								# 设置engine超时阈值。
 								export VLLM_ENGINE_ITERATION_TIMEOUT_S=180
 								python -m vllm.entrypoints.openai.api_server \
 								    --port ${PORT} \
 								    --model ${MODEL_PATH} \
 								    --swap-space 16 \
 								    --pipeline-parallel-size ${PP_SIZE} \
 								    --max-num-batched-tokens ${MAX_TOKENS_NUM} \
 								    --enable-chunked-prefill \
 								    --worker-use-ray \
 								    --enforce-eager
 								```
 								- 启动client进程
 								这里以随机数为例，可以选用真实数据集。
 								```bash
 								python benchmarks/benchmark_serving.py \
 								    --backend vllm \
 								    --model ${MODEL_PATH} \
 								    --dataset-name random \
 								    --num-prompts ${NUM_PROMPT} \
 								    --port ${PORT} \
 								    --random-input-len ${INPUT_LEN} \
 								    --random-output-len 1 \
 								    --request-rate inf
 								```