[Refactor] MLP weight prefetch to consistency with MoE Model's prefetching in terms of code and usage (#6442)

### What this PR does / why we need it? Refactor MLP weight prefetch to consistency with MoE Model's prefetching in terms of code and usage. Environments VLLM_ASCEND_ENABLE_PREFETCH_MLP, VLLM_ASCEND_MLP_DOWN_PREFETCH_SIZE and VLLM_ASCEND_MLP_GATE_UP_PREFETCH_SIZE is removed, usage as following: --additional-config '{"weight_prefetch_config": { "enabled": true, "prefetch_ratio": {"mlp": { "gate_up": 1.0, "down": 1.0} }}}' ### Does this PR introduce _any_ user-facing change? ### How was this patch tested? - vLLM version: v0.14.1 - vLLM main: dc917cceb8 --------- Signed-off-by: leo-pony <nengjunma@outlook.com>
2026-02-04 09:08:18 +08:00
parent fa56abea9f
commit 78fad4e348
18 changed files with 250 additions and 171 deletions
--- a/vllm_ascend/ops/register_custom_ops.py
+++ b/vllm_ascend/ops/register_custom_ops.py
@@ -110,33 +110,6 @@ def _maybe_pad_and_reduce_impl(x: torch.Tensor,
                                             0)


-def _maybe_prefetch_mlp_gate_up_proj_impl(x_dependency: torch.Tensor,
-                                          prefix: str) -> None:
-    try:
-        forward_context = get_forward_context()
-    except AssertionError:
-        return
-
-    if not getattr(forward_context, 'prefetch_mlp_enabled', False):
-        return
-    model_instance = forward_context.model_instance
-    weight_prefetch_stream = prefetch_stream()
-    layer_idx = int(prefix.split('.')[2])
-
-    # start point of gate_up_proj weight prefetch
-    if prefix.split('.')[-2] == "self_attn":
-        forward_context.prefetch_mlp_gate_up_proj = True
-    if forward_context.prefetch_mlp_gate_up_proj:
-        weight_prefetch_stream.wait_stream(torch.npu.current_stream())
-
-        with torch.npu.stream(weight_prefetch_stream):
-            mlp_gate_up_prefetch_size = envs_ascend.VLLM_ASCEND_MLP_GATE_UP_PREFETCH_SIZE
-            torch_npu.npu_prefetch(
-                model_instance.model.layers[layer_idx].mlp.gate_up_proj.weight,
-                x_dependency, mlp_gate_up_prefetch_size)
-    return
-
-
 def _maybe_all_gather_and_maybe_unpad_fake(
        x: torch.Tensor,
        label: bool,
@@ -164,63 +137,6 @@ def _maybe_pad_and_reduce_fake(x: torch.Tensor,
    return x


-def _maybe_prefetch_mlp_gate_up_proj_impl_fake(x_dependency: torch.Tensor,
-                                               prefix: str) -> None:
-    return
-
-
-def _maybe_prefetch_mlp_down_proj_impl(x_dependency: torch.Tensor) -> None:
-    try:
-        forward_context = get_forward_context()
-    except AssertionError:
-        return
-
-    if not getattr(forward_context, 'prefetch_mlp_enabled', False):
-        return
-    forward_context.prefetch_mlp_down_proj = True
-    model_instance = forward_context.model_instance
-    weight_prefetch_stream = prefetch_stream()
-    layer_idx = forward_context.layer_idx
-
-    # start point of down_proj weight prefetch
-    weight_prefetch_stream.wait_stream(torch.npu.current_stream())
-
-    with torch.npu.stream(weight_prefetch_stream):
-        mlp_down_prefetch_size = envs_ascend.VLLM_ASCEND_MLP_DOWN_PREFETCH_SIZE
-        torch_npu.npu_prefetch(
-            model_instance.model.layers[layer_idx].mlp.down_proj.weight,
-            x_dependency, mlp_down_prefetch_size)
-    forward_context.layer_idx += 1
-    return
-
-
-def _maybe_prefetch_mlp_down_proj_impl_fake(
-        x_dependency: torch.Tensor) -> None:
-    return
-
-
-def _maybe_wait_prefetch_done_impl(x: torch.Tensor) -> None:
-    try:
-        forward_context = get_forward_context()
-    except AssertionError:
-        return
-
-    if not getattr(forward_context, 'prefetch_mlp_enabled', False):
-        return
-    if forward_context.prefetch_mlp_gate_up_proj or \
-        forward_context.prefetch_mlp_down_proj:
-        weight_prefetch_stream = prefetch_stream()
-        # wait until prefetch done
-        torch.npu.current_stream().wait_stream(weight_prefetch_stream)
-        forward_context.prefetch_mlp_gate_up_proj = False
-        forward_context.prefetch_mlp_down_proj = False
-    return
-
-
-def _maybe_wait_prefetch_done_impl_fake(x: torch.Tensor) -> None:
-    return
-
-
 def _prefetch_preprocess_impl(weight: torch.Tensor, start_flag: torch.Tensor,
                              max_weight_size: int) -> None:
    calculation_stream = torch_npu.npu.current_stream()
@@ -331,24 +247,6 @@ direct_register_custom_op(op_name="maybe_pad_and_reduce",
                          mutates_args=[],
                          dispatch_key="PrivateUse1")

-direct_register_custom_op(op_name="maybe_prefetch_mlp_gate_up_proj",
-                          op_func=_maybe_prefetch_mlp_gate_up_proj_impl,
-                          fake_impl=_maybe_prefetch_mlp_gate_up_proj_impl_fake,
-                          mutates_args=[],
-                          dispatch_key="PrivateUse1")
-
-direct_register_custom_op(op_name="maybe_prefetch_mlp_down_proj",
-                          op_func=_maybe_prefetch_mlp_down_proj_impl,
-                          fake_impl=_maybe_prefetch_mlp_down_proj_impl_fake,
-                          mutates_args=[],
-                          dispatch_key="PrivateUse1")
-
-direct_register_custom_op(op_name="maybe_wait_prefetch_done",
-                          op_func=_maybe_wait_prefetch_done_impl,
-                          fake_impl=_maybe_wait_prefetch_done_impl_fake,
-                          mutates_args=[],
-                          dispatch_key="PrivateUse1")
-
 direct_register_custom_op(op_name="prefetch_preprocess",
                          op_func=_prefetch_preprocess_impl,
                          fake_impl=_prefetch_preprocess_impl_fake,