Reduce scheduler recv requests overhead (#8947)

2025-08-08 15:10:05 +08:00
parent 76915d68a8
commit 774b47f3f1
3 changed files with 54 additions and 0 deletions
--- a/python/sglang/srt/managers/scheduler.py
+++ b/python/sglang/srt/managers/scheduler.py
@@ -120,6 +120,7 @@ from sglang.srt.managers.scheduler_output_processor_mixin import (
    SchedulerOutputProcessorMixin,
 )
 from sglang.srt.managers.scheduler_profiler_mixin import SchedulerProfilerMixin
+from sglang.srt.managers.scheduler_recv_skipper import SchedulerRecvSkipper
 from sglang.srt.managers.scheduler_update_weights_mixin import (
    SchedulerUpdateWeightsMixin,
 )
@@ -474,6 +475,7 @@ class Scheduler(
        )
        self.init_profier()

+        self.recv_skipper = SchedulerRecvSkipper.maybe_create(server_args)
        self.input_blocker = (
            SchedulerInputBlocker(noop=self.attn_tp_rank != 0)
            if get_bool_env_var("SGLANG_ENABLE_COLOCATED_BATCH_GEN")
@@ -946,6 +948,14 @@ class Scheduler(

    def recv_requests(self) -> List[Req]:
        """Receive results at tp_rank = 0 and broadcast it to all other TP ranks."""
+
+        if self.recv_skipper is not None:
+            last_forward_mode = (
+                self.last_batch.forward_mode if self.last_batch is not None else None
+            )
+            if not self.recv_skipper.handle(last_forward_mode):
+                return []
+
        if self.pp_rank == 0:
            if self.attn_tp_rank == 0:
                recv_reqs = []
--- a/python/sglang/srt/managers/scheduler_recv_skipper.py
+++ b/python/sglang/srt/managers/scheduler_recv_skipper.py
@@ -0,0 +1,37 @@
+from sglang.srt.model_executor.forward_batch_info import ForwardMode
+from sglang.srt.server_args import ServerArgs
+
+
+class SchedulerRecvSkipper:
+    @staticmethod
+    def maybe_create(server_args: ServerArgs):
+        if server_args.scheduler_recv_interval <= 1:
+            return None
+        return SchedulerRecvSkipper(server_args)
+
+    def __init__(self, server_args: ServerArgs):
+        # Can be supported if needed, but may need e.g. `global_forward_mode`
+        assert not server_args.enable_dp_attention
+        self._counter = 0
+        self._threshold = server_args.scheduler_recv_interval
+
+    def handle(self, last_forward_mode: ForwardMode):
+        should_recv = False
+
+        last_weight = _WEIGHT_OF_FORWARD_MODE.get(last_forward_mode, _DEFAULT_WEIGHT)
+        self._counter += last_weight
+
+        if self._counter >= self._threshold:
+            self._counter = 0
+            should_recv = True
+
+        return should_recv
+
+
+# All can be tuned if needed
+_DEFAULT_WEIGHT = 1000
+_WEIGHT_OF_FORWARD_MODE = {
+    ForwardMode.DECODE: 1,
+    ForwardMode.TARGET_VERIFY: 1,
+    None: 1,
+}
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -249,6 +249,7 @@ class ServerArgs:
    enable_return_hidden_states: bool = False
    enable_triton_kernel_moe: bool = False
    enable_flashinfer_mxfp4_moe: bool = False
+    scheduler_recv_interval: int = 1

    # Debug tensor dumps
    debug_tensor_dump_output_folder: Optional[str] = None
@@ -1845,6 +1846,12 @@ class ServerArgs:
            action="store_true",
            help="Enable FlashInfer MXFP4 MoE backend for modelopt_fp4 quant on Blackwell.",
        )
+        parser.add_argument(
+            "--scheduler-recv-interval",
+            type=int,
+            default=ServerArgs.scheduler_recv_interval,
+            help="The interval to poll requests in scheduler. Can be set to >1 to reduce the overhead of this.",
+        )

        # Debug tensor dumps
        parser.add_argument(