[Revision] Add fast decode plan for flashinfer mla (#4012)

2025-03-05 11:20:41 -08:00
parent 71ab0dabe0
commit fc91d08a8f
9 changed files with 145 additions and 34 deletions
--- a/python/sglang/srt/managers/schedule_batch.py
+++ b/python/sglang/srt/managers/schedule_batch.py
@@ -1187,8 +1187,13 @@ class ScheduleBatch:

    def get_model_worker_batch(self) -> ModelWorkerBatch:
        if self.forward_mode.is_decode_or_idle():
+            if global_server_args_dict["enable_flashinfer_mla"]:
+                decode_seq_lens = self.seq_lens.cpu()
+            else:
+                decode_seq_lens = None
            extend_seq_lens = extend_prefix_lens = extend_logprob_start_lens = None
        else:
+            decode_seq_lens = None
            extend_seq_lens = self.extend_lens
            extend_prefix_lens = self.prefix_lens
            extend_logprob_start_lens = self.extend_logprob_start_lens
@@ -1215,6 +1220,7 @@ class ScheduleBatch:
            global_num_tokens=self.global_num_tokens,
            global_num_tokens_for_logprob=self.global_num_tokens_for_logprob,
            can_run_dp_cuda_graph=self.can_run_dp_cuda_graph,
+            decode_seq_lens=decode_seq_lens,
            extend_num_tokens=self.extend_num_tokens,
            extend_seq_lens=extend_seq_lens,
            extend_prefix_lens=extend_prefix_lens,
@@ -1291,6 +1297,9 @@ class ModelWorkerBatch:
    global_num_tokens_for_logprob: Optional[List[int]]
    can_run_dp_cuda_graph: bool

+    # For decode
+    decode_seq_lens: Optional[torch.Tensor]
+
    # For extend
    extend_num_tokens: Optional[int]
    extend_seq_lens: Optional[List[int]]