update sgl_moe_align_block_size usage (#2617)

2024-12-28 00:01:13 +08:00
parent 77d1210b36
commit 6e5305158c
3 changed files with 11 additions and 9 deletions
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -95,12 +95,6 @@ class ModelRunner:
        ):
            logger.info("MLA optimization is turned on. Use triton backend.")
            self.server_args.attention_backend = "triton"
-            # FIXME(HandH1998)
-            if (
-                "DeepseekV3ForCausalLM" in self.model_config.hf_config.architectures
-                and not self.server_args.disable_cuda_graph
-            ):
-                self.server_args.disable_cuda_graph = True

        if self.server_args.enable_double_sparsity:
            logger.info(