Allow use of TRTLLM_MHA backend for hybrid attention on Blackwell (#11138)

2025-10-03 00:04:58 +01:00
parent 963175d5c0
commit e810077488
2 changed files with 3 additions and 2 deletions
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -1620,7 +1620,7 @@ class ModelRunner:
                )
            elif self.is_hybrid_gdn:
                self.token_to_kv_pool = HybridLinearKVPool(
-                    page_size=self.page_size if _is_npu else 1,
+                    page_size=self.page_size,
                    size=self.max_total_num_tokens,
                    dtype=self.kv_cache_dtype,
                    head_num=self.model_config.get_num_kv_heads(