From 0f04a5f428b27b4f011473787de93f3115e832a6 Mon Sep 17 00:00:00 2001
From: Qi Yuhang <45795032+HydraQYH@users.noreply.github.com>
Date: Mon, 22 Sep 2025 08:04:27 +0800
Subject: [PATCH] Optimize cutlass int8 gemm kernel for large M on SM89 Ada GPU
 (#10714)

---
 sgl-kernel/csrc/gemm/int8_gemm_kernel.cu | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/sgl-kernel/csrc/gemm/int8_gemm_kernel.cu b/sgl-kernel/csrc/gemm/int8_gemm_kernel.cu
index f18c81865..b47904cb1 100644
--- a/sgl-kernel/csrc/gemm/int8_gemm_kernel.cu
+++ b/sgl-kernel/csrc/gemm/int8_gemm_kernel.cu
@@ -409,8 +409,8 @@ void sm89_dispatch_shape(
     cutlass_int8_scaled_mm<
         ElementOutput,
         ArchTag,
-        cutlass::gemm::GemmShape<32, 64, 128>,
-        cutlass::gemm::GemmShape<16, 64, 64>,
+        cutlass::gemm::GemmShape<128, 128, 64>,
+        cutlass::gemm::GemmShape<64, 64, 64>,
         InstructionShape,
         5>(out, mat_a, mat_b, scales_a, scales_b, bias);
   }