Support new DeepGEMM format in per token group quant (#7146)

2025-06-13 17:00:22 +08:00
parent aa46ed34d2
commit 5c66c4424f
5 changed files with 92 additions and 44 deletions
--- a/sgl-kernel/tests/test_per_token_group_quant_8bit.py
+++ b/sgl-kernel/tests/test_per_token_group_quant_8bit.py
@@ -255,7 +255,10 @@ def sglang_per_token_group_quant_8bit(
        f8_info = torch.finfo(dtype)
        fp8_max = f8_info.max
        fp8_min = f8_info.min
-        sgl_per_token_group_quant_fp8(x, x_q, x_s, group_size, eps, fp8_min, fp8_max)
+        scale_ue8m0 = False  # TODO also test true
+        sgl_per_token_group_quant_fp8(
+            x, x_q, x_s, group_size, eps, fp8_min, fp8_max, scale_ue8m0
+        )

    return x_q, x_s