[AMD] Fix missing per_token_group_quant_fp8 for ROCm (#5140)

2025-04-07 22:38:25 -07:00
parent 9731eca77b
commit afb752bcbe
1 changed files with 2 additions and 0 deletions
--- a/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
+++ b/python/sglang/srt/layers/moe/fused_moe_triton/fused_moe.py
@@ -765,6 +765,8 @@ def invoke_fused_moe_kernel(
        from sglang.srt.layers.quantization.fp8_kernel import (
            sglang_per_token_group_quant_fp8,
        )
+    else:
+        from sglang.srt.layers.quantization.fp8_kernel import per_token_group_quant_fp8

    assert topk_weights.stride(1) == 1
    assert sorted_token_ids.stride(0) == 1