[Dockerfile] Multi-arch support for ROCm (#7902)

Co-authored-by: Lin, Soga <soga.lin@amd.com> Co-authored-by: HaiShaw <hixiao@gmail.com>
2025-07-14 14:13:09 +08:00
parent cb736df854
commit a562c8a35c
3 changed files with 105 additions and 46 deletions
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -79,7 +79,6 @@ blackwell = [
 srt_hip = [
    "sglang[runtime_common]",
    "torch",
-    "vllm==0.6.7.dev2",
 ]

 # xpu is not enabled in public vllm and torch whl,
--- a/python/sglang/srt/layers/quantization/fp8_utils.py
+++ b/python/sglang/srt/layers/quantization/fp8_utils.py
@@ -42,7 +42,7 @@ _use_aiter = get_bool_env_var("SGLANG_USE_AITER") and _is_hip

 if _use_aiter:
    import aiter
-    from aiter import gemm_a8w8_blockscale_CK, get_hip_quant
+    from aiter import gemm_a8w8_blockscale, get_hip_quant

    aiter_per1x128_quant = get_hip_quant(aiter.QuantType.per_1x128)

@@ -274,7 +274,7 @@ def aiter_w8a8_block_fp8_linear(
    output_shape = [*input.shape[:-1], weight.shape[0]]

    q_input, x_scale = aiter_per1x128_quant(input_2d, quant_dtype=aiter.dtypes.fp8)
-    output = gemm_a8w8_blockscale_CK(
+    output = gemm_a8w8_blockscale(
        q_input, weight, x_scale, weight_scale, dtype=input.dtype
    )