[gpt-oss] Add gpt-oss bf16 support

2025-08-13 21:25:57 +08:00
parent 5d2e7edf78
commit 17ea2ec6aa
1232 changed files with 777 additions and 36 deletions
--- a/vllm/_C.abi3.so
+++ b/vllm/_C.abi3.so
--- a/vllm/init.py
+++ b/vllm/init.py
--- a/vllm/_custom_ops.py
+++ b/vllm/_custom_ops.py
--- a/vllm/_ipex_ops.py
+++ b/vllm/_ipex_ops.py
--- a/vllm/_moe_C.abi3.so
+++ b/vllm/_moe_C.abi3.so
--- a/vllm/_release_info.txt
+++ b/vllm/_release_info.txt
--- a/vllm/adapter_commons/init.py
+++ b/vllm/adapter_commons/init.py
--- a/vllm/adapter_commons/layers.py
+++ b/vllm/adapter_commons/layers.py
--- a/vllm/adapter_commons/models.py
+++ b/vllm/adapter_commons/models.py
--- a/vllm/adapter_commons/request.py
+++ b/vllm/adapter_commons/request.py
--- a/vllm/adapter_commons/utils.py
+++ b/vllm/adapter_commons/utils.py
--- a/vllm/adapter_commons/worker_manager.py
+++ b/vllm/adapter_commons/worker_manager.py
--- a/vllm/assets/init.py
+++ b/vllm/assets/init.py
--- a/vllm/assets/audio.py
+++ b/vllm/assets/audio.py
--- a/vllm/assets/base.py
+++ b/vllm/assets/base.py
--- a/vllm/assets/image.py
+++ b/vllm/assets/image.py
--- a/vllm/assets/video.py
+++ b/vllm/assets/video.py
--- a/vllm/attention/init.py
+++ b/vllm/attention/init.py
--- a/vllm/attention/backends/init.py
+++ b/vllm/attention/backends/init.py
--- a/vllm/attention/backends/abstract.py
+++ b/vllm/attention/backends/abstract.py
--- a/vllm/attention/backends/blocksparse_attn.py
+++ b/vllm/attention/backends/blocksparse_attn.py
--- a/vllm/attention/backends/configs/tp8_merge.json
+++ b/vllm/attention/backends/configs/tp8_merge.json
--- a/vllm/attention/backends/cpu_mla.py
+++ b/vllm/attention/backends/cpu_mla.py
--- a/vllm/attention/backends/dual_chunk_flash_attn.py
+++ b/vllm/attention/backends/dual_chunk_flash_attn.py
--- a/vllm/attention/backends/flash_attn.py
+++ b/vllm/attention/backends/flash_attn.py
--- a/vllm/attention/backends/flashinfer.py
+++ b/vllm/attention/backends/flashinfer.py
--- a/vllm/attention/backends/flashmla.py
+++ b/vllm/attention/backends/flashmla.py
--- a/vllm/attention/backends/hpu_attn.py
+++ b/vllm/attention/backends/hpu_attn.py
--- a/vllm/attention/backends/ipex_attn.py
+++ b/vllm/attention/backends/ipex_attn.py
--- a/vllm/attention/backends/mla/init.py
+++ b/vllm/attention/backends/mla/init.py
--- a/vllm/attention/backends/mla/common.py
+++ b/vllm/attention/backends/mla/common.py
--- a/vllm/attention/backends/pallas.py
+++ b/vllm/attention/backends/pallas.py
--- a/vllm/attention/backends/placeholder_attn.py
+++ b/vllm/attention/backends/placeholder_attn.py
--- a/vllm/attention/backends/rocm_aiter_mla.py
+++ b/vllm/attention/backends/rocm_aiter_mla.py
--- a/vllm/attention/backends/rocm_flash_attn.py
+++ b/vllm/attention/backends/rocm_flash_attn.py
--- a/vllm/attention/backends/torch_sdpa.py
+++ b/vllm/attention/backends/torch_sdpa.py
--- a/vllm/attention/backends/triton_mla.py
+++ b/vllm/attention/backends/triton_mla.py
--- a/vllm/attention/backends/utils.py
+++ b/vllm/attention/backends/utils.py
--- a/vllm/attention/backends/xformers.py
+++ b/vllm/attention/backends/xformers.py
--- a/vllm/attention/layer.py
+++ b/vllm/attention/layer.py
--- a/vllm/attention/ops/init.py
+++ b/vllm/attention/ops/init.py
--- a/vllm/attention/ops/blocksparse_attention/init.py
+++ b/vllm/attention/ops/blocksparse_attention/init.py
--- a/vllm/attention/ops/blocksparse_attention/blocksparse_attention_kernel.py
+++ b/vllm/attention/ops/blocksparse_attention/blocksparse_attention_kernel.py
--- a/vllm/attention/ops/blocksparse_attention/interface.py
+++ b/vllm/attention/ops/blocksparse_attention/interface.py
--- a/vllm/attention/ops/blocksparse_attention/utils.py
+++ b/vllm/attention/ops/blocksparse_attention/utils.py
--- a/vllm/attention/ops/chunked_prefill_paged_decode.py
+++ b/vllm/attention/ops/chunked_prefill_paged_decode.py
@@ -28,6 +28,7 @@ def kernel_paged_attention_2d(
        query_ptr,  # [num_tokens, num_query_heads, head_size]
        key_cache_ptr,  # [num_blks, num_kv_heads, head_size // x, blk_size, x]
        value_cache_ptr,  # [num_blks, num_kv_heads, head_size, blk_size]
+        sink_ptr,  # [num_query_heads]
        block_tables_ptr,  # [num_seqs, max_num_blocks_per_seq]
        seq_lens_ptr,  # [num_seqs]
        alibi_slopes_ptr,  # [num_query_heads]
@@ -59,6 +60,7 @@ def kernel_paged_attention_2d(
        stride_v_cache_3: tl.int64,  # int
        filter_by_query_len: tl.constexpr,  # bool
        query_start_len_ptr,  # [num_seqs+1]
+        USE_SINKS: tl.constexpr,  # bool
 ):
    seq_idx = tl.program_id(0)
    kv_head_idx = tl.program_id(1)
@@ -95,7 +97,18 @@ def kernel_paged_attention_2d(

    block_table_offset = seq_idx * block_table_stride

-    M = tl.full([num_queries_per_kv_padded], float("-inf"), dtype=tl.float32)
+    if not USE_SINKS:
+        M = tl.full([num_queries_per_kv_padded],
+                    float("-inf"),
+                    dtype=tl.float32)
+    else:
+        M = tl.load(
+            sink_ptr + query_head_idx,
+            mask=head_mask,
+            other=float("-inf"),
+        ).to(dtype=tl.float32)
+    # M = tl.full([num_queries_per_kv_padded], float("-inf"), dtype=tl.float32)
+
    L = tl.full([num_queries_per_kv_padded], 1.0, dtype=tl.float32)
    acc = tl.zeros([num_queries_per_kv_padded, HEAD_SIZE_PADDED],
                   dtype=tl.float32)
@@ -223,6 +236,8 @@ def chunked_prefill_paged_decode(
    alibi_slopes=None,
    sliding_window=None,
    sm_scale=None,
+    # Optional tensor for sinks
+    sinks=None,
 ):

    if sm_scale is None:
@@ -253,6 +268,7 @@ def chunked_prefill_paged_decode(
            sliding_window=sliding_window,
            sm_scale=sm_scale,
            skip_decode=True,
+            sinks=sinks,
        )

    block_size = value_cache.shape[3]
@@ -285,7 +301,7 @@ def chunked_prefill_paged_decode(
                                                 block_size,
                                                 num_queries_per_kv,
                                                 max_seq_len, sliding_window,
-                                                 kv_cache_dtype, alibi_slopes)
+                                                 kv_cache_dtype, alibi_slopes, sinks,)
    if use_custom:
        _PARTITION_SIZE_ROCM = 256
        max_num_partitions = ((max_seq_len + _PARTITION_SIZE_ROCM - 1) //
@@ -334,6 +350,7 @@ def chunked_prefill_paged_decode(
            query_ptr=query,
            key_cache_ptr=key_cache,
            value_cache_ptr=value_cache,
+            sink_ptr=sinks,
            block_tables_ptr=block_table,
            seq_lens_ptr=seq_lens,
            alibi_slopes_ptr=alibi_slopes,
@@ -365,4 +382,5 @@ def chunked_prefill_paged_decode(
            stride_v_cache_3=value_cache.stride(3),
            filter_by_query_len=True,
            query_start_len_ptr=query_start_loc,
+            USE_SINKS=sinks is not None,
        )
--- a/vllm/attention/ops/flashmla.py
+++ b/vllm/attention/ops/flashmla.py
--- a/vllm/attention/ops/hpu_paged_attn.py
+++ b/vllm/attention/ops/hpu_paged_attn.py
--- a/vllm/attention/ops/ipex_attn.py
+++ b/vllm/attention/ops/ipex_attn.py
--- a/vllm/attention/ops/merge_attn_states.py
+++ b/vllm/attention/ops/merge_attn_states.py
--- a/vllm/attention/ops/nki_flash_attn.py
+++ b/vllm/attention/ops/nki_flash_attn.py
--- a/vllm/attention/ops/paged_attn.py
+++ b/vllm/attention/ops/paged_attn.py
--- a/vllm/attention/ops/prefix_prefill.py
+++ b/vllm/attention/ops/prefix_prefill.py
--- a/vllm/attention/ops/rocm_aiter_mla.py
+++ b/vllm/attention/ops/rocm_aiter_mla.py
--- a/vllm/attention/ops/rocm_aiter_paged_attn.py
+++ b/vllm/attention/ops/rocm_aiter_paged_attn.py
--- a/vllm/attention/ops/triton_decode_attention.py
+++ b/vllm/attention/ops/triton_decode_attention.py
--- a/vllm/attention/ops/triton_flash_attention.py
+++ b/vllm/attention/ops/triton_flash_attention.py
--- a/vllm/attention/ops/triton_merge_attn_states.py
+++ b/vllm/attention/ops/triton_merge_attn_states.py
--- a/vllm/attention/ops/triton_unified_attention.py
+++ b/vllm/attention/ops/triton_unified_attention.py
@@ -34,6 +34,7 @@ def kernel_unified_attention_2d(
        query_ptr,  # [num_tokens, num_query_heads, head_size]
        key_cache_ptr,  # [num_blks, blk_size, num_kv_heads, head_size]
        value_cache_ptr,  # [num_blks, blk_size, num_kv_heads, head_size]
+        sink_ptr,  # [num_query_heads]
        block_tables_ptr,  # [num_seqs, max_num_blocks_per_seq]
        seq_lens_ptr,  # [num_seqs]
        alibi_slopes_ptr,  # [num_query_heads]
@@ -53,6 +54,7 @@ def kernel_unified_attention_2d(
        HEAD_SIZE_PADDED: tl.constexpr,  # int, must be power of 2
        USE_ALIBI_SLOPES: tl.constexpr,  # bool
        USE_SOFTCAP: tl.constexpr,  # bool
+        USE_SINKS: tl.constexpr,  # bool
        SLIDING_WINDOW: tl.constexpr,  # int
        stride_k_cache_0: tl.int64,  # int
        stride_k_cache_1: tl.int64,  # int
@@ -119,7 +121,16 @@ def kernel_unified_attention_2d(

    block_table_offset = seq_idx * block_table_stride

-    M = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
+    if not USE_SINKS:
+        M = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
+    else:
+        M = tl.load(
+            sink_ptr + query_offset_1,
+            mask=query_mask_1,
+            other=float("-inf"),
+        ).to(dtype=tl.float32)
+    # M = tl.full([BLOCK_M], float("-inf"), dtype=tl.float32)
+
    L = tl.full([BLOCK_M], 1.0, dtype=tl.float32)
    acc = tl.zeros([BLOCK_M, HEAD_SIZE_PADDED], dtype=tl.float32)

@@ -260,6 +271,8 @@ def unified_attention(
    k_descale,
    v_descale,
    alibi_slopes=None,
+    # Optional tensor for sinks
+    sinks=None,
 ):
    assert causal, "Only causal attention is supported"
    assert q_descale is None, "Q scales not supported"
@@ -267,6 +280,10 @@ def unified_attention(
    block_size = v.shape[1]
    assert q.element_size() >= 2 or block_size >= 32, \
        "Block size must be at least 32 for fp8"
+    
+    if sinks is not None:
+        assert sinks.shape[0] == q.shape[1], \
+        "Sinks must be num_query_heads size"

    use_alibi_slopes = alibi_slopes is not None

@@ -299,6 +316,7 @@ def unified_attention(
        query_ptr=q,
        key_cache_ptr=k,
        value_cache_ptr=v,
+        sink_ptr=sinks,
        block_tables_ptr=block_table,
        seq_lens_ptr=seqused_k,
        alibi_slopes_ptr=alibi_slopes,
@@ -318,6 +336,7 @@ def unified_attention(
        HEAD_SIZE_PADDED=triton.next_power_of_2(head_size),
        USE_ALIBI_SLOPES=use_alibi_slopes,
        USE_SOFTCAP=(softcap > 0),
+        USE_SINKS=(sinks is not None),
        SLIDING_WINDOW=(1 + window_size[0]),
        stride_k_cache_0=k.stride(0),
        stride_k_cache_1=k.stride(1),
--- a/vllm/attention/selector.py
+++ b/vllm/attention/selector.py
--- a/vllm/attention/utils/fa_utils.py
+++ b/vllm/attention/utils/fa_utils.py
--- a/vllm/beam_search.py
+++ b/vllm/beam_search.py
--- a/vllm/benchmarks/init.py
+++ b/vllm/benchmarks/init.py
--- a/vllm/benchmarks/datasets.py
+++ b/vllm/benchmarks/datasets.py
--- a/vllm/benchmarks/endpoint_request_func.py
+++ b/vllm/benchmarks/endpoint_request_func.py
--- a/vllm/benchmarks/latency.py
+++ b/vllm/benchmarks/latency.py
--- a/vllm/benchmarks/serve.py
+++ b/vllm/benchmarks/serve.py
--- a/vllm/benchmarks/throughput.py
+++ b/vllm/benchmarks/throughput.py
--- a/vllm/benchmarks/utils.py
+++ b/vllm/benchmarks/utils.py
--- a/vllm/collect_env.py
+++ b/vllm/collect_env.py
--- a/vllm/compilation/init.py
+++ b/vllm/compilation/init.py
--- a/vllm/compilation/activation_quant_fusion.py
+++ b/vllm/compilation/activation_quant_fusion.py
--- a/vllm/compilation/backends.py
+++ b/vllm/compilation/backends.py
--- a/vllm/compilation/base_piecewise_backend.py
+++ b/vllm/compilation/base_piecewise_backend.py
--- a/vllm/compilation/collective_fusion.py
+++ b/vllm/compilation/collective_fusion.py
--- a/vllm/compilation/compiler_interface.py
+++ b/vllm/compilation/compiler_interface.py
--- a/vllm/compilation/counter.py
+++ b/vllm/compilation/counter.py
--- a/vllm/compilation/cuda_piecewise_backend.py
+++ b/vllm/compilation/cuda_piecewise_backend.py
--- a/vllm/compilation/decorators.py
+++ b/vllm/compilation/decorators.py
--- a/vllm/compilation/fix_functionalization.py
+++ b/vllm/compilation/fix_functionalization.py
--- a/vllm/compilation/fusion.py
+++ b/vllm/compilation/fusion.py
--- a/vllm/compilation/fx_utils.py
+++ b/vllm/compilation/fx_utils.py
--- a/vllm/compilation/inductor_pass.py
+++ b/vllm/compilation/inductor_pass.py
--- a/vllm/compilation/monitor.py
+++ b/vllm/compilation/monitor.py
--- a/vllm/compilation/multi_output_match.py
+++ b/vllm/compilation/multi_output_match.py
--- a/vllm/compilation/noop_elimination.py
+++ b/vllm/compilation/noop_elimination.py
--- a/vllm/compilation/pass_manager.py
+++ b/vllm/compilation/pass_manager.py
--- a/vllm/compilation/sequence_parallelism.py
+++ b/vllm/compilation/sequence_parallelism.py
--- a/vllm/compilation/torch25_custom_graph_pass.py
+++ b/vllm/compilation/torch25_custom_graph_pass.py
--- a/vllm/compilation/vllm_inductor_pass.py
+++ b/vllm/compilation/vllm_inductor_pass.py
--- a/vllm/compilation/wrapper.py
+++ b/vllm/compilation/wrapper.py
--- a/vllm/config.py
+++ b/vllm/config.py
--- a/vllm/connections.py
+++ b/vllm/connections.py
--- a/vllm/core/init.py
+++ b/vllm/core/init.py
--- a/vllm/core/block/init.py
+++ b/vllm/core/block/init.py
--- a/vllm/core/block/block_table.py
+++ b/vllm/core/block/block_table.py
--- a/vllm/core/block/common.py
+++ b/vllm/core/block/common.py
--- a/vllm/core/block/cpu_gpu_block_allocator.py
+++ b/vllm/core/block/cpu_gpu_block_allocator.py
--- a/vllm/core/block/interfaces.py
+++ b/vllm/core/block/interfaces.py
--- a/vllm/core/block/naive_block.py
+++ b/vllm/core/block/naive_block.py
--- a/Show More
+++ b/Show More