xc-llm-ascend

Files

Cao Yi 50441e4650 [BugFix][MTP] Fix prefill misclassified as decode when prompt tokens == num_spec_tokens + 1 (#6835 )

## Problem
When MTP is enabled, prefill requests with `prompt_tokens ==
num_spec_tokens + 1` are incorrectly classified as decode requests,
causing accuracy issues.

## Root Cause
The `uniform_decode` condition only checked:
- `max_num_scheduled_tokens == uniform_decode_query_len`
- `num_tokens == max_num_scheduled_tokens * num_reqs`

This is insufficient because a prefill request with specific prompt
length satisfies these conditions as well.

## Fix
Add `is_all_decode` check to ensure all requests have
`num_computed_tokens > 0` before classifying as uniform decode, since
decode requests must have computed at least one token.
- vLLM version: v0.15.0
- vLLM main:
83b47f67b1

---------

Signed-off-by: SlightwindSec <slightwindsec@gmail.com>

2026-03-05 17:33:10 +08:00

long_sequence

[Feat] support basic pcp&dcp for qwen3next (#6091 )

2026-02-28 21:44:08 +08:00

spec_decode

[BugFix][MTP] Fix prefill misclassified as decode when prompt tokens == num_spec_tokens + 1 (#6835 )

2026-03-05 17:33:10 +08:00

test_data_parallel_tp2.py

[CI] Enable the skipped cases when HDK is upgraded to 25.5.0 (#6195 )

2026-01-29 22:41:41 +08:00

test_kimi_k2.py

[CI] Migrate e2e test runner to hk (#5344 )

2026-01-26 09:00:51 +08:00

test_qwen3_next.py

[CI] Upgrade trasnformers version (#6307 )

2026-01-28 14:06:39 +08:00