[SpecDecode] Fix Draft model proposer (#7230)

### What this PR does / why we need it? This pr fix the Unified draft parallel feature. 1. In Draft model proposer, there are exceed 1 attention layers in target model, thus removing the assertion on layer number. 2. we should get block size through `draft_attn_groups` instead of `attn_metadata_builder` after 0.17.0. 3. `attn_update_stack_num_spec_norm` shouldn't be done when unified draft parallel is enabled ### How was this patch tested? Test pass with `tests/e2e/singlecard/spec_decode/test_v1_spec_decode.py::test_parallel_drafting_acceptance`, which is already included in CI - vLLM version: v0.17.0 - vLLM main: 4034c3d32e Signed-off-by: MengqingCao <cmq0113@163.com>
2026-03-14 18:26:37 +08:00
parent 0ad52517a1
commit e7aa2c285c
2 changed files with 33 additions and 29 deletions
--- a/vllm_ascend/worker/model_runner_v1.py
+++ b/vllm_ascend/worker/model_runner_v1.py
@@ -74,7 +74,6 @@ from vllm.v1.outputs import (
 from vllm.v1.sample.logits_processor import build_logitsprocs
 from vllm.v1.sample.metadata import SamplingMetadata
 from vllm.v1.sample.rejection_sampler import RejectionSampler
-from vllm.v1.spec_decode.draft_model import DraftModelProposer
 from vllm.v1.spec_decode.metadata import SpecDecodeMetadata
 from vllm.v1.structured_output.utils import apply_grammar_bitmask
 from vllm.v1.utils import record_function_or_nullcontext
@@ -2561,7 +2560,7 @@ class NPUModelRunner(GPUModelRunner):
            if self.speculative_config and (
                self.speculative_config.use_eagle() or self.speculative_config.uses_draft_model()
            ):
-                assert isinstance(self.drafter, AscendEagleProposer | DraftModelProposer)
+                assert isinstance(self.drafter, AscendEagleProposer | AscendDraftModelProposer)
                self.drafter.initialize_attn_backend(kv_cache_config, self.kernel_block_sizes)

        if has_kv_transfer_group():