[Feature] Refactor PCP &DCP related code (#5214)

### What this PR does / why we need it? Refactor pcp& dcp related code. we use pcp_manager class to Unifiy Manage pcp & dcp . as we do this , many code can be deleted from model_runner, and can avoid break pcp & dcp by other developments. RFC：https://github.com/vllm-project/vllm-ascend/issues/5449 ### Does this PR introduce _any_ user-facing change? NO ### How was this patch tested? - vLLM version: release/v0.13.0 - vLLM main: ad32e3e19c --------- Signed-off-by: zhenwenqi2024 <zhenwenqi_2022@qq.com> Co-authored-by: zzzzwwjj <34335947+zzzzwwjj@users.noreply.github.com>
2025-12-31 09:29:57 +08:00
parent 46862ce1af
commit 5d9fde9819
7 changed files with 1156 additions and 1047 deletions
--- a/vllm_ascend/spec_decode/eagle_proposer.py
+++ b/vllm_ascend/spec_decode/eagle_proposer.py
@@ -279,9 +279,9 @@ class EagleProposer(VllmEagleProposer):
        req_scheduled_tokens = scheduler_output.num_scheduled_tokens
        if self.pcp_size > 1:
            long_seq_metadata = self.runner.long_seq_metadata
-            input_ids_pcp_full = self.runner.input_ids_pcp_full
-            query_start_loc_pcp_full = self.runner.query_start_loc_pcp_full
-            query_start_loc_pcp_full_cpu = self.runner.query_start_loc_pcp_full_cpu
+            input_ids_pcp_full = self.runner.pcp_manager.input_ids_pcp_full.gpu
+            query_start_loc_pcp_full = self.runner.pcp_manager.query_start_loc_pcp_full.gpu
+            query_start_loc_pcp_full_cpu = self.runner.pcp_manager.query_start_loc_pcp_full.cpu
            num_reqs = self.runner.input_batch.num_reqs
            ori_query_lens = query_start_loc_pcp_full_cpu[1:num_reqs+1] - \
                query_start_loc_pcp_full_cpu[:num_reqs]