[KVPOOL]decode save kvcache (#5168)

### What this PR does / why we need it? kvpool decode save kvcache now only support mla ### Does this PR introduce _any_ user-facing change? ### How was this patch tested? - vLLM version: v0.12.0 - vLLM main: ad32e3e19c --------- Signed-off-by: baxingpiaochong <771405853@qq.com> Co-authored-by: Chao Lei <leichao139636@163.com>
2026-01-04 22:22:01 +08:00
parent 350b95efcf
commit 46c2fc6a3c
6 changed files with 156 additions and 31 deletions
--- a/vllm_ascend/distributed/kvpool/pool_scheduler.py
+++ b/vllm_ascend/distributed/kvpool/pool_scheduler.py
@@ -24,6 +24,8 @@ class KVPoolScheduler:
        self.kv_role = vllm_config.kv_transfer_config.kv_role
        self.consumer_is_to_load = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
            "consumer_is_to_load", False)
+        self.consumer_is_to_put = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
+            "consumer_is_to_put", False)
        self.load_async = vllm_config.kv_transfer_config.kv_connector_extra_config.get(
            "load_async", False)
        self.client = LookupKeyClient(vllm_config)
@@ -149,7 +151,8 @@ class KVPoolScheduler:
            scheduler_output (SchedulerOutput): the scheduler output object.
        """

-        force_skip_save = self.kv_role == "kv_consumer"
+        force_skip_save = (self.kv_role == "kv_consumer"
+                           and not self.consumer_is_to_put)

        for finished_req_id in scheduler_output.finished_req_ids:
            self._request_trackers.pop(finished_req_id, None)
@@ -197,6 +200,7 @@ class KVPoolScheduler:
                    num_current_tokens = request_tracker.token_len
                    new_token_ids = request.all_token_ids[
                        num_current_tokens:num_current_tokens + num_new_tokens]
+                    request_tracker.token_len += len(new_token_ids)
                else:
                    raise ValueError(
                        f"Request {req_id} is not in _unfinished_requests, "
@@ -204,10 +208,7 @@ class KVPoolScheduler:
                new_block_ids = cached_reqs.new_block_ids[i]
                if not new_block_ids:
                    continue
-                request_tracker.update(new_token_ids, new_block_ids)
-                # decode not save
-                if request_tracker.token_len > len(request.prompt_token_ids):
-                    continue
+                request_tracker.update(new_block_ids)

                last_chunk_tokens_num = ((len(request.prompt_token_ids) //
                                          self._block_size * self._block_size)
@@ -270,7 +271,7 @@ class KVPoolScheduler:
        Once a request is finished, determine whether request blocks
        should be freed now or will be sent asynchronously and freed later.
        """
-        if self.kv_role == "kv_consumer":
+        if self.kv_role == "kv_consumer" and not self.consumer_is_to_put:
            return False, None
        tracker = self._request_trackers.get(request.request_id)
        if tracker is not None and tracker.num_saved_tokens <= 0: