[BugFix][310P][v0.18.0] Use CPU generator cache for sampling (#8624)

### What this PR does / why we need it? This PR introduces a caching mechanism for CPU-based `torch.Generator` objects in the `_random_sample_310p` function to optimize sampling performance. It includes unit tests for cache persistence and state recovery. Feedback highlights a critical bug where keying the cache by batch index instead of generator ID can break RNG reproducibility during request re-scheduling, and notes a potential memory leak in the global cache. ### Does this PR introduce _any_ user-facing change? No. ### How was this patch tested? Tested via new unit tests in `tests/ut/_310p/sample/test_sampler_310.py` verifying cache logic and error handling. --------- Signed-off-by: csoulnd <daidaicurry@foxmail.com>
2026-04-24 09:34:14 +08:00
parent 00ddacf4e7
commit 97dbcaf919
2 changed files with 215 additions and 1 deletions
--- a/tests/ut/_310p/sample/test_sampler_310.py
+++ b/tests/ut/_310p/sample/test_sampler_310.py
@@ -0,0 +1,201 @@
 #
 # Copyright (c) 2026 Huawei Technologies Co., Ltd. All Rights Reserved.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
 # You may obtain a copy of the License at
 #
 #     http://www.apache.org/licenses/LICENSE-2.0
 #
 # Unless required by applicable law or agreed to in writing, software
 # distributed under the License is distributed on an "AS IS" BASIS,
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
 from contextlib import nullcontext
 from unittest.mock import MagicMock, patch
 import torch
 from tests.ut.base import TestBase
 from vllm_ascend._310p.sample import sampler as sampler_310p
 class _FakeRow:
    def __init__(self):
        self.generators = []
    def exponential_(self, generator=None):
        self.generators.append(generator)
        return self
 class _FakeQ:
    def __init__(self, batch_size):
        self.shape = (batch_size, 4)
        self.default_exponential_called = False
        self.rows = {idx: _FakeRow() for idx in range(batch_size)}
    def cpu(self):
        return self
    def npu(self):
        return self
    def exponential_(self):
        self.default_exponential_called = True
        return self
    def __getitem__(self, idx):
        return self.rows[idx]
 class _FakeCPUGenerator:
    def __init__(self, device=None):
        self.device = device
        self.state = None
        self.seed = None
    def set_state(self, state):
        self.state = state
    def manual_seed(self, seed):
        self.seed = seed
 class TestSampler310pGeneratorCache(TestBase):
    @patch.object(sampler_310p.torch, "npu", create=True)
    @patch.object(sampler_310p.torch, "Generator")
    @patch.object(sampler_310p.torch, "empty_like")
    @patch.object(sampler_310p, "global_stream", return_value=MagicMock())
    @patch.object(sampler_310p, "npu_stream_switch", return_value=nullcontext())
    def test_random_sample_310p_reuse_cpu_generator_cache(
        self,
        _mock_npu_stream_switch,
        _mock_global_stream,
        mock_empty_like,
        mock_generator_ctor,
        mock_npu,
    ):
        # Same source generator should reuse one cached CPU generator.
        sampler_310p._CPU_GENERATOR_CACHE_310P.clear()
        probs = MagicMock()
        probs.div_.return_value = probs
        probs.argmax.return_value = probs
        probs.view.return_value = torch.tensor([0])
        fake_q_first = _FakeQ(batch_size=2)
        fake_q_second = _FakeQ(batch_size=2)
        npu_stream = MagicMock()
        generator = MagicMock()
        generator.get_state.return_value = b"state"
        generator.initial_seed.return_value = 7
        generators = {1: generator}
        mock_empty_like.side_effect = [fake_q_first, fake_q_second]
        mock_generator_ctor.side_effect = _FakeCPUGenerator
        mock_npu.current_stream.return_value = npu_stream
        sampler_310p._random_sample_310p(probs, generators)
        sampler_310p._random_sample_310p(probs, generators)
        self.assertEqual(mock_generator_ctor.call_count, 1)
        self.assertIn(1, sampler_310p._CPU_GENERATOR_CACHE_310P)
        cached_cpu_generator, source_generator_id = sampler_310p._CPU_GENERATOR_CACHE_310P[1]
        self.assertIs(fake_q_first.rows[1].generators[0], cached_cpu_generator)
        self.assertIs(fake_q_second.rows[1].generators[0], cached_cpu_generator)
        self.assertEqual(source_generator_id, id(generator))
        self.assertEqual(cached_cpu_generator.state, b"state")
        self.assertIsNone(cached_cpu_generator.seed)
        self.assertEqual(npu_stream.wait_stream.call_count, 2)
    @patch.object(sampler_310p.torch, "npu", create=True)
    @patch.object(sampler_310p.torch, "Generator")
    @patch.object(sampler_310p.torch, "empty_like")
    @patch.object(sampler_310p, "global_stream", return_value=MagicMock())
    @patch.object(sampler_310p, "npu_stream_switch", return_value=nullcontext())
    def test_random_sample_310p_fallback_to_initial_seed_when_set_state_failed(
        self,
        _mock_npu_stream_switch,
        _mock_global_stream,
        mock_empty_like,
        mock_generator_ctor,
        mock_npu,
    ):
        # If syncing generator state fails, fallback to initial seed.
        sampler_310p._CPU_GENERATOR_CACHE_310P.clear()
        probs = MagicMock()
        probs.div_.return_value = probs
        probs.argmax.return_value = probs
        probs.view.return_value = torch.tensor([1])
        fake_q = _FakeQ(batch_size=1)
        npu_stream = MagicMock()
        generator = MagicMock()
        generator.get_state.side_effect = RuntimeError("state read failed")
        generator.initial_seed.return_value = 1234
        generators = {0: generator}
        class _FailSetStateCPUGenerator(_FakeCPUGenerator):
            def set_state(self, state):
                raise RuntimeError("state set failed")
        mock_empty_like.return_value = fake_q
        mock_generator_ctor.side_effect = _FailSetStateCPUGenerator
        mock_npu.current_stream.return_value = npu_stream
        sampler_310p._random_sample_310p(probs, generators)
        cached_cpu_generator, source_generator_id = sampler_310p._CPU_GENERATOR_CACHE_310P[0]
        self.assertEqual(source_generator_id, id(generator))
        self.assertEqual(cached_cpu_generator.seed, 1234)
        self.assertIs(fake_q.rows[0].generators[0], cached_cpu_generator)
        self.assertEqual(npu_stream.wait_stream.call_count, 1)
    @patch.object(sampler_310p.torch, "npu", create=True)
    @patch.object(sampler_310p.torch, "Generator")
    @patch.object(sampler_310p.torch, "empty_like")
    @patch.object(sampler_310p, "global_stream", return_value=MagicMock())
    @patch.object(sampler_310p, "npu_stream_switch", return_value=nullcontext())
    def test_random_sample_310p_rebuild_cache_when_generator_identity_changes(
        self,
        _mock_npu_stream_switch,
        _mock_global_stream,
        mock_empty_like,
        mock_generator_ctor,
        mock_npu,
    ):
        # A new source generator object should rebuild cache entry.
        sampler_310p._CPU_GENERATOR_CACHE_310P.clear()
        probs = MagicMock()
        probs.div_.return_value = probs
        probs.argmax.return_value = probs
        probs.view.return_value = torch.tensor([0])
        fake_q_first = _FakeQ(batch_size=1)
        fake_q_second = _FakeQ(batch_size=1)
        npu_stream = MagicMock()
        generator_first = MagicMock()
        generator_first.get_state.return_value = b"state-1"
        generator_first.initial_seed.return_value = 11
        generator_second = MagicMock()
        generator_second.get_state.return_value = b"state-2"
        generator_second.initial_seed.return_value = 22
        mock_empty_like.side_effect = [fake_q_first, fake_q_second]
        mock_generator_ctor.side_effect = _FakeCPUGenerator
        mock_npu.current_stream.return_value = npu_stream
        sampler_310p._random_sample_310p(probs, {0: generator_first})
        sampler_310p._random_sample_310p(probs, {0: generator_second})
        self.assertEqual(mock_generator_ctor.call_count, 2)
        first_cpu_generator = fake_q_first.rows[0].generators[0]
        second_cpu_generator = fake_q_second.rows[0].generators[0]
        self.assertIsNot(first_cpu_generator, second_cpu_generator)
        self.assertEqual(first_cpu_generator.state, b"state-1")
        self.assertEqual(second_cpu_generator.state, b"state-2")
        cached_cpu_generator, source_generator_id = sampler_310p._CPU_GENERATOR_CACHE_310P[0]
        self.assertIs(cached_cpu_generator, second_cpu_generator)
        self.assertEqual(source_generator_id, id(generator_second))
--- a/vllm_ascend/_310p/sample/sampler.py
+++ b/vllm_ascend/_310p/sample/sampler.py
@@ -25,6 +25,8 @@ from vllm_ascend.sample.sampler import (
 )
 from vllm_ascend.utils import global_stream, npu_stream_switch
 _CPU_GENERATOR_CACHE_310P: dict[int, tuple[torch.Generator, int]] = {}
 def _random_sample_310p(
    probs: torch.Tensor,
@@ -38,7 +40,18 @@ def _random_sample_310p(
            q.exponential_()
        if generators:
            for i, generator in generators.items():
-                q[i].exponential_(generator=generator)
+                cache_entry = _CPU_GENERATOR_CACHE_310P.get(i)
                if cache_entry is None or cache_entry[1] != id(generator):
                    cpu_generator = torch.Generator(device="cpu")
                    try:
                        # Keep RNG stream consistent with the original generator.
                        cpu_generator.set_state(generator.get_state())
                    except Exception:
                        cpu_generator.manual_seed(generator.initial_seed())
                    cache_entry = (cpu_generator, id(generator))
                    _CPU_GENERATOR_CACHE_310P[i] = cache_entry
                cpu_generator, _ = cache_entry
                q[i].exponential_(generator=cpu_generator)
        q = q.npu()
    torch.npu.current_stream().wait_stream(global_stream())
    return probs.div_(q).argmax(dim=-1).view(-1)