Rename sglang.bench_latency to sglang.bench_one_batch (#2118)

2024-11-21 20:07:48 -08:00
parent 8048c28c11
commit dfec7fca06
16 changed files with 521 additions and 599 deletions
--- a/test/srt/test_bench_one_batch.py
+++ b/test/srt/test_bench_one_batch.py
@@ -4,19 +4,19 @@ from sglang.test.test_utils import (
    DEFAULT_MODEL_NAME_FOR_TEST,
    DEFAULT_MOE_MODEL_NAME_FOR_TEST,
    is_in_ci,
-    run_bench_latency,
+    run_bench_one_batch,
 )


-class TestBenchLatency(unittest.TestCase):
+class TestBenchOneBatch(unittest.TestCase):
    def test_default(self):
-        output_throughput = run_bench_latency(DEFAULT_MODEL_NAME_FOR_TEST, [])
+        output_throughput = run_bench_one_batch(DEFAULT_MODEL_NAME_FOR_TEST, [])

        if is_in_ci():
            self.assertGreater(output_throughput, 135)

    def test_moe_default(self):
-        output_throughput = run_bench_latency(
+        output_throughput = run_bench_one_batch(
            DEFAULT_MOE_MODEL_NAME_FOR_TEST, ["--tp", "2"]
        )

--- a/test/srt/test_torch_tp.py
+++ b/test/srt/test_torch_tp.py
@@ -1,11 +1,11 @@
 import unittest

-from sglang.test.test_utils import is_in_ci, run_bench_latency
+from sglang.test.test_utils import is_in_ci, run_bench_one_batch


 class TestTorchTP(unittest.TestCase):
    def test_torch_native_llama(self):
-        output_throughput = run_bench_latency(
+        output_throughput = run_bench_one_batch(
            "meta-llama/Meta-Llama-3-8B",
            [
                "--tp",
--- a/test/srt/test_triton_attention_backend.py
+++ b/test/srt/test_triton_attention_backend.py
@@ -14,13 +14,13 @@ from sglang.test.test_utils import (
    DEFAULT_URL_FOR_TEST,
    is_in_ci,
    popen_launch_server,
-    run_bench_latency,
+    run_bench_one_batch,
 )


 class TestTritonAttnBackend(unittest.TestCase):
    def test_latency(self):
-        output_throughput = run_bench_latency(
+        output_throughput = run_bench_one_batch(
            DEFAULT_MODEL_NAME_FOR_TEST,
            [
                "--attention-backend",