Add a watch dog thread (#1816)

2024-10-27 02:00:50 -07:00
parent 1be853ee69
commit 86fc0d79d0
34 changed files with 99 additions and 56 deletions
--- a/test/srt/sampling/penaltylib/test_srt_endpoint_with_penalizers.py
+++ b/test/srt/sampling/penaltylib/test_srt_endpoint_with_penalizers.py
@@ -31,7 +31,7 @@ class TestBatchPenalizerE2E(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(
        self,
--- a/test/srt/test_cache_report.py
+++ b/test/srt/test_cache_report.py
@@ -45,7 +45,7 @@ class TestCacheReport(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(self, return_logprob=False, top_logprobs_num=0, n=1):
        response = requests.post(
--- a/test/srt/test_data_parallelism.py
+++ b/test/srt/test_data_parallelism.py
@@ -25,7 +25,7 @@ class TestDataParallelism(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_double_sparsity.py
+++ b/test/srt/test_double_sparsity.py
@@ -43,7 +43,7 @@ class TestDoubleSparsity(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_embedding_openai_server.py
+++ b/test/srt/test_embedding_openai_server.py
@@ -28,7 +28,7 @@ class TestOpenAIServer(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_embedding(self, use_list_input, token_input):
        client = openai.Client(api_key=self.api_key, base_url=self.base_url)
--- a/test/srt/test_eval_accuracy_large.py
+++ b/test/srt/test_eval_accuracy_large.py
@@ -30,7 +30,7 @@ class TestEvalAccuracyLarge(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_eval_accuracy_large_chunked_prefill.py
+++ b/test/srt/test_eval_accuracy_large_chunked_prefill.py
@@ -25,7 +25,7 @@ class TestEvalAccuracyLargeChunkedPrefill(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_eval_accuracy_large_mixed_chunked_prefill.py
+++ b/test/srt/test_eval_accuracy_large_mixed_chunked_prefill.py
@@ -31,7 +31,7 @@ class TestEvalAccuracyLargeChunkedPrefill(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_eval_accuracy_mini.py
+++ b/test/srt/test_eval_accuracy_mini.py
@@ -22,7 +22,7 @@ class TestEvalAccuracyMini(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_json_constrained.py
+++ b/test/srt/test_json_constrained.py
@@ -41,7 +41,7 @@ class TestJSONConstrained(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(self, json_schema, return_logprob=False, top_logprobs_num=0, n=1):
        response = requests.post(
--- a/test/srt/test_large_max_new_tokens.py
+++ b/test/srt/test_large_max_new_tokens.py
@@ -42,7 +42,7 @@ class TestLargeMaxNewTokens(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)
        cls.stdout.close()
        cls.stderr.close()
        os.remove("stdout.txt")
--- a/test/srt/test_matched_stop.py
+++ b/test/srt/test_matched_stop.py
@@ -32,7 +32,7 @@ class TestMatchedStop(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_completions_generation(
        self,
--- a/test/srt/test_mla.py
+++ b/test/srt/test_mla.py
@@ -25,7 +25,7 @@ class TestMLA(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_mla_fp8.py
+++ b/test/srt/test_mla_fp8.py
@@ -31,7 +31,7 @@ class TestMLA(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mgsm_en(self):
        args = SimpleNamespace(
--- a/test/srt/test_moe_eval_accuracy_large.py
+++ b/test/srt/test_moe_eval_accuracy_large.py
@@ -35,7 +35,7 @@ class TestMoEEvalAccuracyLarge(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_nightly_gsm8k_eval.py
+++ b/test/srt/test_nightly_gsm8k_eval.py
@@ -36,7 +36,7 @@ class TestEvalAccuracyLarge(unittest.TestCase):

    def tearDown(self):
        if self.process:
-            kill_child_process(self.process.pid)
+            kill_child_process(self.process.pid, include_self=True)

    def launch_server(self, model, is_fp8, is_tp2):
        other_args = ["--log-level-http", "warning", "--trust-remote-code"]
--- a/test/srt/test_openai_server.py
+++ b/test/srt/test_openai_server.py
@@ -31,7 +31,7 @@ class TestOpenAIServer(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_completion(
        self, echo, logprobs, use_list_input, parallel_sample_num, token_input
--- a/test/srt/test_pytorch_sampling_backend.py
+++ b/test/srt/test_pytorch_sampling_backend.py
@@ -27,7 +27,7 @@ class TestPyTorchSamplingBackend(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_retract_decode.py
+++ b/test/srt/test_retract_decode.py
@@ -22,7 +22,7 @@ class TestRetractDecode(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_skip_tokenizer_init.py
+++ b/test/srt/test_skip_tokenizer_init.py
@@ -26,7 +26,7 @@ class TestSkipTokenizerInit(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(self, return_logprob=False, top_logprobs_num=0, n=1):
        max_new_tokens = 32
--- a/test/srt/test_srt_endpoint.py
+++ b/test/srt/test_srt_endpoint.py
@@ -27,7 +27,7 @@ class TestSRTEndpoint(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(
        self,
--- a/test/srt/test_torch_compile.py
+++ b/test/srt/test_torch_compile.py
@@ -27,7 +27,7 @@ class TestTorchCompile(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_torchao.py
+++ b/test/srt/test_torchao.py
@@ -27,7 +27,7 @@ class TestTorchCompile(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_mmlu(self):
        args = SimpleNamespace(
--- a/test/srt/test_triton_attn_backend.py
+++ b/test/srt/test_triton_attn_backend.py
@@ -50,7 +50,7 @@ class TestTritonAttnBackend(unittest.TestCase):
            metrics = run_eval(args)
            assert metrics["score"] >= 0.65
        finally:
-            kill_child_process(process.pid)
+            kill_child_process(process.pid, include_self=True)


 if __name__ == "__main__":
--- a/test/srt/test_update_weights.py
+++ b/test/srt/test_update_weights.py
@@ -23,7 +23,7 @@ class TestUpdateWeights(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def run_decode(self):
        response = requests.post(
--- a/test/srt/test_vision_openai_server.py
+++ b/test/srt/test_vision_openai_server.py
@@ -45,7 +45,7 @@ class TestOpenAIVisionServer(unittest.TestCase):

    @classmethod
    def tearDownClass(cls):
-        kill_child_process(cls.process.pid)
+        kill_child_process(cls.process.pid, include_self=True)

    def test_chat_completion(self):
        client = openai.Client(api_key=self.api_key, base_url=self.base_url)