[router] Add comprehensive E2E tests for Response API (#11988)

2025-10-23 05:13:51 -07:00
parent d6fee73d1f
commit e321c97113
9 changed files with 1700 additions and 9 deletions
--- a/.github/workflows/pr-test-rust.yml
+++ b/.github/workflows/pr-test-rust.yml
@@ -144,12 +144,6 @@ jobs:
          python3 -m pip --no-cache-dir install --upgrade --break-system-packages genai-bench==0.0.2
          pytest -m e2e -s  -vv -o log_cli=true --log-cli-level=INFO
      - name: Run Python E2E gRPC tests
        run: |
          bash scripts/killall_sglang.sh "nuk_gpus"
          cd sgl-router
          SHOW_ROUTER_LOGS=1 ROUTER_LOCAL_MODEL_PATH="/home/ubuntu/models" pytest py_test/e2e_grpc -s -vv -o log_cli=true --log-cli-level=INFO
      - name: Upload benchmark results
        if: success()
        uses: actions/upload-artifact@v4
@@ -157,8 +151,58 @@ jobs:
          name: genai-bench-results-all-policies
          path: sgl-router/benchmark_**/
  pytest-rust-2:
    if: github.event_name != 'pull_request' || contains(github.event.pull_request.labels.*.name, 'run-ci')
    runs-on: 4-gpu-a10
    timeout-minutes: 16
    steps:
      - name: Checkout code
        uses: actions/checkout@v4
      - name: Install rust dependencies
        run: |
          bash scripts/ci/ci_install_rust.sh
      - name: Configure sccache
        uses: mozilla-actions/sccache-action@v0.0.9
        with:
          version: "v0.10.0"
      - name: Rust cache
        uses: Swatinem/rust-cache@v2
        with:
          workspaces: sgl-router
          cache-all-crates: true
          cache-on-failure: true
      - name: Install SGLang dependencies
        run: |
          sudo --preserve-env=PATH bash scripts/ci/ci_install_dependency.sh
      - name: Build python binding
        run: |
          source "$HOME/.cargo/env"
          export RUSTC_WRAPPER=sccache
          cd sgl-router
          pip install setuptools-rust wheel build
          python3 -m build
          pip install --force-reinstall dist/*.whl
      - name: Run Python E2E response API tests
        run: |
          bash scripts/killall_sglang.sh "nuk_gpus"
          cd sgl-router
          SHOW_ROUTER_LOGS=1 pytest py_test/e2e_response_api -s -vv -o log_cli=true --log-cli-level=INFO
      - name: Run Python E2E gRPC tests
        run: |
          bash scripts/killall_sglang.sh "nuk_gpus"
          cd sgl-router
          SHOW_ROUTER_LOGS=1 ROUTER_LOCAL_MODEL_PATH="/home/ubuntu/models" pytest py_test/e2e_grpc -s -vv -o log_cli=true --log-cli-level=INFO
  finish:
-    needs: [unit-test-rust, pytest-rust]
+    needs: [unit-test-rust, pytest-rust, pytest-rust-2]
    runs-on: ubuntu-latest
    steps:
      - name: Finish
--- a/sgl-router/py_test/e2e_grpc/fixtures.py
+++ b/sgl-router/py_test/e2e_grpc/fixtures.py
@@ -267,8 +267,6 @@ def popen_launch_workers_and_router(
        policy,
        "--model-path",
        model,
        "--log-level",
        "warn",
    ]
    # Add worker URLs
--- a/sgl-router/py_test/e2e_response_api/base.py
+++ b/sgl-router/py_test/e2e_response_api/base.py
@@ -0,0 +1,480 @@
 """
 Base test class for Response API e2e tests.
 This module provides base test classes that can be reused across different backends
 (OpenAI, XAI, gRPC) with common test logic.
 """
 import json
 import sys
 import time
 import unittest
 from pathlib import Path
 from typing import Optional
 import requests
 # Add current directory for local imports
 _TEST_DIR = Path(__file__).parent
 sys.path.insert(0, str(_TEST_DIR))
 from util import CustomTestCase
 class ResponseAPIBaseTest(CustomTestCase):
    """Base class for Response API tests with common utilities."""
    # To be set by subclasses
    base_url: str = None
    api_key: str = None
    model: str = None
    def make_request(
        self,
        endpoint: str,
        method: str = "POST",
        json_data: Optional[dict] = None,
        params: Optional[dict] = None,
    ) -> requests.Response:
        """
        Make HTTP request to router.
        Args:
            endpoint: Endpoint path (e.g., "/v1/responses")
            method: HTTP method (GET, POST, DELETE)
            json_data: JSON body for POST requests
            params: Query parameters
        Returns:
            requests.Response object
        """
        url = f"{self.base_url}{endpoint}"
        headers = {"Content-Type": "application/json"}
        if self.api_key:
            headers["Authorization"] = f"Bearer {self.api_key}"
        if method == "POST":
            resp = requests.post(url, json=json_data, headers=headers, params=params)
        elif method == "GET":
            resp = requests.get(url, headers=headers, params=params)
        elif method == "DELETE":
            resp = requests.delete(url, headers=headers, params=params)
        else:
            raise ValueError(f"Unsupported method: {method}")
        return resp
    def create_response(
        self,
        input_text: str,
        instructions: Optional[str] = None,
        stream: bool = False,
        max_output_tokens: Optional[int] = None,
        temperature: Optional[float] = None,
        previous_response_id: Optional[str] = None,
        conversation: Optional[str] = None,
        tools: Optional[list] = None,
        background: bool = False,
        **kwargs,
    ) -> requests.Response:
        """
        Create a response via POST /v1/responses.
        Args:
            input_text: User input
            instructions: Optional system instructions
            stream: Whether to stream response
            max_output_tokens: Optional max tokens to generate
            temperature: Sampling temperature
            previous_response_id: Optional previous response ID for state management
            conversation: Optional conversation ID for state management
            tools: Optional list of MCP tools
            background: Whether to run in background mode
            **kwargs: Additional request parameters
        Returns:
            requests.Response object
        """
        data = {
            "model": self.model,
            "input": input_text,
            "stream": stream,
            **kwargs,
        }
        if instructions:
            data["instructions"] = instructions
        if max_output_tokens is not None:
            data["max_output_tokens"] = max_output_tokens
        if temperature is not None:
            data["temperature"] = temperature
        if previous_response_id:
            data["previous_response_id"] = previous_response_id
        if conversation:
            data["conversation"] = conversation
        if tools:
            data["tools"] = tools
        if background:
            data["background"] = background
        if stream:
            # For streaming, we need to handle SSE
            return self._create_streaming_response(data)
        else:
            return self.make_request("/v1/responses", "POST", data)
    def _create_streaming_response(self, data: dict) -> requests.Response:
        """Handle streaming response creation."""
        url = f"{self.base_url}/v1/responses"
        headers = {"Content-Type": "application/json"}
        if self.api_key:
            headers["Authorization"] = f"Bearer {self.api_key}"
        # Return response object with stream=True
        return requests.post(url, json=data, headers=headers, stream=True)
    def get_response(self, response_id: str) -> requests.Response:
        """Get response by ID via GET /v1/responses/{response_id}."""
        return self.make_request(f"/v1/responses/{response_id}", "GET")
    def delete_response(self, response_id: str) -> requests.Response:
        """Delete response by ID via DELETE /v1/responses/{response_id}."""
        return self.make_request(f"/v1/responses/{response_id}", "DELETE")
    def cancel_response(self, response_id: str) -> requests.Response:
        """Cancel response by ID via POST /v1/responses/{response_id}/cancel."""
        return self.make_request(f"/v1/responses/{response_id}/cancel", "POST", {})
    def get_response_input(self, response_id: str) -> requests.Response:
        """Get response input items via GET /v1/responses/{response_id}/input."""
        return self.make_request(f"/v1/responses/{response_id}/input", "GET")
    def create_conversation(self, metadata: Optional[dict] = None) -> requests.Response:
        """Create conversation via POST /v1/conversations."""
        data = {}
        if metadata:
            data["metadata"] = metadata
        return self.make_request("/v1/conversations", "POST", data)
    def get_conversation(self, conversation_id: str) -> requests.Response:
        """Get conversation by ID via GET /v1/conversations/{conversation_id}."""
        return self.make_request(f"/v1/conversations/{conversation_id}", "GET")
    def update_conversation(
        self, conversation_id: str, metadata: dict
    ) -> requests.Response:
        """Update conversation via POST /v1/conversations/{conversation_id}."""
        return self.make_request(
            f"/v1/conversations/{conversation_id}", "POST", {"metadata": metadata}
        )
    def delete_conversation(self, conversation_id: str) -> requests.Response:
        """Delete conversation via DELETE /v1/conversations/{conversation_id}."""
        return self.make_request(f"/v1/conversations/{conversation_id}", "DELETE")
    def list_conversation_items(
        self,
        conversation_id: str,
        limit: Optional[int] = None,
        after: Optional[str] = None,
        before: Optional[str] = None,
        order: str = "asc",
    ) -> requests.Response:
        """List conversation items via GET /v1/conversations/{conversation_id}/items."""
        params = {"order": order}
        if limit:
            params["limit"] = limit
        if after:
            params["after"] = after
        if before:
            params["before"] = before
        return self.make_request(
            f"/v1/conversations/{conversation_id}/items", "GET", params=params
        )
    def create_conversation_items(
        self, conversation_id: str, items: list
    ) -> requests.Response:
        """Create conversation items via POST /v1/conversations/{conversation_id}/items."""
        return self.make_request(
            f"/v1/conversations/{conversation_id}/items", "POST", {"items": items}
        )
    def get_conversation_item(
        self, conversation_id: str, item_id: str
    ) -> requests.Response:
        """Get conversation item via GET /v1/conversations/{conversation_id}/items/{item_id}."""
        return self.make_request(
            f"/v1/conversations/{conversation_id}/items/{item_id}", "GET"
        )
    def delete_conversation_item(
        self, conversation_id: str, item_id: str
    ) -> requests.Response:
        """Delete conversation item via DELETE /v1/conversations/{conversation_id}/items/{item_id}."""
        return self.make_request(
            f"/v1/conversations/{conversation_id}/items/{item_id}", "DELETE"
        )
    def parse_sse_events(self, response: requests.Response) -> list:
        """
        Parse Server-Sent Events from streaming response.
        Args:
            response: requests.Response with stream=True
        Returns:
            List of event dictionaries with 'event' and 'data' keys
        """
        events = []
        current_event = None
        for line in response.iter_lines():
            if not line:
                # Empty line signals end of event
                if current_event and current_event.get("data"):
                    events.append(current_event)
                current_event = None
                continue
            line = line.decode("utf-8")
            if line.startswith("event:"):
                current_event = {"event": line[6:].strip()}
            elif line.startswith("data:"):
                if current_event is None:
                    current_event = {}
                data_str = line[5:].strip()
                try:
                    current_event["data"] = json.loads(data_str)
                except json.JSONDecodeError:
                    current_event["data"] = data_str
        # Don't forget the last event if stream ends without empty line
        if current_event and current_event.get("data"):
            events.append(current_event)
        return events
    def wait_for_background_task(
        self, response_id: str, timeout: int = 30, poll_interval: float = 0.5
    ) -> dict:
        """
        Wait for background task to complete.
        Args:
            response_id: Response ID to poll
            timeout: Max seconds to wait
            poll_interval: Seconds between polls
        Returns:
            Final response data
        Raises:
            TimeoutError: If task doesn't complete in time
            AssertionError: If task fails
        """
        start_time = time.time()
        while time.time() - start_time < timeout:
            resp = self.get_response(response_id)
            self.assertEqual(resp.status_code, 200)
            data = resp.json()
            status = data.get("status")
            if status == "completed":
                return data
            elif status == "failed":
                raise AssertionError(
                    f"Background task failed: {data.get('error', 'Unknown error')}"
                )
            elif status == "cancelled":
                raise AssertionError("Background task was cancelled")
            time.sleep(poll_interval)
        raise TimeoutError(
            f"Background task {response_id} did not complete within {timeout}s"
        )
 class StateManagementBaseTest(ResponseAPIBaseTest):
    """Base class for state management tests (previous_response_id and conversation)."""
    def test_basic_response_creation(self):
        """Test basic response creation without state."""
        resp = self.create_response("What is 2+2?", max_output_tokens=50)
        self.assertEqual(resp.status_code, 200)
        data = resp.json()
        self.assertIn("id", data)
        self.assertIn("output", data)
        self.assertEqual(data["status"], "completed")
        self.assertIn("usage", data)
    def test_streaming_response(self):
        """Test streaming response."""
        resp = self.create_response("Count to 5", stream=True, max_output_tokens=50)
        self.assertEqual(resp.status_code, 200)
        events = self.parse_sse_events(resp)
        self.assertGreater(len(events), 0)
        # Check for response.created event
        created_events = [e for e in events if e.get("event") == "response.created"]
        self.assertGreater(len(created_events), 0)
        # Check for final completed event or in_progress events
        self.assertTrue(
            any(
                e.get("event") in ["response.completed", "response.in_progress"]
                for e in events
            )
        )
 class ResponseCRUDBaseTest(ResponseAPIBaseTest):
    """Base class for Response API CRUD tests."""
    def test_create_and_get_response(self):
        """Test creating response and retrieving it."""
        # Create response
        create_resp = self.create_response("Hello, world!")
        self.assertEqual(create_resp.status_code, 200)
        create_data = create_resp.json()
        response_id = create_data["id"]
        # Get response
        get_resp = self.get_response(response_id)
        self.assertEqual(get_resp.status_code, 200)
        get_data = get_resp.json()
        self.assertEqual(get_data["id"], response_id)
        self.assertEqual(get_data["status"], "completed")
        input_resp = self.get_response_input(get_data["id"])
        # change not merge yet
        self.assertEqual(input_resp.status_code, 501)
        # self.assertEqual(input_resp.status_code, 200)
        # input_data = input_resp.json()
        # self.assertIn("data", input_data)
        # self.assertGreater(len(input_data["data"]), 0)
    @unittest.skip("TODO: Add delete response feature")
    def test_delete_response(self):
        """Test deleting response."""
        # Create response
        create_resp = self.create_response("Test deletion", max_output_tokens=50)
        self.assertEqual(create_resp.status_code, 200)
        response_id = create_resp.json()["id"]
        # Delete response
        delete_resp = self.delete_response(response_id)
        self.assertEqual(delete_resp.status_code, 200)
        # Verify it's deleted (should return 404)
        get_resp = self.get_response(response_id)
        self.assertEqual(get_resp.status_code, 404)
    @unittest.skip("TODO: Add background response feature")
    def test_background_response(self):
        """Test background response execution."""
        # Create background response
        create_resp = self.create_response(
            "Write a short story", background=True, max_output_tokens=100
        )
        self.assertEqual(create_resp.status_code, 200)
        create_data = create_resp.json()
        response_id = create_data["id"]
        self.assertEqual(create_data["status"], "in_progress")
        # Wait for completion
        final_data = self.wait_for_background_task(response_id, timeout=60)
        self.assertEqual(final_data["status"], "completed")
 class ConversationCRUDBaseTest(ResponseAPIBaseTest):
    """Base class for Conversation API CRUD tests."""
    def test_create_and_get_conversation(self):
        """Test creating and retrieving conversation."""
        # Create conversation
        create_resp = self.create_conversation(metadata={"user": "test_user"})
        self.assertEqual(create_resp.status_code, 200)
        create_data = create_resp.json()
        conversation_id = create_data["id"]
        self.assertEqual(create_data["metadata"]["user"], "test_user")
        # Get conversation
        get_resp = self.get_conversation(conversation_id)
        self.assertEqual(get_resp.status_code, 200)
        get_data = get_resp.json()
        self.assertEqual(get_data["id"], conversation_id)
        self.assertEqual(get_data["metadata"]["user"], "test_user")
    def test_update_conversation(self):
        """Test updating conversation metadata."""
        # Create conversation
        create_resp = self.create_conversation(metadata={"key1": "value1"})
        self.assertEqual(create_resp.status_code, 200)
        conversation_id = create_resp.json()["id"]
        # Update conversation
        update_resp = self.update_conversation(
            conversation_id, metadata={"key1": "value1", "key2": "value2"}
        )
        self.assertEqual(update_resp.status_code, 200)
        # Verify update
        get_resp = self.get_conversation(conversation_id)
        get_data = get_resp.json()
        self.assertEqual(get_data["metadata"]["key2"], "value2")
    def test_delete_conversation(self):
        """Test deleting conversation."""
        # Create conversation
        create_resp = self.create_conversation()
        self.assertEqual(create_resp.status_code, 200)
        conversation_id = create_resp.json()["id"]
        # Delete conversation
        delete_resp = self.delete_conversation(conversation_id)
        self.assertEqual(delete_resp.status_code, 200)
        # Verify deletion
        get_resp = self.get_conversation(conversation_id)
        self.assertEqual(get_resp.status_code, 404)
    def test_list_conversation_items(self):
        """Test listing conversation items."""
        # Create conversation
        conv_resp = self.create_conversation()
        conversation_id = conv_resp.json()["id"]
        # Create response with conversation
        self.create_response(
            "First message", conversation=conversation_id, max_output_tokens=50
        )
        self.create_response(
            "Second message", conversation=conversation_id, max_output_tokens=50
        )
        # List items
        list_resp = self.list_conversation_items(conversation_id)
        self.assertEqual(list_resp.status_code, 200)
        list_data = list_resp.json()
        self.assertIn("data", list_data)
        # Should have at least 4 items (2 inputs + 2 outputs)
        self.assertGreaterEqual(len(list_data["data"]), 4)
--- a/sgl-router/py_test/e2e_response_api/conftest.py
+++ b/sgl-router/py_test/e2e_response_api/conftest.py
@@ -0,0 +1,39 @@
 """
 pytest configuration for e2e_response_api tests.
 This configures pytest to not collect base test classes that are meant to be inherited.
 """
 import pytest
 def pytest_collection_modifyitems(config, items):
    """
    Modify test collection to exclude base test classes.
    Base test classes are meant to be inherited, not run directly.
    We exclude any test that comes from these base classes:
    - StateManagementBaseTest
    - ResponseCRUDBaseTest
    - ConversationCRUDBaseTest
    - MCPTests
    - StateManagementTests
    """
    base_class_names = {
        "StateManagementBaseTest",
        "ResponseCRUDBaseTest",
        "ConversationCRUDBaseTest",
        "MCPTests",
        "StateManagementTests",
    }
    # Filter out tests from base classes
    filtered_items = []
    for item in items:
        # Check if the test's parent class is a base class
        parent_name = item.parent.name if hasattr(item, "parent") else None
        if parent_name not in base_class_names:
            filtered_items.append(item)
    # Update items list
    items[:] = filtered_items
--- a/sgl-router/py_test/e2e_response_api/mcp.py
+++ b/sgl-router/py_test/e2e_response_api/mcp.py
@@ -0,0 +1,229 @@
 """
 MCP (Model Context Protocol) tests for Response API.
 Tests MCP tool calling in both streaming and non-streaming modes.
 These tests should work across all backends that support MCP (OpenAI, XAI).
 """
 from base import ResponseAPIBaseTest
 class MCPTests(ResponseAPIBaseTest):
    """Tests for MCP tool calling in both streaming and non-streaming modes."""
    def test_mcp_basic_tool_call(self):
        """Test basic MCP tool call (non-streaming)."""
        tools = [
            {
                "type": "mcp",
                "server_label": "deepwiki",
                "server_url": "https://mcp.deepwiki.com/mcp",
                "require_approval": "never",
            }
        ]
        resp = self.create_response(
            "What transport protocols does the 2025-03-26 version of the MCP spec (modelcontextprotocol/modelcontextprotocol) support?",
            tools=tools,
            stream=False,
        )
        # Should successfully make the request
        self.assertEqual(resp.status_code, 200)
        data = resp.json()
        print(f"MCP response: {data}")
        # Basic response structure
        self.assertIn("id", data)
        self.assertIn("status", data)
        self.assertEqual(data["status"], "completed")
        self.assertIn("output", data)
        self.assertIn("model", data)
        # Verify output array is not empty
        output = data["output"]
        self.assertIsInstance(output, list)
        self.assertGreater(len(output), 0)
        # Check for MCP-specific output types
        output_types = [item.get("type") for item in output]
        # Should have mcp_list_tools - tools are listed before calling
        self.assertIn(
            "mcp_list_tools", output_types, "Response should contain mcp_list_tools"
        )
        # Should have at least one mcp_call
        mcp_calls = [item for item in output if item.get("type") == "mcp_call"]
        self.assertGreater(
            len(mcp_calls), 0, "Response should contain at least one mcp_call"
        )
        # Verify mcp_call structure
        for mcp_call in mcp_calls:
            self.assertIn("id", mcp_call)
            self.assertIn("status", mcp_call)
            self.assertEqual(mcp_call["status"], "completed")
            self.assertIn("server_label", mcp_call)
            self.assertEqual(mcp_call["server_label"], "deepwiki")
            self.assertIn("name", mcp_call)
            self.assertIn("arguments", mcp_call)
            self.assertIn("output", mcp_call)
        # Should have final message output
        messages = [item for item in output if item.get("type") == "message"]
        self.assertGreater(
            len(messages), 0, "Response should contain at least one message"
        )
        # Verify message structure
        for msg in messages:
            self.assertIn("content", msg)
            self.assertIsInstance(msg["content"], list)
            # Check content has text
            for content_item in msg["content"]:
                if content_item.get("type") == "output_text":
                    self.assertIn("text", content_item)
                    self.assertIsInstance(content_item["text"], str)
                    self.assertGreater(len(content_item["text"]), 0)
    def test_mcp_basic_tool_call_streaming(self):
        """Test basic MCP tool call (streaming)."""
        tools = [
            {
                "type": "mcp",
                "server_label": "deepwiki",
                "server_url": "https://mcp.deepwiki.com/mcp",
                "require_approval": "never",
            }
        ]
        resp = self.create_response(
            "What transport protocols does the 2025-03-26 version of the MCP spec (modelcontextprotocol/modelcontextprotocol) support?",
            tools=tools,
            stream=True,
        )
        # Should successfully make the request
        self.assertEqual(resp.status_code, 200)
        events = self.parse_sse_events(resp)
        self.assertGreater(len(events), 0)
        event_types = [e.get("event") for e in events]
        # Check for lifecycle events
        self.assertIn(
            "response.created", event_types, "Should have response.created event"
        )
        self.assertIn(
            "response.completed", event_types, "Should have response.completed event"
        )
        # Check for MCP list tools events
        self.assertIn(
            "response.output_item.added",
            event_types,
            "Should have output_item.added events",
        )
        self.assertIn(
            "response.mcp_list_tools.in_progress",
            event_types,
            "Should have mcp_list_tools.in_progress event",
        )
        self.assertIn(
            "response.mcp_list_tools.completed",
            event_types,
            "Should have mcp_list_tools.completed event",
        )
        # Check for MCP call events
        self.assertIn(
            "response.mcp_call.in_progress",
            event_types,
            "Should have mcp_call.in_progress event",
        )
        self.assertIn(
            "response.mcp_call_arguments.delta",
            event_types,
            "Should have mcp_call_arguments.delta event",
        )
        self.assertIn(
            "response.mcp_call_arguments.done",
            event_types,
            "Should have mcp_call_arguments.done event",
        )
        self.assertIn(
            "response.mcp_call.completed",
            event_types,
            "Should have mcp_call.completed event",
        )
        # Check for text output events
        self.assertIn(
            "response.content_part.added",
            event_types,
            "Should have content_part.added event",
        )
        self.assertIn(
            "response.output_text.delta",
            event_types,
            "Should have output_text.delta events",
        )
        self.assertIn(
            "response.output_text.done",
            event_types,
            "Should have output_text.done event",
        )
        self.assertIn(
            "response.content_part.done",
            event_types,
            "Should have content_part.done event",
        )
        # Verify final completed event has full response
        completed_events = [e for e in events if e.get("event") == "response.completed"]
        self.assertEqual(len(completed_events), 1)
        final_response = completed_events[0].get("data", {}).get("response", {})
        self.assertIn("id", final_response)
        self.assertEqual(final_response.get("status"), "completed")
        self.assertIn("output", final_response)
        # Verify final output contains expected items
        final_output = final_response.get("output", [])
        final_output_types = [item.get("type") for item in final_output]
        self.assertIn("mcp_list_tools", final_output_types)
        self.assertIn("mcp_call", final_output_types)
        self.assertIn("message", final_output_types)
        # Verify mcp_call items in final output
        mcp_calls = [item for item in final_output if item.get("type") == "mcp_call"]
        self.assertGreater(len(mcp_calls), 0)
        for mcp_call in mcp_calls:
            self.assertEqual(mcp_call.get("status"), "completed")
            self.assertEqual(mcp_call.get("server_label"), "deepwiki")
            self.assertIn("name", mcp_call)
            self.assertIn("arguments", mcp_call)
            self.assertIn("output", mcp_call)
        # Verify text deltas combine to final message
        text_deltas = [
            e.get("data", {}).get("delta", "")
            for e in events
            if e.get("event") == "response.output_text.delta"
        ]
        self.assertGreater(len(text_deltas), 0, "Should have text deltas")
        # Get final text from output_text.done event
        text_done_events = [
            e for e in events if e.get("event") == "response.output_text.done"
        ]
        self.assertGreater(len(text_done_events), 0)
        final_text = text_done_events[0].get("data", {}).get("text", "")
        self.assertGreater(len(final_text), 0, "Final text should not be empty")
--- a/sgl-router/py_test/e2e_response_api/router_fixtures.py
+++ b/sgl-router/py_test/e2e_response_api/router_fixtures.py
@@ -0,0 +1,554 @@
 """
 Fixtures for launching OpenAI/XAI router for response API e2e testing.
 This module provides fixtures for launching SGLang router with OpenAI or XAI backends:
    1. Launch router with --backend openai pointing to OpenAI or XAI API
    2. Configure history backend (memory or oracle)
 This supports testing the Response API against real cloud providers.
 """
 import os
 import socket
 import subprocess
 import time
 from typing import Optional
 import requests
 def wait_for_workers_ready(
    router_url: str,
    expected_workers: int,
    timeout: int = 300,
    api_key: Optional[str] = None,
 ) -> None:
    """
    Wait for router to have all workers connected.
    Polls the /workers endpoint until the 'total' field matches expected_workers.
    Example response from /workers endpoint:
    {"workers":[],"total":0,"stats":{"prefill_count":0,"decode_count":0,"regular_count":0}}
    Args:
        router_url: Base URL of router (e.g., "http://127.0.0.1:30000")
        expected_workers: Number of workers expected to be connected
        timeout: Max seconds to wait
        api_key: Optional API key for authentication
    """
    start_time = time.time()
    last_error = None
    attempt = 0
    headers = {}
    if api_key:
        headers["Authorization"] = f"Bearer {api_key}"
    with requests.Session() as session:
        while time.time() - start_time < timeout:
            attempt += 1
            elapsed = int(time.time() - start_time)
            # Print progress every 10 seconds
            if elapsed > 0 and elapsed % 10 == 0 and attempt % 10 == 0:
                print(f"  Still waiting for workers... ({elapsed}/{timeout}s elapsed)")
            try:
                response = session.get(
                    f"{router_url}/workers", headers=headers, timeout=5
                )
                if response.status_code == 200:
                    data = response.json()
                    total_workers = data.get("total", 0)
                    if total_workers == expected_workers:
                        print(
                            f"  All {expected_workers} workers connected after {elapsed}s"
                        )
                        return
                    else:
                        last_error = f"Workers: {total_workers}/{expected_workers}"
                else:
                    last_error = f"HTTP {response.status_code}"
            except requests.ConnectionError:
                last_error = "Connection refused (router not ready yet)"
            except requests.Timeout:
                last_error = "Timeout"
            except requests.RequestException as e:
                last_error = str(e)
            except (ValueError, KeyError) as e:
                last_error = f"Invalid response: {e}"
            time.sleep(1)
    raise TimeoutError(
        f"Router at {router_url} did not get {expected_workers} workers within {timeout}s.\n"
        f"Last status: {last_error}\n"
        f"Hint: Run with SHOW_ROUTER_LOGS=1 to see startup logs"
    )
 def find_free_port() -> int:
    """Find an available port on localhost."""
    with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
        s.bind(("127.0.0.1", 0))
        return s.getsockname()[1]
 def wait_for_router_ready(
    router_url: str,
    timeout: int = 60,
    api_key: Optional[str] = None,
 ) -> None:
    """
    Wait for router to be ready.
    Polls the /health endpoint until it returns 200.
    Args:
        router_url: Base URL of router (e.g., "http://127.0.0.1:30000")
        timeout: Max seconds to wait
        api_key: Optional API key for authentication
    """
    start_time = time.time()
    last_error = None
    attempt = 0
    headers = {}
    if api_key:
        headers["Authorization"] = f"Bearer {api_key}"
    with requests.Session() as session:
        while time.time() - start_time < timeout:
            attempt += 1
            elapsed = int(time.time() - start_time)
            # Print progress every 10 seconds
            if elapsed > 0 and elapsed % 10 == 0 and attempt % 10 == 0:
                print(f"  Still waiting for router... ({elapsed}/{timeout}s elapsed)")
            try:
                response = session.get(
                    f"{router_url}/health", headers=headers, timeout=5
                )
                if response.status_code == 200:
                    print(f"  Router ready after {elapsed}s")
                    return
                else:
                    last_error = f"HTTP {response.status_code}"
            except requests.ConnectionError:
                last_error = "Connection refused (router not ready yet)"
            except requests.Timeout:
                last_error = "Timeout"
            except requests.RequestException as e:
                last_error = str(e)
            time.sleep(1)
    raise TimeoutError(
        f"Router at {router_url} did not become ready within {timeout}s.\n"
        f"Last status: {last_error}\n"
        f"Hint: Run with SHOW_ROUTER_LOGS=1 to see startup logs"
    )
 def popen_launch_openai_xai_router(
    backend: str,  # "openai" or "xai"
    base_url: str,
    timeout: int = 60,
    history_backend: str = "memory",
    api_key: Optional[str] = None,
    router_args: Optional[list] = None,
    stdout=None,
    stderr=None,
    prometheus_port: Optional[int] = None,
 ) -> dict:
    """
    Launch SGLang router with OpenAI or XAI backend.
    This approach:
    1. Starts router with --backend openai
    2. Points to OpenAI or XAI API via --worker-urls
    3. Configures history backend (memory or oracle)
    4. Waits for router health check to pass
    Args:
        backend: "openai" or "xai"
        base_url: Base URL for router (e.g., "http://127.0.0.1:30000")
        timeout: Timeout for router startup (default: 60s)
        history_backend: "memory" or "oracle" (default: memory)
        api_key: Optional API key for router authentication
        router_args: Additional arguments for router
        stdout: Optional file handle for router stdout
        stderr: Optional file handle for router stderr
    Returns:
        dict with:
            - router: router process object
            - base_url: router URL (HTTP endpoint)
    Example:
        >>> cluster = popen_launch_openai_xai_router(
        ...     "openai", "http://127.0.0.1:30000"
        ... )
        >>> # Use cluster['base_url'] for HTTP requests
        >>> # Cleanup:
        >>> kill_process_tree(cluster['router'].pid)
    """
    show_output = os.environ.get("SHOW_ROUTER_LOGS", "0") == "1"
    # Parse router port from base_url
    if ":" in base_url.split("//")[-1]:
        router_port = int(base_url.split(":")[-1])
    else:
        router_port = find_free_port()
    print(f"\n{'='*70}")
    print(f"Launching {backend.upper()} router")
    print(f"{'='*70}")
    print(f"  Backend: {backend}")
    print(f"  Router port: {router_port}")
    print(f"  History backend: {history_backend}")
    # Determine worker URL based on backend
    if backend == "openai":
        worker_url = "https://api.openai.com"
        # Get API key from environment
        backend_api_key = os.environ.get("OPENAI_API_KEY")
        if not backend_api_key:
            raise ValueError(
                "OPENAI_API_KEY environment variable must be set for OpenAI backend"
            )
    elif backend == "xai":
        worker_url = "https://api.x.ai"
        # Get API key from environment
        backend_api_key = os.environ.get("XAI_API_KEY")
        if not backend_api_key:
            raise ValueError(
                "XAI_API_KEY environment variable must be set for XAI backend"
            )
    else:
        raise ValueError(f"Unsupported backend: {backend}")
    print(f"  Worker URL: {worker_url}")
    # Build router command
    router_cmd = [
        "python3",
        "-m",
        "sglang_router.launch_router",
        "--host",
        "127.0.0.1",
        "--port",
        str(router_port),
        "--backend",
        "openai",
        "--worker-urls",
        worker_url,
        "--history-backend",
        history_backend,
        "--log-level",
        "warn",
    ]
    # Note: Not adding --api-key to router command for local testing
    # The router will not require authentication
    # Add Prometheus port to avoid conflicts (use unique port or disable)
    if prometheus_port is None:
        # Auto-assign a unique prometheus port based on router port
        prometheus_port = router_port + 1000
    router_cmd.extend(["--prometheus-port", str(prometheus_port)])
    # Add router-specific args
    if router_args:
        router_cmd.extend(router_args)
    if show_output:
        print(f"  Command: {' '.join(router_cmd)}")
    # Set up environment with backend API key
    env = os.environ.copy()
    if backend == "openai":
        env["OPENAI_API_KEY"] = backend_api_key
    else:
        env["XAI_API_KEY"] = backend_api_key
    # Launch router
    if show_output:
        router_proc = subprocess.Popen(
            router_cmd,
            env=env,
            stdout=stdout,
            stderr=stderr,
        )
    else:
        router_proc = subprocess.Popen(
            router_cmd,
            stdout=stdout if stdout is not None else subprocess.PIPE,
            stderr=stderr if stderr is not None else subprocess.PIPE,
            env=env,
        )
    print(f"  PID: {router_proc.pid}")
    # Wait for router to be ready
    router_url = f"http://127.0.0.1:{router_port}"
    print(f"\nWaiting for router to start at {router_url}...")
    try:
        wait_for_router_ready(router_url, timeout=timeout, api_key=None)
        print(f"✓ Router ready at {router_url}")
    except TimeoutError:
        print(f"✗ Router failed to start")
        # Cleanup: kill router
        try:
            router_proc.kill()
        except:
            pass
        raise
    print(f"\n{'='*70}")
    print(f"✓ {backend.upper()} router ready!")
    print(f"  Router: {router_url}")
    print(f"{'='*70}\n")
    return {
        "router": router_proc,
        "base_url": router_url,
    }
 def popen_launch_workers_and_router(
    model: str,
    base_url: str,
    timeout: int = 300,
    num_workers: int = 2,
    policy: str = "round_robin",
    api_key: Optional[str] = None,
    worker_args: Optional[list] = None,
    router_args: Optional[list] = None,
    tp_size: int = 1,
    env: Optional[dict] = None,
    stdout=None,
    stderr=None,
 ) -> dict:
    """
    Launch SGLang workers and gRPC router separately.
    This approach:
    1. Starts N SGLang workers with --grpc-mode flag
    2. Waits for workers to initialize (process startup)
    3. Starts a gRPC router pointing to those workers
    4. Waits for router health check to pass (router validates worker connectivity)
    This matches production deployment patterns better than the integrated approach.
    Args:
        model: Model path (e.g., /home/ubuntu/models/llama-3.1-8b-instruct)
        base_url: Base URL for router (e.g., "http://127.0.0.1:8080")
        timeout: Timeout for server startup (default: 300s)
        num_workers: Number of workers to launch
        policy: Routing policy (round_robin, random, power_of_two, cache_aware)
        api_key: Optional API key for router
        worker_args: Additional arguments for workers (e.g., ["--context-len", "8192"])
        router_args: Additional arguments for router (e.g., ["--max-total-token", "1536"])
        tp_size: Tensor parallelism size for workers (default: 1)
        env: Optional environment variables for workers (e.g., {"SGLANG_CLIP_MAX_NEW_TOKENS_ESTIMATION": "256"})
        stdout: Optional file handle for worker stdout (default: subprocess.PIPE)
        stderr: Optional file handle for worker stderr (default: subprocess.PIPE)
    Returns:
        dict with:
            - workers: list of worker process objects
            - worker_urls: list of gRPC worker URLs
            - router: router process object
            - base_url: router URL (HTTP endpoint)
    Example:
        >>> cluster = popen_launch_workers_and_router(model, base_url, num_workers=2)
        >>> # Use cluster['base_url'] for HTTP requests
        >>> # Cleanup:
        >>> for worker in cluster['workers']:
        >>>     kill_process_tree(worker.pid)
        >>> kill_process_tree(cluster['router'].pid)
    """
    show_output = os.environ.get("SHOW_ROUTER_LOGS", "0") == "1"
    # Parse router port from base_url
    if ":" in base_url.split("//")[-1]:
        router_port = int(base_url.split(":")[-1])
    else:
        router_port = find_free_port()
    print(f"\n{'='*70}")
    print(f"Launching gRPC cluster (separate workers + router)")
    print(f"{'='*70}")
    print(f"  Model: {model}")
    print(f"  Router port: {router_port}")
    print(f"  Workers: {num_workers}")
    print(f"  TP size: {tp_size}")
    print(f"  Policy: {policy}")
    # Step 1: Launch workers with gRPC enabled
    workers = []
    worker_urls = []
    for i in range(num_workers):
        worker_port = find_free_port()
        worker_url = f"grpc://127.0.0.1:{worker_port}"
        worker_urls.append(worker_url)
        print(f"\n[Worker {i+1}/{num_workers}]")
        print(f"  Port: {worker_port}")
        print(f"  URL: {worker_url}")
        # Build worker command
        worker_cmd = [
            "python3",
            "-m",
            "sglang.launch_server",
            "--model-path",
            model,
            "--host",
            "127.0.0.1",
            "--port",
            str(worker_port),
            "--grpc-mode",  # Enable gRPC for this worker
            "--mem-fraction-static",
            "0.8",
            "--attention-backend",
            "fa3",
        ]
        # Add TP size
        if tp_size > 1:
            worker_cmd.extend(["--tp-size", str(tp_size)])
        # Add worker-specific args
        if worker_args:
            worker_cmd.extend(worker_args)
        # Launch worker with optional environment variables
        if show_output:
            worker_proc = subprocess.Popen(
                worker_cmd,
                env=env,
                stdout=stdout,
                stderr=stderr,
            )
        else:
            worker_proc = subprocess.Popen(
                worker_cmd,
                stdout=stdout if stdout is not None else subprocess.PIPE,
                stderr=stderr if stderr is not None else subprocess.PIPE,
                env=env,
            )
        workers.append(worker_proc)
        print(f"  PID: {worker_proc.pid}")
    # Give workers a moment to start binding to ports
    # The router will check worker health when it starts
    print(f"\nWaiting for {num_workers} workers to initialize (20s)...")
    time.sleep(20)
    # Quick check: make sure worker processes are still alive
    for i, worker in enumerate(workers):
        if worker.poll() is not None:
            print(f"  ✗ Worker {i+1} died during startup (exit code: {worker.poll()})")
            # Cleanup: kill all workers
            for w in workers:
                try:
                    w.kill()
                except:
                    pass
            raise RuntimeError(f"Worker {i+1} failed to start")
    print(f"✓ All {num_workers} workers started (router will verify connectivity)")
    # Step 2: Launch router pointing to workers
    print(f"\n[Router]")
    print(f"  Port: {router_port}")
    print(f"  Worker URLs: {', '.join(worker_urls)}")
    # Build router command
    router_cmd = [
        "python3",
        "-m",
        "sglang_router.launch_router",
        "--host",
        "127.0.0.1",
        "--port",
        str(router_port),
        "--prometheus-port",
        "9321",
        "--policy",
        policy,
        "--model-path",
        model,
    ]
    # Add worker URLs
    router_cmd.append("--worker-urls")
    router_cmd.extend(worker_urls)
    # Add API key
    if api_key:
        router_cmd.extend(["--api-key", api_key])
    # Add router-specific args
    if router_args:
        router_cmd.extend(router_args)
    if show_output:
        print(f"  Command: {' '.join(router_cmd)}")
    # Launch router
    if show_output:
        router_proc = subprocess.Popen(router_cmd)
    else:
        router_proc = subprocess.Popen(
            router_cmd,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
        )
    print(f"  PID: {router_proc.pid}")
    # Wait for router to be ready
    router_url = f"http://127.0.0.1:{router_port}"
    print(f"\nWaiting for router to start at {router_url}...")
    try:
        wait_for_workers_ready(
            router_url, expected_workers=num_workers, timeout=180, api_key=api_key
        )
        print(f"✓ Router ready at {router_url}")
    except TimeoutError:
        print(f"✗ Router failed to start")
        # Cleanup: kill router and all workers
        try:
            router_proc.kill()
        except:
            pass
        for worker in workers:
            try:
                worker.kill()
            except:
                pass
        raise
    print(f"\n{'='*70}")
    print(f"✓ gRPC cluster ready!")
    print(f"  Router: {router_url}")
    print(f"  Workers: {len(workers)}")
    print(f"{'='*70}\n")
    return {
        "workers": workers,
        "worker_urls": worker_urls,
        "router": router_proc,
        "base_url": router_url,
    }
--- a/sgl-router/py_test/e2e_response_api/state_management.py
+++ b/sgl-router/py_test/e2e_response_api/state_management.py
@@ -0,0 +1,135 @@
 """
 State management tests for Response API.
 Tests both previous_response_id and conversation-based state management.
 These tests should work across all backends (OpenAI, XAI, gRPC).
 """
 import unittest
 from base import ResponseAPIBaseTest
 class StateManagementTests(ResponseAPIBaseTest):
    """Tests for state management using previous_response_id and conversation."""
    def test_previous_response_id_chaining(self):
        """Test chaining responses using previous_response_id."""
        # First response
        resp1 = self.create_response(
            "My name is Alice and my friend is Bob. Remember it."
        )
        self.assertEqual(resp1.status_code, 200)
        response1_id = resp1.json()["id"]
        # Second response referencing first
        resp2 = self.create_response(
            "What is my name", previous_response_id=response1_id
        )
        self.assertEqual(resp2.status_code, 200)
        response2_data = resp2.json()
        # The model should remember the name from previous response
        output_text = self._extract_output_text(response2_data)
        self.assertIn("Alice", output_text)
        # Third response referencing second
        resp3 = self.create_response(
            "What is my friend name?",
            previous_response_id=response2_data["id"],
        )
        response3_data = resp3.json()
        output_text = self._extract_output_text(response3_data)
        self.assertEqual(resp3.status_code, 200)
        self.assertIn("Bob", output_text)
    @unittest.skip("TODO: Add the invalid previous_response_id check")
    def test_previous_response_id_invalid(self):
        """Test using invalid previous_response_id."""
        resp = self.create_response(
            "Test", previous_response_id="resp_invalid123", max_output_tokens=50
        )
        # Should return 404 or 400 for invalid response ID
        if resp.status_code != 200:
            print(f"\n❌ Response creation failed!")
            print(f"Status: {resp.status_code}")
            print(f"Response: {resp.text}")
        self.assertIn(resp.status_code, [400, 404])
    def test_conversation_with_multiple_turns(self):
        """Test state management using conversation ID."""
        # Create conversation
        conv_resp = self.create_conversation(metadata={"topic": "math"})
        self.assertEqual(conv_resp.status_code, 200)
        conversation_id = conv_resp.json()["id"]
        # First response in conversation
        resp1 = self.create_response("I have 5 apples.", conversation=conversation_id)
        self.assertEqual(resp1.status_code, 200)
        # Second response in same conversation
        resp2 = self.create_response(
            "How many apples do I have?",
            conversation=conversation_id,
        )
        self.assertEqual(resp2.status_code, 200)
        output_text = self._extract_output_text(resp2.json())
        # Should remember "5 apples"
        self.assertTrue("5" in output_text or "five" in output_text.lower())
        # Third response in same conversation
        resp3 = self.create_response(
            "If I get 3 more, how many total?",
            conversation=conversation_id,
        )
        self.assertEqual(resp3.status_code, 200)
        output_text = self._extract_output_text(resp3.json())
        # Should calculate 5 + 3 = 8
        self.assertTrue("8" in output_text or "eight" in output_text.lower())
        list_resp = self.list_conversation_items(conversation_id)
        self.assertEqual(list_resp.status_code, 200)
        items = list_resp.json()["data"]
        # Should have at least 6 items (3 inputs + 3 outputs)
        self.assertGreaterEqual(len(items), 6)
    def test_mutually_exclusive_parameters(self):
        """Test that previous_response_id and conversation are mutually exclusive."""
        # Create conversation and response
        conv_resp = self.create_conversation()
        conversation_id = conv_resp.json()["id"]
        resp1 = self.create_response("Test")
        response1_id = resp1.json()["id"]
        # Try to use both parameters
        resp = self.create_response(
            "This should fail",
            previous_response_id=response1_id,
            conversation=conversation_id,
        )
        # Should return 400 Bad Request
        self.assertEqual(resp.status_code, 400)
        error_data = resp.json()
        self.assertIn("error", error_data)
        self.assertIn("mutually exclusive", error_data["error"]["message"].lower())
    # Helper methods
    def _extract_output_text(self, response_data: dict) -> str:
        """Extract text content from response output."""
        output = response_data.get("output", [])
        if not output:
            return ""
        text_parts = []
        for item in output:
            content = item.get("content", [])
            for part in content:
                if part.get("type") == "output_text":
                    text_parts.append(part.get("text", ""))
        return " ".join(text_parts)
--- a/sgl-router/py_test/e2e_response_api/test_response_api.py
+++ b/sgl-router/py_test/e2e_response_api/test_response_api.py
@@ -0,0 +1,130 @@
 """
 OpenAI backend tests for Response API.
 Run with:
    export OPENAI_API_KEY=your_key
    python3 -m pytest py_test/e2e_response_api/test_openai_backend.py -v
    python3 -m unittest e2e_response_api.test_openai_backend.TestOpenAIStateManagement
 """
 import os
 import sys
 import unittest
 from pathlib import Path
 # Add current directory for imports
 _TEST_DIR = Path(__file__).parent
 sys.path.insert(0, str(_TEST_DIR))
 # Import local modules
 from base import ConversationCRUDBaseTest, ResponseCRUDBaseTest
 from mcp import MCPTests
 from router_fixtures import (
    popen_launch_openai_xai_router,
    popen_launch_workers_and_router,
 )
 from state_management import StateManagementTests
 from util import kill_process_tree
 class TestOpenaiBackend(
    ResponseCRUDBaseTest, ConversationCRUDBaseTest, StateManagementTests, MCPTests
 ):
    """End to end tests for OpenAI backend."""
    api_key = os.environ.get("OPENAI_API_KEY")
    @classmethod
    def setUpClass(cls):
        cls.model = "gpt-5-nano"
        cls.base_url_port = "http://127.0.0.1:30010"
        cls.cluster = popen_launch_openai_xai_router(
            backend="openai",
            base_url=cls.base_url_port,
            history_backend="memory",
        )
        cls.base_url = cls.cluster["base_url"]
    @classmethod
    def tearDownClass(cls):
        kill_process_tree(cls.cluster["router"].pid)
 class TestXaiBackend(StateManagementTests):
    """End to end tests for XAI backend."""
    api_key = os.environ.get("XAI_API_KEY")
    @classmethod
    def setUpClass(cls):
        cls.model = "grok-4-fast"
        cls.base_url_port = "http://127.0.0.1:30023"
        cls.cluster = popen_launch_openai_xai_router(
            backend="xai",
            base_url=cls.base_url_port,
            history_backend="memory",
        )
        cls.base_url = cls.cluster["base_url"]
    @classmethod
    def tearDownClass(cls):
        kill_process_tree(cls.cluster["router"].pid)
 class TestGrpcBackend(StateManagementTests, MCPTests):
    """End to end tests for gRPC backend."""
    @classmethod
    def setUpClass(cls):
        cls.model = "/home/ubuntu/models/meta-llama/Llama-3.1-8B-Instruct"
        cls.base_url_port = "http://127.0.0.1:30030"
        cls.cluster = popen_launch_workers_and_router(
            cls.model,
            cls.base_url_port,
            timeout=90,
            num_workers=1,
            tp_size=2,
            policy="round_robin",
            router_args=["--history-backend", "memory"],
        )
        cls.base_url = cls.cluster["base_url"]
    @classmethod
    def tearDownClass(cls):
        kill_process_tree(cls.cluster["router"].pid)
        for worker in cls.cluster.get("workers", []):
            kill_process_tree(worker.pid)
    @unittest.skip(
        "TODO: transport error, details: [], metadata: MetadataMap { headers: {} }"
    )
    def test_previous_response_id_chaining(self):
        super().test_previous_response_id_chaining()
    @unittest.skip("TODO: return 501 Not Implemented")
    def test_conversation_with_multiple_turns(self):
        super().test_conversation_with_multiple_turns()
    @unittest.skip("TODO: decode error message")
    def test_mutually_exclusive_parameters(self):
        super().test_mutually_exclusive_parameters()
    @unittest.skip(
        "TODO: Pipeline execution failed: Pipeline stage WorkerSelection failed"
    )
    def test_mcp_basic_tool_call(self):
        super().test_mcp_basic_tool_call()
    @unittest.skip("TODO: no event fields")
    def test_mcp_basic_tool_call_streaming(self):
        return super().test_mcp_basic_tool_call_streaming()
 if __name__ == "__main__":
    unittest.main()
--- a/sgl-router/py_test/e2e_response_api/util.py
+++ b/sgl-router/py_test/e2e_response_api/util.py
@@ -0,0 +1,82 @@
 """
 Utility functions for Response API e2e tests.
 """
 import os
 import signal
 import threading
 import unittest
 import psutil
 def kill_process_tree(parent_pid, include_parent: bool = True, skip_pid: int = None):
    """
    Kill the process and all its child processes.
    Args:
        parent_pid: PID of the parent process
        include_parent: Whether to kill the parent process itself
        skip_pid: Optional PID to skip during cleanup
    """
    # Remove sigchld handler to avoid spammy logs
    if threading.current_thread() is threading.main_thread():
        signal.signal(signal.SIGCHLD, signal.SIG_DFL)
    if parent_pid is None:
        parent_pid = os.getpid()
        include_parent = False
    try:
        itself = psutil.Process(parent_pid)
    except psutil.NoSuchProcess:
        return
    children = itself.children(recursive=True)
    for child in children:
        if child.pid == skip_pid:
            continue
        try:
            child.kill()
        except psutil.NoSuchProcess:
            pass
    if include_parent:
        try:
            itself.kill()
        except psutil.NoSuchProcess:
            pass
 class CustomTestCase(unittest.TestCase):
    """
    Custom test case base class with retry support.
    This provides automatic test retry functionality based on environment variables.
    """
    def _callTestMethod(self, method):
        """Override to add retry logic."""
        max_retry = int(os.environ.get("SGLANG_TEST_MAX_RETRY", "0"))
        if max_retry == 0:
            # No retry, just run once
            return super(CustomTestCase, self)._callTestMethod(method)
        # Retry logic
        for attempt in range(max_retry + 1):
            try:
                return super(CustomTestCase, self)._callTestMethod(method)
            except Exception as e:
                if attempt < max_retry:
                    print(
                        f"Test failed on attempt {attempt + 1}/{max_retry + 1}, retrying..."
                    )
                    continue
                else:
                    # Last attempt, re-raise the exception
                    raise
    def setUp(self):
        """Print test method name at the start of each test."""
        print(f"[Test Method] {self._testMethodName}", flush=True)