sglang/python/sglang/srt/managers/data_parallel_controller.py

# Copyright 2023-2024 SGLang Team
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================
"""A controller that dispatches requests to multiple data parallel workers."""

import logging
import multiprocessing as mp
import signal
import threading
import time
from enum import Enum, auto

import psutil
import setproctitle
import zmq

from sglang.srt.layers.dp_attention import compute_dp_attention_world_info
from sglang.srt.managers.io_struct import (
    TokenizedEmbeddingReqInput,
    TokenizedGenerateReqInput,
)
from sglang.srt.managers.schedule_batch import Req
from sglang.srt.managers.scheduler import run_scheduler_process
from sglang.srt.server_args import PortArgs, ServerArgs
from sglang.srt.torch_memory_saver_adapter import TorchMemorySaverAdapter
from sglang.srt.utils import bind_port, configure_logger, get_zmq_socket
from sglang.utils import get_exception_traceback

logger = logging.getLogger(__name__)


class LoadBalanceMethod(Enum):
    """Load balance method."""

    ROUND_ROBIN = auto()
    SHORTEST_QUEUE = auto()

    @classmethod
    def from_str(cls, method: str):
        method = method.upper()
        try:
            return cls[method]
        except KeyError as exc:
            raise ValueError(f"Invalid load balance method: {method}") from exc


class DataParallelController:
    """A controller that dispatches requests to multiple data parallel workers."""

    def __init__(self, server_args: ServerArgs, port_args: PortArgs) -> None:
        # Parse args
        self.max_total_num_tokens = None
        self.server_args = server_args
        self.port_args = port_args
        self.load_balance_method = LoadBalanceMethod.from_str(
            server_args.load_balance_method
        )

        # Init inter-process communication
        self.context = zmq.Context(1 + server_args.dp_size)
        if server_args.node_rank == 0:
            self.recv_from_tokenizer = get_zmq_socket(
                self.context, zmq.PULL, port_args.scheduler_input_ipc_name, False
            )

        # Dispatch method
        self.round_robin_counter = 0
        dispatch_lookup = {
            LoadBalanceMethod.ROUND_ROBIN: self.round_robin_scheduler,
            LoadBalanceMethod.SHORTEST_QUEUE: self.shortest_queue_scheduler,
        }
        self.dispatching = dispatch_lookup[self.load_balance_method]

        # Launch data parallel workers
        self.scheduler_procs = []
        self.workers = [None] * server_args.dp_size

        if server_args.enable_dp_attention:
            dp_port_args = self.launch_dp_attention_schedulers(server_args, port_args)
            self.control_message_step = server_args.tp_size
        else:
            dp_port_args = self.launch_dp_schedulers(server_args, port_args)
            self.control_message_step = 1

        # Only node rank 0 runs the real data parallel controller that dispatches the requests.
        if server_args.node_rank == 0:
            for dp_rank in range(server_args.dp_size):
                self.workers[dp_rank] = get_zmq_socket(
                    self.context,
                    zmq.PUSH,
                    dp_port_args[dp_rank].scheduler_input_ipc_name,
                    True,
                )

        self.max_req_input_len = None

    def launch_dp_schedulers(self, server_args, port_args):
        base_gpu_id = 0

        threads = []
        sockets = []
        dp_port_args = []
        ready_events = []
        for dp_rank in range(server_args.dp_size):
            tmp_port_args = PortArgs.init_new(server_args)
            tmp_port_args.tokenizer_ipc_name = port_args.tokenizer_ipc_name
            tmp_port_args.detokenizer_ipc_name = port_args.detokenizer_ipc_name
            dp_port_args.append(tmp_port_args)

            # This port is checked free in PortArgs.init_new.
            # We hold it first so that the next dp worker gets a different port
            sockets.append(bind_port(tmp_port_args.nccl_port))

            ready_event = threading.Event()
            ready_events.append(ready_event)

            # Create a thread for each worker
            thread = threading.Thread(
                target=self.launch_tensor_parallel_group_thread,
                args=(server_args, tmp_port_args, base_gpu_id, dp_rank, ready_event),
            )
            threads.append(thread)
            base_gpu_id += server_args.tp_size * server_args.gpu_id_step

        # Free all sockets before starting the threads to launch TP workers
        for sock in sockets:
            sock.close()

        # Start all threads
        for thread in threads:
            thread.start()
        for event in ready_events:
            event.wait()

        return dp_port_args

    def launch_tensor_parallel_group_thread(
        self,
        server_args: ServerArgs,
        port_args: PortArgs,
        base_gpu_id: int,
        dp_rank: int,
        ready_event: threading.Event,
    ):
        self.launch_tensor_parallel_group(server_args, port_args, base_gpu_id, dp_rank)
        ready_event.set()

        # This thread cannot be closed because otherwise the `kill_itself_when_parent_died`
        # function in scheduler.py will kill the scheduler.
        while True:
            time.sleep(30 * 24 * 3600)

    def launch_dp_attention_schedulers(self, server_args, port_args):
        self.launch_tensor_parallel_group(server_args, port_args, 0, None)
        dp_port_args = []
        for dp_rank in range(server_args.dp_size):
            dp_port_args.append(PortArgs.init_new(server_args, dp_rank))
        return dp_port_args

    def launch_tensor_parallel_group(
        self,
        server_args: ServerArgs,
        port_args: PortArgs,
        base_gpu_id: int,
        dp_rank: int,
    ):
        if not server_args.enable_dp_attention:
            logger.info(f"Launch DP{dp_rank} starting at GPU #{base_gpu_id}.")

        memory_saver_adapter = TorchMemorySaverAdapter.create(
            enable=server_args.enable_memory_saver
        )

        scheduler_pipe_readers = []

        nnodes_per_tp_group = max(server_args.nnodes // server_args.pp_size, 1)
        tp_size_per_node = server_args.tp_size // nnodes_per_tp_group
        tp_rank_range = range(
            tp_size_per_node * (server_args.node_rank % nnodes_per_tp_group),
            tp_size_per_node * (server_args.node_rank % nnodes_per_tp_group + 1),
        )

        pp_size_per_node = max(server_args.pp_size // server_args.nnodes, 1)
        pp_rank_range = range(
            pp_size_per_node * (server_args.node_rank // nnodes_per_tp_group),
            pp_size_per_node * (server_args.node_rank // nnodes_per_tp_group + 1),
        )

        for pp_rank in pp_rank_range:
            for tp_rank in tp_rank_range:
                rank_port_args = port_args

                if server_args.enable_dp_attention:
                    # dp attention has different sharding logic
                    _, _, dp_rank = compute_dp_attention_world_info(
                        server_args.enable_dp_attention,
                        tp_rank,
                        server_args.tp_size,
                        server_args.dp_size,
                    )
                    # compute zmq ports for this dp rank
                    rank_port_args = PortArgs.init_new(server_args, dp_rank)
                    # Data parallelism reuses the tensor parallelism group,
                    # so all dp ranks should use the same nccl port.
                    rank_port_args.nccl_port = port_args.nccl_port

                reader, writer = mp.Pipe(duplex=False)
                gpu_id = (
                    server_args.base_gpu_id
                    + base_gpu_id
                    + ((pp_rank % pp_size_per_node) * tp_size_per_node)
                    + (tp_rank % tp_size_per_node) * server_args.gpu_id_step
                )
                proc = mp.Process(
                    target=run_scheduler_process,
                    args=(
                        server_args,
                        rank_port_args,
                        gpu_id,
                        tp_rank,
                        pp_rank,
                        dp_rank,
                        writer,
                    ),
                )
                with memory_saver_adapter.configure_subprocess():
                    proc.start()
                self.scheduler_procs.append(proc)
                scheduler_pipe_readers.append(reader)

        # Wait for model to finish loading
        scheduler_info = []
        for i in range(len(scheduler_pipe_readers)):
            scheduler_info.append(scheduler_pipe_readers[i].recv())

        self.max_total_num_tokens = scheduler_info[0]["max_total_num_tokens"]
        self.max_req_input_len = scheduler_info[0]["max_req_input_len"]

    def round_robin_scheduler(self, req: Req):
        if self.server_args.disaggregation_mode == "null":
            if req.data_parallel_rank is not None:
                logger.debug(f"Direct routing to DP rank {req.data_parallel_rank}")
                self.workers[req.data_parallel_rank].send_pyobj(req)
            else:
                self.workers[self.round_robin_counter].send_pyobj(req)
                self.round_robin_counter = (self.round_robin_counter + 1) % len(
                    self.workers
                )
        else:
            if req.data_parallel_rank is not None:
                logger.debug(f"Direct routing to DP rank {req.data_parallel_rank}")
                self.workers[req.data_parallel_rank].send_pyobj(req)
            else:
                self.workers[req.bootstrap_room % len(self.workers)].send_pyobj(req)

    def shortest_queue_scheduler(self, input_requests):
        raise NotImplementedError()

    def event_loop(self):
        while True:
            while True:
                try:
                    recv_req = self.recv_from_tokenizer.recv_pyobj(zmq.NOBLOCK)
                except zmq.ZMQError:
                    break

                if isinstance(
                    recv_req,
                    (
                        TokenizedGenerateReqInput,
                        TokenizedEmbeddingReqInput,
                    ),
                ):
                    self.dispatching(recv_req)
                else:
                    # Send other control messages to first worker of tp group
                    for worker in self.workers[:: self.control_message_step]:
                        worker.send_pyobj(recv_req)


def run_data_parallel_controller_process(
    server_args: ServerArgs,
    port_args: PortArgs,
    pipe_writer,
):
    setproctitle.setproctitle("sglang::data_parallel_controller")
    configure_logger(server_args)
    parent_process = psutil.Process().parent()

    try:
        controller = DataParallelController(server_args, port_args)
        pipe_writer.send(
            {
                "status": "ready",
                "max_total_num_tokens": controller.max_total_num_tokens,
                "max_req_input_len": controller.max_req_input_len,
            }
        )
        if server_args.node_rank == 0:
            controller.event_loop()
        for proc in controller.scheduler_procs:
            proc.join()
            logger.error(
                f"Scheduler or DataParallelController {proc.pid} terminated with {proc.exitcode}"
            )
    except Exception:
        traceback = get_exception_traceback()
        logger.error(f"DataParallelController hit an exception: {traceback}")
        parent_process.send_signal(signal.SIGQUIT)
docs: fix module docstrings and copyright headers (#2077) 2024-11-22 22:16:53 +08:00			`# Copyright 2023-2024 SGLang Team`
			`# Licensed under the Apache License, Version 2.0 (the "License");`
			`# you may not use this file except in compliance with the License.`
			`# You may obtain a copy of the License at`
			`#`
			`# http://www.apache.org/licenses/LICENSE-2.0`
			`#`
			`# Unless required by applicable law or agreed to in writing, software`
			`# distributed under the License is distributed on an "AS IS" BASIS,`
			`# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`# See the License for the specific language governing permissions and`
			`# limitations under the License.`
			`# ==============================================================================`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`"""A controller that dispatches requests to multiple data parallel workers."""`

			`import logging`
			`import multiprocessing as mp`
Crash the server correctly during error (#2231) 2024-11-28 00:22:39 -08:00			`import signal`
Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00			`import threading`
Fix data parallel perf regression (#6183) 2025-05-10 19:18:35 -07:00			`import time`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`from enum import Enum, auto`

Crash the server correctly during error (#2231) 2024-11-28 00:22:39 -08:00			`import psutil`
Misc fix for min_p_sampling, --cuda-graph-bs (#2761) 2025-01-07 02:52:53 -08:00			`import setproctitle`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`import zmq`

Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`from sglang.srt.layers.dp_attention import compute_dp_attention_world_info`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`from sglang.srt.managers.io_struct import (`
			`TokenizedEmbeddingReqInput,`
			`TokenizedGenerateReqInput,`
			`)`
Integrating PD disaggregation with DP attention and DeepEP (#5435) Co-authored-by: Byron Hsu <byronhsu1230@gmail.com> 2025-04-23 01:46:01 -07:00			`from sglang.srt.managers.schedule_batch import Req`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`from sglang.srt.managers.scheduler import run_scheduler_process`
			`from sglang.srt.server_args import PortArgs, ServerArgs`
Fix torch memory saver not enabled in DP scenario (#5560) 2025-04-21 05:20:52 +08:00			`from sglang.srt.torch_memory_saver_adapter import TorchMemorySaverAdapter`
Crash the server correctly during error (#2231) 2024-11-28 00:22:39 -08:00			`from sglang.srt.utils import bind_port, configure_logger, get_zmq_socket`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`from sglang.utils import get_exception_traceback`

			`logger = logging.getLogger(__name__)`


			`class LoadBalanceMethod(Enum):`
			`"""Load balance method."""`

			`ROUND_ROBIN = auto()`
			`SHORTEST_QUEUE = auto()`

			`@classmethod`
			`def from_str(cls, method: str):`
			`method = method.upper()`
			`try:`
			`return cls[method]`
			`except KeyError as exc:`
			`raise ValueError(f"Invalid load balance method: {method}") from exc`


			`class DataParallelController:`
			`"""A controller that dispatches requests to multiple data parallel workers."""`

Improve DP attention (#4390) Co-authored-by: dhou-xai <dhou@x.ai> Co-authored-by: SangBin Cho <rkooo567@gmail.com> 2025-03-13 08:23:56 -07:00			`def __init__(self, server_args: ServerArgs, port_args: PortArgs) -> None:`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`# Parse args`
[Feature] Support minicpmv v2.6 (#2785) Co-authored-by: Chayenne <zhaochen20@outlook.com> Co-authored-by: yizhang2077 <1109276519@qq.com> 2025-01-19 06:14:19 +08:00			`self.max_total_num_tokens = None`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`self.server_args = server_args`
			`self.port_args = port_args`
			`self.load_balance_method = LoadBalanceMethod.from_str(`
			`server_args.load_balance_method`
			`)`

			`# Init inter-process communication`
			`self.context = zmq.Context(1 + server_args.dp_size)`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`if server_args.node_rank == 0:`
			`self.recv_from_tokenizer = get_zmq_socket(`
Fix zmq binding (#2930) Co-authored-by: Chunyuan WU <chunyuan.wu@intel.com> 2025-01-16 14:36:07 -08:00			`self.context, zmq.PULL, port_args.scheduler_input_ipc_name, False`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`)`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00
			`# Dispatch method`
			`self.round_robin_counter = 0`
			`dispatch_lookup = {`
			`LoadBalanceMethod.ROUND_ROBIN: self.round_robin_scheduler,`
			`LoadBalanceMethod.SHORTEST_QUEUE: self.shortest_queue_scheduler,`
			`}`
			`self.dispatching = dispatch_lookup[self.load_balance_method]`

Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`# Launch data parallel workers`
			`self.scheduler_procs = []`
Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00			`self.workers = [None] * server_args.dp_size`

Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`if server_args.enable_dp_attention:`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`dp_port_args = self.launch_dp_attention_schedulers(server_args, port_args)`
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`self.control_message_step = server_args.tp_size`
			`else:`
			`dp_port_args = self.launch_dp_schedulers(server_args, port_args)`
			`self.control_message_step = 1`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00
			`# Only node rank 0 runs the real data parallel controller that dispatches the requests.`
			`if server_args.node_rank == 0:`
			`for dp_rank in range(server_args.dp_size):`
			`self.workers[dp_rank] = get_zmq_socket(`
			`self.context,`
			`zmq.PUSH,`
			`dp_port_args[dp_rank].scheduler_input_ipc_name,`
Fix zmq binding (#2930) Co-authored-by: Chunyuan WU <chunyuan.wu@intel.com> 2025-01-16 14:36:07 -08:00			`True,`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`)`

[Feature] Support minicpmv v2.6 (#2785) Co-authored-by: Chayenne <zhaochen20@outlook.com> Co-authored-by: yizhang2077 <1109276519@qq.com> 2025-01-19 06:14:19 +08:00			`self.max_req_input_len = None`

Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`def launch_dp_schedulers(self, server_args, port_args):`
			`base_gpu_id = 0`

Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00			`threads = []`
			`sockets = []`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`dp_port_args = []`
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`ready_events = []`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`for dp_rank in range(server_args.dp_size):`
			`tmp_port_args = PortArgs.init_new(server_args)`
Fix weight update for data parallelism (#2050) 2024-11-16 00:30:39 -08:00			`tmp_port_args.tokenizer_ipc_name = port_args.tokenizer_ipc_name`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`tmp_port_args.detokenizer_ipc_name = port_args.detokenizer_ipc_name`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`dp_port_args.append(tmp_port_args)`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`# This port is checked free in PortArgs.init_new.`
			`# We hold it first so that the next dp worker gets a different port`
			`sockets.append(bind_port(tmp_port_args.nccl_port))`
Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`ready_event = threading.Event()`
			`ready_events.append(ready_event)`

Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00			`# Create a thread for each worker`
			`thread = threading.Thread(`
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`target=self.launch_tensor_parallel_group_thread,`
			`args=(server_args, tmp_port_args, base_gpu_id, dp_rank, ready_event),`
Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00			`)`
			`threads.append(thread)`
[Feature] SPMD for SGLang + Verl (#3852) 2025-03-01 01:53:10 +08:00			`base_gpu_id += server_args.tp_size * server_args.gpu_id_step`
Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00
			`# Free all sockets before starting the threads to launch TP workers`
			`for sock in sockets:`
			`sock.close()`

			`# Start all threads`
			`for thread in threads:`
			`thread.start()`
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`for event in ready_events:`
			`event.wait()`
Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`return dp_port_args`
Launch dp ranks in parallel (#2053) Co-authored-by: Haotian Liu <6631389+haotian-liu@users.noreply.github.com> 2024-11-16 17:13:36 -08:00
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`def launch_tensor_parallel_group_thread(`
			`self,`
			`server_args: ServerArgs,`
			`port_args: PortArgs,`
			`base_gpu_id: int,`
			`dp_rank: int,`
			`ready_event: threading.Event,`
			`):`
			`self.launch_tensor_parallel_group(server_args, port_args, base_gpu_id, dp_rank)`
			`ready_event.set()`

			# This thread cannot be closed because otherwise the `kill_itself_when_parent_died`
			`# function in scheduler.py will kill the scheduler.`
			`while True:`
Fix data parallel perf regression (#6183) 2025-05-10 19:18:35 -07:00			`time.sleep(30 * 24 * 3600)`
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`def launch_dp_attention_schedulers(self, server_args, port_args):`
			`self.launch_tensor_parallel_group(server_args, port_args, 0, None)`
			`dp_port_args = []`
			`for dp_rank in range(server_args.dp_size):`
			`dp_port_args.append(PortArgs.init_new(server_args, dp_rank))`
			`return dp_port_args`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00
			`def launch_tensor_parallel_group(`
			`self,`
			`server_args: ServerArgs,`
			`port_args: PortArgs,`
			`base_gpu_id: int,`
			`dp_rank: int,`
			`):`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`if not server_args.enable_dp_attention:`
			`logger.info(f"Launch DP{dp_rank} starting at GPU #{base_gpu_id}.")`

Fix torch memory saver not enabled in DP scenario (#5560) 2025-04-21 05:20:52 +08:00			`memory_saver_adapter = TorchMemorySaverAdapter.create(`
			`enable=server_args.enable_memory_saver`
			`)`

Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`scheduler_pipe_readers = []`
[PP] Add pipeline parallelism (#5724) 2025-04-30 18:18:07 -07:00
			`nnodes_per_tp_group = max(server_args.nnodes // server_args.pp_size, 1)`
			`tp_size_per_node = server_args.tp_size // nnodes_per_tp_group`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`tp_rank_range = range(`
[PP] Add pipeline parallelism (#5724) 2025-04-30 18:18:07 -07:00			`tp_size_per_node * (server_args.node_rank % nnodes_per_tp_group),`
			`tp_size_per_node * (server_args.node_rank % nnodes_per_tp_group + 1),`
			`)`

			`pp_size_per_node = max(server_args.pp_size // server_args.nnodes, 1)`
			`pp_rank_range = range(`
			`pp_size_per_node * (server_args.node_rank // nnodes_per_tp_group),`
			`pp_size_per_node * (server_args.node_rank // nnodes_per_tp_group + 1),`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`)`
[PP] Add pipeline parallelism (#5724) 2025-04-30 18:18:07 -07:00
			`for pp_rank in pp_rank_range:`
			`for tp_rank in tp_rank_range:`
			`rank_port_args = port_args`

			`if server_args.enable_dp_attention:`
			`# dp attention has different sharding logic`
			`_, _, dp_rank = compute_dp_attention_world_info(`
			`server_args.enable_dp_attention,`
			`tp_rank,`
			`server_args.tp_size,`
			`server_args.dp_size,`
			`)`
			`# compute zmq ports for this dp rank`
			`rank_port_args = PortArgs.init_new(server_args, dp_rank)`
Add typo checker in pre-commit (#6179) Co-authored-by: Brayden Zhong <b8zhong@uwaterloo.ca> 2025-05-11 00:55:00 -04:00			`# Data parallelism reuses the tensor parallelism group,`
[PP] Add pipeline parallelism (#5724) 2025-04-30 18:18:07 -07:00			`# so all dp ranks should use the same nccl port.`
			`rank_port_args.nccl_port = port_args.nccl_port`

			`reader, writer = mp.Pipe(duplex=False)`
			`gpu_id = (`
			`server_args.base_gpu_id`
			`+ base_gpu_id`
			`+ ((pp_rank % pp_size_per_node) * tp_size_per_node)`
			`+ (tp_rank % tp_size_per_node) * server_args.gpu_id_step`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`)`
[PP] Add pipeline parallelism (#5724) 2025-04-30 18:18:07 -07:00			`proc = mp.Process(`
			`target=run_scheduler_process,`
			`args=(`
			`server_args,`
			`rank_port_args,`
			`gpu_id,`
			`tp_rank,`
			`pp_rank,`
			`dp_rank,`
			`writer,`
			`),`
			`)`
			`with memory_saver_adapter.configure_subprocess():`
			`proc.start()`
			`self.scheduler_procs.append(proc)`
			`scheduler_pipe_readers.append(reader)`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`# Wait for model to finish loading`
Expose max total num tokens from Runtime & Engine API (#2092) 2024-11-22 15:10:10 -08:00			`scheduler_info = []`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`for i in range(len(scheduler_pipe_readers)):`
Expose max total num tokens from Runtime & Engine API (#2092) 2024-11-22 15:10:10 -08:00			`scheduler_info.append(scheduler_pipe_readers[i].recv())`

			`self.max_total_num_tokens = scheduler_info[0]["max_total_num_tokens"]`
[Feature] Support minicpmv v2.6 (#2785) Co-authored-by: Chayenne <zhaochen20@outlook.com> Co-authored-by: yizhang2077 <1109276519@qq.com> 2025-01-19 06:14:19 +08:00			`self.max_req_input_len = scheduler_info[0]["max_req_input_len"]`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00
Integrating PD disaggregation with DP attention and DeepEP (#5435) Co-authored-by: Byron Hsu <byronhsu1230@gmail.com> 2025-04-23 01:46:01 -07:00			`def round_robin_scheduler(self, req: Req):`
			`if self.server_args.disaggregation_mode == "null":`
feat: add direct routing strategy to DP worker (#6884) 2025-06-09 11:44:05 -07:00			`if req.data_parallel_rank is not None:`
			`logger.debug(f"Direct routing to DP rank {req.data_parallel_rank}")`
			`self.workers[req.data_parallel_rank].send_pyobj(req)`
			`else:`
			`self.workers[self.round_robin_counter].send_pyobj(req)`
			`self.round_robin_counter = (self.round_robin_counter + 1) % len(`
			`self.workers`
			`)`
Integrating PD disaggregation with DP attention and DeepEP (#5435) Co-authored-by: Byron Hsu <byronhsu1230@gmail.com> 2025-04-23 01:46:01 -07:00			`else:`
feat: add direct routing strategy to DP worker (#6884) 2025-06-09 11:44:05 -07:00			`if req.data_parallel_rank is not None:`
			`logger.debug(f"Direct routing to DP rank {req.data_parallel_rank}")`
			`self.workers[req.data_parallel_rank].send_pyobj(req)`
			`else:`
			`self.workers[req.bootstrap_room % len(self.workers)].send_pyobj(req)`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00
			`def shortest_queue_scheduler(self, input_requests):`
			`raise NotImplementedError()`

			`def event_loop(self):`
			`while True:`
			`while True:`
			`try:`
			`recv_req = self.recv_from_tokenizer.recv_pyobj(zmq.NOBLOCK)`
			`except zmq.ZMQError:`
			`break`

			`if isinstance(`
			`recv_req,`
			`(`
			`TokenizedGenerateReqInput,`
			`TokenizedEmbeddingReqInput,`
			`),`
			`):`
			`self.dispatching(recv_req)`
			`else:`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`# Send other control messages to first worker of tp group`
Fix data parallel + tensor parallel (#4499) 2025-03-17 05:13:16 -07:00			`for worker in self.workers[:: self.control_message_step]:`
[Fix] Fix abort in dp (#1767) 2024-10-23 10:46:29 -07:00			`worker.send_pyobj(recv_req)`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00

			`def run_data_parallel_controller_process(`
			`server_args: ServerArgs,`
			`port_args: PortArgs,`
			`pipe_writer,`
			`):`
Misc fix for min_p_sampling, --cuda-graph-bs (#2761) 2025-01-07 02:52:53 -08:00			`setproctitle.setproctitle("sglang::data_parallel_controller")`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`configure_logger(server_args)`
Crash the server correctly during error (#2231) 2024-11-28 00:22:39 -08:00			`parent_process = psutil.Process().parent()`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00
			`try:`
			`controller = DataParallelController(server_args, port_args)`
Expose max total num tokens from Runtime & Engine API (#2092) 2024-11-22 15:10:10 -08:00			`pipe_writer.send(`
[Feature] Support minicpmv v2.6 (#2785) Co-authored-by: Chayenne <zhaochen20@outlook.com> Co-authored-by: yizhang2077 <1109276519@qq.com> 2025-01-19 06:14:19 +08:00			`{`
			`"status": "ready",`
			`"max_total_num_tokens": controller.max_total_num_tokens,`
			`"max_req_input_len": controller.max_req_input_len,`
			`}`
Expose max total num tokens from Runtime & Engine API (#2092) 2024-11-22 15:10:10 -08:00			`)`
Support multi-node DP attention (#2925) Co-authored-by: dhou-xai <dhou@x.ai> 2025-01-16 11:15:00 -08:00			`if server_args.node_rank == 0:`
			`controller.event_loop()`
			`for proc in controller.scheduler_procs:`
			`proc.join()`
			`logger.error(`
			`f"Scheduler or DataParallelController {proc.pid} terminated with {proc.exitcode}"`
			`)`
Add back data parallelism (#1635) 2024-10-11 07:22:48 -07:00			`except Exception:`
Crash the server correctly during error (#2231) 2024-11-28 00:22:39 -08:00			`traceback = get_exception_traceback()`
			`logger.error(f"DataParallelController hit an exception: {traceback}")`
			`parent_process.send_signal(signal.SIGQUIT)`