Fix install instructions and pyproject.tomls (#11781)

2025-10-18 01:08:01 -07:00
parent 1d726528f7
commit 67e34c56d7
10 changed files with 298 additions and 296 deletions
--- a/python/pyproject.toml
+++ b/python/pyproject.toml
@@ -13,6 +13,7 @@ classifiers = [
  "Programming Language :: Python :: 3",
  "License :: OSI Approved :: Apache Software License",
 ]
+
 dependencies = [
  "IPython",
  "aiohttp",
@@ -21,6 +22,7 @@ dependencies = [
  "build",
  "compressed-tensors",
  "cuda-python",
+  "decord2",
  "datasets",
  "einops",
  "fastapi",
@@ -73,7 +75,12 @@ dependencies = [
 ]

 [project.optional-dependencies]
-decord = ["decord2"]
+tracing = [
+  "opentelemetry-api",
+  "opentelemetry-exporter-otlp",
+  "opentelemetry-exporter-otlp-proto-grpc",
+  "opentelemetry-sdk",
+]
 test = [
  "accelerate",
  "expecttest",
@@ -86,13 +93,10 @@ test = [
  "sentence_transformers",
  "tabulate",
 ]
-tracing = [
-  "opentelemetry-api",
-  "opentelemetry-exporter-otlp",
-  "opentelemetry-exporter-otlp-proto-grpc",
-  "opentelemetry-sdk",
-]
-all = ["sglang[test]", "sglang[decord]"]
+all = []
+dev = ["sglang[test]"]
+
+# Temporary tags
 cu130 = [
  "torch==2.9.0",
  "torchaudio==2.9.0",
@@ -104,13 +108,9 @@ cu130_all = [
  "sglang[cu130]"
 ]

-
-# The following will be deprecated in 2 weeks
-dev = ["sglang[test]", "sglang[decord]"]
-all_aarch64 = ["sglang[test]"]
-blackwell = ["sglang[test]", "sglang[decord]"]
-blackwell_aarch64 = ["sglang[test]"]
-
+# To be deprecated in 2 weeks
+blackwell = ["sglang[dev]"]
+blackwell_aarch64 = ["sglang[dev]"]

 [project.urls]
 "Homepage" = "https://github.com/sgl-project/sglang"
--- a/python/pyproject_cpu.toml
+++ b/python/pyproject_cpu.toml
@@ -5,85 +5,88 @@ build-backend = "setuptools.build_meta"

 [project]
 name = "sglang"
-version = "0.5.3rc0"
+version = "0.5.3.post3"
 description = "SGLang is a fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.10"
 license = { file = "LICENSE" }
 classifiers = [
-    "Programming Language :: Python :: 3",
-    "License :: OSI Approved :: Apache Software License",
+  "Programming Language :: Python :: 3",
+  "License :: OSI Approved :: Apache Software License",
 ]

 dependencies = [
-    "aiohttp",
-    "anthropic>=0.20.0",
-    "blobfile==3.0.0",
-    "build",
-    "compressed-tensors",
-    "datasets",
-    "decord",
-    "einops",
-    "fastapi",
-    "hf_transfer",
-    "huggingface_hub",
-    "intel-openmp",
-    "interegular",
-    "IPython",
-    "llguidance>=0.7.11,<0.8.0",
-    "modelscope",
-    "msgspec",
-    "ninja",
-    "numpy",
-    "openai==1.99.1",
-    "openai-harmony==0.0.4",
-    "orjson",
-    "outlines==0.1.11",
-    "packaging",
-    "partial_json_parser",
-    "pillow",
-    "prometheus-client>=0.20.0",
-    "psutil",
-    "pybase64",
-    "pydantic",
-    "python-multipart",
-    "pyzmq>=25.1.2",
-    "requests",
-    "scipy",
-    "sentencepiece",
-    "setproctitle",
-    "soundfile==0.13.1",
-    "tiktoken",
-    "timm==1.0.16",
-    "torchao==0.9.0",
-    "tqdm",
-    "transformers==4.57.1",
-    "uvicorn",
-    "uvloop",
-    "xgrammar==0.1.25",
+  "IPython",
+  "aiohttp",
+  "anthropic>=0.20.0",
+  "blobfile==3.0.0",
+  "build",
+  "compressed-tensors",
+  "datasets",
+  "decord",
+  "einops",
+  "fastapi",
+  "hf_transfer",
+  "huggingface_hub",
+  "intel-openmp",
+  "interegular",
+  "llguidance>=0.7.11,<0.8.0",
+  "modelscope",
+  "msgspec",
+  "ninja",
+  "numpy",
+  "openai-harmony==0.0.4",
+  "openai==1.99.1",
+  "orjson",
+  "outlines==0.1.11",
+  "packaging",
+  "partial_json_parser",
+  "pillow",
+  "prometheus-client>=0.20.0",
+  "psutil",
+  "py-spy",
+  "pybase64",
+  "pydantic",
+  "python-multipart",
+  "pyzmq>=25.1.2",
+  "requests",
+  "scipy",
+  "sentencepiece",
+  "setproctitle",
+  "soundfile==0.13.1",
+  "tiktoken",
+  "timm==1.0.16",
+  "torchao==0.9.0",
+  "tqdm",
+  "transformers==4.57.1",
+  "uvicorn",
+  "uvloop",
+  "xgrammar==0.1.25",
+  "grpcio==1.75.1", # keep it align with compile_proto.py
+  "grpcio-tools==1.75.1", # keep it align with compile_proto.py
+  "grpcio-reflection==1.75.1", # required by srt/entrypoints/grpc_server.py
 ]

 [project.optional-dependencies]
 tracing = [
-    "opentelemetry-sdk",
-    "opentelemetry-api",
-    "opentelemetry-exporter-otlp",
-    "opentelemetry-exporter-otlp-proto-grpc",
+  "opentelemetry-sdk",
+  "opentelemetry-api",
+  "opentelemetry-exporter-otlp",
+  "opentelemetry-exporter-otlp-proto-grpc",
 ]
-
 test = [
-    "accelerate",
-    "expecttest",
-    "jsonlines",
-    "matplotlib",
-    "pandas",
-    "peft",
-    "sentence_transformers",
-    "pytest",
-    "tabulate",
+  "accelerate",
+  "expecttest",
+  "jsonlines",
+  "matplotlib",
+  "pandas",
+  "peft",
+  "pytest",
+  "sentence_transformers",
+  "tabulate",
 ]
-
-dev = ["sglang", "sglang[test]"]
+all = []
+dev = ["sglang[test]"]

 [project.urls]
 "Homepage" = "https://github.com/sgl-project/sglang"
@@ -91,31 +94,33 @@ dev = ["sglang", "sglang[test]"]

 [tool.setuptools.package-data]
 "sglang" = [
-    "srt/layers/moe/fused_moe_triton/configs/*/*.json",
-    "srt/layers/quantization/configs/*.json",
-    "srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp",
+  "srt/layers/moe/fused_moe_triton/configs/*/*.json",
+  "srt/layers/quantization/configs/*.json",
+  "srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp",
+  "srt/speculative/cpp_ngram/*.cpp",
+  "srt/speculative/cpp_ngram/*.h",
 ]

 [tool.setuptools.packages.find]
 exclude = [
-    "assets*",
-    "benchmark*",
-    "docs*",
-    "dist*",
-    "playground*",
-    "scripts*",
-    "tests*",
+  "assets*",
+  "benchmark*",
+  "docs*",
+  "dist*",
+  "playground*",
+  "scripts*",
+  "tests*",
 ]

 [tool.wheel]
 exclude = [
-    "assets*",
-    "benchmark*",
-    "docs*",
-    "dist*",
-    "playground*",
-    "scripts*",
-    "tests*",
+  "assets*",
+  "benchmark*",
+  "docs*",
+  "dist*",
+  "playground*",
+  "scripts*",
+  "tests*",
 ]

 [tool.codespell]
--- a/python/pyproject_other.toml
+++ b/python/pyproject_other.toml
@@ -10,76 +10,77 @@ readme = "README.md"
 requires-python = ">=3.10"
 license = { file = "LICENSE" }
 classifiers = [
-    "Programming Language :: Python :: 3",
-    "License :: OSI Approved :: Apache Software License",
+  "Programming Language :: Python :: 3",
+  "License :: OSI Approved :: Apache Software License",
 ]
 dependencies = ["aiohttp", "requests", "tqdm", "numpy", "IPython", "setproctitle"]

 [project.optional-dependencies]
 runtime_common = [
-    "blobfile==3.0.0",
-    "build",
-    "compressed-tensors",
-    "datasets",
-    "einops",
-    "fastapi",
-    "hf_transfer",
-    "huggingface_hub",
-    "interegular",
-    "llguidance>=0.7.11,<0.8.0",
-    "modelscope",
-    "msgspec",
-    "ninja",
-    "openai==1.99.1",
-    "openai-harmony==0.0.4",
-    "orjson",
-    "outlines==0.1.11",
-    "packaging",
-    "partial_json_parser",
-    "pillow",
-    "prometheus-client>=0.20.0",
-    "psutil",
-    "pybase64",
-    "pydantic",
-    "pynvml",
-    "python-multipart",
-    "pyzmq>=25.1.2",
-    "scipy",
-    "sentencepiece",
-    "soundfile==0.13.1",
-    "timm==1.0.16",
-    "tiktoken",
-    "torchao==0.9.0",
-    "transformers==4.57.1",
-    "uvicorn",
-    "uvloop",
-    "xgrammar==0.1.25",
+  "IPython",
+  "aiohttp",
+  "anthropic>=0.20.0",
+  "blobfile==3.0.0",
+  "build",
+  "compressed-tensors",
+  "decord2",
+  "datasets",
+  "einops",
+  "fastapi",
+  "hf_transfer",
+  "huggingface_hub",
+  "interegular",
+  "llguidance>=0.7.11,<0.8.0",
+  "modelscope",
+  "msgspec",
+  "ninja",
+  "numpy",
+  "openai-harmony==0.0.4",
+  "openai==1.99.1",
+  "orjson",
+  "outlines==0.1.11",
+  "packaging",
+  "partial_json_parser",
+  "pillow",
+  "prometheus-client>=0.20.0",
+  "psutil",
+  "py-spy",
+  "pybase64",
+  "pydantic",
+  "python-multipart",
+  "pyzmq>=25.1.2",
+  "requests",
+  "scipy",
+  "sentencepiece",
+  "setproctitle",
+  "soundfile==0.13.1",
+  "tiktoken",
+  "timm==1.0.16",
+  "torchao==0.9.0",
+  "tqdm",
+  "transformers==4.57.1",
+  "uvicorn",
+  "uvloop",
+  "xgrammar==0.1.25",
+  "grpcio==1.75.1", # keep it align with compile_proto.py
+  "grpcio-tools==1.75.1", # keep it align with compile_proto.py
+  "grpcio-reflection==1.75.1", # required by srt/entrypoints/grpc_server.py
 ]

 tracing = [
-    "opentelemetry-sdk",
-    "opentelemetry-api",
-    "opentelemetry-exporter-otlp",
-    "opentelemetry-exporter-otlp-proto-grpc",
-]
-
-srt = [
-    "sglang[runtime_common]",
-    "sgl-kernel==0.3.15",
-    "torch==2.8.0",
-    "torchaudio==2.8.0",
-    "torchvision",
-    "cuda-python",
-    "flashinfer_python==0.4.0",
+  "opentelemetry-sdk",
+  "opentelemetry-api",
+  "opentelemetry-exporter-otlp",
+  "opentelemetry-exporter-otlp-proto-grpc",
 ]

 # HIP (Heterogeneous-computing Interface for Portability) for AMD
 # => base docker rocm/vllm-dev:20250114, not from public vllm whl
 srt_hip = [
-    "sglang[runtime_common]",
-    "torch",
-    "petit_kernel==0.0.2",
-    "wave-lang==3.7.0",
+  "sglang[runtime_common]",
+  "torch",
+  "petit_kernel==0.0.2",
+  "wave-lang==3.7.0",
 ]

 # https://docs.sglang.ai/platforms/ascend_npu.html
@@ -89,29 +90,24 @@ srt_npu = ["sglang[runtime_common]"]
 # https://docs.vllm.ai/en/latest/getting_started/gaudi-installation.html
 srt_hpu = ["sglang[runtime_common]"]

-openai = ["openai==1.99.1", "tiktoken"]
-anthropic = ["anthropic>=0.20.0"]
-litellm = ["litellm>=1.0.0"]
-torch_memory_saver = ["torch_memory_saver==0.0.9rc1"]
-decord = ["decord"]
 test = [
-    "accelerate",
-    "expecttest",
-    "jsonlines",
-    "matplotlib",
-    "pandas",
-    "peft",
-    "sentence_transformers",
-    "pytest",
-    "tabulate",
+  "accelerate",
+  "expecttest",
+  "gguf",
+  "jsonlines",
+  "matplotlib",
+  "pandas",
+  "peft",
+  "pytest",
+  "sentence_transformers",
+  "tabulate",
 ]
-all = ["sglang[srt]", "sglang[openai]", "sglang[anthropic]", "sglang[torch_memory_saver]", "sglang[decord]"]
-all_hip = ["sglang[srt_hip]", "sglang[openai]", "sglang[anthropic]", "sglang[decord]"]
-all_hpu = ["sglang[srt_hpu]", "sglang[openai]", "sglang[anthropic]", "sglang[decord]"]
-all_npu = ["sglang[srt_npu]", "sglang[openai]", "sglang[anthropic]", "sglang[decord]"]
+all_hip = ["sglang[srt_hip]"]
+all_npu = ["sglang[srt_npu]"]
+all_hpu = ["sglang[srt_hpu]"]

-dev = ["sglang[all]", "sglang[test]"]
 dev_hip = ["sglang[all_hip]", "sglang[test]"]
+dev_npu = ["sglang[all_npu]", "sglang[test]"]
 dev_hpu = ["sglang[all_hpu]", "sglang[test]"]

 [project.urls]
@@ -120,31 +116,33 @@ dev_hpu = ["sglang[all_hpu]", "sglang[test]"]

 [tool.setuptools.package-data]
 "sglang" = [
-    "srt/layers/moe/fused_moe_triton/configs/*/*.json",
-    "srt/layers/quantization/configs/*.json",
-    "srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp",
+  "srt/layers/moe/fused_moe_triton/configs/*/*.json",
+  "srt/layers/quantization/configs/*.json",
+  "srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp",
+  "srt/speculative/cpp_ngram/*.cpp",
+  "srt/speculative/cpp_ngram/*.h",
 ]

 [tool.setuptools.packages.find]
 exclude = [
-    "assets*",
-    "benchmark*",
-    "docs*",
-    "dist*",
-    "playground*",
-    "scripts*",
-    "tests*",
+  "assets*",
+  "benchmark*",
+  "docs*",
+  "dist*",
+  "playground*",
+  "scripts*",
+  "tests*",
 ]

 [tool.wheel]
 exclude = [
-    "assets*",
-    "benchmark*",
-    "docs*",
-    "dist*",
-    "playground*",
-    "scripts*",
-    "tests*",
+  "assets*",
+  "benchmark*",
+  "docs*",
+  "dist*",
+  "playground*",
+  "scripts*",
+  "tests*",
 ]

 [tool.codespell]
--- a/python/pyproject_xpu.toml
+++ b/python/pyproject_xpu.toml
@@ -6,84 +6,87 @@ build-backend = "setuptools.build_meta"

 [project]
 name = "sglang"
-version = "0.5.3rc0"
+version = "0.5.3.post3"
 description = "SGLang is a fast serving framework for large language models and vision language models."
 readme = "README.md"
 requires-python = ">=3.10"
 license = { file = "LICENSE" }
 classifiers = [
-    "Programming Language :: Python :: 3",
-    "License :: OSI Approved :: Apache Software License",
+  "Programming Language :: Python :: 3",
+  "License :: OSI Approved :: Apache Software License",
 ]

 dependencies = [
-    "aiohttp",
-    "anthropic>=0.20.0",
-    "blobfile==3.0.0",
-    "build",
-    "compressed-tensors",
-    "datasets",
-    "decord",
-    "einops",
-    "fastapi",
-    "hf_transfer",
-    "huggingface_hub",
-    "interegular",
-    "IPython",
-    "llguidance>=0.7.11,<0.8.0",
-    "modelscope",
-    "msgspec",
-    "ninja",
-    "numpy",
-    "openai==1.99.1",
-    "openai-harmony==0.0.4",
-    "orjson",
-    "outlines==0.1.11",
-    "packaging",
-    "partial_json_parser",
-    "pillow",
-    "prometheus-client>=0.20.0",
-    "psutil",
-    "pybase64",
-    "pydantic",
-    "python-multipart",
-    "pyzmq>=25.1.2",
-    "requests",
-    "scipy",
-    "sentencepiece",
-    "setproctitle",
-    "soundfile==0.13.1",
-    "tiktoken",
-    "timm==1.0.16",
-    "torchao==0.9.0",
-    "tqdm",
-    "transformers==4.57.1",
-    "uvicorn",
-    "uvloop",
-    "xgrammar==0.1.25",
+  "IPython",
+  "aiohttp",
+  "anthropic>=0.20.0",
+  "blobfile==3.0.0",
+  "build",
+  "compressed-tensors",
+  "datasets",
+  "decord",
+  "einops",
+  "fastapi",
+  "hf_transfer",
+  "huggingface_hub",
+  "interegular",
+  "llguidance>=0.7.11,<0.8.0",
+  "modelscope",
+  "msgspec",
+  "ninja",
+  "numpy",
+  "openai-harmony==0.0.4",
+  "openai==1.99.1",
+  "orjson",
+  "outlines==0.1.11",
+  "packaging",
+  "partial_json_parser",
+  "pillow",
+  "prometheus-client>=0.20.0",
+  "psutil",
+  "py-spy",
+  "pybase64",
+  "pydantic",
+  "python-multipart",
+  "pyzmq>=25.1.2",
+  "requests",
+  "scipy",
+  "sentencepiece",
+  "setproctitle",
+  "soundfile==0.13.1",
+  "tiktoken",
+  "timm==1.0.16",
+  "torchao==0.9.0",
+  "tqdm",
+  "transformers==4.57.1",
+  "uvicorn",
+  "uvloop",
+  "xgrammar==0.1.25",
+  "grpcio==1.75.1", # keep it align with compile_proto.py
+  "grpcio-tools==1.75.1", # keep it align with compile_proto.py
+  "grpcio-reflection==1.75.1", # required by srt/entrypoints/grpc_server.py
 ]

 [project.optional-dependencies]
 tracing = [
-    "opentelemetry-sdk",
-    "opentelemetry-api",
-    "opentelemetry-exporter-otlp",
-    "opentelemetry-exporter-otlp-proto-grpc",
+  "opentelemetry-sdk",
+  "opentelemetry-api",
+  "opentelemetry-exporter-otlp",
+  "opentelemetry-exporter-otlp-proto-grpc",
 ]
-
 test = [
-    "accelerate",
-    "expecttest",
-    "jsonlines",
-    "matplotlib",
-    "pandas",
-    "peft",
-    "sentence_transformers",
-    "pytest",
-    "tabulate",
+  "accelerate",
+  "expecttest",
+  "jsonlines",
+  "matplotlib",
+  "pandas",
+  "peft",
+  "pytest",
+  "sentence_transformers",
+  "tabulate",
 ]
-
-dev = ["sglang", "sglang[test]"]
+all = []
+dev = ["sglang[test]"]

 [project.urls]
 "Homepage" = "https://github.com/sgl-project/sglang"
@@ -91,31 +94,33 @@ dev = ["sglang", "sglang[test]"]

 [tool.setuptools.package-data]
 "sglang" = [
-    "srt/layers/moe/fused_moe_triton/configs/*/*.json",
-    "srt/layers/quantization/configs/*.json",
-    "srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp",
+  "srt/layers/moe/fused_moe_triton/configs/*/*.json",
+  "srt/layers/quantization/configs/*.json",
+  "srt/mem_cache/storage/hf3fs/hf3fs_utils.cpp",
+  "srt/speculative/cpp_ngram/*.cpp",
+  "srt/speculative/cpp_ngram/*.h",
 ]

 [tool.setuptools.packages.find]
 exclude = [
-    "assets*",
-    "benchmark*",
-    "docs*",
-    "dist*",
-    "playground*",
-    "scripts*",
-    "tests*",
+  "assets*",
+  "benchmark*",
+  "docs*",
+  "dist*",
+  "playground*",
+  "scripts*",
+  "tests*",
 ]

 [tool.wheel]
 exclude = [
-    "assets*",
-    "benchmark*",
-    "docs*",
-    "dist*",
-    "playground*",
-    "scripts*",
-    "tests*",
+  "assets*",
+  "benchmark*",
+  "docs*",
+  "dist*",
+  "playground*",
+  "scripts*",
+  "tests*",
 ]

 [tool.codespell]
--- a/python/sglang/srt/model_executor/model_runner.py
+++ b/python/sglang/srt/model_executor/model_runner.py
@@ -623,7 +623,7 @@ class ModelRunner:
            server_args.disable_chunked_prefix_cache = True

        if not server_args.disable_chunked_prefix_cache:
-            logger.info("Chunked prefix cache is turned on.")
+            log_info_on_rank0(logger, "Chunked prefix cache is turned on.")

        if server_args.attention_backend == "aiter":
            if self.model_config.context_len > 8192:
--- a/python/sglang/srt/server_args.py
+++ b/python/sglang/srt/server_args.py
@@ -253,7 +253,6 @@ class ServerArgs:
    log_requests: bool = False
    log_requests_level: int = 2
    crash_dump_folder: Optional[str] = None
-    crash_on_nan: bool = False
    show_time_cost: bool = False
    enable_metrics: bool = False
    enable_metrics_for_all_schedulers: bool = False
@@ -1899,12 +1898,6 @@ class ServerArgs:
            default=ServerArgs.crash_dump_folder,
            help="Folder path to dump requests from the last 5 min before a crash (if any). If not specified, crash dumping is disabled.",
        )
-        parser.add_argument(
-            "--crash-on-nan",
-            type=str,
-            default=ServerArgs.crash_on_nan,
-            help="Crash the server on nan logprobs.",
-        )
        parser.add_argument(
            "--show-time-cost",
            action="store_true",