move apply_torchao_config_ to model_runner (#2342)

2024-12-04 17:26:42 -08:00
parent d693ec0427
commit 9cc733b38c
8 changed files with 25 additions and 71 deletions
--- a/python/sglang/srt/models/torch_native_llama.py
+++ b/python/sglang/srt/models/torch_native_llama.py
@@ -58,12 +58,10 @@ from sglang.srt.layers.layernorm import RMSNorm
 from sglang.srt.layers.logits_processor import LogitsProcessor, LogitsProcessorOutput
 from sglang.srt.layers.quantization.base_config import QuantizationConfig
 from sglang.srt.layers.radix_attention import RadixAttention
-from sglang.srt.layers.torchao_utils import apply_torchao_config_
 from sglang.srt.layers.vocab_parallel_embedding import (
    ParallelLMHead,
    VocabParallelEmbedding,
 )
-from sglang.srt.managers.schedule_batch import global_server_args_dict
 from sglang.srt.model_executor.forward_batch_info import ForwardBatch
 from sglang.srt.model_loader.weight_utils import default_weight_loader

@@ -392,7 +390,6 @@ class TorchNativeLlamaForCausalLM(nn.Module):
        super().__init__()
        self.config = config
        self.quant_config = quant_config
-        self.torchao_config = global_server_args_dict["torchao_config"]
        self.supports_torch_tp = True
        self.model = LlamaModel(config, quant_config=quant_config)
        if self.config.tie_word_embeddings:
@@ -503,8 +500,6 @@ class TorchNativeLlamaForCausalLM(nn.Module):
                weight_loader = getattr(param, "weight_loader", default_weight_loader)
                weight_loader(param, loaded_weight)

-        apply_torchao_config_(self, params_dict, set(["proj.weight"]))
-

 class TorchNativePhi3ForCausalLM(TorchNativeLlamaForCausalLM):
    pass