fix: fp8 mllama4 without vision modules being quantized (#10611)

2025-09-30 05:17:12 +08:00
parent dda34c2f93
commit 9de1320b63
1 changed files with 14 additions and 3 deletions
--- a/python/sglang/srt/models/mllama4.py
+++ b/python/sglang/srt/models/mllama4.py
@@ -291,7 +291,7 @@ class Llama4UnfoldConvolution(nn.Module):

    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
        hidden_states = self.unfold(hidden_states)
-        hidden_states = hidden_states.permute(0, 2, 1)
+        hidden_states = hidden_states.permute(0, 2, 1).contiguous()
        hidden_states, _ = self.linear(hidden_states)
        return hidden_states

@@ -446,9 +446,20 @@ class Llama4ForConditionalGeneration(nn.Module):
        )

        if self.has_vision:
+            # TODO: make this more general
+            ignore_quant_layers = getattr(config, "quantization_config", {}).get(
+                "ignore", {}
+            )
+            if (
+                "model.layers.vision_model*" in ignore_quant_layers
+                and "model.layers.multi_modal_projector*" in ignore_quant_layers
+            ):
+                vision_quant_config = None
+            else:
+                vision_quant_config = quant_config
            self.vision_model = Llama4VisionModel(
                config.vision_config,
-                quant_config=quant_config,
+                quant_config=vision_quant_config,
                prefix=add_prefix("vision_model", prefix),
            )

@@ -560,7 +571,7 @@ class Llama4ForConditionalGeneration(nn.Module):
            forward_batch=forward_batch,
            language_model=self.language_model,
            data_embedding_funcs={
-                Modality.IMAGE: self.get_image_feature,
+                Modality.IMAGE: image_embedding_func,
            },
            positions=positions,
        )