add deepseekv3 and llama4

2026-02-11 15:48:35 +08:00
parent e752946445
commit 6eae065dd6
1 changed files with 3 additions and 0 deletions
--- a/vllm-v0.6.2/vllm/model_executor/layers/vocab_parallel_embedding.py
+++ b/vllm-v0.6.2/vllm/model_executor/layers/vocab_parallel_embedding.py
@@ -38,6 +38,9 @@ class UnquantizedEmbeddingMethod(QuantizeMethodBase):
              layer: torch.nn.Module,
              x: torch.Tensor,
              bias: Optional[torch.Tensor] = None) -> torch.Tensor:
+        # MLU F.linear requires matching dtypes
+        if x.dtype != layer.weight.dtype:
+            x = x.to(layer.weight.dtype)
        return F.linear(x, layer.weight, bias)

    def embedding(self, layer: torch.nn.Module,