sync from b7516

2026-01-16 11:16:14 +08:00
parent f4ae4cc7da
commit 6ee41dd9e3
380 changed files with 18435 additions and 38806 deletions
--- a/gguf-py/gguf/constants.py
+++ b/gguf-py/gguf/constants.py
@@ -104,7 +104,6 @@ class Keys:
        VOCAB_SIZE                        = "{arch}.vocab_size"
        CONTEXT_LENGTH                    = "{arch}.context_length"
        EMBEDDING_LENGTH                  = "{arch}.embedding_length"
-        EMBEDDING_LENGTH_OUT              = "{arch}.embedding_length_out"
        FEATURES_LENGTH                   = "{arch}.features_length"
        BLOCK_COUNT                       = "{arch}.block_count"
        LEADING_DENSE_BLOCK_COUNT         = "{arch}.leading_dense_block_count"
@@ -276,13 +275,12 @@ class Keys:
        DATASETS    = "imatrix.datasets"

    class Clip:
-        PROJECTOR_TYPE        = "clip.projector_type"
-        HAS_VISION_ENCODER    = "clip.has_vision_encoder"
-        HAS_AUDIO_ENCODER     = "clip.has_audio_encoder"
-        HAS_LLAVA_PROJECTOR   = "clip.has_llava_projector"
+        PROJECTOR_TYPE      = "clip.projector_type"
+        HAS_VISION_ENCODER  = "clip.has_vision_encoder"
+        HAS_AUDIO_ENCODER   = "clip.has_audio_encoder"
+        HAS_LLAVA_PROJECTOR = "clip.has_llava_projector"

    class ClipVision:
-        PROJECTOR_TYPE      = "clip.vision.projector_type" # for mixed modality models
        IMAGE_SIZE          = "clip.vision.image_size"
        PREPROC_IMAGE_SIZE  = "clip.vision.preproc_image_size"
        PATCH_SIZE          = "clip.vision.patch_size"
@@ -296,9 +294,7 @@ class Keys:
        USE_GELU            = "clip.use_gelu"
        USE_SILU            = "clip.use_silu"
        N_WA_PATTERN        = "clip.vision.n_wa_pattern" # used by qwen2.5vl
-        WA_LAYER_INDEXES    = "clip.vision.wa_layer_indexes" # used by youtuvl
        IS_DEEPSTACK_LAYERS = "clip.vision.is_deepstack_layers"
-        WINDOW_SIZE         = "clip.vision.window_size"

        class Attention:
            HEAD_COUNT      = "clip.vision.attention.head_count"
@@ -308,7 +304,6 @@ class Keys:
            SCALE_FACTOR    = "clip.vision.projector.scale_factor"

    class ClipAudio:
-        PROJECTOR_TYPE      = "clip.audio.projector_type" # for mixed modality models
        NUM_MEL_BINS        = "clip.audio.num_mel_bins"
        EMBEDDING_LENGTH    = "clip.audio.embedding_length"
        FEED_FORWARD_LENGTH = "clip.audio.feed_forward_length"
@@ -382,7 +377,6 @@ class MODEL_ARCH(IntEnum):
    PHIMOE           = auto()
    PLAMO            = auto()
    PLAMO2           = auto()
-    PLAMO3           = auto()
    CODESHELL        = auto()
    ORION            = auto()
    INTERNLM2        = auto()
@@ -424,7 +418,6 @@ class MODEL_ARCH(IntEnum):
    NEMOTRON_H_MOE   = auto()
    EXAONE           = auto()
    EXAONE4          = auto()
-    EXAONE_MOE       = auto()
    GRANITE          = auto()
    GRANITE_MOE      = auto()
    GRANITE_HYBRID   = auto()
@@ -456,9 +449,6 @@ class MODEL_ARCH(IntEnum):
    RND1             = auto()
    PANGU_EMBED      = auto()
    MISTRAL3         = auto()
-    MIMO2            = auto()
-    LLAMA_EMBED      = auto()
-    MAINCODER        = auto()


 class VISION_PROJECTOR_TYPE(IntEnum):
@@ -468,7 +458,6 @@ class VISION_PROJECTOR_TYPE(IntEnum):
    RESAMPLER = auto()
    GLM_EDGE  = auto()
    MERGER    = auto()
-    GEMMA3N   = auto()
    GEMMA3    = auto()
    QWEN3VL   = auto()
    COGVLM    = auto()
@@ -679,15 +668,6 @@ class MODEL_TENSOR(IntEnum):
    V_MM_INP_NORM        = auto()
    V_MM_INP_PROJ        = auto() # gemma3
    V_MM_SOFT_EMB_NORM   = auto() # gemma3
-    V_MM_EMBEDDING       = auto() # gemma3n
-    V_MM_HARD_EMB_NORM   = auto() # gemma3n
-    V_ENC_CONV_STEM      = auto() # gemma3n
-    V_ENC_CONV_STEM_NORM = auto() # gemma3n
-    V_ENC_MSFA_EXP       = auto() # gemma3n
-    V_ENC_MSFA_EXP_NORM  = auto() # gemma3n
-    V_ENC_MSFA_PROJ      = auto() # gemma3n
-    V_ENC_MSFA_PROJ_NORM = auto() # gemma3n
-    V_ENC_MSFA_NORM      = auto() # gemma3n
    V_RESMPL_POS_EMBD_K  = auto() # minicpmv
    V_RESMPL_ATTN_Q      = auto() # minicpmv
    V_RESMPL_ATTN_K      = auto() # minicpmv
@@ -711,41 +691,30 @@ class MODEL_TENSOR(IntEnum):
    V_TOK_BOI            = auto() # cogvlm
    V_TOK_EOI            = auto() # cogvlm
    # audio (mtmd)
-    A_ENC_EMBD_POS        = auto()
-    A_ENC_EMBD_NORM       = auto()
-    A_ENC_EMBD_TO_LOGITS  = auto() # lfm2
-    A_ENC_CONV1D          = auto()
-    A_ENC_CONV1D_NORM     = auto() # gemma3n
-    A_PRE_NORM            = auto()
-    A_POST_NORM           = auto()
-    A_ENC_LAYER_PRE_NORM  = auto() # gemma3n
-    A_ENC_ATTN_Q          = auto()
-    A_ENC_ATTN_K          = auto()
-    A_ENC_ATTN_V          = auto()
-    A_ENC_PER_DIM_SCALE   = auto() # gemma3n
-    A_ENC_INPUT_NORM      = auto()
-    A_ENC_OUTPUT          = auto()
-    A_ENC_OUTPUT_NORM     = auto()
-    A_ENC_FFN_UP          = auto()
-    A_ENC_FFN_NORM        = auto()
-    A_ENC_FFN_POST_NORM   = auto() # gemma3n
-    A_ENC_FFN_SCALE       = auto() # gemma3n
-    A_ENC_FFN_GATE        = auto()
-    A_ENC_FFN_DOWN        = auto()
-    A_ENC_FFN_UP_1        = auto() # lfm2, gemma3n
-    A_ENC_FFN_NORM_1      = auto() # lfm2, gemma3n (pre-norm)
-    A_ENC_FFN_POST_NORM_1 = auto() # gemma3n
-    A_ENC_FFN_SCALE_1     = auto() # gemma3n
-    A_ENC_FFN_GATE_1      = auto() # lfm2, gemma3n
-    A_ENC_FFN_DOWN_1      = auto() # lfm2, gemma3n
-    A_MMPROJ              = auto()
-    A_MMPROJ_FC           = auto()
-    A_MM_NORM_PRE         = auto()
-    A_MM_NORM_MID         = auto()
-    A_MM_EMBEDDING        = auto() # gemma3n
-    A_MM_HARD_EMB_NORM    = auto() # gemma3n
-    A_MM_SOFT_EMB_NORM    = auto() # gemma3n
-    A_MM_INP_PROJ         = auto() # gemma3n
+    A_ENC_EMBD_POS       = auto()
+    A_ENC_EMBD_NORM      = auto()
+    A_ENC_EMBD_TO_LOGITS = auto()
+    A_ENC_CONV1D         = auto()
+    A_PRE_NORM           = auto()
+    A_POST_NORM          = auto()
+    A_ENC_ATTN_Q         = auto()
+    A_ENC_ATTN_K         = auto()
+    A_ENC_ATTN_V         = auto()
+    A_ENC_INPUT_NORM     = auto()
+    A_ENC_OUTPUT         = auto()
+    A_ENC_OUTPUT_NORM    = auto()
+    A_ENC_FFN_UP         = auto()
+    A_ENC_FFN_NORM       = auto()
+    A_ENC_FFN_GATE       = auto()
+    A_ENC_FFN_DOWN       = auto()
+    A_ENC_FFN_UP_1       = auto()
+    A_ENC_FFN_NORM_1     = auto()
+    A_ENC_FFN_GATE_1     = auto()
+    A_ENC_FFN_DOWN_1     = auto()
+    A_MMPROJ             = auto()
+    A_MMPROJ_FC          = auto()
+    A_MM_NORM_PRE        = auto()
+    A_MM_NORM_MID        = auto()
    # nextn/mtp
    NEXTN_EH_PROJ        = auto()
    NEXTN_EMBED_TOKENS   = auto()
@@ -802,7 +771,6 @@ MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
    MODEL_ARCH.PHIMOE:           "phimoe",
    MODEL_ARCH.PLAMO:            "plamo",
    MODEL_ARCH.PLAMO2:           "plamo2",
-    MODEL_ARCH.PLAMO3:           "plamo3",
    MODEL_ARCH.CODESHELL:        "codeshell",
    MODEL_ARCH.ORION:            "orion",
    MODEL_ARCH.INTERNLM2:        "internlm2",
@@ -844,7 +812,6 @@ MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
    MODEL_ARCH.NEMOTRON_H_MOE:   "nemotron_h_moe",
    MODEL_ARCH.EXAONE:           "exaone",
    MODEL_ARCH.EXAONE4:          "exaone4",
-    MODEL_ARCH.EXAONE_MOE:       "exaone-moe",
    MODEL_ARCH.GRANITE:          "granite",
    MODEL_ARCH.GRANITE_MOE:      "granitemoe",
    MODEL_ARCH.GRANITE_HYBRID:   "granitehybrid",
@@ -877,9 +844,6 @@ MODEL_ARCH_NAMES: dict[MODEL_ARCH, str] = {
    MODEL_ARCH.RND1:             "rnd1",
    MODEL_ARCH.PANGU_EMBED:      "pangu-embedded",
    MODEL_ARCH.MISTRAL3:         "mistral3",
-    MODEL_ARCH.MIMO2:            "mimo2",
-    MODEL_ARCH.LLAMA_EMBED:      "llama-embed",
-    MODEL_ARCH.MAINCODER:        "maincoder",
 }

 VISION_PROJECTOR_TYPE_NAMES: dict[VISION_PROJECTOR_TYPE, str] = {
@@ -1096,16 +1060,7 @@ TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
    MODEL_TENSOR.V_MM_POST_NORM:            "mm.post_norm",
    MODEL_TENSOR.V_MM_INP_PROJ:             "mm.input_projection",
    MODEL_TENSOR.V_MM_INP_NORM:             "mm.input_norm",
-    MODEL_TENSOR.V_MM_SOFT_EMB_NORM:        "mm.soft_emb_norm",         # gemma3n
-    MODEL_TENSOR.V_MM_EMBEDDING:            "mm.embedding",             # gemma3n
-    MODEL_TENSOR.V_MM_HARD_EMB_NORM:        "mm.hard_emb_norm",         # gemma3n
-    MODEL_TENSOR.V_ENC_CONV_STEM:           "v.conv_stem.conv",         # gemma3n
-    MODEL_TENSOR.V_ENC_CONV_STEM_NORM:      "v.conv_stem.bn",           # gemma3n
-    MODEL_TENSOR.V_ENC_MSFA_EXP:            "v.msfa.ffn.pw_exp.conv",   # gemma3n
-    MODEL_TENSOR.V_ENC_MSFA_EXP_NORM:       "v.msfa.ffn.pw_exp.bn",     # gemma3n
-    MODEL_TENSOR.V_ENC_MSFA_PROJ:           "v.msfa.ffn.pw_proj.conv",  # gemma3n
-    MODEL_TENSOR.V_ENC_MSFA_PROJ_NORM:      "v.msfa.ffn.pw_proj.bn",    # gemma3n
-    MODEL_TENSOR.V_ENC_MSFA_NORM:           "v.msfa.norm",              # gemma3n
+    MODEL_TENSOR.V_MM_SOFT_EMB_NORM:        "mm.soft_emb_norm",
    MODEL_TENSOR.V_RESMPL_POS_EMBD_K:       "resampler.pos_embd_k",
    MODEL_TENSOR.V_RESMPL_ATTN_Q:           "resampler.attn.q",
    MODEL_TENSOR.V_RESMPL_ATTN_K:           "resampler.attn.k",
@@ -1134,26 +1089,19 @@ TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
    MODEL_TENSOR.A_ENC_EMBD_NORM:           "a.position_embd_norm",
    MODEL_TENSOR.A_ENC_EMBD_TO_LOGITS:      "a.embd_to_logits",
    MODEL_TENSOR.A_ENC_CONV1D:              "a.conv1d.{bid}",
-    MODEL_TENSOR.A_ENC_CONV1D_NORM:         "a.conv1d.{bid}.norm",
    MODEL_TENSOR.A_PRE_NORM:                "a.pre_ln",
    MODEL_TENSOR.A_POST_NORM:               "a.post_ln",
-    MODEL_TENSOR.A_ENC_LAYER_PRE_NORM:      "a.blk.{bid}.layer_pre_norm",
    MODEL_TENSOR.A_ENC_ATTN_Q:              "a.blk.{bid}.attn_q",
    MODEL_TENSOR.A_ENC_ATTN_K:              "a.blk.{bid}.attn_k",
    MODEL_TENSOR.A_ENC_ATTN_V:              "a.blk.{bid}.attn_v",
-    MODEL_TENSOR.A_ENC_PER_DIM_SCALE:       "a.blk.{bid}.per_dim_scale",
    MODEL_TENSOR.A_ENC_INPUT_NORM:          "a.blk.{bid}.ln1",
    MODEL_TENSOR.A_ENC_OUTPUT:              "a.blk.{bid}.attn_out",
    MODEL_TENSOR.A_ENC_OUTPUT_NORM:         "a.blk.{bid}.ln2",
    MODEL_TENSOR.A_ENC_FFN_NORM:            "a.blk.{bid}.ffn_norm",
-    MODEL_TENSOR.A_ENC_FFN_POST_NORM:       "a.blk.{bid}.ffn_post_norm",
-    MODEL_TENSOR.A_ENC_FFN_SCALE:           "a.blk.{bid}.ffn_scale",
    MODEL_TENSOR.A_ENC_FFN_UP:              "a.blk.{bid}.ffn_up",
    MODEL_TENSOR.A_ENC_FFN_GATE:            "a.blk.{bid}.ffn_gate",
    MODEL_TENSOR.A_ENC_FFN_DOWN:            "a.blk.{bid}.ffn_down",
    MODEL_TENSOR.A_ENC_FFN_NORM_1:          "a.blk.{bid}.ffn_norm_1",
-    MODEL_TENSOR.A_ENC_FFN_POST_NORM_1:     "a.blk.{bid}.ffn_post_norm_1",
-    MODEL_TENSOR.A_ENC_FFN_SCALE_1:         "a.blk.{bid}.ffn_scale_1",
    MODEL_TENSOR.A_ENC_FFN_UP_1:            "a.blk.{bid}.ffn_up_1",
    MODEL_TENSOR.A_ENC_FFN_GATE_1:          "a.blk.{bid}.ffn_gate_1",
    MODEL_TENSOR.A_ENC_FFN_DOWN_1:          "a.blk.{bid}.ffn_down_1",
@@ -1161,10 +1109,6 @@ TENSOR_NAMES: dict[MODEL_TENSOR, str] = {
    MODEL_TENSOR.A_MMPROJ_FC:               "mm.a.fc",
    MODEL_TENSOR.A_MM_NORM_PRE:             "mm.a.norm_pre",
    MODEL_TENSOR.A_MM_NORM_MID:             "mm.a.norm_mid",
-    MODEL_TENSOR.A_MM_INP_PROJ:             "mm.a.input_projection",      # gemma3n
-    MODEL_TENSOR.A_MM_SOFT_EMB_NORM:        "mm.a.soft_emb_norm",         # gemma3n
-    MODEL_TENSOR.A_MM_EMBEDDING:            "mm.a.embedding",             # gemma3n
-    MODEL_TENSOR.A_MM_HARD_EMB_NORM:        "mm.a.hard_emb_norm",         # gemma3n
    # lfm2 audio
    MODEL_TENSOR.A_ENC_NORM_CONV:           "a.blk.{bid}.norm_conv",
    MODEL_TENSOR.A_ENC_LINEAR_POS:          "a.blk.{bid}.linear_pos",
@@ -1215,15 +1159,6 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.V_MM_INP_PROJ,
        MODEL_TENSOR.V_MM_INP_NORM,
        MODEL_TENSOR.V_MM_SOFT_EMB_NORM,
-        MODEL_TENSOR.V_MM_EMBEDDING,
-        MODEL_TENSOR.V_MM_HARD_EMB_NORM,
-        MODEL_TENSOR.V_ENC_CONV_STEM,
-        MODEL_TENSOR.V_ENC_CONV_STEM_NORM,
-        MODEL_TENSOR.V_ENC_MSFA_EXP,
-        MODEL_TENSOR.V_ENC_MSFA_EXP_NORM,
-        MODEL_TENSOR.V_ENC_MSFA_PROJ,
-        MODEL_TENSOR.V_ENC_MSFA_PROJ_NORM,
-        MODEL_TENSOR.V_ENC_MSFA_NORM,
        MODEL_TENSOR.V_RESMPL_POS_EMBD_K,
        MODEL_TENSOR.V_RESMPL_ATTN_Q,
        MODEL_TENSOR.V_RESMPL_ATTN_K,
@@ -1251,26 +1186,19 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.A_ENC_EMBD_NORM,
        MODEL_TENSOR.A_ENC_EMBD_TO_LOGITS,
        MODEL_TENSOR.A_ENC_CONV1D,
-        MODEL_TENSOR.A_ENC_CONV1D_NORM,
        MODEL_TENSOR.A_PRE_NORM,
        MODEL_TENSOR.A_POST_NORM,
-        MODEL_TENSOR.A_ENC_LAYER_PRE_NORM,
        MODEL_TENSOR.A_ENC_ATTN_Q,
        MODEL_TENSOR.A_ENC_ATTN_K,
        MODEL_TENSOR.A_ENC_ATTN_V,
-        MODEL_TENSOR.A_ENC_PER_DIM_SCALE,
        MODEL_TENSOR.A_ENC_INPUT_NORM,
        MODEL_TENSOR.A_ENC_OUTPUT,
        MODEL_TENSOR.A_ENC_OUTPUT_NORM,
        MODEL_TENSOR.A_ENC_FFN_NORM,
-        MODEL_TENSOR.A_ENC_FFN_POST_NORM,
-        MODEL_TENSOR.A_ENC_FFN_SCALE,
        MODEL_TENSOR.A_ENC_FFN_UP,
        MODEL_TENSOR.A_ENC_FFN_GATE,
        MODEL_TENSOR.A_ENC_FFN_DOWN,
        MODEL_TENSOR.A_ENC_FFN_NORM_1,
-        MODEL_TENSOR.A_ENC_FFN_POST_NORM_1,
-        MODEL_TENSOR.A_ENC_FFN_SCALE_1,
        MODEL_TENSOR.A_ENC_FFN_UP_1,
        MODEL_TENSOR.A_ENC_FFN_GATE_1,
        MODEL_TENSOR.A_ENC_FFN_DOWN_1,
@@ -1287,10 +1215,6 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.A_ENC_CONV_NORM,
        MODEL_TENSOR.A_ENC_CONV_PW1,
        MODEL_TENSOR.A_ENC_CONV_PW2,
-        MODEL_TENSOR.A_MM_INP_PROJ,
-        MODEL_TENSOR.A_MM_SOFT_EMB_NORM,
-        MODEL_TENSOR.A_MM_EMBEDDING,
-        MODEL_TENSOR.A_MM_HARD_EMB_NORM,
    ],
    MODEL_ARCH.LLAMA: [
        MODEL_TENSOR.TOKEN_EMBD,
@@ -1740,7 +1664,6 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.ATTN_OUT,
        MODEL_TENSOR.ATTN_POST_NORM,
        MODEL_TENSOR.ATTN_GATE,
-        MODEL_TENSOR.ATTN_QKV,
        MODEL_TENSOR.FFN_GATE_INP,
        MODEL_TENSOR.FFN_GATE_INP_SHEXP,
        MODEL_TENSOR.FFN_UP_SHEXP,
@@ -1836,21 +1759,6 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.SSM_B_NORM,
        MODEL_TENSOR.SSM_C_NORM,
    ],
-    MODEL_ARCH.PLAMO3: [
-        MODEL_TENSOR.TOKEN_EMBD,
-        MODEL_TENSOR.OUTPUT_NORM,
-        MODEL_TENSOR.OUTPUT,
-        MODEL_TENSOR.ATTN_NORM,
-        MODEL_TENSOR.ATTN_QKV,
-        MODEL_TENSOR.ATTN_Q_NORM,
-        MODEL_TENSOR.ATTN_K_NORM,
-        MODEL_TENSOR.ATTN_OUT,
-        MODEL_TENSOR.ATTN_POST_NORM,
-        MODEL_TENSOR.FFN_NORM,
-        MODEL_TENSOR.FFN_DOWN,
-        MODEL_TENSOR.FFN_UP,
-        MODEL_TENSOR.FFN_POST_NORM,
-    ],
    MODEL_ARCH.GPT2: [
        MODEL_TENSOR.TOKEN_EMBD,
        MODEL_TENSOR.POS_EMBD,
@@ -2756,38 +2664,6 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.FFN_UP,
        MODEL_TENSOR.FFN_POST_NORM,
    ],
-    MODEL_ARCH.EXAONE_MOE: [
-        MODEL_TENSOR.TOKEN_EMBD,
-        MODEL_TENSOR.OUTPUT_NORM,
-        MODEL_TENSOR.OUTPUT,
-        MODEL_TENSOR.ROPE_FREQS,
-        MODEL_TENSOR.ATTN_NORM,
-        MODEL_TENSOR.ATTN_Q,
-        MODEL_TENSOR.ATTN_Q_NORM,
-        MODEL_TENSOR.ATTN_K,
-        MODEL_TENSOR.ATTN_K_NORM,
-        MODEL_TENSOR.ATTN_V,
-        MODEL_TENSOR.ATTN_OUT,
-        MODEL_TENSOR.FFN_NORM,
-        MODEL_TENSOR.FFN_GATE,
-        MODEL_TENSOR.FFN_DOWN,
-        MODEL_TENSOR.FFN_UP,
-        MODEL_TENSOR.FFN_GATE_INP,
-        MODEL_TENSOR.FFN_GATE_EXP,
-        MODEL_TENSOR.FFN_DOWN_EXP,
-        MODEL_TENSOR.FFN_UP_EXP,
-        MODEL_TENSOR.FFN_GATE_SHEXP,
-        MODEL_TENSOR.FFN_DOWN_SHEXP,
-        MODEL_TENSOR.FFN_UP_SHEXP,
-        MODEL_TENSOR.FFN_EXP_PROBS_B,
-        # NextN/MTP tensors - preserved but unused
-        MODEL_TENSOR.NEXTN_EH_PROJ,
-        MODEL_TENSOR.NEXTN_EMBED_TOKENS,
-        MODEL_TENSOR.NEXTN_ENORM,
-        MODEL_TENSOR.NEXTN_HNORM,
-        MODEL_TENSOR.NEXTN_SHARED_HEAD_HEAD,
-        MODEL_TENSOR.NEXTN_SHARED_HEAD_NORM,
-    ],
    MODEL_ARCH.GRANITE: [
        MODEL_TENSOR.TOKEN_EMBD,
        MODEL_TENSOR.OUTPUT_NORM,
@@ -3137,7 +3013,6 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.ATTN_V,
        MODEL_TENSOR.ATTN_OUT,
        MODEL_TENSOR.OUTPUT,
-        MODEL_TENSOR.DENSE_2_OUT, # LFM2-ColBert-350M
    ],
    MODEL_ARCH.LFM2MOE: [
        MODEL_TENSOR.TOKEN_EMBD,
@@ -3321,62 +3196,6 @@ MODEL_TENSORS: dict[MODEL_ARCH, list[MODEL_TENSOR]] = {
        MODEL_TENSOR.FFN_DOWN_EXP,
        MODEL_TENSOR.FFN_UP_EXP,
    ],
-    MODEL_ARCH.MIMO2: [
-        MODEL_TENSOR.TOKEN_EMBD,
-        MODEL_TENSOR.OUTPUT_NORM,
-        MODEL_TENSOR.OUTPUT,
-        MODEL_TENSOR.ATTN_NORM,
-        MODEL_TENSOR.ATTN_Q,
-        MODEL_TENSOR.ATTN_K,
-        MODEL_TENSOR.ATTN_V,
-        MODEL_TENSOR.ATTN_SINKS,
-        MODEL_TENSOR.ATTN_OUT,
-        MODEL_TENSOR.FFN_NORM,
-        MODEL_TENSOR.FFN_GATE,
-        MODEL_TENSOR.FFN_DOWN,
-        MODEL_TENSOR.FFN_UP,
-        MODEL_TENSOR.FFN_GATE_INP,
-        MODEL_TENSOR.FFN_GATE_EXP,
-        MODEL_TENSOR.FFN_DOWN_EXP,
-        MODEL_TENSOR.FFN_UP_EXP,
-        MODEL_TENSOR.FFN_EXP_PROBS_B,
-    ],
-    MODEL_ARCH.LLAMA_EMBED: [
-        MODEL_TENSOR.TOKEN_EMBD,
-        MODEL_TENSOR.OUTPUT_NORM,
-        MODEL_TENSOR.OUTPUT,
-        MODEL_TENSOR.ROPE_FREQS,
-        MODEL_TENSOR.ATTN_NORM,
-        MODEL_TENSOR.ATTN_Q,
-        MODEL_TENSOR.ATTN_K,
-        MODEL_TENSOR.ATTN_V,
-        MODEL_TENSOR.ATTN_OUT,
-        MODEL_TENSOR.ATTN_ROT_EMBD,
-        MODEL_TENSOR.FFN_GATE_INP,
-        MODEL_TENSOR.FFN_NORM,
-        MODEL_TENSOR.FFN_GATE,
-        MODEL_TENSOR.FFN_DOWN,
-        MODEL_TENSOR.FFN_UP,
-        MODEL_TENSOR.FFN_GATE_EXP,
-        MODEL_TENSOR.FFN_DOWN_EXP,
-        MODEL_TENSOR.FFN_UP_EXP,
-    ],
-    MODEL_ARCH.MAINCODER: [
-        MODEL_TENSOR.TOKEN_EMBD,
-        MODEL_TENSOR.OUTPUT_NORM,
-        MODEL_TENSOR.OUTPUT,
-        MODEL_TENSOR.ATTN_NORM,
-        MODEL_TENSOR.ATTN_Q,
-        MODEL_TENSOR.ATTN_Q_NORM,
-        MODEL_TENSOR.ATTN_K,
-        MODEL_TENSOR.ATTN_K_NORM,
-        MODEL_TENSOR.ATTN_V,
-        MODEL_TENSOR.ATTN_OUT,
-        MODEL_TENSOR.FFN_NORM,
-        MODEL_TENSOR.FFN_GATE,
-        MODEL_TENSOR.FFN_DOWN,
-        MODEL_TENSOR.FFN_UP,
-    ],
    # TODO
 }

@@ -3594,8 +3413,6 @@ class GGUFValueType(IntEnum):

 class VisionProjectorType:
    GEMMA3 = "gemma3"
-    GEMMA3NV = "gemma3nv"
-    GEMMA3NA = "gemma3na"
    IDEFICS3 = "idefics3"
    PIXTRAL = "pixtral"
    LLAMA4 = "llama4"
@@ -3614,9 +3431,7 @@ class VisionProjectorType:
    COGVLM = "cogvlm"
    JANUS_PRO = "janus_pro"
    LFM2A = "lfm2a" # audio
-    MUSIC_FLAMINGO = "musicflamingo" # audio
    GLM4V = "glm4v"
-    YOUTUVL = "youtuvl"


 # Items here are (block size, type size)
--- a/gguf-py/gguf/gguf_writer.py
+++ b/gguf-py/gguf/gguf_writer.py
@@ -681,9 +681,6 @@ class GGUFWriter:
    def add_embedding_length(self, length: int) -> None:
        self.add_uint32(Keys.LLM.EMBEDDING_LENGTH.format(arch=self.arch), length)

-    def add_embedding_length_out(self, length: int) -> None:
-        self.add_uint32(Keys.LLM.EMBEDDING_LENGTH_OUT.format(arch=self.arch), length)
-
    def add_features_length(self, length: int) -> None:
        self.add_uint32(Keys.LLM.FEATURES_LENGTH.format(arch=self.arch), length)

@@ -1086,9 +1083,6 @@ class GGUFWriter:
    def add_clip_projector_type(self, value: str) -> None:
        self.add_string(Keys.Clip.PROJECTOR_TYPE, value)

-    def add_clip_vision_projector_type(self, value: str) -> None:
-        self.add_string(Keys.ClipVision.PROJECTOR_TYPE, value)
-
    def add_vision_projection_dim(self, value: int) -> None:
        self.add_uint32(Keys.ClipVision.PROJECTION_DIM, value)

@@ -1135,45 +1129,13 @@ class GGUFWriter:
        self.add_uint32(Keys.ClipVision.Projector.SCALE_FACTOR, value)

    def add_vision_n_wa_pattern(self, value: int) -> None:
-        """Add window attention pattern interval for vision models.
-
-        This defines the pattern interval for window attention vs full attention layers.
-        For example, if n_wa_pattern=4, then layers 3, 7, 11, ... use full attention,
-        while other layers use window attention.
-
-        Used by models like Qwen2.5-VL where full attention layers follow a regular pattern.
-        """
        self.add_uint32(Keys.ClipVision.N_WA_PATTERN, value)

-    def add_vision_wa_layer_indexes(self, layers: Sequence[int]) -> None:
-        """Add explicit layer indexes that use full attention in vision models.
-
-        This specifies the exact layer indices (0-based) that should use full attention
-        instead of window attention. All other layers will use window attention.
-
-        Args:
-            layers: List of layer indices that use full attention (e.g., [3, 7, 11, 15])
-
-        Used by models like YoutuVL where full attention layers are explicitly specified
-        rather than following a regular pattern.
-
-        Difference from add_vision_n_wa_pattern:
-        - n_wa_pattern: Defines a regular interval pattern (every Nth layer uses full attention)
-        - wa_layer_indexes: Explicitly lists which layers use full attention (irregular pattern)
-        """
-        self.add_array(Keys.ClipVision.WA_LAYER_INDEXES, layers)
-
    def add_vision_is_deepstack_layers(self, layers: Sequence[bool]) -> None:
        self.add_array(Keys.ClipVision.IS_DEEPSTACK_LAYERS, layers)

-    def add_vision_window_size(self, value: int) -> None:
-        self.add_uint32(Keys.ClipVision.WINDOW_SIZE, value)
-
    # audio models

-    def add_clip_audio_projector_type(self, value: str) -> None:
-        self.add_string(Keys.ClipAudio.PROJECTOR_TYPE, value)
-
    def add_audio_projection_dim(self, value: int) -> None:
        self.add_uint32(Keys.ClipAudio.PROJECTION_DIM, value)

--- a/gguf-py/gguf/tensor_mapping.py
+++ b/gguf-py/gguf/tensor_mapping.py
@@ -123,40 +123,6 @@ class TensorNameMap:
        MODEL_TENSOR.CONV1D: (
            "backbone.embed", # roberta
        ),
-
-        MODEL_TENSOR.V_MM_EMBEDDING: (
-            "model.embed_vision.embedding", # gemma3n
-        ),
-        MODEL_TENSOR.V_MM_HARD_EMB_NORM: (
-            "model.embed_vision.hard_embedding_norm", # gemma3n
-        ),
-        MODEL_TENSOR.V_MM_INP_PROJ: (
-            "model.embed_vision.embedding_projection", # gemma3n
-        ),
-        MODEL_TENSOR.V_MM_SOFT_EMB_NORM: (
-            "model.embed_vision.soft_embedding_norm", # gemma3n
-        ),
-        MODEL_TENSOR.V_ENC_CONV_STEM: (
-            "model.vision_tower.timm_model.conv_stem.conv", # gemma3n
-        ),
-        MODEL_TENSOR.V_ENC_CONV_STEM_NORM: (
-            "model.vision_tower.timm_model.conv_stem.bn", # gemma3n
-        ),
-        MODEL_TENSOR.V_ENC_MSFA_EXP: (
-            "model.vision_tower.timm_model.msfa.ffn.pw_exp.conv", # gemma3n
-        ),
-        MODEL_TENSOR.V_ENC_MSFA_EXP_NORM: (
-            "model.vision_tower.timm_model.msfa.ffn.pw_exp.bn", # gemma3n
-        ),
-        MODEL_TENSOR.V_ENC_MSFA_PROJ: (
-            "model.vision_tower.timm_model.msfa.ffn.pw_proj.conv", # gemma3n
-        ),
-        MODEL_TENSOR.V_ENC_MSFA_PROJ_NORM: (
-            "model.vision_tower.timm_model.msfa.ffn.pw_proj.bn", # gemma3n
-        ),
-        MODEL_TENSOR.V_ENC_MSFA_NORM: (
-            "model.vision_tower.timm_model.msfa.norm", # gemma3n
-        ),
    }

    block_mappings_cfg: dict[MODEL_TENSOR, tuple[str, ...]] = {
@@ -354,7 +320,6 @@ class TensorNameMap:

        MODEL_TENSOR.ATTN_SINKS: (
            "model.layers.{bid}.self_attn.sinks", # openai-moe
-            "model.layers.{bid}.self_attn.attention_sink_bias", # mimov2
        ),

        MODEL_TENSOR.ATTN_GATE: (
@@ -436,8 +401,7 @@ class TensorNameMap:
            "model.layers.{bid}.mlp.expert_bias",                           # afmoe
            "model.layers.{bid}.feed_forward.expert_bias",                  # lfm2moe
            "model.layers.{bid}.block_sparse_moe.e_score_correction",       # minimax-m2
-            "backbone.layers.{bid}.mixer.gate.e_score_correction",          # nemotron-h-moe
-            "model.layers.{bid}.mlp.e_score_correction",                    # exaone-moe
+            "backbone.layers.{bid}.mixer.gate.e_score_correction"           # nemotron-h-moe
        ),

        # Feed-forward up
@@ -630,7 +594,6 @@ class TensorNameMap:
            "encoder.layer.{bid}.attention.self.layer_norm_q",                # jina-bert-v2
            "transformer.layers.{bid}.attn.q_norm",                           # openelm
            "model.layers.layers.{bid}.mixer.q",                              # plamo2
-            "model.layers.layers.{bid}.mixer.q_norm",                         # plamo3
            "layers.{bid}.self_attn.q_norm",                                  # qwen3-embedding
            "model.layers.{bid}.attention.query_layernorm",                   # apertus
        ),
@@ -646,7 +609,6 @@ class TensorNameMap:
            "encoder.layer.{bid}.attention.self.layer_norm_k",                # jina-bert-v2
            "transformer.layers.{bid}.attn.k_norm",                           # openelm
            "model.layers.layers.{bid}.mixer.k",                              # plamo2
-            "model.layers.layers.{bid}.mixer.k_norm",                         # plamo3
            "layers.{bid}.self_attn.k_norm",                                  # qwen3-embedding
            "model.layers.{bid}.attention.key_layernorm",                     # apertus
        ),
@@ -1256,7 +1218,6 @@ class TensorNameMap:
        MODEL_TENSOR.V_MMPROJ: (
            "multi_modal_projector.linear_{bid}",
            "visual.merger.mlp.{bid}", # qwen2vl
-            "merger.mlp.{bid}",
        ),

        MODEL_TENSOR.V_MMPROJ_FC: (
@@ -1294,7 +1255,6 @@ class TensorNameMap:
            "visual.patch_embed.proj", # qwen2vl
            "vision_tower.patch_embed.proj", # kimi-vl
            "model.vision.patch_embedding.proj", # cogvlm
-            "siglip2.vision_model.embeddings.patch_embedding",
        ),

        MODEL_TENSOR.V_ENC_EMBD_NORM: (
@@ -1328,7 +1288,6 @@ class TensorNameMap:
            "vision_encoder.transformer.layers.{bid}.attention.wq", # pixtral
            "visual.blocks.{bid}.attn.q", # qwen2vl, generated
            "vision_tower.encoder.blocks.{bid}.wq", # kimi-vl, generated
-            "siglip2.vision_model.encoder.layers.{bid}.self_attn.q_proj", # youtuvl
        ),

        MODEL_TENSOR.V_ENC_ATTN_Q_NORM: (
@@ -1346,7 +1305,6 @@ class TensorNameMap:
            "vision_encoder.transformer.layers.{bid}.attention.wk", # pixtral
            "visual.blocks.{bid}.attn.k", # qwen2vl, generated
            "vision_tower.encoder.blocks.{bid}.wk", # kimi-vl, generated
-            "siglip2.vision_model.encoder.layers.{bid}.self_attn.k_proj",
        ),

        MODEL_TENSOR.V_ENC_ATTN_K_NORM: (
@@ -1364,7 +1322,6 @@ class TensorNameMap:
            "vision_encoder.transformer.layers.{bid}.attention.wv", # pixtral
            "visual.blocks.{bid}.attn.v", # qwen2vl, generated
            "vision_tower.encoder.blocks.{bid}.wv", # kimi-vl, generated
-            "siglip2.vision_model.encoder.layers.{bid}.self_attn.v_proj",
        ),

        MODEL_TENSOR.V_ENC_INPUT_NORM: (
@@ -1379,7 +1336,6 @@ class TensorNameMap:
            "visual.blocks.{bid}.norm1", # qwen2vl
            "vision_tower.encoder.blocks.{bid}.norm0", # kimi-vl (norm0/norm1)
            "model.vision.transformer.layers.{bid}.input_layernorm", # cogvlm
-            "siglip2.vision_model.encoder.layers.{bid}.layer_norm1",
        ),

        MODEL_TENSOR.V_ENC_ATTN_O: (
@@ -1395,7 +1351,6 @@ class TensorNameMap:
            "visual.blocks.{bid}.attn.proj", # qwen2vl
            "vision_tower.encoder.blocks.{bid}.wo", # kimi-vl
            "model.vision.transformer.layers.{bid}.attention.dense", # cogvlm
-            "siglip2.vision_model.encoder.layers.{bid}.self_attn.out_proj", # youtuvl
        ),

        MODEL_TENSOR.V_ENC_POST_ATTN_NORM: (
@@ -1410,7 +1365,6 @@ class TensorNameMap:
            "visual.blocks.{bid}.norm2", # qwen2vl
            "vision_tower.encoder.blocks.{bid}.norm1", # kimi-vl (norm0/norm1)
            "model.vision.transformer.layers.{bid}.post_attention_layernorm", # cogvlm
-            "siglip2.vision_model.encoder.layers.{bid}.layer_norm2",
        ),

        MODEL_TENSOR.V_ENC_FFN_UP: (
@@ -1426,7 +1380,6 @@ class TensorNameMap:
            "visual.blocks.{bid}.mlp.linear_fc1", # qwen3vl
            "vision_tower.encoder.blocks.{bid}.mlp.fc0", # kimi-vl (fc0/fc1)
            "model.vision.transformer.layers.{bid}.mlp.fc1", # cogvlm
-            "siglip2.vision_model.encoder.layers.{bid}.mlp.fc1",
        ),

        MODEL_TENSOR.V_ENC_FFN_GATE: (
@@ -1448,7 +1401,6 @@ class TensorNameMap:
            "visual.blocks.{bid}.mlp.linear_fc2", # qwen3vl
            "vision_tower.encoder.blocks.{bid}.mlp.fc1", # kimi-vl (fc0/fc1)
            "model.vision.transformer.layers.{bid}.mlp.fc2", # cogvlm
-            "siglip2.vision_model.encoder.layers.{bid}.mlp.fc2",
        ),

        MODEL_TENSOR.V_LAYER_SCALE_1: (
@@ -1475,7 +1427,6 @@ class TensorNameMap:
            "visual.merger.ln_q", # qwen2vl
            "vision_tower.encoder.final_layernorm", # kimi-vl
            "visual.post_layernorm", # glm4v
-            "siglip2.vision_model.post_layernorm",
        ),

        MODEL_TENSOR.V_MM_POST_NORM: (
@@ -1492,7 +1443,6 @@ class TensorNameMap:
            "multi_modal_projector.pre_norm",
            "pre_mm_projector_norm",
            "model.vision.linear_proj.norm1", # cogvlm
-            "merger.ln_q",
        ),

        MODEL_TENSOR.V_MM_SOFT_EMB_NORM: (
@@ -1610,11 +1560,6 @@ class TensorNameMap:
        MODEL_TENSOR.A_ENC_CONV1D: (
            "audio_tower.conv{bid}", # ultravox
            "conformer.pre_encode.conv.{bid}", # lfm2
-            "model.audio_tower.subsample_conv_projection.conv_{bid}.conv", # gemma3n
-        ),
-
-        MODEL_TENSOR.A_ENC_CONV1D_NORM: (
-            "model.audio_tower.subsample_conv_projection.conv_{bid}.norm", # gemma3n
        ),

        MODEL_TENSOR.A_PRE_NORM: (),
@@ -1627,64 +1572,40 @@ class TensorNameMap:
        MODEL_TENSOR.A_ENC_ATTN_Q: (
            "audio_tower.layers.{bid}.self_attn.q_proj", # ultravox
            "conformer.layers.{bid}.self_attn.linear_q", # lfm2
-            "conformer.layers.{bid}.attention.attn.q_proj", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_ATTN_K: (
            "audio_tower.layers.{bid}.self_attn.k_proj", # ultravox
            "conformer.layers.{bid}.self_attn.linear_k", # lfm2
-            "conformer.layers.{bid}.attention.attn.k_proj", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_ATTN_V: (
            "audio_tower.layers.{bid}.self_attn.v_proj", # ultravox
            "conformer.layers.{bid}.self_attn.linear_v", # lfm2
-            "conformer.layers.{bid}.attention.attn.v_proj", # gemma3n
-        ),
-
-        MODEL_TENSOR.A_ENC_PER_DIM_SCALE: (
-            "conformer.layers.{bid}.attention.attn.per_dim_scale", # gemma3n
-        ),
-
-        MODEL_TENSOR.A_ENC_LAYER_PRE_NORM: (
-            "conformer.layers.{bid}.norm", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_INPUT_NORM: (
            "audio_tower.layers.{bid}.self_attn_layer_norm", # ultravox
            "conformer.layers.{bid}.norm_self_att", # lfm2
-            "conformer.layers.{bid}.attention.pre_attn_norm", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_OUTPUT: (
            "audio_tower.layers.{bid}.self_attn.out_proj", # ultravox
            "conformer.layers.{bid}.self_attn.linear_out", # lfm2
-            "conformer.layers.{bid}.attention.post", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_OUTPUT_NORM: (
            "audio_tower.layers.{bid}.final_layer_norm", # ultravox
            "conformer.layers.{bid}.norm_out", # lfm2
-            "conformer.layers.{bid}.attention.post_norm", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_FFN_NORM: (
            "conformer.layers.{bid}.norm_feed_forward1", # lfm2
-            "conformer.layers.{bid}.ffw_layer_start.pre_layer_norm", # gemma3n
-        ),
-
-        MODEL_TENSOR.A_ENC_FFN_POST_NORM: (
-            "conformer.layers.{bid}.ffw_layer_start.post_layer_norm", # gemma3n
-        ),
-
-        MODEL_TENSOR.A_ENC_FFN_SCALE: (
-            "conformer.layers.{bid}.ffw_layer_start.post_layer_scale", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_FFN_UP: (
            "audio_tower.layers.{bid}.fc1", # ultravox
            "conformer.layers.{bid}.feed_forward1.linear1", # lfm2
-            "conformer.layers.{bid}.ffw_layer_start.ffw_layer_1", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_FFN_GATE: (),
@@ -1692,35 +1613,22 @@ class TensorNameMap:
        MODEL_TENSOR.A_ENC_FFN_DOWN: (
            "audio_tower.layers.{bid}.fc2", # ultravox
            "conformer.layers.{bid}.feed_forward1.linear2", # lfm2
-            "conformer.layers.{bid}.ffw_layer_start.ffw_layer_2", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_FFN_UP_1: (
            "conformer.layers.{bid}.feed_forward2.linear1", # lfm2
-            "conformer.layers.{bid}.ffw_layer_end.ffw_layer_1", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_FFN_DOWN_1: (
            "conformer.layers.{bid}.feed_forward2.linear2", # lfm2
-            "conformer.layers.{bid}.ffw_layer_end.ffw_layer_2", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_FFN_NORM_1: (
            "conformer.layers.{bid}.norm_feed_forward2", # lfm2
-            "conformer.layers.{bid}.ffw_layer_end.pre_layer_norm", # gemma3n
-        ),
-
-        MODEL_TENSOR.A_ENC_FFN_POST_NORM_1: (
-            "conformer.layers.{bid}.ffw_layer_end.post_layer_norm", # gemma3n
-        ),
-
-        MODEL_TENSOR.A_ENC_FFN_SCALE_1: (
-            "conformer.layers.{bid}.ffw_layer_end.post_layer_scale", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_LINEAR_POS: (
            "conformer.layers.{bid}.self_attn.linear_pos", # lfm2
-            "conformer.layers.{bid}.attention.attn.relative_position_embedding.pos_proj", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_POS_BIAS_U: (
@@ -1733,7 +1641,6 @@ class TensorNameMap:

        MODEL_TENSOR.A_ENC_OUT: (
            "conformer.pre_encode.out", # lfm2
-            "model.audio_tower.subsample_conv_projection.input_proj_linear", # gemma3n
        ),

        # note: some tensors below has "audio." pseudo-prefix, to prevent conflicts with vision tensors
@@ -1759,43 +1666,25 @@ class TensorNameMap:

        MODEL_TENSOR.A_ENC_CONV_DW: (
            "conformer.layers.{bid}.conv.depthwise_conv", # lfm2
-            "conformer.layers.{bid}.lconv1d.depthwise_conv1d", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_CONV_NORM: (
            "conformer.layers.{bid}.conv.batch_norm", # lfm2
-            "conformer.layers.{bid}.lconv1d.pre_layer_norm", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_CONV_PW1: (
            "conformer.layers.{bid}.conv.pointwise_conv1", # lfm2
-            "conformer.layers.{bid}.lconv1d.linear_start", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_CONV_PW2: (
            "conformer.layers.{bid}.conv.pointwise_conv2", # lfm2
-            "conformer.layers.{bid}.lconv1d.linear_end", # gemma3n
        ),

        MODEL_TENSOR.A_ENC_NORM_CONV: (
            "conformer.layers.{bid}.norm_conv", # lfm2
-            "conformer.layers.{bid}.lconv1d.conv_norm", # gemma3n
        ),

-        MODEL_TENSOR.A_MM_EMBEDDING: (
-            "model.embed_audio.embedding", # gemma3n
-        ),
-        MODEL_TENSOR.A_MM_HARD_EMB_NORM: (
-            "model.embed_audio.hard_embedding_norm", # gemma3n
-        ),
-        MODEL_TENSOR.A_MM_INP_PROJ: (
-            "model.embed_audio.embedding_projection", # gemma3n
-        ),
-        MODEL_TENSOR.A_MM_SOFT_EMB_NORM: (
-            "model.embed_audio.soft_embedding_norm", # gemma3n
-        ),
-
-        # NextN/MTP tensors
+        # NextN/MTP tensors for GLM4_MOE
        MODEL_TENSOR.NEXTN_EH_PROJ: (
            "model.layers.{bid}.eh_proj",
        ),
--- a/gguf-py/pyproject.toml
+++ b/gguf-py/pyproject.toml
@@ -22,7 +22,6 @@ python = ">=3.8"
 numpy = ">=1.17"
 tqdm = ">=4.27"
 pyyaml = ">=5.1"
-requests = ">=2.25"
 sentencepiece = { version = ">=0.1.98,<=0.2.0", optional = true }
 PySide6 = { version = "^6.9", python = ">=3.9,<3.14", optional = true }