convert: text-only support for GLM-4.1V-9B-Thinking (#14495)

jacekpoplawski · jacekpoplawski · commit ad66a8fee930 · 2025-07-23T01:05:53.000+02:00
* use language_model part only

* set missing head_dim
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -6517,6 +6517,20 @@ def set_gguf_parameters(self):
             self.gguf_writer.add_rope_scaling_orig_ctx_len(rope_scaling["original_max_position_embeddings"])
 
 
+@ModelBase.register("Glm4vForConditionalGeneration")
+class Glm4vThinkingModel(Glm4Model):
+    model_arch = gguf.MODEL_ARCH.GLM4
+
+    def set_gguf_parameters(self):
+        self.hparams["head_dim"] = 128
+        super().set_gguf_parameters()
+
+    def modify_tensors(self, data_torch: Tensor, name: str, bid: int | None) -> Iterable[tuple[str, Tensor]]:
+        if name.startswith("model.visual."):
+            return []
+        return super().modify_tensors(data_torch, name, bid)
+
+
 @ModelBase.register("GlmForCausalLM", "ChatGLMModel", "ChatGLMForConditionalGeneration")
 class ChatGLMModel(TextModel):
     model_arch = gguf.MODEL_ARCH.CHATGLM
diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -14,6 +14,7 @@ class TensorNameMap:
             "transformer.word_embeddings",               # falcon
             "word_embeddings",                           # bloom
             "model.embed_tokens",                        # llama-hf nemotron olmoe olmo2 rwkv6qwen2 glm4-0414 plamo2 granite-hybrid
+            "model.language_model.embed_tokens",         # glm-4-thinking
             "tok_embeddings",                            # llama-pth
             "embeddings.word_embeddings",                # bert nomic-bert
             "language_model.embedding.word_embeddings",  # persimmon
@@ -94,6 +95,7 @@ class TensorNameMap:
             "model.ln_out",                            # rwkv7
             "backbone.final_layer_norm",               # wavtokenizer
             "model.norm",                              # llama4
+            "model.language_model.norm"                # glm-4-thinking
         ),
 
         # Rope frequencies
@@ -139,6 +141,7 @@ class TensorNameMap:
             "model.layers.{bid}.input_layernorm",                   # llama4
             "transformer_encoder.{bid}.attention_norm",             # neobert
             "model.layers.{bid}.operator_norm",                     # lfm2
+            "model.language_model.layers.{bid}.input_layernorm",    # glm-4-thinking
         ),
 
         # Attention norm 2
@@ -183,6 +186,7 @@ class TensorNameMap:
             "transformer.decoder_layer.{bid}.multi_head_attention.query",# Grok
             "transformer.h.{bid}.attn.attention.q_proj",                 # exaone
             "model.layers.{bid}.self_attn.q_proj",                       # llama4
+            "model.language_model.layers.{bid}.self_attn.q_proj",        # glm-4-thinking
         ),
 
         # Attention key
@@ -199,6 +203,7 @@ class TensorNameMap:
             "transformer.decoder_layer.{bid}.multi_head_attention.key",# Grok
             "transformer.h.{bid}.attn.attention.k_proj",               # exaone
             "model.layers.{bid}.self_attn.k_proj",                     # llama4
+            "model.language_model.layers.{bid}.self_attn.k_proj",      # glm-4-thinking
         ),
 
         # Attention value
@@ -214,6 +219,7 @@ class TensorNameMap:
             "transformer.decoder_layer.{bid}.multi_head_attention.value",# Grok
             "transformer.h.{bid}.attn.attention.v_proj",                 # exaone
             "model.layers.{bid}.self_attn.v_proj",                       # llama4
+            "model.language_model.layers.{bid}.self_attn.v_proj",        # glm-4-thinking
         ),
 
         # Attention output
@@ -246,6 +252,7 @@ class TensorNameMap:
             "transformer.h.{bid}.attn.attention.out_proj",                  # exaone
             "model.layers.{bid}.self_attn.o_proj",                          # llama4
             "transformer_encoder.{bid}.wo",                                 # neobert
+            "model.language_model.layers.{bid}.self_attn.o_proj",           # glm-4-thinking
         ),
 
         # Attention output norm
@@ -258,9 +265,10 @@ class TensorNameMap:
         ),
 
         MODEL_TENSOR.ATTN_POST_NORM: (
-            "model.layers.{bid}.post_attention_layernorm",       # gemma2 olmo2    # ge
-            "model.layers.{bid}.post_self_attn_layernorm",       # glm-4-0414
-            "model.layers.layers.{bid}.post_mixer_norm.weight",  # plamo2
+            "model.layers.{bid}.post_attention_layernorm",                # gemma2 olmo2    # ge
+            "model.layers.{bid}.post_self_attn_layernorm",                # glm-4-0414
+            "model.layers.layers.{bid}.post_mixer_norm.weight",           # plamo2
+            "model.language_model.layers.{bid}.post_self_attn_layernorm", # glm-4-thinking
         ),
 
         # Rotary embeddings
@@ -291,6 +299,7 @@ class TensorNameMap:
             "model.layers.{bid}.post_attention_layernorm",                   # llama4
             "transformer_encoder.{bid}.ffn_norm",                            # neobert
             "model.layers.layers.{bid}.pre_mlp_norm",                        # plamo2
+            "model.language_model.layers.{bid}.post_attention_layernorm"     # glm-4-thinking
         ),
 
         # Post feed-forward norm
@@ -305,6 +314,7 @@ class TensorNameMap:
             "model.layers.{bid}.post_mlp_layernorm", # glm-4-0414
             "model.layers.layers.{bid}.post_mlp_norm.weight", # plamo2
             "model.layers.{bid}.feed_forward.up_proj",
+            "model.language_model.layers.{bid}.post_mlp_layernorm", # glm-4-thinking
         ),
 
         MODEL_TENSOR.FFN_GATE_INP: (
@@ -362,6 +372,7 @@ class TensorNameMap:
             "transformer.h.{bid}.mlp.c_fc_1",                         # exaone
             "model.layers.{bid}.feed_forward.up_proj",                # llama4 jamba granite-hybrid
             "transformer_encoder.{bid}.ffn.w12",                      # neobert
+            "model.language_model.layers.{bid}.mlp.gate_up_proj",     # glm-4-thinking
         ),
 
         MODEL_TENSOR.FFN_UP_EXP: (
@@ -448,6 +459,7 @@ class TensorNameMap:
             "model.layers.h.{bid}.mlp.c_proj",                        # exaone
             "model.layers.{bid}.feed_forward.down_proj",              # llama4 jamba granite-hybrid
             "transformer_encoder.{bid}.ffn.w3",                       # neobert
+            "model.language_model.layers.{bid}.mlp.down_proj",        # glm-4-thinking
         ),
 
         MODEL_TENSOR.FFN_DOWN_EXP: (