ggml-org · baonudesifeizhai · Aug 6, 2025 · Aug 6, 2025 · Aug 6, 2025 · Aug 6, 2025
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
diff --git a/gguf-py/gguf/constants.py b/gguf-py/gguf/constants.py
@@ -362,6 +362,7 @@ class MODEL_ARCH(IntEnum):
     BITNET           = auto()
     T5               = auto()
     T5ENCODER        = auto()
+    T5GEMMA          = auto()  # T5Gemma architecture
     JAIS             = auto()
     NEMOTRON         = auto()
     EXAONE           = auto()
@@ -528,6 +529,12 @@ class MODEL_TENSOR(IntEnum):
     DEC_FFN_DOWN         = auto()
     DEC_FFN_UP           = auto()
     DEC_OUTPUT_NORM      = auto()
+    # T5GEMMA specific post layer normalization tensors
+    DEC_POST_SELF_ATTN_NORM = auto()
+    DEC_POST_CROSS_ATTN_NORM = auto()
+    DEC_POST_FFN_NORM    = auto()
+    ENC_POST_SELF_ATTN_NORM = auto()
+    ENC_POST_FFN_NORM    = auto()
     ENC_ATTN_NORM        = auto()
     ENC_ATTN_Q           = auto()
     ENC_ATTN_K           = auto()
@@ -693,6 +700,7 @@ class MODEL_TENSOR(IntEnum):
     MODEL_ARCH.BITNET:           "bitnet",
     MODEL_ARCH.T5:               "t5",
     MODEL_ARCH.T5ENCODER:        "t5encoder",
+    MODEL_ARCH.T5GEMMA:          "t5gemma",  # T5Gemma architecture
     MODEL_ARCH.JAIS:             "jais",
     MODEL_ARCH.NEMOTRON:         "nemotron",
     MODEL_ARCH.EXAONE:           "exaone",
@@ -860,6 +868,12 @@ class MODEL_TENSOR(IntEnum):
     MODEL_TENSOR.DEC_FFN_DOWN:              "dec.blk.{bid}.ffn_down",
     MODEL_TENSOR.DEC_FFN_UP:                "dec.blk.{bid}.ffn_up",
     MODEL_TENSOR.DEC_OUTPUT_NORM:           "dec.output_norm",
+    # T5GEMMA specific post layer normalization tensors
+    MODEL_TENSOR.DEC_POST_SELF_ATTN_NORM:   "dec.blk.{bid}.post_self_attn_norm",
+    MODEL_TENSOR.DEC_POST_CROSS_ATTN_NORM:  "dec.blk.{bid}.post_cross_attn_norm",
+    MODEL_TENSOR.DEC_POST_FFN_NORM:         "dec.blk.{bid}.post_ffn_norm",
+    MODEL_TENSOR.ENC_POST_SELF_ATTN_NORM:   "enc.blk.{bid}.post_self_attn_norm",
+    MODEL_TENSOR.ENC_POST_FFN_NORM:         "enc.blk.{bid}.post_ffn_norm",
     MODEL_TENSOR.ENC_ATTN_NORM:             "enc.blk.{bid}.attn_norm",
     MODEL_TENSOR.ENC_ATTN_Q:                "enc.blk.{bid}.attn_q",
     MODEL_TENSOR.ENC_ATTN_K:                "enc.blk.{bid}.attn_k",
@@ -2238,6 +2252,45 @@ class MODEL_TENSOR(IntEnum):
         MODEL_TENSOR.ENC_FFN_UP,
         MODEL_TENSOR.ENC_OUTPUT_NORM,
     ],
+    MODEL_ARCH.T5GEMMA: [
+        MODEL_TENSOR.TOKEN_EMBD,
+        MODEL_TENSOR.OUTPUT_NORM,
+        MODEL_TENSOR.OUTPUT,
+        MODEL_TENSOR.DEC_ATTN_NORM,
+        MODEL_TENSOR.DEC_ATTN_Q,
+        MODEL_TENSOR.DEC_ATTN_K,
+        MODEL_TENSOR.DEC_ATTN_V,
+        MODEL_TENSOR.DEC_ATTN_OUT,
+        MODEL_TENSOR.DEC_ATTN_REL_B,
+        MODEL_TENSOR.DEC_CROSS_ATTN_NORM,
+        MODEL_TENSOR.DEC_CROSS_ATTN_Q,
+        MODEL_TENSOR.DEC_CROSS_ATTN_K,
+        MODEL_TENSOR.DEC_CROSS_ATTN_V,
+        MODEL_TENSOR.DEC_CROSS_ATTN_OUT,
+        MODEL_TENSOR.DEC_CROSS_ATTN_REL_B,
+        MODEL_TENSOR.DEC_FFN_NORM,
+        MODEL_TENSOR.DEC_FFN_GATE,
+        MODEL_TENSOR.DEC_FFN_DOWN,
+        MODEL_TENSOR.DEC_FFN_UP,
+        MODEL_TENSOR.DEC_OUTPUT_NORM,
+        MODEL_TENSOR.ENC_ATTN_NORM,
+        MODEL_TENSOR.ENC_ATTN_Q,
+        MODEL_TENSOR.ENC_ATTN_K,
+        MODEL_TENSOR.ENC_ATTN_V,
+        MODEL_TENSOR.ENC_ATTN_OUT,
+        MODEL_TENSOR.ENC_ATTN_REL_B,
+        MODEL_TENSOR.ENC_FFN_NORM,
+        MODEL_TENSOR.ENC_FFN_GATE,
+        MODEL_TENSOR.ENC_FFN_DOWN,
+        MODEL_TENSOR.ENC_FFN_UP,
+        MODEL_TENSOR.ENC_OUTPUT_NORM,
+        # T5GEMMA specific post layer normalization tensors
+        MODEL_TENSOR.DEC_POST_SELF_ATTN_NORM,
+        MODEL_TENSOR.DEC_POST_CROSS_ATTN_NORM,
+        MODEL_TENSOR.DEC_POST_FFN_NORM,
+        MODEL_TENSOR.ENC_POST_SELF_ATTN_NORM,
+        MODEL_TENSOR.ENC_POST_FFN_NORM,
+    ],
     MODEL_ARCH.JAIS: [
         MODEL_TENSOR.TOKEN_EMBD,
         MODEL_TENSOR.OUTPUT_NORM,

diff --git a/gguf-py/gguf/tensor_mapping.py b/gguf-py/gguf/tensor_mapping.py
@@ -27,6 +27,8 @@ class TensorNameMap:
             "embedding.word_embeddings",                 # chatglm
             "transformer.token_embeddings",              # openelm
             "shared",                                    # t5
+            "model.decoder.embed_tokens",                # t5gemma
+            "model.encoder.embed_tokens",                # t5gemma
             "rwkv.embeddings",                           # rwkv6
             "model.embeddings",                          # rwkv7
             "model.word_embeddings",                     # bailingmoe
@@ -887,22 +889,27 @@ class TensorNameMap:
 
         MODEL_TENSOR.DEC_ATTN_NORM: (
             "decoder.block.{bid}.layer.0.layer_norm", # t5
+            "model.decoder.layers.{bid}.pre_self_attn_layernorm", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_ATTN_Q: (
             "decoder.block.{bid}.layer.0.SelfAttention.q", # t5
+            "model.decoder.layers.{bid}.self_attn.q_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_ATTN_K: (
             "decoder.block.{bid}.layer.0.SelfAttention.k", # t5
+            "model.decoder.layers.{bid}.self_attn.k_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_ATTN_V: (
             "decoder.block.{bid}.layer.0.SelfAttention.v", # t5
+            "model.decoder.layers.{bid}.self_attn.v_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_ATTN_OUT: (
             "decoder.block.{bid}.layer.0.SelfAttention.o", # t5
+            "model.decoder.layers.{bid}.self_attn.o_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_ATTN_REL_B: (
@@ -911,22 +918,27 @@ class TensorNameMap:
 
         MODEL_TENSOR.DEC_CROSS_ATTN_NORM: (
             "decoder.block.{bid}.layer.1.layer_norm", # t5
+            "model.decoder.layers.{bid}.pre_cross_attn_layernorm", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_CROSS_ATTN_Q: (
             "decoder.block.{bid}.layer.1.EncDecAttention.q", # t5
+            "model.decoder.layers.{bid}.cross_attn.q_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_CROSS_ATTN_K: (
             "decoder.block.{bid}.layer.1.EncDecAttention.k", # t5
+            "model.decoder.layers.{bid}.cross_attn.k_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_CROSS_ATTN_V: (
             "decoder.block.{bid}.layer.1.EncDecAttention.v", # t5
+            "model.decoder.layers.{bid}.cross_attn.v_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_CROSS_ATTN_OUT: (
             "decoder.block.{bid}.layer.1.EncDecAttention.o", # t5
+            "model.decoder.layers.{bid}.cross_attn.o_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_CROSS_ATTN_REL_B: (
@@ -935,43 +947,70 @@ class TensorNameMap:
 
         MODEL_TENSOR.DEC_FFN_NORM: (
             "decoder.block.{bid}.layer.2.layer_norm", # t5
+            "model.decoder.layers.{bid}.pre_feedforward_layernorm", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_FFN_GATE: (
             "decoder.block.{bid}.layer.2.DenseReluDense.wi_0", # flan-t5
+            "model.decoder.layers.{bid}.mlp.gate_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_FFN_UP: (
             "decoder.block.{bid}.layer.2.DenseReluDense.wi",   # t5
             "decoder.block.{bid}.layer.2.DenseReluDense.wi_1", # flan-t5
+            "model.decoder.layers.{bid}.mlp.up_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_FFN_DOWN: (
             "decoder.block.{bid}.layer.2.DenseReluDense.wo", # t5
+            "model.decoder.layers.{bid}.mlp.down_proj", # t5gemma
         ),
 
         MODEL_TENSOR.DEC_OUTPUT_NORM: (
             "decoder.final_layer_norm", # t5
+            "model.decoder.norm", # t5gemma
+        ),
+
+        # T5GEMMA specific post layer normalization tensors
+        MODEL_TENSOR.DEC_POST_SELF_ATTN_NORM: (
+            "model.decoder.layers.{bid}.post_self_attn_layernorm", # t5gemma
+        ),
+        MODEL_TENSOR.DEC_POST_CROSS_ATTN_NORM: (
+            "model.decoder.layers.{bid}.post_cross_attn_layernorm", # t5gemma
+        ),
+        MODEL_TENSOR.DEC_POST_FFN_NORM: (
+            "model.decoder.layers.{bid}.post_feedforward_layernorm", # t5gemma
+        ),
+        MODEL_TENSOR.ENC_POST_SELF_ATTN_NORM: (
+            "model.encoder.layers.{bid}.post_self_attn_layernorm", # t5gemma
+        ),
+        MODEL_TENSOR.ENC_POST_FFN_NORM: (
+            "model.encoder.layers.{bid}.post_feedforward_layernorm", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_ATTN_NORM: (
             "encoder.block.{bid}.layer.0.layer_norm", # t5
+            "model.encoder.layers.{bid}.pre_self_attn_layernorm", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_ATTN_Q: (
             "encoder.block.{bid}.layer.0.SelfAttention.q", # t5
+            "model.encoder.layers.{bid}.self_attn.q_proj", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_ATTN_K: (
             "encoder.block.{bid}.layer.0.SelfAttention.k", # t5
+            "model.encoder.layers.{bid}.self_attn.k_proj", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_ATTN_V: (
             "encoder.block.{bid}.layer.0.SelfAttention.v", # t5
+            "model.encoder.layers.{bid}.self_attn.v_proj", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_ATTN_OUT: (
             "encoder.block.{bid}.layer.0.SelfAttention.o", # t5
+            "model.encoder.layers.{bid}.self_attn.o_proj", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_ATTN_REL_B: (
@@ -980,25 +1019,30 @@ class TensorNameMap:
 
         MODEL_TENSOR.ENC_FFN_NORM: (
             "encoder.block.{bid}.layer.1.layer_norm", # t5
+            "model.encoder.layers.{bid}.pre_feedforward_layernorm", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_FFN_GATE: (
             "encoder.block.{bid}.layer.1.DenseReluDense.wi_0", # flan-t5
+            "model.encoder.layers.{bid}.mlp.gate_proj", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_FFN_UP: (
             "encoder.block.{bid}.layer.1.DenseReluDense.wi",   # t5
             "encoder.block.{bid}.layer.1.DenseReluDense.wi_1", # flan-t5
+            "model.encoder.layers.{bid}.mlp.up_proj", # t5gemma
         ),
 
         MODEL_TENSOR.ENC_FFN_DOWN: (
             "encoder.block.{bid}.layer.1.DenseReluDense.wo", # t5
+            "model.encoder.layers.{bid}.mlp.down_proj", # t5gemma
         ),
 
         ############################################################################
         # TODO: these do not belong to block_mappings_cfg - move them to mappings_cfg
         MODEL_TENSOR.ENC_OUTPUT_NORM: (
             "encoder.final_layer_norm", # t5
+            "model.encoder.norm", # t5gemma
             "layer_norm",               # neobert
         ),
 

diff --git a/src/llama-arch.cpp b/src/llama-arch.cpp
@@ -66,6 +66,7 @@ static const std::map<llm_arch, const char *> LLM_ARCH_NAMES = {
     { LLM_ARCH_BITNET,           "bitnet"           },
     { LLM_ARCH_T5,               "t5"               },
     { LLM_ARCH_T5ENCODER,        "t5encoder"        },
+    { LLM_ARCH_T5GEMMA,          "t5gemma"          },
     { LLM_ARCH_JAIS,             "jais"             },
     { LLM_ARCH_NEMOTRON,         "nemotron"         },
     { LLM_ARCH_EXAONE,           "exaone"           },
@@ -1499,6 +1500,46 @@ static const std::map<llm_arch, std::map<llm_tensor, const char *>> LLM_TENSOR_N
             { LLM_TENSOR_ENC_FFN_UP,           "enc.blk.%d.ffn_up" },
         },
     },
+    {
+        LLM_ARCH_T5GEMMA,
+        {
+            { LLM_TENSOR_TOKEN_EMBD,           "token_embd" },
+            { LLM_TENSOR_OUTPUT,               "output" },
+            { LLM_TENSOR_DEC_OUTPUT_NORM,      "dec.output_norm" },
+            { LLM_TENSOR_DEC_ATTN_NORM,        "dec.blk.%d.attn_norm" },
+            { LLM_TENSOR_DEC_ATTN_Q,           "dec.blk.%d.attn_q" },
+            { LLM_TENSOR_DEC_ATTN_K,           "dec.blk.%d.attn_k" },
+            { LLM_TENSOR_DEC_ATTN_V,           "dec.blk.%d.attn_v" },
+            { LLM_TENSOR_DEC_ATTN_OUT,         "dec.blk.%d.attn_o" },
+            { LLM_TENSOR_DEC_ATTN_REL_B,       "dec.blk.%d.attn_rel_b" },
+            { LLM_TENSOR_DEC_CROSS_ATTN_NORM,  "dec.blk.%d.cross_attn_norm" },
+            { LLM_TENSOR_DEC_CROSS_ATTN_Q,     "dec.blk.%d.cross_attn_q" },
+            { LLM_TENSOR_DEC_CROSS_ATTN_K,     "dec.blk.%d.cross_attn_k" },
+            { LLM_TENSOR_DEC_CROSS_ATTN_V,     "dec.blk.%d.cross_attn_v" },
+            { LLM_TENSOR_DEC_CROSS_ATTN_OUT,   "dec.blk.%d.cross_attn_o" },
+            { LLM_TENSOR_DEC_CROSS_ATTN_REL_B, "dec.blk.%d.cross_attn_rel_b" },
+            { LLM_TENSOR_DEC_FFN_NORM,         "dec.blk.%d.ffn_norm" },
+            { LLM_TENSOR_DEC_FFN_GATE,         "dec.blk.%d.ffn_gate" },
+            { LLM_TENSOR_DEC_FFN_DOWN,         "dec.blk.%d.ffn_down" },
+            { LLM_TENSOR_DEC_FFN_UP,           "dec.blk.%d.ffn_up" },
+            { LLM_TENSOR_ENC_OUTPUT_NORM,      "enc.output_norm" },
+            { LLM_TENSOR_ENC_ATTN_NORM,        "enc.blk.%d.attn_norm" },
+            { LLM_TENSOR_ENC_ATTN_Q,           "enc.blk.%d.attn_q" },
+            { LLM_TENSOR_ENC_ATTN_K,           "enc.blk.%d.attn_k" },
+            { LLM_TENSOR_ENC_ATTN_V,           "enc.blk.%d.attn_v" },
+            { LLM_TENSOR_ENC_ATTN_OUT,         "enc.blk.%d.attn_o" },
+            { LLM_TENSOR_ENC_ATTN_REL_B,       "enc.blk.%d.attn_rel_b" },
+            { LLM_TENSOR_ENC_FFN_NORM,         "enc.blk.%d.ffn_norm" },
+            { LLM_TENSOR_ENC_FFN_GATE,         "enc.blk.%d.ffn_gate" },
+            { LLM_TENSOR_ENC_FFN_DOWN,         "enc.blk.%d.ffn_down" },
+            { LLM_TENSOR_ENC_FFN_UP,           "enc.blk.%d.ffn_up" },
+            { LLM_TENSOR_DEC_POST_SELF_ATTN_NORM, "dec.blk.%d.post_self_attn_norm" },
+            { LLM_TENSOR_DEC_POST_CROSS_ATTN_NORM, "dec.blk.%d.post_cross_attn_norm" },
+            { LLM_TENSOR_DEC_POST_FFN_NORM,    "dec.blk.%d.post_ffn_norm" },
+            { LLM_TENSOR_ENC_POST_SELF_ATTN_NORM, "enc.blk.%d.post_self_attn_norm" },
+            { LLM_TENSOR_ENC_POST_FFN_NORM,    "enc.blk.%d.post_ffn_norm" },
+        },
+    },
     {
         LLM_ARCH_JAIS,
         {
@@ -2196,6 +2237,11 @@ static const std::map<llm_tensor, llm_tensor_info> LLM_TENSOR_INFOS = {
     {LLM_TENSOR_ENC_FFN_NORM,               {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
     {LLM_TENSOR_DEC_ATTN_REL_B,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_GET_ROWS}},
     {LLM_TENSOR_ENC_ATTN_REL_B,             {LLM_TENSOR_LAYER_REPEATING, GGML_OP_GET_ROWS}},
+    {LLM_TENSOR_DEC_POST_SELF_ATTN_NORM,    {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_DEC_POST_CROSS_ATTN_NORM,   {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_DEC_POST_FFN_NORM,          {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_ENC_POST_SELF_ATTN_NORM,    {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
+    {LLM_TENSOR_ENC_POST_FFN_NORM,          {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL}},
     {LLM_TENSOR_FFN_DOWN_EXPS,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT_ID}},
     {LLM_TENSOR_FFN_GATE_EXPS,              {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT_ID}},
     {LLM_TENSOR_FFN_UP_EXPS,                {LLM_TENSOR_LAYER_REPEATING, GGML_OP_MUL_MAT_ID}},

diff --git a/src/llama-arch.h b/src/llama-arch.h
@@ -70,6 +70,7 @@ enum llm_arch {
     LLM_ARCH_BITNET,
     LLM_ARCH_T5,
     LLM_ARCH_T5ENCODER,
+    LLM_ARCH_T5GEMMA,
     LLM_ARCH_JAIS,
     LLM_ARCH_NEMOTRON,
     LLM_ARCH_EXAONE,
@@ -381,6 +382,12 @@ enum llm_tensor {
     LLM_TENSOR_DEC_FFN_DOWN,
     LLM_TENSOR_DEC_FFN_UP,
     LLM_TENSOR_DEC_OUTPUT_NORM,
+    // T5GEMMA specific post layer normalization tensors
+    LLM_TENSOR_DEC_POST_SELF_ATTN_NORM,
+    LLM_TENSOR_DEC_POST_CROSS_ATTN_NORM,
+    LLM_TENSOR_DEC_POST_FFN_NORM,
+    LLM_TENSOR_ENC_POST_SELF_ATTN_NORM,
+    LLM_TENSOR_ENC_POST_FFN_NORM,
     LLM_TENSOR_ENC_ATTN_NORM,
     LLM_TENSOR_ENC_ATTN_Q,
     LLM_TENSOR_ENC_ATTN_K,

diff --git a/src/llama-context.cpp b/src/llama-context.cpp
@@ -915,7 +915,7 @@ int llama_context::encode(const llama_batch & batch_inp) {
     }
 
     // TODO: hacky solution
-    if (model.arch == LLM_ARCH_T5 && t_embd) {
+    if ((model.arch == LLM_ARCH_T5 || model.arch == LLM_ARCH_T5GEMMA) && t_embd) {
         //cross.t_embd = t_embd;
 
         synchronize();
@@ -1271,7 +1271,7 @@ uint32_t llama_context::output_reserve(int32_t n_outputs) {
     bool has_embd   = cparams.embeddings;
 
     // TODO: hacky enc-dec support
-    if (model.arch == LLM_ARCH_T5) {
+    if (model.arch == LLM_ARCH_T5 || model.arch == LLM_ARCH_T5GEMMA) {
         has_logits = true;
         has_embd   = true;
     }