Update Speech Tower Training

Browse files

Files changed (8) hide show

config.json +3 -3
generation_config.json +1 -1
model-00001-of-00003.safetensors +2 -2
model-00002-of-00003.safetensors +2 -2
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +142 -142
processor_config.json +0 -3
speech/adapter_model.safetensors +2 -2

config.json CHANGED Viewed

@@ -45,8 +45,8 @@
   },
   "audio_token_index": 262143,
   "auto_map": {
-    "AutoConfig": "configuration_gemma3mm.Gemma3MMConfig",
-    "AutoModel": "modeling_gemma3mm.Gemma3MMForConditionalGeneration"
   },
   "boa_token_index": 256001,
   "boi_token_index": 255999,
@@ -98,7 +98,7 @@
     "vocab_size": 262208
   },
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.50.2",
   "use_cache": false,
   "vision_config": {
     "attention_dropout": 0.0,

   },
   "audio_token_index": 262143,
   "auto_map": {
+    "AutoConfig": "junnei/gemma-3-4b-it-speech--configuration_gemma3mm.Gemma3MMConfig",
+    "AutoModel": "junnei/gemma-3-4b-it-speech--modeling_gemma3mm.Gemma3MMForConditionalGeneration"
   },
   "boa_token_index": 256001,
   "boi_token_index": 255999,
     "vocab_size": 262208
   },
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.0.dev0",
   "use_cache": false,
   "vision_config": {
     "attention_dropout": 0.0,

generation_config.json CHANGED Viewed

@@ -7,5 +7,5 @@
     106
   ],
   "pad_token_id": 0,
-  "transformers_version": "4.50.2"
 }

     106
   ],
   "pad_token_id": 0,
+  "transformers_version": "4.51.0.dev0"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68fa6803ca5bac8b820884353b87a51620b96e5d84881f49fa7bd04a50936f5b
-size 4976361384

 version https://git-lfs.github.com/spec/v1
+oid sha256:063ff246586b3cccf3d28be470e42b79303bdc145d1192940e0cb98ca847d4f5
+size 4947827632

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db2da1fd472551e13a6824275c3845db1ee5f46f8528b77354d70fcc0b60aab4
-size 4984907872

 version https://git-lfs.github.com/spec/v1
+oid sha256:f616857a2fbb5eb84de53e9583f5ddc75622e2ef912aab204b829f03a807fcdd
+size 4987779168

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc0ebd4fc3b21bca7cf785fb73a3ea708fc28b6a1c139b28a71e6a137d2c8d32
-size 732141104

 version https://git-lfs.github.com/spec/v1
+oid sha256:20497f36e13c3e7554613d9d4b25455efc058422718b9a871c2f246f14dac586
+size 1949903376

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 10693095712
   },
   "weight_map": {
     "audio_projector.0.bias": "model-00001-of-00003.safetensors",
@@ -1400,19 +1400,19 @@
     "language_model.model.base_model.model.layers.25.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.25.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.25.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.k_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
@@ -1427,87 +1427,87 @@
     "language_model.model.base_model.model.layers.26.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.k_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.k_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.q_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.q_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.27.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.k_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.k_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.q_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.q_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.28.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.k_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.k_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.q_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.q_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.29.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.3.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.3.mlp.down_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
@@ -1539,29 +1539,29 @@
     "language_model.model.base_model.model.layers.30.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.k_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.k_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.q_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.q_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.30.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.31.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.31.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
@@ -1724,19 +1724,19 @@
     "language_model.model.base_model.model.layers.6.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.6.self_attn.v_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.6.self_attn.v_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.down_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.down_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.gate_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.gate_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.up_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.up_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.mlp.up_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.post_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.7.pre_feedforward_layernorm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.7.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.7.self_attn.k_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
@@ -1755,29 +1755,29 @@
     "language_model.model.base_model.model.layers.8.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.mlp.gate_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.mlp.gate_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.mlp.gate_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.k_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.k_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.o_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.o_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.o_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.q_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.q_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.q_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.v_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
-    "language_model.model.base_model.model.layers.8.self_attn.v_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.9.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.9.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",

 {
   "metadata": {
+    "total_size": 11885195552
   },
   "weight_map": {
     "audio_projector.0.bias": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.25.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.25.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.25.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.mlp.up_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.mlp.up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.26.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.k_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.26.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.gate_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.gate_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.up_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.mlp.up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.k_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.k_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.o_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.o_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.q_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.q_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.v_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.27.self_attn.v_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.gate_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.gate_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.up_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.mlp.up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.k_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.k_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.o_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.o_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.q_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.q_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.v_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.28.self_attn.v_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.gate_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.gate_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.up_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.mlp.up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.k_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.k_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.o_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.o_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.q_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.q_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.v_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.29.self_attn.v_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.3.mlp.down_proj.base_layer.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.3.mlp.down_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.mlp.down_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.mlp.gate_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.mlp.gate_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.mlp.gate_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.mlp.up_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.mlp.up_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.mlp.up_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.post_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.30.pre_feedforward_layernorm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.k_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.k_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.k_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.k_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.o_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.o_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.o_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.q_norm.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.q_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.q_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.q_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.v_proj.base_layer.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.v_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.30.self_attn.v_proj.lora_B.speech.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.31.mlp.down_proj.base_layer.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.31.mlp.down_proj.lora_A.speech.weight": "model-00003-of-00003.safetensors",
     "language_model.model.base_model.model.layers.6.self_attn.v_proj.base_layer.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.6.self_attn.v_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.6.self_attn.v_proj.lora_B.speech.weight": "model-00001-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.7.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.7.self_attn.k_proj.base_layer.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.7.self_attn.k_proj.lora_A.speech.weight": "model-00001-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.down_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.mlp.gate_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.mlp.gate_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.mlp.gate_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.up_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.up_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.mlp.up_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.post_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.8.pre_feedforward_layernorm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.k_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.k_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.k_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.k_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.o_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.o_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.o_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.q_norm.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.q_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.q_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.q_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.v_proj.base_layer.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.v_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",
+    "language_model.model.base_model.model.layers.8.self_attn.v_proj.lora_B.speech.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.9.mlp.down_proj.base_layer.weight": "model-00002-of-00003.safetensors",
     "language_model.model.base_model.model.layers.9.mlp.down_proj.lora_A.speech.weight": "model-00002-of-00003.safetensors",

processor_config.json CHANGED Viewed

@@ -1,7 +1,4 @@
 {
-  "auto_map": {
-    "AutoProcessor": "processing_gemma3mm.Gemma3MMProcessor"
-  },
   "image_seq_length": 256,
   "processor_class": "Gemma3MMProcessor"
 }

 {
   "image_seq_length": 256,
   "processor_class": "Gemma3MMProcessor"
 }

speech/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7650a150c51d3a2c335423f5a18c390145d538a74309355a8029f5aee0307d3
-size 1192162472

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac07e64184582b55efd1e8c9164e300f0290f27ddf3b9a9100539bf815f53fc2
+size 2384262280