kkail8
/

prior_v1_5

Model card Files Files and versions

xet

Community

ChocoWu commited on Feb 13

Commit

e580ef5

1 Parent(s): f1e1bf3

add model

Browse files

Files changed (2) hide show

model/pytorch_model-00001.bin +3 -0
model/pytorch_model.bin.index.json +479 -0

model/pytorch_model-00001.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d42253691e9c29665d3f771a7215a1610145472352a49ce6549575c7c02cdba5
+size 769540626

model/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,479 @@

+{
+  "metadata": {
+    "total_size": 733.7372665405273
+  },
+  "weight_map": {
+    "spatial_query_emb": "pytorch_model-00001.bin",
+    "temporal_query_emb": "pytorch_model-00001.bin",
+    "text_encoder.modality_preprocessors.text.pos_embed": "pytorch_model-00001.bin",
+    "text_encoder.modality_preprocessors.text.mask": "pytorch_model-00001.bin",
+    "text_encoder.modality_preprocessors.text.token_embedding.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.0.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.1.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.2.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.3.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.4.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.5.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.6.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.7.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.8.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.9.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.10.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.11.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.12.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.13.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.14.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.15.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.16.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.17.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.18.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.19.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.20.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.21.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.22.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.attn.in_proj_weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.attn.in_proj_bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.attn.out_proj.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.attn.out_proj.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.norm_1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.norm_1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.norm_2.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_trunks.text.blocks.23.norm_2.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_heads.text.proj.0.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_heads.text.proj.0.bias": "pytorch_model-00001.bin",
+    "text_encoder.modality_heads.text.proj.1.weight": "pytorch_model-00001.bin",
+    "text_encoder.modality_postprocessors.text.1.log_logit_scale": "pytorch_model-00001.bin",
+    "in_proj.weight": "pytorch_model-00001.bin",
+    "in_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.0.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.1.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.2.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.layers.3.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.norm.weight": "pytorch_model-00001.bin",
+    "prior_extractor.encoder.norm.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.multihead_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.multihead_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.multihead_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.multihead_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.norm3.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.0.norm3.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.multihead_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.multihead_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.multihead_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.multihead_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.norm3.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.1.norm3.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.multihead_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.multihead_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.multihead_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.multihead_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.norm3.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.2.norm3.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.self_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.self_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.self_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.self_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.multihead_attn.in_proj_weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.multihead_attn.in_proj_bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.multihead_attn.out_proj.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.multihead_attn.out_proj.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.linear1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.linear1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.linear2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.linear2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.norm1.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.norm1.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.norm2.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.norm2.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.norm3.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.layers.3.norm3.bias": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.norm.weight": "pytorch_model-00001.bin",
+    "prior_extractor.decoder.norm.bias": "pytorch_model-00001.bin",
+    "out_proj.weight": "pytorch_model-00001.bin",
+    "out_proj.bias": "pytorch_model-00001.bin",
+    "onset_predictor.weight": "pytorch_model-00001.bin",
+    "onset_predictor.bias": "pytorch_model-00001.bin",
+    "video_embedder.proj.weight": "pytorch_model-00001.bin",
+    "video_embedder.proj.bias": "pytorch_model-00001.bin",
+    "audio_embedder.weight": "pytorch_model-00001.bin",
+    "audio_embedder.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.m1_proj.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.m1_proj.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.m2_proj.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.m2_proj.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.values_m1_proj.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.values_m1_proj.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.values_m2_proj.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.values_m2_proj.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.out_m1_proj.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.out_m1_proj.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.out_m2_proj.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.cross_attn.out_m2_proj.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "va_spatial_encoder.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "va_spatial_encoder.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.m1_proj.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.m1_proj.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.m2_proj.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.m2_proj.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.values_m1_proj.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.values_m1_proj.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.values_m2_proj.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.values_m2_proj.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.out_m1_proj.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.out_m1_proj.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.out_m2_proj.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.cross_attn.out_m2_proj.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.mlp.fc1.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.mlp.fc1.bias": "pytorch_model-00001.bin",
+    "va_temporal_encoder.mlp.fc2.weight": "pytorch_model-00001.bin",
+    "va_temporal_encoder.mlp.fc2.bias": "pytorch_model-00001.bin",
+    "discriminator.cls_token": "pytorch_model-00001.bin",
+    "discriminator.attn.qkv.weight": "pytorch_model-00001.bin",
+    "discriminator.attn.qkv.bias": "pytorch_model-00001.bin",
+    "discriminator.attn.q_norm.weight": "pytorch_model-00001.bin",
+    "discriminator.attn.k_norm.weight": "pytorch_model-00001.bin",
+    "discriminator.attn.proj.weight": "pytorch_model-00001.bin",
+    "discriminator.attn.proj.bias": "pytorch_model-00001.bin",
+    "discriminator.classifier.weight": "pytorch_model-00001.bin",
+    "discriminator.classifier.bias": "pytorch_model-00001.bin"
+  }
+}