Upload 15 files

Browse files

Files changed (16) hide show

.gitattributes +1 -0
aligner_lm/config.yaml +151 -0
aligner_lm/model_only_last.ckpt +3 -0
duration_lm/config.yaml +168 -0
duration_lm/model_only_last.ckpt +3 -0
g2p/added_tokens.json +0 -0
g2p/config.json +30 -0
g2p/generation_config.json +6 -0
g2p/latest +1 -0
g2p/merges.txt +0 -0
g2p/model.safetensors +3 -0
g2p/special_tokens_map.json +31 -0
g2p/tokenizer.json +3 -0
g2p/tokenizer_config.json +0 -0
g2p/trainer_state.json +0 -0
g2p/vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+g2p/tokenizer.json filter=lfs diff=lfs merge=lfs -text

aligner_lm/config.yaml ADDED Viewed

	@@ -0,0 +1,151 @@

+acous_params:
+- - 480
+  - 1200
+  - 80
+- - 240
+  - 1200
+  - 160
+amp: true
+audio_num_mel_bins: 160
+audio_sample_rate: 24000
+base_config:
+- ./base_config.yaml
+c_spk_enc: 512
+char_dict_size: 15000
+conv_use_pos: false
+dec0_dilations:
+- 1
+- 2
+- 4
+- 1
+- 2
+- 4
+- 1
+dec0_kernel_size: 3
+dec_dilations:
+- 1
+- 2
+- 1
+- 2
+- 1
+dec_ffn_kernel_size: 9
+dec_kernel_size: 5
+dec_layers: 4
+dec_post_net_kernel: 3
+decoder_rnn_dim: 0
+decoder_type: conv
+dropout: 0.0
+dur_alpha: 1.0
+dur_context_enc: true
+dur_log: true
+dur_predictor_kernel: 3
+dur_predictor_layers: 2
+dur_use_char: true
+dur_use_spk: true
+enc_dec_norm: ln
+enc_dilations:
+- 1
+- 1
+- 1
+- 1
+enc_ffn_kernel_size: 5
+enc_kernel_size: 5
+enc_layers: 8
+enc_post_net_kernel: 3
+enc_pre_ln: true
+enc_prenet: true
+encoder_K: 8
+encoder_type: rel_fft
+endless_ds: true
+eval_max_batches: 0
+f0_max: 600
+f0_min: 60
+ffn_act: gelu
+ffn_hidden_size: 1024
+fft_size: 1200
+fg_spk_enc_hidden: 256
+fmax: 12000
+fmin: 0
+frames_multiple: 8
+hidden_size: 512
+hop_size: 240
+keep_c0_init: true
+lat_for_dur: false
+latent_dim: 16
+latent_size: 256
+layers_in_block: 2
+ling_label_dict_size:
+- 20
+- 4
+- 5
+- 2
+- 3
+- 3
+- 3
+- 6
+- 15
+ling_labels:
+- tone
+loud_norm: false
+mel_vmax: 0.5
+mel_vmin: -6
+min_frames: 50
+mix_melout_timbre: true
+mix_ph_timbre: false
+mixed_precision: bf16
+model_type: 1
+multistage: false
+no_text_enc: false
+num_ckpt_keep: 5
+num_heads: 2
+num_spk: 50000
+out_wav_norm: true
+pitch_extractor: reaper
+pitch_key: pitch
+pitch_type: frame
+precision: bf16
+ref_mel_bins: 160
+seed: 1234
+split_ref: true
+use_bert_input: false
+use_cfg: true
+use_char: true
+use_cur_global: false
+use_cur_global_dec: true
+use_dur_embed: true
+use_dur_mask_embed: true
+use_ema: false
+use_expand_ph: true
+use_finegrained_spk: false
+use_gt_dur: false
+use_gt_f0: false
+use_mix_spk_embed: false
+use_new_vae: false
+use_ph_level_f0: false
+use_ph_pos_embed: true
+use_pitch_embed: false
+use_pitch_embed_dec: false
+use_pitch_pred: true
+use_pos_embed: true
+use_qk_norm: true
+use_random_spk_embed: false
+use_seq_cfg: true
+use_spk_embed: false
+use_spk_enc: true
+use_spk_id: false
+use_uv: true
+use_vae: true
+use_vpcfm: true
+use_vqvae: true
+use_word_encoder: true
+use_word_input: false
+vae_dur_grad: 0.1
+vae_enc_hidden_size: 384
+vae_stride: 4
+vae_word_conder_layers: 0
+vq_stride: 8
+vqvae_start_steps: 0
+win_size: 1200
+word_dict_size: 10000
+z_channels: 64
+z_clamp: 2.0

aligner_lm/model_only_last.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a00f18ec36f8c1328ddab7a405c8e388790a1c14fdbdd07c546fcacaf5d19296
+size 218434266

duration_lm/config.yaml ADDED Viewed

	@@ -0,0 +1,168 @@

+acous_params:
+- - 480
+  - 1200
+  - 80
+- - 240
+  - 1200
+  - 160
+amp: false
+audio_num_mel_bins: 160
+audio_sample_rate: 24000
+balance_sil: true
+c_spk_enc: 512
+char_dict_size: 15000
+conv_use_pos: false
+dec0_dilations:
+- 1
+- 2
+- 4
+- 1
+- 2
+- 4
+- 1
+dec0_kernel_size: 3
+dec_dilations:
+- 1
+- 2
+- 1
+- 2
+- 1
+dec_ffn_kernel_size: 9
+dec_hidden_size: 2048
+dec_inp_add_noise: false
+dec_kernel_size: 5
+dec_layers: 4
+dec_num_heads: 8
+dec_post_net_kernel: 3
+decoder_rnn_dim: 0
+decoder_type: conv
+dropout: 0.0
+ds_add_pitch_embed: false
+dur_alpha: 1.0
+dur_code_size: 128
+dur_context_enc: true
+dur_log: true
+dur_model_hidden_size: 512
+dur_model_layers: 8
+dur_model_type: ar_mse
+dur_predictor_kernel: 3
+dur_predictor_layers: 2
+dur_txt_hs: 512
+dur_use_char: true
+dur_use_spk: true
+enc_dec_norm: ln
+enc_dilations:
+- 1
+- 1
+- 1
+- 1
+enc_ffn_kernel_size: 3
+enc_hidden_size: 256
+enc_kernel_size: 5
+enc_layers: 4
+enc_post_net_kernel: 3
+enc_pre_ln: true
+enc_prenet: true
+encoder_K: 8
+encoder_type: rel_fft
+f0_max: 600
+f0_min: 60
+ffn_act: gelu
+ffn_hidden_size: 1024
+fft_size: 1200
+fg_spk_enc_hidden: 256
+flatten_dec: true
+fmax: 12000
+fmin: 0
+frames_multiple: 8
+hidden_size: 512
+hop_size: 240
+ignore_begin_end_sil: false
+lat_for_dur: false
+latent_size: 256
+layers_in_block: 2
+ling_label_dict_size:
+- 20
+- 4
+- 5
+- 2
+- 3
+- 3
+- 3
+- 6
+- 15
+ling_labels:
+- tone
+lm_num_layers: 24
+lm_use_enc: true
+loud_norm: false
+max_tokens: 6000
+mel_vmax: 0.5
+mel_vmin: -6
+min_frames: 0
+mix_melout_timbre: true
+mix_ph_timbre: false
+model_type: 1
+multistage: false
+no_text_enc: false
+num_heads: 2
+out_wav_norm: true
+pad_frames: false
+precision: fp16
+predict_pitch: false
+predictor_dropout: 0.0
+predictor_grad: 1.0
+predictor_hidden: -1
+predictor_kernel: 5
+predictor_layers: 5
+print_nan_grads: true
+ref_mel_bins: 160
+ref_size_max: 2000
+ref_size_min: 1000
+remove_sil: false
+shuffle_ref: false
+split_ref: true
+temperature: 0.8
+tone_percep_ckpt: ''
+train_spk_embed_only: false
+use_bert_input: false
+use_char: true
+use_cur_global: false
+use_cur_global_dec: true
+use_dur_embed: true
+use_dur_mask_embed: true
+use_finegrained_spk: false
+use_global_lat: false
+use_gpt: true
+use_gt_dur: false
+use_gt_f0: false
+use_mix_spk_embed: false
+use_new_vae: false
+use_ph_level_f0: false
+use_ph_pos_embed: true
+use_pitch_embed: false
+use_pitch_embed_dec: false
+use_pitch_pred: true
+use_pos_embed: false
+use_post_ln: false
+use_random_spk_embed: false
+use_rot_embed: true
+use_spk_embed: false
+use_spk_enc: false
+use_spk_id: false
+use_text_postnet: true
+use_uv: true
+use_vae: true
+use_vqvae: true
+use_word_encoder: true
+use_word_input: false
+vae_dur_grad: 0.1
+vae_enc_hidden_size: 384
+vae_word_conder_layers: 0
+vq_stride: 8
+w_nonsil: 10.0
+w_sil: 1.0
+word_dict_size: 10000
+z_channels: 64
+z_clamp: 2.0

duration_lm/model_only_last.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f21f4205c5d3ec4bef69716a85ca3d37f25c35b429bac500477a2085039b43f
+size 267955084

g2p/added_tokens.json ADDED Viewed

The diff for this file is too large to render. See raw diff

g2p/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "./user/checkpoints/Qwen2-0.5B",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 24,
+  "model_type": "qwen2",
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.48.3",
+  "use_cache": false,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 168896
+}

g2p/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.48.3"
+}

g2p/latest ADDED Viewed

	@@ -0,0 +1 @@


1	+ global_step95500

g2p/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

g2p/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f9d70d454ee35d023a9a54552716a8ccf2411c967abc6a857160527046f62a2
+size 1018490136

g2p/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

g2p/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18bf578a236efa19e36ee7be04c327ba4abc23aed0213a31d3199a55ea7d2411
+size 14796960

g2p/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

g2p/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

g2p/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff