Spaces:

hynt
/

F5-TTS-Vietnamese-100h

Running on Zero

hynt commited on Mar 30

Commit

984bb7b

verified ·

1 Parent(s): 153a74a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -85,7 +85,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
         output_spectrogram = gr.Image(label="📊 Spectrogram")
     model_limitations = gr.Textbox(
-        value="""1. Mô hình có thể hoạt động không tốt với các ký tự số, ngày tháng, ký tự đặc biệt, ... => cần bổ sung thêm một module text normalization (chuẩn hoá text).
 2. Nhịp điệu của một số audio có thể chưa được mạch lạc, giật cục => Gợi ý hãy chọn các audio mẫu đọc rõ ràng, không ngắt quãng quá nhiều, sẽ cải thiện được kết quả tổng hợp.
 3. Audio reference text sử dụng model whisper-large-v3-turbo nên sẽ có một vài trường hợp không nhận diện chính xác Tiếng Việt, dẫn đến kết quả tổng hợp giọng nói rất tệ.
 4. Checkpoint của mô hình hiện tại dừng lại ở khoảng step thứ 350.000, được huấn luyện với 150 giờ dữ liệu public => Việc voice cloning cho các giọng ngoại lai có thể không được chính xác tuyệt đối.""",

         output_spectrogram = gr.Image(label="📊 Spectrogram")
     model_limitations = gr.Textbox(
+        value="""1. Mô hình có thể hoạt động không tốt với các ký tự số, ngày tháng, ký tự đặc biệt, ... => Cần bổ sung thêm một module text normalization (chuẩn hoá text).
 2. Nhịp điệu của một số audio có thể chưa được mạch lạc, giật cục => Gợi ý hãy chọn các audio mẫu đọc rõ ràng, không ngắt quãng quá nhiều, sẽ cải thiện được kết quả tổng hợp.
 3. Audio reference text sử dụng model whisper-large-v3-turbo nên sẽ có một vài trường hợp không nhận diện chính xác Tiếng Việt, dẫn đến kết quả tổng hợp giọng nói rất tệ.
 4. Checkpoint của mô hình hiện tại dừng lại ở khoảng step thứ 350.000, được huấn luyện với 150 giờ dữ liệu public => Việc voice cloning cho các giọng ngoại lai có thể không được chính xác tuyệt đối.""",