Spaces:
Running
on
Zero
Running
on
Zero
Update app.py
Browse files
app.py
CHANGED
@@ -85,7 +85,7 @@ with gr.Blocks(theme=gr.themes.Soft()) as demo:
|
|
85 |
output_spectrogram = gr.Image(label="📊 Spectrogram")
|
86 |
|
87 |
model_limitations = gr.Textbox(
|
88 |
-
value="""1. Mô hình có thể hoạt động không tốt với các ký tự số, ngày tháng, ký tự đặc biệt, ... =>
|
89 |
2. Nhịp điệu của một số audio có thể chưa được mạch lạc, giật cục => Gợi ý hãy chọn các audio mẫu đọc rõ ràng, không ngắt quãng quá nhiều, sẽ cải thiện được kết quả tổng hợp.
|
90 |
3. Audio reference text sử dụng model whisper-large-v3-turbo nên sẽ có một vài trường hợp không nhận diện chính xác Tiếng Việt, dẫn đến kết quả tổng hợp giọng nói rất tệ.
|
91 |
4. Checkpoint của mô hình hiện tại dừng lại ở khoảng step thứ 350.000, được huấn luyện với 150 giờ dữ liệu public => Việc voice cloning cho các giọng ngoại lai có thể không được chính xác tuyệt đối.""",
|
|
|
85 |
output_spectrogram = gr.Image(label="📊 Spectrogram")
|
86 |
|
87 |
model_limitations = gr.Textbox(
|
88 |
+
value="""1. Mô hình có thể hoạt động không tốt với các ký tự số, ngày tháng, ký tự đặc biệt, ... => Cần bổ sung thêm một module text normalization (chuẩn hoá text).
|
89 |
2. Nhịp điệu của một số audio có thể chưa được mạch lạc, giật cục => Gợi ý hãy chọn các audio mẫu đọc rõ ràng, không ngắt quãng quá nhiều, sẽ cải thiện được kết quả tổng hợp.
|
90 |
3. Audio reference text sử dụng model whisper-large-v3-turbo nên sẽ có một vài trường hợp không nhận diện chính xác Tiếng Việt, dẫn đến kết quả tổng hợp giọng nói rất tệ.
|
91 |
4. Checkpoint của mô hình hiện tại dừng lại ở khoảng step thứ 350.000, được huấn luyện với 150 giờ dữ liệu public => Việc voice cloning cho các giọng ngoại lai có thể không được chính xác tuyệt đối.""",
|