Tharyck's picture
Update README.md
bbf3a1a verified
metadata
license: apache-2.0
datasets:
  - Tharyck/multispeaker-tts-ptbr
language:
  - pt
base_model:
  - SWivid/F5-TTS
pipeline_tag: text-to-speech

Este repositório contém um modelo de TTS (Text-to-Speech) treinado no modelo F5TTS, com foco em vozes brasileiras multilocutor.

github

https://github.com/tharyckgusmao/multispeaker-audio-f5/tree/main

📦 Dados utilizados

O treinamento utilizou uma combinação de datasets públicos e privados, totalizando:

⏱️ Total em horas: 390.78h

📄 Total de registros: 159,348 samples

📂 Dataset público: multispeaker-tts-ptbr

🚀 Treinamento

☁️ Cloud: Runpod

🛠️ Fases do treino:

    ~30h: segmentação e transição

    ~24h com GPU A40

    ~30h com GPU A4000

💸 Custo estimado: $50 USD

🔊 Samples de áudio

🎙️ Voz única (locutor único): single

👥 Múltiplas vozes (multilocutor): multi

⚠️ Aviso

Este projeto foi desenvolvido com fins educacionais e de pesquisa.
Não me responsabilizo pelo uso indevido ou aplicações comerciais sem o devido licenciamento.