metadata
license: apache-2.0
datasets:
- Tharyck/multispeaker-tts-ptbr
language:
- pt
base_model:
- SWivid/F5-TTS
pipeline_tag: text-to-speech
Este repositório contém um modelo de TTS (Text-to-Speech) treinado no modelo F5TTS, com foco em vozes brasileiras multilocutor.
github
https://github.com/tharyckgusmao/multispeaker-audio-f5/tree/main
📦 Dados utilizados
O treinamento utilizou uma combinação de datasets públicos e privados, totalizando:
⏱️ Total em horas: 390.78h
📄 Total de registros: 159,348 samples
📂 Dataset público: multispeaker-tts-ptbr
🚀 Treinamento
☁️ Cloud: Runpod
🛠️ Fases do treino:
~30h: segmentação e transição
~24h com GPU A40
~30h com GPU A4000
💸 Custo estimado: $50 USD
🔊 Samples de áudio
🎙️ Voz única (locutor único): single
👥 Múltiplas vozes (multilocutor): multi
⚠️ Aviso
Este projeto foi desenvolvido com fins educacionais e de pesquisa.
Não me responsabilizo pelo uso indevido ou aplicações comerciais sem o devido licenciamento.