ShakhzoDavronov
/

whisper-large-lora-uz

Model card Files Files and versions

whisper-large-lora-uz / README.md

ShakhzoDavronov's picture

ShakhzoDavronov

Update README.md

56c274b verified 6 months ago

|

history blame contribute delete

2.21 kB

	---
	library_name: transformers
	tags: []
	---

	# Speech-to-text model for Uzbek

	### Model Description
	The Whisper model was fine tuned with LORA (Low-Rank Adaption) to reduce time consumption and efficent use of resource (GPU/CPU).
	- Base model: [whisper-large-v2](https://huggingface.co/openai/whisper-large-v2) (over 1.5B million parameters)
	- LORA fine-tuned model: [whisper-large-lora-uz](https://huggingface.co/ShakhzoDavronov/whisper-large-lora-uz) (around 15 million paramters)


	### Datasets
	The popular dataset [common voice version 13.0](https://huggingface.co/datasets/mozilla-foundation/common_voice_13_0/viewer/uz) was feed into model.


	### Testing Model
	With code provided below user can test model performance:
	```python
	import torch
	from transformers import AutomaticSpeechRecognitionPipeline
	from transformers import WhisperTokenizer,WhisperForConditionalGeneration,WhisperProcessor
	from peft import PeftModel, PeftConfig

	stt_model_id = "ShakhzoDavronov/whisper-large-lora-uz"
	language = "Uzbek"
	task = "transcribe"
	stt_config = PeftConfig.from_pretrained(stt_model_id)
	stt_model = WhisperForConditionalGeneration.from_pretrained(
	stt_config.base_model_name_or_path, load_in_8bit=True, device_map="auto"
	)

	stt_model = PeftModel.from_pretrained(stt_model, stt_model_id)
	stt_tokenizer = WhisperTokenizer.from_pretrained(stt_config.base_model_name_or_path, language=language, task=task)
	stt_processor = WhisperProcessor.from_pretrained(stt_config.base_model_name_or_path, language=language, task=task)
	stt_feature_extractor = stt_processor.feature_extractor
	forced_decoder_ids = stt_processor.get_decoder_prompt_ids(language=language, task=task)
	stt_pipe = AutomaticSpeechRecognitionPipeline(model=stt_model, tokenizer=stt_tokenizer, feature_extractor=stt_feature_extractor)


	def transcribe(audio):
	with torch.cuda.amp.autocast():
	text = stt_pipe(audio, generate_kwargs={"forced_decoder_ids": forced_decoder_ids}, max_new_tokens=255)["text"]
	return text
	```

	```python
	extracted_text=transcribe(test_audio)
	ner_labels=ner_pipe(extracted_text)
	for ner in ner_labels:
	print(ner)
	```
	Results:
	```python
	Soon
	```

	### Training Metrics
	* WER: ~46.0
	* Normalized WER: ~33.0