Hhhh

Running

App Files Files Community

Hhhh / sadtalker_utils.py

Hjgugugjhuhjggg

Upload 28 files

e83e49f verified 4 months ago

raw

history blame

40.3 kB

	import os
	import shutil
	import uuid
	import cv2
	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import yaml
	from PIL import Image
	from skimage import img_as_ubyte, transform
	import safetensors
	import librosa
	from pydub import AudioSegment
	import imageio
	from scipy import signal
	from scipy.io import loadmat, savemat, wavfile
	import glob
	import tempfile
	from tqdm import tqdm
	import math
	import torchaudio
	import urllib.request

	REALESRGAN_URL = "https://github.com/xinntao/Real-ESRGAN/releases/download/v0.2.1/RealESRGAN_x2plus.pth"
	CODEFORMER_URL = "https://github.com/sczhou/CodeFormer/releases/download/v0.1.0/codeformer.pth"
	RESTOREFORMER_URL = "https://github.com/TencentARC/GFPGAN/releases/download/v1.3.4/RestoreFormer.pth"
	GFPGAN_URL = "https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.4.pth"
	kp_url = "https://huggingface.co/usyd-community/vitpose-base-simple/resolve/main/model.safetensors"
	kp_file = "kp_detector.safetensors"
	aud_url = "https://huggingface.co/vinthony/SadTalker/resolve/main/auido2pose_00140-model.pth"
	aud_file = "auido2pose_00140-model.pth"
	wav_url = "https://huggingface.co/facebook/wav2vec2-base/resolve/main/pytorch_model.bin"
	wav_file = "wav2vec2.pth"
	gen_url = "https://huggingface.co/vinthony/SadTalker/resolve/main/wav2lip.pth"
	gen_file = "generator.pth"
	mapx_url = "https://huggingface.co/vinthony/SadTalker/resolve/main/mapping_00229-model.pth.tar"
	mapx_file = "mapping.pth"
	den_url = "https://huggingface.co/KwaiVGI/LivePortrait/resolve/main/liveportrait/base_models/motion_extractor.pth"
	den_file = "dense_motion.pth"


	def download_model(url, filename, checkpoint_dir):
	if not os.path.exists(os.path.join(checkpoint_dir, filename)):
	print(f"Downloading {filename}...")
	os.makedirs(checkpoint_dir, exist_ok=True)
	urllib.request.urlretrieve(url, os.path.join(checkpoint_dir, filename))
	print(f"{filename} downloaded.")
	else:
	print(f"{filename} already exists.")


	def mp3_to_wav_util(mp3_filename, wav_filename, frame_rate):
	AudioSegment.from_file(mp3_filename).set_frame_rate(frame_rate).export(wav_filename, format="wav")


	def load_wav_util(path, sr):
	return librosa.core.load(path, sr=sr)[0]


	def save_wav_util(wav, path, sr):
	wav *= 32767 / max(0.01, np.max(np.abs(wav)))
	wavfile.write(path, sr, wav.astype(np.int16))


	class OcclusionAwareKPDetector(nn.Module):

	def __init__(self, kp_channels, num_kp, num_dilation_blocks, dropout_rate):
	super(OcclusionAwareKPDetector, self).__init__()
	self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3)
	self.bn1 = nn.BatchNorm2d(64)
	self.relu = nn.ReLU()
	self.conv2 = nn.Conv2d(64, num_kp, kernel_size=3, padding=1)

	def forward(self, x):
	x = self.relu(self.bn1(self.conv1(x)))
	x = self.conv2(x)
	kp = {'value': x.view(x.size(0), -1)}
	return kp


	class Wav2Vec2Model(nn.Module):

	def __init__(self):
	super(Wav2Vec2Model, self).__init__()
	self.conv = nn.Conv1d(1, 64, kernel_size=10, stride=5, padding=5)
	self.bn = nn.BatchNorm1d(64)
	self.relu = nn.ReLU()
	self.fc = nn.Linear(64, 2048)

	def forward(self, audio):
	x = audio.unsqueeze(1)
	x = self.relu(self.bn(self.conv(x)))
	x = torch.mean(x, dim=-1)
	x = self.fc(x)
	return x


	class AudioCoeffsPredictor(nn.Module):

	def __init__(self, input_dim, output_dim):
	super(AudioCoeffsPredictor, self).__init__()
	self.linear = nn.Linear(input_dim, output_dim)

	def forward(self, audio_embedding):
	return self.linear(audio_embedding)


	class MappingNet(nn.Module):

	def __init__(self, num_coeffs, num_layers, hidden_dim):
	super(MappingNet, self).__init__()
	layers = []
	input_dim = num_coeffs * 2
	for _ in range(num_layers):
	layers.append(nn.Linear(input_dim, hidden_dim))
	layers.append(nn.ReLU())
	input_dim = hidden_dim
	layers.append(nn.Linear(hidden_dim, num_coeffs))
	self.net = nn.Sequential(*layers)

	def forward(self, x):
	return self.net(x)


	class DenseMotionNetwork(nn.Module):

	def __init__(self, num_kp, num_channels, block_expansion, num_blocks, max_features):
	super(DenseMotionNetwork, self).__init__()
	self.conv1 = nn.Conv2d(num_channels, max_features, kernel_size=3, padding=1)
	self.relu = nn.ReLU()
	self.conv2 = nn.Conv2d(max_features, num_channels, kernel_size=3, padding=1)

	def forward(self, kp_source, kp_driving, jacobian):
	x = self.relu(self.conv1(kp_source))
	x = self.conv2(x)
	sparse_motion = {'dense_motion': x}
	return sparse_motion


	class Hourglass(nn.Module):

	def __init__(self, block_expansion, num_blocks, max_features, num_channels, kp_size, num_deform_blocks):
	super(Hourglass, self).__init__()
	self.encoder = nn.Sequential(nn.Conv2d(num_channels, max_features, kernel_size=7, stride=2, padding=3),
	nn.BatchNorm2d(max_features), nn.ReLU())
	self.decoder = nn.Sequential(
	nn.ConvTranspose2d(max_features, num_channels, kernel_size=4, stride=2, padding=1), nn.Tanh())

	def forward(self, source_image, kp_driving, **kwargs):
	x = self.encoder(source_image)
	x = self.decoder(x)
	B, C, H, W = x.size()
	video = []
	for _ in range(10):
	frame = (x[0].cpu().detach().numpy().transpose(1, 2, 0) * 127.5 + 127.5).clip(0, 255).astype(
	np.uint8)
	video.append(frame)
	return video


	class Face3DHelper:

	def __init__(self, local_pca_path, device):
	self.local_pca_path = local_pca_path
	self.device = device

	def run(self, source_image):
	h, w, _ = source_image.shape
	x_min = w // 4
	y_min = h // 4
	x_max = x_min + w // 2
	y_max = y_min + h // 2
	return [x_min, y_min, x_max, y_max]


	class Face3DHelperOld(Face3DHelper):

	def __init__(self, local_pca_path, device):
	super(Face3DHelperOld, self).__init__(local_pca_path, device)


	class MouthDetector:

	def __init__(self):
	pass

	def detect(self, image):
	h, w = image.shape[:2]
	return (w // 2, h // 2)


	class KeypointNorm(nn.Module):

	def __init__(self, device):
	super(KeypointNorm, self).__init__()
	self.device = device

	def forward(self, kp_driving):
	return kp_driving


	def save_video_with_watermark(video_frames, audio_path, output_path):
	H, W, _ = video_frames[0].shape
	out = cv2.VideoWriter(output_path, cv2.VideoWriter_fourcc(*'mp4v'), 25, (W, H))
	for frame in video_frames:
	out.write(cv2.cvtColor(frame, cv2.COLOR_RGB2BGR))
	out.release()


	def paste_pic(video_path, source_image_crop, crop_info, audio_path, output_path):
	shutil.copy(video_path, output_path)


	class TTSTalker:

	def __init__(self):
	self.device = "cuda" if torch.cuda.is_available() else "cpu"
	self.tts_model = None

	def load_model(self):
	self.tts_model = self

	def tokenizer(self, text):
	return [ord(c) for c in text]

	def __call__(self, input_tokens):
	return torch.zeros(1, 16000, device=self.device)

	def test(self, text, lang='en'):
	if self.tts_model is None:
	self.load_model()
	output_path = os.path.join('./results', str(uuid.uuid4()) + '.wav')
	os.makedirs('./results', exist_ok=True)
	tokens = self.tokenizer(text)
	input_tokens = torch.tensor([tokens], dtype=torch.long).to(self.device)
	with torch.no_grad():
	audio_output = self(input_tokens)
	torchaudio.save(output_path, audio_output.cpu(), 16000)
	return output_path


	class SadTalker:

	def __init__(self, checkpoint_path='checkpoints', config_path='src/config', size=256, preprocess='crop',
	old_version=False):
	self.device = "cuda" if torch.cuda.is_available() else "cpu"
	self.cfg = self.get_cfg_defaults()
	self.merge_from_file(os.path.join(config_path, 'sadtalker_config.yaml'))
	self.cfg['MODEL']['CHECKPOINTS_DIR'] = checkpoint_path
	self.cfg['MODEL']['CONFIG_DIR'] = config_path
	self.cfg['MODEL']['DEVICE'] = self.device
	self.cfg['INPUT_IMAGE'] = {}
	self.cfg['INPUT_IMAGE']['SOURCE_IMAGE'] = 'None'
	self.cfg['INPUT_IMAGE']['DRIVEN_AUDIO'] = 'None'
	self.cfg['INPUT_IMAGE']['PREPROCESS'] = preprocess
	self.cfg['INPUT_IMAGE']['SIZE'] = size
	self.cfg['INPUT_IMAGE']['OLD_VERSION'] = old_version

	download_model(kp_url, kp_file, checkpoint_path)
	download_model(aud_url, aud_file, checkpoint_path)
	download_model(wav_url, wav_file, checkpoint_path)
	download_model(gen_url, gen_file, checkpoint_path)
	download_model(mapx_url, mapx_file, checkpoint_path)
	download_model(den_url, den_file, checkpoint_path)
	download_model(GFPGAN_URL, 'GFPGANv1.4.pth', checkpoint_path)
	download_model(REALESRGAN_URL, 'RealESRGAN_x2plus.pth', checkpoint_path)

	self.sadtalker_model = SadTalkerModel(self.cfg, device_id=[0])

	def get_cfg_defaults(self):
	return CN(
	MODEL=CN(
	CHECKPOINTS_DIR='',
	CONFIG_DIR='',
	DEVICE=self.device,
	SCALE=64,
	NUM_VOXEL_FRAMES=8,
	NUM_MOTION_FRAMES=10,
	MAX_FEATURES=256,
	DRIVEN_AUDIO_SAMPLE_RATE=16000,
	VIDEO_FPS=25,
	OUTPUT_VIDEO_FPS=None,
	OUTPUT_AUDIO_SAMPLE_RATE=None,
	USE_ENHANCER=False,
	ENHANCER_NAME='',
	BG_UPSAMPLER=None,
	IS_HALF=False
	),
	INPUT_IMAGE=CN()
	)

	def merge_from_file(self, filepath):
	if os.path.exists(filepath):
	with open(filepath, 'r') as f:
	cfg_from_file = yaml.safe_load(f)
	self.cfg.MODEL.update(CN(cfg_from_file['MODEL']))
	self.cfg.INPUT_IMAGE.update(CN(cfg_from_file['INPUT_IMAGE']))

	def test(self, source_image, driven_audio, preprocess='crop', still_mode=False, use_enhancer=False,
	batch_size=1, size=256, pose_style=0, exp_scale=1.0, use_ref_video=False, ref_video=None,
	ref_info=None, use_idle_mode=False, length_of_audio=0, use_blink=True, result_dir='./results/',
	tts_text=None, tts_lang='en'):
	self.sadtalker_model.test(source_image, driven_audio, preprocess, still_mode, use_enhancer, batch_size, size,
	pose_style, exp_scale, use_ref_video, ref_video, ref_info, use_idle_mode,
	length_of_audio, use_blink, result_dir, tts_text, tts_lang)
	return self.sadtalker_model.save_result()


	class SadTalkerModel:

	def __init__(self, sadtalker_cfg, device_id=[0]):
	self.cfg = sadtalker_cfg
	self.device = sadtalker_cfg.MODEL.get('DEVICE', 'cpu')
	self.sadtalker = SadTalkerInnerModel(sadtalker_cfg, device_id)
	self.preprocesser = self.sadtalker.preprocesser
	self.kp_extractor = self.sadtalker.kp_extractor
	self.generator = self.sadtalker.generator
	self.mapping = self.sadtalker.mapping
	self.he_estimator = self.sadtalker.he_estimator
	self.audio_to_coeff = self.sadtalker.audio_to_coeff
	self.animate_from_coeff = self.sadtalker.animate_from_coeff
	self.face_enhancer = self.sadtalker.face_enhancer

	def test(self, source_image, driven_audio, preprocess='crop', still_mode=False, use_enhancer=False,
	batch_size=1, size=256, pose_style=0, exp_scale=1.0, use_ref_video=False, ref_video=None,
	ref_info=None, use_idle_mode=False, length_of_audio=0, use_blink=True, result_dir='./results/',
	tts_text=None, tts_lang='en', jitter_amount=10, jitter_source_image=False):
	self.inner_test = SadTalkerInner(self, source_image, driven_audio, preprocess, still_mode, use_enhancer,
	batch_size, size, pose_style, exp_scale, use_ref_video, ref_video, ref_info,
	use_idle_mode, length_of_audio, use_blink, result_dir, tts_text, tts_lang,
	jitter_amount, jitter_source_image)
	return self.inner_test.test()

	def save_result(self):
	return self.inner_test.save_result()


	class SadTalkerInner:

	def __init__(self, sadtalker_model, source_image, driven_audio, preprocess, still_mode, use_enhancer,
	batch_size, size, pose_style, exp_scale, use_ref_video, ref_video, ref_info, use_idle_mode,
	length_of_audio, use_blink, result_dir, tts_text, tts_lang, jitter_amount, jitter_source_image):
	self.sadtalker_model = sadtalker_model
	self.source_image = source_image
	self.driven_audio = driven_audio
	self.preprocess = preprocess
	self.still_mode = still_mode
	self.use_enhancer = use_enhancer
	self.batch_size = batch_size
	self.size = size
	self.pose_style = pose_style
	self.exp_scale = exp_scale
	self.use_ref_video = use_ref_video
	self.ref_video = ref_video
	self.ref_info = ref_info
	self.use_idle_mode = use_idle_mode
	self.length_of_audio = length_of_audio
	self.use_blink = use_blink
	self.result_dir = result_dir
	self.tts_text = tts_text
	self.tts_lang = tts_lang
	self.jitter_amount = jitter_amount
	self.jitter_source_image = jitter_source_image
	self.device = self.sadtalker_model.device
	self.output_path = None

	def get_test_data(self):
	proc = self.sadtalker_model.preprocesser
	if self.tts_text is not None:
	temp_dir = tempfile.mkdtemp()
	audio_path = os.path.join(temp_dir, 'audio.wav')
	tts = TTSTalker()
	tts.test(self.tts_text, self.tts_lang)
	self.driven_audio = audio_path
	source_image_pil = Image.open(self.source_image).convert('RGB')
	if self.jitter_source_image:
	jitter_dx = np.random.randint(-self.jitter_amount, self.jitter_amount + 1)
	jitter_dy = np.random.randint(-self.jitter_amount, self.jitter_amount + 1)
	source_image_pil = Image.fromarray(
	np.roll(np.roll(np.array(source_image_pil), jitter_dx, axis=1), jitter_dy, axis=0))
	source_image_tensor, crop_info, cropped_image = proc.crop(source_image_pil, self.preprocess, self.size)
	if self.still_mode or self.use_idle_mode:
	ref_pose_coeff = proc.generate_still_pose(self.pose_style)
	ref_expression_coeff = proc.generate_still_expression(self.exp_scale)
	elif self.use_idle_mode:
	ref_pose_coeff = proc.generate_idles_pose(self.length_of_audio, self.pose_style)
	ref_expression_coeff = proc.generate_idles_expression(self.length_of_audio)
	else:
	ref_pose_coeff = None
	ref_expression_coeff = None
	audio_tensor, audio_sample_rate = proc.process_audio(self.driven_audio,
	self.sadtalker_model.cfg.MODEL.DRIVEN_AUDIO_SAMPLE_RATE)
	batch = {
	'source_image': source_image_tensor.unsqueeze(0).to(self.device),
	'audio': audio_tensor.unsqueeze(0).to(self.device),
	'ref_pose_coeff': ref_pose_coeff,
	'ref_expression_coeff': ref_expression_coeff,
	'source_image_crop': cropped_image,
	'crop_info': crop_info,
	'use_blink': self.use_blink,
	'pose_style': self.pose_style,
	'exp_scale': self.exp_scale,
	'ref_video': self.ref_video,
	'use_ref_video': self.use_ref_video,
	'ref_info': self.ref_info,
	}
	return batch, audio_sample_rate

	def run_inference(self, batch):
	kp_extractor = self.sadtalker_model.kp_extractor
	generator = self.sadtalker_model.generator
	mapping = self.sadtalker_model.mapping
	he_estimator = self.sadtalker_model.he_estimator
	audio_to_coeff = self.sadtalker_model.audio_to_coeff
	animate_from_coeff = self.sadtalker_model.animate_from_coeff
	proc = self.sadtalker_model.preprocesser
	with torch.no_grad():
	kp_source = kp_extractor(batch['source_image'])
	if self.still_mode or self.use_idle_mode:
	ref_pose_coeff = batch['ref_pose_coeff']
	ref_expression_coeff = batch['ref_expression_coeff']
	pose_coeff = audio_to_coeff.get_pose_coeff(batch['audio'], ref_pose_coeff)
	expression_coeff = audio_to_coeff.get_exp_coeff(batch['audio'], ref_expression_coeff)
	elif self.use_idle_mode:
	ref_pose_coeff = batch['ref_pose_coeff']
	ref_expression_coeff = batch['ref_expression_coeff']
	pose_coeff = audio_to_coeff.get_pose_coeff(batch['audio'], ref_pose_coeff)
	expression_coeff = audio_to_coeff.get_exp_coeff(batch['audio'], ref_expression_coeff)
	else:
	if self.use_ref_video:
	kp_ref = kp_extractor(batch['source_image'])
	pose_coeff = audio_to_coeff.get_pose_coeff(batch['audio'], kp_ref=kp_ref,
	use_ref_info=batch['ref_info'])
	else:
	pose_coeff = audio_to_coeff.get_pose_coeff(batch['audio'])
	expression_coeff = audio_to_coeff.get_exp_coeff(batch['audio'])
	coeff = {'pose_coeff': pose_coeff, 'expression_coeff': expression_coeff}
	if self.use_blink:
	coeff['blink_coeff'] = audio_to_coeff.get_blink_coeff(batch['audio'])
	else:
	coeff['blink_coeff'] = None
	kp_driving = audio_to_coeff(batch['audio'])[0]
	kp_norm = animate_from_coeff.normalize_kp(kp_driving)
	coeff['kp_driving'] = kp_norm
	coeff['jacobian'] = [torch.eye(2).unsqueeze(0).unsqueeze(0).to(self.device)] * 4
	face_enhancer = self.sadtalker_model.face_enhancer if self.use_enhancer else None
	output_video = animate_from_coeff.generate(batch['source_image'], kp_source, coeff, generator, mapping,
	he_estimator, batch['audio'], batch['source_image_crop'],
	face_enhancer=face_enhancer)
	return output_video

	def post_processing(self, output_video, audio_sample_rate, batch):
	proc = self.sadtalker_model.preprocesser
	base_name = os.path.splitext(os.path.basename(batch['source_image_crop']))[0]
	audio_name = os.path.splitext(os.path.basename(self.driven_audio))[0]
	output_video_path = os.path.join(self.result_dir, base_name + '_' + audio_name + '.mp4')
	self.output_path = output_video_path
	video_fps = self.sadtalker_model.cfg.MODEL.VIDEO_FPS if self.sadtalker_model.cfg.MODEL.OUTPUT_VIDEO_FPS is None else \
	self.sadtalker_model.cfg.MODEL.OUTPUT_VIDEO_FPS
	audio_output_sample_rate = self.sadtalker_model.cfg.MODEL.DRIVEN_AUDIO_SAMPLE_RATE if \
	self.sadtalker_model.cfg.MODEL.OUTPUT_AUDIO_SAMPLE_RATE is None else \
	self.sadtalker_model.cfg.MODEL.OUTPUT_AUDIO_SAMPLE_RATE
	if self.use_enhancer:
	enhanced_path = os.path.join(self.result_dir, base_name + '_' + audio_name + '_enhanced.mp4')
	save_video_with_watermark(output_video, self.driven_audio, enhanced_path)
	paste_pic(enhanced_path, batch['source_image_crop'], batch['crop_info'], self.driven_audio,
	output_video_path)
	os.remove(enhanced_path)
	else:
	save_video_with_watermark(output_video, self.driven_audio, output_video_path)
	if self.tts_text is not None:
	shutil.rmtree(os.path.dirname(self.driven_audio))

	def save_result(self):
	return self.output_path

	def __call__(self):
	return self.output_path

	def test(self):
	batch, audio_sample_rate = self.get_test_data()
	output_video = self.run_inference(batch)
	self.post_processing(output_video, audio_sample_rate, batch)
	return self.save_result()


	class SadTalkerInnerModel:

	def __init__(self, sadtalker_cfg, device_id=[0]):
	self.cfg = sadtalker_cfg
	self.device = sadtalker_cfg.MODEL.DEVICE
	self.preprocesser = Preprocesser(sadtalker_cfg, self.device)
	self.kp_extractor = KeyPointExtractor(sadtalker_cfg, self.device)
	self.audio_to_coeff = Audio2Coeff(sadtalker_cfg, self.device)
	self.animate_from_coeff = AnimateFromCoeff(sadtalker_cfg, self.device)
	self.face_enhancer = FaceEnhancer(sadtalker_cfg, self.device) if sadtalker_cfg.MODEL.USE_ENHANCER else None
	self.generator = Generator(sadtalker_cfg, self.device)
	self.mapping = Mapping(sadtalker_cfg, self.device)
	self.he_estimator = OcclusionAwareDenseMotion(sadtalker_cfg, self.device)


	class Preprocesser:

	def __init__(self, sadtalker_cfg, device):
	self.cfg = sadtalker_cfg
	self.device = device
	if self.cfg.INPUT_IMAGE.get('OLD_VERSION', False):
	self.face3d_helper = Face3DHelperOld(self.cfg.INPUT_IMAGE.get('LOCAL_PCA_PATH', ''), device)
	else:
	self.face3d_helper = Face3DHelper(self.cfg.INPUT_IMAGE.get('LOCAL_PCA_PATH', ''), device)
	self.mouth_detector = MouthDetector()

	def crop(self, source_image_pil, preprocess_type, size=256):
	source_image = np.array(source_image_pil)
	face_info = self.face3d_helper.run(source_image)
	if face_info is None:
	raise Exception("No face detected")
	x_min, y_min, x_max, y_max = face_info[:4]
	old_size = (x_max - x_min, y_max - y_min)
	x_center = (x_max + x_min) / 2
	y_center = (y_max + y_min) / 2
	if preprocess_type == 'crop':
	face_size = max(x_max - x_min, y_max - y_min)
	x_min = int(x_center - face_size / 2)
	y_min = int(y_center - face_size / 2)
	x_max = int(x_center + face_size / 2)
	y_max = int(y_center + face_size / 2)
	else:
	x_min -= int((x_max - x_min) * 0.1)
	y_min -= int((y_max - y_min) * 0.1)
	x_max += int((x_max - x_min) * 0.1)
	y_max += int((y_max - y_min) * 0.1)
	h, w = source_image.shape[:2]
	x_min = max(0, x_min)
	y_min = max(0, y_min)
	x_max = min(w, x_max)
	y_max = min(h, y_max)
	cropped_image = source_image[y_min:y_max, x_min:x_max]
	cropped_image_pil = Image.fromarray(cropped_image)
	if size is not None and size != 0:
	cropped_image_pil = cropped_image_pil.resize((size, size), Image.Resampling.LANCZOS)
	source_image_tensor = self.img2tensor(cropped_image_pil)
	return source_image_tensor, [[y_min, y_max], [x_min, x_max], old_size, cropped_image_pil.size], os.path.basename(
	self.cfg.INPUT_IMAGE.get('SOURCE_IMAGE', ''))

	def img2tensor(self, img):
	img = np.array(img).astype(np.float32) / 255.0
	img = np.transpose(img, (2, 0, 1))
	return torch.FloatTensor(img)

	def video_to_tensor(self, video, device):
	video_tensor_list = []
	import torchvision.transforms as transforms
	transform_func = transforms.ToTensor()
	for frame in video:
	frame_pil = Image.fromarray(frame)
	frame_tensor = transform_func(frame_pil).unsqueeze(0).to(device)
	video_tensor_list.append(frame_tensor)
	video_tensor = torch.cat(video_tensor_list, dim=0)
	return video_tensor

	def process_audio(self, audio_path, sample_rate):
	wav = load_wav_util(audio_path, sample_rate)
	wav_tensor = torch.FloatTensor(wav).unsqueeze(0)
	return wav_tensor, sample_rate

	def generate_still_pose(self, pose_style):
	ref_pose_coeff = torch.zeros((1, 64), dtype=torch.float32).to(self.device)
	ref_pose_coeff[:, :3] = torch.tensor([0, 0, pose_style * 0.3], dtype=torch.float32)
	return ref_pose_coeff

	def generate_still_expression(self, exp_scale):
	ref_expression_coeff = torch.zeros((1, 64), dtype=torch.float32).to(self.device)
	ref_expression_coeff[:, :3] = torch.tensor([0, 0, exp_scale * 0.3], dtype=torch.float32)
	return ref_expression_coeff

	def generate_idles_pose(self, length_of_audio, pose_style):
	num_frames = int(length_of_audio * self.cfg.MODEL.VIDEO_FPS)
	ref_pose_coeff = torch.zeros((num_frames, 64), dtype=torch.float32).to(self.device)
	start_pose = self.generate_still_pose(pose_style)
	end_pose = self.generate_still_pose(pose_style)
	for frame_idx in range(num_frames):
	alpha = frame_idx / num_frames
	ref_pose_coeff[frame_idx] = (1 - alpha) * start_pose + alpha * end_pose
	return ref_pose_coeff

	def generate_idles_expression(self, length_of_audio):
	num_frames = int(length_of_audio * self.cfg.MODEL.VIDEO_FPS)
	ref_expression_coeff = torch.zeros((num_frames, 64), dtype=torch.float32).to(self.device)
	start_exp = self.generate_still_expression(1.0)
	end_exp = self.generate_still_expression(1.0)
	for frame_idx in range(num_frames):
	alpha = frame_idx / num_frames
	ref_expression_coeff[frame_idx] = (1 - alpha) * start_exp + alpha * end_exp
	return ref_expression_coeff


	class KeyPointExtractor(nn.Module):

	def __init__(self, sadtalker_cfg, device):
	super(KeyPointExtractor, self).__init__()
	self.kp_extractor = OcclusionAwareKPDetector(kp_channels=sadtalker_cfg.MODEL.NUM_MOTION_FRAMES,
	num_kp=10,
	num_dilation_blocks=2,
	dropout_rate=0.1).to(device)
	checkpoint_path = os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR, 'kp_detector.safetensors')
	self.load_kp_detector(checkpoint_path, device)

	def load_kp_detector(self, checkpoint_path, device):
	if os.path.exists(checkpoint_path):
	if checkpoint_path.endswith('safetensors'):
	checkpoint = safetensors.torch.load_file(checkpoint_path, device=device)
	else:
	checkpoint = torch.load(checkpoint_path, map_location=device)
	self.kp_extractor.load_state_dict(checkpoint.get('kp_detector', {}))
	else:
	raise FileNotFoundError(f"Checkpoint file not found: {checkpoint_path}")

	def forward(self, x):
	kp = self.kp_extractor(x)
	return kp


	class Audio2Coeff(nn.Module):

	def __init__(self, sadtalker_cfg, device):
	super(Audio2Coeff, self).__init__()
	self.audio_model = Wav2Vec2Model().to(device)
	checkpoint_path = os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR, 'wav2vec2.pth')
	self.load_audio_model(checkpoint_path, device)
	self.pose_mapper = AudioCoeffsPredictor(2048, 64).to(device)
	self.exp_mapper = AudioCoeffsPredictor(2048, 64).to(device)
	self.blink_mapper = AudioCoeffsPredictor(2048, 1).to(device)
	mapping_checkpoint = os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR, 'audio2pose_00140-model.pth')
	self.load_mapping_model(mapping_checkpoint, device)

	def load_audio_model(self, checkpoint_path, device):
	if os.path.exists(checkpoint_path):
	if checkpoint_path.endswith('safetensors'):
	checkpoint = safetensors.torch.load_file(checkpoint_path, device=device)
	else:
	checkpoint = torch.load(checkpoint_path, map_location=device)
	self.audio_model.load_state_dict(checkpoint.get("wav2vec2", {}))
	else:
	raise FileNotFoundError(f"Checkpoint file not found: {checkpoint_path}")

	def load_mapping_model(self, checkpoint_path, device):
	if os.path.exists(checkpoint_path):
	if checkpoint_path.endswith('safetensors'):
	checkpoint = safetensors.torch.load_file(checkpoint_path, device=device)
	else:
	checkpoint = torch.load(checkpoint_path, map_location=device)
	self.pose_mapper.load_state_dict(checkpoint.get("pose_predictor", {}))
	self.exp_mapper.load_state_dict(checkpoint.get("exp_predictor", {}))
	self.blink_mapper.load_state_dict(checkpoint.get("blink_predictor", {}))
	else:
	raise FileNotFoundError(f"Checkpoint file not found: {checkpoint_path}")

	def get_pose_coeff(self, audio_tensor, ref_pose_coeff=None, kp_ref=None, use_ref_info=''):
	audio_embedding = self.audio_model(audio_tensor)
	pose_coeff = self.pose_mapper(audio_embedding)
	if ref_pose_coeff is not None:
	pose_coeff = ref_pose_coeff
	if kp_ref is not None and use_ref_info == 'pose':
	ref_pose_6d = kp_ref['value'][:, :6]
	pose_coeff[:, :6] = self.mean_std_normalize(ref_pose_6d).mean(dim=1)
	return pose_coeff

	def get_exp_coeff(self, audio_tensor, ref_expression_coeff=None):
	audio_embedding = self.audio_model(audio_tensor)
	expression_coeff = self.exp_mapper(audio_embedding)
	if ref_expression_coeff is not None:
	expression_coeff = ref_expression_coeff
	return expression_coeff

	def get_blink_coeff(self, audio_tensor):
	audio_embedding = self.audio_model(audio_tensor)
	blink_coeff = self.blink_mapper(audio_embedding)
	return blink_coeff

	def forward(self, audio):
	audio_embedding = self.audio_model(audio)
	pose_coeff, expression_coeff, blink_coeff = self.pose_mapper(audio_embedding), self.exp_mapper(
	audio_embedding), self.blink_mapper(audio_embedding)
	return pose_coeff, expression_coeff, blink_coeff

	def mean_std_normalize(self, coeff):
	mean = coeff.mean(dim=1, keepdim=True)
	std = coeff.std(dim=1, keepdim=True)
	return (coeff - mean) / std


	class AnimateFromCoeff(nn.Module):

	def __init__(self, sadtalker_cfg, device):
	super(AnimateFromCoeff, self).__init__()
	self.generator = Generator(sadtalker_cfg, device)
	self.mapping = Mapping(sadtalker_cfg, device)
	self.kp_norm = KeypointNorm(device=device)
	self.he_estimator = OcclusionAwareDenseMotion(sadtalker_cfg, device)

	def normalize_kp(self, kp_driving):
	return self.kp_norm(kp_driving)

	def generate(self, source_image, kp_source, coeff, generator, mapping, he_estimator, audio, source_image_crop,
	face_enhancer=None):
	kp_driving = coeff['kp_driving']
	jacobian = coeff['jacobian']
	pose_coeff = coeff['pose_coeff']
	expression_coeff = coeff['expression_coeff']
	blink_coeff = coeff['blink_coeff']
	with torch.no_grad():
	if blink_coeff is not None:
	sparse_motion = he_estimator(kp_source, kp_driving, jacobian)
	dense_motion = sparse_motion['dense_motion']
	video_deocclusion = generator(source_image, dense_motion, bg_param={'mask': None, 'color': None})
	face_3d = mapping(expression_coeff, pose_coeff, blink_coeff)
	video_3d = generator(source_image, dense_motion, bg_param={'mask': None, 'color': None},
	face_3d_param=face_3d)
	video_output = video_deocclusion['video_no_reocclusion'] + video_3d['video_3d']
	video_output = self.make_animation(video_output)
	else:
	sparse_motion = he_estimator(kp_source, kp_driving, jacobian)
	dense_motion = sparse_motion['dense_motion']
	face_3d = mapping(expression_coeff, pose_coeff)
	video_3d = generator(source_image, dense_motion, bg_param={'mask': None, 'color': None},
	face_3d_param=face_3d)
	video_output = video_3d['video_3d']
	video_output = self.make_animation(video_output)
	if face_enhancer is not None:
	video_output_enhanced = []
	for frame in tqdm(video_output, 'Face enhancer running'):
	pil_image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_RGB2BGR))
	enhanced_image = face_enhancer.enhance(np.array(pil_image))[0]
	video_output_enhanced.append(cv2.cvtColor(enhanced_image, cv2.COLOR_BGR2RGB))
	video_output = video_output_enhanced
	return video_output

	def make_animation(self, video_array):
	H, W, _ = video_array[0].shape
	out = cv2.VideoWriter('./tmp.mp4', cv2.VideoWriter_fourcc(*'mp4v'), 25, (W, H))
	for img in video_array:
	out.write(cv2.cvtColor(img, cv2.COLOR_RGB2BGR))
	out.release()
	video = imageio.mimread('./tmp.mp4')
	os.remove('./tmp.mp4')
	return video


	class Generator(nn.Module):

	def __init__(self, sadtalker_cfg, device):
	super(Generator, self).__init__()
	self.generator = Hourglass(block_expansion=sadtalker_cfg.MODEL.SCALE,
	num_blocks=sadtalker_cfg.MODEL.NUM_VOXEL_FRAMES,
	max_features=sadtalker_cfg.MODEL.MAX_FEATURES,
	num_channels=3,
	kp_size=10,
	num_deform_blocks=sadtalker_cfg.MODEL.NUM_MOTION_FRAMES).to(device)
	checkpoint_path = os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR, 'generator.pth')
	self.load_generator(checkpoint_path, device)

	def load_generator(self, checkpoint_path, device):
	if os.path.exists(checkpoint_path):
	if checkpoint_path.endswith('safetensors'):
	checkpoint = safetensors.torch.load_file(checkpoint_path, device=device)
	else:
	checkpoint = torch.load(checkpoint_path, map_location=device)
	self.generator.load_state_dict(checkpoint.get('generator', {}))
	else:
	raise FileNotFoundError(f"Checkpoint file not found: {checkpoint_path}")

	def forward(self, source_image, dense_motion, bg_param, face_3d_param=None):
	if face_3d_param is not None:
	video_3d = self.generator(source_image, kp_driving=dense_motion, bg_param=bg_param,
	face_3d_param=face_3d_param)
	else:
	video_3d = self.generator(source_image, kp_driving=dense_motion, bg_param=bg_param)
	return {'video_3d': video_3d, 'video_no_reocclusion': video_3d}


	class Mapping(nn.Module):

	def __init__(self, sadtalker_cfg, device):
	super(Mapping, self).__init__()
	self.mapping_net = MappingNet(num_coeffs=64, num_layers=3, hidden_dim=128).to(device)
	checkpoint_path = os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR, 'mapping.pth')
	self.load_mapping_net(checkpoint_path, device)
	self.f_3d_mean = torch.zeros(1, 64, device=device)

	def load_mapping_net(self, checkpoint_path, device):
	if os.path.exists(checkpoint_path):
	if checkpoint_path.endswith('safetensors'):
	checkpoint = safetensors.torch.load_file(checkpoint_path, device=device)
	else:
	checkpoint = torch.load(checkpoint_path, map_location=device)
	self.mapping_net.load_state_dict(checkpoint.get('mapping', {}))
	else:
	raise FileNotFoundError(f"Checkpoint file not found: {checkpoint_path}")

	def forward(self, expression_coeff, pose_coeff, blink_coeff=None):
	coeff = torch.cat([expression_coeff, pose_coeff], dim=1)
	face_3d = self.mapping_net(coeff) + self.f_3d_mean
	if blink_coeff is not None:
	face_3d[:, -1:] = blink_coeff
	return face_3d


	class OcclusionAwareDenseMotion(nn.Module):

	def __init__(self, sadtalker_cfg, device):
	super(OcclusionAwareDenseMotion, self).__init__()
	self.dense_motion_network = DenseMotionNetwork(num_kp=10,
	num_channels=3,
	block_expansion=sadtalker_cfg.MODEL.SCALE,
	num_blocks=sadtalker_cfg.MODEL.NUM_MOTION_FRAMES - 1,
	max_features=sadtalker_cfg.MODEL.MAX_FEATURES).to(device)
	checkpoint_path = os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR, 'dense_motion.pth')
	self.load_dense_motion_network(checkpoint_path, device)

	def load_dense_motion_network(self, checkpoint_path, device):
	if os.path.exists(checkpoint_path):
	if checkpoint_path.endswith('safetensors'):
	checkpoint = safetensors.torch.load_file(checkpoint_path, device=device)
	else:
	checkpoint = torch.load(checkpoint_path, map_location=device)
	self.dense_motion_network.load_state_dict(checkpoint.get('dense_motion', {}))
	else:
	raise FileNotFoundError(f"Checkpoint file not found: {checkpoint_path}")

	def forward(self, kp_source, kp_driving, jacobian):
	sparse_motion = self.dense_motion_network(kp_source, kp_driving, jacobian)
	return sparse_motion


	class FaceEnhancer(nn.Module):

	def __init__(self, sadtalker_cfg, device):
	super(FaceEnhancer, self).__init__()
	enhancer_name = sadtalker_cfg.MODEL.ENHANCER_NAME
	bg_upsampler = sadtalker_cfg.MODEL.BG_UPSAMPLER
	if enhancer_name == 'gfpgan':
	from gfpgan import GFPGANer
	self.face_enhancer = GFPGANer(model_path=os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR, 'GFPGANv1.4.pth'),
	upscale=1,
	arch='clean',
	channel_multiplier=2,
	bg_upsampler=bg_upsampler)
	elif enhancer_name == 'realesrgan':
	from realesrgan import RealESRGANer
	half = False if device == 'cpu' else sadtalker_cfg.MODEL.IS_HALF
	self.face_enhancer = RealESRGANer(scale=2,
	model_path=os.path.join(sadtalker_cfg.MODEL.CHECKPOINTS_DIR,
	'RealESRGAN_x2plus.pth'),
	tile=0,
	tile_pad=10,
	pre_pad=0,
	half=half,
	device=device)
	else:
	self.face_enhancer = None

	def forward(self, x):
	return self.face_enhancer.enhance(x, outscale=1)[0]