Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,145 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
-
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
# 数字人智能对话系统 - Linly-Talker — “数字人交互,与虚拟的自己互动”
|
2 |
+
|
3 |
+
<div align="center">
|
4 |
+
<h1>Linly-Talker WebUI</h1>
|
5 |
+
|
6 |
+
|
7 |
+
[](https://github.com/Kedreamix/Linly-Talker)
|
8 |
+
|
9 |
+
<img src="docs/linly_logo.png" /><br>
|
10 |
+
|
11 |
+
[](https://colab.research.google.com/github/Kedreamix/Linly-Talker/blob/main/colab_webui.ipynb)
|
12 |
+
[](https://github.com/Kedreamix/Linly-Talker/blob/main/LICENSE)
|
13 |
+
[](https://huggingface.co/Kedreamix/Linly-Talker)
|
14 |
+
|
15 |
+
[**English**](./README.md) | [**中文简体**](./README_zh.md)
|
16 |
+
|
17 |
+
</div>
|
18 |
+
|
19 |
+
**2023.12 更新** 📆
|
20 |
+
|
21 |
+
**用户可以上传任意图片进行对话**
|
22 |
+
|
23 |
+
**2024.01 更新** 📆
|
24 |
+
|
25 |
+
- **令人兴奋的消息!我现在已经将强大的GeminiPro和Qwen大模型融入到我们的对话场景中。用户现在可以在对话中上传任何图片,为我们的互动增添了全新的层面。**
|
26 |
+
- **更新了FastAPI的部署调用方法。**
|
27 |
+
- **更新了微软TTS的高级设置选项,增加声音种类的多样性,以及加入视频字幕加强可视化。**
|
28 |
+
- **更新了GPT多轮对话系统,使得对话有上下文联系,提高数字人的交互性和真实感。**
|
29 |
+
|
30 |
+
**2024.02 更新** 📆
|
31 |
+
|
32 |
+
- **更新了Gradio的版本为最新版本4.16.0,使得界面拥有更多的功能,比如可以摄像头拍摄图片构建数字人等。**
|
33 |
+
- **更新了ASR和THG,其中ASR加入了阿里的FunASR,具体更快的速度;THG部分加入了Wav2Lip模型,ER-NeRF在准备中(Comming Soon)。**
|
34 |
+
- **加入了语音克隆方法GPT-SoVITS模型,能够通过微调一分钟对应人的语料进行克隆,效果还是相当不错的,值得推荐。**
|
35 |
+
- **集成一个WebUI界面,能够更好的运行Linly-Talker。**
|
36 |
+
|
37 |
---
|
38 |
+
|
39 |
+
<details>
|
40 |
+
<summary>目录</summary>
|
41 |
+
|
42 |
+
|
43 |
+
<!-- TOC -->
|
44 |
+
|
45 |
+
- [数字人对话系统 - Linly-Talker —— “数字人交互,与虚拟的自己互动”](#数字人对话系统---linly-talker--数字人交互与虚拟的自己互动)
|
46 |
+
- [介绍](#介绍)
|
47 |
+
- [TO DO LIST](#to-do-list)
|
48 |
+
- [示例](#示例)
|
49 |
+
- [创建环境](#创建环境)
|
50 |
+
- [ASR - Speech Recognition](#asr---speech-recognition)
|
51 |
+
- [Whisper](#whisper)
|
52 |
+
- [FunASR](#funasr)
|
53 |
+
- [TTS - Edge TTS](#tts---edge-tts)
|
54 |
+
- [Voice Clone](#voice-clone)
|
55 |
+
- [GPT-SoVITS(推荐)](#gpt-sovits推荐)
|
56 |
+
- [XTTS](#xtts)
|
57 |
+
- [THG - Avatar](#thg---avatar)
|
58 |
+
- [SadTalker](#sadtalker)
|
59 |
+
- [Wav2Lip](#wav2lip)
|
60 |
+
- [ER-NeRF(Comming Soon)](#er-nerfcomming-soon)
|
61 |
+
- [LLM - Conversation](#llm---conversation)
|
62 |
+
- [Linly-AI](#linly-ai)
|
63 |
+
- [Qwen](#qwen)
|
64 |
+
- [Gemini-Pro](#gemini-pro)
|
65 |
+
- [LLM 多模型选择](#llm-多模型选择)
|
66 |
+
- [优化](#优化)
|
67 |
+
- [Gradio](#gradio)
|
68 |
+
- [启动WebUI](#启动webui)
|
69 |
+
- [文件夹结构](#文件夹结构)
|
70 |
+
- [参考](#参考)
|
71 |
+
- [Star History](#star-history)
|
72 |
+
|
73 |
+
<!-- /TOC -->
|
74 |
+
|
75 |
+
</details>
|
76 |
+
|
77 |
+
|
78 |
+
|
79 |
+
## 介绍
|
80 |
+
|
81 |
+
Linly-Talker是一款创新的数字人对话系统,它融合了最新的人工智能技术,包括大型语言模型(LLM)、自动语音识别(ASR)、文本到语音转换(TTS)和语音克隆技术。这个系统通过Gradio平台提供了一个交互式的Web界面,允许用户上传图片与AI进行个性化的对话交流。
|
82 |
+
|
83 |
+
系统的核心特点包括:
|
84 |
+
|
85 |
+
1. **多模型集成**:Linly-Talker整合了Linly、GeminiPro、Qwen等大模型,以及Whisper、SadTalker等视觉模型,实现了高质量的对话和视觉生成。
|
86 |
+
2. **多轮对话能力**:通过GPT模型的多轮对话系统,Linly-Talker能够理解并维持上下文相关的连贯对话,极大地提升了交互的真实感。
|
87 |
+
3. **语音克隆**:利用GPT-SoVITS等技术,用户可以上传一分钟的语音样本进行微调,系统将克隆用户的声音,使得数字人能够以用户的声音进行对话。
|
88 |
+
4. **实时互动**:系统支持实时语音识别和视频字幕,使得用户可以通过语音与数字人进行自然的交流。
|
89 |
+
5. **视觉增强**:通过数字人生成等技术,Linly-Talker能够生成逼真的数字人形象,提供更加沉浸式的体验。
|
90 |
+
|
91 |
+
Linly-Talker的设计理念是创造一种全新的人机交互方式,不仅仅是简单的问答,而是通过高度集成的技术,提供一个能够理解、响应并模拟人类交流的智能数字人。
|
92 |
+
|
93 |
+

|
94 |
+
|
95 |
+
> 查看我们的介绍视频 [demo video](https://www.bilibili.com/video/BV1rN4y1a76x/)
|
96 |
+
|
97 |
+
|
98 |
+
###### 模型文件和权重,请浏览“模型文件”页面获取。
|
99 |
+
|
100 |
+
|
101 |
+
**HuggingFace下载**
|
102 |
+
|
103 |
+
如果速度太慢可以考虑镜像,���考[简便快捷获取 Hugging Face 模型(使用镜像站点)](https://kedreamix.github.io/2024/01/05/Note/HuggingFace/?highlight=镜像)
|
104 |
+
|
105 |
+
```bash
|
106 |
+
# 从huggingface下载预训练模型
|
107 |
+
git lfs install
|
108 |
+
git clone https://huggingface.co/Kedreamix/Linly-Talker
|
109 |
+
```
|
110 |
+
|
111 |
+
**ModelScope下载**
|
112 |
+
|
113 |
+
```bash
|
114 |
+
# 从modelscope下载预训练模型
|
115 |
+
# 1. git 方法
|
116 |
+
git lfs install
|
117 |
+
git clone https://www.modelscope.cn/Kedreamix/Linly-Talker.git
|
118 |
+
|
119 |
+
# 2. Python 代码下载
|
120 |
+
pip install modelscope
|
121 |
+
from modelscope import snapshot_download
|
122 |
+
model_dir = snapshot_download('Kedreamix/Linly-Talker')
|
123 |
+
```
|
124 |
+
|
125 |
+
**移动所有模型到当前目录**
|
126 |
+
|
127 |
+
如果百度网盘下载后,可以参考文档最后目录结构来移动
|
128 |
+
|
129 |
+
```bash
|
130 |
+
# 移动所有模型到当前目录
|
131 |
+
# checkpoint中含有SadTalker和Wav2Lip
|
132 |
+
mv Linly-Talker/chechpoints/* ./checkpoints/
|
133 |
+
|
134 |
+
# SadTalker的增强GFPGAN
|
135 |
+
# pip install gfpgan
|
136 |
+
# mv Linly-Talker/gfpan ./
|
137 |
+
|
138 |
+
# 语音克隆模型
|
139 |
+
mv Linly-Talker/GPT_SoVITS/pretrained_models/* ./GPT_SoVITS/pretrained_models/
|
140 |
+
|
141 |
+
# Qwen大模型
|
142 |
+
mv Linly-Talker/Qwen ./
|
143 |
+
```
|
144 |
+
|
145 |
+
|