Update README.md
Browse files
README.md
CHANGED
@@ -40,11 +40,11 @@ model = AutoModel.from_pretrained("chengzl18/thucbert-mm")
|
|
40 |
|
41 |
## 训练效果
|
42 |
|
43 |
-
|
44 |
|
45 |
在随机语料上进行验证,THUCBERT训练完成时的perplexity为2.20,显著低于bert-base-chinese的2.78。(需要注意perplexity也与词表有关,此对比仅供参考)
|
46 |
|
47 |
-
|
48 |
|
49 |
字表示(采用embedding层的最近邻)如下:
|
50 |
|
@@ -68,7 +68,7 @@ bert-base-chinese
|
|
68 |
寻: 尋 觅 找 覓 讨 搜 询 尝 谋 选
|
69 |
```
|
70 |
|
71 |
-
|
72 |
|
73 |
MASK预测效果如下:
|
74 |
|
@@ -92,7 +92,7 @@ bert-base-chinese
|
|
92 |
凡事都有两面性,我们要[MASK][MASK]地看待。: 观 性 确 等 平 容 慎 面 理 心
|
93 |
```
|
94 |
|
95 |
-
|
96 |
|
97 |
在我们已进行的测试中,THUCBERT在各种文本分类任务上与[哈工大的BERT模型](https://huggingface.co/hfl/chinese-bert-wwm-ext)效果相当,在中文分词([DeepTHULAC](https://github.com/thunlp/DeepTHULAC)基于THUCBERT-cm开发而成)、命名实体识别和语法改错任务上有明显的性能提升。
|
98 |
|
|
|
40 |
|
41 |
## 训练效果
|
42 |
|
43 |
+
#### PPL
|
44 |
|
45 |
在随机语料上进行验证,THUCBERT训练完成时的perplexity为2.20,显著低于bert-base-chinese的2.78。(需要注意perplexity也与词表有关,此对比仅供参考)
|
46 |
|
47 |
+
#### 字表示
|
48 |
|
49 |
字表示(采用embedding层的最近邻)如下:
|
50 |
|
|
|
68 |
寻: 尋 觅 找 覓 讨 搜 询 尝 谋 选
|
69 |
```
|
70 |
|
71 |
+
#### 掩码预测
|
72 |
|
73 |
MASK预测效果如下:
|
74 |
|
|
|
92 |
凡事都有两面性,我们要[MASK][MASK]地看待。: 观 性 确 等 平 容 慎 面 理 心
|
93 |
```
|
94 |
|
95 |
+
#### 下游任务
|
96 |
|
97 |
在我们已进行的测试中,THUCBERT在各种文本分类任务上与[哈工大的BERT模型](https://huggingface.co/hfl/chinese-bert-wwm-ext)效果相当,在中文分词([DeepTHULAC](https://github.com/thunlp/DeepTHULAC)基于THUCBERT-cm开发而成)、命名实体识别和语法改错任务上有明显的性能提升。
|
98 |
|