thucbert-cm / README.md

Update README.md

ab1ba52 over 1 year ago

4.49 kB

	---
	license: apache-2.0
	language:
	- zh
	---
	# THUCBERT

	## 介绍

	THUCBERT是由清华大学自然语言处理与社会人文计算实验室开发的字符级中文预训练BERT模型。模型具有如下特点：

	1. 训练语料质量高，包括图书、百科、报纸、期刊等97G语料，共计378亿字。

	2. tokenizer基于字符，字表齐全，对于繁体和异体字会自动映射到对应简体，对非中英字符会映射到对应语种token。目前主流的中文BERT模型中文字符不全，大多沿用谷歌<a href="https://huggingface.co/bert-base-chinese">bert-base-chinese</a>的词表，根据维基百科语料统计而来，而它缺失了国家通用规范汉字表8105字中的2765字，例如镊、馊、犟、囵、鲠、殄、箪、廪、勠等中低频字。

	3. 使用了基于字频的降采样策略。对字符进行MASK时，降低高频字的MASK概率，防止大量的训练集中在高频常见字上，提升模型对于低频字的理解能力。

	4. 使用了层次化的字词混合MASK策略。

	基于整词MASK的模型和基于字MASK的模型各有优势，我们采用了字词混合的MASK策略，在整词MASK提升性能的同时，也训练对层次化语义的理解能力。具体的做法是将语料进行分词后，每个词再利用wordpiece进行细分，形成一个词到字的层次结构（例如：计算机→计算+机→计+算+机），采样时依据归一化的概率整体MASK其中一部分（例如：计算机、计算或单字）。

	## 模型地址

	\| 模型名称 \| MASK策略 \| Hugginface地址🤗 \|
	\| ----------- \| -------- \| ------------------------------------------------------------ \|
	\| THUCBERT-cm \| 字 \| <a href="https://huggingface.co/chengzl18/thucbert-cm">thucbert-cm</a> \|
	\| THUCBERT-mm \| 层次化 \| <a href="https://huggingface.co/chengzl18/thucbert-mm">thucbert-mm</a> \|

	## 使用方式

	可以通过如下代码使用THUCBERT：

	```python
	from transformers import AutoTokenizer, AutoModel
	tokenizer = AutoTokenizer.from_pretrained("chengzl18/thucbert-mm", trust_remote_code=True)
	model = AutoModel.from_pretrained("chengzl18/thucbert-mm")
	```

	使用方法和<a href="https://huggingface.co/bert-base-chinese">bert-base-chinese</a> 相同。

	## 训练效果

	#### PPL

	在随机语料上进行验证，THUCBERT训练完成时的perplexity为2.20，显著低于bert-base-chinese的2.78。（需要注意perplexity也与词表有关，此对比仅供参考）

	#### 字表示

	字表示（采用embedding层的最近邻）如下：

	THUCBERT

	```
	美: 靓丑韩丽英艳雅魅赏绘
	戏: 剧玩嬉讽娱耍舞谑棋赌
	麦: 稻荞薯粱枣椰稞秫麸豌
	今: 昨昔此迄前咱每崭现迩
	寻: 找觅追溯讨谋搜探挖询
	```

	bert-base-chinese

	```
	美: 英德香欧雅国韩歐韓國
	戏: 戲剧娱游 game 乐艺话诗玩画
	麦: 麥玛叶马兰贝荞饼凯黄
	今: 昨 2016 此现 2015 現前 2017 近每
	寻: 尋觅找覓讨搜询尝谋选
	```

	#### 掩码预测

	MASK预测效果如下：

	THUCBERT

	```
	生活的真谛是[MASK]。: 爱乐诗美福善富笑渔穷
	我去吃了北京烤[MASK]。: 鸭串肉鸡饼鱼肠鹅兔羊
	唯江上之清风，与山间之明月，耳得之而为[MASK]，目遇之而成色。: 声音美丽佳妙香乐清诗
	凡事都有两面性，我们要[MASK][MASK]地看待。: 辩正辨客矛科认冷平理
	凡事都有两面性，我们要[MASK][MASK]地看待。: 证观确性学静面衡辩极
	```

	bert-base-chinese

	```
	生活的真谛是[MASK]。: 美爱乐人：笑 - 玩活好
	我去吃了北京烤[MASK]。: 肉鸭鱼鴨鸡串羊饼肠的
	唯江上之清风，与山间之明月，耳得之而为[MASK]，目遇之而成色。: 声音光香形味风耳心闻
	凡事都有两面性，我们要[MASK][MASK]地看待。: 正客冷认理平公坦科清
	凡事都有两面性，我们要[MASK][MASK]地看待。: 观性确等平容慎面理心
	```

	#### 下游任务

	在我们已进行的测试中，THUCBERT在各种文本分类任务上与[哈工大的BERT模型](https://huggingface.co/hfl/chinese-bert-wwm-ext)效果相当，在中文分词（[DeepTHULAC](https://github.com/thunlp/DeepTHULAC)基于THUCBERT-cm开发而成）、命名实体识别和语法改错任务上有明显的性能提升。