Update README.md
Browse files
README.md
CHANGED
@@ -25,6 +25,7 @@ base_model: "Qwen/Qwen2-7B-Instruct"
|
|
25 |
## 说明
|
26 |
|
27 |
我第一次尝试蒸馏模型,在部分情况下模型表现良好,但是即便数据集如此庞大的情况下依然无法实现220B的逻辑效果,我把此归咎于模型参数量不足,在模型蒸馏上我依然是一个小白,还请各位多多指教。
|
|
|
28 |
叶落PS:虽然我提供了不同的量化,但是我强烈推荐使用f16,因为量化过程中可能会丢失一些细腻的表达(由于词汇语义相似度过高,在向量空间中极其接近,量化会导致向量重叠)
|
29 |
## 数据集细节
|
30 |
|
|
|
25 |
## 说明
|
26 |
|
27 |
我第一次尝试蒸馏模型,在部分情况下模型表现良好,但是即便数据集如此庞大的情况下依然无法实现220B的逻辑效果,我把此归咎于模型参数量不足,在模型蒸馏上我依然是一个小白,还请各位多多指教。
|
28 |
+
|
29 |
叶落PS:虽然我提供了不同的量化,但是我强烈推荐使用f16,因为量化过程中可能会丢失一些细腻的表达(由于词汇语义相似度过高,在向量空间中极其接近,量化会导致向量重叠)
|
30 |
## 数据集细节
|
31 |
|