Tifa-RP
/

Tifa-7B-Qwen2-v0.1-GGUF

Model card Files Files and versions Community

Autumn-Whisper commited on Jul 19, 2024

Commit

cc5eb0e

·

verified ·

1 Parent(s): 07de4db

Update README.md

Files changed (1) hide show

README.md +1 -0

README.md CHANGED Viewed

@@ -25,6 +25,7 @@ base_model: "Qwen/Qwen2-7B-Instruct"
 ## 说明
 我第一次尝试蒸馏模型，在部分情况下模型表现良好，但是即便数据集如此庞大的情况下依然无法实现220B的逻辑效果，我把此归咎于模型参数量不足，在模型蒸馏上我依然是一个小白，还请各位多多指教。
 叶落PS：虽然我提供了不同的量化，但是我强烈推荐使用f16，因为量化过程中可能会丢失一些细腻的表达（由于词汇语义相似度过高，在向量空间中极其接近，量化会导致向量重叠）
 ## 数据集细节

 ## 说明
 我第一次尝试蒸馏模型，在部分情况下模型表现良好，但是即便数据集如此庞大的情况下依然无法实现220B的逻辑效果，我把此归咎于模型参数量不足，在模型蒸馏上我依然是一个小白，还请各位多多指教。
 叶落PS：虽然我提供了不同的量化，但是我强烈推荐使用f16，因为量化过程中可能会丢失一些细腻的表达（由于词汇语义相似度过高，在向量空间中极其接近，量化会导致向量重叠）
 ## 数据集细节