Qwen
/

Qwen2.5-7B

@@ -23,7 +23,7 @@ Qwen2.5 is the latest series of Qwen large language models. For Qwen2.5, we rele
 - Training Stage: Pretraining
 - Architecture: transformers with RoPE, SwiGLU, RMSNorm, and Attention QKV bias
 - Number of Parameters: 7.61B
-- Number of Paramaters (Non-Embedding): 6.53B
 - Number of Layers: 28
 - Number of Attention Heads (GQA): 28 for Q and 4 for KV
 - Context Length: 131,072 tokens

 - Training Stage: Pretraining
 - Architecture: transformers with RoPE, SwiGLU, RMSNorm, and Attention QKV bias
 - Number of Parameters: 7.61B
+- Number of Parameters (Non-Embedding): 6.53B
 - Number of Layers: 28
 - Number of Attention Heads (GQA): 28 for Q and 4 for KV
 - Context Length: 131,072 tokens