Kikinoking
/

MNLP_M3_quantized_model

Text Generation

4-bit precision

Model card Files Files and versions Community

Kikinoking commited on Jun 10

Commit

45f7328

·

verified ·

1 Parent(s): 7548dee

Update README.md

Files changed (1) hide show

README.md +27 -0

README.md CHANGED Viewed

@@ -45,3 +45,30 @@ with torch.inference_mode():
     output = model.generate(**inputs, max_new_tokens=1)
 print("Answer:", tokenizer.decode(output[0], skip_special_tokens=True))

     output = model.generate(**inputs, max_new_tokens=1)
 print("Answer:", tokenizer.decode(output[0], skip_special_tokens=True))
+##How It Was Built
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
+import torch
+base_id = "aidasvenc/MNLP_M3_mcqa_model"
+qcfg = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_compute_dtype=torch.bfloat16,
+    bnb_4bit_use_double_quant=True
+)
+tokenizer = AutoTokenizer.from_pretrained(base_id)
+model = AutoModelForCausalLM.from_pretrained(
+    base_id,
+    quantization_config=qcfg,
+    device_map="auto",
+    torch_dtype="auto"
+)
+# Push to Hugging Face Hub
+model.push_to_hub("Kikinoking/MNLP_M3_quantized_model", private=True)
+tokenizer.push_to_hub("Kikinoking/MNLP_M3_quantized_model")
+print("VRAM used (MiB):", torch.cuda.memory_reserved()/1024**2)