RedHatAI
/

Qwen2-72B-Instruct-FP8

Text Generation

text-generation-inference

Model card Files Files and versions

Qwen2-72B-Instruct-FP8 / README.md

mgoin's picture

Update README.md

ffba7e2 verified about 1 year ago

|

1.08 kB

	---
	tags:
	- fp8
	---

	# Qwen2-72B-Instruct-FP8

	Ready to use with `vllm>=0.4.3`.

	Quantized with [AutoFP8](https://github.com/neuralmagic/autofp8) using the following script on 8xA100:

	```python
	from datasets import load_dataset
	from transformers import AutoTokenizer

	from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfig

	pretrained_model_dir = "Qwen/Qwen2-72B-Instruct"
	quantized_model_dir = "Qwen2-72B-Instruct-FP8"

	tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True)
	tokenizer.pad_token = tokenizer.eos_token

	ds = load_dataset("mgoin/ultrachat_2k", split="train_sft").select(range(512))
	examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
	examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")

	quantize_config = BaseQuantizeConfig(quant_method="fp8", activation_scheme="static")

	model = AutoFP8ForCausalLM.from_pretrained(
	pretrained_model_dir, quantize_config=quantize_config
	)
	model.quantize(examples)
	model.save_quantized(quantized_model_dir)
	```