Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

86

Full-text search

Active filters: Quantization

VPTQ-community/Llama-3.1-Nemotron-70B-Instruct-HF-v8-k65536-65536-woft

11B • Updated Feb 25 • 3 • 5

VPTQ-community/Llama-3.1-Nemotron-70B-Instruct-HF-v16-k65536-1024-woft

6B • Updated Feb 25 • 2

VPTQ-community/Llama-3.1-Nemotron-70B-Instruct-HF-v8-k65536-0-woft

7B • Updated Feb 25 • 1

VPTQ-community/Llama-3.1-Nemotron-70B-Instruct-HF-v16-k65536-16384-woft

7B • Updated Feb 25 • 3

VPTQ-community/Llama-3.1-Nemotron-70B-Instruct-HF-v16-k65536-256-woft

6B • Updated Feb 25 • 1 • 1

Puhaha/gemma-2-9b-it-SimPO_q4_k_m

9B • Updated Nov 16, 2024 • 3

mit-han-lab/svdq-int4-flux.1-schnell

Text-to-Image • Updated Mar 13 • 6.31k • 16

VPTQ-community/Meta-Llama-3.3-70B-Instruct-v8-k65536-256-woft

9B • Updated Feb 25 • 5

VPTQ-community/Meta-Llama-3.3-70B-Instruct-v16-k65536-16384-woft

7B • Updated Feb 25 • 2

VPTQ-community/Meta-Llama-3.3-70B-Instruct-v8-k65536-0-woft

7B • Updated Feb 25 • 16

VPTQ-community/Meta-Llama-3.3-70B-Instruct-v16-k65536-65536-woft

8B • Updated Feb 25 • 11

VPTQ-community/Meta-Llama-3.3-70B-Instruct-v8-k65536-65536-woft

11B • Updated Feb 25 • 7 • 1

VPTQ-community/Meta-Llama-3.3-70B-Instruct-v16-k65536-1024-woft

6B • Updated Feb 25 • 7 • 1

VPTQ-community/Meta-Llama-3.1-8B-Instruct-v12-k65536-4096-woft-vllm

2B • Updated Jan 13 • 2

mit-han-lab/svdq-int4-flux.1-canny-dev

Image-to-Image • Updated Mar 17 • 665 • 5

mit-han-lab/svdq-int4-flux.1-depth-dev

Image-to-Image • Updated Mar 17 • 812 • 5

VPTQ-community/deepseek-r1_v_8_k_65536_256_mp4

Updated Mar 12 • 12

VPTQ-community/deepseek-r1_v_8_k_65536_mixed_mp4

Updated Mar 12 • 99 • 2

VPTQ-community/deepseek-r1_v8_k_65536_mp4

Updated Mar 12 • 52

VPTQ-community/deepseek-r1_v_8_k_65536

Updated Mar 12 • 32

VPTQ-community/deepseek-r1_v_8_k_65536_256

Updated Mar 12 • 92

STiFLeR7/Qwen2.5-3B-GPTQ

Text Generation • 0.7B • Updated Apr 4 • 27 • 1

WaveCut/PixelWave_FLUX.1-schnell_04_SVDQuant-int4

Text-to-Image • Updated May 9 • 44 • 1

QuantTrio/DeepSeek-R1-0528-Qwen3-8B-Int8-W8A16

Text Generation • 3B • Updated May 30 • 62

QuantTrio/DeepSeek-R1-0528-Qwen3-8B-Int4-W4A16

Text Generation • 2B • Updated May 30 • 48

nunchaku-tech/nunchaku-flux.1-schnell

Text-to-Image • Updated 1 minute ago