nm-testing
/

tinyllama-oneshot-w8a8-dynamic-token-v2

Text Generation

text-generation-inference

8-bit precision

compressed-tensors

Model card Files Files and versions

sadkins65 commited on Jun 12, 2024

Commit

172e719

·

verified ·

1 Parent(s): ad04724

Upload folder using huggingface_hub

Files changed (3) hide show

config.json +3 -3
model.safetensors +2 -2
recipe.yaml +1 -1

config.json CHANGED Viewed

@@ -31,14 +31,14 @@
           "num_bits": 8,
           "observer": "minmax",
           "observer_kwargs": {},
-          "strategy": "channel",
           "symmetric": true,
           "type": "int"
         }
       }
     },
     "format": "int-quantized",
-    "global_compression_ratio": 1.2390773684863086,
     "ignore": [
       "lm_head"
     ],
@@ -46,7 +46,7 @@
     "quantization_status": "frozen",
     "sparsity_config": {
       "format": "dense",
-      "global_sparsity": 1.1879092038191659,
       "registry_requires_subclass": false,
       "sparsity_structure": "unstructured"
     }

           "num_bits": 8,
           "observer": "minmax",
           "observer_kwargs": {},
+          "strategy": "tensor",
           "symmetric": true,
           "type": "int"
         }
       }
     },
     "format": "int-quantized",
+    "global_compression_ratio": 1.2391304140415598,
     "ignore": [
       "lm_head"
     ],
     "quantization_status": "frozen",
     "sparsity_config": {
       "format": "dense",
+      "global_sparsity": 7.816310105138066,
       "registry_requires_subclass": false,
       "sparsity_structure": "unstructured"
     }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa0a2b2eacbec0d3252875883400855a36e72eda3d6fc21d8d016e7961468748
-size 1232041608

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac67b97b962f72184b81cf65dbbf4551d7e238a96611de7f17a73960552d46dc
+size 1231252556

recipe.yaml CHANGED Viewed

@@ -5,6 +5,6 @@ quant_stage:
       ignore: [lm_head]
       config_groups:
         group_0:
-          weights: {num_bits: 8, type: int, symmetric: true, strategy: channel}
           input_activations: {num_bits: 8, type: int, symmetric: true, dynamic: true, strategy: token}
           targets: [Linear]

       ignore: [lm_head]
       config_groups:
         group_0:
+          weights: {num_bits: 8, type: int, symmetric: true, strategy: tensor}
           input_activations: {num_bits: 8, type: int, symmetric: true, dynamic: true, strategy: token}
           targets: [Linear]