Add ONNX models and config

Files changed (10) hide show

README.md +90 -3
config.json +3 -0
onnx/model.onnx +3 -0
onnx/model_fp16.onnx +3 -0
onnx/model_q8f16.onnx +3 -0
onnx/model_quantized.onnx +3 -0
onnx/model_uint8.onnx +3 -0
onnx/model_uint8f16.onnx +3 -0
tokenizer.json +175 -0
tokenizer_config.json +6 -0

README.md CHANGED Viewed

@@ -1,3 +1,90 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+library_name: transformers.js
+language:
+- en
+base_model:
+- hexgrad/Kokoro-82M
+pipeline_tag: text-to-speech
+---
+# Kokoro TTS
+Kokoro is a frontier TTS model for its size of 82 million parameters (text in/audio out). These ONNX models have been exported from the original [Hugging Face](https://huggingface.co/hexgrad/Kokoro-82M) model via the [kokoro-onnx](https://github.com/adrianlyjak/kokoro-onnx-export) scripts.
+## Table of contents
+- [Usage](#usage)
+  - [JavaScript](#javascript)
+  - [Python](#python)
+- [Voices/Samples](#voicessamples)
+- [Quantizations](#quantizations)
+## Usage
+### JavaScript
+First, install the `kokoro-js` library from [NPM](https://npmjs.com/package/kokoro-js) using:
+```bash
+npm i kokoro-js
+```
+You can then generate speech as follows:
+```js
+import { KokoroTTS } from "kokoro-js";
+const model_id = "adrianlyjak/kokoro-onnx";
+const tts = await KokoroTTS.from_pretrained(model_id, {
+  dtype: "q8", // Options: "fp32", "fp16", "q8", "q4", "q4f16"
+});
+const text = "Life is like a box of chocolates. You never know what you're gonna get.";
+const audio = await tts.generate(text, {
+  // Use `tts.list_voices()` to list all available voices
+  voice: "af_heart",
+});
+audio.save("audio.wav");
+```
+### Python
+```python
+import os
+import numpy as np
+from onnxruntime import InferenceSession
+# You can generate token ids as follows:
+#   1. Convert input text to phonemes using https://github.com/hexgrad/misaki
+#   2. Map phonemes to ids using https://huggingface.co/hexgrad/Kokoro-82M/blob/785407d1adfa7ae8fbef8ffd85f34ca127da3039/config.json#L34-L148
+tokens = [50, 157, 43, 135, 16, 53, 135, 46, 16, 43, 102, 16, 56, 156, 57, 135, 6, 16, 102, 62, 61, 16, 70, 56, 16, 138, 56, 156, 72, 56, 61, 85, 123, 83, 44, 83, 54, 16, 53, 65, 156, 86, 61, 62, 131, 83, 56, 4, 16, 54, 156, 43, 102, 53, 16, 156, 72, 61, 53, 102, 112, 16, 70, 56, 16, 138, 56, 44, 156, 76, 158, 123, 56, 16, 62, 131, 156, 43, 102, 54, 46, 16, 102, 48, 16, 81, 47, 102, 54, 16, 54, 156, 51, 158, 46, 16, 70, 16, 92, 156, 135, 46, 16, 54, 156, 43, 102, 48, 4, 16, 81, 47, 102, 16, 50, 156, 72, 64, 83, 56, 62, 16, 156, 51, 158, 64, 83, 56, 16, 44, 157, 102, 56, 16, 44, 156, 76, 158, 123, 56, 4]
+# Context length is 512, but leave room for the pad token 0 at the start & end
+assert len(tokens) <= 510, len(tokens)
+# Style vector based on len(tokens), ref_s has shape (1, 256)
+voices = np.fromfile('./voices/af_heart.bin', dtype=np.float32).reshape(-1, 1, 256)
+ref_s = voices[len(tokens)]
+# Add the pad ids, and reshape tokens, should now have shape (1, <=512)
+tokens = [[0, *tokens, 0]]
+model_name = 'model.onnx' # Options: model.onnx, model_fp16.onnx, model_quantized.onnx, model_q8f16.onnx, model_uint8.onnx, model_uint8f16.onnx, model_q4.onnx, model_q4f16.onnx
+sess = InferenceSession(os.path.join('onnx', model_name))
+audio = sess.run(None, dict(
+    input_ids=tokens,
+    style=ref_s,
+    speed=np.ones(1, dtype=np.float32),
+))[0]
+```
+Optionally, save the audio to a file:
+```py
+import scipy.io.wavfile as wavfile
+wavfile.write('audio.wav', 24000, audio[0])
+```

config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "model_type": "style_text_to_speech_2"
+}

onnx/model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1404f5a5e1a6bf0f6e83f43b129a016b7828755d14b94030ce82ce26ec1a21f2
+size 325474826

onnx/model_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0b9ac5693e7f3686471ac0816b703174368eb8a80b2f7ff806002b96c31ecd5
+size 163756843

onnx/model_q8f16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bed76326e05744fe7c56e20044578fa2273f6da18e21e90ca3fd29b5f7f95f43
+size 86439949

onnx/model_quantized.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d4dca4381ec375d758c1de6b1e5d422e785d24422c79b0fb8e719d857aebf18
+size 92494425

onnx/model_uint8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3da49c6b31946fbbfd2beffd63447c51034959c23900c7ffb9ea3e9d53690c65
+size 172120428

onnx/model_uint8f16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df32d80f238da5c69cf5a3d381da5611a48ee00be32066c7263ea713af23de00
+size 112872273

tokenizer.json ADDED Viewed

	@@ -0,0 +1,175 @@

+{
+  "version": "1.0",
+  "truncation": null,
+  "padding": null,
+  "added_tokens": [],
+  "normalizer": {
+    "type": "Replace",
+    "pattern": {
+      "Regex": "[^$;:,.!?\u2014\u2026\"()\u201c\u201d \u0303\u02a3\u02a5\u02a6\u02a8\u1d5d\uab67AIOQSTWY\u1d4aabcdefhijklmnopqrstuvwxyz\u0251\u0250\u0252\u00e6\u03b2\u0254\u0255\u00e7\u0256\u00f0\u02a4\u0259\u025a\u025b\u025c\u025f\u0261\u0265\u0268\u026a\u029d\u026f\u0270\u014b\u0273\u0272\u0274\u00f8\u0278\u03b8\u0153\u0279\u027e\u027b\u0281\u027d\u0282\u0283\u0288\u02a7\u028a\u028b\u028c\u0263\u0264\u03c7\u028e\u0292\u0294\u02c8\u02cc\u02d0\u02b0\u02b2\u2193\u2192\u2197\u2198\u1d7b]"
+    },
+    "content": ""
+  },
+  "pre_tokenizer": {
+    "type": "Split",
+    "pattern": {
+      "Regex": ""
+    },
+    "behavior": "Isolated",
+    "invert": false
+  },
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "$",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "$",
+          "type_id": 0
+        }
+      }
+    ],
+    "special_tokens": {
+      "$": {
+        "id": "$",
+        "ids": [
+          0
+        ],
+        "tokens": [
+          "$"
+        ]
+      }
+    }
+  },
+  "decoder": null,
+  "model": {
+    "vocab": {
+      "$": 0,
+      ";": 1,
+      ":": 2,
+      ",": 3,
+      ".": 4,
+      "!": 5,
+      "?": 6,
+      "\u2014": 9,
+      "\u2026": 10,
+      "\"": 11,
+      "(": 12,
+      ")": 13,
+      "\u201c": 14,
+      "\u201d": 15,
+      " ": 16,
+      "\u0303": 17,
+      "\u02a3": 18,
+      "\u02a5": 19,
+      "\u02a6": 20,
+      "\u02a8": 21,
+      "\u1d5d": 22,
+      "\uab67": 23,
+      "A": 24,
+      "I": 25,
+      "O": 31,
+      "Q": 33,
+      "S": 35,
+      "T": 36,
+      "W": 39,
+      "Y": 41,
+      "\u1d4a": 42,
+      "a": 43,
+      "b": 44,
+      "c": 45,
+      "d": 46,
+      "e": 47,
+      "f": 48,
+      "h": 50,
+      "i": 51,
+      "j": 52,
+      "k": 53,
+      "l": 54,
+      "m": 55,
+      "n": 56,
+      "o": 57,
+      "p": 58,
+      "q": 59,
+      "r": 60,
+      "s": 61,
+      "t": 62,
+      "u": 63,
+      "v": 64,
+      "w": 65,
+      "x": 66,
+      "y": 67,
+      "z": 68,
+      "\u0251": 69,
+      "\u0250": 70,
+      "\u0252": 71,
+      "\u00e6": 72,
+      "\u03b2": 75,
+      "\u0254": 76,
+      "\u0255": 77,
+      "\u00e7": 78,
+      "\u0256": 80,
+      "\u00f0": 81,
+      "\u02a4": 82,
+      "\u0259": 83,
+      "\u025a": 85,
+      "\u025b": 86,
+      "\u025c": 87,
+      "\u025f": 90,
+      "\u0261": 92,
+      "\u0265": 99,
+      "\u0268": 101,
+      "\u026a": 102,
+      "\u029d": 103,
+      "\u026f": 110,
+      "\u0270": 111,
+      "\u014b": 112,
+      "\u0273": 113,
+      "\u0272": 114,
+      "\u0274": 115,
+      "\u00f8": 116,
+      "\u0278": 118,
+      "\u03b8": 119,
+      "\u0153": 120,
+      "\u0279": 123,
+      "\u027e": 125,
+      "\u027b": 126,
+      "\u0281": 128,
+      "\u027d": 129,
+      "\u0282": 130,
+      "\u0283": 131,
+      "\u0288": 132,
+      "\u02a7": 133,
+      "\u028a": 135,
+      "\u028b": 136,
+      "\u028c": 138,
+      "\u0263": 139,
+      "\u0264": 140,
+      "\u03c7": 142,
+      "\u028e": 143,
+      "\u0292": 147,
+      "\u0294": 148,
+      "\u02c8": 156,
+      "\u02cc": 157,
+      "\u02d0": 158,
+      "\u02b0": 162,
+      "\u02b2": 164,
+      "\u2193": 169,
+      "\u2192": 171,
+      "\u2197": 172,
+      "\u2198": 173,
+      "\u1d7b": 177
+    }
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "model_max_length": 512,
+  "pad_token": "$",
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "$"
+}