tmnam20 commited on
Commit
e335cc6
·
verified ·
1 Parent(s): ebf3212

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": true,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,674 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:92842
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: tmnam20/ViPubMedT5
10
+ widget:
11
+ - source_sentence: Chúng_tôi không_thể chứng_minh bất_kỳ tác_dụng có lợi nào của việc
12
+ dùng risedronat đường uống đối_với sự_cố định , mật_độ khoáng xương hoặc tái_tạo
13
+ xương của các ổ_cắm sửa_đổi bằng cách sử_dụng nhiều lượng ghép xương .
14
+ sentences:
15
+ - Có cơ_hội bị bỏ lỡ để phòng_ngừa thứ_phát cho những bệnh_nhân đang trải qua quá_trình
16
+ tái thông mạch vành , với tỷ_lệ kê đơn thuốc chẹn beta và thuốc ức_chế ACE thấp
17
+ .
18
+ - Mức_độ loạn sản cấp_độ cao trong thực_quản Barrett không phải là yếu_tố dự_báo
19
+ sự hiện_diện của ung_thư tuyến ở thực_quản .
20
+ - Không có sự khác_biệt đáng_kể về di_chuyển cup , mật_độ khoáng xương hoặc tái_tạo
21
+ ghép giữa nhóm risedronate và nhóm giả dược sau 3 năm .
22
+ - source_sentence: Ở nhóm bệnh_nhân này , kết_quả không bị ảnh_hưởng bởi xạ_trị ,
23
+ thao_tác nội_tiết_tố hoặc hoá_trị .
24
+ sentences:
25
+ - Nồng_độ MBL tăng không phải là dấu_hiệu của mối liên_quan giữa gen MBL2 và bệnh
26
+ tiểu_đường loại 1 hoặc bệnh_lý thận do tiểu_đường .
27
+ - Một đánh_giá biểu_đồ theo_dõi bệnh_nhân hồi cứu đã phá_thai bằng cả fentanyl và
28
+ midazolam tại hai phòng phá_thai miễn_phí tại đô_thị với chính_sách thường quy
29
+ là khuyên phụ_nữ ăn nhẹ trước khi tiến_hành thủ_thuật , không tìm thấy báo_cáo
30
+ nào về các biến_chứng liên_quan đến gây_mê trong 47.748 biểu_đồ được xem_xét từ
31
+ năm 1998 đến năm 2010 .
32
+ - Không an_toàn khi bỏ_qua xạ_trị sau khi cắt bỏ tại_chỗ rộng đối_với ung_thư biểu
33
+ mô ống tại_chỗ .
34
+ - source_sentence: Tính đặc_hiệu của hội_chứng đối_với kháng_thể kháng AQP-4 , cùng
35
+ với hồ_sơ kháng_thể tương_tự ở những bệnh_nhân NMOSD SS , chỉ ra rằng NMOSD không
36
+ phải là biểu_hiện trực_tiếp của hệ thần_kinh_trung_ương của SS .
37
+ sentences:
38
+ - Trong nghiên_cứu này , chúng_tôi phát_hiện ra rằng kháng_thể kháng AQP-4 chỉ có
39
+ ở những bệnh_nhân SS mắc NMOSD , nhưng không có ở những bệnh_nhân SS không mắc
40
+ NMOSD .
41
+ - Giảm nhanh DNA HBV ( tuần thứ 12 ) là một yếu_tố tiên_lượng quan_trọng đối_với
42
+ điều trị一线 bằng adefovir dipivoxil cho viêm gan B mạn_tính .
43
+ - Nồng_độ hormone tuyến_giáp nhẹ dư_thừa có liên_quan đến chức_năng thể_chất giảm
44
+ ở nam_giới lớn_tuổi .
45
+ - source_sentence: Các tế_bào hRPE biểu_hiện mức caspase-12 S cao .
46
+ sentences:
47
+ - Vô hoạt cathepsin B làm giảm tổn_thương tế_bào apoptosis do thiếu máu cục_bộ /
48
+ tái tưới máu ở gan chuột .
49
+ - Tỷ_lệ mắc khối_u ở những người nhận ghép thận đã tăng theo thời_gian .
50
+ - Sự biểu_hiện được điều_hoà của gen caspase-12 trong các tế_bào biểu mô sắc_tố
51
+ võng_mạc của người cho thấy vai_trò điều_hoà miễn_dịch của nó .
52
+ - source_sentence: Việc cấy_ghép các EC và MC có nguồn_gốc từ các tế_bào ES chưa phân_biệt
53
+ của con_người có khả_năng góp_phần tái_tạo mạch_máu điều_trị và do_đó làm giảm
54
+ diện_tích nhồi máu sau đột_quỵ .
55
+ sentences:
56
+ - Việc cấy_ghép các tế_bào mạch_máu có nguồn_gốc từ tế_bào gốc phôi người góp_phần
57
+ tái_tạo mạch_máu sau đột_quỵ ở chuột .
58
+ - Độ bão_hoà oxy tĩnh_mạch trung_tâm thấp ở những bệnh_nhân chấn_thương ổn_định
59
+ về huyết động_học có liên_quan đến kết_cục kém .
60
+ - Những bệnh_nhân ET không bị mất trí_nhớ có nhiều thay_đổi liên_quan đến Alzheimer
61
+ trong bệnh_lý thần_kinh tau hơn so với nhóm đối_chứng , cho thấy mối liên_hệ giữa
62
+ bệnh_lý tau và run .
63
+ pipeline_tag: sentence-similarity
64
+ library_name: sentence-transformers
65
+ ---
66
+
67
+ # SentenceTransformer based on tmnam20/ViPubMedT5
68
+
69
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [tmnam20/ViPubMedT5](https://huggingface.co/tmnam20/ViPubMedT5). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
70
+
71
+ ## Model Details
72
+
73
+ ### Model Description
74
+ - **Model Type:** Sentence Transformer
75
+ - **Base model:** [tmnam20/ViPubMedT5](https://huggingface.co/tmnam20/ViPubMedT5) <!-- at revision b28c5d32e8d7b9d6e3e46a8881635025398544d2 -->
76
+ - **Maximum Sequence Length:** 128 tokens
77
+ - **Output Dimensionality:** 768 dimensions
78
+ - **Similarity Function:** Cosine Similarity
79
+ <!-- - **Training Dataset:** Unknown -->
80
+ <!-- - **Language:** Unknown -->
81
+ <!-- - **License:** Unknown -->
82
+
83
+ ### Model Sources
84
+
85
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
86
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
87
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
88
+
89
+ ### Full Model Architecture
90
+
91
+ ```
92
+ SentenceTransformer(
93
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: T5EncoderModel
94
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
95
+ )
96
+ ```
97
+
98
+ ## Usage
99
+
100
+ ### Direct Usage (Sentence Transformers)
101
+
102
+ First install the Sentence Transformers library:
103
+
104
+ ```bash
105
+ pip install -U sentence-transformers
106
+ ```
107
+
108
+ Then you can load this model and run inference.
109
+ ```python
110
+ from sentence_transformers import SentenceTransformer
111
+
112
+ # Download from the 🤗 Hub
113
+ model = SentenceTransformer("vimednli/vipubmedt5-w_multi-SynPD")
114
+ # Run inference
115
+ sentences = [
116
+ 'Việc cấy_ghép các EC và MC có nguồn_gốc từ các tế_bào ES chưa phân_biệt của con_người có khả_năng góp_phần tái_tạo mạch_máu điều_trị và do_đó làm giảm diện_tích nhồi máu sau đột_quỵ .',
117
+ 'Việc cấy_ghép các tế_bào mạch_máu có nguồn_gốc từ tế_bào gốc phôi người góp_phần tái_tạo mạch_máu sau đột_quỵ ở chuột .',
118
+ 'Những bệnh_nhân ET không bị mất trí_nhớ có nhiều thay_đổi liên_quan đến Alzheimer trong bệnh_lý thần_kinh tau hơn so với nhóm đối_chứng , cho thấy mối liên_hệ giữa bệnh_lý tau và run .',
119
+ ]
120
+ embeddings = model.encode(sentences)
121
+ print(embeddings.shape)
122
+ # [3, 768]
123
+
124
+ # Get the similarity scores for the embeddings
125
+ similarities = model.similarity(embeddings, embeddings)
126
+ print(similarities.shape)
127
+ # [3, 3]
128
+ ```
129
+
130
+ <!--
131
+ ### Direct Usage (Transformers)
132
+
133
+ <details><summary>Click to see the direct usage in Transformers</summary>
134
+
135
+ </details>
136
+ -->
137
+
138
+ <!--
139
+ ### Downstream Usage (Sentence Transformers)
140
+
141
+ You can finetune this model on your own dataset.
142
+
143
+ <details><summary>Click to expand</summary>
144
+
145
+ </details>
146
+ -->
147
+
148
+ <!--
149
+ ### Out-of-Scope Use
150
+
151
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
152
+ -->
153
+
154
+ <!--
155
+ ## Bias, Risks and Limitations
156
+
157
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
158
+ -->
159
+
160
+ <!--
161
+ ### Recommendations
162
+
163
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
164
+ -->
165
+
166
+ ## Training Details
167
+
168
+ ### Training Dataset
169
+
170
+ #### Unnamed Dataset
171
+
172
+ * Size: 92,842 training samples
173
+ * Columns: <code>sentence1</code> and <code>sentence2</code>
174
+ * Approximate statistics based on the first 1000 samples:
175
+ | | sentence1 | sentence2 |
176
+ |:--------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
177
+ | type | string | string |
178
+ | details | <ul><li>min: 13 tokens</li><li>mean: 60.83 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 48.05 tokens</li><li>max: 128 tokens</li></ul> |
179
+ * Samples:
180
+ | sentence1 | sentence2 |
181
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
182
+ | <code>Trong nghiên_cứu hi��n_tại , hoạt_hoá P21 bằng hoạt_hoá gen do RNA ( RNAa ) gây ra hoạt_động chống khối_u trong ống_nghiệm trên dòng tế_bào u thần_kinh đệm SHG-44 của người .</code> | <code>dsRNA nhắm vào vùng khởi_động p21 ( dsP 21 ) đã gây cảm_ứng đáng_kể sự biểu_hiện của p21 ở mức phiên mã và protein , và làm giảm sự biểu_hiện của survivin .</code> |
183
+ | <code>Kết_quả của nghiên_cứu này cho thấy một sự tương_đồng về trình_tự không mong_đợi của các protein họ GH97 với glycoside hydrolase từ một_số họ khác , có cấu_trúc nếp gấp ( beta / alpha ) 8 của miền xúc_tác và cơ_chế giữ lại quá_trình thuỷ_phân liên_kết glycoside .</code> | <code>GH97 là một họ mới của glycoside hydrolase , có liên_quan đến họ siêu alpha-galactosidase.</code> |
184
+ | <code>MRI là một công_cụ hiệu_quả để dự_đoán đáp_ứng với NAC .</code> | <code>Phân giai MRI sau hoá_trị tân_bổ_trợ cho ung_thư vú : sinh_học khối_u có ảnh_hưởng đến độ_chính_xác không ?</code> |
185
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
186
+ ```json
187
+ {
188
+ "scale": 20.0,
189
+ "similarity_fct": "cos_sim"
190
+ }
191
+ ```
192
+
193
+ ### Training Hyperparameters
194
+ #### Non-Default Hyperparameters
195
+
196
+ - `per_device_train_batch_size`: 32
197
+ - `per_device_eval_batch_size`: 32
198
+ - `learning_rate`: 3e-05
199
+ - `num_train_epochs`: 10
200
+ - `warmup_ratio`: 0.1
201
+
202
+ #### All Hyperparameters
203
+ <details><summary>Click to expand</summary>
204
+
205
+ - `overwrite_output_dir`: False
206
+ - `do_predict`: False
207
+ - `eval_strategy`: no
208
+ - `prediction_loss_only`: True
209
+ - `per_device_train_batch_size`: 32
210
+ - `per_device_eval_batch_size`: 32
211
+ - `per_gpu_train_batch_size`: None
212
+ - `per_gpu_eval_batch_size`: None
213
+ - `gradient_accumulation_steps`: 1
214
+ - `eval_accumulation_steps`: None
215
+ - `torch_empty_cache_steps`: None
216
+ - `learning_rate`: 3e-05
217
+ - `weight_decay`: 0.0
218
+ - `adam_beta1`: 0.9
219
+ - `adam_beta2`: 0.999
220
+ - `adam_epsilon`: 1e-08
221
+ - `max_grad_norm`: 1.0
222
+ - `num_train_epochs`: 10
223
+ - `max_steps`: -1
224
+ - `lr_scheduler_type`: linear
225
+ - `lr_scheduler_kwargs`: {}
226
+ - `warmup_ratio`: 0.1
227
+ - `warmup_steps`: 0
228
+ - `log_level`: passive
229
+ - `log_level_replica`: warning
230
+ - `log_on_each_node`: True
231
+ - `logging_nan_inf_filter`: True
232
+ - `save_safetensors`: True
233
+ - `save_on_each_node`: False
234
+ - `save_only_model`: False
235
+ - `restore_callback_states_from_checkpoint`: False
236
+ - `no_cuda`: False
237
+ - `use_cpu`: False
238
+ - `use_mps_device`: False
239
+ - `seed`: 42
240
+ - `data_seed`: None
241
+ - `jit_mode_eval`: False
242
+ - `use_ipex`: False
243
+ - `bf16`: False
244
+ - `fp16`: False
245
+ - `fp16_opt_level`: O1
246
+ - `half_precision_backend`: auto
247
+ - `bf16_full_eval`: False
248
+ - `fp16_full_eval`: False
249
+ - `tf32`: None
250
+ - `local_rank`: 0
251
+ - `ddp_backend`: None
252
+ - `tpu_num_cores`: None
253
+ - `tpu_metrics_debug`: False
254
+ - `debug`: []
255
+ - `dataloader_drop_last`: False
256
+ - `dataloader_num_workers`: 0
257
+ - `dataloader_prefetch_factor`: None
258
+ - `past_index`: -1
259
+ - `disable_tqdm`: False
260
+ - `remove_unused_columns`: True
261
+ - `label_names`: None
262
+ - `load_best_model_at_end`: False
263
+ - `ignore_data_skip`: False
264
+ - `fsdp`: []
265
+ - `fsdp_min_num_params`: 0
266
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
267
+ - `tp_size`: 0
268
+ - `fsdp_transformer_layer_cls_to_wrap`: None
269
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
270
+ - `deepspeed`: None
271
+ - `label_smoothing_factor`: 0.0
272
+ - `optim`: adamw_torch
273
+ - `optim_args`: None
274
+ - `adafactor`: False
275
+ - `group_by_length`: False
276
+ - `length_column_name`: length
277
+ - `ddp_find_unused_parameters`: None
278
+ - `ddp_bucket_cap_mb`: None
279
+ - `ddp_broadcast_buffers`: False
280
+ - `dataloader_pin_memory`: True
281
+ - `dataloader_persistent_workers`: False
282
+ - `skip_memory_metrics`: True
283
+ - `use_legacy_prediction_loop`: False
284
+ - `push_to_hub`: False
285
+ - `resume_from_checkpoint`: None
286
+ - `hub_model_id`: None
287
+ - `hub_strategy`: every_save
288
+ - `hub_private_repo`: None
289
+ - `hub_always_push`: False
290
+ - `gradient_checkpointing`: False
291
+ - `gradient_checkpointing_kwargs`: None
292
+ - `include_inputs_for_metrics`: False
293
+ - `include_for_metrics`: []
294
+ - `eval_do_concat_batches`: True
295
+ - `fp16_backend`: auto
296
+ - `push_to_hub_model_id`: None
297
+ - `push_to_hub_organization`: None
298
+ - `mp_parameters`:
299
+ - `auto_find_batch_size`: False
300
+ - `full_determinism`: False
301
+ - `torchdynamo`: None
302
+ - `ray_scope`: last
303
+ - `ddp_timeout`: 1800
304
+ - `torch_compile`: False
305
+ - `torch_compile_backend`: None
306
+ - `torch_compile_mode`: None
307
+ - `include_tokens_per_second`: False
308
+ - `include_num_input_tokens_seen`: False
309
+ - `neftune_noise_alpha`: None
310
+ - `optim_target_modules`: None
311
+ - `batch_eval_metrics`: False
312
+ - `eval_on_start`: False
313
+ - `use_liger_kernel`: False
314
+ - `eval_use_gather_object`: False
315
+ - `average_tokens_across_devices`: False
316
+ - `prompts`: None
317
+ - `batch_sampler`: batch_sampler
318
+ - `multi_dataset_batch_sampler`: proportional
319
+
320
+ </details>
321
+
322
+ ### Training Logs
323
+ <details><summary>Click to expand</summary>
324
+
325
+ | Epoch | Step | Training Loss |
326
+ |:------:|:-----:|:-------------:|
327
+ | 0.0345 | 100 | 4.4987 |
328
+ | 0.0689 | 200 | 3.5509 |
329
+ | 0.1034 | 300 | 2.2814 |
330
+ | 0.1378 | 400 | 1.3726 |
331
+ | 0.1723 | 500 | 1.0296 |
332
+ | 0.2068 | 600 | 0.7233 |
333
+ | 0.2412 | 700 | 0.5698 |
334
+ | 0.2757 | 800 | 0.4624 |
335
+ | 0.3101 | 900 | 0.4061 |
336
+ | 0.3446 | 1000 | 0.3497 |
337
+ | 0.3790 | 1100 | 0.2957 |
338
+ | 0.4135 | 1200 | 0.2716 |
339
+ | 0.4480 | 1300 | 0.2456 |
340
+ | 0.4824 | 1400 | 0.2431 |
341
+ | 0.5169 | 1500 | 0.1974 |
342
+ | 0.5513 | 1600 | 0.2078 |
343
+ | 0.5858 | 1700 | 0.2016 |
344
+ | 0.6203 | 1800 | 0.2097 |
345
+ | 0.6547 | 1900 | 0.1855 |
346
+ | 0.6892 | 2000 | 0.1789 |
347
+ | 0.7236 | 2100 | 0.1753 |
348
+ | 0.7581 | 2200 | 0.1629 |
349
+ | 0.7926 | 2300 | 0.1748 |
350
+ | 0.8270 | 2400 | 0.1578 |
351
+ | 0.8615 | 2500 | 0.1452 |
352
+ | 0.8959 | 2600 | 0.1377 |
353
+ | 0.9304 | 2700 | 0.1379 |
354
+ | 0.9649 | 2800 | 0.1439 |
355
+ | 0.9993 | 2900 | 0.1434 |
356
+ | 1.0338 | 3000 | 0.1139 |
357
+ | 1.0682 | 3100 | 0.0966 |
358
+ | 1.1027 | 3200 | 0.1121 |
359
+ | 1.1371 | 3300 | 0.0996 |
360
+ | 1.1716 | 3400 | 0.1095 |
361
+ | 1.2061 | 3500 | 0.1031 |
362
+ | 1.2405 | 3600 | 0.1149 |
363
+ | 1.2750 | 3700 | 0.1239 |
364
+ | 1.3094 | 3800 | 0.0969 |
365
+ | 1.3439 | 3900 | 0.1044 |
366
+ | 1.3784 | 4000 | 0.1141 |
367
+ | 1.4128 | 4100 | 0.0894 |
368
+ | 1.4473 | 4200 | 0.1172 |
369
+ | 1.4817 | 4300 | 0.1009 |
370
+ | 1.5162 | 4400 | 0.0904 |
371
+ | 1.5507 | 4500 | 0.1198 |
372
+ | 1.5851 | 4600 | 0.0956 |
373
+ | 1.6196 | 4700 | 0.1061 |
374
+ | 1.6540 | 4800 | 0.0867 |
375
+ | 1.6885 | 4900 | 0.0908 |
376
+ | 1.7229 | 5000 | 0.1025 |
377
+ | 1.7574 | 5100 | 0.1099 |
378
+ | 1.7919 | 5200 | 0.0932 |
379
+ | 1.8263 | 5300 | 0.0848 |
380
+ | 1.8608 | 5400 | 0.1027 |
381
+ | 1.8952 | 5500 | 0.0851 |
382
+ | 1.9297 | 5600 | 0.0917 |
383
+ | 1.9642 | 5700 | 0.0883 |
384
+ | 1.9986 | 5800 | 0.0931 |
385
+ | 2.0331 | 5900 | 0.0625 |
386
+ | 2.0675 | 6000 | 0.0503 |
387
+ | 2.1020 | 6100 | 0.0627 |
388
+ | 2.1365 | 6200 | 0.0725 |
389
+ | 2.1709 | 6300 | 0.0529 |
390
+ | 2.2054 | 6400 | 0.0591 |
391
+ | 2.2398 | 6500 | 0.0501 |
392
+ | 2.2743 | 6600 | 0.0608 |
393
+ | 2.3088 | 6700 | 0.0616 |
394
+ | 2.3432 | 6800 | 0.0492 |
395
+ | 2.3777 | 6900 | 0.0556 |
396
+ | 2.4121 | 7000 | 0.0744 |
397
+ | 2.4466 | 7100 | 0.0661 |
398
+ | 2.4810 | 7200 | 0.0554 |
399
+ | 2.5155 | 7300 | 0.0615 |
400
+ | 2.5500 | 7400 | 0.0565 |
401
+ | 2.5844 | 7500 | 0.0628 |
402
+ | 2.6189 | 7600 | 0.0527 |
403
+ | 2.6533 | 7700 | 0.069 |
404
+ | 2.6878 | 7800 | 0.0666 |
405
+ | 2.7223 | 7900 | 0.0642 |
406
+ | 2.7567 | 8000 | 0.0601 |
407
+ | 2.7912 | 8100 | 0.0564 |
408
+ | 2.8256 | 8200 | 0.0549 |
409
+ | 2.8601 | 8300 | 0.0552 |
410
+ | 2.8946 | 8400 | 0.0692 |
411
+ | 2.9290 | 8500 | 0.0607 |
412
+ | 2.9635 | 8600 | 0.0537 |
413
+ | 2.9979 | 8700 | 0.0534 |
414
+ | 3.0324 | 8800 | 0.0365 |
415
+ | 3.0669 | 8900 | 0.041 |
416
+ | 3.1013 | 9000 | 0.0405 |
417
+ | 3.1358 | 9100 | 0.0362 |
418
+ | 3.1702 | 9200 | 0.0365 |
419
+ | 3.2047 | 9300 | 0.0451 |
420
+ | 3.2391 | 9400 | 0.0363 |
421
+ | 3.2736 | 9500 | 0.0444 |
422
+ | 3.3081 | 9600 | 0.0349 |
423
+ | 3.3425 | 9700 | 0.0445 |
424
+ | 3.3770 | 9800 | 0.0491 |
425
+ | 3.4114 | 9900 | 0.0429 |
426
+ | 3.4459 | 10000 | 0.0399 |
427
+ | 3.4804 | 10100 | 0.0364 |
428
+ | 3.5148 | 10200 | 0.0429 |
429
+ | 3.5493 | 10300 | 0.0394 |
430
+ | 3.5837 | 10400 | 0.0397 |
431
+ | 3.6182 | 10500 | 0.0406 |
432
+ | 3.6527 | 10600 | 0.038 |
433
+ | 3.6871 | 10700 | 0.0379 |
434
+ | 3.7216 | 10800 | 0.0392 |
435
+ | 3.7560 | 10900 | 0.0395 |
436
+ | 3.7905 | 11000 | 0.0331 |
437
+ | 3.8249 | 11100 | 0.0415 |
438
+ | 3.8594 | 11200 | 0.0421 |
439
+ | 3.8939 | 11300 | 0.0371 |
440
+ | 3.9283 | 11400 | 0.0333 |
441
+ | 3.9628 | 11500 | 0.0352 |
442
+ | 3.9972 | 11600 | 0.0371 |
443
+ | 4.0317 | 11700 | 0.0266 |
444
+ | 4.0662 | 11800 | 0.0288 |
445
+ | 4.1006 | 11900 | 0.0281 |
446
+ | 4.1351 | 12000 | 0.0318 |
447
+ | 4.1695 | 12100 | 0.0256 |
448
+ | 4.2040 | 12200 | 0.0275 |
449
+ | 4.2385 | 12300 | 0.0245 |
450
+ | 4.2729 | 12400 | 0.0295 |
451
+ | 4.3074 | 12500 | 0.0282 |
452
+ | 4.3418 | 12600 | 0.0286 |
453
+ | 4.3763 | 12700 | 0.0231 |
454
+ | 4.4108 | 12800 | 0.03 |
455
+ | 4.4452 | 12900 | 0.0244 |
456
+ | 4.4797 | 13000 | 0.0231 |
457
+ | 4.5141 | 13100 | 0.0222 |
458
+ | 4.5486 | 13200 | 0.027 |
459
+ | 4.5830 | 13300 | 0.0301 |
460
+ | 4.6175 | 13400 | 0.0256 |
461
+ | 4.6520 | 13500 | 0.0325 |
462
+ | 4.6864 | 13600 | 0.0291 |
463
+ | 4.7209 | 13700 | 0.0263 |
464
+ | 4.7553 | 13800 | 0.0215 |
465
+ | 4.7898 | 13900 | 0.0277 |
466
+ | 4.8243 | 14000 | 0.024 |
467
+ | 4.8587 | 14100 | 0.0242 |
468
+ | 4.8932 | 14200 | 0.0259 |
469
+ | 4.9276 | 14300 | 0.0279 |
470
+ | 4.9621 | 14400 | 0.0247 |
471
+ | 4.9966 | 14500 | 0.0285 |
472
+ | 5.0310 | 14600 | 0.0206 |
473
+ | 5.0655 | 14700 | 0.0183 |
474
+ | 5.0999 | 14800 | 0.0161 |
475
+ | 5.1344 | 14900 | 0.019 |
476
+ | 5.1688 | 15000 | 0.0198 |
477
+ | 5.2033 | 15100 | 0.0174 |
478
+ | 5.2378 | 15200 | 0.0157 |
479
+ | 5.2722 | 15300 | 0.0191 |
480
+ | 5.3067 | 15400 | 0.0181 |
481
+ | 5.3411 | 15500 | 0.0165 |
482
+ | 5.3756 | 15600 | 0.018 |
483
+ | 5.4101 | 15700 | 0.0194 |
484
+ | 5.4445 | 15800 | 0.0221 |
485
+ | 5.4790 | 15900 | 0.017 |
486
+ | 5.5134 | 16000 | 0.019 |
487
+ | 5.5479 | 16100 | 0.0166 |
488
+ | 5.5824 | 16200 | 0.0156 |
489
+ | 5.6168 | 16300 | 0.0248 |
490
+ | 5.6513 | 16400 | 0.0189 |
491
+ | 5.6857 | 16500 | 0.0188 |
492
+ | 5.7202 | 16600 | 0.0191 |
493
+ | 5.7547 | 16700 | 0.02 |
494
+ | 5.7891 | 16800 | 0.0157 |
495
+ | 5.8236 | 16900 | 0.0247 |
496
+ | 5.8580 | 17000 | 0.0218 |
497
+ | 5.8925 | 17100 | 0.0191 |
498
+ | 5.9269 | 17200 | 0.0141 |
499
+ | 5.9614 | 17300 | 0.0203 |
500
+ | 5.9959 | 17400 | 0.0169 |
501
+ | 6.0303 | 17500 | 0.0122 |
502
+ | 6.0648 | 17600 | 0.0128 |
503
+ | 6.0992 | 17700 | 0.0151 |
504
+ | 6.1337 | 17800 | 0.0162 |
505
+ | 6.1682 | 17900 | 0.0137 |
506
+ | 6.2026 | 18000 | 0.0124 |
507
+ | 6.2371 | 18100 | 0.0127 |
508
+ | 6.2715 | 18200 | 0.0152 |
509
+ | 6.3060 | 18300 | 0.0151 |
510
+ | 6.3405 | 18400 | 0.0164 |
511
+ | 6.3749 | 18500 | 0.0131 |
512
+ | 6.4094 | 18600 | 0.0155 |
513
+ | 6.4438 | 18700 | 0.0166 |
514
+ | 6.4783 | 18800 | 0.0149 |
515
+ | 6.5127 | 18900 | 0.0165 |
516
+ | 6.5472 | 19000 | 0.0181 |
517
+ | 6.5817 | 19100 | 0.014 |
518
+ | 6.6161 | 19200 | 0.0158 |
519
+ | 6.6506 | 19300 | 0.0171 |
520
+ | 6.6850 | 19400 | 0.0156 |
521
+ | 6.7195 | 19500 | 0.0143 |
522
+ | 6.7540 | 19600 | 0.0142 |
523
+ | 6.7884 | 19700 | 0.0151 |
524
+ | 6.8229 | 19800 | 0.0153 |
525
+ | 6.8573 | 19900 | 0.0141 |
526
+ | 6.8918 | 20000 | 0.0169 |
527
+ | 6.9263 | 20100 | 0.016 |
528
+ | 6.9607 | 20200 | 0.0128 |
529
+ | 6.9952 | 20300 | 0.0145 |
530
+ | 7.0296 | 20400 | 0.0103 |
531
+ | 7.0641 | 20500 | 0.0128 |
532
+ | 7.0986 | 20600 | 0.0088 |
533
+ | 7.1330 | 20700 | 0.0146 |
534
+ | 7.1675 | 20800 | 0.0101 |
535
+ | 7.2019 | 20900 | 0.0145 |
536
+ | 7.2364 | 21000 | 0.0141 |
537
+ | 7.2708 | 21100 | 0.0098 |
538
+ | 7.3053 | 21200 | 0.011 |
539
+ | 7.3398 | 21300 | 0.0117 |
540
+ | 7.3742 | 21400 | 0.0115 |
541
+ | 7.4087 | 21500 | 0.0129 |
542
+ | 7.4431 | 21600 | 0.0121 |
543
+ | 7.4776 | 21700 | 0.0096 |
544
+ | 7.5121 | 21800 | 0.0125 |
545
+ | 7.5465 | 21900 | 0.0115 |
546
+ | 7.5810 | 22000 | 0.0147 |
547
+ | 7.6154 | 22100 | 0.0149 |
548
+ | 7.6499 | 22200 | 0.0133 |
549
+ | 7.6844 | 22300 | 0.0127 |
550
+ | 7.7188 | 22400 | 0.0137 |
551
+ | 7.7533 | 22500 | 0.0113 |
552
+ | 7.7877 | 22600 | 0.0136 |
553
+ | 7.8222 | 22700 | 0.0128 |
554
+ | 7.8567 | 22800 | 0.0127 |
555
+ | 7.8911 | 22900 | 0.0154 |
556
+ | 7.9256 | 23000 | 0.0118 |
557
+ | 7.9600 | 23100 | 0.0118 |
558
+ | 7.9945 | 23200 | 0.0128 |
559
+ | 8.0289 | 23300 | 0.0098 |
560
+ | 8.0634 | 23400 | 0.0103 |
561
+ | 8.0979 | 23500 | 0.0125 |
562
+ | 8.1323 | 23600 | 0.0109 |
563
+ | 8.1668 | 23700 | 0.0083 |
564
+ | 8.2012 | 23800 | 0.0112 |
565
+ | 8.2357 | 23900 | 0.0108 |
566
+ | 8.2702 | 24000 | 0.0113 |
567
+ | 8.3046 | 24100 | 0.0107 |
568
+ | 8.3391 | 24200 | 0.011 |
569
+ | 8.3735 | 24300 | 0.01 |
570
+ | 8.4080 | 24400 | 0.0104 |
571
+ | 8.4425 | 24500 | 0.0099 |
572
+ | 8.4769 | 24600 | 0.0106 |
573
+ | 8.5114 | 24700 | 0.0111 |
574
+ | 8.5458 | 24800 | 0.0111 |
575
+ | 8.5803 | 24900 | 0.0105 |
576
+ | 8.6147 | 25000 | 0.0091 |
577
+ | 8.6492 | 25100 | 0.0128 |
578
+ | 8.6837 | 25200 | 0.0125 |
579
+ | 8.7181 | 25300 | 0.0115 |
580
+ | 8.7526 | 25400 | 0.0119 |
581
+ | 8.7870 | 25500 | 0.0115 |
582
+ | 8.8215 | 25600 | 0.0073 |
583
+ | 8.8560 | 25700 | 0.0107 |
584
+ | 8.8904 | 25800 | 0.012 |
585
+ | 8.9249 | 25900 | 0.0113 |
586
+ | 8.9593 | 26000 | 0.0104 |
587
+ | 8.9938 | 26100 | 0.0124 |
588
+ | 9.0283 | 26200 | 0.0092 |
589
+ | 9.0627 | 26300 | 0.0129 |
590
+ | 9.0972 | 26400 | 0.0094 |
591
+ | 9.1316 | 26500 | 0.0109 |
592
+ | 9.1661 | 26600 | 0.0094 |
593
+ | 9.2006 | 26700 | 0.0098 |
594
+ | 9.2350 | 26800 | 0.0103 |
595
+ | 9.2695 | 26900 | 0.0097 |
596
+ | 9.3039 | 27000 | 0.0106 |
597
+ | 9.3384 | 27100 | 0.0079 |
598
+ | 9.3728 | 27200 | 0.0082 |
599
+ | 9.4073 | 27300 | 0.0095 |
600
+ | 9.4418 | 27400 | 0.0086 |
601
+ | 9.4762 | 27500 | 0.009 |
602
+ | 9.5107 | 27600 | 0.0089 |
603
+ | 9.5451 | 27700 | 0.0102 |
604
+ | 9.5796 | 27800 | 0.0111 |
605
+ | 9.6141 | 27900 | 0.0104 |
606
+ | 9.6485 | 28000 | 0.011 |
607
+ | 9.6830 | 28100 | 0.0096 |
608
+ | 9.7174 | 28200 | 0.0096 |
609
+ | 9.7519 | 28300 | 0.0106 |
610
+ | 9.7864 | 28400 | 0.0076 |
611
+ | 9.8208 | 28500 | 0.0079 |
612
+ | 9.8553 | 28600 | 0.0097 |
613
+ | 9.8897 | 28700 | 0.0083 |
614
+ | 9.9242 | 28800 | 0.0077 |
615
+ | 9.9586 | 28900 | 0.0104 |
616
+ | 9.9931 | 29000 | 0.0107 |
617
+
618
+ </details>
619
+
620
+ ### Framework Versions
621
+ - Python: 3.9.19
622
+ - Sentence Transformers: 4.1.0
623
+ - Transformers: 4.51.3
624
+ - PyTorch: 2.2.0+cu121
625
+ - Accelerate: 0.34.2
626
+ - Datasets: 2.19.1
627
+ - Tokenizers: 0.21.1
628
+
629
+ ## Citation
630
+
631
+ ### BibTeX
632
+
633
+ #### Sentence Transformers
634
+ ```bibtex
635
+ @inproceedings{reimers-2019-sentence-bert,
636
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
637
+ author = "Reimers, Nils and Gurevych, Iryna",
638
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
639
+ month = "11",
640
+ year = "2019",
641
+ publisher = "Association for Computational Linguistics",
642
+ url = "https://arxiv.org/abs/1908.10084",
643
+ }
644
+ ```
645
+
646
+ #### MultipleNegativesRankingLoss
647
+ ```bibtex
648
+ @misc{henderson2017efficient,
649
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
650
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
651
+ year={2017},
652
+ eprint={1705.00652},
653
+ archivePrefix={arXiv},
654
+ primaryClass={cs.CL}
655
+ }
656
+ ```
657
+
658
+ <!--
659
+ ## Glossary
660
+
661
+ *Clearly define terms in order to be accessible across audiences.*
662
+ -->
663
+
664
+ <!--
665
+ ## Model Card Authors
666
+
667
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
668
+ -->
669
+
670
+ <!--
671
+ ## Model Card Contact
672
+
673
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
674
+ -->
config.json ADDED
@@ -0,0 +1,31 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "T5EncoderModel"
4
+ ],
5
+ "classifier_dropout": 0.0,
6
+ "d_ff": 3072,
7
+ "d_kv": 64,
8
+ "d_model": 768,
9
+ "decoder_start_token_id": 0,
10
+ "dense_act_fn": "relu",
11
+ "dropout_rate": 0.1,
12
+ "eos_token_id": 1,
13
+ "feed_forward_proj": "relu",
14
+ "initializer_factor": 1.0,
15
+ "is_encoder_decoder": true,
16
+ "is_gated_act": false,
17
+ "layer_norm_epsilon": 1e-06,
18
+ "model_type": "t5",
19
+ "n_positions": 512,
20
+ "num_decoder_layers": 12,
21
+ "num_heads": 12,
22
+ "num_layers": 12,
23
+ "output_past": true,
24
+ "pad_token_id": 0,
25
+ "relative_attention_max_distance": 128,
26
+ "relative_attention_num_buckets": 32,
27
+ "torch_dtype": "float32",
28
+ "transformers_version": "4.51.3",
29
+ "use_cache": true,
30
+ "vocab_size": 36096
31
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.51.3",
5
+ "pytorch": "2.2.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1d3ff484d52b749a1ee5ab8a5e2f9ffea9b5db22a476fbca1484279375decff8
3
+ size 450715560
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,128 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<extra_id_0>",
4
+ "<extra_id_1>",
5
+ "<extra_id_2>",
6
+ "<extra_id_3>",
7
+ "<extra_id_4>",
8
+ "<extra_id_5>",
9
+ "<extra_id_6>",
10
+ "<extra_id_7>",
11
+ "<extra_id_8>",
12
+ "<extra_id_9>",
13
+ "<extra_id_10>",
14
+ "<extra_id_11>",
15
+ "<extra_id_12>",
16
+ "<extra_id_13>",
17
+ "<extra_id_14>",
18
+ "<extra_id_15>",
19
+ "<extra_id_16>",
20
+ "<extra_id_17>",
21
+ "<extra_id_18>",
22
+ "<extra_id_19>",
23
+ "<extra_id_20>",
24
+ "<extra_id_21>",
25
+ "<extra_id_22>",
26
+ "<extra_id_23>",
27
+ "<extra_id_24>",
28
+ "<extra_id_25>",
29
+ "<extra_id_26>",
30
+ "<extra_id_27>",
31
+ "<extra_id_28>",
32
+ "<extra_id_29>",
33
+ "<extra_id_30>",
34
+ "<extra_id_31>",
35
+ "<extra_id_32>",
36
+ "<extra_id_33>",
37
+ "<extra_id_34>",
38
+ "<extra_id_35>",
39
+ "<extra_id_36>",
40
+ "<extra_id_37>",
41
+ "<extra_id_38>",
42
+ "<extra_id_39>",
43
+ "<extra_id_40>",
44
+ "<extra_id_41>",
45
+ "<extra_id_42>",
46
+ "<extra_id_43>",
47
+ "<extra_id_44>",
48
+ "<extra_id_45>",
49
+ "<extra_id_46>",
50
+ "<extra_id_47>",
51
+ "<extra_id_48>",
52
+ "<extra_id_49>",
53
+ "<extra_id_50>",
54
+ "<extra_id_51>",
55
+ "<extra_id_52>",
56
+ "<extra_id_53>",
57
+ "<extra_id_54>",
58
+ "<extra_id_55>",
59
+ "<extra_id_56>",
60
+ "<extra_id_57>",
61
+ "<extra_id_58>",
62
+ "<extra_id_59>",
63
+ "<extra_id_60>",
64
+ "<extra_id_61>",
65
+ "<extra_id_62>",
66
+ "<extra_id_63>",
67
+ "<extra_id_64>",
68
+ "<extra_id_65>",
69
+ "<extra_id_66>",
70
+ "<extra_id_67>",
71
+ "<extra_id_68>",
72
+ "<extra_id_69>",
73
+ "<extra_id_70>",
74
+ "<extra_id_71>",
75
+ "<extra_id_72>",
76
+ "<extra_id_73>",
77
+ "<extra_id_74>",
78
+ "<extra_id_75>",
79
+ "<extra_id_76>",
80
+ "<extra_id_77>",
81
+ "<extra_id_78>",
82
+ "<extra_id_79>",
83
+ "<extra_id_80>",
84
+ "<extra_id_81>",
85
+ "<extra_id_82>",
86
+ "<extra_id_83>",
87
+ "<extra_id_84>",
88
+ "<extra_id_85>",
89
+ "<extra_id_86>",
90
+ "<extra_id_87>",
91
+ "<extra_id_88>",
92
+ "<extra_id_89>",
93
+ "<extra_id_90>",
94
+ "<extra_id_91>",
95
+ "<extra_id_92>",
96
+ "<extra_id_93>",
97
+ "<extra_id_94>",
98
+ "<extra_id_95>"
99
+ ],
100
+ "eos_token": {
101
+ "content": "</s>",
102
+ "lstrip": false,
103
+ "normalized": false,
104
+ "rstrip": false,
105
+ "single_word": false
106
+ },
107
+ "mask_token": {
108
+ "content": "<unk>",
109
+ "lstrip": false,
110
+ "normalized": false,
111
+ "rstrip": false,
112
+ "single_word": false
113
+ },
114
+ "pad_token": {
115
+ "content": "<pad>",
116
+ "lstrip": false,
117
+ "normalized": false,
118
+ "rstrip": false,
119
+ "single_word": false
120
+ },
121
+ "unk_token": {
122
+ "content": "<unk>",
123
+ "lstrip": false,
124
+ "normalized": false,
125
+ "rstrip": false,
126
+ "single_word": false
127
+ }
128
+ }
spiece.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:59986b62f9f0b90edafb9b073ea7b93d21114a5841219a1ea2399ade73f729c6
3
+ size 820370
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,905 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": null,
3
+ "added_tokens_decoder": {
4
+ "0": {
5
+ "content": "<pad>",
6
+ "lstrip": false,
7
+ "normalized": false,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "1": {
13
+ "content": "</s>",
14
+ "lstrip": false,
15
+ "normalized": false,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "2": {
21
+ "content": "<unk>",
22
+ "lstrip": false,
23
+ "normalized": false,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "36000": {
29
+ "content": "<extra_id_95>",
30
+ "lstrip": false,
31
+ "normalized": false,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "36001": {
37
+ "content": "<extra_id_94>",
38
+ "lstrip": false,
39
+ "normalized": false,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ },
44
+ "36002": {
45
+ "content": "<extra_id_93>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false,
50
+ "special": true
51
+ },
52
+ "36003": {
53
+ "content": "<extra_id_92>",
54
+ "lstrip": false,
55
+ "normalized": false,
56
+ "rstrip": false,
57
+ "single_word": false,
58
+ "special": true
59
+ },
60
+ "36004": {
61
+ "content": "<extra_id_91>",
62
+ "lstrip": false,
63
+ "normalized": false,
64
+ "rstrip": false,
65
+ "single_word": false,
66
+ "special": true
67
+ },
68
+ "36005": {
69
+ "content": "<extra_id_90>",
70
+ "lstrip": false,
71
+ "normalized": false,
72
+ "rstrip": false,
73
+ "single_word": false,
74
+ "special": true
75
+ },
76
+ "36006": {
77
+ "content": "<extra_id_89>",
78
+ "lstrip": false,
79
+ "normalized": false,
80
+ "rstrip": false,
81
+ "single_word": false,
82
+ "special": true
83
+ },
84
+ "36007": {
85
+ "content": "<extra_id_88>",
86
+ "lstrip": false,
87
+ "normalized": false,
88
+ "rstrip": false,
89
+ "single_word": false,
90
+ "special": true
91
+ },
92
+ "36008": {
93
+ "content": "<extra_id_87>",
94
+ "lstrip": false,
95
+ "normalized": false,
96
+ "rstrip": false,
97
+ "single_word": false,
98
+ "special": true
99
+ },
100
+ "36009": {
101
+ "content": "<extra_id_86>",
102
+ "lstrip": false,
103
+ "normalized": false,
104
+ "rstrip": false,
105
+ "single_word": false,
106
+ "special": true
107
+ },
108
+ "36010": {
109
+ "content": "<extra_id_85>",
110
+ "lstrip": false,
111
+ "normalized": false,
112
+ "rstrip": false,
113
+ "single_word": false,
114
+ "special": true
115
+ },
116
+ "36011": {
117
+ "content": "<extra_id_84>",
118
+ "lstrip": false,
119
+ "normalized": false,
120
+ "rstrip": false,
121
+ "single_word": false,
122
+ "special": true
123
+ },
124
+ "36012": {
125
+ "content": "<extra_id_83>",
126
+ "lstrip": false,
127
+ "normalized": false,
128
+ "rstrip": false,
129
+ "single_word": false,
130
+ "special": true
131
+ },
132
+ "36013": {
133
+ "content": "<extra_id_82>",
134
+ "lstrip": false,
135
+ "normalized": false,
136
+ "rstrip": false,
137
+ "single_word": false,
138
+ "special": true
139
+ },
140
+ "36014": {
141
+ "content": "<extra_id_81>",
142
+ "lstrip": false,
143
+ "normalized": false,
144
+ "rstrip": false,
145
+ "single_word": false,
146
+ "special": true
147
+ },
148
+ "36015": {
149
+ "content": "<extra_id_80>",
150
+ "lstrip": false,
151
+ "normalized": false,
152
+ "rstrip": false,
153
+ "single_word": false,
154
+ "special": true
155
+ },
156
+ "36016": {
157
+ "content": "<extra_id_79>",
158
+ "lstrip": false,
159
+ "normalized": false,
160
+ "rstrip": false,
161
+ "single_word": false,
162
+ "special": true
163
+ },
164
+ "36017": {
165
+ "content": "<extra_id_78>",
166
+ "lstrip": false,
167
+ "normalized": false,
168
+ "rstrip": false,
169
+ "single_word": false,
170
+ "special": true
171
+ },
172
+ "36018": {
173
+ "content": "<extra_id_77>",
174
+ "lstrip": false,
175
+ "normalized": false,
176
+ "rstrip": false,
177
+ "single_word": false,
178
+ "special": true
179
+ },
180
+ "36019": {
181
+ "content": "<extra_id_76>",
182
+ "lstrip": false,
183
+ "normalized": false,
184
+ "rstrip": false,
185
+ "single_word": false,
186
+ "special": true
187
+ },
188
+ "36020": {
189
+ "content": "<extra_id_75>",
190
+ "lstrip": false,
191
+ "normalized": false,
192
+ "rstrip": false,
193
+ "single_word": false,
194
+ "special": true
195
+ },
196
+ "36021": {
197
+ "content": "<extra_id_74>",
198
+ "lstrip": false,
199
+ "normalized": false,
200
+ "rstrip": false,
201
+ "single_word": false,
202
+ "special": true
203
+ },
204
+ "36022": {
205
+ "content": "<extra_id_73>",
206
+ "lstrip": false,
207
+ "normalized": false,
208
+ "rstrip": false,
209
+ "single_word": false,
210
+ "special": true
211
+ },
212
+ "36023": {
213
+ "content": "<extra_id_72>",
214
+ "lstrip": false,
215
+ "normalized": false,
216
+ "rstrip": false,
217
+ "single_word": false,
218
+ "special": true
219
+ },
220
+ "36024": {
221
+ "content": "<extra_id_71>",
222
+ "lstrip": false,
223
+ "normalized": false,
224
+ "rstrip": false,
225
+ "single_word": false,
226
+ "special": true
227
+ },
228
+ "36025": {
229
+ "content": "<extra_id_70>",
230
+ "lstrip": false,
231
+ "normalized": false,
232
+ "rstrip": false,
233
+ "single_word": false,
234
+ "special": true
235
+ },
236
+ "36026": {
237
+ "content": "<extra_id_69>",
238
+ "lstrip": false,
239
+ "normalized": false,
240
+ "rstrip": false,
241
+ "single_word": false,
242
+ "special": true
243
+ },
244
+ "36027": {
245
+ "content": "<extra_id_68>",
246
+ "lstrip": false,
247
+ "normalized": false,
248
+ "rstrip": false,
249
+ "single_word": false,
250
+ "special": true
251
+ },
252
+ "36028": {
253
+ "content": "<extra_id_67>",
254
+ "lstrip": false,
255
+ "normalized": false,
256
+ "rstrip": false,
257
+ "single_word": false,
258
+ "special": true
259
+ },
260
+ "36029": {
261
+ "content": "<extra_id_66>",
262
+ "lstrip": false,
263
+ "normalized": false,
264
+ "rstrip": false,
265
+ "single_word": false,
266
+ "special": true
267
+ },
268
+ "36030": {
269
+ "content": "<extra_id_65>",
270
+ "lstrip": false,
271
+ "normalized": false,
272
+ "rstrip": false,
273
+ "single_word": false,
274
+ "special": true
275
+ },
276
+ "36031": {
277
+ "content": "<extra_id_64>",
278
+ "lstrip": false,
279
+ "normalized": false,
280
+ "rstrip": false,
281
+ "single_word": false,
282
+ "special": true
283
+ },
284
+ "36032": {
285
+ "content": "<extra_id_63>",
286
+ "lstrip": false,
287
+ "normalized": false,
288
+ "rstrip": false,
289
+ "single_word": false,
290
+ "special": true
291
+ },
292
+ "36033": {
293
+ "content": "<extra_id_62>",
294
+ "lstrip": false,
295
+ "normalized": false,
296
+ "rstrip": false,
297
+ "single_word": false,
298
+ "special": true
299
+ },
300
+ "36034": {
301
+ "content": "<extra_id_61>",
302
+ "lstrip": false,
303
+ "normalized": false,
304
+ "rstrip": false,
305
+ "single_word": false,
306
+ "special": true
307
+ },
308
+ "36035": {
309
+ "content": "<extra_id_60>",
310
+ "lstrip": false,
311
+ "normalized": false,
312
+ "rstrip": false,
313
+ "single_word": false,
314
+ "special": true
315
+ },
316
+ "36036": {
317
+ "content": "<extra_id_59>",
318
+ "lstrip": false,
319
+ "normalized": false,
320
+ "rstrip": false,
321
+ "single_word": false,
322
+ "special": true
323
+ },
324
+ "36037": {
325
+ "content": "<extra_id_58>",
326
+ "lstrip": false,
327
+ "normalized": false,
328
+ "rstrip": false,
329
+ "single_word": false,
330
+ "special": true
331
+ },
332
+ "36038": {
333
+ "content": "<extra_id_57>",
334
+ "lstrip": false,
335
+ "normalized": false,
336
+ "rstrip": false,
337
+ "single_word": false,
338
+ "special": true
339
+ },
340
+ "36039": {
341
+ "content": "<extra_id_56>",
342
+ "lstrip": false,
343
+ "normalized": false,
344
+ "rstrip": false,
345
+ "single_word": false,
346
+ "special": true
347
+ },
348
+ "36040": {
349
+ "content": "<extra_id_55>",
350
+ "lstrip": false,
351
+ "normalized": false,
352
+ "rstrip": false,
353
+ "single_word": false,
354
+ "special": true
355
+ },
356
+ "36041": {
357
+ "content": "<extra_id_54>",
358
+ "lstrip": false,
359
+ "normalized": false,
360
+ "rstrip": false,
361
+ "single_word": false,
362
+ "special": true
363
+ },
364
+ "36042": {
365
+ "content": "<extra_id_53>",
366
+ "lstrip": false,
367
+ "normalized": false,
368
+ "rstrip": false,
369
+ "single_word": false,
370
+ "special": true
371
+ },
372
+ "36043": {
373
+ "content": "<extra_id_52>",
374
+ "lstrip": false,
375
+ "normalized": false,
376
+ "rstrip": false,
377
+ "single_word": false,
378
+ "special": true
379
+ },
380
+ "36044": {
381
+ "content": "<extra_id_51>",
382
+ "lstrip": false,
383
+ "normalized": false,
384
+ "rstrip": false,
385
+ "single_word": false,
386
+ "special": true
387
+ },
388
+ "36045": {
389
+ "content": "<extra_id_50>",
390
+ "lstrip": false,
391
+ "normalized": false,
392
+ "rstrip": false,
393
+ "single_word": false,
394
+ "special": true
395
+ },
396
+ "36046": {
397
+ "content": "<extra_id_49>",
398
+ "lstrip": false,
399
+ "normalized": false,
400
+ "rstrip": false,
401
+ "single_word": false,
402
+ "special": true
403
+ },
404
+ "36047": {
405
+ "content": "<extra_id_48>",
406
+ "lstrip": false,
407
+ "normalized": false,
408
+ "rstrip": false,
409
+ "single_word": false,
410
+ "special": true
411
+ },
412
+ "36048": {
413
+ "content": "<extra_id_47>",
414
+ "lstrip": false,
415
+ "normalized": false,
416
+ "rstrip": false,
417
+ "single_word": false,
418
+ "special": true
419
+ },
420
+ "36049": {
421
+ "content": "<extra_id_46>",
422
+ "lstrip": false,
423
+ "normalized": false,
424
+ "rstrip": false,
425
+ "single_word": false,
426
+ "special": true
427
+ },
428
+ "36050": {
429
+ "content": "<extra_id_45>",
430
+ "lstrip": false,
431
+ "normalized": false,
432
+ "rstrip": false,
433
+ "single_word": false,
434
+ "special": true
435
+ },
436
+ "36051": {
437
+ "content": "<extra_id_44>",
438
+ "lstrip": false,
439
+ "normalized": false,
440
+ "rstrip": false,
441
+ "single_word": false,
442
+ "special": true
443
+ },
444
+ "36052": {
445
+ "content": "<extra_id_43>",
446
+ "lstrip": false,
447
+ "normalized": false,
448
+ "rstrip": false,
449
+ "single_word": false,
450
+ "special": true
451
+ },
452
+ "36053": {
453
+ "content": "<extra_id_42>",
454
+ "lstrip": false,
455
+ "normalized": false,
456
+ "rstrip": false,
457
+ "single_word": false,
458
+ "special": true
459
+ },
460
+ "36054": {
461
+ "content": "<extra_id_41>",
462
+ "lstrip": false,
463
+ "normalized": false,
464
+ "rstrip": false,
465
+ "single_word": false,
466
+ "special": true
467
+ },
468
+ "36055": {
469
+ "content": "<extra_id_40>",
470
+ "lstrip": false,
471
+ "normalized": false,
472
+ "rstrip": false,
473
+ "single_word": false,
474
+ "special": true
475
+ },
476
+ "36056": {
477
+ "content": "<extra_id_39>",
478
+ "lstrip": false,
479
+ "normalized": false,
480
+ "rstrip": false,
481
+ "single_word": false,
482
+ "special": true
483
+ },
484
+ "36057": {
485
+ "content": "<extra_id_38>",
486
+ "lstrip": false,
487
+ "normalized": false,
488
+ "rstrip": false,
489
+ "single_word": false,
490
+ "special": true
491
+ },
492
+ "36058": {
493
+ "content": "<extra_id_37>",
494
+ "lstrip": false,
495
+ "normalized": false,
496
+ "rstrip": false,
497
+ "single_word": false,
498
+ "special": true
499
+ },
500
+ "36059": {
501
+ "content": "<extra_id_36>",
502
+ "lstrip": false,
503
+ "normalized": false,
504
+ "rstrip": false,
505
+ "single_word": false,
506
+ "special": true
507
+ },
508
+ "36060": {
509
+ "content": "<extra_id_35>",
510
+ "lstrip": false,
511
+ "normalized": false,
512
+ "rstrip": false,
513
+ "single_word": false,
514
+ "special": true
515
+ },
516
+ "36061": {
517
+ "content": "<extra_id_34>",
518
+ "lstrip": false,
519
+ "normalized": false,
520
+ "rstrip": false,
521
+ "single_word": false,
522
+ "special": true
523
+ },
524
+ "36062": {
525
+ "content": "<extra_id_33>",
526
+ "lstrip": false,
527
+ "normalized": false,
528
+ "rstrip": false,
529
+ "single_word": false,
530
+ "special": true
531
+ },
532
+ "36063": {
533
+ "content": "<extra_id_32>",
534
+ "lstrip": false,
535
+ "normalized": false,
536
+ "rstrip": false,
537
+ "single_word": false,
538
+ "special": true
539
+ },
540
+ "36064": {
541
+ "content": "<extra_id_31>",
542
+ "lstrip": false,
543
+ "normalized": false,
544
+ "rstrip": false,
545
+ "single_word": false,
546
+ "special": true
547
+ },
548
+ "36065": {
549
+ "content": "<extra_id_30>",
550
+ "lstrip": false,
551
+ "normalized": false,
552
+ "rstrip": false,
553
+ "single_word": false,
554
+ "special": true
555
+ },
556
+ "36066": {
557
+ "content": "<extra_id_29>",
558
+ "lstrip": false,
559
+ "normalized": false,
560
+ "rstrip": false,
561
+ "single_word": false,
562
+ "special": true
563
+ },
564
+ "36067": {
565
+ "content": "<extra_id_28>",
566
+ "lstrip": false,
567
+ "normalized": false,
568
+ "rstrip": false,
569
+ "single_word": false,
570
+ "special": true
571
+ },
572
+ "36068": {
573
+ "content": "<extra_id_27>",
574
+ "lstrip": false,
575
+ "normalized": false,
576
+ "rstrip": false,
577
+ "single_word": false,
578
+ "special": true
579
+ },
580
+ "36069": {
581
+ "content": "<extra_id_26>",
582
+ "lstrip": false,
583
+ "normalized": false,
584
+ "rstrip": false,
585
+ "single_word": false,
586
+ "special": true
587
+ },
588
+ "36070": {
589
+ "content": "<extra_id_25>",
590
+ "lstrip": false,
591
+ "normalized": false,
592
+ "rstrip": false,
593
+ "single_word": false,
594
+ "special": true
595
+ },
596
+ "36071": {
597
+ "content": "<extra_id_24>",
598
+ "lstrip": false,
599
+ "normalized": false,
600
+ "rstrip": false,
601
+ "single_word": false,
602
+ "special": true
603
+ },
604
+ "36072": {
605
+ "content": "<extra_id_23>",
606
+ "lstrip": false,
607
+ "normalized": false,
608
+ "rstrip": false,
609
+ "single_word": false,
610
+ "special": true
611
+ },
612
+ "36073": {
613
+ "content": "<extra_id_22>",
614
+ "lstrip": false,
615
+ "normalized": false,
616
+ "rstrip": false,
617
+ "single_word": false,
618
+ "special": true
619
+ },
620
+ "36074": {
621
+ "content": "<extra_id_21>",
622
+ "lstrip": false,
623
+ "normalized": false,
624
+ "rstrip": false,
625
+ "single_word": false,
626
+ "special": true
627
+ },
628
+ "36075": {
629
+ "content": "<extra_id_20>",
630
+ "lstrip": false,
631
+ "normalized": false,
632
+ "rstrip": false,
633
+ "single_word": false,
634
+ "special": true
635
+ },
636
+ "36076": {
637
+ "content": "<extra_id_19>",
638
+ "lstrip": false,
639
+ "normalized": false,
640
+ "rstrip": false,
641
+ "single_word": false,
642
+ "special": true
643
+ },
644
+ "36077": {
645
+ "content": "<extra_id_18>",
646
+ "lstrip": false,
647
+ "normalized": false,
648
+ "rstrip": false,
649
+ "single_word": false,
650
+ "special": true
651
+ },
652
+ "36078": {
653
+ "content": "<extra_id_17>",
654
+ "lstrip": false,
655
+ "normalized": false,
656
+ "rstrip": false,
657
+ "single_word": false,
658
+ "special": true
659
+ },
660
+ "36079": {
661
+ "content": "<extra_id_16>",
662
+ "lstrip": false,
663
+ "normalized": false,
664
+ "rstrip": false,
665
+ "single_word": false,
666
+ "special": true
667
+ },
668
+ "36080": {
669
+ "content": "<extra_id_15>",
670
+ "lstrip": false,
671
+ "normalized": false,
672
+ "rstrip": false,
673
+ "single_word": false,
674
+ "special": true
675
+ },
676
+ "36081": {
677
+ "content": "<extra_id_14>",
678
+ "lstrip": false,
679
+ "normalized": false,
680
+ "rstrip": false,
681
+ "single_word": false,
682
+ "special": true
683
+ },
684
+ "36082": {
685
+ "content": "<extra_id_13>",
686
+ "lstrip": false,
687
+ "normalized": false,
688
+ "rstrip": false,
689
+ "single_word": false,
690
+ "special": true
691
+ },
692
+ "36083": {
693
+ "content": "<extra_id_12>",
694
+ "lstrip": false,
695
+ "normalized": false,
696
+ "rstrip": false,
697
+ "single_word": false,
698
+ "special": true
699
+ },
700
+ "36084": {
701
+ "content": "<extra_id_11>",
702
+ "lstrip": false,
703
+ "normalized": false,
704
+ "rstrip": false,
705
+ "single_word": false,
706
+ "special": true
707
+ },
708
+ "36085": {
709
+ "content": "<extra_id_10>",
710
+ "lstrip": false,
711
+ "normalized": false,
712
+ "rstrip": false,
713
+ "single_word": false,
714
+ "special": true
715
+ },
716
+ "36086": {
717
+ "content": "<extra_id_9>",
718
+ "lstrip": false,
719
+ "normalized": false,
720
+ "rstrip": false,
721
+ "single_word": false,
722
+ "special": true
723
+ },
724
+ "36087": {
725
+ "content": "<extra_id_8>",
726
+ "lstrip": false,
727
+ "normalized": false,
728
+ "rstrip": false,
729
+ "single_word": false,
730
+ "special": true
731
+ },
732
+ "36088": {
733
+ "content": "<extra_id_7>",
734
+ "lstrip": false,
735
+ "normalized": false,
736
+ "rstrip": false,
737
+ "single_word": false,
738
+ "special": true
739
+ },
740
+ "36089": {
741
+ "content": "<extra_id_6>",
742
+ "lstrip": false,
743
+ "normalized": false,
744
+ "rstrip": false,
745
+ "single_word": false,
746
+ "special": true
747
+ },
748
+ "36090": {
749
+ "content": "<extra_id_5>",
750
+ "lstrip": false,
751
+ "normalized": false,
752
+ "rstrip": false,
753
+ "single_word": false,
754
+ "special": true
755
+ },
756
+ "36091": {
757
+ "content": "<extra_id_4>",
758
+ "lstrip": false,
759
+ "normalized": false,
760
+ "rstrip": false,
761
+ "single_word": false,
762
+ "special": true
763
+ },
764
+ "36092": {
765
+ "content": "<extra_id_3>",
766
+ "lstrip": false,
767
+ "normalized": false,
768
+ "rstrip": false,
769
+ "single_word": false,
770
+ "special": true
771
+ },
772
+ "36093": {
773
+ "content": "<extra_id_2>",
774
+ "lstrip": false,
775
+ "normalized": false,
776
+ "rstrip": false,
777
+ "single_word": false,
778
+ "special": true
779
+ },
780
+ "36094": {
781
+ "content": "<extra_id_1>",
782
+ "lstrip": false,
783
+ "normalized": false,
784
+ "rstrip": false,
785
+ "single_word": false,
786
+ "special": true
787
+ },
788
+ "36095": {
789
+ "content": "<extra_id_0>",
790
+ "lstrip": false,
791
+ "normalized": false,
792
+ "rstrip": false,
793
+ "single_word": false,
794
+ "special": true
795
+ }
796
+ },
797
+ "additional_special_tokens": [
798
+ "<extra_id_0>",
799
+ "<extra_id_1>",
800
+ "<extra_id_2>",
801
+ "<extra_id_3>",
802
+ "<extra_id_4>",
803
+ "<extra_id_5>",
804
+ "<extra_id_6>",
805
+ "<extra_id_7>",
806
+ "<extra_id_8>",
807
+ "<extra_id_9>",
808
+ "<extra_id_10>",
809
+ "<extra_id_11>",
810
+ "<extra_id_12>",
811
+ "<extra_id_13>",
812
+ "<extra_id_14>",
813
+ "<extra_id_15>",
814
+ "<extra_id_16>",
815
+ "<extra_id_17>",
816
+ "<extra_id_18>",
817
+ "<extra_id_19>",
818
+ "<extra_id_20>",
819
+ "<extra_id_21>",
820
+ "<extra_id_22>",
821
+ "<extra_id_23>",
822
+ "<extra_id_24>",
823
+ "<extra_id_25>",
824
+ "<extra_id_26>",
825
+ "<extra_id_27>",
826
+ "<extra_id_28>",
827
+ "<extra_id_29>",
828
+ "<extra_id_30>",
829
+ "<extra_id_31>",
830
+ "<extra_id_32>",
831
+ "<extra_id_33>",
832
+ "<extra_id_34>",
833
+ "<extra_id_35>",
834
+ "<extra_id_36>",
835
+ "<extra_id_37>",
836
+ "<extra_id_38>",
837
+ "<extra_id_39>",
838
+ "<extra_id_40>",
839
+ "<extra_id_41>",
840
+ "<extra_id_42>",
841
+ "<extra_id_43>",
842
+ "<extra_id_44>",
843
+ "<extra_id_45>",
844
+ "<extra_id_46>",
845
+ "<extra_id_47>",
846
+ "<extra_id_48>",
847
+ "<extra_id_49>",
848
+ "<extra_id_50>",
849
+ "<extra_id_51>",
850
+ "<extra_id_52>",
851
+ "<extra_id_53>",
852
+ "<extra_id_54>",
853
+ "<extra_id_55>",
854
+ "<extra_id_56>",
855
+ "<extra_id_57>",
856
+ "<extra_id_58>",
857
+ "<extra_id_59>",
858
+ "<extra_id_60>",
859
+ "<extra_id_61>",
860
+ "<extra_id_62>",
861
+ "<extra_id_63>",
862
+ "<extra_id_64>",
863
+ "<extra_id_65>",
864
+ "<extra_id_66>",
865
+ "<extra_id_67>",
866
+ "<extra_id_68>",
867
+ "<extra_id_69>",
868
+ "<extra_id_70>",
869
+ "<extra_id_71>",
870
+ "<extra_id_72>",
871
+ "<extra_id_73>",
872
+ "<extra_id_74>",
873
+ "<extra_id_75>",
874
+ "<extra_id_76>",
875
+ "<extra_id_77>",
876
+ "<extra_id_78>",
877
+ "<extra_id_79>",
878
+ "<extra_id_80>",
879
+ "<extra_id_81>",
880
+ "<extra_id_82>",
881
+ "<extra_id_83>",
882
+ "<extra_id_84>",
883
+ "<extra_id_85>",
884
+ "<extra_id_86>",
885
+ "<extra_id_87>",
886
+ "<extra_id_88>",
887
+ "<extra_id_89>",
888
+ "<extra_id_90>",
889
+ "<extra_id_91>",
890
+ "<extra_id_92>",
891
+ "<extra_id_93>",
892
+ "<extra_id_94>",
893
+ "<extra_id_95>"
894
+ ],
895
+ "clean_up_tokenization_spaces": true,
896
+ "eos_token": "</s>",
897
+ "extra_ids": 96,
898
+ "extra_special_tokens": {},
899
+ "mask_token": "<unk>",
900
+ "model_max_length": 128,
901
+ "pad_token": "<pad>",
902
+ "sp_model_kwargs": {},
903
+ "tokenizer_class": "T5Tokenizer",
904
+ "unk_token": "<unk>"
905
+ }