diff --git "a/logs.txt" "b/logs.txt"
new file mode 100644--- /dev/null
+++ "b/logs.txt"
@@ -0,0 +1,14867 @@
+/root/workdir/.venv/lib/python3.10/site-packages/transformers/training_args.py:2085: FutureWarning: `--push_to_hub_organization` is deprecated and will be removed in version 5 of 🤗 Transformers. Use `--hub_model_id` instead and pass the full repo name to this argument (in this case CLEAR-Global/w2v-bert-2.0-chichewa_34_34h).
+  warnings.warn(
+04/19/2025 14:56:49 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: False, 16-bits training: True
+04/19/2025 14:56:49 - INFO - __main__ - Training/evaluation parameters TrainingArguments(
+_n_gpu=1,
+accelerator_config={'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None, 'use_configured_state': False},
+adafactor=False,
+adam_beta1=0.9,
+adam_beta2=0.999,
+adam_epsilon=1e-08,
+auto_find_batch_size=False,
+average_tokens_across_devices=False,
+batch_eval_metrics=False,
+bf16=False,
+bf16_full_eval=False,
+data_seed=None,
+dataloader_drop_last=False,
+dataloader_num_workers=22,
+dataloader_persistent_workers=False,
+dataloader_pin_memory=True,
+dataloader_prefetch_factor=None,
+ddp_backend=None,
+ddp_broadcast_buffers=None,
+ddp_bucket_cap_mb=None,
+ddp_find_unused_parameters=None,
+ddp_timeout=1800,
+debug=[],
+deepspeed=None,
+disable_tqdm=False,
+dispatch_batches=None,
+do_eval=True,
+do_predict=False,
+do_train=True,
+eval_accumulation_steps=None,
+eval_delay=0,
+eval_do_concat_batches=True,
+eval_on_start=False,
+eval_steps=1000,
+eval_strategy=steps,
+eval_use_gather_object=False,
+evaluation_strategy=None,
+fp16=True,
+fp16_backend=auto,
+fp16_full_eval=False,
+fp16_opt_level=O1,
+fsdp=[],
+fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False},
+fsdp_min_num_params=0,
+fsdp_transformer_layer_cls_to_wrap=None,
+full_determinism=False,
+gradient_accumulation_steps=2,
+gradient_checkpointing=True,
+gradient_checkpointing_kwargs=None,
+greater_is_better=False,
+group_by_length=True,
+half_precision_backend=auto,
+hub_always_push=False,
+hub_model_id=CLEAR-Global/w2v-bert-2.0-chichewa_34_34h,
+hub_private_repo=None,
+hub_strategy=checkpoint,
+hub_token=<HUB_TOKEN>,
+ignore_data_skip=False,
+include_for_metrics=[],
+include_inputs_for_metrics=False,
+include_num_input_tokens_seen=False,
+include_tokens_per_second=False,
+jit_mode_eval=False,
+label_names=None,
+label_smoothing_factor=0.0,
+learning_rate=3e-05,
+length_column_name=input_length,
+load_best_model_at_end=True,
+local_rank=0,
+log_level=passive,
+log_level_replica=warning,
+log_on_each_node=True,
+logging_dir=./w2v-bert-2.0-chichewa_34_34h/runs/Apr19_14-56-49_synvoices-a100-chichewa,
+logging_first_step=False,
+logging_nan_inf_filter=True,
+logging_steps=1.0,
+logging_strategy=steps,
+lr_scheduler_kwargs={},
+lr_scheduler_type=linear,
+max_grad_norm=1.0,
+max_steps=100000,
+metric_for_best_model=loss,
+mp_parameters=,
+neftune_noise_alpha=None,
+no_cuda=False,
+num_train_epochs=3.0,
+optim=adamw_torch,
+optim_args=None,
+optim_target_modules=None,
+output_dir=./w2v-bert-2.0-chichewa_34_34h,
+overwrite_output_dir=False,
+past_index=-1,
+per_device_eval_batch_size=32,
+per_device_train_batch_size=32,
+prediction_loss_only=False,
+push_to_hub=True,
+push_to_hub_model_id=None,
+push_to_hub_organization=CLEAR-Global,
+push_to_hub_token=<PUSH_TO_HUB_TOKEN>,
+ray_scope=last,
+remove_unused_columns=True,
+report_to=['tensorboard'],
+restore_callback_states_from_checkpoint=False,
+resume_from_checkpoint=None,
+run_name=./w2v-bert-2.0-chichewa_34_34h,
+save_on_each_node=False,
+save_only_model=False,
+save_safetensors=True,
+save_steps=1000,
+save_strategy=steps,
+save_total_limit=1,
+seed=42,
+skip_memory_metrics=True,
+split_batches=None,
+tf32=None,
+torch_compile=False,
+torch_compile_backend=None,
+torch_compile_mode=None,
+torch_empty_cache_steps=None,
+torchdynamo=None,
+tpu_metrics_debug=False,
+tpu_num_cores=None,
+use_cpu=False,
+use_ipex=False,
+use_legacy_prediction_loop=False,
+use_liger_kernel=False,
+use_mps_device=False,
+warmup_ratio=0.1,
+warmup_steps=0,
+weight_decay=0.0,
+)
+Downloading data:   0%|          | 0/17 [00:00<?, ?files/s]Downloading data:   6%|▌         | 1/17 [00:08<02:20,  8.77s/files]Downloading data:  12%|█▏        | 2/17 [00:19<02:30, 10.04s/files]Downloading data:  18%|█▊        | 3/17 [00:28<02:15,  9.67s/files]Downloading data:  24%|██▎       | 4/17 [00:39<02:09,  9.94s/files]Downloading data:  29%|██▉       | 5/17 [01:26<04:39, 23.32s/files]Downloading data:  35%|███▌      | 6/17 [01:34<03:21, 18.27s/files]Downloading data:  41%|████      | 7/17 [01:43<02:30, 15.04s/files]Downloading data:  47%|████▋     | 8/17 [01:52<01:58, 13.13s/files]Downloading data:  53%|█████▎    | 9/17 [02:00<01:32, 11.62s/files]Downloading data:  59%|█████▉    | 10/17 [02:08<01:14, 10.60s/files]Downloading data:  65%|██████▍   | 11/17 [02:17<01:00, 10.03s/files]Downloading data:  71%|███████   | 12/17 [02:26<00:48,  9.71s/files]Downloading data:  76%|███████▋  | 13/17 [02:35<00:37,  9.35s/files]Downloading data:  82%|████████▏ | 14/17 [02:43<00:27,  9.06s/files]Downloading data:  88%|████████▊ | 15/17 [02:55<00:19,  9.88s/files]Downloading data:  94%|█████████▍| 16/17 [03:03<00:09,  9.43s/files]Downloading data: 100%|██████████| 17/17 [03:12<00:00,  9.35s/files]Downloading data: 100%|██████████| 17/17 [03:12<00:00, 11.34s/files]
+Generating train split:   0%|          | 0/34643 [00:00<?, ? examples/s]Generating train split:   0%|          | 100/34643 [00:00<01:06, 519.68 examples/s]Generating train split:   1%|          | 300/34643 [00:00<00:35, 964.99 examples/s]Generating train split:   1%|▏         | 500/34643 [00:00<00:27, 1241.50 examples/s]Generating train split:   2%|▏         | 700/34643 [00:00<00:24, 1385.33 examples/s]Generating train split:   3%|▎         | 900/34643 [00:00<00:23, 1453.52 examples/s]Generating train split:   4%|▍         | 1300/34643 [00:00<00:19, 1743.79 examples/s]Generating train split:   4%|▍         | 1500/34643 [00:01<00:19, 1728.51 examples/s]Generating train split:   5%|▌         | 1800/34643 [00:01<00:18, 1751.49 examples/s]Generating train split:   6%|▌         | 2138/34643 [00:01<00:19, 1662.02 examples/s]Generating train split:   7%|▋         | 2438/34643 [00:01<00:18, 1745.06 examples/s]Generating train split:   8%|▊         | 2738/34643 [00:01<00:17, 1835.39 examples/s]Generating train split:   8%|▊         | 2938/34643 [00:01<00:17, 1853.68 examples/s]Generating train split:   9%|▉         | 3238/34643 [00:01<00:16, 1873.07 examples/s]Generating train split:  11%|█         | 3638/34643 [00:02<00:15, 1992.82 examples/s]Generating train split:  12%|█▏        | 4038/34643 [00:02<00:14, 2099.66 examples/s]Generating train split:  13%|█▎        | 4376/34643 [00:02<00:15, 1985.24 examples/s]Generating train split:  14%|█▍        | 4776/34643 [00:02<00:13, 2243.39 examples/s]Generating train split:  15%|█▍        | 5176/34643 [00:02<00:12, 2400.95 examples/s]Generating train split:  16%|█▌        | 5576/34643 [00:02<00:11, 2445.57 examples/s]Generating train split:  17%|█▋        | 5876/34643 [00:03<00:13, 2211.50 examples/s]Generating train split:  18%|█▊        | 6214/34643 [00:03<00:13, 2050.36 examples/s]Generating train split:  19%|█▉        | 6614/34643 [00:03<00:12, 2263.28 examples/s]Generating train split:  20%|██        | 7014/34643 [00:03<00:11, 2379.97 examples/s]Generating train split:  21%|██        | 7314/34643 [00:03<00:11, 2298.95 examples/s]Generating train split:  22%|██▏       | 7714/34643 [00:03<00:11, 2387.47 examples/s]Generating train split:  23%|██▎       | 8014/34643 [00:04<00:11, 2319.81 examples/s]Generating train split:  24%|██▍       | 8252/34643 [00:04<00:12, 2170.31 examples/s]Generating train split:  25%|██▍       | 8652/34643 [00:04<00:11, 2207.92 examples/s]Generating train split:  26%|██▋       | 9152/34643 [00:04<00:09, 2603.82 examples/s]Generating train split:  28%|██▊       | 9552/34643 [00:04<00:08, 2794.93 examples/s]Generating train split:  29%|██▊       | 9952/34643 [00:04<00:08, 2763.32 examples/s]Generating train split:  30%|██▉       | 10290/34643 [00:04<00:10, 2335.09 examples/s]Generating train split:  31%|███       | 10690/34643 [00:05<00:10, 2274.91 examples/s]Generating train split:  32%|███▏      | 11090/34643 [00:05<00:09, 2409.78 examples/s]Generating train split:  33%|███▎      | 11490/34643 [00:05<00:09, 2371.30 examples/s]Generating train split:  34%|███▍      | 11890/34643 [00:05<00:08, 2546.71 examples/s]Generating train split:  36%|███▌      | 12328/34643 [00:05<00:09, 2244.79 examples/s]Generating train split:  37%|███▋      | 12728/34643 [00:05<00:09, 2425.03 examples/s]Generating train split:  38%|███▊      | 13128/34643 [00:06<00:08, 2420.77 examples/s]Generating train split:  39%|███▉      | 13628/34643 [00:06<00:08, 2605.55 examples/s]Generating train split:  40%|████      | 13928/34643 [00:06<00:08, 2519.01 examples/s]Generating train split:  41%|████▏     | 14366/34643 [00:06<00:08, 2441.96 examples/s]Generating train split:  42%|████▏     | 14666/34643 [00:06<00:08, 2475.48 examples/s]Generating train split:  43%|████▎     | 15066/34643 [00:06<00:07, 2582.22 examples/s]Generating train split:  44%|████▍     | 15366/34643 [00:06<00:07, 2567.11 examples/s]Generating train split:  46%|████▌     | 15766/34643 [00:07<00:07, 2508.39 examples/s]Generating train split:  47%|████▋     | 16166/34643 [00:07<00:07, 2558.01 examples/s]Generating train split:  48%|████▊     | 16604/34643 [00:07<00:07, 2485.46 examples/s]Generating train split:  49%|████▉     | 17004/34643 [00:07<00:06, 2582.01 examples/s]Generating train split:  50%|█████     | 17404/34643 [00:07<00:06, 2617.60 examples/s]Generating train split:  51%|█████▏    | 17804/34643 [00:07<00:06, 2538.42 examples/s]Generating train split:  53%|█████▎    | 18204/34643 [00:08<00:06, 2474.64 examples/s]Generating train split:  54%|█████▍    | 18642/34643 [00:08<00:06, 2324.76 examples/s]Generating train split:  55%|█████▍    | 19042/34643 [00:08<00:06, 2499.03 examples/s]Generating train split:  56%|█████▌    | 19442/34643 [00:08<00:06, 2529.93 examples/s]Generating train split:  57%|█████▋    | 19842/34643 [00:08<00:05, 2645.49 examples/s]Generating train split:  58%|█████▊    | 20142/34643 [00:08<00:05, 2693.42 examples/s]Generating train split:  59%|█████▉    | 20480/34643 [00:09<00:05, 2381.34 examples/s]Generating train split:  60%|█████▉    | 20780/34643 [00:09<00:05, 2461.97 examples/s]Generating train split:  61%|██████    | 21180/34643 [00:09<00:05, 2660.70 examples/s]Generating train split:  62%|██████▏   | 21580/34643 [00:09<00:04, 2819.76 examples/s]Generating train split:  63%|██████▎   | 21980/34643 [00:09<00:04, 2861.54 examples/s]Generating train split:  65%|██████▍   | 22380/34643 [00:09<00:04, 2918.24 examples/s]Generating train split:  66%|██████▌   | 22718/34643 [00:09<00:05, 2384.61 examples/s]Generating train split:  67%|██████▋   | 23118/34643 [00:10<00:04, 2572.65 examples/s]Generating train split:  68%|██████▊   | 23618/34643 [00:10<00:03, 2926.71 examples/s]Generating train split:  69%|██████▉   | 24018/34643 [00:10<00:04, 2650.11 examples/s]Generating train split:  70%|███████   | 24418/34643 [00:10<00:03, 2820.68 examples/s]Generating train split:  71%|███████▏  | 24756/34643 [00:10<00:04, 2384.79 examples/s]Generating train split:  73%|███████▎  | 25156/34643 [00:10<00:03, 2556.52 examples/s]Generating train split:  74%|███████▍  | 25556/34643 [00:10<00:03, 2693.28 examples/s]Generating train split:  75%|███████▍  | 25956/34643 [00:11<00:03, 2687.57 examples/s]Generating train split:  76%|███████▌  | 26356/34643 [00:11<00:02, 2769.52 examples/s]Generating train split:  77%|███████▋  | 26794/34643 [00:11<00:03, 2516.95 examples/s]Generating train split:  78%|███████▊  | 27194/34643 [00:11<00:02, 2623.78 examples/s]Generating train split:  79%|███████▉  | 27494/34643 [00:11<00:02, 2640.84 examples/s]Generating train split:  81%|████████  | 27894/34643 [00:11<00:02, 2765.38 examples/s]Generating train split:  82%|████████▏ | 28294/34643 [00:11<00:02, 2739.47 examples/s]Generating train split:  83%|████████▎ | 28632/34643 [00:12<00:02, 2370.56 examples/s]Generating train split:  84%|████████▍ | 29032/34643 [00:12<00:02, 2578.41 examples/s]Generating train split:  85%|████████▍ | 29432/34643 [00:12<00:02, 2569.13 examples/s]Generating train split:  86%|████████▌ | 29832/34643 [00:12<00:01, 2731.11 examples/s]Generating train split:  87%|████████▋ | 30232/34643 [00:12<00:01, 2712.56 examples/s]Generating train split:  89%|████████▊ | 30669/34643 [00:12<00:01, 2502.13 examples/s]Generating train split:  90%|████████▉ | 31069/34643 [00:13<00:01, 2538.05 examples/s]Generating train split:  91%|█████████ | 31569/34643 [00:13<00:01, 2855.63 examples/s]Generating train split:  92%|█████████▏| 31969/34643 [00:13<00:00, 2901.13 examples/s]Generating train split:  93%|█████████▎| 32369/34643 [00:13<00:00, 2811.34 examples/s]Generating train split:  94%|█████████▍| 32706/34643 [00:13<00:00, 2511.78 examples/s]Generating train split:  95%|█████████▌| 33006/34643 [00:13<00:00, 2442.73 examples/s]Generating train split:  97%|█████████▋| 33506/34643 [00:13<00:00, 2761.86 examples/s]Generating train split:  98%|█████████▊| 33906/34643 [00:14<00:00, 2647.62 examples/s]Generating train split:  99%|█████████▉| 34306/34643 [00:14<00:00, 2731.37 examples/s]Generating train split: 100%|██████████| 34643/34643 [00:14<00:00, 2428.14 examples/s]
+Generating validation split:   0%|          | 0/304 [00:00<?, ? examples/s]Generating validation split:  33%|███▎      | 100/304 [00:00<00:00, 262.70 examples/s]Generating validation split:  66%|██████▌   | 200/304 [00:00<00:00, 387.04 examples/s]Generating validation split: 100%|██████████| 304/304 [00:00<00:00, 491.17 examples/s]
+Generating test split:   0%|          | 0/761 [00:00<?, ? examples/s]Generating test split:  13%|█▎        | 100/761 [00:00<00:02, 236.04 examples/s]Generating test split:  26%|██▋       | 200/761 [00:00<00:01, 354.01 examples/s]Generating test split:  39%|███▉      | 300/761 [00:00<00:01, 408.22 examples/s]Generating test split:  53%|█████▎    | 400/761 [00:00<00:00, 459.49 examples/s]Generating test split:  66%|██████▌   | 500/761 [00:01<00:00, 490.44 examples/s]Generating test split:  79%|███████▉  | 600/761 [00:01<00:00, 491.61 examples/s]Generating test split:  92%|█████████▏| 700/761 [00:01<00:00, 563.29 examples/s]Generating test split: 100%|██████████| 761/761 [00:01<00:00, 493.28 examples/s]
+remove special characters from datasets (num_proc=22):   0%|          | 0/34643 [00:00<?, ? examples/s]remove special characters from datasets (num_proc=22):   1%|▏         | 499/34643 [00:00<00:07, 4605.95 examples/s]remove special characters from datasets (num_proc=22):  28%|██▊       | 9602/34643 [00:00<00:00, 53312.46 examples/s]remove special characters from datasets (num_proc=22):  45%|████▍     | 15474/34643 [00:00<00:00, 39232.70 examples/s]remove special characters from datasets (num_proc=22):  57%|█████▋    | 19843/34643 [00:00<00:00, 18878.72 examples/s]remove special characters from datasets (num_proc=22):  67%|██████▋   | 23150/34643 [00:09<00:07, 1448.52 examples/s] remove special characters from datasets (num_proc=22):  73%|███████▎  | 25450/34643 [00:09<00:05, 1769.22 examples/s]remove special characters from datasets (num_proc=22):  97%|█████████▋| 33495/34643 [00:09<00:00, 3530.03 examples/s]remove special characters from datasets (num_proc=22): 100%|██████████| 34643/34643 [00:09<00:00, 3656.15 examples/s]
+remove special characters from datasets (num_proc=22):   0%|          | 0/304 [00:00<?, ? examples/s]remove special characters from datasets (num_proc=22):  18%|█▊        | 56/304 [00:00<00:00, 383.45 examples/s]remove special characters from datasets (num_proc=22):  91%|█████████▏| 278/304 [00:00<00:00, 1146.46 examples/s]remove special characters from datasets (num_proc=22): 100%|██████████| 304/304 [00:00<00:00, 786.89 examples/s] 
+loading configuration file config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/config.json
+Model config Wav2Vec2BertConfig {
+  "_name_or_path": "facebook/w2v-bert-2.0",
+  "activation_dropout": 0.0,
+  "adapter_act": "relu",
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": false,
+  "architectures": [
+    "Wav2Vec2BertModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "classifier_proj_size": 768,
+  "codevector_dim": 768,
+  "conformer_conv_dropout": 0.1,
+  "contrastive_logits_temperature": 0.1,
+  "conv_depthwise_kernel_size": 31,
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "eos_token_id": 2,
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "feature_projection_input_dim": 160,
+  "final_dropout": 0.1,
+  "hidden_act": "swish",
+  "hidden_dropout": 0.0,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "left_max_position_embeddings": 64,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.05,
+  "max_source_positions": 5000,
+  "model_type": "wav2vec2-bert",
+  "num_adapter_layers": 1,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "output_hidden_size": 1024,
+  "pad_token_id": 0,
+  "position_embeddings_type": "relative_key",
+  "proj_codevector_dim": 768,
+  "right_max_position_embeddings": 8,
+  "rotary_embedding_base": 10000,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.1",
+  "use_intermediate_ffn_before_adapter": false,
+  "use_weighted_layer_sum": false,
+  "vocab_size": null,
+  "xvector_output_dim": 512
+}
+
+Map:   0%|          | 0/34643 [00:00<?, ? examples/s]Map: 100%|██████████| 34643/34643 [00:00<00:00, 249637.10 examples/s]Map: 100%|██████████| 34643/34643 [00:00<00:00, 246547.52 examples/s]
+Map:   0%|          | 0/304 [00:00<?, ? examples/s]Map: 100%|██████████| 304/304 [00:00<00:00, 54494.76 examples/s]
+`use_fast` is set to `True` but the tokenizer class does not have a fast version.  Falling back to the slow version.
+loading file vocab.json
+loading file tokenizer_config.json
+loading file added_tokens.json
+loading file special_tokens_map.json
+loading file tokenizer.json
+loading file chat_template.jinja
+Model config BertConfig {
+  "_name_or_path": "./w2v-bert-2.0-chichewa_34_34h",
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.48.1",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}
+
+The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
+The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
+The class this function is called from is 'Wav2Vec2CTCTokenizer'.
+loading configuration file preprocessor_config.json from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/preprocessor_config.json
+Feature extractor SeamlessM4TFeatureExtractor {
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 1,
+  "processor_class": "Wav2Vec2BertProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "stride": 2
+}
+
+loading weights file model.safetensors from cache at /root/.cache/huggingface/hub/models--facebook--w2v-bert-2.0/snapshots/da985ba0987f70aaeb84a80f2851cfac8c697a7b/model.safetensors
+Some weights of the model checkpoint at facebook/w2v-bert-2.0 were not used when initializing Wav2Vec2BertForCTC: ['masked_spec_embed']
+- This IS expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
+- This IS NOT expected if you are initializing Wav2Vec2BertForCTC from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
+Some weights of Wav2Vec2BertForCTC were not initialized from the model checkpoint at facebook/w2v-bert-2.0 and are newly initialized: ['adapter.layers.0.ffn.intermediate_dense.bias', 'adapter.layers.0.ffn.intermediate_dense.weight', 'adapter.layers.0.ffn.output_dense.bias', 'adapter.layers.0.ffn.output_dense.weight', 'adapter.layers.0.ffn_layer_norm.bias', 'adapter.layers.0.ffn_layer_norm.weight', 'adapter.layers.0.residual_conv.bias', 'adapter.layers.0.residual_conv.weight', 'adapter.layers.0.residual_layer_norm.bias', 'adapter.layers.0.residual_layer_norm.weight', 'adapter.layers.0.self_attn.linear_k.bias', 'adapter.layers.0.self_attn.linear_k.weight', 'adapter.layers.0.self_attn.linear_out.bias', 'adapter.layers.0.self_attn.linear_out.weight', 'adapter.layers.0.self_attn.linear_q.bias', 'adapter.layers.0.self_attn.linear_q.weight', 'adapter.layers.0.self_attn.linear_v.bias', 'adapter.layers.0.self_attn.linear_v.weight', 'adapter.layers.0.self_attn_conv.bias', 'adapter.layers.0.self_attn_conv.weight', 'adapter.layers.0.self_attn_layer_norm.bias', 'adapter.layers.0.self_attn_layer_norm.weight', 'lm_head.bias', 'lm_head.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+preprocess datasets (num_proc=22):   0%|          | 0/34643 [00:00<?, ? examples/s]preprocess datasets (num_proc=22):   0%|          | 1/34643 [00:01<9:57:29,  1.03s/ examples]preprocess datasets (num_proc=22):   0%|          | 2/34643 [00:01<4:58:18,  1.94 examples/s]preprocess datasets (num_proc=22):   0%|          | 6/34643 [00:01<1:24:51,  6.80 examples/s]preprocess datasets (num_proc=22):   0%|          | 9/34643 [00:01<1:06:59,  8.62 examples/s]preprocess datasets (num_proc=22):   0%|          | 12/34643 [00:01<51:46, 11.15 examples/s] preprocess datasets (num_proc=22):   0%|          | 18/34643 [00:01<30:39, 18.83 examples/s]preprocess datasets (num_proc=22):   0%|          | 22/34643 [00:01<26:11, 22.04 examples/s]preprocess datasets (num_proc=22):   0%|          | 26/34643 [00:02<24:23, 23.65 examples/s]preprocess datasets (num_proc=22):   0%|          | 29/34643 [00:02<27:27, 21.01 examples/s]preprocess datasets (num_proc=22):   0%|          | 32/34643 [00:02<28:15, 20.42 examples/s]preprocess datasets (num_proc=22):   0%|          | 38/34643 [00:02<21:23, 26.96 examples/s]preprocess datasets (num_proc=22):   0%|          | 43/34643 [00:02<18:51, 30.57 examples/s]preprocess datasets (num_proc=22):   0%|          | 47/34643 [00:02<19:02, 30.28 examples/s]preprocess datasets (num_proc=22):   0%|          | 51/34643 [00:03<29:55, 19.26 examples/s]preprocess datasets (num_proc=22):   0%|          | 58/34643 [00:03<23:32, 24.48 examples/s]preprocess datasets (num_proc=22):   0%|          | 64/34643 [00:03<19:08, 30.12 examples/s]preprocess datasets (num_proc=22):   0%|          | 68/34643 [00:03<24:27, 23.56 examples/s]preprocess datasets (num_proc=22):   0%|          | 72/34643 [00:03<23:47, 24.21 examples/s]preprocess datasets (num_proc=22):   0%|          | 77/34643 [00:04<21:56, 26.25 examples/s]preprocess datasets (num_proc=22):   0%|          | 81/34643 [00:04<21:55, 26.28 examples/s]preprocess datasets (num_proc=22):   0%|          | 85/34643 [00:04<21:07, 27.26 examples/s]preprocess datasets (num_proc=22):   0%|          | 88/34643 [00:04<21:32, 26.73 examples/s]preprocess datasets (num_proc=22):   0%|          | 91/34643 [00:04<26:32, 21.70 examples/s]preprocess datasets (num_proc=22):   0%|          | 94/34643 [00:04<25:30, 22.58 examples/s]preprocess datasets (num_proc=22):   0%|          | 99/34643 [00:04<20:31, 28.05 examples/s]preprocess datasets (num_proc=22):   0%|          | 106/34643 [00:05<17:19, 33.23 examples/s]preprocess datasets (num_proc=22):   0%|          | 110/34643 [00:05<17:09, 33.55 examples/s]preprocess datasets (num_proc=22):   0%|          | 114/34643 [00:05<24:42, 23.28 examples/s]preprocess datasets (num_proc=22):   0%|          | 118/34643 [00:05<23:16, 24.72 examples/s]preprocess datasets (num_proc=22):   0%|          | 124/34643 [00:05<18:58, 30.32 examples/s]preprocess datasets (num_proc=22):   0%|          | 128/34643 [00:06<21:35, 26.64 examples/s]preprocess datasets (num_proc=22):   0%|          | 132/34643 [00:06<20:43, 27.75 examples/s]preprocess datasets (num_proc=22):   0%|          | 136/34643 [00:06<19:53, 28.91 examples/s]preprocess datasets (num_proc=22):   0%|          | 141/34643 [00:06<17:12, 33.41 examples/s]preprocess datasets (num_proc=22):   0%|          | 146/34643 [00:06<18:11, 31.61 examples/s]preprocess datasets (num_proc=22):   0%|          | 150/34643 [00:06<19:19, 29.74 examples/s]preprocess datasets (num_proc=22):   0%|          | 154/34643 [00:06<20:49, 27.60 examples/s]preprocess datasets (num_proc=22):   0%|          | 159/34643 [00:07<18:56, 30.34 examples/s]preprocess datasets (num_proc=22):   0%|          | 163/34643 [00:07<18:18, 31.39 examples/s]preprocess datasets (num_proc=22):   0%|          | 167/34643 [00:07<23:31, 24.42 examples/s]preprocess datasets (num_proc=22):   1%|          | 176/34643 [00:07<17:05, 33.61 examples/s]preprocess datasets (num_proc=22):   1%|          | 180/34643 [00:07<16:31, 34.77 examples/s]preprocess datasets (num_proc=22):   1%|          | 184/34643 [00:07<23:37, 24.31 examples/s]preprocess datasets (num_proc=22):   1%|          | 187/34643 [00:08<24:06, 23.82 examples/s]preprocess datasets (num_proc=22):   1%|          | 193/34643 [00:08<18:57, 30.29 examples/s]preprocess datasets (num_proc=22):   1%|          | 197/34643 [00:08<18:56, 30.31 examples/s]preprocess datasets (num_proc=22):   1%|          | 201/34643 [00:08<17:49, 32.21 examples/s]preprocess datasets (num_proc=22):   1%|          | 205/34643 [00:08<18:19, 31.33 examples/s]preprocess datasets (num_proc=22):   1%|          | 209/34643 [00:08<18:29, 31.03 examples/s]preprocess datasets (num_proc=22):   1%|          | 213/34643 [00:08<22:37, 25.37 examples/s]preprocess datasets (num_proc=22):   1%|          | 219/34643 [00:09<18:21, 31.25 examples/s]preprocess datasets (num_proc=22):   1%|          | 223/34643 [00:09<20:57, 27.37 examples/s]preprocess datasets (num_proc=22):   1%|          | 228/34643 [00:09<20:37, 27.81 examples/s]preprocess datasets (num_proc=22):   1%|          | 231/34643 [00:09<20:53, 27.45 examples/s]preprocess datasets (num_proc=22):   1%|          | 234/34643 [00:09<25:41, 22.32 examples/s]preprocess datasets (num_proc=22):   1%|          | 241/34643 [00:09<19:17, 29.72 examples/s]preprocess datasets (num_proc=22):   1%|          | 249/34643 [00:10<15:09, 37.84 examples/s]preprocess datasets (num_proc=22):   1%|          | 254/34643 [00:10<23:29, 24.39 examples/s]preprocess datasets (num_proc=22):   1%|          | 258/34643 [00:10<22:35, 25.37 examples/s]preprocess datasets (num_proc=22):   1%|          | 266/34643 [00:10<17:16, 33.17 examples/s]preprocess datasets (num_proc=22):   1%|          | 271/34643 [00:11<25:10, 22.75 examples/s]preprocess datasets (num_proc=22):   1%|          | 278/34643 [00:11<20:39, 27.71 examples/s]preprocess datasets (num_proc=22):   1%|          | 285/34643 [00:11<16:36, 34.46 examples/s]preprocess datasets (num_proc=22):   1%|          | 290/34643 [00:11<23:50, 24.01 examples/s]preprocess datasets (num_proc=22):   1%|          | 298/34643 [00:11<18:03, 31.68 examples/s]preprocess datasets (num_proc=22):   1%|          | 303/34643 [00:12<18:41, 30.61 examples/s]preprocess datasets (num_proc=22):   1%|          | 308/34643 [00:12<22:46, 25.13 examples/s]preprocess datasets (num_proc=22):   1%|          | 312/34643 [00:12<23:42, 24.14 examples/s]preprocess datasets (num_proc=22):   1%|          | 320/34643 [00:12<17:15, 33.15 examples/s]preprocess datasets (num_proc=22):   1%|          | 325/34643 [00:12<16:27, 34.75 examples/s]preprocess datasets (num_proc=22):   1%|          | 330/34643 [00:13<21:45, 26.29 examples/s]preprocess datasets (num_proc=22):   1%|          | 336/34643 [00:13<18:46, 30.47 examples/s]preprocess datasets (num_proc=22):   1%|          | 340/34643 [00:13<17:51, 32.00 examples/s]preprocess datasets (num_proc=22):   1%|          | 344/34643 [00:13<21:39, 26.39 examples/s]preprocess datasets (num_proc=22):   1%|          | 348/34643 [00:13<22:25, 25.49 examples/s]preprocess datasets (num_proc=22):   1%|          | 354/34643 [00:13<18:03, 31.66 examples/s]preprocess datasets (num_proc=22):   1%|          | 358/34643 [00:14<21:15, 26.87 examples/s]preprocess datasets (num_proc=22):   1%|          | 362/34643 [00:14<24:39, 23.17 examples/s]preprocess datasets (num_proc=22):   1%|          | 369/34643 [00:14<20:14, 28.23 examples/s]preprocess datasets (num_proc=22):   1%|          | 376/34643 [00:14<16:49, 33.96 examples/s]preprocess datasets (num_proc=22):   1%|          | 380/34643 [00:14<19:37, 29.11 examples/s]preprocess datasets (num_proc=22):   1%|          | 384/34643 [00:15<23:38, 24.15 examples/s]preprocess datasets (num_proc=22):   1%|          | 391/34643 [00:15<18:51, 30.27 examples/s]preprocess datasets (num_proc=22):   1%|          | 398/34643 [00:15<16:01, 35.60 examples/s]preprocess datasets (num_proc=22):   1%|          | 403/34643 [00:15<24:48, 23.00 examples/s]preprocess datasets (num_proc=22):   1%|          | 407/34643 [00:15<23:18, 24.48 examples/s]preprocess datasets (num_proc=22):   1%|          | 416/34643 [00:15<16:09, 35.31 examples/s]preprocess datasets (num_proc=22):   1%|          | 421/34643 [00:16<15:55, 35.80 examples/s]preprocess datasets (num_proc=22):   1%|          | 426/34643 [00:16<22:07, 25.78 examples/s]preprocess datasets (num_proc=22):   1%|          | 430/34643 [00:16<20:43, 27.50 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 438/34643 [00:16<15:17, 37.27 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 443/34643 [00:16<20:12, 28.21 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 447/34643 [00:17<21:00, 27.14 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 451/34643 [00:17<21:18, 26.74 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 457/34643 [00:17<18:48, 30.28 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 463/34643 [00:17<16:16, 35.00 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 467/34643 [00:17<21:01, 27.08 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 471/34643 [00:17<20:53, 27.26 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 475/34643 [00:18<19:43, 28.88 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 484/34643 [00:18<13:50, 41.15 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 489/34643 [00:18<28:34, 19.92 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 497/34643 [00:18<20:40, 27.52 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 505/34643 [00:19<18:33, 30.65 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 510/34643 [00:19<18:58, 29.98 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 514/34643 [00:19<21:57, 25.91 examples/s]preprocess datasets (num_proc=22):   1%|▏         | 519/34643 [00:19<20:01, 28.40 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 526/34643 [00:19<16:36, 34.23 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 531/34643 [00:20<24:18, 23.38 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 536/34643 [00:20<21:13, 26.79 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 543/34643 [00:20<17:00, 33.41 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 548/34643 [00:20<20:41, 27.47 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 552/34643 [00:20<21:59, 25.84 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 558/34643 [00:20<18:19, 31.00 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 563/34643 [00:21<16:36, 34.19 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 568/34643 [00:21<24:46, 22.92 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 576/34643 [00:21<18:11, 31.20 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 582/34643 [00:21<15:35, 36.39 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 587/34643 [00:22<25:11, 22.53 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 594/34643 [00:22<19:25, 29.21 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 603/34643 [00:22<21:27, 26.44 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 607/34643 [00:22<20:28, 27.71 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 611/34643 [00:22<20:42, 27.38 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 617/34643 [00:23<17:42, 32.03 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 621/34643 [00:23<18:44, 30.26 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 625/34643 [00:23<21:10, 26.77 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 629/34643 [00:23<23:55, 23.70 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 632/34643 [00:23<25:49, 21.95 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 641/34643 [00:23<17:03, 33.24 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 645/34643 [00:23<16:35, 34.14 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 649/34643 [00:24<23:58, 23.63 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 654/34643 [00:24<20:39, 27.42 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 660/34643 [00:24<17:21, 32.62 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 665/34643 [00:24<18:27, 30.69 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 669/34643 [00:25<25:48, 21.94 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 675/34643 [00:25<21:59, 25.74 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 682/34643 [00:25<17:03, 33.18 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 687/34643 [00:25<19:01, 29.75 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 691/34643 [00:25<22:35, 25.04 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 696/34643 [00:25<20:07, 28.12 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 700/34643 [00:26<19:28, 29.05 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 704/34643 [00:26<22:15, 25.42 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 708/34643 [00:26<20:39, 27.38 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 712/34643 [00:26<18:48, 30.05 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 717/34643 [00:26<17:21, 32.59 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 721/34643 [00:26<19:59, 28.29 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 725/34643 [00:26<21:28, 26.33 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 730/34643 [00:27<19:50, 28.48 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 738/34643 [00:27<14:36, 38.69 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 743/34643 [00:27<21:34, 26.20 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 747/34643 [00:27<19:53, 28.40 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 751/34643 [00:27<18:53, 29.90 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 755/34643 [00:27<20:26, 27.62 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 760/34643 [00:28<17:38, 32.01 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 764/34643 [00:28<21:43, 26.00 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 768/34643 [00:28<19:45, 28.57 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 772/34643 [00:28<24:30, 23.04 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 777/34643 [00:28<20:06, 28.08 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 783/34643 [00:28<18:47, 30.02 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 787/34643 [00:29<21:33, 26.18 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 793/34643 [00:29<19:20, 29.16 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 797/34643 [00:29<20:31, 27.48 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 800/34643 [00:29<20:12, 27.90 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 804/34643 [00:29<19:51, 28.41 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 809/34643 [00:29<18:59, 29.70 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 813/34643 [00:30<21:02, 26.81 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 818/34643 [00:30<20:05, 28.07 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 821/34643 [00:30<21:08, 26.67 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 826/34643 [00:30<18:02, 31.25 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 831/34643 [00:30<15:55, 35.38 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 835/34643 [00:30<24:15, 23.23 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 844/34643 [00:31<16:59, 33.16 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 849/34643 [00:31<17:42, 31.82 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 853/34643 [00:31<22:31, 25.01 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 857/34643 [00:31<23:03, 24.43 examples/s]preprocess datasets (num_proc=22):   2%|▏         | 865/34643 [00:31<17:05, 32.94 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 870/34643 [00:31<15:46, 35.67 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 875/34643 [00:32<24:45, 22.73 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 884/34643 [00:32<17:19, 32.47 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 889/34643 [00:32<25:07, 22.39 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 893/34643 [00:33<24:04, 23.36 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 898/34643 [00:33<20:55, 26.88 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 903/34643 [00:33<18:22, 30.59 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 908/34643 [00:33<16:57, 33.17 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 913/34643 [00:33<22:17, 25.23 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 917/34643 [00:33<22:03, 25.48 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 924/34643 [00:33<18:37, 30.16 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 929/34643 [00:34<19:49, 28.33 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 933/34643 [00:34<23:29, 23.92 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 937/34643 [00:34<22:03, 25.46 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 941/34643 [00:34<19:54, 28.21 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 946/34643 [00:34<19:00, 29.54 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 950/34643 [00:34<18:09, 30.92 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 954/34643 [00:35<20:30, 27.37 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 957/34643 [00:35<20:48, 26.99 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 960/34643 [00:35<23:02, 24.36 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 966/34643 [00:35<17:32, 31.99 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 970/34643 [00:35<20:30, 27.38 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 974/34643 [00:35<20:25, 27.47 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 979/34643 [00:35<17:44, 31.62 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 983/34643 [00:36<18:37, 30.13 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 987/34643 [00:36<17:22, 32.28 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 991/34643 [00:36<22:18, 25.13 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 996/34643 [00:36<18:55, 29.62 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1000/34643 [00:36<21:52, 25.64 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1003/34643 [00:36<21:59, 25.49 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1006/34643 [00:37<25:50, 21.69 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1010/34643 [00:37<22:43, 24.67 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1014/34643 [00:37<21:35, 25.97 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1020/34643 [00:37<18:53, 29.67 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1025/34643 [00:37<18:46, 29.85 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1029/34643 [00:37<22:44, 24.64 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1034/34643 [00:38<20:00, 27.99 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1040/34643 [00:38<17:21, 32.25 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1044/34643 [00:38<28:37, 19.56 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1050/34643 [00:38<22:15, 25.16 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1056/34643 [00:38<18:57, 29.53 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1061/34643 [00:38<18:18, 30.56 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1065/34643 [00:39<21:15, 26.32 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1069/34643 [00:39<23:33, 23.75 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1075/34643 [00:39<19:41, 28.41 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1079/34643 [00:39<21:12, 26.38 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1085/34643 [00:39<20:25, 27.38 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1088/34643 [00:40<21:07, 26.47 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1092/34643 [00:40<19:35, 28.53 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1095/34643 [00:40<20:55, 26.71 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1098/34643 [00:40<21:59, 25.41 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1103/34643 [00:40<18:11, 30.73 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1107/34643 [00:40<19:33, 28.57 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1111/34643 [00:40<21:13, 26.32 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1114/34643 [00:41<21:52, 25.56 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1120/34643 [00:41<19:42, 28.34 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1123/34643 [00:41<24:41, 22.63 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1126/34643 [00:41<25:16, 22.10 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1131/34643 [00:41<20:24, 27.38 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1137/34643 [00:41<16:24, 34.04 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1141/34643 [00:42<20:42, 26.96 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1145/34643 [00:42<20:04, 27.81 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1149/34643 [00:42<19:06, 29.20 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1153/34643 [00:42<22:04, 25.28 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1157/34643 [00:42<21:53, 25.49 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1160/34643 [00:42<27:41, 20.15 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1169/34643 [00:43<17:10, 32.48 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1174/34643 [00:43<17:22, 32.12 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1178/34643 [00:43<25:13, 22.12 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1181/34643 [00:43<25:17, 22.06 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1188/34643 [00:43<18:21, 30.37 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1195/34643 [00:43<17:34, 31.71 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1199/34643 [00:44<17:45, 31.39 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1203/34643 [00:44<24:05, 23.13 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 1209/34643 [00:44<19:15, 28.94 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1215/34643 [00:44<17:07, 32.52 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1219/34643 [00:44<21:29, 25.91 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1223/34643 [00:45<27:43, 20.09 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1228/34643 [00:45<24:17, 22.92 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1232/34643 [00:45<21:46, 25.57 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1236/34643 [00:45<19:41, 28.26 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1240/34643 [00:45<21:54, 25.40 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1246/34643 [00:46<21:12, 26.24 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1249/34643 [00:46<21:00, 26.50 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1255/34643 [00:46<17:18, 32.14 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1259/34643 [00:46<18:35, 29.91 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1263/34643 [00:46<27:32, 20.20 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1271/34643 [00:46<19:54, 27.95 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1276/34643 [00:47<17:50, 31.16 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1280/34643 [00:47<21:06, 26.33 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1284/34643 [00:47<21:59, 25.28 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1287/34643 [00:47<21:39, 25.66 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1290/34643 [00:47<21:06, 26.34 examples/s]preprocess datasets (num_proc=22):   4%|▎         | 1297/34643 [00:47<16:00, 34.71 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1301/34643 [00:48<25:08, 22.10 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1306/34643 [00:48<21:40, 25.64 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1312/34643 [00:48<18:02, 30.79 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1316/34643 [00:48<18:14, 30.45 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1320/34643 [00:48<26:30, 20.95 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1325/34643 [00:48<21:57, 25.28 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1333/34643 [00:49<16:29, 33.66 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1338/34643 [00:49<22:26, 24.73 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1342/34643 [00:49<24:17, 22.85 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1349/34643 [00:49<19:42, 28.15 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1353/34643 [00:49<19:15, 28.80 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1358/34643 [00:50<22:01, 25.19 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1361/34643 [00:50<21:48, 25.43 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1365/34643 [00:50<20:40, 26.82 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1370/34643 [00:50<18:14, 30.40 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1374/34643 [00:50<25:48, 21.49 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1377/34643 [00:51<24:28, 22.65 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1383/34643 [00:51<19:24, 28.57 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1387/34643 [00:51<19:36, 28.26 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1391/34643 [00:51<21:41, 25.56 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1395/34643 [00:51<21:35, 25.67 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1398/34643 [00:51<23:26, 23.64 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1402/34643 [00:51<20:34, 26.94 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1406/34643 [00:52<21:12, 26.13 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1409/34643 [00:52<20:53, 26.51 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1412/34643 [00:52<23:50, 23.22 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1416/34643 [00:52<21:26, 25.84 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1422/34643 [00:52<18:34, 29.82 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1427/34643 [00:52<17:24, 31.81 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1431/34643 [00:53<22:30, 24.59 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1434/34643 [00:53<24:45, 22.35 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1439/34643 [00:53<20:35, 26.88 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1444/34643 [00:53<17:34, 31.48 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1449/34643 [00:53<19:26, 28.46 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1453/34643 [00:53<25:04, 22.06 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1456/34643 [00:54<25:05, 22.05 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1462/34643 [00:54<19:19, 28.63 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1467/34643 [00:54<17:03, 32.42 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1471/34643 [00:54<22:27, 24.62 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1475/34643 [00:54<23:06, 23.92 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1478/34643 [00:54<23:12, 23.82 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1483/34643 [00:54<20:03, 27.56 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1488/34643 [00:55<24:32, 22.52 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1491/34643 [00:55<25:09, 21.96 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1496/34643 [00:55<20:39, 26.74 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1500/34643 [00:55<21:41, 25.46 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1503/34643 [00:55<21:09, 26.10 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1510/34643 [00:55<17:33, 31.46 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1514/34643 [00:56<17:26, 31.67 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1518/34643 [00:56<26:34, 20.78 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1522/34643 [00:56<24:02, 22.95 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1529/34643 [00:56<17:55, 30.80 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1533/34643 [00:56<19:31, 28.25 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1537/34643 [00:57<31:07, 17.73 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1542/34643 [00:57<25:06, 21.97 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1549/34643 [00:57<20:14, 27.25 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1554/34643 [00:57<18:34, 29.68 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 1558/34643 [00:58<26:29, 20.82 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1565/34643 [00:58<19:30, 28.25 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1570/34643 [00:58<18:53, 29.18 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1575/34643 [00:58<23:49, 23.13 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1579/34643 [00:58<25:11, 21.87 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1583/34643 [00:59<22:43, 24.25 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1588/34643 [00:59<19:17, 28.55 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1593/34643 [00:59<17:32, 31.40 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1597/34643 [00:59<19:23, 28.41 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1601/34643 [00:59<23:26, 23.49 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1606/34643 [00:59<19:39, 28.01 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1610/34643 [00:59<19:14, 28.60 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1616/34643 [01:00<16:08, 34.09 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1620/34643 [01:00<25:53, 21.26 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1627/34643 [01:00<18:47, 29.27 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1632/34643 [01:00<19:34, 28.10 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1636/34643 [01:00<19:09, 28.70 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1640/34643 [01:01<23:49, 23.09 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1646/34643 [01:01<19:34, 28.10 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1650/34643 [01:01<25:25, 21.63 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1653/34643 [01:01<25:46, 21.33 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1660/34643 [01:01<18:18, 30.02 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1664/34643 [01:01<17:34, 31.28 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1668/34643 [01:02<16:50, 32.63 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1672/34643 [01:02<30:48, 17.84 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1676/34643 [01:02<26:08, 21.01 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1683/34643 [01:02<19:13, 28.58 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1691/34643 [01:02<14:58, 36.69 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1696/34643 [01:03<23:01, 23.86 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1701/34643 [01:03<20:11, 27.18 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1706/34643 [01:03<18:06, 30.31 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1710/34643 [01:03<21:31, 25.51 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1714/34643 [01:03<21:54, 25.04 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1718/34643 [01:04<22:08, 24.79 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1724/34643 [01:04<18:18, 29.96 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1728/34643 [01:04<20:56, 26.20 examples/s]preprocess datasets (num_proc=22):   5%|▍         | 1731/34643 [01:04<24:52, 22.05 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1738/34643 [01:04<19:38, 27.93 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1744/34643 [01:05<19:59, 27.43 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1747/34643 [01:05<25:42, 21.33 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1751/34643 [01:05<23:11, 23.63 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1758/34643 [01:05<17:19, 31.65 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1763/34643 [01:05<17:48, 30.76 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1767/34643 [01:06<25:01, 21.89 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1773/34643 [01:06<19:42, 27.80 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1777/34643 [01:06<20:15, 27.03 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1781/34643 [01:06<22:44, 24.08 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1784/34643 [01:06<25:04, 21.84 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1788/34643 [01:06<21:48, 25.11 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1791/34643 [01:06<21:36, 25.33 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1796/34643 [01:07<18:00, 30.41 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1800/34643 [01:07<23:59, 22.82 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1803/34643 [01:07<23:02, 23.75 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1806/34643 [01:07<25:58, 21.07 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1813/34643 [01:07<17:56, 30.49 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1819/34643 [01:07<17:45, 30.81 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1823/34643 [01:08<24:07, 22.68 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1827/34643 [01:08<23:31, 23.26 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1833/34643 [01:08<19:16, 28.36 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1838/34643 [01:08<19:40, 27.79 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1842/34643 [01:08<22:40, 24.12 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1847/34643 [01:09<20:53, 26.15 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1851/34643 [01:09<19:41, 27.75 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1856/34643 [01:09<18:43, 29.18 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1860/34643 [01:09<17:31, 31.18 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1864/34643 [01:09<23:28, 23.27 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1867/34643 [01:09<26:49, 20.36 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1874/34643 [01:10<19:33, 27.93 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1880/34643 [01:10<17:50, 30.59 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1884/34643 [01:10<22:10, 24.62 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1887/34643 [01:10<25:00, 21.82 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1892/34643 [01:10<20:54, 26.12 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1897/34643 [01:10<18:31, 29.47 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1901/34643 [01:11<17:56, 30.42 examples/s]preprocess datasets (num_proc=22):   5%|▌         | 1905/34643 [01:11<27:02, 20.18 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1909/34643 [01:11<24:10, 22.57 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1914/34643 [01:11<19:42, 27.68 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1920/34643 [01:11<15:49, 34.46 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1925/34643 [01:12<26:06, 20.88 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1929/34643 [01:12<26:15, 20.77 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1934/34643 [01:12<21:43, 25.09 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1945/34643 [01:12<13:41, 39.82 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1951/34643 [01:13<25:14, 21.58 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1960/34643 [01:13<18:17, 29.77 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1966/34643 [01:13<26:24, 20.62 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1972/34643 [01:14<21:45, 25.02 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1978/34643 [01:14<18:46, 29.00 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1983/34643 [01:14<17:29, 31.12 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1988/34643 [01:14<22:59, 23.67 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1992/34643 [01:14<22:15, 24.45 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 1997/34643 [01:14<19:30, 27.88 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2001/34643 [01:15<21:01, 25.88 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2005/34643 [01:15<22:34, 24.09 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2008/34643 [01:15<23:07, 23.52 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2013/34643 [01:15<21:00, 25.89 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2016/34643 [01:15<21:37, 25.14 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2021/34643 [01:15<17:59, 30.21 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2025/34643 [01:16<20:34, 26.42 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2028/34643 [01:16<24:59, 21.74 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2034/34643 [01:16<19:37, 27.70 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2039/34643 [01:16<21:08, 25.71 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2043/34643 [01:16<20:21, 26.70 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2046/34643 [01:16<24:35, 22.09 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2050/34643 [01:17<25:04, 21.67 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2056/34643 [01:17<19:16, 28.17 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2060/34643 [01:17<20:30, 26.48 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2063/34643 [01:17<20:15, 26.81 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2066/34643 [01:17<20:38, 26.31 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2069/34643 [01:17<21:49, 24.88 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2073/34643 [01:17<20:43, 26.20 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2076/34643 [01:18<20:42, 26.22 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2080/34643 [01:18<18:31, 29.31 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2084/34643 [01:18<20:41, 26.22 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2087/34643 [01:18<22:13, 24.41 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2090/34643 [01:18<23:25, 23.17 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2094/34643 [01:18<21:51, 24.83 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2097/34643 [01:18<21:41, 25.01 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2100/34643 [01:19<26:03, 20.81 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2103/34643 [01:19<25:41, 21.11 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2108/34643 [01:19<20:12, 26.82 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2111/34643 [01:19<21:59, 24.65 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2117/34643 [01:19<17:38, 30.73 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2121/34643 [01:19<17:54, 30.28 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2125/34643 [01:19<21:09, 25.61 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2129/34643 [01:20<19:14, 28.15 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2134/34643 [01:20<17:05, 31.70 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2138/34643 [01:20<22:12, 24.39 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2141/34643 [01:20<26:09, 20.71 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2146/34643 [01:20<20:50, 25.99 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2152/34643 [01:20<18:56, 28.59 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2156/34643 [01:21<24:17, 22.28 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2159/34643 [01:21<26:03, 20.78 examples/s]preprocess datasets (num_proc=22):   6%|▌         | 2165/34643 [01:21<19:32, 27.70 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2170/34643 [01:21<17:44, 30.50 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2174/34643 [01:21<24:25, 22.15 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2179/34643 [01:22<20:11, 26.80 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2186/34643 [01:22<15:33, 34.79 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2191/34643 [01:22<29:39, 18.24 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2202/34643 [01:22<18:01, 30.01 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2208/34643 [01:23<16:43, 32.31 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2214/34643 [01:23<24:47, 21.80 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2222/34643 [01:23<18:34, 29.08 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2228/34643 [01:23<20:39, 26.15 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2233/34643 [01:24<23:24, 23.07 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2240/34643 [01:24<20:07, 26.84 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2244/34643 [01:24<18:45, 28.78 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2248/34643 [01:24<23:50, 22.64 examples/s]preprocess datasets (num_proc=22):   6%|▋         | 2251/34643 [01:24<23:27, 23.01 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2258/34643 [01:25<18:28, 29.22 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2262/34643 [01:25<20:41, 26.08 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2266/34643 [01:25<22:18, 24.18 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2269/34643 [01:25<23:06, 23.35 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2274/34643 [01:25<21:11, 25.45 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2278/34643 [01:25<19:19, 27.90 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2281/34643 [01:26<26:19, 20.49 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2284/34643 [01:26<24:41, 21.84 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2294/34643 [01:26<14:52, 36.23 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2299/34643 [01:26<14:44, 36.55 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2304/34643 [01:27<26:17, 20.50 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2308/34643 [01:27<23:19, 23.10 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2317/34643 [01:27<16:34, 32.51 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2322/34643 [01:27<24:14, 22.23 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2326/34643 [01:27<23:40, 22.75 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2333/34643 [01:28<20:08, 26.74 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2337/34643 [01:28<19:44, 27.28 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2341/34643 [01:28<23:04, 23.33 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2347/34643 [01:28<19:03, 28.23 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2351/34643 [01:28<19:48, 27.17 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2355/34643 [01:28<21:27, 25.07 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2360/34643 [01:29<19:20, 27.82 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2364/34643 [01:29<22:04, 24.37 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2368/34643 [01:29<20:08, 26.70 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2373/34643 [01:29<18:27, 29.13 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2377/34643 [01:29<24:00, 22.40 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2382/34643 [01:29<20:21, 26.42 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2386/34643 [01:30<20:13, 26.57 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2389/34643 [01:30<21:09, 25.41 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2392/34643 [01:30<20:53, 25.73 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2395/34643 [01:30<21:53, 24.56 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2398/34643 [01:30<21:05, 25.49 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2403/34643 [01:30<22:01, 24.39 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2407/34643 [01:30<20:32, 26.16 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2410/34643 [01:31<21:11, 25.35 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2413/34643 [01:31<23:04, 23.28 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2419/34643 [01:31<20:54, 25.69 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2423/34643 [01:31<20:00, 26.85 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2427/34643 [01:31<18:13, 29.47 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2431/34643 [01:31<20:04, 26.75 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2436/34643 [01:31<18:05, 29.67 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2441/34643 [01:32<20:28, 26.21 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2444/34643 [01:32<23:04, 23.26 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2448/34643 [01:32<20:31, 26.14 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2453/34643 [01:32<18:01, 29.76 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2458/34643 [01:32<17:06, 31.35 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2462/34643 [01:33<23:40, 22.66 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2466/34643 [01:33<22:24, 23.93 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2469/34643 [01:33<22:22, 23.97 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2474/34643 [01:33<20:12, 26.54 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2477/34643 [01:33<25:19, 21.16 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2480/34643 [01:33<23:49, 22.50 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2485/34643 [01:33<19:47, 27.09 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2491/34643 [01:34<16:36, 32.25 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2496/34643 [01:34<17:44, 30.21 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2500/34643 [01:34<25:41, 20.85 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2506/34643 [01:34<20:00, 26.78 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2514/34643 [01:34<16:26, 32.58 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2518/34643 [01:35<21:24, 25.00 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2522/34643 [01:35<23:06, 23.17 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2525/34643 [01:35<22:45, 23.52 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2532/34643 [01:35<16:35, 32.26 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2536/34643 [01:35<22:19, 23.96 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2540/34643 [01:36<24:37, 21.73 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2547/34643 [01:36<18:47, 28.46 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2552/34643 [01:36<16:49, 31.78 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2556/34643 [01:36<27:01, 19.78 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2563/34643 [01:36<20:26, 26.16 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2571/34643 [01:37<15:26, 34.62 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2576/34643 [01:37<23:50, 22.42 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2580/34643 [01:37<22:56, 23.29 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2586/34643 [01:37<18:40, 28.60 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2591/34643 [01:37<18:04, 29.56 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 2595/34643 [01:38<19:52, 26.87 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2599/34643 [01:38<19:14, 27.77 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2603/34643 [01:38<20:22, 26.21 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2607/34643 [01:38<19:10, 27.86 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2611/34643 [01:38<21:45, 24.53 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2614/34643 [01:38<21:10, 25.21 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2617/34643 [01:39<23:43, 22.50 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2620/34643 [01:39<22:10, 24.07 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2624/34643 [01:39<19:43, 27.05 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2632/34643 [01:39<15:06, 35.30 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2636/34643 [01:39<24:38, 21.66 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2639/34643 [01:39<24:14, 22.00 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2647/34643 [01:40<17:11, 31.01 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2653/34643 [01:40<15:42, 33.96 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2657/34643 [01:40<22:27, 23.73 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2662/34643 [01:40<19:05, 27.93 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2668/34643 [01:40<21:52, 24.36 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2672/34643 [01:41<23:24, 22.77 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2675/34643 [01:41<23:52, 22.31 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2683/34643 [01:41<17:24, 30.61 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2687/34643 [01:41<18:34, 28.66 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2692/34643 [01:41<18:40, 28.51 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2696/34643 [01:42<27:45, 19.18 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2701/34643 [01:42<24:01, 22.17 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2712/34643 [01:42<16:53, 31.51 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2716/34643 [01:42<23:14, 22.89 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2719/34643 [01:43<23:08, 22.99 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2727/34643 [01:43<17:32, 30.32 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2731/34643 [01:43<20:08, 26.40 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2735/34643 [01:43<21:21, 24.90 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2738/34643 [01:43<21:19, 24.94 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2742/34643 [01:43<20:42, 25.69 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2749/34643 [01:43<16:16, 32.68 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2753/34643 [01:44<24:10, 21.98 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2756/34643 [01:44<23:37, 22.50 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2760/34643 [01:44<20:46, 25.57 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2767/34643 [01:44<15:16, 34.79 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2772/34643 [01:45<24:03, 22.08 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2776/34643 [01:45<21:54, 24.24 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2782/34643 [01:45<17:35, 30.18 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2786/34643 [01:45<16:55, 31.37 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2790/34643 [01:45<17:04, 31.09 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2794/34643 [01:45<25:07, 21.13 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2797/34643 [01:46<24:18, 21.84 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2804/34643 [01:46<17:06, 31.02 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2812/34643 [01:46<15:43, 33.72 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2816/34643 [01:46<27:00, 19.64 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2822/34643 [01:46<23:28, 22.59 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2829/34643 [01:47<17:57, 29.52 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2834/34643 [01:47<20:59, 25.26 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2838/34643 [01:47<23:05, 22.95 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2842/34643 [01:47<21:02, 25.19 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2848/34643 [01:47<19:11, 27.61 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2852/34643 [01:48<18:40, 28.37 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2856/34643 [01:48<23:15, 22.77 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2859/34643 [01:48<22:12, 23.85 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2866/34643 [01:48<16:14, 32.61 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2870/34643 [01:48<18:10, 29.12 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2874/34643 [01:49<26:47, 19.77 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2878/34643 [01:49<23:19, 22.69 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2884/34643 [01:49<18:50, 28.08 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2888/34643 [01:49<19:35, 27.02 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2892/34643 [01:49<19:52, 26.63 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2895/34643 [01:49<23:04, 22.93 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2899/34643 [01:49<21:39, 24.44 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2902/34643 [01:50<24:07, 21.92 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2905/34643 [01:50<22:47, 23.22 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2911/34643 [01:50<18:22, 28.78 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2916/34643 [01:50<18:26, 28.68 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2919/34643 [01:50<18:34, 28.47 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2922/34643 [01:50<24:08, 21.90 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2926/34643 [01:51<21:52, 24.16 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2932/34643 [01:51<16:59, 31.10 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2937/34643 [01:51<15:20, 34.43 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2941/34643 [01:51<24:03, 21.96 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 2944/34643 [01:51<26:42, 19.79 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2949/34643 [01:51<22:24, 23.58 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2956/34643 [01:52<17:46, 29.70 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2960/34643 [01:52<17:35, 30.01 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2964/34643 [01:52<16:38, 31.72 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2968/34643 [01:52<24:15, 21.76 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2971/34643 [01:52<23:04, 22.88 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2980/34643 [01:53<18:25, 28.64 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2984/34643 [01:53<19:02, 27.72 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2987/34643 [01:53<21:06, 25.00 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2990/34643 [01:53<21:00, 25.11 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 2996/34643 [01:53<17:51, 29.54 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 3000/34643 [01:53<22:28, 23.46 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 3004/34643 [01:54<22:42, 23.22 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 3010/34643 [01:54<20:13, 26.06 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 3015/34643 [01:54<17:30, 30.11 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 3019/34643 [01:54<16:23, 32.15 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 3023/34643 [01:54<16:12, 32.52 examples/s]preprocess datasets (num_proc=22):   9%|▊         | 3027/34643 [01:54<26:32, 19.85 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3032/34643 [01:55<24:34, 21.44 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3037/34643 [01:55<20:14, 26.02 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3041/34643 [01:55<20:58, 25.12 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3044/34643 [01:55<23:02, 22.86 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3048/34643 [01:55<20:14, 26.02 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3054/34643 [01:55<17:54, 29.41 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3058/34643 [01:56<20:53, 25.19 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3061/34643 [01:56<25:34, 20.58 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3065/34643 [01:56<21:51, 24.08 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3069/34643 [01:56<20:29, 25.67 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3076/34643 [01:56<15:35, 33.75 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3080/34643 [01:57<24:04, 21.85 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3083/34643 [01:57<25:14, 20.84 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3088/34643 [01:57<20:14, 25.97 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3093/34643 [01:57<17:27, 30.13 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3098/34643 [01:57<16:06, 32.62 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3102/34643 [01:57<22:31, 23.34 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3106/34643 [01:58<24:17, 21.63 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3110/34643 [01:58<23:21, 22.50 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3116/34643 [01:58<18:23, 28.57 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3121/34643 [01:58<16:51, 31.16 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3125/34643 [01:58<18:36, 28.23 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3129/34643 [01:59<27:56, 18.80 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3136/34643 [01:59<19:56, 26.34 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3141/34643 [01:59<17:23, 30.20 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3145/34643 [01:59<18:12, 28.83 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3149/34643 [01:59<23:13, 22.60 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3152/34643 [01:59<24:34, 21.35 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3157/34643 [02:00<20:24, 25.72 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3162/34643 [02:00<17:44, 29.57 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3166/34643 [02:00<18:11, 28.83 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3170/34643 [02:00<20:53, 25.10 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3174/34643 [02:00<19:08, 27.41 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3178/34643 [02:00<19:38, 26.70 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3184/34643 [02:00<18:49, 27.84 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3187/34643 [02:01<25:45, 20.36 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3190/34643 [02:01<24:08, 21.71 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3198/34643 [02:01<16:10, 32.41 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3203/34643 [02:01<20:12, 25.94 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3207/34643 [02:02<23:07, 22.65 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3210/34643 [02:02<26:53, 19.48 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3223/34643 [02:02<19:55, 26.28 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3227/34643 [02:02<19:17, 27.15 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3230/34643 [02:02<19:54, 26.30 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3233/34643 [02:02<20:27, 25.60 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3239/34643 [02:03<16:25, 31.86 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3243/34643 [02:03<21:13, 24.66 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3247/34643 [02:03<20:17, 25.78 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3250/34643 [02:03<21:22, 24.47 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3254/34643 [02:03<19:08, 27.33 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3260/34643 [02:03<16:18, 32.09 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3265/34643 [02:03<14:29, 36.09 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3269/34643 [02:04<22:52, 22.85 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3273/34643 [02:04<22:02, 23.72 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3277/34643 [02:04<20:50, 25.08 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3281/34643 [02:04<18:59, 27.52 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3285/34643 [02:04<22:17, 23.44 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 3290/34643 [02:05<19:26, 26.88 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3296/34643 [02:05<17:39, 29.59 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3300/34643 [02:05<18:22, 28.44 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3303/34643 [02:05<22:42, 23.00 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3306/34643 [02:05<23:05, 22.62 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3309/34643 [02:05<23:25, 22.29 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3316/34643 [02:06<16:39, 31.35 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3321/34643 [02:06<15:52, 32.89 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3325/34643 [02:06<22:38, 23.06 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3328/34643 [02:06<25:48, 20.22 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3338/34643 [02:06<15:25, 33.81 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3343/34643 [02:06<14:19, 36.41 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3348/34643 [02:07<25:29, 20.47 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3358/34643 [02:07<16:40, 31.28 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3364/34643 [02:07<17:34, 29.67 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3369/34643 [02:08<25:09, 20.72 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3378/34643 [02:08<17:49, 29.23 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3384/34643 [02:08<18:18, 28.44 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3389/34643 [02:08<22:43, 22.93 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3395/34643 [02:09<18:53, 27.58 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3404/34643 [02:09<13:52, 37.54 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3410/34643 [02:09<24:33, 21.20 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3417/34643 [02:09<19:26, 26.76 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3425/34643 [02:10<17:43, 29.37 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3430/34643 [02:10<24:10, 21.52 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3436/34643 [02:10<19:52, 26.16 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3441/34643 [02:10<18:01, 28.86 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3447/34643 [02:10<16:01, 32.45 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3452/34643 [02:11<21:01, 24.73 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3456/34643 [02:11<24:00, 21.66 examples/s]preprocess datasets (num_proc=22):  10%|▉         | 3462/34643 [02:11<19:08, 27.15 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3466/34643 [02:11<19:27, 26.71 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3471/34643 [02:11<17:54, 29.01 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3475/34643 [02:12<17:23, 29.88 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3479/34643 [02:12<22:55, 22.65 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3482/34643 [02:12<21:58, 23.63 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3485/34643 [02:12<20:57, 24.78 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3490/34643 [02:12<17:36, 29.49 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3496/34643 [02:12<16:30, 31.44 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3500/34643 [02:13<20:03, 25.87 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3505/34643 [02:13<17:12, 30.17 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3509/34643 [02:13<19:58, 25.97 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3512/34643 [02:13<21:41, 23.92 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3515/34643 [02:13<27:23, 18.94 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3522/34643 [02:13<18:49, 27.56 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3526/34643 [02:14<18:49, 27.56 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3530/34643 [02:14<22:58, 22.57 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3535/34643 [02:14<20:34, 25.19 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3543/34643 [02:14<14:53, 34.82 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3548/34643 [02:14<17:32, 29.53 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3552/34643 [02:15<22:11, 23.36 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3556/34643 [02:15<22:59, 22.53 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3559/34643 [02:15<24:40, 21.00 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3564/34643 [02:15<20:26, 25.34 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3570/34643 [02:15<16:06, 32.15 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3574/34643 [02:15<17:09, 30.17 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3578/34643 [02:16<20:21, 25.44 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3581/34643 [02:16<24:27, 21.16 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3586/34643 [02:16<19:58, 25.92 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3591/34643 [02:16<16:55, 30.58 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3595/34643 [02:16<16:57, 30.53 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3599/34643 [02:17<29:14, 17.69 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3604/34643 [02:17<23:03, 22.44 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3612/34643 [02:17<17:32, 29.49 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3616/34643 [02:17<18:18, 28.25 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3620/34643 [02:17<21:52, 23.63 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3625/34643 [02:17<18:24, 28.08 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3631/34643 [02:18<18:43, 27.60 examples/s]preprocess datasets (num_proc=22):  10%|█         | 3635/34643 [02:18<21:59, 23.50 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3638/34643 [02:18<23:47, 21.72 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3645/34643 [02:18<17:08, 30.15 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3650/34643 [02:18<17:22, 29.72 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3654/34643 [02:19<22:19, 23.13 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3659/34643 [02:19<18:44, 27.56 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3664/34643 [02:19<16:39, 31.01 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3668/34643 [02:19<21:44, 23.74 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3672/34643 [02:19<24:55, 20.71 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3677/34643 [02:19<20:29, 25.20 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3682/34643 [02:20<17:26, 29.57 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3687/34643 [02:20<18:15, 28.25 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3691/34643 [02:20<19:25, 26.56 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3695/34643 [02:20<25:01, 20.62 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3702/34643 [02:20<18:42, 27.55 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3709/34643 [02:20<14:58, 34.42 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3714/34643 [02:21<24:14, 21.26 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3720/34643 [02:21<19:28, 26.47 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3724/34643 [02:21<18:26, 27.95 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3728/34643 [02:21<19:36, 26.29 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3732/34643 [02:22<22:18, 23.09 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3735/34643 [02:22<25:24, 20.27 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3742/34643 [02:22<17:47, 28.95 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3746/34643 [02:22<18:21, 28.06 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3750/34643 [02:22<23:35, 21.82 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3754/34643 [02:23<23:14, 22.16 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3761/34643 [02:23<19:23, 26.54 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3767/34643 [02:23<17:50, 28.84 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3771/34643 [02:23<21:20, 24.10 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3774/34643 [02:23<21:25, 24.02 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3777/34643 [02:23<22:19, 23.05 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3782/34643 [02:24<21:12, 24.26 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3786/34643 [02:24<20:33, 25.01 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3792/34643 [02:24<18:44, 27.44 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3796/34643 [02:24<20:34, 24.99 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3799/34643 [02:24<21:16, 24.15 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3803/34643 [02:24<18:58, 27.09 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3811/34643 [02:24<13:38, 37.66 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3816/34643 [02:25<25:22, 20.25 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3820/34643 [02:25<22:23, 22.94 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3827/34643 [02:25<18:18, 28.06 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3836/34643 [02:25<14:55, 34.41 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3841/34643 [02:26<24:04, 21.33 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3851/34643 [02:26<16:33, 31.00 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3857/34643 [02:26<14:49, 34.62 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3862/34643 [02:27<23:46, 21.57 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3866/34643 [02:27<21:46, 23.56 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3874/34643 [02:27<16:13, 31.60 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3879/34643 [02:27<22:24, 22.87 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3883/34643 [02:28<23:56, 21.42 examples/s]preprocess datasets (num_proc=22):  11%|█         | 3890/34643 [02:28<18:04, 28.36 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3899/34643 [02:28<17:15, 29.69 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3903/34643 [02:28<24:09, 21.20 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3912/34643 [02:28<17:14, 29.71 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3917/34643 [02:29<16:31, 31.00 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3922/34643 [02:29<25:14, 20.29 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3929/34643 [02:29<19:33, 26.17 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3935/34643 [02:29<16:52, 30.33 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3940/34643 [02:30<24:16, 21.08 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3949/34643 [02:30<17:33, 29.14 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3954/34643 [02:30<16:10, 31.61 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3959/34643 [02:30<20:12, 25.32 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3963/34643 [02:31<25:06, 20.36 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3972/34643 [02:31<17:41, 28.90 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3978/34643 [02:31<18:08, 28.18 examples/s]preprocess datasets (num_proc=22):  11%|█▏        | 3982/34643 [02:31<19:53, 25.70 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 3986/34643 [02:32<23:57, 21.32 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 3993/34643 [02:32<17:56, 28.47 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 3997/34643 [02:32<16:53, 30.23 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4001/34643 [02:32<16:03, 31.81 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4005/34643 [02:32<26:25, 19.33 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4010/34643 [02:32<21:15, 24.02 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4014/34643 [02:32<19:16, 26.49 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4019/34643 [02:33<16:52, 30.26 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4023/34643 [02:33<16:06, 31.68 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4027/34643 [02:33<28:08, 18.13 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4032/34643 [02:33<22:20, 22.83 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4044/34643 [02:33<13:12, 38.61 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4050/34643 [02:34<24:06, 21.14 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4058/34643 [02:34<18:47, 27.13 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4063/34643 [02:34<20:52, 24.41 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4067/34643 [02:35<23:06, 22.05 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4071/34643 [02:35<20:51, 24.43 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4076/34643 [02:35<18:48, 27.08 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4084/34643 [02:35<14:50, 34.32 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4089/34643 [02:36<25:14, 20.18 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4093/34643 [02:36<22:25, 22.71 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4103/34643 [02:36<15:00, 33.93 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4108/34643 [02:36<20:55, 24.32 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4112/34643 [02:36<23:53, 21.30 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4120/34643 [02:37<17:33, 28.98 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4126/34643 [02:37<16:20, 31.11 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4131/34643 [02:37<24:07, 21.07 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4137/34643 [02:37<19:38, 25.88 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4144/34643 [02:37<16:11, 31.39 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4149/34643 [02:38<22:19, 22.76 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4153/34643 [02:38<24:05, 21.09 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4159/34643 [02:38<19:14, 26.40 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4165/34643 [02:38<16:01, 31.69 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4170/34643 [02:39<21:48, 23.29 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4174/34643 [02:39<22:06, 22.97 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4181/34643 [02:39<17:31, 28.96 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4188/34643 [02:39<14:35, 34.79 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4193/34643 [02:40<26:30, 19.14 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4200/34643 [02:40<20:01, 25.34 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4207/34643 [02:40<16:03, 31.58 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4212/34643 [02:40<24:22, 20.81 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4216/34643 [02:40<21:51, 23.19 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4223/34643 [02:41<16:37, 30.50 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4230/34643 [02:41<14:08, 35.83 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4235/34643 [02:41<23:24, 21.66 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4241/34643 [02:41<18:50, 26.90 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4247/34643 [02:41<17:22, 29.15 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4252/34643 [02:42<24:57, 20.29 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4256/34643 [02:42<22:14, 22.77 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4264/34643 [02:42<16:00, 31.61 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4269/34643 [02:43<24:09, 20.95 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4273/34643 [02:43<22:18, 22.68 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4280/34643 [02:43<17:08, 29.52 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4286/34643 [02:43<16:17, 31.06 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4291/34643 [02:43<22:14, 22.74 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4296/34643 [02:44<20:06, 25.15 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4303/34643 [02:44<17:18, 29.23 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4307/34643 [02:44<25:09, 20.09 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4312/34643 [02:44<21:00, 24.07 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4317/34643 [02:44<18:48, 26.86 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4322/34643 [02:45<19:24, 26.04 examples/s]preprocess datasets (num_proc=22):  12%|█▏        | 4326/34643 [02:45<25:38, 19.70 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4331/34643 [02:45<21:05, 23.95 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4338/34643 [02:45<15:52, 31.80 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4343/34643 [02:45<16:44, 30.15 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4347/34643 [02:46<25:18, 19.95 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4351/34643 [02:46<22:09, 22.78 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4359/34643 [02:46<15:46, 32.01 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4364/34643 [02:46<19:33, 25.80 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4368/34643 [02:47<25:19, 19.92 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4373/34643 [02:47<22:13, 22.71 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4381/34643 [02:47<15:48, 31.89 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4386/34643 [02:47<21:50, 23.08 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4390/34643 [02:47<21:12, 23.77 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4394/34643 [02:48<21:24, 23.55 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4398/34643 [02:48<19:25, 25.95 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4402/34643 [02:48<19:16, 26.14 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4406/34643 [02:48<21:09, 23.81 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4409/34643 [02:48<21:30, 23.42 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4414/34643 [02:48<17:43, 28.41 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4418/34643 [02:49<22:04, 22.82 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4422/34643 [02:49<20:02, 25.13 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4425/34643 [02:49<20:48, 24.21 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4429/34643 [02:49<19:23, 25.96 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4433/34643 [02:49<19:05, 26.37 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4436/34643 [02:49<19:20, 26.04 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4439/34643 [02:49<24:12, 20.80 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4442/34643 [02:50<22:22, 22.50 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4446/34643 [02:50<19:25, 25.91 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4451/34643 [02:50<16:44, 30.07 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4456/34643 [02:50<17:35, 28.61 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4460/34643 [02:50<21:58, 22.90 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4463/34643 [02:50<24:03, 20.91 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4469/34643 [02:51<18:42, 26.89 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4475/34643 [02:51<15:47, 31.83 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4479/34643 [02:51<21:19, 23.57 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4482/34643 [02:51<22:55, 21.93 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4488/34643 [02:51<17:29, 28.74 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4492/34643 [02:51<19:56, 25.20 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4496/34643 [02:52<18:34, 27.04 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4501/34643 [02:52<18:37, 26.97 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4504/34643 [02:52<22:06, 22.72 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4507/34643 [02:52<21:20, 23.54 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4510/34643 [02:52<22:57, 21.87 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4517/34643 [02:52<15:46, 31.82 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4522/34643 [02:53<17:45, 28.26 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4526/34643 [02:53<22:33, 22.26 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4530/34643 [02:53<20:21, 24.66 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4535/34643 [02:53<17:26, 28.77 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4541/34643 [02:53<15:37, 32.12 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4545/34643 [02:53<19:28, 25.77 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4548/34643 [02:54<26:20, 19.04 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4555/34643 [02:54<19:31, 25.68 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4561/34643 [02:54<18:15, 27.46 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4565/34643 [02:54<17:05, 29.33 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4569/34643 [02:54<18:36, 26.94 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4572/34643 [02:55<22:12, 22.57 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4575/34643 [02:55<21:45, 23.02 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4578/34643 [02:55<20:34, 24.35 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4583/34643 [02:55<17:06, 29.29 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4587/34643 [02:55<18:11, 27.53 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4590/34643 [02:55<23:02, 21.74 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4593/34643 [02:55<21:47, 22.98 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4598/34643 [02:56<18:43, 26.74 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4605/34643 [02:56<13:59, 35.80 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4609/34643 [02:56<22:28, 22.27 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4613/34643 [02:56<23:09, 21.61 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4618/34643 [02:56<18:59, 26.34 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4625/34643 [02:56<14:46, 33.86 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4630/34643 [02:57<26:06, 19.16 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4636/34643 [02:57<20:49, 24.01 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4643/34643 [02:57<16:10, 30.90 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4648/34643 [02:57<18:12, 27.45 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4652/34643 [02:58<22:03, 22.67 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4656/34643 [02:58<20:25, 24.48 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4662/34643 [02:58<17:49, 28.04 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4666/34643 [02:58<20:40, 24.16 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4669/34643 [02:58<21:26, 23.30 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4672/34643 [02:59<22:33, 22.15 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 4675/34643 [02:59<21:39, 23.06 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4683/34643 [02:59<16:42, 29.88 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4687/34643 [02:59<19:13, 25.96 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4691/34643 [02:59<18:35, 26.84 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4698/34643 [02:59<16:50, 29.63 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4701/34643 [03:00<20:38, 24.18 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4704/34643 [03:00<20:27, 24.40 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4707/34643 [03:00<21:24, 23.31 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4711/34643 [03:00<19:27, 25.65 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4719/34643 [03:00<17:37, 28.29 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4722/34643 [03:01<23:17, 21.41 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4725/34643 [03:01<22:20, 22.32 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4729/34643 [03:01<19:34, 25.47 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4736/34643 [03:01<17:27, 28.54 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4739/34643 [03:01<21:58, 22.69 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4743/34643 [03:01<22:56, 21.72 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4749/34643 [03:02<17:27, 28.53 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4755/34643 [03:02<17:41, 28.15 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4759/34643 [03:02<20:32, 24.25 examples/s]preprocess datasets (num_proc=22):  14%|█▎        | 4762/34643 [03:02<22:08, 22.50 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4769/34643 [03:02<16:09, 30.82 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4776/34643 [03:02<14:50, 33.55 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4780/34643 [03:03<21:34, 23.06 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4783/34643 [03:03<20:54, 23.80 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4786/34643 [03:03<23:19, 21.34 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4789/34643 [03:03<22:30, 22.10 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4794/34643 [03:03<18:55, 26.28 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4799/34643 [03:04<19:18, 25.76 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4803/34643 [03:04<17:49, 27.90 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4807/34643 [03:04<18:25, 26.99 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4812/34643 [03:04<15:51, 31.34 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4816/34643 [03:04<19:53, 24.98 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4820/34643 [03:04<18:55, 26.26 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4823/34643 [03:04<21:07, 23.52 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4830/34643 [03:05<15:58, 31.09 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4834/34643 [03:05<21:08, 23.51 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4837/34643 [03:05<20:47, 23.89 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4840/34643 [03:05<20:32, 24.18 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4844/34643 [03:05<19:24, 25.60 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4850/34643 [03:05<15:40, 31.67 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4854/34643 [03:06<22:25, 22.13 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4859/34643 [03:06<18:53, 26.28 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4863/34643 [03:06<17:23, 28.54 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4867/34643 [03:06<16:21, 30.35 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4871/34643 [03:06<20:32, 24.16 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4874/34643 [03:06<23:20, 21.26 examples/s]preprocess datasets (num_proc=22):  14%|█��        | 4878/34643 [03:07<20:15, 24.49 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4882/34643 [03:07<18:27, 26.88 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4887/34643 [03:07<18:52, 26.27 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4890/34643 [03:07<20:38, 24.03 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4894/34643 [03:07<18:28, 26.83 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4897/34643 [03:07<23:03, 21.50 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4902/34643 [03:08<20:58, 23.63 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4908/34643 [03:08<16:25, 30.17 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4912/34643 [03:08<17:03, 29.04 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4916/34643 [03:08<20:10, 24.55 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4919/34643 [03:08<20:24, 24.28 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4922/34643 [03:08<21:29, 23.06 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4926/34643 [03:08<18:48, 26.33 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4931/34643 [03:09<16:33, 29.91 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4935/34643 [03:09<22:58, 21.55 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4941/34643 [03:09<17:27, 28.35 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4945/34643 [03:09<20:30, 24.14 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4948/34643 [03:09<21:09, 23.38 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4951/34643 [03:10<24:54, 19.87 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4958/34643 [03:10<19:26, 25.44 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4961/34643 [03:10<19:07, 25.87 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4964/34643 [03:10<18:38, 26.53 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4969/34643 [03:10<17:07, 28.87 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4972/34643 [03:10<17:30, 28.25 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4975/34643 [03:10<19:30, 25.35 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4979/34643 [03:11<18:41, 26.45 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4983/34643 [03:11<22:52, 21.61 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4986/34643 [03:11<22:49, 21.65 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4992/34643 [03:11<17:49, 27.71 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 4996/34643 [03:11<16:19, 30.27 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 5000/34643 [03:11<18:56, 26.08 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 5003/34643 [03:11<19:14, 25.68 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 5008/34643 [03:12<21:10, 23.32 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 5011/34643 [03:12<20:41, 23.87 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 5014/34643 [03:12<20:37, 23.95 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 5017/34643 [03:12<20:03, 24.62 examples/s]preprocess datasets (num_proc=22):  14%|█▍        | 5021/34643 [03:12<17:46, 27.78 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5025/34643 [03:12<16:10, 30.53 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5029/34643 [03:12<17:28, 28.24 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5032/34643 [03:13<26:12, 18.83 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5039/34643 [03:13<18:43, 26.36 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5044/34643 [03:13<16:08, 30.55 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5051/34643 [03:13<14:58, 32.93 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5055/34643 [03:14<21:37, 22.80 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5060/34643 [03:14<18:20, 26.89 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5066/34643 [03:14<15:06, 32.62 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5071/34643 [03:14<20:24, 24.15 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5075/34643 [03:14<19:34, 25.18 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5080/34643 [03:14<17:47, 27.68 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5085/34643 [03:15<16:05, 30.61 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5089/34643 [03:15<19:14, 25.61 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5092/34643 [03:15<21:45, 22.63 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5099/34643 [03:15<15:35, 31.60 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5103/34643 [03:15<15:52, 31.02 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5107/34643 [03:15<20:04, 24.53 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5110/34643 [03:16<21:16, 23.14 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5114/34643 [03:16<18:44, 26.25 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5120/34643 [03:16<15:13, 32.32 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5124/34643 [03:16<20:28, 24.04 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5127/34643 [03:16<21:02, 23.38 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5130/34643 [03:16<21:01, 23.40 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5136/34643 [03:16<15:46, 31.18 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5140/34643 [03:17<15:28, 31.77 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5144/34643 [03:17<22:10, 22.17 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5147/34643 [03:17<22:58, 21.39 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5150/34643 [03:17<22:26, 21.90 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5162/34643 [03:17<13:10, 37.30 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5166/34643 [03:18<21:15, 23.11 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5170/34643 [03:18<21:55, 22.40 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5175/34643 [03:18<18:39, 26.32 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5180/34643 [03:18<16:57, 28.95 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5184/34643 [03:18<16:52, 29.09 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5188/34643 [03:18<18:00, 27.26 examples/s]preprocess datasets (num_proc=22):  15%|█▍        | 5193/34643 [03:19<15:37, 31.40 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5197/34643 [03:19<22:47, 21.54 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5203/34643 [03:19<19:58, 24.57 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5207/34643 [03:19<19:02, 25.77 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5212/34643 [03:19<17:25, 28.14 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5216/34643 [03:20<25:05, 19.55 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5224/34643 [03:20<17:10, 28.54 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5228/34643 [03:20<16:14, 30.17 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5232/34643 [03:20<21:36, 22.69 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5236/34643 [03:20<21:22, 22.92 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5240/34643 [03:21<19:10, 25.56 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5246/34643 [03:21<19:11, 25.53 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5252/34643 [03:21<17:51, 27.42 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5256/34643 [03:21<18:53, 25.93 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5259/34643 [03:21<20:01, 24.46 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5263/34643 [03:21<18:43, 26.14 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5269/34643 [03:22<17:18, 28.27 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5272/34643 [03:22<17:55, 27.30 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5276/34643 [03:22<18:16, 26.79 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5279/34643 [03:22<20:53, 23.42 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5282/34643 [03:22<20:34, 23.79 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5286/34643 [03:22<18:19, 26.70 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5291/34643 [03:22<15:33, 31.44 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5295/34643 [03:23<22:18, 21.92 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5300/34643 [03:23<19:02, 25.67 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5304/34643 [03:23<17:53, 27.33 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5309/34643 [03:23<16:16, 30.04 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5313/34643 [03:24<24:04, 20.30 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5316/34643 [03:24<22:17, 21.92 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5324/34643 [03:24<15:05, 32.36 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5329/34643 [03:24<13:51, 35.23 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5334/34643 [03:24<24:54, 19.62 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5339/34643 [03:24<20:58, 23.28 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5346/34643 [03:25<16:29, 29.60 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5351/34643 [03:25<16:08, 30.26 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5355/34643 [03:25<25:40, 19.02 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5358/34643 [03:25<24:27, 19.95 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 5366/34643 [03:25<16:51, 28.94 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5373/34643 [03:26<14:51, 32.85 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5378/34643 [03:26<22:22, 21.79 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5382/34643 [03:26<21:21, 22.83 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5388/34643 [03:26<17:03, 28.57 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5393/34643 [03:26<16:11, 30.09 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5397/34643 [03:27<22:27, 21.70 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5401/34643 [03:27<20:35, 23.66 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5406/34643 [03:27<17:36, 27.67 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5410/34643 [03:27<17:50, 27.30 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5414/34643 [03:27<18:12, 26.75 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5418/34643 [03:28<22:25, 21.71 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5421/34643 [03:28<23:37, 20.61 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5431/34643 [03:28<14:11, 34.31 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5436/34643 [03:28<23:12, 20.97 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5442/34643 [03:29<18:41, 26.03 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5447/34643 [03:29<16:53, 28.80 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5451/34643 [03:29<20:03, 24.26 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5455/34643 [03:29<23:14, 20.94 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5463/34643 [03:29<16:00, 30.38 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5468/34643 [03:29<14:56, 32.55 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5473/34643 [03:30<21:33, 22.55 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5477/34643 [03:30<22:13, 21.87 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5481/34643 [03:30<19:51, 24.47 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5485/34643 [03:30<17:48, 27.29 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5489/34643 [03:30<21:00, 23.13 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5499/34643 [03:31<18:31, 26.23 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5503/34643 [03:31<18:10, 26.72 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5506/34643 [03:31<19:32, 24.85 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5509/34643 [03:31<19:32, 24.85 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5513/34643 [03:31<20:44, 23.41 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5518/34643 [03:31<17:50, 27.20 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5523/34643 [03:32<17:03, 28.44 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5526/34643 [03:32<18:23, 26.39 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5529/34643 [03:32<19:04, 25.44 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5532/34643 [03:32<20:08, 24.08 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5536/34643 [03:32<17:59, 26.96 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5539/34643 [03:32<20:42, 23.43 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5546/34643 [03:33<16:53, 28.72 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5551/34643 [03:33<15:53, 30.50 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5555/34643 [03:33<18:19, 26.46 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5558/34643 [03:33<22:35, 21.45 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5565/34643 [03:33<16:20, 29.67 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5571/34643 [03:33<13:36, 35.61 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5576/34643 [03:34<23:45, 20.40 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5584/34643 [03:34<17:51, 27.12 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5592/34643 [03:34<16:39, 29.07 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5596/34643 [03:35<20:37, 23.47 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5599/34643 [03:35<21:44, 22.27 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5602/34643 [03:35<21:31, 22.48 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5609/34643 [03:35<15:47, 30.65 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5613/34643 [03:35<15:51, 30.50 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5617/34643 [03:35<21:12, 22.81 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5620/34643 [03:35<20:39, 23.41 examples/s]preprocess datasets (num_proc=22):  16%|█▌        | 5628/34643 [03:36<15:49, 30.56 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5633/34643 [03:36<15:38, 30.89 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5637/34643 [03:36<19:27, 24.85 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5640/34643 [03:36<22:41, 21.31 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5647/34643 [03:36<16:17, 29.67 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5654/34643 [03:37<20:53, 23.12 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5658/34643 [03:37<21:05, 22.91 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5665/34643 [03:37<16:16, 29.66 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5671/34643 [03:37<13:55, 34.68 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5676/34643 [03:38<22:14, 21.71 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5682/34643 [03:38<18:31, 26.05 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5691/34643 [03:38<13:35, 35.52 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5696/34643 [03:38<20:18, 23.76 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5700/34643 [03:38<18:37, 25.90 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5705/34643 [03:39<16:58, 28.42 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5711/34643 [03:39<14:42, 32.78 examples/s]preprocess datasets (num_proc=22):  16%|█▋        | 5716/34643 [03:39<23:16, 20.71 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5722/34643 [03:39<19:08, 25.18 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5726/34643 [03:39<18:35, 25.92 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5731/34643 [03:40<16:20, 29.50 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5735/34643 [03:40<20:29, 23.52 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5739/34643 [03:40<19:31, 24.68 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5744/34643 [03:40<16:24, 29.35 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5748/34643 [03:40<20:20, 23.67 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5751/34643 [03:41<22:45, 21.17 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5755/34643 [03:41<19:54, 24.18 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5765/34643 [03:41<14:17, 33.67 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5769/34643 [03:41<24:24, 19.72 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5778/34643 [03:41<16:53, 28.49 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5784/34643 [03:42<14:26, 33.31 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5789/34643 [03:42<18:06, 26.55 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5793/34643 [03:42<23:11, 20.74 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5799/34643 [03:42<18:23, 26.14 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5805/34643 [03:42<16:34, 29.00 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5809/34643 [03:43<23:15, 20.66 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5813/34643 [03:43<21:46, 22.06 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5818/34643 [03:43<18:44, 25.64 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5823/34643 [03:43<16:07, 29.79 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5827/34643 [03:43<16:03, 29.89 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5831/34643 [03:44<20:11, 23.78 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5834/34643 [03:44<19:23, 24.76 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5837/34643 [03:44<19:49, 24.23 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5840/34643 [03:44<21:37, 22.20 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5848/34643 [03:44<14:11, 33.81 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5852/34643 [03:44<17:55, 26.76 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5856/34643 [03:44<18:24, 26.07 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5859/34643 [03:45<18:08, 26.43 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5862/34643 [03:45<18:33, 25.86 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5865/34643 [03:45<18:02, 26.58 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5868/34643 [03:45<19:13, 24.95 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5871/34643 [03:45<19:35, 24.48 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5875/34643 [03:45<17:15, 27.78 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5879/34643 [03:45<16:33, 28.94 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5882/34643 [03:45<16:38, 28.80 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5885/34643 [03:46<25:47, 18.58 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5890/34643 [03:46<19:27, 24.64 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5895/34643 [03:46<16:16, 29.44 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5899/34643 [03:46<17:26, 27.46 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5903/34643 [03:46<18:13, 26.28 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5906/34643 [03:47<23:38, 20.26 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5910/34643 [03:47<20:17, 23.60 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5916/34643 [03:47<16:06, 29.73 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5920/34643 [03:47<18:00, 26.57 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5924/34643 [03:47<18:19, 26.11 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5928/34643 [03:47<16:46, 28.53 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5932/34643 [03:47<18:42, 25.57 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5936/34643 [03:48<16:57, 28.23 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5940/34643 [03:48<18:52, 25.35 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5944/34643 [03:48<20:08, 23.75 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5947/34643 [03:48<20:22, 23.47 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5952/34643 [03:48<16:51, 28.38 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5956/34643 [03:48<17:33, 27.24 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5961/34643 [03:49<21:19, 22.41 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5967/34643 [03:49<16:33, 28.86 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5971/34643 [03:49<19:58, 23.93 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5975/34643 [03:49<19:00, 25.14 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5978/34643 [03:49<19:18, 24.75 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5983/34643 [03:49<16:07, 29.63 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5987/34643 [03:50<16:45, 28.50 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5991/34643 [03:50<23:06, 20.67 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 5996/34643 [03:50<19:23, 24.61 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6002/34643 [03:50<15:35, 30.61 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6006/34643 [03:50<17:33, 27.19 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6010/34643 [03:51<21:05, 22.63 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6014/34643 [03:51<18:37, 25.61 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6020/34643 [03:51<15:39, 30.47 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6024/34643 [03:51<15:21, 31.05 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6028/34643 [03:51<19:33, 24.38 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6031/34643 [03:51<19:30, 24.45 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6034/34643 [03:51<19:42, 24.20 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6039/34643 [03:52<16:06, 29.61 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6043/34643 [03:52<19:48, 24.07 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6049/34643 [03:52<17:24, 27.37 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6053/34643 [03:52<16:57, 28.10 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6057/34643 [03:52<19:55, 23.91 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 6062/34643 [03:52<17:21, 27.43 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6066/34643 [03:53<17:33, 27.11 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6069/34643 [03:53<19:54, 23.92 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6078/34643 [03:53<17:36, 27.05 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6082/34643 [03:53<18:35, 25.61 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6086/34643 [03:53<18:02, 26.39 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6089/34643 [03:53<19:07, 24.88 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6094/34643 [03:54<15:55, 29.89 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6099/34643 [03:54<13:51, 34.32 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6103/34643 [03:54<19:52, 23.93 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6109/34643 [03:54<16:59, 27.98 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6113/34643 [03:54<17:14, 27.59 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6117/34643 [03:54<16:41, 28.50 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6121/34643 [03:55<21:21, 22.26 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6124/34643 [03:55<20:57, 22.69 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6127/34643 [03:55<21:08, 22.48 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6131/34643 [03:55<22:25, 21.19 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6136/34643 [03:55<17:49, 26.65 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6144/34643 [03:55<12:57, 36.64 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6149/34643 [03:56<17:14, 27.54 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6153/34643 [03:56<23:11, 20.48 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6158/34643 [03:56<19:13, 24.68 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6166/34643 [03:56<18:41, 25.40 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6170/34643 [03:57<18:32, 25.60 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6174/34643 [03:57<17:03, 27.80 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6178/34643 [03:57<17:04, 27.80 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6184/34643 [03:57<16:29, 28.75 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6188/34643 [03:57<23:01, 20.60 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6195/34643 [03:58<16:46, 28.26 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6199/34643 [03:58<15:58, 29.67 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6203/34643 [03:58<24:53, 19.04 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6210/34643 [03:58<18:06, 26.16 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6216/34643 [03:58<16:29, 28.72 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6220/34643 [03:59<21:58, 21.55 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6224/34643 [03:59<23:47, 19.91 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6235/34643 [03:59<14:15, 33.23 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6240/34643 [03:59<19:00, 24.90 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6244/34643 [04:00<20:44, 22.83 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6253/34643 [04:00<14:47, 32.00 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6258/34643 [04:00<20:18, 23.30 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6263/34643 [04:00<18:03, 26.20 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6267/34643 [04:00<17:14, 27.44 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6271/34643 [04:01<17:23, 27.18 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6275/34643 [04:01<21:58, 21.51 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6278/34643 [04:01<23:58, 19.72 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6285/34643 [04:01<16:46, 28.19 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6290/34643 [04:01<14:38, 32.28 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6295/34643 [04:02<24:59, 18.90 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6301/34643 [04:02<19:35, 24.10 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6310/34643 [04:02<14:55, 31.64 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6315/34643 [04:02<22:06, 21.35 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6319/34643 [04:03<20:05, 23.50 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6327/34643 [04:03<14:41, 32.12 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6332/34643 [04:03<15:34, 30.29 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6337/34643 [04:03<20:04, 23.49 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6341/34643 [04:03<19:42, 23.93 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6347/34643 [04:04<16:20, 28.87 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6351/34643 [04:04<18:55, 24.92 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6355/34643 [04:04<20:29, 23.02 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6362/34643 [04:04<15:24, 30.58 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6366/34643 [04:04<15:20, 30.73 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6372/34643 [04:04<14:44, 31.98 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6376/34643 [04:05<22:32, 20.90 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6379/34643 [04:05<21:38, 21.77 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6382/34643 [04:05<20:33, 22.91 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6387/34643 [04:05<18:29, 25.46 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6392/34643 [04:05<17:07, 27.51 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6395/34643 [04:05<20:20, 23.14 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6398/34643 [04:06<21:07, 22.29 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6404/34643 [04:06<16:57, 27.76 examples/s]preprocess datasets (num_proc=22):  18%|█▊        | 6407/34643 [04:06<16:45, 28.08 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6410/34643 [04:06<16:33, 28.41 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6413/34643 [04:06<22:30, 20.91 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6416/34643 [04:06<25:43, 18.29 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6420/34643 [04:07<21:17, 22.09 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6425/34643 [04:07<18:44, 25.09 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6428/34643 [04:07<20:20, 23.11 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6434/34643 [04:07<16:05, 29.21 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6438/34643 [04:07<16:58, 27.68 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6441/34643 [04:07<18:05, 25.98 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6445/34643 [04:08<19:52, 23.64 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6448/34643 [04:08<26:10, 17.95 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6454/34643 [04:08<18:43, 25.09 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6461/34643 [04:08<14:09, 33.19 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6466/34643 [04:08<18:09, 25.85 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6470/34643 [04:09<23:08, 20.29 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6476/34643 [04:09<18:12, 25.79 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6485/34643 [04:09<13:37, 34.44 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6490/34643 [04:09<21:23, 21.93 examples/s]preprocess datasets (num_proc=22):  19%|█▊        | 6495/34643 [04:09<18:23, 25.50 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6499/34643 [04:10<17:24, 26.96 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6505/34643 [04:10<19:02, 24.62 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6511/34643 [04:10<17:04, 27.46 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6515/34643 [04:10<16:29, 28.43 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6519/34643 [04:10<17:09, 27.32 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6523/34643 [04:10<17:13, 27.20 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6527/34643 [04:11<16:12, 28.92 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6531/34643 [04:11<16:07, 29.06 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6536/34643 [04:11<14:14, 32.90 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6540/34643 [04:11<18:04, 25.92 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6543/34643 [04:11<18:55, 24.74 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6546/34643 [04:11<19:36, 23.88 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6549/34643 [04:12<20:24, 22.94 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6552/34643 [04:12<21:09, 22.12 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6557/34643 [04:12<17:01, 27.48 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6562/34643 [04:12<15:43, 29.77 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6566/34643 [04:12<16:13, 28.86 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6569/34643 [04:12<18:40, 25.06 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6572/34643 [04:12<18:01, 25.96 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6576/34643 [04:12<16:52, 27.72 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6581/34643 [04:13<16:18, 28.67 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6585/34643 [04:13<14:56, 31.29 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6589/34643 [04:13<17:09, 27.24 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6594/34643 [04:13<16:31, 28.29 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6597/34643 [04:13<16:28, 28.38 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6600/34643 [04:13<16:47, 27.84 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6604/34643 [04:13<16:51, 27.73 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6609/34643 [04:14<18:55, 24.69 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6613/34643 [04:14<19:09, 24.37 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6616/34643 [04:14<19:26, 24.04 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6623/34643 [04:14<14:33, 32.07 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6627/34643 [04:14<17:32, 26.63 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6630/34643 [04:15<19:59, 23.35 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6634/34643 [04:15<19:19, 24.16 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6637/34643 [04:15<19:00, 24.56 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6641/34643 [04:15<16:41, 27.95 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6644/34643 [04:15<17:12, 27.13 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6648/34643 [04:15<16:08, 28.89 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6653/34643 [04:15<14:19, 32.55 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6657/34643 [04:16<19:44, 23.63 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6660/34643 [04:16<19:52, 23.47 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6664/34643 [04:16<17:46, 26.23 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6671/34643 [04:16<12:57, 35.96 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6676/34643 [04:16<22:31, 20.69 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6681/34643 [04:16<18:33, 25.11 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6688/34643 [04:17<14:11, 32.82 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6694/34643 [04:17<12:56, 35.99 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6699/34643 [04:17<23:38, 19.71 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6707/34643 [04:17<16:57, 27.46 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6714/34643 [04:18<15:22, 30.27 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6719/34643 [04:18<22:03, 21.10 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6732/34643 [04:18<13:58, 33.29 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6738/34643 [04:19<20:07, 23.11 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6744/34643 [04:19<18:26, 25.21 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6749/34643 [04:19<16:18, 28.50 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 6754/34643 [04:19<16:19, 28.46 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6758/34643 [04:19<22:05, 21.03 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6768/34643 [04:20<14:31, 31.99 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6773/34643 [04:20<17:52, 25.99 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6777/34643 [04:20<20:16, 22.91 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6782/34643 [04:20<18:08, 25.60 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6786/34643 [04:20<17:01, 27.27 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6790/34643 [04:21<17:09, 27.04 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6794/34643 [04:21<18:06, 25.63 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6798/34643 [04:21<18:06, 25.63 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6801/34643 [04:21<18:54, 24.53 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6806/34643 [04:21<16:13, 28.59 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6811/34643 [04:21<14:23, 32.22 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6815/34643 [04:22<19:24, 23.90 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6818/34643 [04:22<24:09, 19.20 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6821/34643 [04:22<22:27, 20.65 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6828/34643 [04:22<15:23, 30.13 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6835/34643 [04:22<17:54, 25.88 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6839/34643 [04:23<19:30, 23.75 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6843/34643 [04:23<18:07, 25.56 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6846/34643 [04:23<19:13, 24.11 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6855/34643 [04:23<12:46, 36.27 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6860/34643 [04:23<18:06, 25.56 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6865/34643 [04:23<16:20, 28.33 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6869/34643 [04:24<15:52, 29.16 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6873/34643 [04:24<17:00, 27.20 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6877/34643 [04:24<21:35, 21.43 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6883/34643 [04:24<16:55, 27.35 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6892/34643 [04:24<13:37, 33.96 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6896/34643 [04:25<23:46, 19.46 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6908/34643 [04:25<14:57, 30.91 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6913/34643 [04:25<20:54, 22.10 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6917/34643 [04:26<20:33, 22.48 examples/s]preprocess datasets (num_proc=22):  20%|█▉        | 6927/34643 [04:26<13:56, 33.13 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6933/34643 [04:26<16:39, 27.71 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6938/34643 [04:26<20:01, 23.06 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6944/34643 [04:26<16:25, 28.10 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6949/34643 [04:27<15:02, 30.67 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6954/34643 [04:27<17:00, 27.12 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6958/34643 [04:27<16:54, 27.28 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6962/34643 [04:27<18:37, 24.77 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6969/34643 [04:27<14:35, 31.62 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6973/34643 [04:28<20:15, 22.77 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6977/34643 [04:28<19:16, 23.92 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6980/34643 [04:28<19:03, 24.20 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6984/34643 [04:28<17:05, 26.96 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6988/34643 [04:28<15:53, 29.01 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6992/34643 [04:28<15:24, 29.90 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6996/34643 [04:28<20:31, 22.45 examples/s]preprocess datasets (num_proc=22):  20%|██        | 6999/34643 [04:29<21:30, 21.43 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7002/34643 [04:29<20:04, 22.94 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7008/34643 [04:29<15:28, 29.75 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7012/34643 [04:29<18:15, 25.22 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7017/34643 [04:29<18:03, 25.50 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7022/34643 [04:29<16:17, 28.26 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7026/34643 [04:30<16:29, 27.91 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7029/34643 [04:30<16:30, 27.87 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7033/34643 [04:30<15:30, 29.67 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7037/34643 [04:30<28:35, 16.09 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7047/34643 [04:30<16:17, 28.24 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7052/34643 [04:31<16:23, 28.06 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7057/34643 [04:31<15:33, 29.55 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7061/34643 [04:31<20:20, 22.61 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7068/34643 [04:31<15:38, 29.37 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7072/34643 [04:31<17:09, 26.78 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7076/34643 [04:32<20:48, 22.09 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7079/34643 [04:32<21:19, 21.54 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7087/34643 [04:32<14:52, 30.88 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7092/34643 [04:32<13:56, 32.94 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7096/34643 [04:32<18:00, 25.50 examples/s]preprocess datasets (num_proc=22):  20%|██        | 7100/34643 [04:32<17:00, 26.98 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7104/34643 [04:33<16:45, 27.38 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7108/34643 [04:33<15:24, 29.79 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7112/34643 [04:33<14:56, 30.72 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7116/34643 [04:33<19:54, 23.05 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7124/34643 [04:33<14:06, 32.49 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7128/34643 [04:33<17:50, 25.70 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7132/34643 [04:34<24:00, 19.09 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7136/34643 [04:34<20:44, 22.10 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7144/34643 [04:34<15:15, 30.03 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7148/34643 [04:34<15:48, 28.98 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7152/34643 [04:34<17:19, 26.44 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7156/34643 [04:35<18:15, 25.10 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7161/34643 [04:35<15:30, 29.52 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7165/34643 [04:35<22:25, 20.43 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7170/34643 [04:35<18:33, 24.68 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7175/34643 [04:35<15:53, 28.82 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7179/34643 [04:35<15:33, 29.43 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7183/34643 [04:36<15:34, 29.39 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7187/34643 [04:36<20:35, 22.22 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7194/34643 [04:36<14:52, 30.75 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7198/34643 [04:36<16:26, 27.81 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7202/34643 [04:36<18:31, 24.68 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7205/34643 [04:36<20:35, 22.20 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7208/34643 [04:37<20:04, 22.78 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7213/34643 [04:37<18:27, 24.76 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7219/34643 [04:37<15:41, 29.12 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7223/34643 [04:37<18:50, 24.26 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7226/34643 [04:37<21:09, 21.59 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7230/34643 [04:38<20:17, 22.52 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7242/34643 [04:38<12:44, 35.83 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7246/34643 [04:38<17:22, 26.27 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7249/34643 [04:38<19:13, 23.75 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7257/34643 [04:38<13:53, 32.86 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7263/34643 [04:39<22:15, 20.50 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7267/34643 [04:39<20:57, 21.77 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7277/34643 [04:39<14:06, 32.32 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7282/34643 [04:39<16:15, 28.06 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7286/34643 [04:40<22:00, 20.72 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7299/34643 [04:40<13:25, 33.94 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7304/34643 [04:40<21:18, 21.38 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7310/34643 [04:41<17:46, 25.62 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7315/34643 [04:41<16:21, 27.84 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7320/34643 [04:41<15:40, 29.06 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7324/34643 [04:41<22:05, 20.61 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7329/34643 [04:41<18:20, 24.81 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7334/34643 [04:41<16:54, 26.91 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7340/34643 [04:42<14:45, 30.82 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7344/34643 [04:42<21:00, 21.66 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7349/34643 [04:42<17:51, 25.46 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7354/34643 [04:42<15:42, 28.97 examples/s]preprocess datasets (num_proc=22):  21%|██        | 7358/34643 [04:42<16:25, 27.70 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7362/34643 [04:43<16:59, 26.75 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7366/34643 [04:43<19:12, 23.66 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7369/34643 [04:43<20:30, 22.16 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7373/34643 [04:43<19:06, 23.78 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7377/34643 [04:43<16:53, 26.89 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7382/34643 [04:43<14:41, 30.93 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7386/34643 [04:44<23:12, 19.58 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7394/34643 [04:44<15:30, 29.27 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7399/34643 [04:44<15:24, 29.48 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7405/34643 [04:44<12:54, 35.15 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7410/34643 [04:45<21:54, 20.72 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7418/34643 [04:45<15:42, 28.87 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7425/34643 [04:45<12:53, 35.17 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7431/34643 [04:45<22:14, 20.39 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7440/34643 [04:45<15:50, 28.63 examples/s]preprocess datasets (num_proc=22):  21%|██▏       | 7446/34643 [04:46<18:48, 24.11 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7451/34643 [04:46<20:31, 22.07 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7455/34643 [04:46<18:44, 24.17 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7464/34643 [04:46<13:36, 33.27 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7469/34643 [04:47<21:39, 20.91 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7475/34643 [04:47<17:34, 25.77 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7483/34643 [04:47<13:30, 33.50 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7489/34643 [04:47<18:37, 24.30 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7493/34643 [04:48<17:13, 26.28 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7498/34643 [04:48<15:18, 29.56 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7503/34643 [04:48<16:52, 26.80 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7507/34643 [04:48<19:37, 23.05 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7512/34643 [04:48<17:28, 25.87 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7516/34643 [04:48<16:05, 28.09 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7520/34643 [04:49<15:05, 29.95 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7524/34643 [04:49<19:03, 23.72 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7527/34643 [04:49<18:53, 23.92 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7531/34643 [04:49<16:54, 26.72 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7538/34643 [04:49<16:50, 26.81 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7542/34643 [04:49<15:49, 28.54 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7546/34643 [04:50<21:19, 21.17 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7554/34643 [04:50<14:43, 30.68 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7558/34643 [04:50<14:16, 31.61 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7562/34643 [04:50<15:23, 29.32 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7566/34643 [04:50<18:58, 23.78 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7573/34643 [04:50<14:30, 31.11 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7577/34643 [04:51<18:14, 24.73 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7581/34643 [04:51<19:21, 23.30 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7585/34643 [04:51<17:54, 25.19 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7590/34643 [04:51<15:42, 28.71 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7594/34643 [04:51<16:43, 26.97 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7597/34643 [04:52<19:55, 22.63 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7600/34643 [04:52<19:23, 23.24 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7606/34643 [04:52<14:37, 30.82 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7610/34643 [04:52<19:14, 23.42 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7614/34643 [04:52<20:35, 21.88 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7619/34643 [04:52<16:52, 26.68 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7623/34643 [04:52<15:26, 29.15 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7629/34643 [04:53<12:55, 34.85 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7633/34643 [04:53<16:51, 26.70 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7637/34643 [04:53<19:45, 22.79 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7641/34643 [04:53<17:29, 25.73 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7648/34643 [04:53<12:59, 34.62 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7653/34643 [04:54<20:24, 22.05 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7657/34643 [04:54<18:14, 24.66 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7664/34643 [04:54<14:05, 31.90 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7669/34643 [04:54<14:46, 30.41 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7673/34643 [04:54<17:52, 25.15 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7677/34643 [04:55<16:58, 26.48 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7681/34643 [04:55<17:01, 26.41 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7686/34643 [04:55<15:46, 28.48 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7690/34643 [04:55<19:27, 23.09 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7693/34643 [04:55<21:38, 20.76 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7699/34643 [04:55<16:40, 26.93 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7703/34643 [04:56<16:47, 26.74 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7708/34643 [04:56<16:46, 26.77 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7711/34643 [04:56<16:57, 26.47 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7714/34643 [04:56<17:15, 26.00 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7717/34643 [04:56<17:48, 25.21 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7720/34643 [04:56<17:30, 25.62 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7724/34643 [04:56<16:10, 27.74 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7727/34643 [04:56<16:27, 27.25 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7730/34643 [04:57<17:31, 25.60 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7733/34643 [04:57<17:29, 25.64 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7736/34643 [04:57<19:30, 22.98 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7741/34643 [04:57<17:06, 26.22 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7744/34643 [04:57<20:05, 22.32 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7749/34643 [04:57<17:04, 26.24 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7753/34643 [04:57<15:25, 29.04 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7759/34643 [04:58<12:25, 36.07 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7763/34643 [04:58<18:48, 23.82 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7767/34643 [04:58<20:41, 21.65 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7774/34643 [04:58<14:59, 29.86 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7778/34643 [04:58<15:07, 29.60 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7782/34643 [04:59<20:10, 22.20 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7787/34643 [04:59<17:01, 26.29 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 7792/34643 [04:59<14:42, 30.43 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7796/34643 [04:59<14:57, 29.92 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7800/34643 [04:59<22:01, 20.32 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7803/34643 [05:00<21:29, 20.82 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7809/34643 [05:00<16:12, 27.60 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7814/34643 [05:00<14:48, 30.18 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7818/34643 [05:00<16:55, 26.41 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7822/34643 [05:00<21:52, 20.43 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7828/34643 [05:00<16:43, 26.72 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7833/34643 [05:00<14:20, 31.17 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7837/34643 [05:01<16:45, 26.66 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7841/34643 [05:01<20:55, 21.35 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7849/34643 [05:01<16:06, 27.73 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7854/34643 [05:01<14:28, 30.85 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7858/34643 [05:02<22:00, 20.29 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7862/34643 [05:02<19:46, 22.56 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7870/34643 [05:02<14:06, 31.63 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7875/34643 [05:02<14:30, 30.76 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7879/34643 [05:02<17:47, 25.08 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7883/34643 [05:03<21:42, 20.55 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7891/34643 [05:03<14:56, 29.85 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7896/34643 [05:03<16:45, 26.59 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7900/34643 [05:03<15:39, 28.47 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7904/34643 [05:03<18:13, 24.45 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7908/34643 [05:03<17:38, 25.26 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7912/34643 [05:04<16:20, 27.27 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7916/34643 [05:04<16:57, 26.28 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7919/34643 [05:04<18:11, 24.49 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7922/34643 [05:04<18:57, 23.49 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7927/34643 [05:04<15:49, 28.13 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7930/34643 [05:04<18:41, 23.82 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7933/34643 [05:05<25:19, 17.58 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7937/34643 [05:05<20:57, 21.24 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7941/34643 [05:05<18:39, 23.84 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7949/34643 [05:05<12:35, 35.33 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7954/34643 [05:05<16:49, 26.44 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7958/34643 [05:06<21:41, 20.50 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7965/34643 [05:06<16:01, 27.76 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7970/34643 [05:06<16:16, 27.32 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7974/34643 [05:06<15:23, 28.88 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7978/34643 [05:06<20:36, 21.56 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7981/34643 [05:06<20:22, 21.82 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7987/34643 [05:07<16:38, 26.68 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7993/34643 [05:07<14:31, 30.57 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 7997/34643 [05:07<20:09, 22.03 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8002/34643 [05:07<17:18, 25.65 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8009/34643 [05:07<13:18, 33.37 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8014/34643 [05:08<16:02, 27.66 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8019/34643 [05:08<16:11, 27.40 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8023/34643 [05:08<16:56, 26.19 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8029/34643 [05:08<13:56, 31.82 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8033/34643 [05:08<17:18, 25.62 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8037/34643 [05:08<16:29, 26.89 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8042/34643 [05:09<15:28, 28.65 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8046/34643 [05:09<18:59, 23.34 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8049/34643 [05:09<21:10, 20.94 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8055/34643 [05:09<16:24, 27.01 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8062/34643 [05:09<12:31, 35.36 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8067/34643 [05:09<13:15, 33.40 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8071/34643 [05:10<23:21, 18.96 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8080/34643 [05:10<15:25, 28.69 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8085/34643 [05:10<13:52, 31.90 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8090/34643 [05:11<20:32, 21.55 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8094/34643 [05:11<18:54, 23.39 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8099/34643 [05:11<16:39, 26.55 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8103/34643 [05:11<18:49, 23.50 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8107/34643 [05:11<18:14, 24.25 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8110/34643 [05:11<18:10, 24.33 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8117/34643 [05:11<13:59, 31.60 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8121/34643 [05:12<13:40, 32.31 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8125/34643 [05:12<21:05, 20.96 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8129/34643 [05:12<18:57, 23.32 examples/s]preprocess datasets (num_proc=22):  23%|██▎       | 8137/34643 [05:12<13:18, 33.21 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8142/34643 [05:13<18:46, 23.51 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8147/34643 [05:13<16:43, 26.41 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8153/34643 [05:13<13:49, 31.95 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8158/34643 [05:13<19:38, 22.46 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8162/34643 [05:13<19:57, 22.11 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8166/34643 [05:13<17:50, 24.74 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8172/34643 [05:14<14:08, 31.21 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8176/34643 [05:14<14:07, 31.21 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8180/34643 [05:14<20:20, 21.69 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8185/34643 [05:14<17:38, 25.00 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8190/34643 [05:14<15:38, 28.19 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8194/34643 [05:14<15:07, 29.14 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8198/34643 [05:15<17:55, 24.58 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8202/34643 [05:15<17:15, 25.52 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8205/34643 [05:15<21:01, 20.95 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8208/34643 [05:15<19:45, 22.30 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8213/34643 [05:15<15:45, 27.97 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8217/34643 [05:15<14:30, 30.34 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8221/34643 [05:16<26:45, 16.46 examples/s]preprocess datasets (num_proc=22):  24%|██▎       | 8224/34643 [05:16<24:25, 18.02 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8230/34643 [05:16<18:42, 23.52 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8234/34643 [05:16<25:04, 17.56 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8239/34643 [05:17<22:13, 19.80 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8242/34643 [05:17<22:30, 19.55 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8245/34643 [05:17<27:42, 15.88 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8252/34643 [05:17<19:02, 23.09 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8256/34643 [05:17<18:09, 24.21 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8259/34643 [05:18<26:54, 16.34 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8262/34643 [05:18<24:05, 18.26 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8269/34643 [05:18<16:42, 26.32 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8276/34643 [05:18<12:48, 34.30 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8281/34643 [05:19<24:23, 18.01 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8291/34643 [05:19<15:42, 27.96 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8296/34643 [05:19<15:43, 27.92 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8301/34643 [05:19<22:01, 19.93 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8312/34643 [05:20<14:16, 30.73 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8318/34643 [05:20<19:01, 23.06 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8322/34643 [05:20<19:08, 22.92 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8332/34643 [05:20<13:02, 33.64 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8338/34643 [05:21<19:56, 21.98 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8343/34643 [05:21<18:22, 23.85 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8352/34643 [05:21<13:15, 33.05 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8358/34643 [05:22<18:28, 23.70 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8363/34643 [05:22<18:09, 24.12 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8367/34643 [05:22<16:42, 26.22 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8371/34643 [05:22<15:33, 28.16 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8375/34643 [05:22<16:19, 26.81 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8379/34643 [05:22<19:00, 23.03 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8385/34643 [05:23<16:27, 26.58 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8392/34643 [05:23<14:21, 30.47 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8396/34643 [05:23<20:19, 21.53 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8399/34643 [05:23<21:13, 20.61 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8408/34643 [05:23<14:21, 30.44 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8413/34643 [05:24<12:54, 33.85 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8418/34643 [05:24<20:11, 21.65 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8423/34643 [05:24<17:40, 24.73 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8429/34643 [05:24<14:27, 30.23 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8434/34643 [05:24<14:55, 29.27 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8438/34643 [05:25<19:20, 22.58 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8443/34643 [05:25<16:26, 26.55 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8451/34643 [05:25<15:18, 28.51 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8455/34643 [05:25<20:04, 21.75 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8461/34643 [05:26<16:38, 26.21 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8470/34643 [05:26<13:45, 31.72 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8474/34643 [05:26<21:30, 20.28 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 8480/34643 [05:26<17:14, 25.30 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8489/34643 [05:26<13:03, 33.37 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8494/34643 [05:27<16:58, 25.68 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8498/34643 [05:27<16:45, 25.99 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8502/34643 [05:27<17:44, 24.56 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8508/34643 [05:27<14:30, 30.02 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8512/34643 [05:27<16:23, 26.56 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8516/34643 [05:28<16:28, 26.42 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8519/34643 [05:28<17:44, 24.54 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8522/34643 [05:28<18:08, 24.00 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8527/34643 [05:28<14:47, 29.42 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8531/34643 [05:28<17:58, 24.21 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8534/34643 [05:28<18:19, 23.75 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8537/34643 [05:28<20:00, 21.75 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8543/34643 [05:29<15:10, 28.67 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8547/34643 [05:29<16:40, 26.09 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8550/34643 [05:29<17:20, 25.09 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8553/34643 [05:29<22:12, 19.58 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8563/34643 [05:29<13:29, 32.23 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8567/34643 [05:29<13:14, 32.81 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8571/34643 [05:30<23:06, 18.81 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8578/34643 [05:30<17:12, 25.24 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8583/34643 [05:30<15:04, 28.81 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8587/34643 [05:30<15:27, 28.08 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8591/34643 [05:31<17:21, 25.02 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8595/34643 [05:31<20:24, 21.27 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8600/34643 [05:31<16:39, 26.06 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8604/34643 [05:31<19:14, 22.56 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8610/34643 [05:31<16:14, 26.73 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8614/34643 [05:31<16:09, 26.86 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8618/34643 [05:32<16:43, 25.94 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8621/34643 [05:32<18:16, 23.73 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8626/34643 [05:32<16:44, 25.90 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8629/34643 [05:32<17:56, 24.16 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8635/34643 [05:32<14:15, 30.38 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8639/34643 [05:32<13:37, 31.80 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8643/34643 [05:33<20:19, 21.32 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8647/34643 [05:33<17:43, 24.45 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8655/34643 [05:33<12:51, 33.68 examples/s]preprocess datasets (num_proc=22):  25%|██▍       | 8660/34643 [05:33<16:37, 26.04 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8664/34643 [05:33<15:24, 28.11 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8668/34643 [05:34<17:55, 24.14 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8671/34643 [05:34<18:02, 23.99 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8674/34643 [05:34<17:27, 24.78 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8679/34643 [05:34<14:17, 30.27 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8683/34643 [05:34<16:37, 26.03 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8686/34643 [05:34<18:53, 22.89 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8689/34643 [05:34<20:38, 20.96 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8696/34643 [05:35<15:05, 28.65 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8701/34643 [05:35<13:07, 32.96 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8705/34643 [05:35<15:51, 27.27 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8709/34643 [05:35<21:36, 20.00 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8716/34643 [05:35<15:23, 28.06 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8720/34643 [05:35<14:15, 30.30 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8724/34643 [05:36<14:57, 28.88 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8728/34643 [05:36<23:07, 18.68 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8735/34643 [05:36<17:02, 25.35 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8745/34643 [05:36<12:22, 34.89 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8750/34643 [05:37<20:44, 20.81 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8756/34643 [05:37<16:48, 25.67 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8765/34643 [05:37<12:31, 34.44 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8771/34643 [05:38<19:16, 22.38 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8780/34643 [05:38<14:11, 30.36 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8786/34643 [05:38<14:14, 30.25 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8791/34643 [05:38<18:50, 22.87 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8796/34643 [05:38<16:31, 26.08 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8803/34643 [05:39<16:09, 26.66 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8807/34643 [05:39<19:21, 22.24 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8810/34643 [05:39<19:17, 22.32 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8816/34643 [05:39<15:17, 28.15 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8823/34643 [05:39<12:03, 35.71 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8828/34643 [05:40<19:01, 22.61 examples/s]preprocess datasets (num_proc=22):  25%|██▌       | 8832/34643 [05:40<19:12, 22.40 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8838/34643 [05:40<15:25, 27.87 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8847/34643 [05:40<16:11, 26.55 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8851/34643 [05:41<19:48, 21.70 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8858/34643 [05:41<15:05, 28.46 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8863/34643 [05:41<13:25, 32.02 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8868/34643 [05:41<14:58, 28.68 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8872/34643 [05:41<20:41, 20.77 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8878/34643 [05:42<16:30, 26.00 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8884/34643 [05:42<14:06, 30.42 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8888/34643 [05:42<15:44, 27.26 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8892/34643 [05:42<18:35, 23.08 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8899/34643 [05:42<17:45, 24.17 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8904/34643 [05:43<16:02, 26.73 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8908/34643 [05:43<18:30, 23.18 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8912/34643 [05:43<16:50, 25.48 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8916/34643 [05:43<21:33, 19.89 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8924/34643 [05:43<15:02, 28.50 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8928/34643 [05:43<14:25, 29.72 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8932/34643 [05:44<13:43, 31.23 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8936/34643 [05:44<15:00, 28.54 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8940/34643 [05:44<20:18, 21.09 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8945/34643 [05:44<17:02, 25.14 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8952/34643 [05:44<13:44, 31.17 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8956/34643 [05:45<16:35, 25.79 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8960/34643 [05:45<19:10, 22.33 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8963/34643 [05:45<18:35, 23.02 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8969/34643 [05:45<14:25, 29.66 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8973/34643 [05:45<15:16, 28.02 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8977/34643 [05:46<19:04, 22.43 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8980/34643 [05:46<18:05, 23.65 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8987/34643 [05:46<13:36, 31.42 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8991/34643 [05:46<18:50, 22.70 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 8994/34643 [05:46<20:32, 20.82 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9001/34643 [05:46<14:40, 29.14 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9008/34643 [05:46<11:31, 37.06 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9013/34643 [05:47<19:47, 21.58 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9020/34643 [05:47<15:21, 27.79 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9026/34643 [05:47<13:19, 32.04 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9031/34643 [05:48<20:29, 20.84 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9035/34643 [05:48<18:20, 23.28 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9044/34643 [05:48<12:36, 33.84 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9050/34643 [05:48<16:11, 26.34 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9055/34643 [05:48<18:14, 23.37 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9063/34643 [05:49<15:00, 28.40 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9067/34643 [05:49<16:29, 25.84 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9071/34643 [05:49<20:16, 21.01 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9074/34643 [05:49<19:12, 22.19 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9083/34643 [05:49<13:36, 31.31 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9088/34643 [05:50<14:47, 28.80 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 9092/34643 [05:50<15:25, 27.61 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9096/34643 [05:50<19:00, 22.41 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9099/34643 [05:50<19:32, 21.78 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9109/34643 [05:50<12:11, 34.93 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9114/34643 [05:51<18:15, 23.30 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9118/34643 [05:51<19:50, 21.43 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9126/34643 [05:51<14:15, 29.82 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9133/34643 [05:51<16:15, 26.16 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9137/34643 [05:52<20:45, 20.47 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9142/34643 [05:52<17:22, 24.45 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9151/34643 [05:52<12:16, 34.59 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9156/34643 [05:53<19:45, 21.50 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9160/34643 [05:53<17:45, 23.91 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9167/34643 [05:53<13:37, 31.15 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9172/34643 [05:53<12:31, 33.87 examples/s]preprocess datasets (num_proc=22):  26%|██▋       | 9177/34643 [05:53<18:45, 22.62 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9183/34643 [05:53<15:15, 27.80 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9189/34643 [05:54<13:50, 30.64 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9194/34643 [05:54<18:34, 22.84 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9198/34643 [05:54<19:15, 22.02 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9205/34643 [05:54<14:31, 29.20 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9210/34643 [05:54<13:36, 31.17 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9214/34643 [05:55<17:11, 24.66 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9218/34643 [05:55<20:27, 20.71 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9227/34643 [05:55<13:43, 30.86 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9232/34643 [05:55<14:38, 28.93 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9236/34643 [05:56<20:33, 20.60 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9243/34643 [05:56<16:23, 25.83 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9248/34643 [05:56<15:03, 28.12 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9252/34643 [05:56<20:10, 20.97 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9257/34643 [05:56<17:13, 24.55 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9261/34643 [05:56<15:51, 26.68 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9269/34643 [05:57<11:28, 36.87 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9274/34643 [05:57<21:01, 20.11 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9283/34643 [05:57<14:29, 29.18 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9288/34643 [05:57<14:11, 29.77 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9293/34643 [05:58<22:07, 19.10 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9306/34643 [05:58<12:56, 32.65 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9313/34643 [05:59<19:44, 21.39 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9320/34643 [05:59<16:04, 26.25 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9327/34643 [05:59<13:16, 31.79 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9333/34643 [05:59<19:05, 22.09 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9338/34643 [05:59<16:43, 25.22 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9344/34643 [06:00<13:55, 30.27 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9350/34643 [06:00<14:42, 28.66 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9355/34643 [06:00<18:33, 22.72 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9359/34643 [06:00<16:45, 25.15 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9364/34643 [06:00<14:36, 28.84 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9368/34643 [06:01<15:48, 26.64 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9372/34643 [06:01<17:56, 23.48 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9375/34643 [06:01<18:55, 22.26 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9378/34643 [06:01<19:14, 21.89 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9384/34643 [06:01<14:17, 29.46 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9388/34643 [06:01<13:20, 31.55 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9392/34643 [06:02<16:37, 25.32 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9396/34643 [06:02<19:10, 21.95 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9399/34643 [06:02<19:36, 21.46 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9408/34643 [06:02<12:38, 33.25 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9412/34643 [06:02<14:40, 28.67 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9416/34643 [06:03<22:28, 18.71 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9423/34643 [06:03<16:18, 25.79 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9429/34643 [06:03<13:35, 30.93 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9434/34643 [06:03<12:19, 34.09 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9439/34643 [06:03<17:16, 24.32 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9443/34643 [06:04<18:25, 22.79 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9450/34643 [06:04<14:14, 29.47 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9454/34643 [06:04<13:38, 30.77 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9458/34643 [06:04<14:39, 28.63 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9462/34643 [06:04<16:37, 25.24 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9465/34643 [06:04<17:19, 24.22 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9469/34643 [06:04<15:25, 27.20 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9473/34643 [06:05<14:56, 28.08 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9477/34643 [06:05<14:08, 29.66 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9481/34643 [06:05<21:12, 19.77 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9484/34643 [06:05<19:32, 21.46 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9490/34643 [06:05<15:33, 26.95 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9496/34643 [06:05<13:37, 30.77 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9500/34643 [06:06<13:40, 30.66 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9504/34643 [06:06<16:18, 25.68 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9507/34643 [06:06<16:25, 25.51 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9510/34643 [06:06<17:18, 24.20 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9513/34643 [06:06<17:01, 24.60 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9519/34643 [06:06<12:49, 32.63 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 9524/34643 [06:06<12:41, 33.00 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9528/34643 [06:07<15:24, 27.18 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9532/34643 [06:07<15:44, 26.58 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9535/34643 [06:07<17:36, 23.76 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9539/34643 [06:07<15:42, 26.62 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9545/34643 [06:07<13:53, 30.11 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9549/34643 [06:07<15:23, 27.17 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9552/34643 [06:08<15:52, 26.35 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9556/34643 [06:08<14:56, 28.00 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9559/34643 [06:08<18:37, 22.44 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9567/34643 [06:08<14:29, 28.85 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9572/34643 [06:08<15:50, 26.37 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9575/34643 [06:08<17:52, 23.36 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9578/34643 [06:09<17:27, 23.94 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9583/34643 [06:09<14:22, 29.06 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9589/34643 [06:09<12:25, 33.59 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9593/34643 [06:09<14:12, 29.37 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9597/34643 [06:09<17:51, 23.37 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9601/34643 [06:09<17:32, 23.79 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9607/34643 [06:10<13:57, 29.89 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9613/34643 [06:10<12:40, 32.90 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9617/34643 [06:10<15:52, 26.27 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9621/34643 [06:10<16:32, 25.22 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9624/34643 [06:10<16:10, 25.79 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9627/34643 [06:10<19:02, 21.91 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9634/34643 [06:11<14:25, 28.88 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9638/34643 [06:11<15:14, 27.34 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9641/34643 [06:11<15:23, 27.08 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9646/34643 [06:11<15:42, 26.52 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9652/34643 [06:11<13:47, 30.21 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9656/34643 [06:11<13:14, 31.46 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9660/34643 [06:12<15:54, 26.17 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9663/34643 [06:12<22:22, 18.61 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9670/34643 [06:12<15:25, 26.97 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9678/34643 [06:12<11:20, 36.66 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9683/34643 [06:13<22:26, 18.54 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9694/34643 [06:13<13:58, 29.77 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9702/34643 [06:13<14:33, 28.55 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9707/34643 [06:13<17:58, 23.11 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9712/34643 [06:14<15:42, 26.44 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9721/34643 [06:14<12:29, 33.27 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9726/34643 [06:14<17:25, 23.83 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9730/34643 [06:14<16:23, 25.33 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9736/34643 [06:14<14:07, 29.39 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9740/34643 [06:15<13:55, 29.80 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9744/34643 [06:15<18:57, 21.88 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9749/34643 [06:15<16:12, 25.59 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9753/34643 [06:15<15:01, 27.60 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9758/34643 [06:15<14:29, 28.62 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9762/34643 [06:15<15:31, 26.70 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9765/34643 [06:16<20:39, 20.07 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9770/34643 [06:16<18:33, 22.33 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9776/34643 [06:16<14:21, 28.85 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9780/34643 [06:16<13:38, 30.38 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9784/34643 [06:16<15:27, 26.81 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9788/34643 [06:16<16:20, 25.35 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9791/34643 [06:17<17:35, 23.54 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9796/34643 [06:17<14:43, 28.12 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9800/34643 [06:17<14:53, 27.82 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9803/34643 [06:17<16:51, 24.56 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9807/34643 [06:17<15:09, 27.31 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9810/34643 [06:17<22:17, 18.56 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9816/34643 [06:18<15:53, 26.04 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9820/34643 [06:18<15:43, 26.30 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9826/34643 [06:18<12:23, 33.36 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9831/34643 [06:18<14:10, 29.17 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9835/34643 [06:18<19:11, 21.55 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9843/34643 [06:18<13:18, 31.07 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9848/34643 [06:19<11:58, 34.53 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9853/34643 [06:19<20:30, 20.15 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9861/34643 [06:19<14:28, 28.54 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9868/34643 [06:19<12:15, 33.67 examples/s]preprocess datasets (num_proc=22):  28%|██▊       | 9873/34643 [06:20<19:21, 21.32 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9877/34643 [06:20<17:44, 23.25 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9882/34643 [06:20<15:02, 27.42 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9887/34643 [06:20<15:05, 27.34 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9891/34643 [06:20<18:29, 22.30 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9897/34643 [06:21<16:38, 24.77 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9906/34643 [06:21<11:34, 35.61 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9911/34643 [06:21<17:59, 22.92 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9917/34643 [06:21<14:37, 28.18 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9926/34643 [06:21<11:20, 36.33 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9932/34643 [06:22<20:34, 20.02 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9945/34643 [06:22<12:42, 32.38 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9952/34643 [06:23<20:03, 20.52 examples/s]preprocess datasets (num_proc=22):  29%|██▊       | 9959/34643 [06:23<16:19, 25.19 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 9968/34643 [06:23<12:44, 32.28 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 9974/34643 [06:24<18:52, 21.78 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 9985/34643 [06:24<13:26, 30.58 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 9991/34643 [06:24<13:55, 29.49 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 9996/34643 [06:25<19:21, 21.21 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10002/34643 [06:25<15:59, 25.69 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10007/34643 [06:25<15:07, 27.16 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10012/34643 [06:25<19:07, 21.46 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10016/34643 [06:25<17:58, 22.84 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10022/34643 [06:25<14:36, 28.08 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10027/34643 [06:26<13:06, 31.30 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10031/34643 [06:26<14:39, 27.99 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10035/34643 [06:26<18:07, 22.62 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10041/34643 [06:26<14:11, 28.91 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10045/34643 [06:26<15:33, 26.34 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10049/34643 [06:26<14:52, 27.55 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10053/34643 [06:27<15:30, 26.41 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10056/34643 [06:27<16:08, 25.40 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10060/34643 [06:27<15:28, 26.48 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10063/34643 [06:27<22:27, 18.24 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10073/34643 [06:27<12:41, 32.25 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10078/34643 [06:28<14:37, 27.98 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10082/34643 [06:28<17:59, 22.74 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10086/34643 [06:28<16:58, 24.10 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10093/34643 [06:28<12:58, 31.54 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10097/34643 [06:28<13:11, 31.00 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10101/34643 [06:29<18:24, 22.22 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10104/34643 [06:29<18:20, 22.31 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10107/34643 [06:29<17:28, 23.41 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10110/34643 [06:29<16:30, 24.77 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10114/34643 [06:29<14:55, 27.39 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10118/34643 [06:29<14:20, 28.50 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10122/34643 [06:29<14:53, 27.43 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10125/34643 [06:29<17:47, 22.96 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10128/34643 [06:30<19:29, 20.97 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10133/34643 [06:30<15:30, 26.35 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10137/34643 [06:30<14:34, 28.03 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10141/34643 [06:30<17:02, 23.96 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10145/34643 [06:30<15:34, 26.21 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10148/34643 [06:30<16:48, 24.30 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10155/34643 [06:30<12:11, 33.48 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10159/34643 [06:31<16:29, 24.74 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10163/34643 [06:31<17:20, 23.52 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10168/34643 [06:31<14:21, 28.41 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10173/34643 [06:31<12:55, 31.54 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10177/34643 [06:31<17:46, 22.94 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10180/34643 [06:32<18:24, 22.15 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10183/34643 [06:32<17:15, 23.61 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10189/34643 [06:32<13:24, 30.39 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10194/34643 [06:32<12:04, 33.76 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10198/34643 [06:32<19:01, 21.42 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10202/34643 [06:32<16:46, 24.27 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10207/34643 [06:33<14:04, 28.92 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10214/34643 [06:33<12:38, 32.22 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 10218/34643 [06:33<15:11, 26.81 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10222/34643 [06:33<18:18, 22.23 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10228/34643 [06:33<14:11, 28.69 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10233/34643 [06:33<12:28, 32.62 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10237/34643 [06:34<14:44, 27.60 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10241/34643 [06:34<21:15, 19.13 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10247/34643 [06:34<15:59, 25.43 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10254/34643 [06:34<12:13, 33.24 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10259/34643 [06:34<11:46, 34.49 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10264/34643 [06:35<18:04, 22.49 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10270/34643 [06:35<14:30, 27.98 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10275/34643 [06:35<12:44, 31.86 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10280/34643 [06:35<16:39, 24.38 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10284/34643 [06:35<17:13, 23.57 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10289/34643 [06:36<14:35, 27.81 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10294/34643 [06:36<13:13, 30.69 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10298/34643 [06:36<15:37, 25.96 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10302/34643 [06:36<14:50, 27.32 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10306/34643 [06:36<15:33, 26.07 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10309/34643 [06:36<17:27, 23.24 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10313/34643 [06:37<15:52, 25.54 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10317/34643 [06:37<14:42, 27.55 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10322/34643 [06:37<12:33, 32.28 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10326/34643 [06:37<14:23, 28.16 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10330/34643 [06:37<18:13, 22.23 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10336/34643 [06:37<14:26, 28.05 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10340/34643 [06:37<13:18, 30.45 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10346/34643 [06:38<11:12, 36.13 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10351/34643 [06:38<19:52, 20.37 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10358/34643 [06:38<15:04, 26.86 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10365/34643 [06:38<12:18, 32.87 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10370/34643 [06:39<14:09, 28.57 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10374/34643 [06:39<18:10, 22.25 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10377/34643 [06:39<17:25, 23.22 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10384/34643 [06:39<12:54, 31.31 examples/s]preprocess datasets (num_proc=22):  30%|██▉       | 10389/34643 [06:39<16:27, 24.55 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10393/34643 [06:40<16:41, 24.22 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10397/34643 [06:40<15:23, 26.26 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10401/34643 [06:40<14:42, 27.48 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10407/34643 [06:40<13:38, 29.60 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10411/34643 [06:40<16:05, 25.10 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10414/34643 [06:40<17:51, 22.61 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10419/34643 [06:40<14:31, 27.80 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10424/34643 [06:41<13:06, 30.81 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10429/34643 [06:41<15:04, 26.78 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10433/34643 [06:41<16:30, 24.44 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10437/34643 [06:41<15:19, 26.32 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10444/34643 [06:41<12:25, 32.47 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10448/34643 [06:42<17:35, 22.92 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10451/34643 [06:42<18:42, 21.56 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10456/34643 [06:42<16:38, 24.22 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10460/34643 [06:42<15:13, 26.47 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10463/34643 [06:42<15:10, 26.56 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10466/34643 [06:42<15:36, 25.81 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10469/34643 [06:42<15:08, 26.62 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10473/34643 [06:43<15:08, 26.60 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10476/34643 [06:43<15:07, 26.63 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10480/34643 [06:43<13:58, 28.82 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10483/34643 [06:43<17:37, 22.84 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10486/34643 [06:43<20:26, 19.69 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10489/34643 [06:43<19:04, 21.11 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10495/34643 [06:43<14:24, 27.94 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10500/34643 [06:44<12:52, 31.25 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10504/34643 [06:44<16:00, 25.12 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10507/34643 [06:44<16:12, 24.83 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10510/34643 [06:44<16:43, 24.05 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10515/34643 [06:44<13:50, 29.07 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10519/34643 [06:44<14:19, 28.06 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10522/34643 [06:45<18:21, 21.90 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10525/34643 [06:45<17:51, 22.51 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10528/34643 [06:45<16:57, 23.71 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10532/34643 [06:45<16:19, 24.61 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10537/34643 [06:45<13:15, 30.31 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10541/34643 [06:45<13:58, 28.75 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10545/34643 [06:45<15:33, 25.81 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10549/34643 [06:46<15:13, 26.36 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10553/34643 [06:46<14:23, 27.90 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10556/34643 [06:46<14:16, 28.12 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10559/34643 [06:46<17:38, 22.76 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10563/34643 [06:46<15:39, 25.63 examples/s]preprocess datasets (num_proc=22):  30%|███       | 10566/34643 [06:46<17:35, 22.81 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10572/34643 [06:46<15:34, 25.77 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10575/34643 [06:47<15:21, 26.12 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10579/34643 [06:47<13:52, 28.89 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10584/34643 [06:47<12:53, 31.11 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10588/34643 [06:47<13:22, 29.96 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10592/34643 [06:47<16:15, 24.66 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10595/34643 [06:47<19:28, 20.59 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10600/34643 [06:48<16:04, 24.92 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10603/34643 [06:48<16:36, 24.14 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10610/34643 [06:48<12:34, 31.85 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10614/34643 [06:48<15:17, 26.20 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10618/34643 [06:48<16:12, 24.71 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10624/34643 [06:48<13:07, 30.50 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10628/34643 [06:48<13:51, 28.87 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10632/34643 [06:49<13:14, 30.23 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10636/34643 [06:49<15:34, 25.69 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10639/34643 [06:49<15:40, 25.53 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10642/34643 [06:49<16:17, 24.55 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10648/34643 [06:49<13:56, 28.69 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10651/34643 [06:49<14:03, 28.45 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10654/34643 [06:50<16:37, 24.04 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10661/34643 [06:50<14:14, 28.07 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10666/34643 [06:50<14:25, 27.70 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10669/34643 [06:50<15:32, 25.70 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10672/34643 [06:50<17:22, 22.98 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10675/34643 [06:50<16:26, 24.29 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10682/34643 [06:50<11:48, 33.81 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10686/34643 [06:51<11:31, 34.64 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10690/34643 [06:51<21:13, 18.81 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10695/34643 [06:51<17:01, 23.43 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10704/34643 [06:51<11:16, 35.36 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10709/34643 [06:52<18:12, 21.91 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10715/34643 [06:52<15:28, 25.76 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10721/34643 [06:52<12:49, 31.08 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10726/34643 [06:52<13:42, 29.08 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10730/34643 [06:53<18:46, 21.23 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10740/34643 [06:53<12:23, 32.15 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10745/34643 [06:53<13:38, 29.19 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10749/34643 [06:53<17:42, 22.48 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10753/34643 [06:53<16:48, 23.68 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10757/34643 [06:53<16:10, 24.61 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10763/34643 [06:54<12:49, 31.04 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10767/34643 [06:54<13:35, 29.28 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10771/34643 [06:54<16:37, 23.92 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10774/34643 [06:54<17:34, 22.63 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10777/34643 [06:54<16:58, 23.43 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10783/34643 [06:54<14:55, 26.65 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10786/34643 [06:55<16:00, 24.84 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10790/34643 [06:55<16:18, 24.37 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10794/34643 [06:55<14:52, 26.73 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10798/34643 [06:55<14:17, 27.81 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10803/34643 [06:55<12:13, 32.50 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10807/34643 [06:55<17:42, 22.42 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10811/34643 [06:56<17:16, 22.99 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10817/34643 [06:56<13:23, 29.66 examples/s]preprocess datasets (num_proc=22):  31%|███       | 10822/34643 [06:56<13:05, 30.34 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10826/34643 [06:56<14:55, 26.61 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10830/34643 [06:56<15:01, 26.42 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10833/34643 [06:56<15:11, 26.13 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10839/34643 [06:56<13:54, 28.53 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10842/34643 [06:57<15:19, 25.88 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10846/34643 [06:57<15:42, 25.24 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10849/34643 [06:57<16:25, 24.14 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10852/34643 [06:57<16:33, 23.95 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10857/34643 [06:57<13:39, 29.03 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10861/34643 [06:57<14:23, 27.54 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10866/34643 [06:58<15:49, 25.03 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10869/34643 [06:58<15:42, 25.22 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10873/34643 [06:58<14:13, 27.86 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10876/34643 [06:58<14:50, 26.70 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10879/34643 [06:58<16:03, 24.67 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10882/34643 [06:58<18:22, 21.55 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10888/34643 [06:58<13:30, 29.31 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10892/34643 [06:59<12:54, 30.67 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10896/34643 [06:59<15:11, 26.06 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10899/34643 [06:59<15:32, 25.47 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10903/34643 [06:59<14:37, 27.05 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10906/34643 [06:59<16:43, 23.66 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10909/34643 [06:59<16:27, 24.03 examples/s]preprocess datasets (num_proc=22):  31%|███▏      | 10912/34643 [06:59<17:40, 22.37 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10916/34643 [07:00<15:44, 25.13 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10921/34643 [07:00<13:21, 29.61 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10925/34643 [07:00<17:50, 22.15 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10929/34643 [07:00<18:38, 21.19 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10933/34643 [07:00<17:00, 23.24 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10940/34643 [07:00<13:31, 29.20 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10944/34643 [07:01<14:16, 27.68 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10947/34643 [07:01<16:08, 24.47 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10950/34643 [07:01<18:25, 21.43 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10957/34643 [07:01<13:40, 28.87 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10963/34643 [07:01<11:51, 33.30 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10967/34643 [07:02<19:20, 20.41 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10971/34643 [07:02<17:02, 23.14 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10977/34643 [07:02<13:38, 28.93 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10985/34643 [07:02<10:15, 38.46 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10990/34643 [07:03<18:06, 21.77 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 10995/34643 [07:03<15:48, 24.93 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11005/34643 [07:03<10:59, 35.83 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11011/34643 [07:03<16:58, 23.20 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11016/34643 [07:03<15:07, 26.05 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11021/34643 [07:04<13:57, 28.19 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11027/34643 [07:04<11:41, 33.69 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11032/34643 [07:04<18:05, 21.74 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11036/34643 [07:04<16:25, 23.96 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11042/34643 [07:04<13:23, 29.38 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11047/34643 [07:04<13:09, 29.87 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11051/34643 [07:05<20:44, 18.96 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11054/34643 [07:05<19:28, 20.18 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11064/34643 [07:05<12:07, 32.42 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11069/34643 [07:05<11:12, 35.05 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11074/34643 [07:06<18:43, 20.98 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11084/34643 [07:06<12:35, 31.18 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11089/34643 [07:06<14:23, 27.28 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11094/34643 [07:06<17:32, 22.38 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11098/34643 [07:07<18:02, 21.75 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11103/34643 [07:07<15:17, 25.66 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11109/34643 [07:07<12:42, 30.87 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11113/34643 [07:07<14:04, 27.87 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11117/34643 [07:07<18:25, 21.29 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11123/34643 [07:08<14:52, 26.35 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11128/34643 [07:08<14:58, 26.17 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11132/34643 [07:08<13:56, 28.12 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11136/34643 [07:08<15:49, 24.76 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11140/34643 [07:08<15:20, 25.54 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11144/34643 [07:08<14:07, 27.72 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11149/34643 [07:08<13:09, 29.75 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11153/34643 [07:09<17:05, 22.91 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11158/34643 [07:09<14:20, 27.29 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11162/34643 [07:09<14:09, 27.64 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11166/34643 [07:09<13:48, 28.34 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11171/34643 [07:09<15:33, 25.13 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11174/34643 [07:10<17:05, 22.88 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11178/34643 [07:10<15:15, 25.62 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11184/34643 [07:10<12:09, 32.17 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11189/34643 [07:10<14:32, 26.88 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11193/34643 [07:10<16:30, 23.67 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11197/34643 [07:10<14:55, 26.19 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11202/34643 [07:10<12:43, 30.69 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11207/34643 [07:11<12:32, 31.12 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11211/34643 [07:11<17:55, 21.78 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11215/34643 [07:11<17:08, 22.79 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11221/34643 [07:11<13:38, 28.62 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11226/34643 [07:11<12:07, 32.19 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11230/34643 [07:12<19:44, 19.77 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11235/34643 [07:12<16:46, 23.25 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11239/34643 [07:12<15:14, 25.61 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11243/34643 [07:12<15:09, 25.73 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11247/34643 [07:12<14:13, 27.42 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11251/34643 [07:12<16:42, 23.33 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 11258/34643 [07:13<15:57, 24.43 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11263/34643 [07:13<17:48, 21.89 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11271/34643 [07:13<12:41, 30.67 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11275/34643 [07:13<13:31, 28.79 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11279/34643 [07:14<19:02, 20.45 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11284/34643 [07:14<16:33, 23.50 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11294/34643 [07:14<10:45, 36.18 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11299/34643 [07:14<17:27, 22.29 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11303/34643 [07:15<17:17, 22.50 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11310/34643 [07:15<13:15, 29.33 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11317/34643 [07:15<11:09, 34.85 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11322/34643 [07:15<18:59, 20.46 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11328/34643 [07:15<15:46, 24.63 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11337/34643 [07:16<12:15, 31.67 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11342/34643 [07:16<18:03, 21.51 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11346/34643 [07:16<16:44, 23.19 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11352/34643 [07:16<13:50, 28.05 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11359/34643 [07:16<11:04, 35.05 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11364/34643 [07:17<14:57, 25.95 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11368/34643 [07:17<16:30, 23.50 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11372/34643 [07:17<14:55, 25.99 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11377/34643 [07:17<13:23, 28.96 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11381/34643 [07:17<15:00, 25.84 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11385/34643 [07:18<13:42, 28.29 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11389/34643 [07:18<15:29, 25.01 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11392/34643 [07:18<18:00, 21.53 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11396/34643 [07:18<15:39, 24.76 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11401/34643 [07:18<13:13, 29.27 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11405/34643 [07:18<14:36, 26.50 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11408/34643 [07:19<17:25, 22.23 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11411/34643 [07:19<17:42, 21.87 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11414/34643 [07:19<17:48, 21.73 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11422/34643 [07:19<11:29, 33.68 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11426/34643 [07:19<14:40, 26.37 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11430/34643 [07:19<17:38, 21.92 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11434/34643 [07:20<15:24, 25.10 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11442/34643 [07:20<11:28, 33.70 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11446/34643 [07:20<17:25, 22.18 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11450/34643 [07:20<17:15, 22.40 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11454/34643 [07:20<15:18, 25.23 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11460/34643 [07:20<12:25, 31.10 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11464/34643 [07:21<15:26, 25.03 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11468/34643 [07:21<19:41, 19.61 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11472/34643 [07:21<17:14, 22.40 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11479/34643 [07:21<12:37, 30.56 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11483/34643 [07:21<14:10, 27.24 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11487/34643 [07:22<17:15, 22.37 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11490/34643 [07:22<19:20, 19.96 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11496/34643 [07:22<14:33, 26.50 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11503/34643 [07:22<11:55, 32.34 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11507/34643 [07:22<13:33, 28.46 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11511/34643 [07:23<16:24, 23.49 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11515/34643 [07:23<17:16, 22.31 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11520/34643 [07:23<15:26, 24.97 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11524/34643 [07:23<14:00, 27.51 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11529/34643 [07:23<12:45, 30.18 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11533/34643 [07:23<13:35, 28.35 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11537/34643 [07:24<18:39, 20.63 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11540/34643 [07:24<17:57, 21.44 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11551/34643 [07:24<10:31, 36.58 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11556/34643 [07:24<14:46, 26.05 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11560/34643 [07:25<17:23, 22.12 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11570/34643 [07:25<11:20, 33.91 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11575/34643 [07:25<16:32, 23.25 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11579/34643 [07:25<16:40, 23.04 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11585/34643 [07:25<13:48, 27.82 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11590/34643 [07:26<12:08, 31.65 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11595/34643 [07:26<14:28, 26.53 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11599/34643 [07:26<18:39, 20.58 examples/s]preprocess datasets (num_proc=22):  33%|███▎      | 11603/34643 [07:26<16:36, 23.12 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11611/34643 [07:26<12:15, 31.33 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11616/34643 [07:27<12:38, 30.36 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11620/34643 [07:27<18:22, 20.89 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11626/34643 [07:27<14:18, 26.80 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11634/34643 [07:27<11:32, 33.21 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11639/34643 [07:27<14:36, 26.26 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11643/34643 [07:28<14:50, 25.82 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11649/34643 [07:28<12:44, 30.08 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11654/34643 [07:28<11:23, 33.63 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11658/34643 [07:28<20:21, 18.81 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11670/34643 [07:28<11:43, 32.66 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11676/34643 [07:29<15:43, 24.35 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11681/34643 [07:29<16:09, 23.68 examples/s]preprocess datasets (num_proc=22):  34%|███▎      | 11692/34643 [07:29<10:52, 35.19 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11698/34643 [07:30<17:14, 22.18 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11705/34643 [07:30<13:47, 27.71 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11714/34643 [07:30<10:30, 36.34 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11721/34643 [07:31<15:50, 24.12 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11729/34643 [07:31<12:21, 30.90 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11735/34643 [07:31<17:05, 22.34 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11740/34643 [07:31<16:07, 23.68 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11747/34643 [07:31<12:58, 29.40 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11752/34643 [07:32<14:39, 26.01 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11756/34643 [07:32<14:29, 26.31 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11760/34643 [07:32<15:48, 24.13 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11763/34643 [07:32<16:33, 23.03 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11767/34643 [07:32<16:08, 23.61 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11770/34643 [07:32<16:15, 23.44 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11774/34643 [07:33<14:29, 26.30 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11781/34643 [07:33<10:38, 35.82 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11786/34643 [07:33<12:23, 30.76 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11790/34643 [07:33<18:05, 21.04 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11794/34643 [07:33<15:52, 23.98 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11800/34643 [07:34<13:52, 27.45 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11804/34643 [07:34<13:41, 27.81 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11808/34643 [07:34<12:47, 29.74 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11812/34643 [07:34<17:49, 21.34 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11819/34643 [07:34<12:54, 29.48 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11823/34643 [07:34<15:01, 25.31 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11827/34643 [07:35<14:51, 25.60 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11831/34643 [07:35<17:16, 22.02 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11835/34643 [07:35<15:35, 24.39 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11840/34643 [07:35<13:17, 28.61 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11844/34643 [07:35<13:51, 27.41 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11849/34643 [07:35<14:59, 25.34 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11852/34643 [07:36<15:36, 24.35 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11855/34643 [07:36<15:01, 25.29 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11858/34643 [07:36<15:19, 24.79 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11863/34643 [07:36<15:12, 24.95 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11866/34643 [07:36<15:00, 25.29 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11871/34643 [07:36<12:20, 30.74 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11875/34643 [07:36<14:34, 26.03 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11879/34643 [07:37<16:19, 23.23 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11882/34643 [07:37<17:08, 22.12 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11889/34643 [07:37<12:47, 29.64 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11894/34643 [07:37<11:40, 32.46 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11899/34643 [07:37<17:00, 22.29 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11902/34643 [07:38<19:16, 19.67 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11913/34643 [07:38<11:16, 33.60 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11918/34643 [07:38<14:05, 26.86 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11922/34643 [07:38<17:29, 21.66 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11930/34643 [07:39<12:42, 29.79 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11935/34643 [07:39<11:49, 32.02 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11940/34643 [07:39<19:12, 19.71 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 11948/34643 [07:39<13:44, 27.52 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11954/34643 [07:39<11:36, 32.57 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11959/34643 [07:40<15:07, 24.99 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11963/34643 [07:40<16:49, 22.46 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11971/34643 [07:40<12:26, 30.38 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11976/34643 [07:40<14:49, 25.48 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11980/34643 [07:41<19:25, 19.45 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11990/34643 [07:41<12:34, 30.01 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 11995/34643 [07:41<12:37, 29.89 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12000/34643 [07:41<18:15, 20.66 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12004/34643 [07:42<17:29, 21.56 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12015/34643 [07:42<11:05, 33.98 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12020/34643 [07:42<16:25, 22.95 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12024/34643 [07:42<17:15, 21.85 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12034/34643 [07:43<11:27, 32.91 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12040/34643 [07:43<11:46, 31.97 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12045/34643 [07:43<18:36, 20.24 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12052/34643 [07:43<14:27, 26.04 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12057/34643 [07:43<12:46, 29.45 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12062/34643 [07:44<15:10, 24.79 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12066/34643 [07:44<17:39, 21.31 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12072/34643 [07:44<14:08, 26.60 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12077/34643 [07:44<13:07, 28.66 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12081/34643 [07:44<13:50, 27.15 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12085/34643 [07:45<15:54, 23.64 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12088/34643 [07:45<16:35, 22.65 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12093/34643 [07:45<13:42, 27.41 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12099/34643 [07:45<16:07, 23.29 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12102/34643 [07:45<16:38, 22.58 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12107/34643 [07:46<14:21, 26.17 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12111/34643 [07:46<13:05, 28.69 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12116/34643 [07:46<11:20, 33.08 examples/s]preprocess datasets (num_proc=22):  35%|███▍      | 12120/34643 [07:46<21:22, 17.56 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12129/34643 [07:46<13:26, 27.93 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12138/34643 [07:47<10:43, 34.98 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12143/34643 [07:47<17:58, 20.86 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12152/34643 [07:47<13:04, 28.69 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12160/34643 [07:48<17:47, 21.05 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12166/34643 [07:48<15:03, 24.88 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12176/34643 [07:48<10:47, 34.71 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12182/34643 [07:49<17:03, 21.94 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12187/34643 [07:49<16:05, 23.25 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12200/34643 [07:49<10:21, 36.09 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12206/34643 [07:49<16:37, 22.49 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12214/34643 [07:50<13:04, 28.58 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12222/34643 [07:50<10:47, 34.61 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12228/34643 [07:50<16:49, 22.20 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12234/34643 [07:50<14:31, 25.70 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12240/34643 [07:51<12:24, 30.08 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12245/34643 [07:51<15:38, 23.87 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12249/34643 [07:51<17:01, 21.92 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12253/34643 [07:51<15:22, 24.27 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12262/34643 [07:51<10:37, 35.11 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12267/34643 [07:52<16:11, 23.04 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12271/34643 [07:52<16:36, 22.45 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12277/34643 [07:52<13:22, 27.86 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12281/34643 [07:52<13:49, 26.95 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12285/34643 [07:52<16:25, 22.68 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12288/34643 [07:53<16:10, 23.04 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12293/34643 [07:53<13:20, 27.94 examples/s]preprocess datasets (num_proc=22):  35%|███▌      | 12297/34643 [07:53<13:33, 27.46 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12301/34643 [07:53<16:54, 22.03 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12306/34643 [07:53<14:43, 25.29 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12309/34643 [07:53<15:06, 24.63 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12313/34643 [07:53<13:34, 27.42 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12317/34643 [07:54<15:31, 23.96 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12320/34643 [07:54<15:14, 24.42 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12324/34643 [07:54<14:15, 26.10 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12327/34643 [07:54<14:27, 25.73 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12330/34643 [07:54<14:18, 26.00 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12333/34643 [07:54<15:57, 23.30 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12336/34643 [07:54<15:57, 23.29 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12342/34643 [07:55<11:54, 31.22 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12346/34643 [07:55<19:45, 18.80 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12353/34643 [07:55<13:58, 26.60 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12361/34643 [07:55<11:06, 33.42 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12366/34643 [07:56<18:13, 20.38 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12375/34643 [07:56<12:39, 29.31 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12380/34643 [07:56<15:56, 23.26 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12384/34643 [07:56<14:46, 25.10 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12388/34643 [07:57<16:32, 22.42 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12394/34643 [07:57<13:25, 27.62 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12398/34643 [07:57<12:33, 29.54 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12402/34643 [07:57<14:10, 26.16 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12406/34643 [07:57<15:02, 24.63 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12409/34643 [07:57<14:30, 25.53 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12415/34643 [07:57<12:55, 28.65 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12419/34643 [07:58<15:54, 23.29 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12422/34643 [07:58<18:03, 20.51 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12425/34643 [07:58<18:16, 20.26 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12434/34643 [07:58<11:56, 30.98 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12439/34643 [07:59<14:29, 25.53 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12442/34643 [07:59<15:40, 23.61 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12445/34643 [07:59<17:32, 21.09 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12456/34643 [07:59<10:00, 36.95 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12461/34643 [08:00<17:21, 21.30 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12467/34643 [08:00<14:03, 26.29 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12472/34643 [08:00<12:35, 29.33 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12477/34643 [08:00<11:21, 32.51 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12482/34643 [08:00<16:54, 21.85 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12486/34643 [08:00<16:43, 22.09 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12494/34643 [08:01<12:06, 30.48 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12499/34643 [08:01<13:32, 27.26 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12503/34643 [08:01<17:12, 21.45 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12508/34643 [08:01<14:27, 25.50 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12513/34643 [08:01<13:19, 27.69 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12517/34643 [08:02<14:04, 26.19 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12521/34643 [08:02<13:45, 26.81 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12525/34643 [08:02<16:32, 22.28 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12528/34643 [08:02<17:46, 20.74 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12531/34643 [08:02<18:09, 20.30 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12536/34643 [08:02<14:11, 25.97 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12541/34643 [08:03<12:45, 28.87 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12545/34643 [08:03<14:20, 25.69 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12548/34643 [08:03<14:29, 25.41 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12551/34643 [08:03<18:20, 20.07 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 12554/34643 [08:03<17:00, 21.65 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12559/34643 [08:03<13:33, 27.15 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12563/34643 [08:04<15:50, 23.24 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12566/34643 [08:04<17:16, 21.31 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12569/34643 [08:04<19:46, 18.61 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12576/34643 [08:04<13:01, 28.23 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12580/34643 [08:04<13:10, 27.90 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12584/34643 [08:04<14:57, 24.59 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12587/34643 [08:04<14:19, 25.66 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12590/34643 [08:05<15:24, 23.86 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12594/34643 [08:05<13:37, 26.96 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12597/34643 [08:05<13:46, 26.66 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12601/34643 [08:05<12:30, 29.38 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12605/34643 [08:05<16:33, 22.19 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12608/34643 [08:05<16:14, 22.61 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12613/34643 [08:06<14:39, 25.04 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12618/34643 [08:06<12:28, 29.44 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12624/34643 [08:06<11:24, 32.17 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12628/34643 [08:06<14:52, 24.68 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12632/34643 [08:06<16:43, 21.93 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12638/34643 [08:06<13:09, 27.88 examples/s]preprocess datasets (num_proc=22):  36%|███▋      | 12642/34643 [08:07<15:16, 23.99 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12646/34643 [08:07<14:42, 24.94 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12649/34643 [08:07<16:57, 21.62 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12655/34643 [08:07<13:24, 27.33 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12659/34643 [08:07<12:16, 29.86 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12663/34643 [08:07<12:42, 28.81 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12667/34643 [08:08<14:31, 25.22 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12671/34643 [08:08<13:10, 27.81 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12675/34643 [08:08<12:12, 29.97 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12679/34643 [08:08<12:40, 28.89 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12683/34643 [08:08<18:18, 19.99 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12687/34643 [08:08<17:30, 20.89 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12692/34643 [08:09<14:04, 25.99 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12698/34643 [08:09<11:18, 32.35 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12702/34643 [08:09<16:50, 21.71 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12707/34643 [08:09<13:54, 26.28 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12714/34643 [08:09<10:45, 34.00 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12719/34643 [08:10<17:53, 20.42 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12723/34643 [08:10<15:57, 22.90 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12727/34643 [08:10<14:59, 24.36 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12732/34643 [08:10<12:57, 28.17 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12736/34643 [08:10<16:26, 22.20 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12739/34643 [08:11<16:34, 22.03 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12745/34643 [08:11<13:19, 27.40 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12749/34643 [08:11<14:47, 24.66 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12753/34643 [08:11<13:33, 26.90 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12757/34643 [08:11<14:30, 25.15 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12760/34643 [08:11<17:06, 21.32 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12764/34643 [08:12<15:59, 22.81 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12770/34643 [08:12<12:02, 30.26 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12774/34643 [08:12<12:41, 28.70 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12778/34643 [08:12<16:14, 22.43 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12781/34643 [08:12<18:06, 20.12 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12791/34643 [08:12<10:58, 33.18 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12796/34643 [08:13<14:10, 25.70 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12800/34643 [08:13<16:46, 21.70 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12808/34643 [08:13<12:06, 30.04 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12813/34643 [08:13<11:13, 32.42 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12818/34643 [08:14<17:14, 21.09 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12822/34643 [08:14<15:33, 23.37 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12833/34643 [08:14<09:44, 37.29 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12839/34643 [08:14<16:55, 21.48 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12848/34643 [08:15<12:15, 29.63 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12854/34643 [08:15<16:15, 22.35 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12859/34643 [08:15<14:52, 24.42 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12864/34643 [08:15<13:14, 27.43 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12869/34643 [08:16<13:25, 27.05 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12873/34643 [08:16<17:22, 20.88 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12876/34643 [08:16<16:31, 21.95 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12885/34643 [08:16<11:06, 32.63 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12890/34643 [08:16<10:05, 35.92 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12895/34643 [08:17<17:34, 20.63 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12906/34643 [08:17<11:18, 32.02 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12912/34643 [08:17<16:15, 22.28 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12916/34643 [08:17<14:56, 24.24 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12925/34643 [08:18<10:38, 34.03 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12931/34643 [08:18<16:17, 22.20 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12936/34643 [08:18<14:26, 25.05 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12947/34643 [08:18<10:14, 35.30 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12953/34643 [08:19<16:33, 21.82 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12959/34643 [08:19<13:52, 26.04 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12970/34643 [08:19<10:59, 32.88 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12975/34643 [08:20<16:53, 21.38 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 12989/34643 [08:20<10:22, 34.76 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 12996/34643 [08:21<16:21, 22.06 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13005/34643 [08:21<12:30, 28.82 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13012/34643 [08:21<16:44, 21.53 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13020/34643 [08:21<13:23, 26.91 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13029/34643 [08:21<10:23, 34.66 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13036/34643 [08:22<16:11, 22.24 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13045/34643 [08:22<12:21, 29.12 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13051/34643 [08:23<16:33, 21.74 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13056/34643 [08:23<15:13, 23.63 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13062/34643 [08:23<12:48, 28.09 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13070/34643 [08:23<12:31, 28.71 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13075/34643 [08:24<15:38, 22.99 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13081/34643 [08:24<13:29, 26.65 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13087/34643 [08:24<12:02, 29.84 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13091/34643 [08:24<15:23, 23.33 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13095/34643 [08:24<16:34, 21.67 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13099/34643 [08:24<14:44, 24.35 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13105/34643 [08:25<12:20, 29.10 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13110/34643 [08:25<12:41, 28.26 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13114/34643 [08:25<14:26, 24.85 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13117/34643 [08:25<14:13, 25.23 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13120/34643 [08:25<14:59, 23.94 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13125/34643 [08:25<14:04, 25.47 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13128/34643 [08:26<16:03, 22.33 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13132/34643 [08:26<13:57, 25.68 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13137/34643 [08:26<12:43, 28.15 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13140/34643 [08:26<13:22, 26.81 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13143/34643 [08:26<16:58, 21.11 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13146/34643 [08:26<16:00, 22.37 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13151/34643 [08:26<12:55, 27.72 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13156/34643 [08:27<11:08, 32.14 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13160/34643 [08:27<15:12, 23.55 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13163/34643 [08:27<17:41, 20.23 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13174/34643 [08:27<09:50, 36.33 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13179/34643 [08:28<16:37, 21.52 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13183/34643 [08:28<15:39, 22.83 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13191/34643 [08:28<11:29, 31.09 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13199/34643 [08:28<09:23, 38.07 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13204/34643 [08:29<17:51, 20.00 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13217/34643 [08:29<10:42, 33.34 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13224/34643 [08:29<14:53, 23.97 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13229/34643 [08:29<13:50, 25.79 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13234/34643 [08:30<12:42, 28.09 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13239/34643 [08:30<14:55, 23.90 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13243/34643 [08:30<13:50, 25.78 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13249/34643 [08:30<11:52, 30.04 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13253/34643 [08:30<14:16, 24.96 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13257/34643 [08:31<17:30, 20.36 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13261/34643 [08:31<16:09, 22.05 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13267/34643 [08:31<12:38, 28.19 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13273/34643 [08:31<10:38, 33.48 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13278/34643 [08:31<16:48, 21.18 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13282/34643 [08:32<16:04, 22.15 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13287/34643 [08:32<13:24, 26.54 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13294/34643 [08:32<13:01, 27.31 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13299/34643 [08:32<12:05, 29.42 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13303/34643 [08:32<14:12, 25.04 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13306/34643 [08:32<14:59, 23.73 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13311/34643 [08:33<13:44, 25.87 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13317/34643 [08:33<11:15, 31.57 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13321/34643 [08:33<15:22, 23.10 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13324/34643 [08:33<16:14, 21.87 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13328/34643 [08:33<14:24, 24.64 examples/s]preprocess datasets (num_proc=22):  38%|███▊      | 13334/34643 [08:33<11:31, 30.84 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13338/34643 [08:34<12:13, 29.04 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13342/34643 [08:34<20:26, 17.37 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13351/34643 [08:34<13:06, 27.06 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13355/34643 [08:34<13:31, 26.25 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13359/34643 [08:35<15:50, 22.39 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13362/34643 [08:35<16:31, 21.47 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13368/34643 [08:35<13:00, 27.27 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13375/34643 [08:35<10:57, 32.36 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13379/34643 [08:36<17:58, 19.71 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13384/34643 [08:36<15:19, 23.13 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13395/34643 [08:36<09:53, 35.79 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13400/34643 [08:36<17:20, 20.41 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13409/34643 [08:36<12:23, 28.57 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13414/34643 [08:37<11:58, 29.56 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13419/34643 [08:37<16:49, 21.02 examples/s]preprocess datasets (num_proc=22):  39%|███▊      | 13423/34643 [08:37<15:58, 22.15 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13430/34643 [08:37<12:08, 29.11 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13435/34643 [08:37<11:05, 31.86 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13440/34643 [08:38<15:15, 23.16 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13444/34643 [08:38<15:16, 23.13 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13448/34643 [08:38<13:42, 25.76 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13458/34643 [08:38<10:44, 32.85 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13462/34643 [08:39<17:32, 20.12 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13470/34643 [08:39<12:43, 27.74 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13478/34643 [08:39<11:13, 31.43 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13483/34643 [08:40<16:02, 21.98 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13489/34643 [08:40<13:07, 26.85 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13495/34643 [08:40<11:08, 31.64 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13500/34643 [08:40<15:10, 23.21 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13504/34643 [08:40<14:41, 23.97 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13510/34643 [08:40<12:22, 28.45 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13517/34643 [08:41<12:03, 29.21 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13521/34643 [08:41<15:28, 22.76 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13526/34643 [08:41<14:00, 25.11 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13530/34643 [08:41<12:57, 27.17 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13538/34643 [08:41<10:04, 34.93 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13542/34643 [08:42<13:34, 25.92 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13547/34643 [08:42<12:22, 28.41 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13551/34643 [08:42<14:08, 24.85 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13554/34643 [08:42<15:12, 23.11 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13557/34643 [08:42<16:07, 21.79 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13560/34643 [08:42<15:19, 22.92 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13565/34643 [08:43<12:56, 27.15 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13570/34643 [08:43<12:34, 27.91 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13573/34643 [08:43<13:04, 26.87 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13576/34643 [08:43<16:18, 21.54 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13579/34643 [08:43<15:27, 22.70 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13583/34643 [08:43<16:09, 21.72 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13589/34643 [08:43<12:15, 28.64 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13593/34643 [08:44<12:23, 28.33 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13597/34643 [08:44<17:08, 20.46 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13600/34643 [08:44<18:48, 18.64 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13611/34643 [08:44<10:32, 33.27 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13616/34643 [08:44<11:21, 30.84 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13620/34643 [08:45<19:15, 18.19 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13629/34643 [08:45<12:47, 27.36 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13636/34643 [08:45<10:26, 33.54 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13642/34643 [08:46<16:58, 20.61 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13652/34643 [08:46<11:50, 29.56 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13658/34643 [08:46<12:19, 28.36 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13663/34643 [08:47<16:46, 20.84 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13673/34643 [08:47<11:33, 30.25 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 13679/34643 [08:47<10:50, 32.23 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13684/34643 [08:47<15:55, 21.93 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13691/34643 [08:47<13:12, 26.43 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13696/34643 [08:48<15:04, 23.17 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13700/34643 [08:48<16:02, 21.77 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13705/34643 [08:48<14:35, 23.92 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13712/34643 [08:48<11:16, 30.93 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13717/34643 [08:49<16:07, 21.64 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13722/34643 [08:49<13:52, 25.12 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13727/34643 [08:49<12:18, 28.30 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13732/34643 [08:49<12:52, 27.08 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13736/34643 [08:49<18:08, 19.21 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13743/34643 [08:50<13:34, 25.66 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13748/34643 [08:50<11:46, 29.58 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13752/34643 [08:50<12:25, 28.01 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13756/34643 [08:50<17:26, 19.95 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13759/34643 [08:50<17:03, 20.41 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13770/34643 [08:51<10:00, 34.76 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13775/34643 [08:51<12:04, 28.81 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13779/34643 [08:51<15:57, 21.79 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13782/34643 [08:51<15:22, 22.61 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13791/34643 [08:51<10:11, 34.11 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13796/34643 [08:52<12:50, 27.05 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13800/34643 [08:52<15:37, 22.23 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13805/34643 [08:52<13:09, 26.38 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13812/34643 [08:52<10:15, 33.82 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13817/34643 [08:53<17:26, 19.91 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13825/34643 [08:53<12:27, 27.87 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13831/34643 [08:53<10:42, 32.41 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13836/34643 [08:53<15:52, 21.85 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13840/34643 [08:53<15:20, 22.61 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13848/34643 [08:54<11:08, 31.11 examples/s]preprocess datasets (num_proc=22):  40%|███▉      | 13854/34643 [08:54<15:09, 22.85 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13858/34643 [08:54<16:37, 20.83 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13866/34643 [08:54<12:04, 28.67 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13871/34643 [08:55<13:03, 26.50 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13875/34643 [08:55<13:23, 25.84 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13879/34643 [08:55<16:24, 21.09 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13884/34643 [08:55<14:11, 24.37 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13890/34643 [08:55<11:24, 30.34 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13895/34643 [08:55<10:46, 32.10 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13899/34643 [08:56<16:38, 20.77 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13904/34643 [08:56<13:53, 24.87 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13910/34643 [08:56<11:05, 31.17 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13915/34643 [08:56<16:19, 21.17 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13919/34643 [08:57<15:23, 22.45 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13926/34643 [08:57<11:23, 30.29 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13931/34643 [08:57<10:19, 33.42 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13936/34643 [08:57<17:33, 19.65 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13941/34643 [08:57<14:51, 23.23 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13950/34643 [08:58<10:38, 32.39 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13955/34643 [08:58<14:26, 23.88 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13959/34643 [08:58<14:36, 23.60 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13963/34643 [08:58<14:25, 23.90 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13969/34643 [08:58<12:17, 28.03 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13974/34643 [08:59<11:37, 29.64 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13978/34643 [08:59<13:43, 25.08 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13981/34643 [08:59<17:27, 19.73 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13984/34643 [08:59<16:30, 20.86 examples/s]preprocess datasets (num_proc=22):  40%|████      | 13994/34643 [08:59<10:09, 33.89 examples/s]preprocess datasets (num_proc=22):  40%|████      | 14001/34643 [09:00<15:34, 22.09 examples/s]preprocess datasets (num_proc=22):  40%|████      | 14007/34643 [09:00<13:04, 26.29 examples/s]preprocess datasets (num_proc=22):  40%|████      | 14012/34643 [09:00<11:39, 29.50 examples/s]preprocess datasets (num_proc=22):  40%|████      | 14018/34643 [09:00<10:12, 33.66 examples/s]preprocess datasets (num_proc=22):  40%|████      | 14023/34643 [09:01<13:34, 25.32 examples/s]preprocess datasets (num_proc=22):  40%|████      | 14027/34643 [09:01<15:19, 22.43 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14034/34643 [09:01<11:40, 29.41 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14040/34643 [09:01<10:05, 34.03 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14045/34643 [09:01<13:18, 25.79 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14049/34643 [09:02<15:11, 22.60 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14058/34643 [09:02<11:39, 29.43 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14062/34643 [09:02<13:14, 25.89 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14065/34643 [09:02<14:44, 23.27 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14068/34643 [09:02<14:45, 23.24 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14075/34643 [09:02<11:49, 28.97 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14079/34643 [09:03<12:46, 26.84 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14082/34643 [09:03<14:13, 24.08 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14085/34643 [09:03<14:19, 23.93 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14090/34643 [09:03<12:32, 27.31 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14097/34643 [09:03<09:54, 34.53 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14101/34643 [09:04<15:26, 22.18 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14104/34643 [09:04<17:50, 19.19 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14112/34643 [09:04<11:49, 28.95 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14118/34643 [09:04<13:45, 24.86 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14122/34643 [09:04<12:34, 27.19 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14126/34643 [09:05<14:15, 23.97 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14130/34643 [09:05<12:55, 26.44 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14136/34643 [09:05<12:18, 27.78 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14140/34643 [09:05<14:56, 22.86 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14144/34643 [09:05<13:38, 25.03 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14147/34643 [09:05<13:34, 25.18 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14153/34643 [09:05<10:35, 32.26 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14157/34643 [09:06<15:33, 21.94 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14161/34643 [09:06<13:45, 24.82 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14168/34643 [09:06<10:41, 31.91 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14173/34643 [09:06<10:54, 31.25 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14177/34643 [09:07<15:07, 22.55 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14180/34643 [09:07<14:31, 23.48 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14183/34643 [09:07<15:16, 22.33 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14189/34643 [09:07<11:37, 29.31 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14195/34643 [09:07<11:01, 30.90 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14199/34643 [09:07<14:40, 23.23 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14202/34643 [09:07<14:03, 24.22 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14205/34643 [09:08<13:57, 24.41 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14216/34643 [09:08<08:21, 40.77 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14221/34643 [09:08<14:07, 24.09 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14225/34643 [09:08<13:41, 24.86 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14229/34643 [09:08<12:44, 26.71 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14234/34643 [09:09<11:04, 30.71 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14238/34643 [09:09<11:18, 30.07 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14242/34643 [09:09<15:08, 22.46 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14246/34643 [09:09<13:33, 25.06 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14250/34643 [09:09<12:35, 26.98 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14254/34643 [09:09<11:43, 28.98 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14259/34643 [09:09<10:14, 33.20 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14263/34643 [09:10<12:28, 27.22 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14267/34643 [09:10<14:56, 22.73 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14273/34643 [09:10<11:44, 28.90 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14277/34643 [09:10<11:30, 29.49 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14281/34643 [09:10<11:20, 29.94 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14285/34643 [09:11<16:22, 20.72 examples/s]preprocess datasets (num_proc=22):  41%|████      | 14288/34643 [09:11<16:07, 21.04 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14298/34643 [09:11<09:37, 35.24 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14303/34643 [09:11<16:51, 20.10 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14309/34643 [09:12<13:43, 24.68 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14318/34643 [09:12<09:48, 34.57 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14324/34643 [09:12<14:40, 23.08 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14329/34643 [09:12<13:10, 25.68 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14333/34643 [09:12<12:52, 26.28 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14338/34643 [09:12<11:43, 28.87 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14342/34643 [09:13<11:02, 30.62 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14346/34643 [09:13<13:58, 24.20 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14350/34643 [09:13<14:34, 23.21 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14355/34643 [09:13<13:25, 25.18 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14360/34643 [09:13<12:21, 27.36 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14364/34643 [09:14<12:17, 27.50 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14368/34643 [09:14<11:45, 28.76 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14372/34643 [09:14<15:32, 21.73 examples/s]preprocess datasets (num_proc=22):  41%|████▏     | 14375/34643 [09:14<14:44, 22.92 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14380/34643 [09:14<12:14, 27.59 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14385/34643 [09:14<10:39, 31.66 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14389/34643 [09:14<10:55, 30.91 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14393/34643 [09:15<12:45, 26.44 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14396/34643 [09:15<15:36, 21.62 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14402/34643 [09:15<11:44, 28.71 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14406/34643 [09:15<10:58, 30.72 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14410/34643 [09:15<11:18, 29.82 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14414/34643 [09:16<15:59, 21.08 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14419/34643 [09:16<15:26, 21.83 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14423/34643 [09:16<14:32, 23.18 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14429/34643 [09:16<11:45, 28.67 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14433/34643 [09:16<11:49, 28.49 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14437/34643 [09:16<12:44, 26.44 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14443/34643 [09:17<13:50, 24.34 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14447/34643 [09:17<14:04, 23.91 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14451/34643 [09:17<13:41, 24.57 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14456/34643 [09:17<12:35, 26.72 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14459/34643 [09:17<12:47, 26.31 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14462/34643 [09:17<13:15, 25.36 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14467/34643 [09:17<11:08, 30.16 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14471/34643 [09:18<12:56, 25.98 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14474/34643 [09:18<13:29, 24.93 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14477/34643 [09:18<13:55, 24.13 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14482/34643 [09:18<11:36, 28.93 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14486/34643 [09:18<14:35, 23.01 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14490/34643 [09:18<12:44, 26.35 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14494/34643 [09:19<14:38, 22.93 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14501/34643 [09:19<10:59, 30.56 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14508/34643 [09:19<14:50, 22.62 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14511/34643 [09:19<15:59, 20.98 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14516/34643 [09:19<13:13, 25.37 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14525/34643 [09:20<09:50, 34.06 examples/s]preprocess datasets (num_proc=22):  42%|███���▏     | 14530/34643 [09:20<15:41, 21.37 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14536/34643 [09:20<12:52, 26.01 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14542/34643 [09:20<10:42, 31.27 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14547/34643 [09:20<10:36, 31.55 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14552/34643 [09:21<17:41, 18.92 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14560/34643 [09:21<12:28, 26.84 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14568/34643 [09:21<11:23, 29.39 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14573/34643 [09:22<14:35, 22.94 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14580/34643 [09:22<11:30, 29.04 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14585/34643 [09:22<14:00, 23.87 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14589/34643 [09:22<14:36, 22.89 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14597/34643 [09:23<11:16, 29.64 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14601/34643 [09:23<11:47, 28.34 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14605/34643 [09:23<11:17, 29.59 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14609/34643 [09:23<14:25, 23.14 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14612/34643 [09:23<15:31, 21.52 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14617/34643 [09:23<12:35, 26.49 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14621/34643 [09:23<11:39, 28.63 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14626/34643 [09:24<12:25, 26.85 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14630/34643 [09:24<13:21, 24.96 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14635/34643 [09:24<13:10, 25.30 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14643/34643 [09:24<09:22, 35.59 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14648/34643 [09:24<12:18, 27.06 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14652/34643 [09:25<15:21, 21.70 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14658/34643 [09:25<12:10, 27.36 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14662/34643 [09:25<11:48, 28.19 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14668/34643 [09:25<11:49, 28.14 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14672/34643 [09:25<13:15, 25.10 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14676/34643 [09:26<12:02, 27.65 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14680/34643 [09:26<14:30, 22.92 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14683/34643 [09:26<14:14, 23.36 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14686/34643 [09:26<13:29, 24.66 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14689/34643 [09:26<13:31, 24.57 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14695/34643 [09:26<10:48, 30.78 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14699/34643 [09:27<14:46, 22.49 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14704/34643 [09:27<14:07, 23.51 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14708/34643 [09:27<13:11, 25.18 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14711/34643 [09:27<13:25, 24.75 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14714/34643 [09:27<14:36, 22.75 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14717/34643 [09:27<14:53, 22.31 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 14720/34643 [09:27<16:39, 19.93 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14726/34643 [09:28<11:53, 27.91 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14730/34643 [09:28<10:50, 30.63 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14734/34643 [09:28<11:39, 28.47 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14738/34643 [09:28<12:46, 25.95 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14741/34643 [09:28<13:06, 25.30 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14744/34643 [09:28<15:54, 20.84 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14747/34643 [09:29<15:19, 21.65 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14750/34643 [09:29<14:15, 23.25 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14758/34643 [09:29<10:45, 30.80 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14762/34643 [09:29<12:45, 25.97 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14765/34643 [09:29<16:37, 19.93 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14772/34643 [09:29<11:37, 28.50 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14780/34643 [09:30<10:19, 32.08 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14784/34643 [09:30<13:54, 23.79 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14787/34643 [09:30<13:54, 23.79 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14793/34643 [09:30<11:12, 29.51 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14797/34643 [09:30<10:58, 30.16 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14801/34643 [09:31<12:56, 25.57 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14804/34643 [09:31<15:20, 21.54 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14808/34643 [09:31<14:53, 22.19 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14816/34643 [09:31<11:14, 29.39 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14820/34643 [09:31<11:33, 28.57 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14823/34643 [09:31<11:32, 28.62 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14826/34643 [09:32<17:03, 19.37 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14833/34643 [09:32<11:48, 27.97 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14839/34643 [09:32<10:59, 30.03 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14843/34643 [09:32<13:30, 24.44 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14846/34643 [09:32<15:22, 21.46 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14850/34643 [09:32<13:26, 24.55 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14855/34643 [09:33<11:34, 28.48 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14859/34643 [09:33<14:36, 22.57 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14863/34643 [09:33<14:09, 23.28 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14867/34643 [09:33<14:06, 23.36 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14872/34643 [09:33<11:52, 27.75 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14876/34643 [09:33<12:45, 25.81 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14879/34643 [09:34<15:56, 20.66 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14884/34643 [09:34<12:37, 26.07 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14888/34643 [09:34<11:43, 28.07 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14893/34643 [09:34<12:10, 27.03 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14897/34643 [09:34<13:19, 24.71 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14900/34643 [09:35<14:31, 22.67 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14906/34643 [09:35<10:59, 29.92 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14915/34643 [09:35<08:13, 40.00 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14920/34643 [09:35<17:07, 19.19 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14933/34643 [09:35<09:53, 33.19 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14940/34643 [09:36<14:26, 22.75 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14945/34643 [09:36<12:45, 25.75 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14953/34643 [09:36<10:31, 31.20 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14958/34643 [09:37<14:40, 22.36 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14963/34643 [09:37<12:51, 25.50 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14973/34643 [09:37<10:14, 32.01 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14978/34643 [09:37<12:45, 25.70 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14982/34643 [09:38<13:09, 24.90 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14986/34643 [09:38<12:05, 27.08 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14990/34643 [09:38<11:12, 29.21 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14995/34643 [09:38<11:23, 28.75 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 14999/34643 [09:38<14:48, 22.11 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15004/34643 [09:38<12:13, 26.76 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15008/34643 [09:38<12:14, 26.75 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15012/34643 [09:39<11:33, 28.29 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15018/34643 [09:39<11:33, 28.30 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15022/34643 [09:39<15:01, 21.76 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15026/34643 [09:39<13:12, 24.74 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15029/34643 [09:39<13:19, 24.53 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15035/34643 [09:40<11:20, 28.82 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15039/34643 [09:40<10:49, 30.16 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15043/34643 [09:40<14:01, 23.30 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15046/34643 [09:40<14:11, 23.03 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15050/34643 [09:40<13:15, 24.64 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15053/34643 [09:40<12:59, 25.14 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15056/34643 [09:40<14:42, 22.18 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15060/34643 [09:41<12:33, 25.99 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15063/34643 [09:41<12:47, 25.50 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 15067/34643 [09:41<11:39, 27.97 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15071/34643 [09:41<10:35, 30.81 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15075/34643 [09:41<15:37, 20.87 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15078/34643 [09:41<15:50, 20.58 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15082/34643 [09:41<13:32, 24.06 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15089/34643 [09:42<10:06, 32.26 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15093/34643 [09:42<13:17, 24.51 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15096/34643 [09:42<12:51, 25.33 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15099/34643 [09:42<13:55, 23.39 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15102/34643 [09:42<13:28, 24.18 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15107/34643 [09:42<11:07, 29.25 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15111/34643 [09:43<10:54, 29.84 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15115/34643 [09:43<14:17, 22.77 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15118/34643 [09:43<17:19, 18.78 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15122/34643 [09:43<14:36, 22.26 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15125/34643 [09:43<13:55, 23.35 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15132/34643 [09:43<10:15, 31.70 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15137/34643 [09:44<09:46, 33.26 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15141/34643 [09:44<16:32, 19.66 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15146/34643 [09:44<13:34, 23.94 examples/s]preprocess datasets (num_proc=22):  44%|████▎     | 15154/34643 [09:44<09:32, 34.07 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15159/34643 [09:44<10:27, 31.06 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15164/34643 [09:45<13:27, 24.11 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15170/34643 [09:45<10:58, 29.56 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15174/34643 [09:45<15:48, 20.53 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15178/34643 [09:45<14:48, 21.92 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15185/34643 [09:45<11:22, 28.50 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15191/34643 [09:46<10:19, 31.38 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15195/34643 [09:46<13:59, 23.17 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15199/34643 [09:46<12:54, 25.10 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15206/34643 [09:46<09:55, 32.63 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15211/34643 [09:47<14:52, 21.76 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15215/34643 [09:47<13:55, 23.24 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15222/34643 [09:47<10:53, 29.71 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15229/34643 [09:47<11:40, 27.70 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15233/34643 [09:47<15:34, 20.76 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15243/34643 [09:48<10:38, 30.39 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15248/34643 [09:48<10:58, 29.47 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15252/34643 [09:48<15:20, 21.06 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15256/34643 [09:48<13:49, 23.38 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15267/34643 [09:48<09:33, 33.77 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15272/34643 [09:49<14:11, 22.75 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15278/34643 [09:49<11:41, 27.60 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15285/34643 [09:49<09:38, 33.44 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15290/34643 [09:50<14:10, 22.74 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15296/34643 [09:50<11:39, 27.68 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15302/34643 [09:50<10:40, 30.21 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15307/34643 [09:50<13:21, 24.13 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15311/34643 [09:50<13:28, 23.93 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15319/34643 [09:50<09:49, 32.80 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15324/34643 [09:51<11:59, 26.84 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15328/34643 [09:51<14:42, 21.88 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15332/34643 [09:51<13:32, 23.78 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15337/34643 [09:51<11:35, 27.75 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15342/34643 [09:51<11:11, 28.73 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15346/34643 [09:52<11:47, 27.27 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15350/34643 [09:52<14:40, 21.91 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15356/34643 [09:52<12:26, 25.85 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15359/34643 [09:52<13:56, 23.05 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15366/34643 [09:52<10:11, 31.50 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15370/34643 [09:52<11:06, 28.91 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15374/34643 [09:53<13:39, 23.51 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15377/34643 [09:53<13:40, 23.49 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15383/34643 [09:53<12:41, 25.29 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15389/34643 [09:53<10:38, 30.16 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15393/34643 [09:53<10:25, 30.77 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15397/34643 [09:53<11:09, 28.77 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15401/34643 [09:54<12:33, 25.53 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15404/34643 [09:54<13:19, 24.07 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15409/34643 [09:54<11:56, 26.86 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15412/34643 [09:54<11:41, 27.40 examples/s]preprocess datasets (num_proc=22):  44%|████▍     | 15415/34643 [09:54<12:22, 25.89 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15419/34643 [09:54<15:01, 21.33 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15425/34643 [09:55<11:18, 28.33 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15429/34643 [09:55<11:39, 27.47 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15433/34643 [09:55<12:08, 26.36 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15436/34643 [09:55<13:35, 23.54 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15440/34643 [09:55<12:18, 25.99 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15445/34643 [09:55<10:15, 31.22 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15449/34643 [09:55<11:32, 27.72 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15453/34643 [09:56<12:28, 25.65 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15456/34643 [09:56<13:28, 23.73 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15459/34643 [09:56<13:04, 24.46 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15463/34643 [09:56<11:36, 27.54 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15468/34643 [09:56<09:41, 32.97 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15472/34643 [09:56<14:29, 22.05 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15475/34643 [09:57<13:53, 22.99 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15488/34643 [09:57<07:44, 41.26 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15493/34643 [09:57<14:35, 21.86 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15505/34643 [09:57<09:24, 33.92 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15511/34643 [09:58<14:38, 21.78 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15516/34643 [09:58<12:57, 24.60 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15523/34643 [09:58<10:42, 29.74 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15528/34643 [09:58<12:11, 26.14 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15532/34643 [09:59<13:03, 24.41 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15536/34643 [09:59<13:21, 23.85 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15541/34643 [09:59<11:33, 27.54 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15545/34643 [09:59<12:31, 25.40 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15549/34643 [09:59<11:31, 27.61 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15553/34643 [09:59<11:48, 26.96 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15558/34643 [10:00<12:41, 25.07 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15564/34643 [10:00<10:33, 30.12 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15568/34643 [10:00<11:35, 27.44 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15573/34643 [10:00<10:07, 31.40 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15577/34643 [10:00<10:37, 29.91 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15581/34643 [10:01<13:12, 24.06 examples/s]preprocess datasets (num_proc=22):  45%|████▍     | 15585/34643 [10:01<13:34, 23.39 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15593/34643 [10:01<10:51, 29.25 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15597/34643 [10:01<12:22, 25.66 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15601/34643 [10:01<11:47, 26.90 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15604/34643 [10:01<13:15, 23.92 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15610/34643 [10:02<10:33, 30.07 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15614/34643 [10:02<10:36, 29.91 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15618/34643 [10:02<09:52, 32.12 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15622/34643 [10:02<13:11, 24.03 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15625/34643 [10:02<12:44, 24.87 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15630/34643 [10:02<10:38, 29.77 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15634/34643 [10:02<13:09, 24.09 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15638/34643 [10:03<12:27, 25.44 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15641/34643 [10:03<12:49, 24.69 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15646/34643 [10:03<10:49, 29.27 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15650/34643 [10:03<11:44, 26.97 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15654/34643 [10:03<10:41, 29.59 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15658/34643 [10:03<11:16, 28.06 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15661/34643 [10:03<13:01, 24.27 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15665/34643 [10:04<12:12, 25.91 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15669/34643 [10:04<14:24, 21.95 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15675/34643 [10:04<11:41, 27.03 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15679/34643 [10:04<11:28, 27.56 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15682/34643 [10:04<14:38, 21.57 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15686/34643 [10:05<13:04, 24.15 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15693/34643 [10:05<09:41, 32.57 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15697/34643 [10:05<09:43, 32.47 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15701/34643 [10:05<13:31, 23.34 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15704/34643 [10:05<14:26, 21.85 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15709/34643 [10:05<11:41, 27.00 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15715/34643 [10:05<10:04, 31.33 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15719/34643 [10:06<13:42, 23.01 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15722/34643 [10:06<13:44, 22.95 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15730/34643 [10:06<09:46, 32.23 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15734/34643 [10:06<10:22, 30.40 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15738/34643 [10:06<11:12, 28.09 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15742/34643 [10:07<11:40, 26.97 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15747/34643 [10:07<11:23, 27.63 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15750/34643 [10:07<11:45, 26.79 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15755/34643 [10:07<12:49, 24.54 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15759/34643 [10:07<11:40, 26.95 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 15762/34643 [10:07<11:59, 26.25 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15766/34643 [10:07<12:40, 24.82 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15770/34643 [10:08<11:43, 26.84 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15773/34643 [10:08<11:25, 27.54 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15777/34643 [10:08<10:17, 30.57 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15781/34643 [10:08<13:42, 22.95 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15786/34643 [10:08<11:07, 28.24 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15792/34643 [10:08<09:24, 33.40 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15796/34643 [10:09<11:37, 27.02 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15800/34643 [10:09<14:12, 22.11 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15805/34643 [10:09<11:55, 26.35 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15810/34643 [10:09<10:15, 30.58 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15814/34643 [10:09<11:11, 28.06 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15819/34643 [10:09<10:13, 30.71 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15823/34643 [10:10<12:46, 24.56 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15826/34643 [10:10<15:15, 20.55 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15831/34643 [10:10<12:38, 24.80 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15836/34643 [10:10<11:01, 28.44 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15843/34643 [10:10<08:27, 37.06 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15848/34643 [10:11<14:49, 21.13 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15852/34643 [10:11<13:13, 23.69 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15861/34643 [10:11<09:04, 34.50 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15866/34643 [10:11<10:53, 28.74 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15870/34643 [10:11<13:55, 22.48 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15874/34643 [10:12<12:51, 24.31 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15881/34643 [10:12<10:12, 30.65 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15885/34643 [10:12<10:03, 31.08 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15889/34643 [10:12<13:33, 23.05 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15892/34643 [10:12<13:14, 23.61 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15897/34643 [10:12<12:18, 25.40 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15906/34643 [10:12<08:20, 37.46 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15911/34643 [10:13<14:42, 21.23 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15915/34643 [10:13<13:57, 22.37 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15923/34643 [10:13<09:58, 31.30 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15929/34643 [10:13<08:58, 34.73 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15934/34643 [10:14<14:41, 21.22 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15944/34643 [10:14<09:49, 31.72 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15950/34643 [10:14<14:04, 22.15 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15955/34643 [10:15<13:06, 23.76 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15959/34643 [10:15<12:02, 25.87 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15967/34643 [10:15<09:10, 33.91 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15972/34643 [10:15<15:17, 20.34 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15978/34643 [10:16<12:35, 24.69 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15985/34643 [10:16<09:58, 31.17 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15990/34643 [10:16<09:22, 33.14 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15995/34643 [10:16<13:55, 22.32 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 15999/34643 [10:16<12:46, 24.34 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 16007/34643 [10:16<10:05, 30.80 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 16011/34643 [10:17<11:05, 28.01 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 16015/34643 [10:17<12:08, 25.56 examples/s]preprocess datasets (num_proc=22):  46%|████▌     | 16018/34643 [10:17<13:38, 22.74 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16023/34643 [10:17<11:36, 26.74 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16028/34643 [10:17<11:20, 27.35 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16032/34643 [10:18<13:26, 23.08 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16035/34643 [10:18<13:17, 23.34 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16040/34643 [10:18<11:20, 27.34 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16047/34643 [10:18<08:57, 34.60 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16051/34643 [10:18<10:33, 29.34 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16055/34643 [10:18<12:21, 25.08 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16058/34643 [10:19<13:38, 22.70 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16063/34643 [10:19<11:35, 26.73 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16066/34643 [10:19<11:34, 26.76 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16071/34643 [10:19<10:38, 29.08 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16075/34643 [10:19<14:14, 21.74 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16080/34643 [10:19<11:56, 25.92 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16087/34643 [10:19<09:27, 32.67 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16091/34643 [10:20<11:48, 26.18 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16095/34643 [10:20<11:28, 26.96 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16099/34643 [10:20<10:55, 28.28 examples/s]preprocess datasets (num_proc=22):  46%|████▋     | 16106/34643 [10:20<09:48, 31.49 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16110/34643 [10:21<14:57, 20.65 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16114/34643 [10:21<13:36, 22.69 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16122/34643 [10:21<09:42, 31.81 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16127/34643 [10:21<09:55, 31.09 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16131/34643 [10:21<13:56, 22.13 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16135/34643 [10:21<12:26, 24.80 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16145/34643 [10:22<09:11, 33.53 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16149/34643 [10:22<11:01, 27.95 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16153/34643 [10:22<14:32, 21.20 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16159/34643 [10:22<11:36, 26.55 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16164/34643 [10:22<11:39, 26.41 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16168/34643 [10:23<10:59, 28.03 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16172/34643 [10:23<13:10, 23.37 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16180/34643 [10:23<09:15, 33.25 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16185/34643 [10:23<11:11, 27.50 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16189/34643 [10:23<13:43, 22.40 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16193/34643 [10:24<12:48, 24.00 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16197/34643 [10:24<11:42, 26.26 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16201/34643 [10:24<10:50, 28.35 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16205/34643 [10:24<10:56, 28.07 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16209/34643 [10:24<12:25, 24.72 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16213/34643 [10:24<11:21, 27.03 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16216/34643 [10:24<12:29, 24.58 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16221/34643 [10:25<11:41, 26.25 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16224/34643 [10:25<11:32, 26.58 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16228/34643 [10:25<11:58, 25.64 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16234/34643 [10:25<10:10, 30.15 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16238/34643 [10:25<13:03, 23.48 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16245/34643 [10:25<10:00, 30.62 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16249/34643 [10:26<09:28, 32.34 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16253/34643 [10:26<10:41, 28.67 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16257/34643 [10:26<14:49, 20.66 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16262/34643 [10:26<15:11, 20.17 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16269/34643 [10:27<13:32, 22.63 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16272/34643 [10:27<16:38, 18.40 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16275/34643 [10:27<15:50, 19.33 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16278/34643 [10:27<15:11, 20.15 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16281/34643 [10:27<20:06, 15.21 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16283/34643 [10:28<19:33, 15.64 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16285/34643 [10:28<19:45, 15.48 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16289/34643 [10:28<15:30, 19.72 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16292/34643 [10:28<19:18, 15.84 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16295/34643 [10:28<17:34, 17.40 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16298/34643 [10:29<20:20, 15.03 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16300/34643 [10:29<21:24, 14.28 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16308/34643 [10:29<12:46, 23.91 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16311/34643 [10:29<14:51, 20.56 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16315/34643 [10:29<13:15, 23.03 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16318/34643 [10:29<13:14, 23.08 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16323/34643 [10:29<10:39, 28.67 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16327/34643 [10:30<14:49, 20.58 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16332/34643 [10:30<11:58, 25.49 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16336/34643 [10:30<12:20, 24.71 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16342/34643 [10:30<09:51, 30.93 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16346/34643 [10:30<12:45, 23.91 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16350/34643 [10:31<12:09, 25.07 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16356/34643 [10:31<10:26, 29.18 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16360/34643 [10:31<10:06, 30.17 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16365/34643 [10:31<12:12, 24.97 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16368/34643 [10:31<13:58, 21.80 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16372/34643 [10:31<12:23, 24.56 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16376/34643 [10:32<11:26, 26.63 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16382/34643 [10:32<09:03, 33.60 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16386/34643 [10:32<12:15, 24.82 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16390/34643 [10:32<12:04, 25.20 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16393/34643 [10:32<12:55, 23.54 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16399/34643 [10:32<10:15, 29.63 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16403/34643 [10:33<13:08, 23.14 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16407/34643 [10:33<11:45, 25.86 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16411/34643 [10:33<11:09, 27.22 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16415/34643 [10:33<10:21, 29.31 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16419/34643 [10:33<10:17, 29.52 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16423/34643 [10:33<13:15, 22.90 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16427/34643 [10:33<12:28, 24.33 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16433/34643 [10:34<10:22, 29.26 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16437/34643 [10:34<11:33, 26.25 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16440/34643 [10:34<12:17, 24.69 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16444/34643 [10:34<10:58, 27.65 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16448/34643 [10:34<12:23, 24.48 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 16453/34643 [10:34<12:01, 25.20 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16456/34643 [10:35<11:47, 25.71 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16459/34643 [10:35<13:27, 22.51 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16464/34643 [10:35<10:47, 28.07 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16468/34643 [10:35<10:33, 28.68 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16474/34643 [10:35<10:01, 30.19 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16478/34643 [10:35<11:31, 26.28 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16484/34643 [10:35<09:17, 32.56 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16488/34643 [10:36<09:35, 31.53 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16492/34643 [10:36<13:19, 22.69 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16498/34643 [10:36<11:50, 25.55 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16504/34643 [10:36<09:59, 30.26 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16509/34643 [10:36<09:19, 32.39 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16513/34643 [10:37<12:20, 24.48 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16516/34643 [10:37<13:54, 21.72 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16521/34643 [10:37<11:35, 26.05 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16528/34643 [10:37<10:12, 29.59 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16532/34643 [10:37<10:24, 29.01 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16536/34643 [10:37<10:37, 28.39 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16539/34643 [10:38<12:00, 25.14 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16542/34643 [10:38<12:00, 25.12 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16546/34643 [10:38<11:42, 25.76 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16549/34643 [10:38<12:56, 23.29 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16553/34643 [10:38<11:17, 26.70 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16557/34643 [10:38<10:38, 28.34 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16560/34643 [10:38<12:18, 24.48 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16563/34643 [10:39<11:58, 25.17 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16566/34643 [10:39<13:33, 22.22 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16573/34643 [10:39<09:19, 32.30 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16577/34643 [10:39<10:07, 29.72 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16581/34643 [10:39<12:15, 24.54 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16584/34643 [10:39<14:30, 20.74 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16591/34643 [10:40<11:32, 26.08 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16594/34643 [10:40<12:24, 24.25 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16597/34643 [10:40<12:20, 24.37 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16600/34643 [10:40<12:13, 24.59 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16604/34643 [10:40<10:55, 27.54 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16607/34643 [10:40<10:55, 27.52 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16610/34643 [10:40<10:57, 27.45 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16613/34643 [10:40<11:15, 26.68 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16616/34643 [10:41<12:51, 23.36 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16619/34643 [10:41<16:32, 18.16 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16625/34643 [10:41<11:28, 26.16 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16629/34643 [10:41<12:03, 24.90 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16632/34643 [10:41<11:41, 25.66 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16635/34643 [10:42<14:35, 20.57 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16640/34643 [10:42<12:11, 24.61 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16646/34643 [10:42<09:35, 31.27 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16650/34643 [10:42<09:21, 32.03 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16654/34643 [10:42<14:23, 20.83 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16657/34643 [10:42<13:37, 21.99 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16661/34643 [10:42<11:50, 25.30 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16665/34643 [10:43<11:41, 25.61 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16668/34643 [10:43<11:51, 25.25 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16671/34643 [10:43<11:22, 26.33 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16675/34643 [10:43<10:29, 28.56 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16680/34643 [10:43<10:35, 28.26 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16683/34643 [10:43<11:00, 27.18 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16687/34643 [10:43<12:43, 23.51 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16692/34643 [10:44<11:36, 25.78 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16695/34643 [10:44<11:23, 26.25 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16698/34643 [10:44<11:21, 26.33 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16702/34643 [10:44<12:31, 23.87 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16706/34643 [10:44<11:50, 25.24 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16709/34643 [10:44<12:10, 24.55 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16715/34643 [10:44<09:28, 31.51 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16719/34643 [10:45<13:11, 22.65 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16724/34643 [10:45<10:53, 27.40 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16729/34643 [10:45<09:22, 31.87 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16734/34643 [10:45<08:31, 35.02 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16739/34643 [10:46<15:09, 19.68 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16745/34643 [10:46<11:48, 25.25 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16751/34643 [10:46<09:33, 31.19 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16757/34643 [10:46<09:26, 31.56 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16762/34643 [10:46<13:51, 21.51 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16769/34643 [10:47<10:33, 28.24 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16774/34643 [10:47<09:27, 31.51 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16779/34643 [10:47<09:43, 30.61 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16783/34643 [10:47<15:23, 19.34 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16790/34643 [10:47<11:55, 24.96 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 16799/34643 [10:48<08:39, 34.32 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16804/34643 [10:48<14:41, 20.24 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16813/34643 [10:48<10:20, 28.74 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16819/34643 [10:48<09:03, 32.80 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16825/34643 [10:49<15:15, 19.46 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16836/34643 [10:49<10:08, 29.28 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16842/34643 [10:49<10:33, 28.09 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16847/34643 [10:50<12:41, 23.38 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16855/34643 [10:50<09:39, 30.68 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16860/34643 [10:50<08:48, 33.65 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16865/34643 [10:50<14:01, 21.13 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16870/34643 [10:50<12:10, 24.33 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16878/34643 [10:51<09:03, 32.68 examples/s]preprocess datasets (num_proc=22):  49%|████▊     | 16884/34643 [10:51<14:06, 20.99 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16889/34643 [10:51<12:15, 24.13 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16900/34643 [10:51<08:46, 33.71 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16905/34643 [10:52<11:56, 24.75 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16909/34643 [10:52<12:12, 24.20 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16916/34643 [10:52<09:40, 30.53 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16921/34643 [10:52<10:42, 27.57 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16925/34643 [10:53<12:18, 23.98 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16928/34643 [10:53<12:02, 24.53 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16934/34643 [10:53<09:54, 29.77 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16939/34643 [10:53<10:20, 28.52 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16943/34643 [10:53<11:41, 25.25 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16946/34643 [10:53<13:18, 22.17 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16950/34643 [10:54<13:18, 22.15 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16958/34643 [10:54<09:07, 32.30 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16962/34643 [10:54<10:15, 28.75 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16966/34643 [10:54<10:52, 27.10 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16970/34643 [10:54<13:36, 21.63 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16974/34643 [10:54<12:41, 23.20 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16981/34643 [10:55<09:28, 31.05 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16985/34643 [10:55<10:29, 28.04 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16989/34643 [10:55<10:03, 29.26 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16993/34643 [10:55<13:25, 21.92 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16996/34643 [10:55<13:02, 22.55 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 16999/34643 [10:55<12:38, 23.27 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17003/34643 [10:55<11:00, 26.71 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17008/34643 [10:56<09:51, 29.80 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17012/34643 [10:56<15:53, 18.50 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17018/34643 [10:56<11:53, 24.70 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17024/34643 [10:56<09:45, 30.07 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17028/34643 [10:57<12:27, 23.57 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17032/34643 [10:57<11:07, 26.37 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17036/34643 [10:57<10:38, 27.56 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17040/34643 [10:57<10:32, 27.83 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17044/34643 [10:57<10:07, 28.97 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17048/34643 [10:57<10:14, 28.62 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17052/34643 [10:57<11:01, 26.60 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17055/34643 [10:58<12:01, 24.37 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17059/34643 [10:58<10:49, 27.07 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17064/34643 [10:58<09:12, 31.81 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17068/34643 [10:58<09:12, 31.81 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17072/34643 [10:58<17:28, 16.76 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17081/34643 [10:58<10:37, 27.54 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17088/34643 [10:59<09:16, 31.52 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17093/34643 [10:59<14:08, 20.69 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17105/34643 [10:59<08:35, 34.05 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17111/34643 [11:00<12:40, 23.07 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17116/34643 [11:00<13:02, 22.41 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17124/34643 [11:00<10:22, 28.13 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17129/34643 [11:00<10:54, 26.77 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17133/34643 [11:01<12:24, 23.52 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17137/34643 [11:01<11:27, 25.48 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17143/34643 [11:01<09:22, 31.10 examples/s]preprocess datasets (num_proc=22):  49%|████▉     | 17147/34643 [11:01<09:32, 30.53 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17151/34643 [11:01<11:55, 24.45 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17154/34643 [11:01<12:46, 22.82 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17157/34643 [11:02<13:41, 21.29 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17161/34643 [11:02<11:47, 24.70 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17166/34643 [11:02<10:10, 28.61 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17170/34643 [11:02<11:10, 26.05 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17173/34643 [11:02<12:37, 23.06 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17177/34643 [11:02<11:22, 25.61 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17183/34643 [11:02<09:17, 31.31 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17187/34643 [11:03<12:20, 23.56 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17190/34643 [11:03<13:19, 21.82 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17195/34643 [11:03<12:19, 23.60 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17200/34643 [11:03<10:41, 27.20 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17207/34643 [11:03<10:11, 28.51 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17210/34643 [11:04<12:19, 23.57 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17215/34643 [11:04<10:22, 28.00 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17220/34643 [11:04<09:44, 29.81 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17225/34643 [11:04<12:25, 23.36 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17228/34643 [11:04<12:37, 22.98 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17234/34643 [11:04<09:43, 29.82 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17238/34643 [11:05<09:47, 29.64 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17242/34643 [11:05<13:47, 21.02 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17245/34643 [11:05<13:49, 20.96 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17248/34643 [11:05<14:02, 20.65 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17257/34643 [11:05<08:57, 32.36 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17261/34643 [11:05<09:44, 29.72 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17265/34643 [11:06<11:02, 26.24 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17268/34643 [11:06<13:15, 21.84 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17271/34643 [11:06<12:45, 22.68 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17276/34643 [11:06<11:00, 26.30 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17281/34643 [11:06<09:41, 29.84 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17288/34643 [11:07<12:07, 23.85 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17298/34643 [11:07<08:05, 35.70 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17303/34643 [11:07<10:02, 28.78 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17307/34643 [11:07<10:31, 27.43 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17311/34643 [11:07<10:33, 27.35 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17315/34643 [11:07<10:36, 27.22 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 17319/34643 [11:08<10:50, 26.63 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17323/34643 [11:08<10:17, 28.05 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17326/34643 [11:08<11:24, 25.31 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17331/34643 [11:08<10:08, 28.45 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17334/34643 [11:08<13:02, 22.11 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17339/34643 [11:08<10:32, 27.36 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17343/34643 [11:09<11:04, 26.03 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17348/34643 [11:09<09:16, 31.07 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17352/34643 [11:09<11:20, 25.40 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17355/34643 [11:09<11:02, 26.11 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17358/34643 [11:09<11:29, 25.05 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17361/34643 [11:09<12:52, 22.37 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17364/34643 [11:09<12:59, 22.17 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17369/34643 [11:10<10:36, 27.14 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17374/34643 [11:10<09:15, 31.07 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17378/34643 [11:10<09:00, 31.97 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17382/34643 [11:10<12:41, 22.66 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17385/34643 [11:10<12:04, 23.84 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17390/34643 [11:10<09:59, 28.78 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17395/34643 [11:10<09:30, 30.25 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17399/34643 [11:11<11:00, 26.10 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17402/34643 [11:11<13:09, 21.83 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17406/34643 [11:11<12:06, 23.72 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17411/34643 [11:11<10:31, 27.27 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17416/34643 [11:11<10:30, 27.34 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17419/34643 [11:12<11:51, 24.19 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17423/34643 [11:12<11:09, 25.71 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17426/34643 [11:12<11:49, 24.26 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17431/34643 [11:12<09:42, 29.52 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17435/34643 [11:12<09:00, 31.81 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17439/34643 [11:12<10:06, 28.36 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17443/34643 [11:12<10:23, 27.57 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17447/34643 [11:12<10:39, 26.88 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17450/34643 [11:13<11:11, 25.61 examples/s]preprocess datasets (num_proc=22):  50%|��████     | 17453/34643 [11:13<12:16, 23.33 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17456/34643 [11:13<11:56, 23.97 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17464/34643 [11:13<09:18, 30.76 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17467/34643 [11:13<09:29, 30.17 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17470/34643 [11:13<10:07, 28.27 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17473/34643 [11:13<10:23, 27.56 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17477/34643 [11:14<09:31, 30.03 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17481/34643 [11:14<12:21, 23.15 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17485/34643 [11:14<11:10, 25.58 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17490/34643 [11:14<09:20, 30.60 examples/s]preprocess datasets (num_proc=22):  50%|█████     | 17494/34643 [11:14<10:09, 28.13 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17498/34643 [11:14<12:19, 23.17 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17502/34643 [11:15<11:03, 25.85 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17507/34643 [11:15<09:57, 28.70 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17511/34643 [11:15<10:23, 27.46 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17514/34643 [11:15<13:49, 20.65 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17517/34643 [11:15<14:07, 20.20 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17525/34643 [11:15<09:08, 31.20 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17529/34643 [11:16<09:59, 28.54 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17533/34643 [11:16<11:38, 24.51 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17537/34643 [11:16<11:05, 25.70 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17544/34643 [11:16<09:11, 31.02 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17548/34643 [11:17<14:38, 19.45 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17555/34643 [11:17<10:42, 26.59 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17563/34643 [11:17<08:07, 35.00 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17568/34643 [11:17<14:28, 19.65 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17578/34643 [11:17<09:34, 29.69 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17586/34643 [11:18<07:56, 35.79 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17592/34643 [11:18<13:01, 21.81 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17602/34643 [11:18<09:08, 31.06 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17608/34643 [11:19<11:50, 23.97 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17613/34643 [11:19<12:09, 23.34 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17624/34643 [11:19<09:37, 29.49 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17629/34643 [11:19<09:02, 31.34 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17634/34643 [11:20<12:19, 23.00 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17639/34643 [11:20<11:17, 25.11 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17644/34643 [11:20<10:10, 27.83 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17649/34643 [11:20<09:14, 30.66 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17653/34643 [11:20<10:36, 26.68 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17657/34643 [11:21<13:09, 21.52 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17660/34643 [11:21<12:43, 22.23 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17666/34643 [11:21<09:47, 28.90 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17671/34643 [11:21<09:50, 28.75 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17675/34643 [11:21<13:48, 20.49 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17680/34643 [11:21<11:22, 24.87 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17689/34643 [11:22<08:04, 35.01 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17694/34643 [11:22<12:51, 21.97 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17699/34643 [11:22<11:32, 24.48 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17706/34643 [11:22<09:01, 31.30 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17711/34643 [11:23<12:22, 22.79 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17715/34643 [11:23<13:05, 21.55 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17721/34643 [11:23<10:33, 26.71 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17727/34643 [11:23<11:05, 25.42 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17731/34643 [11:23<11:01, 25.55 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17735/34643 [11:24<11:15, 25.03 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17742/34643 [11:24<08:27, 33.27 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17747/34643 [11:24<12:04, 23.33 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 17751/34643 [11:24<11:18, 24.91 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17756/34643 [11:24<10:01, 28.06 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17760/34643 [11:24<09:34, 29.38 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17764/34643 [11:25<09:53, 28.44 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17768/34643 [11:25<13:10, 21.35 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17777/34643 [11:25<08:45, 32.10 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17782/34643 [11:25<12:09, 23.11 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17786/34643 [11:26<13:05, 21.45 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17794/34643 [11:26<09:16, 30.28 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17799/34643 [11:26<09:15, 30.33 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17803/34643 [11:26<10:33, 26.57 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17807/34643 [11:26<12:57, 21.65 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17813/34643 [11:26<10:04, 27.84 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17817/34643 [11:27<10:35, 26.50 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17821/34643 [11:27<10:21, 27.05 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17825/34643 [11:27<10:12, 27.45 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17829/34643 [11:27<14:06, 19.86 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17834/34643 [11:27<11:27, 24.45 examples/s]preprocess datasets (num_proc=22):  51%|█████▏    | 17838/34643 [11:28<11:40, 24.01 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17845/34643 [11:28<11:21, 24.65 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17848/34643 [11:28<13:31, 20.69 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17851/34643 [11:28<13:20, 20.98 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17857/34643 [11:28<09:58, 28.07 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17865/34643 [11:28<07:34, 36.96 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17870/34643 [11:29<15:38, 17.87 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17883/34643 [11:29<09:02, 30.89 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17890/34643 [11:30<11:35, 24.09 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17895/34643 [11:30<11:41, 23.88 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17908/34643 [11:30<07:48, 35.73 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17914/34643 [11:31<12:47, 21.80 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17923/34643 [11:31<09:42, 28.70 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17929/34643 [11:31<09:13, 30.21 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17934/34643 [11:31<12:48, 21.76 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17938/34643 [11:32<12:23, 22.46 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17944/34643 [11:32<10:06, 27.53 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17949/34643 [11:32<10:40, 26.08 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17953/34643 [11:32<12:22, 22.47 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17956/34643 [11:32<12:00, 23.15 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17961/34643 [11:32<10:15, 27.10 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17965/34643 [11:32<09:22, 29.66 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17969/34643 [11:33<11:09, 24.89 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17972/34643 [11:33<12:21, 22.49 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17978/34643 [11:33<09:43, 28.58 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17986/34643 [11:33<08:49, 31.46 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17990/34643 [11:34<11:41, 23.72 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 17995/34643 [11:34<10:00, 27.72 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18005/34643 [11:34<07:42, 35.95 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18009/34643 [11:34<12:18, 22.52 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18013/34643 [11:34<11:31, 24.04 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18021/34643 [11:34<08:22, 33.08 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18026/34643 [11:35<07:56, 34.86 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18031/34643 [11:35<13:21, 20.72 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18037/34643 [11:35<10:45, 25.71 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18044/34643 [11:35<08:33, 32.34 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18049/34643 [11:36<11:49, 23.38 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18053/34643 [11:36<11:12, 24.67 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18059/34643 [11:36<11:01, 25.08 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18064/34643 [11:36<09:44, 28.35 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18068/34643 [11:36<12:22, 22.32 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18072/34643 [11:37<11:10, 24.72 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18079/34643 [11:37<09:11, 30.01 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18083/34643 [11:37<10:15, 26.90 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18087/34643 [11:37<11:51, 23.26 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18091/34643 [11:37<10:44, 25.67 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18095/34643 [11:37<10:31, 26.19 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18100/34643 [11:38<09:35, 28.74 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18104/34643 [11:38<10:57, 25.14 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18108/34643 [11:38<10:02, 27.43 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18112/34643 [11:38<12:06, 22.74 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18115/34643 [11:38<12:08, 22.68 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18121/34643 [11:38<09:41, 28.40 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18125/34643 [11:39<09:17, 29.62 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18130/34643 [11:39<10:03, 27.38 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18133/34643 [11:39<14:06, 19.51 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18136/34643 [11:39<13:19, 20.65 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18142/34643 [11:39<09:59, 27.54 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18147/34643 [11:39<09:33, 28.78 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18151/34643 [11:40<09:25, 29.16 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18155/34643 [11:40<10:28, 26.25 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18159/34643 [11:40<09:42, 28.30 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18163/34643 [11:40<09:24, 29.19 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18167/34643 [11:40<14:46, 18.59 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18174/34643 [11:41<10:18, 26.61 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18182/34643 [11:41<07:44, 35.41 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 18187/34643 [11:41<11:22, 24.12 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18191/34643 [11:41<12:08, 22.59 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18198/34643 [11:41<09:19, 29.37 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18203/34643 [11:41<08:24, 32.59 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18208/34643 [11:42<12:00, 22.82 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18212/34643 [11:42<12:41, 21.59 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18217/34643 [11:42<11:01, 24.85 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18221/34643 [11:42<10:05, 27.13 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18226/34643 [11:42<09:31, 28.72 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18230/34643 [11:43<13:22, 20.45 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18236/34643 [11:43<10:22, 26.35 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18242/34643 [11:43<08:56, 30.54 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18246/34643 [11:43<11:12, 24.37 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18250/34643 [11:43<10:57, 24.94 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18254/34643 [11:44<10:12, 26.77 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18259/34643 [11:44<08:48, 31.03 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18264/34643 [11:44<08:05, 33.76 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18268/34643 [11:44<13:20, 20.45 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18271/34643 [11:44<12:24, 22.00 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18280/34643 [11:44<07:57, 34.27 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18285/34643 [11:45<07:20, 37.13 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18290/34643 [11:45<13:02, 20.89 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18294/34643 [11:45<12:26, 21.89 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18307/34643 [11:45<07:18, 37.26 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18313/34643 [11:46<12:07, 22.45 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18317/34643 [11:46<11:07, 24.47 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18328/34643 [11:46<07:53, 34.44 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18333/34643 [11:47<12:41, 21.42 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18343/34643 [11:47<08:51, 30.66 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18351/34643 [11:47<07:38, 35.54 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18357/34643 [11:48<12:00, 22.59 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18366/34643 [11:48<09:03, 29.96 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18372/34643 [11:48<09:00, 30.08 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18377/34643 [11:48<13:25, 20.20 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18384/34643 [11:48<10:25, 25.98 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18392/34643 [11:49<09:15, 29.24 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18397/34643 [11:49<12:33, 21.55 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18401/34643 [11:49<11:34, 23.40 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18405/34643 [11:49<10:27, 25.86 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18414/34643 [11:50<09:44, 27.78 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18418/34643 [11:50<11:31, 23.47 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18422/34643 [11:50<10:43, 25.19 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18428/34643 [11:50<09:00, 30.00 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18433/34643 [11:50<08:15, 32.68 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18437/34643 [11:50<10:10, 26.54 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18441/34643 [11:51<12:08, 22.24 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18447/34643 [11:51<10:37, 25.39 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18452/34643 [11:51<09:29, 28.42 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18456/34643 [11:51<10:59, 24.55 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18459/34643 [11:51<12:17, 21.95 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18469/34643 [11:52<08:01, 33.61 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18474/34643 [11:52<08:42, 30.94 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18478/34643 [11:52<10:57, 24.60 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18482/34643 [11:52<10:05, 26.70 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18488/34643 [11:52<08:30, 31.63 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18493/34643 [11:52<08:04, 33.34 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18497/34643 [11:53<11:21, 23.71 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18501/34643 [11:53<10:41, 25.17 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18505/34643 [11:53<09:38, 27.89 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18511/34643 [11:53<07:53, 34.08 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18515/34643 [11:53<08:42, 30.88 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18519/34643 [11:53<09:28, 28.34 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18523/34643 [11:54<11:40, 23.02 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18526/34643 [11:54<11:24, 23.54 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18530/34643 [11:54<10:23, 25.84 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 18533/34643 [11:54<11:21, 23.64 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18538/34643 [11:54<09:50, 27.26 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18542/34643 [11:54<09:28, 28.34 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18545/34643 [11:54<10:02, 26.74 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18549/34643 [11:55<10:25, 25.74 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18553/34643 [11:55<11:20, 23.63 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18559/34643 [11:55<09:31, 28.13 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18564/34643 [11:55<11:11, 23.95 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18567/34643 [11:55<12:35, 21.28 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18570/34643 [11:56<12:00, 22.32 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18577/34643 [11:56<08:26, 31.73 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18581/34643 [11:56<08:07, 32.97 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18585/34643 [11:56<12:34, 21.27 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18588/34643 [11:56<13:01, 20.54 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18591/34643 [11:56<12:43, 21.03 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18597/34643 [11:57<09:19, 28.70 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18601/34643 [11:57<09:47, 27.33 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18605/34643 [11:57<12:59, 20.57 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18608/34643 [11:57<13:24, 19.93 examples/s]preprocess datasets (num_proc=22):  54%|█████▎    | 18611/34643 [11:57<12:23, 21.56 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18623/34643 [11:57<06:37, 40.34 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18628/34643 [11:58<13:24, 19.91 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18638/34643 [11:58<08:49, 30.20 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18644/34643 [11:58<07:43, 34.51 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18650/34643 [11:59<12:32, 21.26 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18664/34643 [11:59<07:32, 35.28 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18671/34643 [12:00<12:24, 21.46 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18685/34643 [12:00<08:04, 32.91 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18693/34643 [12:00<11:36, 22.91 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18703/34643 [12:01<08:55, 29.75 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18710/34643 [12:01<12:00, 22.12 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18715/34643 [12:01<10:58, 24.17 examples/s]preprocess datasets (num_proc=22):  54%|████��▍    | 18722/34643 [12:01<09:04, 29.22 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18728/34643 [12:02<10:28, 25.33 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18733/34643 [12:02<11:38, 22.78 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18742/34643 [12:02<08:56, 29.63 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18747/34643 [12:02<10:14, 25.85 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18751/34643 [12:03<11:41, 22.65 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18757/34643 [12:03<09:36, 27.55 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18762/34643 [12:03<08:39, 30.57 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18766/34643 [12:03<08:47, 30.08 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18770/34643 [12:03<09:37, 27.48 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18774/34643 [12:03<12:32, 21.08 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18780/34643 [12:04<09:56, 26.58 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18784/34643 [12:04<11:20, 23.32 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18787/34643 [12:04<10:55, 24.18 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18793/34643 [12:04<08:30, 31.06 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18797/34643 [12:04<09:28, 27.87 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18802/34643 [12:04<09:23, 28.13 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18806/34643 [12:05<10:21, 25.46 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18810/34643 [12:05<10:43, 24.61 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18813/34643 [12:05<10:35, 24.92 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18816/34643 [12:05<11:37, 22.70 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18820/34643 [12:05<10:10, 25.92 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18825/34643 [12:05<08:44, 30.15 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18829/34643 [12:06<10:22, 25.38 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18832/34643 [12:06<12:44, 20.68 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18835/34643 [12:06<12:07, 21.72 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18842/34643 [12:06<08:27, 31.12 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18847/34643 [12:06<07:36, 34.63 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18851/34643 [12:06<08:46, 29.99 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18855/34643 [12:07<14:09, 18.59 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18861/34643 [12:07<10:59, 23.93 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18871/34643 [12:07<07:14, 36.27 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 18876/34643 [12:07<11:45, 22.35 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18885/34643 [12:08<08:36, 30.51 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18890/34643 [12:08<08:15, 31.80 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18895/34643 [12:08<11:38, 22.55 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18900/34643 [12:08<09:56, 26.40 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18904/34643 [12:08<09:37, 27.27 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18910/34643 [12:08<08:03, 32.51 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18915/34643 [12:09<09:54, 26.44 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18919/34643 [12:09<10:18, 25.42 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18923/34643 [12:09<10:55, 23.99 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18927/34643 [12:09<10:03, 26.03 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18933/34643 [12:09<08:36, 30.40 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18937/34643 [12:09<08:38, 30.29 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18941/34643 [12:10<12:39, 20.67 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18947/34643 [12:10<10:00, 26.14 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18951/34643 [12:10<09:30, 27.49 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18955/34643 [12:10<08:55, 29.28 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18959/34643 [12:10<09:47, 26.70 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18964/34643 [12:11<10:03, 25.96 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18967/34643 [12:11<13:16, 19.67 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18972/34643 [12:11<10:58, 23.81 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18976/34643 [12:11<10:11, 25.64 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18983/34643 [12:11<09:19, 27.97 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18987/34643 [12:12<09:48, 26.60 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18990/34643 [12:12<10:25, 25.04 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18993/34643 [12:12<10:32, 24.74 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 18997/34643 [12:12<09:27, 27.58 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19002/34643 [12:12<08:10, 31.89 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19007/34643 [12:12<10:24, 25.04 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19011/34643 [12:12<09:40, 26.92 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19015/34643 [12:13<10:24, 25.04 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19021/34643 [12:13<08:40, 30.03 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19025/34643 [12:13<10:40, 24.38 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19028/34643 [12:13<11:16, 23.08 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19031/34643 [12:13<10:51, 23.95 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19038/34643 [12:13<07:43, 33.63 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19042/34643 [12:14<11:33, 22.48 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19046/34643 [12:14<10:44, 24.19 examples/s]preprocess datasets (num_proc=22):  55%|█████▍    | 19051/34643 [12:14<10:16, 25.28 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19056/34643 [12:14<09:18, 27.89 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19060/34643 [12:14<12:23, 20.97 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19064/34643 [12:15<11:10, 23.23 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19069/34643 [12:15<10:21, 25.05 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19075/34643 [12:15<08:22, 30.99 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19080/34643 [12:15<11:01, 23.52 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19083/34643 [12:15<11:44, 22.08 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19089/34643 [12:15<09:03, 28.62 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19093/34643 [12:16<08:31, 30.42 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19097/34643 [12:16<09:58, 25.97 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19101/34643 [12:16<10:54, 23.75 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19106/34643 [12:16<10:00, 25.89 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19114/34643 [12:16<07:15, 35.63 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19119/34643 [12:17<10:43, 24.14 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19123/34643 [12:17<10:18, 25.08 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19134/34643 [12:17<06:35, 39.25 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19140/34643 [12:18<12:03, 21.44 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19149/34643 [12:18<08:56, 28.89 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19154/34643 [12:18<08:08, 31.73 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19159/34643 [12:18<13:03, 19.76 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19169/34643 [12:18<08:54, 28.95 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19176/34643 [12:19<08:29, 30.33 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19181/34643 [12:19<11:39, 22.11 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19188/34643 [12:19<09:11, 28.03 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19193/34643 [12:19<08:15, 31.19 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19198/34643 [12:20<10:59, 23.43 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19202/34643 [12:20<10:28, 24.56 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19206/34643 [12:20<10:46, 23.89 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19215/34643 [12:20<07:59, 32.21 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19219/34643 [12:20<10:10, 25.25 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19223/34643 [12:21<11:23, 22.56 examples/s]preprocess datasets (num_proc=22):  55%|█████▌    | 19226/34643 [12:21<10:50, 23.69 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19232/34643 [12:21<08:29, 30.25 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19239/34643 [12:21<06:41, 38.37 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19244/34643 [12:21<12:28, 20.58 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19249/34643 [12:22<10:30, 24.43 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19261/34643 [12:22<06:40, 38.40 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19267/34643 [12:22<11:06, 23.09 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19273/34643 [12:22<09:22, 27.30 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19278/34643 [12:23<08:50, 28.98 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19283/34643 [12:23<09:41, 26.42 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19287/34643 [12:23<09:40, 26.44 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19291/34643 [12:23<11:30, 22.22 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19296/34643 [12:23<10:07, 25.26 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19300/34643 [12:23<10:20, 24.72 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19305/34643 [12:24<09:22, 27.27 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19310/34643 [12:24<08:42, 29.35 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19314/34643 [12:24<10:10, 25.11 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19317/34643 [12:24<11:36, 22.02 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19321/34643 [12:24<10:21, 24.64 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19325/34643 [12:24<09:47, 26.08 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19328/34643 [12:25<10:47, 23.65 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19331/34643 [12:25<12:28, 20.47 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19335/34643 [12:25<10:53, 23.43 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19341/34643 [12:25<08:10, 31.19 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19347/34643 [12:25<07:07, 35.78 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19351/34643 [12:26<12:38, 20.15 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19355/34643 [12:26<12:03, 21.13 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19366/34643 [12:26<07:51, 32.38 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19370/34643 [12:26<11:44, 21.68 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19374/34643 [12:27<11:33, 22.03 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19384/34643 [12:27<07:42, 32.96 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19389/34643 [12:27<08:40, 29.33 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19393/34643 [12:27<12:08, 20.92 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19402/34643 [12:27<08:26, 30.11 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19411/34643 [12:27<06:36, 38.40 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19417/34643 [12:28<11:51, 21.41 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19425/34643 [12:28<09:01, 28.13 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19431/34643 [12:28<08:26, 30.05 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19436/34643 [12:29<10:59, 23.07 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19441/34643 [12:29<09:50, 25.75 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19445/34643 [12:29<10:37, 23.84 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19449/34643 [12:29<10:05, 25.10 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19453/34643 [12:29<10:41, 23.67 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19456/34643 [12:30<10:55, 23.17 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19460/34643 [12:30<10:19, 24.51 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19464/34643 [12:30<09:30, 26.60 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19470/34643 [12:30<07:58, 31.68 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19474/34643 [12:30<09:58, 25.32 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19477/34643 [12:30<11:08, 22.68 examples/s]preprocess datasets (num_proc=22):  56%|█████▌    | 19481/34643 [12:30<09:46, 25.86 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19489/34643 [12:31<07:00, 36.00 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19494/34643 [12:31<11:05, 22.77 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19498/34643 [12:31<10:23, 24.28 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19502/34643 [12:31<09:27, 26.69 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19508/34643 [12:31<07:37, 33.06 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19513/34643 [12:32<11:12, 22.49 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19517/34643 [12:32<11:06, 22.70 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19524/34643 [12:32<08:12, 30.69 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19529/34643 [12:32<09:30, 26.50 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19533/34643 [12:32<08:46, 28.68 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19537/34643 [12:33<10:36, 23.72 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19540/34643 [12:33<11:33, 21.77 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19549/34643 [12:33<07:30, 33.50 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19554/34643 [12:33<08:37, 29.18 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19558/34643 [12:33<10:35, 23.75 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19561/34643 [12:34<10:32, 23.84 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19568/34643 [12:34<08:04, 31.14 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 19572/34643 [12:34<11:10, 22.47 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19577/34643 [12:34<10:23, 24.16 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19584/34643 [12:34<08:14, 30.46 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19588/34643 [12:35<09:58, 25.17 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19592/34643 [12:35<10:56, 22.94 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19599/34643 [12:35<08:13, 30.48 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19603/34643 [12:35<08:48, 28.48 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19607/34643 [12:35<12:05, 20.71 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19610/34643 [12:36<11:37, 21.55 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19619/34643 [12:36<07:47, 32.11 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19623/34643 [12:36<07:47, 32.10 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19627/34643 [12:36<10:23, 24.07 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19630/34643 [12:36<11:29, 21.79 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19633/34643 [12:36<11:24, 21.94 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19639/34643 [12:37<09:05, 27.51 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19643/34643 [12:37<10:18, 24.27 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19646/34643 [12:37<11:16, 22.18 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19649/34643 [12:37<11:37, 21.49 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19656/34643 [12:37<08:40, 28.81 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19660/34643 [12:37<09:25, 26.49 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19663/34643 [12:37<09:15, 26.98 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19666/34643 [12:38<13:12, 18.89 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19670/34643 [12:38<11:01, 22.65 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19676/34643 [12:38<08:22, 29.78 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19682/34643 [12:38<08:39, 28.81 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19686/34643 [12:39<12:51, 19.39 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19695/34643 [12:39<08:19, 29.92 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19702/34643 [12:39<07:39, 32.51 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19707/34643 [12:39<11:54, 20.89 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19714/34643 [12:40<09:19, 26.67 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19719/34643 [12:40<08:29, 29.29 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19724/34643 [12:40<07:50, 31.70 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19729/34643 [12:40<12:56, 19.22 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19733/34643 [12:40<11:41, 21.27 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19743/34643 [12:41<07:26, 33.40 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19749/34643 [12:41<10:56, 22.69 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19754/34643 [12:41<10:23, 23.90 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19763/34643 [12:41<07:38, 32.49 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19768/34643 [12:42<11:21, 21.83 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19774/34643 [12:42<09:17, 26.68 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19779/34643 [12:42<08:44, 28.36 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19784/34643 [12:42<09:07, 27.14 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19788/34643 [12:42<08:51, 27.97 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19792/34643 [12:43<09:32, 25.93 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19796/34643 [12:43<11:51, 20.87 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19801/34643 [12:43<09:43, 25.42 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19807/34643 [12:43<07:51, 31.47 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19811/34643 [12:43<08:45, 28.22 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19815/34643 [12:43<10:33, 23.40 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19823/34643 [12:44<07:28, 33.02 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19828/34643 [12:44<09:26, 26.15 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19832/34643 [12:44<11:42, 21.08 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19841/34643 [12:44<08:13, 29.97 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19845/34643 [12:44<08:29, 29.02 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19849/34643 [12:45<11:02, 22.34 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19854/34643 [12:45<09:14, 26.66 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19860/34643 [12:45<07:43, 31.87 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19864/34643 [12:45<07:56, 31.00 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19868/34643 [12:46<13:47, 17.86 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19873/34643 [12:46<11:01, 22.33 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19880/34643 [12:46<08:12, 29.98 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19885/34643 [12:46<10:48, 22.74 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19889/34643 [12:46<11:53, 20.69 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19892/34643 [12:47<11:11, 21.97 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19897/34643 [12:47<09:14, 26.60 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19901/34643 [12:47<08:31, 28.83 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19905/34643 [12:47<08:07, 30.24 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19909/34643 [12:47<09:34, 25.66 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19913/34643 [12:47<10:01, 24.48 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 19917/34643 [12:47<10:36, 23.14 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19925/34643 [12:48<08:34, 28.63 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19928/34643 [12:48<08:46, 27.97 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19931/34643 [12:48<10:58, 22.35 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19934/34643 [12:48<11:05, 22.12 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19938/34643 [12:48<09:50, 24.90 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19942/34643 [12:48<08:44, 28.04 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19947/34643 [12:49<08:01, 30.53 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19951/34643 [12:49<09:27, 25.90 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19954/34643 [12:49<10:36, 23.07 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19959/34643 [12:49<09:02, 27.05 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19965/34643 [12:49<07:35, 32.23 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19969/34643 [12:49<10:42, 22.83 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19972/34643 [12:50<10:16, 23.79 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19975/34643 [12:50<10:42, 22.83 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19981/34643 [12:50<08:01, 30.47 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19985/34643 [12:50<08:00, 30.50 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19989/34643 [12:50<09:46, 24.97 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19994/34643 [12:50<08:22, 29.16 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 19998/34643 [12:50<08:04, 30.22 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20002/34643 [12:51<09:05, 26.85 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20005/34643 [12:51<10:06, 24.14 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20010/34643 [12:51<08:41, 28.05 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20014/34643 [12:51<08:48, 27.66 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20020/34643 [12:51<08:59, 27.09 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20023/34643 [12:51<09:33, 25.48 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20026/34643 [12:52<09:22, 25.96 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20030/34643 [12:52<09:10, 26.53 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20034/34643 [12:52<08:14, 29.55 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20038/34643 [12:52<10:11, 23.89 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20043/34643 [12:52<09:32, 25.51 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20050/34643 [12:52<07:39, 31.77 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20054/34643 [12:53<10:23, 23.41 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20058/34643 [12:53<09:52, 24.60 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20061/34643 [12:53<10:38, 22.85 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20068/34643 [12:53<08:12, 29.56 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20072/34643 [12:53<09:11, 26.43 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20075/34643 [12:54<10:54, 22.26 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20080/34643 [12:54<08:58, 27.03 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20084/34643 [12:54<08:18, 29.23 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20089/34643 [12:54<09:48, 24.74 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20092/34643 [12:54<11:38, 20.83 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20096/34643 [12:54<10:07, 23.93 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20107/34643 [12:54<06:18, 38.39 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20112/34643 [12:55<12:25, 19.50 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20123/34643 [12:55<07:49, 30.91 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20129/34643 [12:55<07:05, 34.10 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20135/34643 [12:56<11:44, 20.61 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20147/34643 [12:56<07:30, 32.18 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20154/34643 [12:57<10:45, 22.44 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20164/34643 [12:57<07:55, 30.48 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20171/34643 [12:57<09:39, 24.97 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20176/34643 [12:57<09:14, 26.07 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20183/34643 [12:57<08:13, 29.32 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20188/34643 [12:58<09:58, 24.13 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20192/34643 [12:58<10:48, 22.27 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20199/34643 [12:58<08:23, 28.68 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20205/34643 [12:58<07:06, 33.85 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20210/34643 [12:59<10:46, 22.32 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20215/34643 [12:59<09:18, 25.83 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20223/34643 [12:59<07:00, 34.27 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20228/34643 [12:59<11:01, 21.80 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20232/34643 [12:59<09:53, 24.29 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20236/34643 [13:00<09:12, 26.07 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20242/34643 [13:00<07:52, 30.46 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20246/34643 [13:00<11:02, 21.74 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20251/34643 [13:00<09:45, 24.59 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20257/34643 [13:00<08:19, 28.78 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20261/34643 [13:00<07:58, 30.04 examples/s]preprocess datasets (num_proc=22):  58%|█████▊    | 20265/34643 [13:01<10:31, 22.79 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20271/34643 [13:01<08:14, 29.08 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20275/34643 [13:01<08:27, 28.31 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20279/34643 [13:01<08:04, 29.64 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20283/34643 [13:01<09:14, 25.88 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20286/34643 [13:01<09:32, 25.06 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20290/34643 [13:02<08:40, 27.58 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20295/34643 [13:02<07:18, 32.72 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20299/34643 [13:02<10:44, 22.27 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20303/34643 [13:02<09:22, 25.49 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20307/34643 [13:02<08:43, 27.38 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20312/34643 [13:02<08:48, 27.11 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20317/34643 [13:03<10:26, 22.86 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20323/34643 [13:03<08:33, 27.89 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20327/34643 [13:03<08:45, 27.27 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20331/34643 [13:03<08:59, 26.51 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20336/34643 [13:03<07:42, 30.91 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20340/34643 [13:03<08:47, 27.09 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20344/34643 [13:04<09:19, 25.57 examples/s]preprocess datasets (num_proc=22):  59%|█████▊    | 20348/34643 [13:04<09:06, 26.17 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20353/34643 [13:04<07:44, 30.76 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20357/34643 [13:04<08:35, 27.71 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20361/34643 [13:04<10:00, 23.78 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20366/34643 [13:04<08:52, 26.79 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20369/34643 [13:05<09:18, 25.54 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20375/34643 [13:05<07:31, 31.64 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20379/34643 [13:05<07:05, 33.51 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20383/34643 [13:05<09:49, 24.19 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20386/34643 [13:05<11:48, 20.13 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20389/34643 [13:05<11:36, 20.47 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20399/34643 [13:06<07:16, 32.61 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20403/34643 [13:06<07:37, 31.10 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20407/34643 [13:06<10:26, 22.73 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20412/34643 [13:06<09:28, 25.02 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20417/34643 [13:06<08:17, 28.58 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20422/34643 [13:07<09:15, 25.61 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20425/34643 [13:07<11:01, 21.50 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20431/34643 [13:07<08:29, 27.91 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20435/34643 [13:07<07:59, 29.60 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20442/34643 [13:07<07:46, 30.44 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20446/34643 [13:08<11:28, 20.62 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20451/34643 [13:08<09:35, 24.64 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20459/34643 [13:08<08:22, 28.22 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20463/34643 [13:08<08:40, 27.24 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20467/34643 [13:08<10:45, 21.95 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20472/34643 [13:09<09:33, 24.71 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20478/34643 [13:09<08:36, 27.44 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20482/34643 [13:09<09:37, 24.54 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20485/34643 [13:09<09:30, 24.80 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20488/34643 [13:09<09:16, 25.41 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20491/34643 [13:09<09:15, 25.49 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20496/34643 [13:09<07:58, 29.57 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20500/34643 [13:10<09:48, 24.03 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20504/34643 [13:10<09:14, 25.49 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20507/34643 [13:10<10:17, 22.87 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20511/34643 [13:10<09:16, 25.38 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20514/34643 [13:10<09:43, 24.23 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20517/34643 [13:10<10:28, 22.49 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20522/34643 [13:10<08:27, 27.83 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20526/34643 [13:11<07:41, 30.57 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20530/34643 [13:11<09:32, 24.66 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20533/34643 [13:11<10:39, 22.07 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20538/34643 [13:11<08:30, 27.64 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20542/34643 [13:11<07:49, 30.05 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20546/34643 [13:11<09:53, 23.75 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20549/34643 [13:12<10:04, 23.32 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20552/34643 [13:12<11:07, 21.12 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20560/34643 [13:12<07:11, 32.63 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20564/34643 [13:12<07:14, 32.37 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20568/34643 [13:12<11:01, 21.26 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20576/34643 [13:12<07:44, 30.31 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20581/34643 [13:13<07:11, 32.59 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20586/34643 [13:13<09:34, 24.45 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20590/34643 [13:13<09:23, 24.93 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20597/34643 [13:13<07:58, 29.37 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20601/34643 [13:14<10:01, 23.35 examples/s]preprocess datasets (num_proc=22):  59%|█████▉    | 20606/34643 [13:14<09:34, 24.43 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20615/34643 [13:14<08:10, 28.63 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20619/34643 [13:14<08:17, 28.18 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20622/34643 [13:14<09:51, 23.72 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20629/34643 [13:14<07:33, 30.90 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20635/34643 [13:15<09:14, 25.26 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20639/34643 [13:15<11:20, 20.59 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20648/34643 [13:15<07:43, 30.22 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20653/34643 [13:15<07:14, 32.23 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20658/34643 [13:16<09:36, 24.26 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20662/34643 [13:16<09:09, 25.43 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20666/34643 [13:16<09:08, 25.49 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20670/34643 [13:16<08:16, 28.15 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20675/34643 [13:16<07:15, 32.06 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20679/34643 [13:16<08:51, 26.28 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20683/34643 [13:17<09:20, 24.92 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20686/34643 [13:17<09:49, 23.69 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20689/34643 [13:17<09:49, 23.69 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20694/34643 [13:17<08:03, 28.83 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20698/34643 [13:17<10:59, 21.15 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20701/34643 [13:17<10:43, 21.67 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20706/34643 [13:18<08:32, 27.22 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20710/34643 [13:18<08:00, 28.98 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20714/34643 [13:18<09:56, 23.37 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20719/34643 [13:18<08:42, 26.63 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20724/34643 [13:18<07:44, 29.99 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20729/34643 [13:18<07:50, 29.59 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20733/34643 [13:19<09:42, 23.89 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20737/34643 [13:19<10:05, 22.95 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20741/34643 [13:19<08:52, 26.09 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20745/34643 [13:19<08:34, 26.99 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20748/34643 [13:19<08:32, 27.09 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20751/34643 [13:19<11:04, 20.89 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20755/34643 [13:20<10:58, 21.09 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20764/34643 [13:20<06:50, 33.78 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20769/34643 [13:20<08:57, 25.79 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20773/34643 [13:20<08:35, 26.93 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20779/34643 [13:20<08:22, 27.59 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 20783/34643 [13:20<08:07, 28.42 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20787/34643 [13:21<10:40, 21.65 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20790/34643 [13:21<11:08, 20.71 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20798/34643 [13:21<07:39, 30.15 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20804/34643 [13:21<06:43, 34.27 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20808/34643 [13:21<09:06, 25.33 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20812/34643 [13:22<10:45, 21.42 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20820/34643 [13:22<07:29, 30.74 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20826/34643 [13:22<06:32, 35.16 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20831/34643 [13:22<11:08, 20.67 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20835/34643 [13:23<10:41, 21.53 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20840/34643 [13:23<08:59, 25.56 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20846/34643 [13:23<08:40, 26.52 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20850/34643 [13:23<09:35, 23.95 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20854/34643 [13:23<09:40, 23.76 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20857/34643 [13:23<09:16, 24.78 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20862/34643 [13:24<08:16, 27.78 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20866/34643 [13:24<08:08, 28.22 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20870/34643 [13:24<08:33, 26.80 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20873/34643 [13:24<08:29, 27.02 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20876/34643 [13:24<09:39, 23.76 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20880/34643 [13:24<09:01, 25.41 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20886/34643 [13:24<08:25, 27.24 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20889/34643 [13:25<09:45, 23.48 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20893/34643 [13:25<09:10, 24.96 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20896/34643 [13:25<10:48, 21.20 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20901/34643 [13:25<08:35, 26.66 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20907/34643 [13:25<07:07, 32.14 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20911/34643 [13:25<06:46, 33.78 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20915/34643 [13:26<10:05, 22.66 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20918/34643 [13:26<10:00, 22.84 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20923/34643 [13:26<08:17, 27.59 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20928/34643 [13:26<07:55, 28.82 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20932/34643 [13:26<09:14, 24.72 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20935/34643 [13:26<09:37, 23.72 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20938/34643 [13:27<09:53, 23.09 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20941/34643 [13:27<10:05, 22.64 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20947/34643 [13:27<08:07, 28.11 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20950/34643 [13:27<09:24, 24.25 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20955/34643 [13:27<07:52, 28.96 examples/s]preprocess datasets (num_proc=22):  60%|██████    | 20959/34643 [13:27<08:45, 26.03 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20962/34643 [13:27<09:43, 23.44 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20967/34643 [13:28<08:00, 28.43 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20971/34643 [13:28<07:34, 30.06 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20975/34643 [13:28<07:52, 28.93 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20979/34643 [13:28<10:07, 22.48 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20984/34643 [13:28<08:16, 27.50 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20988/34643 [13:28<08:31, 26.67 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20993/34643 [13:29<07:20, 30.98 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 20997/34643 [13:29<10:19, 22.03 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21000/34643 [13:29<10:33, 21.52 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21007/34643 [13:29<08:00, 28.39 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21011/34643 [13:29<08:03, 28.21 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21016/34643 [13:29<07:26, 30.50 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21020/34643 [13:30<08:47, 25.83 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21024/34643 [13:30<08:35, 26.41 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21027/34643 [13:30<09:25, 24.07 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21031/34643 [13:30<08:24, 26.96 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21034/34643 [13:30<08:44, 25.94 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21037/34643 [13:30<08:34, 26.46 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21042/34643 [13:30<07:22, 30.76 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21046/34643 [13:31<11:07, 20.38 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21050/34643 [13:31<09:32, 23.75 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21058/34643 [13:31<06:34, 34.43 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21063/34643 [13:31<09:15, 24.44 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21067/34643 [13:32<10:41, 21.18 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21075/34643 [13:32<07:33, 29.95 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21081/34643 [13:32<06:41, 33.74 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21086/34643 [13:32<10:37, 21.25 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21090/34643 [13:32<10:05, 22.38 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21097/34643 [13:33<07:49, 28.82 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21103/34643 [13:33<06:36, 34.14 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21108/34643 [13:33<10:41, 21.11 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21114/34643 [13:33<08:37, 26.15 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21123/34643 [13:33<06:39, 33.85 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21128/34643 [13:34<10:23, 21.67 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21132/34643 [13:34<09:27, 23.81 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21140/34643 [13:34<07:20, 30.64 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21145/34643 [13:35<10:03, 22.38 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21151/34643 [13:35<08:29, 26.47 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21160/34643 [13:35<06:10, 36.41 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21166/34643 [13:35<09:50, 22.84 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21172/34643 [13:35<08:07, 27.64 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21177/34643 [13:36<07:42, 29.11 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21182/34643 [13:36<09:04, 24.73 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21186/34643 [13:36<08:50, 25.35 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21190/34643 [13:36<08:09, 27.50 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21194/34643 [13:36<08:39, 25.89 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21198/34643 [13:36<08:47, 25.49 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21201/34643 [13:37<09:30, 23.56 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21205/34643 [13:37<08:43, 25.65 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21209/34643 [13:37<07:51, 28.52 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21213/34643 [13:37<08:24, 26.63 examples/s]preprocess datasets (num_proc=22):  61%|██████    | 21216/34643 [13:37<08:26, 26.52 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21219/34643 [13:37<11:06, 20.13 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21227/34643 [13:38<07:47, 28.68 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21232/34643 [13:38<06:51, 32.61 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21236/34643 [13:38<07:23, 30.24 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21240/34643 [13:38<09:04, 24.62 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21243/34643 [13:38<09:45, 22.90 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21246/34643 [13:38<09:12, 24.23 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21251/34643 [13:38<08:25, 26.48 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21254/34643 [13:39<08:18, 26.85 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21257/34643 [13:39<08:35, 25.97 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21260/34643 [13:39<08:22, 26.63 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21263/34643 [13:39<08:56, 24.95 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21266/34643 [13:39<09:58, 22.35 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21271/34643 [13:39<08:16, 26.92 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21277/34643 [13:39<08:50, 25.17 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21280/34643 [13:40<08:59, 24.75 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21283/34643 [13:40<10:51, 20.52 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21287/34643 [13:40<09:22, 23.73 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21291/34643 [13:40<08:27, 26.29 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21297/34643 [13:40<07:19, 30.37 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21301/34643 [13:40<08:57, 24.81 examples/s]preprocess datasets (num_proc=22):  61%|██████▏   | 21304/34643 [13:41<10:13, 21.73 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21312/34643 [13:41<06:55, 32.12 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21316/34643 [13:41<08:34, 25.93 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21320/34643 [13:41<09:55, 22.36 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21324/34643 [13:41<08:53, 24.97 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21327/34643 [13:41<08:40, 25.58 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21332/34643 [13:42<07:41, 28.83 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21337/34643 [13:42<07:43, 28.70 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21341/34643 [13:42<11:27, 19.35 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21346/34643 [13:42<09:18, 23.80 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21352/34643 [13:42<08:17, 26.72 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21358/34643 [13:43<06:46, 32.66 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21362/34643 [13:43<11:20, 19.51 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21367/34643 [13:43<09:43, 22.76 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21377/34643 [13:43<06:14, 35.38 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21383/34643 [13:44<09:41, 22.80 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21387/34643 [13:44<10:12, 21.64 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21397/34643 [13:44<06:49, 32.34 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21403/34643 [13:44<09:07, 24.20 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21408/34643 [13:45<09:15, 23.83 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21417/34643 [13:45<07:36, 28.97 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21422/34643 [13:45<09:10, 24.02 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21426/34643 [13:45<08:34, 25.69 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21430/34643 [13:46<08:40, 25.37 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21438/34643 [13:46<06:32, 33.66 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21443/34643 [13:46<11:03, 19.90 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21448/34643 [13:46<09:31, 23.08 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21456/34643 [13:46<06:57, 31.56 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21462/34643 [13:47<06:35, 33.35 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21467/34643 [13:47<10:54, 20.13 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21475/34643 [13:47<07:52, 27.84 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21486/34643 [13:47<06:17, 34.81 examples/s]preprocess datasets (num_proc=22):  62%|█���████▏   | 21491/34643 [13:48<09:50, 22.27 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21499/34643 [13:48<07:36, 28.79 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21504/34643 [13:48<07:43, 28.33 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21509/34643 [13:49<09:42, 22.53 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21515/34643 [13:49<07:58, 27.44 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21523/34643 [13:49<07:41, 28.46 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21527/34643 [13:49<09:06, 24.00 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21532/34643 [13:49<08:04, 27.07 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21536/34643 [13:50<08:16, 26.39 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21540/34643 [13:50<07:50, 27.82 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21545/34643 [13:50<07:21, 29.65 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21550/34643 [13:50<06:32, 33.37 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21554/34643 [13:50<09:45, 22.34 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21557/34643 [13:50<09:17, 23.49 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21562/34643 [13:50<08:24, 25.91 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21567/34643 [13:51<07:48, 27.91 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21571/34643 [13:51<08:41, 25.07 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21574/34643 [13:51<09:17, 23.45 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21578/34643 [13:51<08:11, 26.59 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21581/34643 [13:51<09:18, 23.39 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21588/34643 [13:51<07:21, 29.57 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21592/34643 [13:52<08:46, 24.80 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21595/34643 [13:52<08:56, 24.31 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21599/34643 [13:52<08:24, 25.83 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21606/34643 [13:52<06:31, 33.30 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21610/34643 [13:52<08:43, 24.88 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21613/34643 [13:53<09:49, 22.09 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21622/34643 [13:53<06:46, 32.01 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21626/34643 [13:53<11:15, 19.27 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21632/34643 [13:53<08:51, 24.50 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21636/34643 [13:53<08:13, 26.35 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21642/34643 [13:54<06:53, 31.42 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21646/34643 [13:54<07:13, 29.98 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 21650/34643 [13:54<10:27, 20.72 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21660/34643 [13:54<08:20, 25.95 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21664/34643 [13:54<07:59, 27.09 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21668/34643 [13:55<09:58, 21.69 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21674/34643 [13:55<08:44, 24.71 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21680/34643 [13:55<07:05, 30.46 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21684/34643 [13:55<08:24, 25.68 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21688/34643 [13:55<09:30, 22.73 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21692/34643 [13:56<08:34, 25.15 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21697/34643 [13:56<07:16, 29.69 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21701/34643 [13:56<08:20, 25.87 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21705/34643 [13:56<10:40, 20.21 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21712/34643 [13:56<07:45, 27.77 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21717/34643 [13:56<06:44, 31.94 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21721/34643 [13:57<09:19, 23.09 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21725/34643 [13:57<10:04, 21.35 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21728/34643 [13:57<09:32, 22.56 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21735/34643 [13:57<07:12, 29.87 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21739/34643 [13:57<08:30, 25.26 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21743/34643 [13:58<09:09, 23.47 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21746/34643 [13:58<10:13, 21.03 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21750/34643 [13:58<08:57, 23.97 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21754/34643 [13:58<08:56, 24.01 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21757/34643 [13:58<09:36, 22.35 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21764/34643 [13:58<06:49, 31.45 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21768/34643 [13:59<09:02, 23.74 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21771/34643 [13:59<09:49, 21.82 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21774/34643 [13:59<09:52, 21.72 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21780/34643 [13:59<07:58, 26.90 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21785/34643 [13:59<08:07, 26.35 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21788/34643 [13:59<08:19, 25.73 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21791/34643 [14:00<10:22, 20.63 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21797/34643 [14:00<07:47, 27.46 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21802/34643 [14:00<07:08, 29.94 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21806/34643 [14:00<11:52, 18.01 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21812/34643 [14:01<08:52, 24.11 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21816/34643 [14:01<08:19, 25.69 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21821/34643 [14:01<07:17, 29.33 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21825/34643 [14:01<10:57, 19.50 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21832/34643 [14:01<07:52, 27.11 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21836/34643 [14:02<09:25, 22.63 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21840/34643 [14:02<09:41, 22.01 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21844/34643 [14:02<08:50, 24.11 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21847/34643 [14:02<08:34, 24.86 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21850/34643 [14:02<10:01, 21.27 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21854/34643 [14:02<08:48, 24.21 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21858/34643 [14:02<08:54, 23.93 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21863/34643 [14:03<07:15, 29.38 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21867/34643 [14:03<10:53, 19.56 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21871/34643 [14:03<09:19, 22.81 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21876/34643 [14:03<08:39, 24.58 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21879/34643 [14:03<11:13, 18.94 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21882/34643 [14:04<11:23, 18.66 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21888/34643 [14:04<08:38, 24.61 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21891/34643 [14:04<10:35, 20.07 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21894/34643 [14:04<10:21, 20.52 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21897/34643 [14:04<09:30, 22.35 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21900/34643 [14:04<09:23, 22.61 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21903/34643 [14:05<13:06, 16.20 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21911/34643 [14:05<09:39, 21.97 examples/s]preprocess datasets (num_proc=22):  63%|████��█▎   | 21914/34643 [14:05<11:22, 18.66 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21920/34643 [14:05<08:38, 24.55 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21923/34643 [14:06<10:39, 19.88 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21926/34643 [14:06<09:49, 21.58 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21931/34643 [14:06<09:27, 22.41 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21934/34643 [14:06<09:17, 22.81 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21937/34643 [14:06<10:09, 20.84 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21940/34643 [14:06<10:04, 21.00 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21943/34643 [14:06<10:28, 20.21 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21947/34643 [14:07<08:47, 24.08 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21950/34643 [14:07<09:39, 21.89 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21953/34643 [14:07<09:52, 21.41 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21956/34643 [14:07<09:42, 21.79 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21959/34643 [14:07<09:20, 22.61 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21962/34643 [14:07<09:54, 21.32 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21968/34643 [14:08<09:14, 22.86 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21971/34643 [14:08<11:35, 18.21 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21978/34643 [14:08<07:44, 27.27 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21982/34643 [14:08<08:30, 24.80 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21986/34643 [14:08<10:51, 19.42 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21994/34643 [14:09<07:21, 28.67 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 21998/34643 [14:09<10:47, 19.52 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22005/34643 [14:09<07:58, 26.43 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22010/34643 [14:09<07:30, 28.02 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22014/34643 [14:10<09:19, 22.59 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22019/34643 [14:10<07:53, 26.68 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22023/34643 [14:10<07:18, 28.80 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22027/34643 [14:10<10:05, 20.84 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22033/34643 [14:10<07:44, 27.16 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22037/34643 [14:10<08:03, 26.09 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22041/34643 [14:11<09:43, 21.62 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22044/34643 [14:11<09:19, 22.52 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22051/34643 [14:11<06:55, 30.30 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22056/34643 [14:11<07:06, 29.49 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22060/34643 [14:11<08:31, 24.62 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22063/34643 [14:12<10:33, 19.86 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22067/34643 [14:12<09:14, 22.66 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22075/34643 [14:12<06:43, 31.13 examples/s]preprocess datasets (num_proc=22):  64%|██████▎   | 22079/34643 [14:12<10:04, 20.78 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22085/34643 [14:12<07:48, 26.81 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22091/34643 [14:13<09:37, 21.74 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22095/34643 [14:13<09:32, 21.90 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22103/34643 [14:13<06:51, 30.47 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22108/34643 [14:13<08:13, 25.40 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22112/34643 [14:13<08:41, 24.03 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22119/34643 [14:14<06:41, 31.23 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22124/34643 [14:14<11:09, 18.69 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22128/34643 [14:14<10:07, 20.61 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22138/34643 [14:14<06:25, 32.40 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22144/34643 [14:15<09:37, 21.65 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22149/34643 [14:15<08:29, 24.50 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22153/34643 [14:15<08:47, 23.67 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22157/34643 [14:15<09:31, 21.86 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22160/34643 [14:15<09:13, 22.55 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22163/34643 [14:16<10:16, 20.26 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22168/34643 [14:16<08:29, 24.47 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22172/34643 [14:16<07:38, 27.21 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22176/34643 [14:16<11:19, 18.34 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22180/34643 [14:16<09:38, 21.53 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22187/34643 [14:17<07:07, 29.15 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22191/34643 [14:17<06:55, 29.98 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22195/34643 [14:17<09:52, 21.01 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22198/34643 [14:17<10:00, 20.72 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22205/34643 [14:17<07:03, 29.36 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22209/34643 [14:18<08:33, 24.24 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22213/34643 [14:18<09:02, 22.93 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22218/34643 [14:18<07:36, 27.24 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22223/34643 [14:18<07:13, 28.62 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22227/34643 [14:18<08:40, 23.85 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22230/34643 [14:18<09:07, 22.66 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22233/34643 [14:19<08:59, 23.02 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22236/34643 [14:19<08:39, 23.87 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22239/34643 [14:19<08:24, 24.59 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22244/34643 [14:19<07:13, 28.60 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22248/34643 [14:19<08:28, 24.39 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22251/34643 [14:19<09:42, 21.28 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22255/34643 [14:19<08:42, 23.71 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22262/34643 [14:20<06:25, 32.15 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22266/34643 [14:20<07:10, 28.73 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22270/34643 [14:20<07:14, 28.51 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22274/34643 [14:20<09:15, 22.26 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22279/34643 [14:20<07:49, 26.34 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22283/34643 [14:20<07:06, 29.00 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22287/34643 [14:21<09:26, 21.83 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22290/34643 [14:21<10:37, 19.38 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22295/34643 [14:21<08:18, 24.79 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22306/34643 [14:21<05:13, 39.41 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22311/34643 [14:22<09:48, 20.97 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22318/34643 [14:22<07:33, 27.17 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22325/34643 [14:22<07:00, 29.30 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22330/34643 [14:22<08:46, 23.39 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22335/34643 [14:22<07:40, 26.74 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 22341/34643 [14:23<06:51, 29.90 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22345/34643 [14:23<08:50, 23.17 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22349/34643 [14:23<08:22, 24.44 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22355/34643 [14:23<06:39, 30.73 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22360/34643 [14:23<07:21, 27.84 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22364/34643 [14:24<08:24, 24.36 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22368/34643 [14:24<07:56, 25.78 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22375/34643 [14:24<06:49, 29.98 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22379/34643 [14:24<06:39, 30.73 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22383/34643 [14:24<10:02, 20.36 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22386/34643 [14:24<09:21, 21.83 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22391/34643 [14:25<07:34, 26.98 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22395/34643 [14:25<06:52, 29.67 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22399/34643 [14:25<07:20, 27.78 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22403/34643 [14:25<09:14, 22.08 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22409/34643 [14:25<07:20, 27.77 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22414/34643 [14:25<06:26, 31.67 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22418/34643 [14:26<10:13, 19.93 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22427/34643 [14:26<06:48, 29.88 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22432/34643 [14:26<06:11, 32.86 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22437/34643 [14:26<09:36, 21.18 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22441/34643 [14:27<09:10, 22.17 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22446/34643 [14:27<07:50, 25.91 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22453/34643 [14:27<06:02, 33.65 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22458/34643 [14:27<11:13, 18.09 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22468/34643 [14:28<07:12, 28.18 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22475/34643 [14:28<06:00, 33.74 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22481/34643 [14:28<09:45, 20.76 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22488/34643 [14:28<07:49, 25.88 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22495/34643 [14:29<06:43, 30.12 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22500/34643 [14:29<08:05, 24.99 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22504/34643 [14:29<09:12, 21.98 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22510/34643 [14:29<07:33, 26.78 examples/s]preprocess datasets (num_proc=22):  65%|██████▍   | 22514/34643 [14:29<07:30, 26.90 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22518/34643 [14:29<07:25, 27.22 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22522/34643 [14:30<09:09, 22.06 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22525/34643 [14:30<08:42, 23.21 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22531/34643 [14:30<07:00, 28.78 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22535/34643 [14:30<06:37, 30.48 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22539/34643 [14:30<08:23, 24.04 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22543/34643 [14:31<07:59, 25.26 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22548/34643 [14:31<07:03, 28.58 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22552/34643 [14:31<07:15, 27.78 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22555/34643 [14:31<07:57, 25.32 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22560/34643 [14:31<06:40, 30.18 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22564/34643 [14:31<08:13, 24.46 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22568/34643 [14:31<07:29, 26.88 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22572/34643 [14:32<07:34, 26.57 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22578/34643 [14:32<05:58, 33.68 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22582/34643 [14:32<09:29, 21.16 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22586/34643 [14:32<08:36, 23.34 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22591/34643 [14:32<07:21, 27.31 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22595/34643 [14:32<07:39, 26.20 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22601/34643 [14:33<06:32, 30.67 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22605/34643 [14:33<08:50, 22.68 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22611/34643 [14:33<07:07, 28.14 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22617/34643 [14:33<05:53, 34.06 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22622/34643 [14:33<08:16, 24.21 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22626/34643 [14:34<09:13, 21.72 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22632/34643 [14:34<07:10, 27.87 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22637/34643 [14:34<06:15, 31.96 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22642/34643 [14:34<06:28, 30.86 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22646/34643 [14:35<10:01, 19.94 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22653/34643 [14:35<07:20, 27.20 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22658/34643 [14:35<07:57, 25.12 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22662/34643 [14:35<08:19, 24.00 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22666/34643 [14:35<08:20, 23.94 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22674/34643 [14:35<06:21, 31.34 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22678/34643 [14:36<07:23, 27.00 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22682/34643 [14:36<08:25, 23.67 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22685/34643 [14:36<09:00, 22.14 examples/s]preprocess datasets (num_proc=22):  65%|██████▌   | 22689/34643 [14:36<07:57, 25.05 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22697/34643 [14:36<05:39, 35.23 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22702/34643 [14:36<06:25, 31.00 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22706/34643 [14:37<08:37, 23.07 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22709/34643 [14:37<09:25, 21.12 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22718/34643 [14:37<06:16, 31.64 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22723/34643 [14:37<05:46, 34.37 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22728/34643 [14:38<08:53, 22.32 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22732/34643 [14:38<08:19, 23.84 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22739/34643 [14:38<06:41, 29.68 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22743/34643 [14:38<09:11, 21.57 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22746/34643 [14:38<09:28, 20.93 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22751/34643 [14:38<07:45, 25.57 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22757/34643 [14:39<06:18, 31.41 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22761/34643 [14:39<07:23, 26.77 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22765/34643 [14:39<10:30, 18.85 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22775/34643 [14:39<06:21, 31.13 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22782/34643 [14:39<05:31, 35.83 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22787/34643 [14:40<08:41, 22.74 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22791/34643 [14:40<08:01, 24.61 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22800/34643 [14:40<05:40, 34.83 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22806/34643 [14:41<09:21, 21.08 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22815/34643 [14:41<06:44, 29.23 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22822/34643 [14:41<07:52, 25.00 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22827/34643 [14:41<08:01, 24.57 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22833/34643 [14:41<06:48, 28.94 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22838/34643 [14:42<06:41, 29.38 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22842/34643 [14:42<09:27, 20.79 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22847/34643 [14:42<08:00, 24.55 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22852/34643 [14:42<06:52, 28.61 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22856/34643 [14:42<07:33, 25.97 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22860/34643 [14:43<09:04, 21.63 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22863/34643 [14:43<08:51, 22.15 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22866/34643 [14:43<08:36, 22.78 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22873/34643 [14:43<06:25, 30.57 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22878/34643 [14:43<06:23, 30.69 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22882/34643 [14:44<08:15, 23.73 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22885/34643 [14:44<08:58, 21.84 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22888/34643 [14:44<09:15, 21.16 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22892/34643 [14:44<08:11, 23.89 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22899/34643 [14:44<06:13, 31.41 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22903/34643 [14:45<09:43, 20.10 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22906/34643 [14:45<09:11, 21.28 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22909/34643 [14:45<08:55, 21.90 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22918/34643 [14:45<06:14, 31.27 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22922/34643 [14:45<05:57, 32.77 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22926/34643 [14:45<09:21, 20.86 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22929/34643 [14:46<08:57, 21.78 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22936/34643 [14:46<06:58, 27.94 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22940/34643 [14:46<07:04, 27.59 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22944/34643 [14:46<06:56, 28.06 examples/s]preprocess datasets (num_proc=22):  66%|██████▌   | 22948/34643 [14:46<07:28, 26.06 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22951/34643 [14:46<07:43, 25.25 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22954/34643 [14:46<08:30, 22.90 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22957/34643 [14:47<08:43, 22.33 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22960/34643 [14:47<08:21, 23.28 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22963/34643 [14:47<08:10, 23.81 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22969/34643 [14:47<06:38, 29.28 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22973/34643 [14:47<07:06, 27.34 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22976/34643 [14:47<08:12, 23.67 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22979/34643 [14:47<08:57, 21.69 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22983/34643 [14:48<07:44, 25.11 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22994/34643 [14:48<04:35, 42.23 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 22999/34643 [14:48<07:59, 24.28 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 23003/34643 [14:48<07:23, 26.25 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 23013/34643 [14:49<06:04, 31.89 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 23017/34643 [14:49<08:48, 21.98 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 23021/34643 [14:49<08:07, 23.83 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 23031/34643 [14:49<05:30, 35.16 examples/s]preprocess datasets (num_proc=22):  66%|██████▋   | 23036/34643 [14:50<09:48, 19.71 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23040/34643 [14:50<08:46, 22.05 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23047/34643 [14:50<06:40, 28.98 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23052/34643 [14:50<06:58, 27.67 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23056/34643 [14:51<10:33, 18.30 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23063/34643 [14:51<07:52, 24.53 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23069/34643 [14:51<06:39, 28.95 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23074/34643 [14:51<07:50, 24.61 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23078/34643 [14:51<07:59, 24.11 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23082/34643 [14:51<08:03, 23.91 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23090/34643 [14:52<05:44, 33.49 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23095/34643 [14:52<08:35, 22.39 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23101/34643 [14:52<07:49, 24.60 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23107/34643 [14:52<06:34, 29.22 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23111/34643 [14:53<08:01, 23.94 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23115/34643 [14:53<07:44, 24.82 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23121/34643 [14:53<06:15, 30.69 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23125/34643 [14:53<06:50, 28.04 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23129/34643 [14:53<07:15, 26.43 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23132/34643 [14:53<07:21, 26.06 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23135/34643 [14:53<08:05, 23.71 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23141/34643 [14:54<06:12, 30.85 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23145/34643 [14:54<08:47, 21.79 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23150/34643 [14:54<07:23, 25.92 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23154/34643 [14:54<07:21, 25.99 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23159/34643 [14:54<06:21, 30.13 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23163/34643 [14:55<09:22, 20.41 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23168/34643 [14:55<07:36, 25.12 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23174/34643 [14:55<06:09, 31.06 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23180/34643 [14:55<05:26, 35.15 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23185/34643 [14:56<09:43, 19.65 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23195/34643 [14:56<06:13, 30.65 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23201/34643 [14:56<07:30, 25.41 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23206/34643 [14:56<09:01, 21.10 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23210/34643 [14:56<08:16, 23.02 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23216/34643 [14:57<06:39, 28.58 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23221/34643 [14:57<09:05, 20.94 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23225/34643 [14:57<08:07, 23.41 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23229/34643 [14:57<07:25, 25.59 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23235/34643 [14:57<06:19, 30.06 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23239/34643 [14:57<06:14, 30.49 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23243/34643 [14:58<09:47, 19.40 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23249/34643 [14:58<07:24, 25.63 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23259/34643 [14:58<04:51, 39.09 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23265/34643 [14:59<08:46, 21.61 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23277/34643 [14:59<05:35, 33.91 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23284/34643 [14:59<08:21, 22.65 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23289/34643 [15:00<08:14, 22.94 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23295/34643 [15:00<06:55, 27.29 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23300/34643 [15:00<07:31, 25.12 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23304/34643 [15:00<08:16, 22.85 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23309/34643 [15:00<07:10, 26.30 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23313/34643 [15:00<07:14, 26.11 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23317/34643 [15:01<07:21, 25.67 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23320/34643 [15:01<08:25, 22.40 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23325/34643 [15:01<07:26, 25.37 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23328/34643 [15:01<08:26, 22.32 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23332/34643 [15:01<08:07, 23.19 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23337/34643 [15:01<06:44, 27.93 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23341/34643 [15:02<08:38, 21.82 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23344/34643 [15:02<08:16, 22.77 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23347/34643 [15:02<08:23, 22.42 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23350/34643 [15:02<08:09, 23.08 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23354/34643 [15:02<07:00, 26.83 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23358/34643 [15:02<08:16, 22.72 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23362/34643 [15:03<09:08, 20.56 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23366/34643 [15:03<07:45, 24.22 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23369/34643 [15:03<07:26, 25.24 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23380/34643 [15:03<05:18, 35.34 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 23384/34643 [15:03<08:47, 21.33 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23391/34643 [15:04<06:45, 27.78 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23398/34643 [15:04<05:43, 32.73 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23403/34643 [15:04<09:31, 19.66 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23410/34643 [15:04<07:17, 25.66 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23418/34643 [15:05<06:07, 30.51 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23423/34643 [15:05<09:33, 19.56 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23428/34643 [15:05<08:06, 23.07 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23436/34643 [15:05<06:11, 30.17 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23441/34643 [15:06<08:12, 22.76 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23445/34643 [15:06<07:51, 23.77 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23449/34643 [15:06<07:40, 24.32 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23456/34643 [15:06<06:17, 29.63 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23460/34643 [15:06<07:08, 26.07 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23464/34643 [15:07<09:24, 19.82 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23471/34643 [15:07<07:31, 24.76 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23476/34643 [15:07<06:35, 28.24 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23480/34643 [15:07<06:08, 30.32 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23484/34643 [15:07<08:06, 22.95 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23488/34643 [15:08<07:16, 25.53 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23492/34643 [15:08<08:14, 22.55 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23496/34643 [15:08<07:22, 25.18 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23500/34643 [15:08<07:23, 25.12 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23504/34643 [15:08<06:56, 26.77 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23507/34643 [15:08<08:15, 22.49 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23510/34643 [15:08<07:48, 23.77 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23513/34643 [15:09<08:07, 22.83 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23520/34643 [15:09<05:42, 32.46 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23525/34643 [15:09<07:19, 25.29 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23529/34643 [15:09<08:23, 22.07 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23535/34643 [15:09<06:40, 27.76 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23542/34643 [15:10<05:55, 31.22 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23546/34643 [15:10<08:22, 22.09 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23551/34643 [15:10<07:41, 24.01 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23560/34643 [15:10<05:48, 31.80 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23564/34643 [15:10<05:43, 32.27 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23568/34643 [15:11<07:47, 23.69 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23571/34643 [15:11<08:37, 21.41 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23576/34643 [15:11<07:29, 24.59 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23583/34643 [15:11<05:36, 32.89 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23588/34643 [15:12<09:18, 19.80 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23592/34643 [15:12<08:29, 21.68 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23600/34643 [15:12<05:57, 30.87 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23609/34643 [15:12<05:01, 36.58 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23614/34643 [15:13<08:47, 20.90 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23627/34643 [15:13<05:28, 33.57 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23633/34643 [15:13<08:33, 21.44 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23641/34643 [15:13<06:39, 27.57 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23649/34643 [15:14<05:29, 33.37 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23655/34643 [15:14<08:40, 21.10 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23663/34643 [15:14<06:37, 27.62 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23672/34643 [15:14<06:07, 29.84 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23677/34643 [15:15<07:43, 23.66 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23684/34643 [15:15<06:15, 29.19 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23690/34643 [15:15<05:23, 33.83 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23695/34643 [15:16<08:27, 21.56 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23700/34643 [15:16<07:13, 25.24 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23709/34643 [15:16<05:20, 34.08 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23715/34643 [15:16<07:54, 23.02 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23719/34643 [15:16<07:28, 24.35 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23725/34643 [15:17<06:19, 28.74 examples/s]preprocess datasets (num_proc=22):  68%|██████▊   | 23730/34643 [15:17<06:11, 29.36 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23734/34643 [15:17<07:08, 25.49 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23738/34643 [15:17<07:05, 25.62 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23742/34643 [15:17<06:33, 27.70 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23746/34643 [15:17<06:01, 30.14 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23750/34643 [15:18<08:34, 21.19 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23753/34643 [15:18<08:03, 22.53 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23757/34643 [15:18<07:04, 25.67 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23763/34643 [15:18<05:56, 30.48 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23767/34643 [15:18<05:40, 31.96 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23771/34643 [15:18<08:44, 20.72 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23779/34643 [15:19<06:19, 28.65 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23783/34643 [15:19<07:15, 24.94 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23788/34643 [15:19<07:44, 23.38 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23791/34643 [15:19<07:51, 22.99 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23796/34643 [15:19<07:04, 25.56 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23804/34643 [15:19<05:11, 34.76 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23808/34643 [15:20<07:13, 25.02 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23812/34643 [15:20<08:23, 21.52 examples/s]preprocess datasets (num_proc=22):  69%|██████▊   | 23816/34643 [15:20<07:35, 23.75 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23823/34643 [15:20<05:37, 32.10 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23828/34643 [15:21<07:38, 23.60 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23832/34643 [15:21<08:49, 20.41 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23838/34643 [15:21<06:50, 26.32 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23847/34643 [15:21<06:53, 26.13 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23851/34643 [15:22<07:32, 23.83 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23858/34643 [15:22<05:51, 30.71 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23865/34643 [15:22<06:37, 27.09 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23869/34643 [15:22<07:01, 25.55 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23873/34643 [15:22<06:44, 26.60 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23879/34643 [15:22<06:18, 28.42 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23883/34643 [15:23<06:49, 26.30 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23886/34643 [15:23<07:43, 23.20 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23889/34643 [15:23<07:35, 23.60 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23894/34643 [15:23<06:30, 27.55 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23898/34643 [15:23<06:00, 29.79 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23902/34643 [15:23<06:39, 26.91 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23905/34643 [15:24<07:23, 24.19 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23908/34643 [15:24<08:13, 21.76 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23917/34643 [15:24<05:01, 35.58 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23922/34643 [15:24<08:26, 21.16 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23929/34643 [15:24<06:29, 27.50 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23937/34643 [15:25<05:31, 32.30 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23942/34643 [15:25<08:34, 20.78 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23950/34643 [15:25<06:31, 27.33 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23956/34643 [15:25<05:42, 31.23 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23961/34643 [15:26<07:27, 23.85 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23965/34643 [15:26<06:56, 25.62 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23971/34643 [15:26<06:30, 27.35 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23975/34643 [15:26<06:05, 29.23 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23979/34643 [15:26<07:28, 23.78 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23982/34643 [15:27<07:30, 23.69 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23987/34643 [15:27<06:23, 27.81 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23991/34643 [15:27<06:24, 27.72 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23995/34643 [15:27<07:20, 24.19 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 23998/34643 [15:27<07:42, 23.02 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24003/34643 [15:27<06:15, 28.36 examples/s]preprocess datasets (num_proc=22):  69%|█���████▉   | 24007/34643 [15:27<07:15, 24.40 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24010/34643 [15:28<07:19, 24.17 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24013/34643 [15:28<07:51, 22.52 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24017/34643 [15:28<07:00, 25.25 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24020/34643 [15:28<06:48, 26.01 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24024/34643 [15:28<06:12, 28.48 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24028/34643 [15:28<07:55, 22.32 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24031/34643 [15:28<07:52, 22.44 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24034/34643 [15:29<07:26, 23.78 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24041/34643 [15:29<06:07, 28.88 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24045/34643 [15:29<06:40, 26.45 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24048/34643 [15:29<08:19, 21.20 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24052/34643 [15:29<08:04, 21.85 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24056/34643 [15:29<07:10, 24.58 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24059/34643 [15:30<07:11, 24.55 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24063/34643 [15:30<06:21, 27.76 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24066/34643 [15:30<08:11, 21.51 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 24074/34643 [15:30<05:26, 32.38 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24078/34643 [15:30<05:43, 30.79 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24082/34643 [15:30<07:25, 23.69 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24085/34643 [15:31<08:48, 19.96 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24092/34643 [15:31<06:32, 26.89 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24098/34643 [15:31<05:56, 29.57 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24102/34643 [15:31<07:05, 24.77 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24105/34643 [15:31<07:09, 24.55 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24110/34643 [15:32<06:37, 26.51 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24115/34643 [15:32<06:29, 27.00 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24118/34643 [15:32<07:03, 24.85 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24122/34643 [15:32<06:24, 27.34 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24125/34643 [15:32<06:43, 26.07 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24131/34643 [15:32<05:57, 29.41 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24134/34643 [15:32<06:35, 26.60 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24137/34643 [15:33<07:57, 22.00 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24141/34643 [15:33<07:04, 24.74 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24144/34643 [15:33<06:50, 25.55 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24147/34643 [15:33<06:56, 25.19 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24153/34643 [15:33<05:27, 32.02 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24157/34643 [15:33<06:21, 27.50 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24160/34643 [15:33<07:08, 24.45 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24163/34643 [15:34<08:43, 20.01 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24170/34643 [15:34<06:36, 26.45 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24173/34643 [15:34<06:39, 26.20 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24178/34643 [15:34<05:39, 30.83 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24182/34643 [15:34<06:20, 27.48 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24185/34643 [15:34<06:35, 26.41 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24188/34643 [15:35<07:26, 23.40 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24193/34643 [15:35<05:59, 29.04 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24197/34643 [15:35<07:08, 24.39 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24200/34643 [15:35<07:28, 23.27 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24207/34643 [15:35<06:00, 28.93 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24211/34643 [15:35<06:09, 28.21 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24214/34643 [15:36<07:13, 24.05 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24219/34643 [15:36<06:03, 28.69 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24223/34643 [15:36<06:50, 25.36 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24227/34643 [15:36<06:15, 27.76 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24231/34643 [15:36<07:56, 21.85 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24238/34643 [15:36<06:18, 27.52 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24243/34643 [15:37<06:11, 27.97 examples/s]preprocess datasets (num_proc=22):  70%|██████▉   | 24247/34643 [15:37<08:30, 20.35 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24251/34643 [15:37<07:34, 22.86 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24258/34643 [15:37<05:57, 29.01 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24265/34643 [15:38<07:30, 23.01 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24268/34643 [15:38<09:39, 17.91 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24271/34643 [15:38<10:25, 16.60 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24274/34643 [15:38<09:33, 18.07 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24277/34643 [15:39<09:54, 17.45 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24280/34643 [15:39<12:29, 13.82 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24282/34643 [15:39<12:24, 13.91 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24286/34643 [15:39<09:40, 17.83 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24289/34643 [15:39<08:38, 19.98 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24292/34643 [15:40<11:53, 14.52 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24294/34643 [15:40<14:01, 12.30 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24297/34643 [15:40<11:27, 15.05 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24299/34643 [15:40<11:06, 15.51 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24301/34643 [15:40<10:39, 16.17 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24305/34643 [15:40<09:27, 18.22 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24308/34643 [15:41<09:56, 17.34 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24312/34643 [15:41<08:14, 20.90 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24315/34643 [15:41<08:00, 21.50 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24320/34643 [15:41<06:32, 26.31 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24323/34643 [15:41<06:28, 26.55 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24326/34643 [15:41<08:12, 20.93 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24333/34643 [15:41<06:02, 28.44 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24337/34643 [15:42<07:45, 22.16 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24342/34643 [15:42<06:19, 27.17 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24346/34643 [15:42<06:56, 24.74 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24352/34643 [15:42<05:55, 28.93 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24356/34643 [15:42<06:48, 25.21 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24359/34643 [15:42<06:48, 25.19 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24364/34643 [15:43<06:06, 28.01 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24368/34643 [15:43<05:50, 29.32 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24373/34643 [15:43<06:24, 26.73 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24378/34643 [15:43<06:35, 25.98 examples/s]preprocess datasets (num_proc=22):  70%|████��██   | 24382/34643 [15:43<07:23, 23.13 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24386/34643 [15:43<07:08, 23.93 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24391/34643 [15:44<05:54, 28.91 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24396/34643 [15:44<05:32, 30.84 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24400/34643 [15:44<06:12, 27.51 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24403/34643 [15:44<08:22, 20.38 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24407/34643 [15:44<07:17, 23.37 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24411/34643 [15:44<06:29, 26.28 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24418/34643 [15:45<04:54, 34.76 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 24422/34643 [15:45<07:55, 21.48 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24426/34643 [15:45<08:07, 20.94 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24436/34643 [15:45<05:12, 32.70 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24441/34643 [15:46<06:04, 27.99 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24445/34643 [15:46<06:11, 27.48 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24449/34643 [15:46<06:10, 27.48 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24456/34643 [15:46<05:06, 33.19 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24460/34643 [15:46<05:55, 28.68 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24464/34643 [15:46<07:07, 23.82 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24468/34643 [15:47<08:01, 21.13 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24471/34643 [15:47<07:35, 22.32 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24477/34643 [15:47<06:02, 28.02 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24481/34643 [15:47<06:18, 26.87 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24484/34643 [15:47<06:48, 24.87 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24487/34643 [15:47<07:00, 24.16 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24490/34643 [15:47<06:46, 24.98 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24493/34643 [15:48<06:45, 25.04 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24499/34643 [15:48<05:16, 32.05 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24503/34643 [15:48<06:10, 27.40 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24506/34643 [15:48<06:36, 25.56 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24509/34643 [15:48<07:13, 23.40 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24516/34643 [15:48<05:01, 33.58 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24520/34643 [15:48<05:35, 30.17 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24524/34643 [15:49<08:47, 19.19 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24532/34643 [15:49<05:55, 28.42 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24538/34643 [15:49<05:00, 33.60 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24543/34643 [15:50<08:11, 20.54 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24549/34643 [15:50<06:33, 25.63 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24556/34643 [15:50<05:32, 30.31 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24562/34643 [15:50<05:47, 29.02 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24566/34643 [15:50<07:49, 21.48 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24575/34643 [15:51<05:45, 29.13 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24579/34643 [15:51<05:34, 30.12 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24583/34643 [15:51<06:38, 25.26 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24587/34643 [15:51<08:03, 20.79 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24593/34643 [15:51<06:19, 26.47 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24598/34643 [15:51<05:29, 30.47 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24603/34643 [15:52<05:38, 29.63 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24607/34643 [15:52<06:24, 26.07 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24611/34643 [15:52<06:47, 24.62 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24618/34643 [15:52<05:46, 28.90 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24622/34643 [15:52<06:37, 25.18 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24627/34643 [15:53<06:21, 26.23 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24632/34643 [15:53<05:55, 28.18 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24635/34643 [15:53<06:22, 26.14 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24638/34643 [15:53<07:13, 23.08 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24641/34643 [15:53<07:49, 21.30 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24650/34643 [15:53<04:57, 33.54 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24655/34643 [15:53<04:47, 34.69 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24659/34643 [15:54<08:41, 19.15 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24667/34643 [15:54<05:56, 27.97 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24674/34643 [15:54<04:46, 34.74 examples/s]preprocess datasets (num_proc=22):  71%|███████   | 24680/34643 [15:55<07:13, 22.99 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24684/34643 [15:55<07:02, 23.56 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24690/34643 [15:55<06:00, 27.61 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24694/34643 [15:55<06:55, 23.92 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24698/34643 [15:55<07:01, 23.62 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24701/34643 [15:55<06:50, 24.22 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24704/34643 [15:56<06:46, 24.43 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24709/34643 [15:56<05:49, 28.43 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24713/34643 [15:56<06:09, 26.87 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24716/34643 [15:56<08:21, 19.78 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24723/34643 [15:56<06:01, 27.42 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24727/34643 [15:56<05:52, 28.11 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24731/34643 [15:57<07:09, 23.08 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24734/34643 [15:57<06:55, 23.83 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24738/34643 [15:57<07:09, 23.04 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24742/34643 [15:57<06:16, 26.27 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24745/34643 [15:57<06:07, 26.94 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24748/34643 [15:57<06:15, 26.37 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24752/34643 [15:57<05:45, 28.63 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24755/34643 [15:58<06:52, 23.99 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24759/34643 [15:58<06:37, 24.84 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24763/34643 [15:58<05:51, 28.14 examples/s]preprocess datasets (num_proc=22):  71%|███████▏  | 24767/34643 [15:58<08:04, 20.38 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24771/34643 [15:58<06:53, 23.87 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24777/34643 [15:58<05:26, 30.17 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24782/34643 [15:59<06:01, 27.28 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24786/34643 [15:59<06:24, 25.61 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24789/34643 [15:59<07:49, 21.00 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24795/34643 [15:59<06:01, 27.25 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24799/34643 [15:59<05:48, 28.24 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24803/34643 [15:59<05:27, 30.07 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24807/34643 [16:00<06:34, 24.91 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24811/34643 [16:00<06:06, 26.85 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24814/34643 [16:00<06:36, 24.78 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24819/34643 [16:00<05:47, 28.28 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24823/34643 [16:00<06:40, 24.53 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24828/34643 [16:00<06:00, 27.26 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24831/34643 [16:01<06:51, 23.85 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24838/34643 [16:01<04:55, 33.14 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24842/34643 [16:01<07:29, 21.81 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24846/34643 [16:01<06:40, 24.45 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24850/34643 [16:01<06:07, 26.64 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24854/34643 [16:01<05:34, 29.29 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24858/34643 [16:02<06:05, 26.80 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24862/34643 [16:02<05:39, 28.79 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24866/34643 [16:02<06:18, 25.81 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24869/34643 [16:02<07:49, 20.83 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24873/34643 [16:02<06:52, 23.67 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24877/34643 [16:02<06:01, 27.01 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24881/34643 [16:02<06:04, 26.80 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24884/34643 [16:03<06:08, 26.50 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24888/34643 [16:03<05:35, 29.06 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24892/34643 [16:03<05:32, 29.31 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24896/34643 [16:03<05:25, 29.91 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24900/34643 [16:03<05:08, 31.60 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24904/34643 [16:03<08:18, 19.55 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24908/34643 [16:04<07:09, 22.69 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24913/34643 [16:04<05:51, 27.66 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24920/34643 [16:04<04:40, 34.66 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24925/34643 [16:04<07:10, 22.57 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24932/34643 [16:04<05:26, 29.78 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24937/34643 [16:05<08:09, 19.84 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24945/34643 [16:05<05:54, 27.38 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24953/34643 [16:05<04:46, 33.78 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24958/34643 [16:06<07:33, 21.38 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24964/34643 [16:06<06:12, 25.95 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24969/34643 [16:06<05:27, 29.52 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24974/34643 [16:06<06:32, 24.65 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24978/34643 [16:06<06:48, 23.64 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24982/34643 [16:06<06:06, 26.34 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24990/34643 [16:07<06:29, 24.81 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24994/34643 [16:07<07:25, 21.65 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 24998/34643 [16:07<06:46, 23.72 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25005/34643 [16:07<05:14, 30.65 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25009/34643 [16:07<05:49, 27.56 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25013/34643 [16:08<07:52, 20.36 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25018/34643 [16:08<06:42, 23.92 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25021/34643 [16:08<06:25, 24.98 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25029/34643 [16:08<04:28, 35.87 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25034/34643 [16:08<06:11, 25.83 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25038/34643 [16:09<06:59, 22.89 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25042/34643 [16:09<06:15, 25.57 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25046/34643 [16:09<05:51, 27.31 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25050/34643 [16:09<05:28, 29.19 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25054/34643 [16:09<06:32, 24.40 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25059/34643 [16:09<05:35, 28.58 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25063/34643 [16:09<05:40, 28.12 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25067/34643 [16:10<05:35, 28.58 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25072/34643 [16:10<05:10, 30.79 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25076/34643 [16:10<07:57, 20.06 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25084/34643 [16:10<05:30, 28.93 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25090/34643 [16:10<04:58, 32.02 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25094/34643 [16:10<04:51, 32.78 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25098/34643 [16:11<07:04, 22.51 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25103/34643 [16:11<05:58, 26.60 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25107/34643 [16:11<05:32, 28.68 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25111/34643 [16:11<07:15, 21.87 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 25116/34643 [16:11<05:58, 26.60 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25120/34643 [16:12<05:42, 27.81 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25124/34643 [16:12<05:56, 26.67 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25128/34643 [16:12<06:41, 23.68 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25131/34643 [16:12<07:48, 20.32 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25134/34643 [16:12<07:22, 21.51 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25141/34643 [16:12<05:17, 29.94 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25145/34643 [16:13<05:11, 30.46 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25149/34643 [16:13<05:43, 27.65 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25152/34643 [16:13<07:23, 21.39 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25155/34643 [16:13<07:05, 22.28 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25163/34643 [16:13<04:48, 32.91 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25167/34643 [16:13<05:30, 28.66 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25171/34643 [16:14<07:05, 22.28 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25176/34643 [16:14<05:58, 26.43 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25181/34643 [16:14<05:12, 30.32 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25185/34643 [16:14<06:43, 23.46 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25188/34643 [16:14<07:24, 21.29 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25193/34643 [16:15<06:14, 25.26 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25200/34643 [16:15<04:58, 31.67 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25204/34643 [16:15<05:37, 28.00 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25208/34643 [16:15<07:31, 20.90 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25211/34643 [16:15<07:31, 20.87 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25220/34643 [16:15<04:43, 33.19 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25225/34643 [16:16<06:15, 25.06 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25229/34643 [16:16<06:40, 23.48 examples/s]preprocess datasets (num_proc=22):  73%|███���███▎  | 25233/34643 [16:16<06:02, 25.98 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25240/34643 [16:16<04:35, 34.08 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25245/34643 [16:16<04:38, 33.71 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25249/34643 [16:17<07:09, 21.88 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25253/34643 [16:17<06:26, 24.32 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25257/34643 [16:17<06:57, 22.49 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25265/34643 [16:17<05:30, 28.38 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25269/34643 [16:18<07:04, 22.09 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25272/34643 [16:18<06:50, 22.83 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25277/34643 [16:18<05:49, 26.80 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25281/34643 [16:18<05:33, 28.08 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25285/34643 [16:18<05:08, 30.38 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25289/34643 [16:18<07:16, 21.45 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25292/34643 [16:18<07:19, 21.28 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25300/34643 [16:19<05:04, 30.69 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25304/34643 [16:19<05:07, 30.37 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25308/34643 [16:19<05:41, 27.35 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25312/34643 [16:19<07:43, 20.12 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25316/34643 [16:19<06:41, 23.25 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25324/34643 [16:19<04:39, 33.35 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25329/34643 [16:20<06:25, 24.15 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25333/34643 [16:20<06:58, 22.26 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25338/34643 [16:20<05:54, 26.27 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25345/34643 [16:20<04:48, 32.26 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25349/34643 [16:20<05:35, 27.69 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25353/34643 [16:21<07:45, 19.94 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25363/34643 [16:21<05:05, 30.36 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25368/34643 [16:21<04:59, 30.94 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25372/34643 [16:21<06:40, 23.15 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25376/34643 [16:22<06:40, 23.17 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25382/34643 [16:22<06:19, 24.37 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25385/34643 [16:22<06:30, 23.69 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25388/34643 [16:22<06:19, 24.38 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25393/34643 [16:22<05:22, 28.68 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25397/34643 [16:22<05:17, 29.12 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25403/34643 [16:22<04:20, 35.48 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25407/34643 [16:23<07:26, 20.68 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25411/34643 [16:23<06:48, 22.59 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25418/34643 [16:23<05:17, 29.09 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25422/34643 [16:23<05:25, 28.33 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25426/34643 [16:23<05:31, 27.84 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25430/34643 [16:24<06:19, 24.26 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25433/34643 [16:24<06:33, 23.40 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25437/34643 [16:24<05:49, 26.32 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25441/34643 [16:24<06:32, 23.47 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25445/34643 [16:24<05:52, 26.09 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25448/34643 [16:24<06:18, 24.32 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25451/34643 [16:25<06:37, 23.12 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25456/34643 [16:25<05:31, 27.70 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 25461/34643 [16:25<05:08, 29.72 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25465/34643 [16:25<04:59, 30.67 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25469/34643 [16:25<06:17, 24.31 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25472/34643 [16:25<06:20, 24.09 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25476/34643 [16:25<05:36, 27.27 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25479/34643 [16:26<06:05, 25.09 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25485/34643 [16:26<05:28, 27.86 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25488/34643 [16:26<05:55, 25.77 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25491/34643 [16:26<05:48, 26.25 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25497/34643 [16:26<04:27, 34.19 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25501/34643 [16:26<05:57, 25.60 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25505/34643 [16:26<05:48, 26.20 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25508/34643 [16:27<07:00, 21.73 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25511/34643 [16:27<06:39, 22.86 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25517/34643 [16:27<04:57, 30.66 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25522/34643 [16:27<05:22, 28.27 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25526/34643 [16:27<06:39, 22.85 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25531/34643 [16:28<06:10, 24.59 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25537/34643 [16:28<04:55, 30.86 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25541/34643 [16:28<05:08, 29.47 examples/s]preprocess datasets (num_proc=22):  74%|███████▎  | 25545/34643 [16:28<07:29, 20.26 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25553/34643 [16:28<05:18, 28.58 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25557/34643 [16:28<05:04, 29.87 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25564/34643 [16:29<05:48, 26.06 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25568/34643 [16:29<06:12, 24.39 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25573/34643 [16:29<05:48, 26.05 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25578/34643 [16:29<05:04, 29.80 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25583/34643 [16:30<06:15, 24.15 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25586/34643 [16:30<07:02, 21.42 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25592/34643 [16:30<05:24, 27.88 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25597/34643 [16:30<04:40, 32.21 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25601/34643 [16:30<05:27, 27.62 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25605/34643 [16:30<06:37, 22.75 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25608/34643 [16:31<06:25, 23.45 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25611/34643 [16:31<06:22, 23.63 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25618/34643 [16:31<04:36, 32.61 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25622/34643 [16:31<05:53, 25.51 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25626/34643 [16:31<05:56, 25.30 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25629/34643 [16:31<05:48, 25.84 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25633/34643 [16:31<05:11, 28.91 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25637/34643 [16:31<04:50, 30.98 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25641/34643 [16:32<07:15, 20.68 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25644/34643 [16:32<06:46, 22.15 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25647/34643 [16:32<06:19, 23.74 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25654/34643 [16:32<04:49, 31.08 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25658/34643 [16:32<06:25, 23.29 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25661/34643 [16:33<06:34, 22.79 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25664/34643 [16:33<06:19, 23.65 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25668/34643 [16:33<05:33, 26.93 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25674/34643 [16:33<05:53, 25.39 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25677/34643 [16:33<06:18, 23.70 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25680/34643 [16:33<06:15, 23.89 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25684/34643 [16:33<05:27, 27.37 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25689/34643 [16:34<04:45, 31.40 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25693/34643 [16:34<05:58, 24.97 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25696/34643 [16:34<06:23, 23.31 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25699/34643 [16:34<06:34, 22.70 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25706/34643 [16:34<04:46, 31.18 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25710/34643 [16:34<05:25, 27.41 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25713/34643 [16:35<05:56, 25.06 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25716/34643 [16:35<05:57, 24.99 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25720/34643 [16:35<05:44, 25.87 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25723/34643 [16:35<07:00, 21.21 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25726/34643 [16:35<06:33, 22.63 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25735/34643 [16:35<04:01, 36.87 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25740/34643 [16:36<06:50, 21.69 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25744/34643 [16:36<06:06, 24.26 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25749/34643 [16:36<05:29, 27.02 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25753/34643 [16:36<05:34, 26.55 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25757/34643 [16:36<06:06, 24.22 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25760/34643 [16:36<06:01, 24.59 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25764/34643 [16:37<05:41, 25.98 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25767/34643 [16:37<05:52, 25.21 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25773/34643 [16:37<04:35, 32.21 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25778/34643 [16:37<04:28, 33.00 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25782/34643 [16:37<05:30, 26.79 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25785/34643 [16:37<06:56, 21.28 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25788/34643 [16:38<06:58, 21.17 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25795/34643 [16:38<04:49, 30.58 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25799/34643 [16:38<05:26, 27.06 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25803/34643 [16:38<07:24, 19.89 examples/s]preprocess datasets (num_proc=22):  74%|███████▍  | 25806/34643 [16:38<07:07, 20.69 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25814/34643 [16:38<04:43, 31.13 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25822/34643 [16:39<03:55, 37.50 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25827/34643 [16:39<07:42, 19.05 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25836/34643 [16:39<05:20, 27.49 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25844/34643 [16:39<04:25, 33.09 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25849/34643 [16:40<07:05, 20.67 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25860/34643 [16:40<04:43, 31.03 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25866/34643 [16:41<07:05, 20.62 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25871/34643 [16:41<06:11, 23.60 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25881/34643 [16:41<04:19, 33.71 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25888/34643 [16:41<06:19, 23.06 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25894/34643 [16:42<05:29, 26.52 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25901/34643 [16:42<04:36, 31.60 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25906/34643 [16:42<06:42, 21.71 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25912/34643 [16:42<05:32, 26.24 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25917/34643 [16:42<04:55, 29.56 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25923/34643 [16:43<04:19, 33.55 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25928/34643 [16:43<05:56, 24.44 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25932/34643 [16:43<05:51, 24.79 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25936/34643 [16:43<05:37, 25.81 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25941/34643 [16:43<04:46, 30.32 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25945/34643 [16:44<06:40, 21.74 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25949/34643 [16:44<06:11, 23.41 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25953/34643 [16:44<05:28, 26.44 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25958/34643 [16:44<05:01, 28.83 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25962/34643 [16:44<05:47, 25.00 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25965/34643 [16:45<08:07, 17.78 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25972/34643 [16:45<05:34, 25.96 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25977/34643 [16:45<04:49, 29.90 examples/s]preprocess datasets (num_proc=22):  75%|███████▍  | 25981/34643 [16:45<05:29, 26.32 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 25985/34643 [16:45<06:06, 23.65 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 25992/34643 [16:45<04:54, 29.41 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 25996/34643 [16:46<05:09, 27.95 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26000/34643 [16:46<06:53, 20.91 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26005/34643 [16:46<05:48, 24.80 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26011/34643 [16:46<05:00, 28.77 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26015/34643 [16:46<05:06, 28.15 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26019/34643 [16:47<06:34, 21.88 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26022/34643 [16:47<06:12, 23.12 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26028/34643 [16:47<04:57, 28.92 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26033/34643 [16:47<04:43, 30.34 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26038/34643 [16:47<04:43, 30.38 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26042/34643 [16:47<06:11, 23.15 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26046/34643 [16:47<05:33, 25.82 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26050/34643 [16:48<05:26, 26.34 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26056/34643 [16:48<04:38, 30.78 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26060/34643 [16:48<05:01, 28.45 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26064/34643 [16:48<06:47, 21.05 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26067/34643 [16:48<06:37, 21.55 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26072/34643 [16:49<05:30, 25.91 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26080/34643 [16:49<04:04, 35.04 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26084/34643 [16:49<06:12, 23.00 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26088/34643 [16:49<06:32, 21.81 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26097/34643 [16:49<04:30, 31.63 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26102/34643 [16:50<06:07, 23.26 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26106/34643 [16:50<05:58, 23.82 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26112/34643 [16:50<04:49, 29.50 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26118/34643 [16:50<04:21, 32.58 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26122/34643 [16:50<06:16, 22.66 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26126/34643 [16:51<06:11, 22.92 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26133/34643 [16:51<04:36, 30.76 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26138/34643 [16:51<05:02, 28.15 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26142/34643 [16:51<06:01, 23.54 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26145/34643 [16:51<06:20, 22.35 examples/s]preprocess datasets (num_proc=22):  75%|███████▌  | 26148/34643 [16:51<06:05, 23.23 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26156/34643 [16:52<05:00, 28.28 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26159/34643 [16:52<05:30, 25.64 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26162/34643 [16:52<07:17, 19.38 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26167/34643 [16:52<05:46, 24.44 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26175/34643 [16:52<04:05, 34.44 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26180/34643 [16:53<07:01, 20.07 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26184/34643 [16:53<06:43, 20.96 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26192/34643 [16:53<04:56, 28.51 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26197/34643 [16:53<04:34, 30.77 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26201/34643 [16:54<05:33, 25.33 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26205/34643 [16:54<05:47, 24.29 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26209/34643 [16:54<05:36, 25.05 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26216/34643 [16:54<04:23, 31.93 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26220/34643 [16:54<06:33, 21.39 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26223/34643 [16:55<06:35, 21.31 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26231/34643 [16:55<04:37, 30.28 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26235/34643 [16:55<04:35, 30.50 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26239/34643 [16:55<05:34, 25.16 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26243/34643 [16:55<05:52, 23.82 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26247/34643 [16:55<05:21, 26.08 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26253/34643 [16:55<04:16, 32.74 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26257/34643 [16:56<04:54, 28.47 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26261/34643 [16:56<06:38, 21.01 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26264/34643 [16:56<06:43, 20.76 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26270/34643 [16:56<05:11, 26.88 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26275/34643 [16:56<04:25, 31.50 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26279/34643 [16:57<05:57, 23.40 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26283/34643 [16:57<05:54, 23.57 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26287/34643 [16:57<05:19, 26.18 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26291/34643 [16:57<05:34, 24.99 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26294/34643 [16:57<05:43, 24.32 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26297/34643 [16:57<06:42, 20.75 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26303/34643 [16:58<04:51, 28.57 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26307/34643 [16:58<05:51, 23.75 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26310/34643 [16:58<05:51, 23.71 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26315/34643 [16:58<05:07, 27.10 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26320/34643 [16:58<04:31, 30.63 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26324/34643 [16:58<06:14, 22.20 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26327/34643 [16:59<06:18, 21.94 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26332/34643 [16:59<05:08, 26.98 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26342/34643 [16:59<04:39, 29.66 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26346/34643 [16:59<06:38, 20.81 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26355/34643 [16:59<04:32, 30.47 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26360/34643 [17:00<04:51, 28.38 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26364/34643 [17:00<06:44, 20.46 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26371/34643 [17:00<05:09, 26.74 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26378/34643 [17:00<04:25, 31.16 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26383/34643 [17:01<06:38, 20.73 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26387/34643 [17:01<05:57, 23.08 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26395/34643 [17:01<04:18, 31.95 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26401/34643 [17:01<04:31, 30.40 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26406/34643 [17:02<06:17, 21.83 examples/s]preprocess datasets (num_proc=22):  76%|███████▌  | 26411/34643 [17:02<05:33, 24.67 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26420/34643 [17:02<03:56, 34.81 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26425/34643 [17:02<06:26, 21.29 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26429/34643 [17:03<06:07, 22.35 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26437/34643 [17:03<04:34, 29.87 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26442/34643 [17:03<04:41, 29.14 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26446/34643 [17:03<05:51, 23.34 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26450/34643 [17:03<05:41, 23.98 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26457/34643 [17:03<04:23, 31.12 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26462/34643 [17:04<04:51, 28.02 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26466/34643 [17:04<05:49, 23.38 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26469/34643 [17:04<06:00, 22.67 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26477/34643 [17:04<04:08, 32.85 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26482/34643 [17:04<05:09, 26.40 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26486/34643 [17:05<05:32, 24.50 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26491/34643 [17:05<05:01, 27.04 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26496/34643 [17:05<05:12, 26.08 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 26499/34643 [17:05<05:19, 25.46 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26502/34643 [17:05<05:42, 23.75 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26505/34643 [17:05<06:18, 21.49 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26512/34643 [17:06<04:41, 28.92 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26516/34643 [17:06<04:52, 27.74 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26520/34643 [17:06<05:00, 27.06 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26523/34643 [17:06<05:33, 24.33 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26527/34643 [17:06<06:16, 21.57 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26534/34643 [17:06<04:32, 29.74 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26538/34643 [17:07<05:33, 24.32 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26541/34643 [17:07<05:38, 23.95 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26546/34643 [17:07<05:01, 26.87 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26549/34643 [17:07<05:12, 25.93 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26552/34643 [17:07<05:28, 24.64 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26555/34643 [17:07<06:25, 20.96 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26561/34643 [17:08<04:42, 28.65 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26566/34643 [17:08<05:19, 25.26 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26570/34643 [17:08<05:32, 24.27 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26573/34643 [17:08<05:30, 24.44 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26578/34643 [17:08<04:51, 27.70 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26582/34643 [17:08<04:29, 29.86 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26586/34643 [17:08<04:45, 28.22 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26589/34643 [17:09<05:06, 26.29 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26592/34643 [17:09<05:34, 24.05 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26595/34643 [17:09<05:56, 22.56 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26603/34643 [17:09<03:54, 34.36 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26607/34643 [17:09<04:33, 29.34 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26611/34643 [17:10<06:44, 19.85 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26616/34643 [17:10<05:31, 24.22 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26622/34643 [17:10<04:21, 30.63 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26628/34643 [17:10<04:31, 29.47 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26632/34643 [17:10<04:57, 26.92 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26636/34643 [17:10<05:47, 23.03 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26640/34643 [17:11<05:14, 25.47 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26644/34643 [17:11<04:48, 27.71 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26650/34643 [17:11<04:22, 30.46 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26654/34643 [17:11<05:03, 26.30 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26657/34643 [17:11<05:03, 26.33 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26660/34643 [17:11<05:31, 24.08 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26664/34643 [17:12<05:40, 23.41 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26667/34643 [17:12<05:38, 23.56 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26673/34643 [17:12<04:27, 29.77 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26679/34643 [17:12<05:04, 26.16 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26682/34643 [17:12<05:22, 24.66 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26685/34643 [17:12<05:24, 24.53 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26688/34643 [17:13<06:28, 20.48 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26691/34643 [17:13<06:07, 21.64 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26698/34643 [17:13<04:12, 31.42 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26702/34643 [17:13<03:59, 33.21 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26706/34643 [17:13<05:18, 24.93 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26710/34643 [17:13<06:32, 20.23 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26714/34643 [17:14<05:36, 23.58 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26722/34643 [17:14<03:51, 34.14 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26727/34643 [17:14<04:49, 27.37 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26731/34643 [17:14<06:00, 21.94 examples/s]preprocess datasets (num_proc=22):  77%|███���███▋  | 26739/34643 [17:14<04:13, 31.20 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26744/34643 [17:14<03:52, 33.95 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26749/34643 [17:15<06:13, 21.13 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26755/34643 [17:15<05:02, 26.12 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26763/34643 [17:15<03:48, 34.53 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26768/34643 [17:16<06:17, 20.87 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26773/34643 [17:16<05:25, 24.21 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26779/34643 [17:16<04:48, 27.24 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26783/34643 [17:16<04:45, 27.54 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26787/34643 [17:16<05:42, 22.96 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26792/34643 [17:16<04:46, 27.45 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26796/34643 [17:17<05:31, 23.67 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26799/34643 [17:17<05:50, 22.37 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26802/34643 [17:17<05:35, 23.34 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26807/34643 [17:17<04:31, 28.81 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26812/34643 [17:17<03:53, 33.59 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26816/34643 [17:17<05:05, 25.64 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26820/34643 [17:18<05:29, 23.74 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26825/34643 [17:18<04:45, 27.36 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26829/34643 [17:18<04:20, 29.97 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26834/34643 [17:18<04:01, 32.33 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26838/34643 [17:18<04:09, 31.33 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26842/34643 [17:18<05:26, 23.88 examples/s]preprocess datasets (num_proc=22):  77%|███████▋  | 26845/34643 [17:19<05:53, 22.04 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26854/34643 [17:19<03:40, 35.33 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26859/34643 [17:19<05:55, 21.90 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26863/34643 [17:19<05:35, 23.22 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26867/34643 [17:19<05:06, 25.36 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26877/34643 [17:19<03:35, 36.01 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26882/34643 [17:20<05:42, 22.64 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26887/34643 [17:20<05:35, 23.11 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26892/34643 [17:20<04:52, 26.50 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26896/34643 [17:20<04:41, 27.49 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26900/34643 [17:21<05:57, 21.64 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26903/34643 [17:21<06:07, 21.07 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26911/34643 [17:21<04:13, 30.52 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26915/34643 [17:21<04:20, 29.70 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26919/34643 [17:21<04:48, 26.79 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26923/34643 [17:22<05:43, 22.47 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26929/34643 [17:22<04:30, 28.53 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26933/34643 [17:22<04:20, 29.64 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26937/34643 [17:22<04:16, 30.04 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26941/34643 [17:22<04:11, 30.64 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26945/34643 [17:22<05:35, 22.96 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26950/34643 [17:22<04:44, 27.03 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26955/34643 [17:23<04:11, 30.54 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26959/34643 [17:23<04:47, 26.73 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26963/34643 [17:23<06:36, 19.39 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26969/34643 [17:23<05:12, 24.57 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26976/34643 [17:23<03:57, 32.23 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26981/34643 [17:24<05:44, 22.21 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26985/34643 [17:24<05:33, 22.95 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26989/34643 [17:24<05:08, 24.81 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26995/34643 [17:24<04:16, 29.86 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 26999/34643 [17:24<04:08, 30.76 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27003/34643 [17:25<05:29, 23.17 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27007/34643 [17:25<04:53, 26.00 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27011/34643 [17:25<04:31, 28.16 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27016/34643 [17:25<04:19, 29.34 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27020/34643 [17:25<06:00, 21.12 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27024/34643 [17:25<05:20, 23.74 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27030/34643 [17:26<04:09, 30.51 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27034/34643 [17:26<04:23, 28.85 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27038/34643 [17:26<06:46, 18.71 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27047/34643 [17:26<04:24, 28.68 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27053/34643 [17:26<03:46, 33.50 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27058/34643 [17:27<06:14, 20.27 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27062/34643 [17:27<05:41, 22.19 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27072/34643 [17:27<03:53, 32.39 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27077/34643 [17:27<04:11, 30.10 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27081/34643 [17:28<05:36, 22.51 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27085/34643 [17:28<05:32, 22.73 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27089/34643 [17:28<05:06, 24.63 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27094/34643 [17:28<04:23, 28.66 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27098/34643 [17:28<04:46, 26.36 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27102/34643 [17:28<04:26, 28.30 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27106/34643 [17:29<04:53, 25.71 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27109/34643 [17:29<06:07, 20.52 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27115/34643 [17:29<04:44, 26.45 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27124/34643 [17:29<03:16, 38.19 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27129/34643 [17:30<06:31, 19.20 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27136/34643 [17:30<04:52, 25.69 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27145/34643 [17:30<03:33, 35.18 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27151/34643 [17:30<06:02, 20.67 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27159/34643 [17:31<04:34, 27.29 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27165/34643 [17:31<03:58, 31.40 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27171/34643 [17:31<06:07, 20.33 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27180/34643 [17:31<04:24, 28.25 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27187/34643 [17:31<03:42, 33.56 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 27193/34643 [17:32<04:23, 28.29 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27198/34643 [17:32<04:47, 25.92 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27202/34643 [17:32<04:35, 27.04 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27206/34643 [17:32<04:55, 25.15 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27210/34643 [17:32<04:28, 27.70 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27214/34643 [17:33<04:43, 26.21 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27218/34643 [17:33<04:27, 27.72 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27223/34643 [17:33<04:00, 30.79 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27227/34643 [17:33<05:18, 23.32 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27230/34643 [17:33<05:25, 22.76 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27234/34643 [17:33<04:54, 25.18 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27238/34643 [17:34<04:34, 27.00 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27242/34643 [17:34<05:01, 24.58 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27245/34643 [17:34<05:18, 23.21 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27248/34643 [17:34<05:08, 23.97 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27251/34643 [17:34<04:58, 24.76 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27259/34643 [17:34<03:23, 36.32 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27263/34643 [17:35<05:00, 24.58 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27267/34643 [17:35<05:59, 20.51 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27274/34643 [17:35<04:35, 26.74 examples/s]preprocess datasets (num_proc=22):  79%|███████▊  | 27279/34643 [17:35<04:07, 29.80 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27283/34643 [17:35<05:34, 22.03 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27287/34643 [17:36<05:08, 23.84 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27290/34643 [17:36<05:21, 22.85 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27297/34643 [17:36<03:52, 31.64 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27301/34643 [17:36<04:25, 27.70 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27305/34643 [17:36<04:49, 25.31 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27308/34643 [17:36<05:16, 23.20 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27311/34643 [17:36<05:37, 21.70 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27318/34643 [17:37<03:57, 30.88 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27323/34643 [17:37<03:57, 30.79 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27327/34643 [17:37<05:38, 21.59 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27331/34643 [17:37<05:10, 23.58 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27337/34643 [17:37<04:24, 27.63 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27342/34643 [17:38<03:57, 30.73 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27346/34643 [17:38<05:18, 22.91 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27349/34643 [17:38<05:26, 22.35 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27354/34643 [17:38<04:39, 26.09 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27360/34643 [17:38<04:02, 30.04 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27364/34643 [17:39<05:38, 21.49 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27367/34643 [17:39<05:55, 20.48 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27373/34643 [17:39<04:34, 26.51 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27378/34643 [17:39<04:08, 29.19 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27382/34643 [17:39<06:03, 19.98 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27387/34643 [17:39<04:54, 24.63 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27396/34643 [17:40<03:19, 36.39 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27401/34643 [17:40<03:27, 34.88 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27406/34643 [17:40<05:50, 20.65 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27414/34643 [17:40<04:29, 26.81 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27418/34643 [17:41<04:24, 27.35 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27422/34643 [17:41<04:38, 25.93 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27426/34643 [17:41<06:04, 19.80 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27435/34643 [17:41<03:57, 30.38 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27440/34643 [17:41<04:24, 27.21 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27444/34643 [17:42<04:56, 24.28 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27448/34643 [17:42<05:53, 20.33 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27455/34643 [17:42<04:20, 27.58 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27459/34643 [17:42<04:18, 27.79 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27463/34643 [17:42<04:47, 25.00 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27467/34643 [17:43<06:24, 18.64 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27476/34643 [17:43<04:08, 28.89 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27481/34643 [17:43<03:46, 31.66 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27486/34643 [17:44<06:31, 18.29 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27497/34643 [17:44<04:02, 29.42 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27503/34643 [17:44<05:48, 20.49 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27508/34643 [17:44<05:07, 23.18 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27521/34643 [17:44<03:08, 37.75 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27528/34643 [17:45<05:08, 23.05 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27533/34643 [17:45<04:34, 25.94 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 27538/34643 [17:45<04:21, 27.20 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27543/34643 [17:46<05:59, 19.73 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27552/34643 [17:46<04:09, 28.43 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27560/34643 [17:46<03:18, 35.61 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27566/34643 [17:47<05:25, 21.75 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27574/34643 [17:47<04:33, 25.85 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27579/34643 [17:47<04:15, 27.62 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27584/34643 [17:47<05:33, 21.18 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27590/34643 [17:47<04:31, 25.95 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27594/34643 [17:48<04:23, 26.72 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27598/34643 [17:48<05:07, 22.88 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27602/34643 [17:48<04:41, 25.05 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27606/34643 [17:48<04:55, 23.84 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27609/34643 [17:48<04:44, 24.72 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27612/34643 [17:48<04:47, 24.42 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27616/34643 [17:48<04:32, 25.76 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27619/34643 [17:49<05:11, 22.55 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27623/34643 [17:49<04:28, 26.15 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27626/34643 [17:49<04:45, 24.57 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27630/34643 [17:49<04:17, 27.24 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27633/34643 [17:49<04:58, 23.45 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27637/34643 [17:49<04:31, 25.83 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27641/34643 [17:49<04:33, 25.63 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27644/34643 [17:50<05:16, 22.11 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27650/34643 [17:50<04:15, 27.39 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27654/34643 [17:50<04:04, 28.62 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27659/34643 [17:50<03:41, 31.47 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27663/34643 [17:50<04:04, 28.59 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27666/34643 [17:50<05:28, 21.23 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27669/34643 [17:51<05:07, 22.71 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27675/34643 [17:51<03:51, 30.08 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27679/34643 [17:51<04:10, 27.77 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27683/34643 [17:51<04:54, 23.64 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27686/34643 [17:51<05:03, 22.95 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27692/34643 [17:51<04:48, 24.10 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27696/34643 [17:52<04:27, 25.97 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27700/34643 [17:52<04:16, 27.07 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27705/34643 [17:52<03:56, 29.32 examples/s]preprocess datasets (num_proc=22):  80%|███████▉  | 27711/34643 [17:52<03:28, 33.31 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27715/34643 [17:52<05:42, 20.22 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27721/34643 [17:53<04:27, 25.88 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27729/34643 [17:53<03:17, 34.95 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27734/34643 [17:53<04:17, 26.87 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27738/34643 [17:53<05:17, 21.73 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27743/34643 [17:53<04:31, 25.43 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27748/34643 [17:54<04:08, 27.76 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27753/34643 [17:54<04:31, 25.33 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27757/34643 [17:54<05:02, 22.73 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27762/34643 [17:54<04:30, 25.47 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27768/34643 [17:54<03:55, 29.15 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27773/34643 [17:54<03:40, 31.13 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27777/34643 [17:55<05:01, 22.81 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27780/34643 [17:55<04:58, 23.00 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27784/34643 [17:55<04:48, 23.76 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27789/34643 [17:55<04:32, 25.18 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27794/34643 [17:55<03:50, 29.70 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27798/34643 [17:56<04:29, 25.43 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27801/34643 [17:56<04:50, 23.55 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27804/34643 [17:56<04:48, 23.71 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27812/34643 [17:56<03:17, 34.65 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27816/34643 [17:56<04:52, 23.33 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27820/34643 [17:56<04:36, 24.63 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27824/34643 [17:57<04:40, 24.30 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27829/34643 [17:57<03:58, 28.52 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27833/34643 [17:57<04:50, 23.40 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27836/34643 [17:57<05:01, 22.60 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27842/34643 [17:57<03:57, 28.62 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27846/34643 [17:57<03:40, 30.86 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27852/34643 [17:57<03:29, 32.38 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27856/34643 [17:58<05:45, 19.63 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27865/34643 [17:58<03:53, 29.07 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27873/34643 [17:58<03:47, 29.79 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27877/34643 [17:59<04:49, 23.40 examples/s]preprocess datasets (num_proc=22):  80%|████████  | 27882/34643 [17:59<04:10, 27.02 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27888/34643 [17:59<03:41, 30.47 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27892/34643 [17:59<04:41, 23.94 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27896/34643 [17:59<05:35, 20.09 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27906/34643 [18:00<03:33, 31.62 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27911/34643 [18:00<03:55, 28.61 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27915/34643 [18:00<04:27, 25.14 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27919/34643 [18:00<04:49, 23.22 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27923/34643 [18:00<04:26, 25.18 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27927/34643 [18:00<04:31, 24.78 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27932/34643 [18:01<03:47, 29.44 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27936/34643 [18:01<04:15, 26.27 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27939/34643 [18:01<04:45, 23.50 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27943/34643 [18:01<04:57, 22.55 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27946/34643 [18:01<05:04, 21.97 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27950/34643 [18:01<04:29, 24.82 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27957/34643 [18:02<03:13, 34.53 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27961/34643 [18:02<03:23, 32.90 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27965/34643 [18:02<05:34, 19.97 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27968/34643 [18:02<05:27, 20.41 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27974/34643 [18:02<04:05, 27.15 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27980/34643 [18:02<03:27, 32.14 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27984/34643 [18:03<04:16, 25.98 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27988/34643 [18:03<04:55, 22.54 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27993/34643 [18:03<04:07, 26.82 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 27997/34643 [18:03<04:32, 24.40 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28001/34643 [18:03<04:26, 24.93 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28006/34643 [18:04<04:11, 26.42 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28009/34643 [18:04<04:15, 25.95 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28012/34643 [18:04<05:01, 21.97 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28015/34643 [18:04<05:06, 21.64 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28018/34643 [18:04<04:59, 22.13 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28025/34643 [18:04<03:22, 32.66 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28029/34643 [18:04<03:41, 29.92 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28033/34643 [18:05<04:11, 26.24 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28036/34643 [18:05<04:34, 24.08 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28041/34643 [18:05<03:56, 27.94 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28045/34643 [18:05<04:12, 26.18 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28048/34643 [18:05<04:31, 24.27 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28052/34643 [18:05<04:05, 26.80 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28055/34643 [18:05<04:06, 26.75 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28059/34643 [18:06<03:40, 29.82 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28063/34643 [18:06<03:40, 29.80 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28067/34643 [18:06<04:52, 22.46 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28070/34643 [18:06<05:22, 20.39 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28074/34643 [18:06<04:33, 24.02 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28078/34643 [18:06<04:09, 26.36 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28084/34643 [18:07<03:17, 33.27 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28088/34643 [18:07<04:14, 25.79 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28092/34643 [18:07<04:19, 25.28 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28095/34643 [18:07<04:09, 26.24 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28101/34643 [18:07<03:37, 30.06 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28105/34643 [18:07<04:16, 25.47 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28108/34643 [18:08<05:30, 19.76 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28113/34643 [18:08<04:31, 24.09 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28122/34643 [18:08<03:25, 31.80 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28126/34643 [18:08<04:35, 23.68 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28129/34643 [18:08<04:51, 22.37 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28135/34643 [18:09<03:54, 27.76 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28140/34643 [18:09<03:33, 30.45 examples/s]preprocess datasets (num_proc=22):  81%|████████  | 28144/34643 [18:09<05:46, 18.76 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28156/34643 [18:09<03:23, 31.85 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28161/34643 [18:09<03:24, 31.67 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28166/34643 [18:10<04:56, 21.82 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28174/34643 [18:10<03:42, 29.12 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28180/34643 [18:10<03:12, 33.50 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28185/34643 [18:10<04:26, 24.20 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28189/34643 [18:11<04:17, 25.06 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28195/34643 [18:11<03:33, 30.14 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28199/34643 [18:11<03:59, 26.93 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28203/34643 [18:11<04:54, 21.85 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28207/34643 [18:11<04:19, 24.81 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28216/34643 [18:11<02:54, 36.93 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28221/34643 [18:12<04:41, 22.82 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28225/34643 [18:12<04:45, 22.46 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 28232/34643 [18:12<03:37, 29.49 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28238/34643 [18:12<03:07, 34.16 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28243/34643 [18:13<05:06, 20.86 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28251/34643 [18:13<03:47, 28.13 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28256/34643 [18:13<03:40, 29.03 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28261/34643 [18:13<04:51, 21.87 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28265/34643 [18:14<04:27, 23.87 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28270/34643 [18:14<04:03, 26.17 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28275/34643 [18:14<03:35, 29.49 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28279/34643 [18:14<03:40, 28.81 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28283/34643 [18:14<04:52, 21.73 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28290/34643 [18:14<03:40, 28.87 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28294/34643 [18:15<03:37, 29.12 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28298/34643 [18:15<03:50, 27.53 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28302/34643 [18:15<05:08, 20.54 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28308/34643 [18:15<04:03, 26.04 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28313/34643 [18:15<03:36, 29.27 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28319/34643 [18:16<03:50, 27.40 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28323/34643 [18:16<04:41, 22.48 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28326/34643 [18:16<04:35, 22.96 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28329/34643 [18:16<04:45, 22.11 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28334/34643 [18:16<03:58, 26.50 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28338/34643 [18:16<03:50, 27.41 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28341/34643 [18:16<03:45, 27.96 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28344/34643 [18:17<05:19, 19.72 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28347/34643 [18:17<04:50, 21.67 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28350/34643 [18:17<04:34, 22.89 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28362/34643 [18:17<02:34, 40.53 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28367/34643 [18:18<05:04, 20.64 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28378/34643 [18:18<03:13, 32.42 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28384/34643 [18:18<03:06, 33.62 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28389/34643 [18:18<04:51, 21.43 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28399/34643 [18:19<03:19, 31.27 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28405/34643 [18:19<03:48, 27.30 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28410/34643 [18:19<04:31, 22.93 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28416/34643 [18:19<03:44, 27.72 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28422/34643 [18:19<03:18, 31.27 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28427/34643 [18:20<04:55, 21.07 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28431/34643 [18:20<04:24, 23.52 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28436/34643 [18:20<03:51, 26.86 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28443/34643 [18:20<03:01, 34.18 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28448/34643 [18:21<04:21, 23.73 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28452/34643 [18:21<04:22, 23.62 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28457/34643 [18:21<03:40, 28.01 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28463/34643 [18:21<03:02, 33.89 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28468/34643 [18:21<04:42, 21.83 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28472/34643 [18:22<04:32, 22.67 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28476/34643 [18:22<04:15, 24.11 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28482/34643 [18:22<03:28, 29.59 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28486/34643 [18:22<03:17, 31.15 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28490/34643 [18:22<03:43, 27.56 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28494/34643 [18:22<04:24, 23.20 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28500/34643 [18:22<03:27, 29.60 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28504/34643 [18:23<03:33, 28.76 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28508/34643 [18:23<03:28, 29.39 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28512/34643 [18:23<04:19, 23.62 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28515/34643 [18:23<04:26, 22.97 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28523/34643 [18:23<03:06, 32.87 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28527/34643 [18:23<03:13, 31.67 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28531/34643 [18:24<04:03, 25.10 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28534/34643 [18:24<04:23, 23.19 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28540/34643 [18:24<03:31, 28.81 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28546/34643 [18:24<03:05, 32.85 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28550/34643 [18:24<04:13, 24.04 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28553/34643 [18:25<05:04, 20.03 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28560/34643 [18:25<03:45, 27.00 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28564/34643 [18:25<03:34, 28.29 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28568/34643 [18:25<03:39, 27.66 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28572/34643 [18:25<04:52, 20.74 examples/s]preprocess datasets (num_proc=22):  82%|████████▏ | 28575/34643 [18:25<04:39, 21.71 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28584/34643 [18:26<02:54, 34.72 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28589/34643 [18:26<03:16, 30.86 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28593/34643 [18:26<04:04, 24.79 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28597/34643 [18:26<04:20, 23.21 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28600/34643 [18:26<04:19, 23.25 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28608/34643 [18:27<03:20, 30.05 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28612/34643 [18:27<04:19, 23.25 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28618/34643 [18:27<03:41, 27.26 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28623/34643 [18:27<03:22, 29.69 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28627/34643 [18:27<03:45, 26.67 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28630/34643 [18:27<03:46, 26.49 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28635/34643 [18:28<03:32, 28.33 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28638/34643 [18:28<04:01, 24.87 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28641/34643 [18:28<04:30, 22.20 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28650/34643 [18:28<03:13, 30.98 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28654/34643 [18:28<03:47, 26.28 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28657/34643 [18:29<04:21, 22.89 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28660/34643 [18:29<04:12, 23.65 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28664/34643 [18:29<03:46, 26.37 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28667/34643 [18:29<03:49, 26.02 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28672/34643 [18:29<03:11, 31.15 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28676/34643 [18:29<04:51, 20.49 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28679/34643 [18:29<04:55, 20.18 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28687/34643 [18:30<03:10, 31.19 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28692/34643 [18:30<02:50, 34.86 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28697/34643 [18:30<04:08, 23.98 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28701/34643 [18:30<04:00, 24.71 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28706/34643 [18:30<03:25, 28.93 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28710/34643 [18:30<03:31, 28.07 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28714/34643 [18:31<04:51, 20.35 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28717/34643 [18:31<04:32, 21.74 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28723/34643 [18:31<03:27, 28.48 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28727/34643 [18:31<03:25, 28.72 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28731/34643 [18:31<03:51, 25.53 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28734/34643 [18:31<04:07, 23.89 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28737/34643 [18:32<04:15, 23.07 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28742/34643 [18:32<03:26, 28.58 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28746/34643 [18:32<03:10, 30.92 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28750/34643 [18:32<04:03, 24.19 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28753/34643 [18:32<04:06, 23.93 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28757/34643 [18:32<03:47, 25.83 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28762/34643 [18:32<03:09, 30.99 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28766/34643 [18:33<03:48, 25.72 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28769/34643 [18:33<04:36, 21.24 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28772/34643 [18:33<04:37, 21.14 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28780/34643 [18:33<03:04, 31.84 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28785/34643 [18:33<04:07, 23.66 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28789/34643 [18:34<04:21, 22.42 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28792/34643 [18:34<04:13, 23.08 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28799/34643 [18:34<03:13, 30.25 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28803/34643 [18:34<03:47, 25.67 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28808/34643 [18:34<03:16, 29.77 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28813/34643 [18:34<02:56, 33.05 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28817/34643 [18:35<04:40, 20.74 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28820/34643 [18:35<04:28, 21.69 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28824/34643 [18:35<04:08, 23.42 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28833/34643 [18:35<02:47, 34.77 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28838/34643 [18:35<03:31, 27.46 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28842/34643 [18:36<04:20, 22.30 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28850/34643 [18:36<03:04, 31.41 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28855/34643 [18:36<03:02, 31.71 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28859/34643 [18:36<03:53, 24.81 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28863/34643 [18:36<04:08, 23.26 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28872/34643 [18:37<02:51, 33.61 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28877/34643 [18:37<04:14, 22.65 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28881/34643 [18:37<04:02, 23.78 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28886/34643 [18:37<03:27, 27.70 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28894/34643 [18:37<02:35, 36.95 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28899/34643 [18:38<04:11, 22.88 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28909/34643 [18:38<02:48, 34.00 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28915/34643 [18:38<03:21, 28.45 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 28920/34643 [18:39<04:14, 22.48 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28927/34643 [18:39<03:17, 28.87 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28934/34643 [18:39<02:41, 35.32 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28940/34643 [18:39<04:21, 21.85 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28948/34643 [18:39<03:15, 29.09 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28955/34643 [18:40<02:44, 34.68 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28961/34643 [18:40<04:33, 20.80 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28972/34643 [18:40<03:07, 30.32 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28978/34643 [18:41<04:20, 21.79 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28986/34643 [18:41<03:36, 26.10 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28991/34643 [18:41<04:07, 22.81 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28995/34643 [18:41<03:57, 23.76 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 28999/34643 [18:42<03:38, 25.87 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 29005/34643 [18:42<03:14, 28.91 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 29009/34643 [18:42<03:19, 28.19 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 29013/34643 [18:42<05:11, 18.06 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29024/34643 [18:42<03:03, 30.56 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29029/34643 [18:43<03:38, 25.64 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29033/34643 [18:43<03:58, 23.55 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29037/34643 [18:43<03:53, 24.02 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29041/34643 [18:43<03:48, 24.47 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29047/34643 [18:43<03:10, 29.30 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29051/34643 [18:44<03:36, 25.82 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29054/34643 [18:44<03:43, 25.02 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29059/34643 [18:44<03:27, 26.89 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29064/34643 [18:44<03:41, 25.22 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29068/34643 [18:44<04:12, 22.11 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29071/34643 [18:44<04:20, 21.39 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29076/34643 [18:45<03:36, 25.68 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29082/34643 [18:45<03:09, 29.39 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29086/34643 [18:45<03:13, 28.74 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29089/34643 [18:45<03:53, 23.76 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29092/34643 [18:45<04:47, 19.31 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29097/34643 [18:45<03:43, 24.82 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29104/34643 [18:46<02:52, 32.10 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29108/34643 [18:46<03:09, 29.17 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29112/34643 [18:46<03:23, 27.11 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29115/34643 [18:46<04:10, 22.08 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29118/34643 [18:46<03:57, 23.24 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29122/34643 [18:46<03:31, 26.08 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29129/34643 [18:47<02:44, 33.57 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29133/34643 [18:47<03:26, 26.69 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29137/34643 [18:47<04:30, 20.33 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29144/34643 [18:47<03:17, 27.87 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29149/34643 [18:47<03:00, 30.39 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29153/34643 [18:47<02:55, 31.37 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29157/34643 [18:48<03:25, 26.68 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29161/34643 [18:48<03:51, 23.66 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29164/34643 [18:48<03:53, 23.46 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29171/34643 [18:48<03:17, 27.70 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29175/34643 [18:48<03:24, 26.76 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29178/34643 [18:48<03:29, 26.04 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29181/34643 [18:49<04:09, 21.92 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29189/34643 [18:49<02:59, 30.39 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29193/34643 [18:49<02:52, 31.57 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29197/34643 [18:49<03:58, 22.83 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29200/34643 [18:49<04:11, 21.67 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29211/34643 [18:50<02:34, 35.25 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29216/34643 [18:50<04:06, 21.99 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29224/34643 [18:50<03:00, 30.09 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29229/34643 [18:50<02:51, 31.54 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29234/34643 [18:51<04:18, 20.95 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29240/34643 [18:51<03:26, 26.22 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29247/34643 [18:51<02:42, 33.24 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29252/34643 [18:51<03:50, 23.35 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29256/34643 [18:52<04:05, 21.92 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29266/34643 [18:52<02:43, 32.95 examples/s]preprocess datasets (num_proc=22):  84%|████████▍ | 29271/34643 [18:52<03:19, 26.91 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29275/34643 [18:52<04:03, 22.08 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29280/34643 [18:52<03:30, 25.51 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29288/34643 [18:53<02:38, 33.80 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29293/34643 [18:53<03:36, 24.67 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29298/34643 [18:53<03:19, 26.76 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29302/34643 [18:53<03:04, 28.90 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29306/34643 [18:53<03:22, 26.41 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29310/34643 [18:53<03:36, 24.62 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29314/34643 [18:54<03:48, 23.36 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29317/34643 [18:54<04:07, 21.52 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29321/34643 [18:54<03:38, 24.39 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29325/34643 [18:54<03:13, 27.48 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29331/34643 [18:54<03:07, 28.27 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29335/34643 [18:54<03:14, 27.26 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29339/34643 [18:55<03:32, 24.95 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29342/34643 [18:55<03:28, 25.42 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29350/34643 [18:55<02:32, 34.63 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29354/34643 [18:55<03:17, 26.78 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29358/34643 [18:55<03:47, 23.26 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29361/34643 [18:55<03:43, 23.64 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29368/34643 [18:56<02:45, 31.83 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29372/34643 [18:56<03:22, 25.97 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29376/34643 [18:56<03:09, 27.82 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29380/34643 [18:56<04:01, 21.78 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29387/34643 [18:56<02:54, 30.09 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29391/34643 [18:57<03:28, 25.21 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29395/34643 [18:57<03:33, 24.58 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29402/34643 [18:57<03:18, 26.44 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29406/34643 [18:57<03:23, 25.75 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29414/34643 [18:57<02:32, 34.22 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29418/34643 [18:58<03:04, 28.39 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29422/34643 [18:58<03:46, 23.06 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29425/34643 [18:58<03:47, 22.91 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29428/34643 [18:58<03:40, 23.60 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29432/34643 [18:58<03:22, 25.72 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29436/34643 [18:58<03:04, 28.28 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29442/34643 [18:58<02:29, 34.83 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 29446/34643 [18:59<03:30, 24.68 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29450/34643 [18:59<03:36, 24.00 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29455/34643 [18:59<03:07, 27.66 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29459/34643 [18:59<03:11, 27.07 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29462/34643 [18:59<03:14, 26.59 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29465/34643 [19:00<04:14, 20.35 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29470/34643 [19:00<03:47, 22.76 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29476/34643 [19:00<02:54, 29.54 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29480/34643 [19:00<02:51, 30.09 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29484/34643 [19:00<03:23, 25.36 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29487/34643 [19:00<03:19, 25.85 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29490/34643 [19:00<03:27, 24.85 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29495/34643 [19:00<02:48, 30.53 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29500/34643 [19:01<04:04, 21.07 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29503/34643 [19:01<03:58, 21.56 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29509/34643 [19:01<03:34, 23.98 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29515/34643 [19:01<02:50, 30.13 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29519/34643 [19:01<02:56, 29.08 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29523/34643 [19:02<03:24, 25.06 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29526/34643 [19:02<03:22, 25.30 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29530/34643 [19:02<03:08, 27.18 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29535/34643 [19:02<02:39, 31.95 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29539/34643 [19:02<03:29, 24.33 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29542/34643 [19:02<03:48, 22.35 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29545/34643 [19:03<04:06, 20.68 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29548/34643 [19:03<03:50, 22.10 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29553/34643 [19:03<03:15, 25.99 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29557/34643 [19:03<02:57, 28.59 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29562/34643 [19:03<02:33, 33.19 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29566/34643 [19:03<02:49, 29.97 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29570/34643 [19:03<03:28, 24.30 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29575/34643 [19:04<02:57, 28.58 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29579/34643 [19:04<03:15, 25.86 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29584/34643 [19:04<03:06, 27.05 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29587/34643 [19:04<03:13, 26.15 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29590/34643 [19:04<03:16, 25.66 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29594/34643 [19:04<03:28, 24.27 examples/s]preprocess datasets (num_proc=22):  85%|██��█████▌ | 29599/34643 [19:05<02:49, 29.78 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29603/34643 [19:05<03:19, 25.32 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29607/34643 [19:05<03:16, 25.60 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29611/34643 [19:05<03:28, 24.14 examples/s]preprocess datasets (num_proc=22):  85%|████████▌ | 29616/34643 [19:05<03:02, 27.61 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29621/34643 [19:05<03:06, 26.92 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29624/34643 [19:06<03:37, 23.03 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29627/34643 [19:06<03:34, 23.40 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29631/34643 [19:06<03:13, 25.89 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29636/34643 [19:06<02:53, 28.82 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29639/34643 [19:06<03:40, 22.67 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29642/34643 [19:06<03:34, 23.33 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29647/34643 [19:06<02:57, 28.17 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29651/34643 [19:07<02:55, 28.52 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29655/34643 [19:07<03:23, 24.55 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29658/34643 [19:07<03:23, 24.44 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29662/34643 [19:07<03:00, 27.65 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29666/34643 [19:07<02:44, 30.33 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29670/34643 [19:07<03:30, 23.68 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29673/34643 [19:07<03:30, 23.62 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29677/34643 [19:08<03:16, 25.22 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29685/34643 [19:08<02:14, 36.85 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29690/34643 [19:08<02:30, 33.00 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29694/34643 [19:08<03:47, 21.73 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29697/34643 [19:08<03:51, 21.40 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29706/34643 [19:09<02:33, 32.11 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29710/34643 [19:09<02:27, 33.48 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29714/34643 [19:09<04:05, 20.10 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29719/34643 [19:09<03:31, 23.24 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29727/34643 [19:09<02:32, 32.24 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29732/34643 [19:09<02:20, 34.85 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29737/34643 [19:10<03:35, 22.73 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29741/34643 [19:10<03:28, 23.46 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29747/34643 [19:10<02:46, 29.38 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29751/34643 [19:10<02:52, 28.34 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29755/34643 [19:11<03:28, 23.48 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29760/34643 [19:11<02:59, 27.24 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29764/34643 [19:11<03:33, 22.84 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29769/34643 [19:11<03:06, 26.19 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29774/34643 [19:11<02:44, 29.52 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29778/34643 [19:11<02:46, 29.16 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29782/34643 [19:12<03:25, 23.63 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29785/34643 [19:12<03:35, 22.57 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29789/34643 [19:12<03:15, 24.81 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29793/34643 [19:12<02:54, 27.75 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29797/34643 [19:12<02:46, 29.10 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29801/34643 [19:12<03:49, 21.14 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29807/34643 [19:13<03:00, 26.74 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29811/34643 [19:13<02:57, 27.23 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29815/34643 [19:13<03:12, 25.08 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29819/34643 [19:13<03:06, 25.86 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29822/34643 [19:13<03:26, 23.33 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29828/34643 [19:13<03:00, 26.71 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29834/34643 [19:13<02:33, 31.40 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29838/34643 [19:14<02:39, 30.17 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29842/34643 [19:14<03:17, 24.36 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29845/34643 [19:14<03:27, 23.08 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29848/34643 [19:14<03:18, 24.21 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29851/34643 [19:14<03:21, 23.74 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29854/34643 [19:14<03:14, 24.57 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29860/34643 [19:14<02:25, 32.77 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29864/34643 [19:15<03:24, 23.37 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29867/34643 [19:15<03:47, 20.98 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29870/34643 [19:15<03:42, 21.46 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29873/34643 [19:15<03:36, 22.03 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 29879/34643 [19:15<02:37, 30.32 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29884/34643 [19:16<02:50, 27.88 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29888/34643 [19:16<03:12, 24.77 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29891/34643 [19:16<03:56, 20.08 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29896/34643 [19:16<03:09, 25.11 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29901/34643 [19:16<02:38, 29.89 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29905/34643 [19:16<03:10, 24.84 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29910/34643 [19:17<03:00, 26.29 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29913/34643 [19:17<03:18, 23.86 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29916/34643 [19:17<03:27, 22.83 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29919/34643 [19:17<03:28, 22.61 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29924/34643 [19:17<02:46, 28.29 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29928/34643 [19:17<02:33, 30.76 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29933/34643 [19:17<02:33, 30.66 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29937/34643 [19:18<03:29, 22.45 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29941/34643 [19:18<03:05, 25.39 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29944/34643 [19:18<03:10, 24.71 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29950/34643 [19:18<02:49, 27.62 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29953/34643 [19:18<03:27, 22.57 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29958/34643 [19:19<03:17, 23.71 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29961/34643 [19:19<03:08, 24.78 examples/s]preprocess datasets (num_proc=22):  86%|████████▋ | 29966/34643 [19:19<02:44, 28.52 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29970/34643 [19:19<03:10, 24.57 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29974/34643 [19:19<02:54, 26.81 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29978/34643 [19:19<02:54, 26.75 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29981/34643 [19:19<03:02, 25.59 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29984/34643 [19:20<03:40, 21.11 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29990/34643 [19:20<02:56, 26.39 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29994/34643 [19:20<02:41, 28.77 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 29998/34643 [19:20<02:39, 29.19 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30002/34643 [19:20<02:53, 26.69 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30005/34643 [19:20<03:31, 21.88 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30008/34643 [19:21<03:41, 20.92 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30011/34643 [19:21<03:34, 21.63 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30016/34643 [19:21<03:09, 24.37 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30022/34643 [19:21<02:33, 30.12 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30026/34643 [19:21<03:10, 24.18 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30029/34643 [19:21<03:40, 20.94 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30035/34643 [19:22<03:18, 23.21 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30041/34643 [19:22<02:45, 27.87 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30045/34643 [19:22<02:51, 26.82 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30048/34643 [19:22<02:55, 26.20 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30052/34643 [19:22<02:41, 28.40 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30055/34643 [19:22<03:44, 20.46 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30061/34643 [19:23<03:21, 22.69 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30066/34643 [19:23<02:53, 26.41 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30073/34643 [19:23<02:39, 28.70 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30077/34643 [19:23<02:45, 27.54 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30080/34643 [19:23<03:25, 22.24 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30085/34643 [19:24<02:47, 27.16 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30089/34643 [19:24<02:45, 27.51 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30093/34643 [19:24<02:42, 28.02 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30099/34643 [19:24<02:16, 33.40 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30103/34643 [19:24<03:17, 22.96 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30106/34643 [19:24<03:25, 22.10 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30112/34643 [19:24<02:37, 28.71 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30116/34643 [19:25<02:31, 29.80 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30120/34643 [19:25<02:57, 25.50 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30123/34643 [19:25<03:31, 21.41 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30126/34643 [19:25<03:22, 22.27 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30130/34643 [19:25<02:54, 25.83 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30133/34643 [19:25<02:55, 25.73 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30138/34643 [19:26<02:27, 30.64 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30142/34643 [19:26<03:25, 21.91 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30145/34643 [19:26<03:47, 19.73 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30154/34643 [19:26<02:27, 30.44 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30158/34643 [19:26<02:48, 26.68 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30162/34643 [19:27<03:41, 20.26 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30167/34643 [19:27<03:05, 24.12 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30173/34643 [19:27<02:27, 30.36 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30177/34643 [19:27<02:27, 30.35 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30181/34643 [19:27<03:24, 21.80 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30184/34643 [19:27<03:21, 22.08 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30190/34643 [19:28<02:42, 27.41 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30198/34643 [19:28<02:29, 29.73 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30202/34643 [19:28<03:15, 22.71 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30208/34643 [19:28<02:35, 28.44 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30214/34643 [19:28<02:11, 33.72 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30219/34643 [19:29<03:25, 21.52 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30223/34643 [19:29<03:20, 21.99 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30227/34643 [19:29<03:00, 24.42 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30233/34643 [19:29<02:43, 26.97 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30237/34643 [19:29<02:44, 26.71 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30241/34643 [19:30<03:23, 21.65 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30244/34643 [19:30<03:15, 22.47 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30247/34643 [19:30<03:31, 20.74 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30252/34643 [19:30<02:48, 26.13 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30256/34643 [19:30<02:59, 24.40 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30259/34643 [19:30<03:07, 23.44 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30262/34643 [19:31<03:11, 22.82 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30266/34643 [19:31<02:47, 26.09 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30270/34643 [19:31<02:57, 24.69 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30274/34643 [19:31<02:45, 26.47 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30277/34643 [19:31<02:48, 25.85 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30280/34643 [19:31<02:48, 25.85 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30284/34643 [19:31<02:40, 27.19 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30289/34643 [19:32<02:14, 32.47 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30293/34643 [19:32<02:31, 28.63 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30297/34643 [19:32<03:05, 23.40 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30300/34643 [19:32<03:11, 22.65 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30306/34643 [19:32<02:28, 29.28 examples/s]preprocess datasets (num_proc=22):  87%|████████▋ | 30311/34643 [19:32<02:11, 32.89 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30315/34643 [19:33<03:40, 19.64 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30318/34643 [19:33<03:32, 20.34 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30325/34643 [19:33<02:27, 29.23 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30334/34643 [19:33<01:45, 41.00 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30340/34643 [19:34<03:18, 21.67 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30351/34643 [19:34<02:09, 33.20 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30357/34643 [19:34<02:25, 29.41 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30362/34643 [19:35<03:26, 20.74 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30368/34643 [19:35<02:49, 25.25 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30377/34643 [19:35<02:09, 32.92 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30382/34643 [19:35<03:39, 19.45 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30392/34643 [19:35<02:28, 28.57 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30400/34643 [19:36<02:02, 34.67 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30406/34643 [19:36<03:22, 20.89 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30418/34643 [19:36<02:13, 31.67 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30425/34643 [19:37<02:58, 23.60 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30430/34643 [19:37<02:43, 25.83 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30438/34643 [19:37<02:15, 30.98 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30443/34643 [19:38<03:04, 22.77 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30448/34643 [19:38<02:51, 24.42 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30454/34643 [19:38<02:22, 29.30 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30459/34643 [19:38<03:20, 20.91 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30463/34643 [19:38<03:06, 22.38 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30471/34643 [19:38<02:14, 31.08 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30480/34643 [19:39<01:42, 40.75 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30486/34643 [19:39<03:12, 21.65 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30498/34643 [19:39<02:04, 33.21 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30505/34643 [19:40<03:13, 21.40 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30512/34643 [19:40<02:39, 25.93 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30520/34643 [19:40<02:51, 24.07 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30525/34643 [19:41<03:03, 22.49 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30534/34643 [19:41<02:14, 30.46 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30539/34643 [19:41<02:42, 25.21 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30543/34643 [19:41<03:08, 21.70 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30548/34643 [19:42<02:42, 25.13 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30556/34643 [19:42<02:06, 32.40 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30561/34643 [19:42<03:12, 21.17 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30567/34643 [19:42<02:45, 24.62 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30575/34643 [19:42<02:10, 31.22 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30580/34643 [19:43<03:11, 21.22 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30586/34643 [19:43<02:34, 26.22 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30591/34643 [19:43<02:16, 29.59 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30596/34643 [19:43<02:53, 23.31 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30600/34643 [19:44<02:52, 23.45 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30606/34643 [19:44<02:18, 29.19 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30611/34643 [19:44<02:03, 32.53 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30616/34643 [19:44<03:10, 21.12 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30620/34643 [19:44<02:57, 22.68 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30624/34643 [19:45<02:38, 25.29 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30630/34643 [19:45<02:11, 30.54 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30635/34643 [19:45<01:58, 33.74 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30639/34643 [19:45<03:27, 19.25 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30646/34643 [19:45<02:29, 26.68 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30651/34643 [19:46<02:23, 27.84 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 30656/34643 [19:46<02:19, 28.62 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30660/34643 [19:46<03:13, 20.53 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30666/34643 [19:46<02:32, 26.12 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30671/34643 [19:46<02:11, 30.17 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30676/34643 [19:46<01:56, 34.15 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30681/34643 [19:47<03:03, 21.64 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30687/34643 [19:47<02:28, 26.60 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30691/34643 [19:47<03:03, 21.58 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30695/34643 [19:47<02:47, 23.53 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30699/34643 [19:47<02:37, 25.03 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30705/34643 [19:48<02:16, 28.90 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30709/34643 [19:48<02:09, 30.36 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30713/34643 [19:48<03:08, 20.81 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30716/34643 [19:48<03:03, 21.38 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30721/34643 [19:48<02:37, 24.84 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30728/34643 [19:49<02:07, 30.61 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30732/34643 [19:49<02:39, 24.53 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30735/34643 [19:49<02:37, 24.77 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30738/34643 [19:49<02:40, 24.31 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30741/34643 [19:49<02:45, 23.51 examples/s]preprocess datasets (num_proc=22):  89%|████████▊ | 30744/34643 [19:49<02:39, 24.50 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30748/34643 [19:49<02:23, 27.10 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30751/34643 [19:49<02:20, 27.67 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30754/34643 [19:50<02:21, 27.53 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30757/34643 [19:50<02:20, 27.67 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30760/34643 [19:50<02:56, 21.98 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30763/34643 [19:50<02:56, 22.00 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30767/34643 [19:50<02:29, 25.87 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30773/34643 [19:50<01:57, 33.03 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30777/34643 [19:50<01:56, 33.31 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30781/34643 [19:51<03:02, 21.15 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30784/34643 [19:51<03:10, 20.25 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30791/34643 [19:51<02:22, 26.97 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30795/34643 [19:51<02:26, 26.19 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30801/34643 [19:51<02:12, 29.04 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30805/34643 [19:52<02:43, 23.50 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30809/34643 [19:52<02:27, 26.02 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30814/34643 [19:52<02:16, 28.04 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30818/34643 [19:52<02:32, 25.12 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30821/34643 [19:52<03:14, 19.68 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30826/34643 [19:52<02:33, 24.81 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30834/34643 [19:53<01:50, 34.49 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30839/34643 [19:53<03:19, 19.08 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30843/34643 [19:53<02:55, 21.64 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30852/34643 [19:53<01:57, 32.14 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30857/34643 [19:54<02:45, 22.89 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30861/34643 [19:54<02:54, 21.67 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30866/34643 [19:54<02:26, 25.73 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30874/34643 [19:54<01:53, 33.09 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30879/34643 [19:55<02:43, 23.05 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30883/34643 [19:55<02:30, 24.97 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30887/34643 [19:55<02:31, 24.83 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30892/34643 [19:55<02:12, 28.34 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30896/34643 [19:55<02:06, 29.66 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30900/34643 [19:55<02:32, 24.61 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30904/34643 [19:56<02:18, 27.05 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30908/34643 [19:56<02:06, 29.54 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30913/34643 [19:56<01:50, 33.67 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30917/34643 [19:56<03:14, 19.11 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30923/34643 [19:56<02:33, 24.30 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30932/34643 [19:56<01:47, 34.66 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30937/34643 [19:57<02:43, 22.69 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30941/34643 [19:57<02:39, 23.18 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30945/34643 [19:57<02:26, 25.22 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30950/34643 [19:57<02:05, 29.52 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30954/34643 [19:57<02:01, 30.26 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30958/34643 [19:57<01:58, 31.04 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30962/34643 [19:58<02:36, 23.48 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30965/34643 [19:58<02:33, 24.01 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30968/34643 [19:58<02:58, 20.60 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30976/34643 [19:58<01:59, 30.77 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30980/34643 [19:58<02:28, 24.62 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30984/34643 [19:59<02:44, 22.22 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30987/34643 [19:59<02:44, 22.19 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30992/34643 [19:59<02:16, 26.68 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 30996/34643 [19:59<02:04, 29.21 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 31000/34643 [19:59<02:22, 25.58 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31007/34643 [19:59<01:58, 30.56 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31011/34643 [20:00<02:35, 23.37 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31015/34643 [20:00<02:21, 25.72 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31021/34643 [20:00<01:55, 31.32 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31025/34643 [20:00<02:08, 28.13 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31029/34643 [20:00<02:28, 24.26 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31032/34643 [20:00<02:37, 22.87 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31040/34643 [20:01<01:48, 33.26 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31044/34643 [20:01<02:05, 28.57 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31048/34643 [20:01<02:51, 20.97 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31051/34643 [20:01<02:41, 22.24 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31058/34643 [20:01<02:00, 29.66 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31062/34643 [20:02<02:33, 23.39 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31067/34643 [20:02<02:13, 26.77 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31071/34643 [20:02<02:17, 25.92 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31076/34643 [20:02<01:59, 29.93 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31081/34643 [20:02<01:48, 32.85 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31085/34643 [20:02<02:05, 28.28 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31089/34643 [20:03<02:52, 20.63 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31094/34643 [20:03<02:28, 23.90 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31101/34643 [20:03<01:49, 32.26 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31106/34643 [20:03<02:27, 23.95 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31110/34643 [20:04<02:37, 22.38 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31115/34643 [20:04<02:19, 25.25 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31121/34643 [20:04<01:58, 29.63 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31127/34643 [20:04<02:26, 23.93 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31130/34643 [20:04<02:21, 24.76 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31134/34643 [20:04<02:10, 26.98 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31138/34643 [20:04<02:05, 28.01 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31142/34643 [20:05<01:58, 29.56 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31146/34643 [20:05<02:02, 28.58 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31150/34643 [20:05<02:11, 26.66 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31153/34643 [20:05<02:29, 23.29 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31159/34643 [20:05<02:07, 27.28 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31165/34643 [20:05<01:49, 31.72 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31169/34643 [20:06<02:07, 27.16 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31172/34643 [20:06<02:17, 25.28 examples/s]preprocess datasets (num_proc=22):  90%|████████▉ | 31175/34643 [20:06<02:14, 25.86 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31179/34643 [20:06<01:59, 29.03 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31184/34643 [20:06<01:47, 32.25 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31188/34643 [20:06<02:30, 22.99 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31192/34643 [20:07<02:26, 23.56 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31195/34643 [20:07<02:47, 20.59 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31202/34643 [20:07<01:56, 29.54 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31206/34643 [20:07<01:57, 29.36 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31210/34643 [20:07<02:07, 26.90 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31214/34643 [20:07<02:21, 24.18 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31217/34643 [20:08<02:37, 21.79 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31221/34643 [20:08<02:20, 24.32 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31228/34643 [20:08<01:43, 32.91 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31232/34643 [20:08<02:07, 26.69 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31236/34643 [20:08<02:10, 26.04 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31239/34643 [20:08<02:20, 24.29 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31246/34643 [20:08<01:42, 33.17 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31250/34643 [20:09<02:10, 25.95 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31254/34643 [20:09<02:43, 20.73 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31261/34643 [20:09<02:04, 27.14 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31266/34643 [20:09<01:47, 31.28 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31270/34643 [20:10<02:23, 23.54 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31274/34643 [20:10<02:37, 21.38 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31277/34643 [20:10<02:29, 22.49 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31282/34643 [20:10<02:01, 27.72 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31289/34643 [20:10<02:13, 25.18 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31293/34643 [20:10<02:19, 23.94 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31297/34643 [20:11<02:10, 25.68 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31304/34643 [20:11<01:38, 33.87 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31308/34643 [20:11<02:12, 25.14 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31312/34643 [20:11<02:10, 25.44 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31316/34643 [20:11<02:05, 26.46 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31320/34643 [20:11<02:03, 26.95 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31323/34643 [20:12<02:13, 24.85 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31326/34643 [20:12<02:24, 23.01 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31329/34643 [20:12<02:32, 21.73 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31335/34643 [20:12<01:57, 28.14 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31340/34643 [20:12<01:44, 31.67 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31344/34643 [20:12<01:53, 28.99 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31348/34643 [20:13<02:25, 22.57 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 31351/34643 [20:13<02:24, 22.77 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31360/34643 [20:13<01:37, 33.61 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31364/34643 [20:13<01:49, 29.92 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31368/34643 [20:13<02:33, 21.34 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31373/34643 [20:14<02:08, 25.51 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31380/34643 [20:14<01:40, 32.59 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31384/34643 [20:14<01:58, 27.55 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31388/34643 [20:14<02:34, 21.09 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31393/34643 [20:14<02:10, 24.95 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31398/34643 [20:14<01:53, 28.64 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31404/34643 [20:15<01:47, 30.23 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31408/34643 [20:15<02:32, 21.24 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31412/34643 [20:15<02:21, 22.91 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31417/34643 [20:15<01:59, 27.01 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31423/34643 [20:15<01:49, 29.48 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31428/34643 [20:16<02:04, 25.84 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31432/34643 [20:16<01:54, 28.07 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31436/34643 [20:16<01:55, 27.82 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31440/34643 [20:16<01:59, 26.76 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31444/34643 [20:16<01:59, 26.82 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31448/34643 [20:16<01:54, 27.84 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31451/34643 [20:16<01:58, 27.04 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31454/34643 [20:17<02:10, 24.53 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31457/34643 [20:17<02:09, 24.65 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31461/34643 [20:17<02:00, 26.31 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31464/34643 [20:17<02:26, 21.75 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31467/34643 [20:17<02:16, 23.29 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31476/34643 [20:17<01:28, 35.60 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31480/34643 [20:18<02:01, 25.94 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31484/34643 [20:18<02:17, 23.01 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31487/34643 [20:18<02:21, 22.33 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31496/34643 [20:18<01:33, 33.73 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31500/34643 [20:18<01:56, 26.95 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31504/34643 [20:19<02:25, 21.60 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31507/34643 [20:19<02:19, 22.48 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31519/34643 [20:19<01:16, 40.58 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31525/34643 [20:19<02:24, 21.54 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31532/34643 [20:20<01:53, 27.51 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31540/34643 [20:20<01:27, 35.31 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31546/34643 [20:20<02:22, 21.75 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31554/34643 [20:20<01:47, 28.86 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31561/34643 [20:20<01:30, 33.98 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31567/34643 [20:21<02:21, 21.76 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31578/34643 [20:21<01:36, 31.84 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31584/34643 [20:22<02:17, 22.22 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31589/34643 [20:22<02:05, 24.29 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31596/34643 [20:22<01:41, 30.14 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31602/34643 [20:22<02:15, 22.46 examples/s]preprocess datasets (num_proc=22):  91%|█████████ | 31606/34643 [20:22<02:03, 24.54 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31612/34643 [20:23<01:42, 29.62 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31617/34643 [20:23<01:35, 31.68 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31622/34643 [20:23<02:10, 23.11 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31626/34643 [20:23<02:06, 23.85 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31632/34643 [20:23<01:41, 29.60 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31640/34643 [20:23<01:22, 36.25 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31645/34643 [20:24<02:06, 23.68 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31649/34643 [20:24<02:08, 23.32 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31654/34643 [20:24<01:48, 27.56 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31659/34643 [20:24<01:43, 28.95 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31664/34643 [20:24<01:40, 29.50 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31668/34643 [20:25<01:46, 28.01 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31672/34643 [20:25<01:58, 25.08 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31675/34643 [20:25<01:58, 25.02 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31678/34643 [20:25<02:05, 23.56 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31682/34643 [20:25<01:56, 25.33 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31685/34643 [20:25<02:14, 21.92 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31691/34643 [20:25<01:41, 29.20 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 31696/34643 [20:26<01:48, 27.25 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31700/34643 [20:26<01:49, 26.88 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31703/34643 [20:26<02:42, 18.05 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31715/34643 [20:26<01:25, 34.29 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31720/34643 [20:27<01:35, 30.55 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31725/34643 [20:27<02:22, 20.49 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31733/34643 [20:27<01:43, 28.03 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31739/34643 [20:27<01:29, 32.47 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31744/34643 [20:28<02:32, 19.04 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31752/34643 [20:28<01:51, 25.84 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31762/34643 [20:28<01:22, 34.76 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31768/34643 [20:29<02:07, 22.49 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31773/34643 [20:29<01:52, 25.55 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31779/34643 [20:29<01:35, 30.01 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31784/34643 [20:29<01:49, 26.14 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31788/34643 [20:29<02:15, 21.06 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31793/34643 [20:30<01:57, 24.32 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31797/34643 [20:30<01:45, 26.90 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31803/34643 [20:30<01:26, 32.71 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31808/34643 [20:30<02:09, 21.91 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31812/34643 [20:30<02:02, 23.12 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31820/34643 [20:30<01:26, 32.63 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31825/34643 [20:31<01:19, 35.30 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31830/34643 [20:31<02:22, 19.74 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31840/34643 [20:31<01:32, 30.33 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31847/34643 [20:32<01:47, 25.98 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31852/34643 [20:32<02:02, 22.78 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31859/34643 [20:32<01:36, 28.92 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31864/34643 [20:32<01:36, 28.92 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31868/34643 [20:32<01:44, 26.68 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31872/34643 [20:33<02:02, 22.68 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31877/34643 [20:33<01:43, 26.77 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31883/34643 [20:33<01:28, 31.12 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31887/34643 [20:33<01:26, 31.86 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31891/34643 [20:33<02:13, 20.57 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31895/34643 [20:33<01:59, 22.94 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31905/34643 [20:34<01:15, 36.21 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31910/34643 [20:34<01:35, 28.52 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31914/34643 [20:34<02:06, 21.51 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31924/34643 [20:34<01:22, 32.86 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31929/34643 [20:34<01:22, 32.90 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31934/34643 [20:35<02:17, 19.75 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31946/34643 [20:35<01:34, 28.69 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31951/34643 [20:36<02:04, 21.60 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31955/34643 [20:36<01:55, 23.29 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31963/34643 [20:36<01:27, 30.59 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31968/34643 [20:36<01:29, 30.02 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31972/34643 [20:36<02:11, 20.26 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31978/34643 [20:37<01:47, 24.83 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31984/34643 [20:37<01:28, 30.12 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31989/34643 [20:37<01:41, 26.24 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31993/34643 [20:37<01:39, 26.69 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 31997/34643 [20:37<01:36, 27.53 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32001/34643 [20:37<01:30, 29.32 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32005/34643 [20:38<02:05, 20.95 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32008/34643 [20:38<01:59, 22.14 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32013/34643 [20:38<01:37, 27.10 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32017/34643 [20:38<01:28, 29.82 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32021/34643 [20:38<01:24, 30.90 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32025/34643 [20:38<01:47, 24.46 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32028/34643 [20:38<01:52, 23.22 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32032/34643 [20:39<01:38, 26.40 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32037/34643 [20:39<01:25, 30.41 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 32041/34643 [20:39<01:48, 24.02 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32045/34643 [20:39<01:45, 24.66 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32051/34643 [20:39<01:22, 31.38 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32055/34643 [20:39<01:35, 27.22 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32059/34643 [20:40<01:55, 22.29 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32064/34643 [20:40<01:40, 25.64 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32070/34643 [20:40<01:22, 31.23 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32074/34643 [20:40<01:26, 29.70 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32078/34643 [20:40<01:33, 27.46 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32081/34643 [20:40<01:46, 23.97 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32085/34643 [20:41<01:42, 25.01 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32089/34643 [20:41<01:37, 26.26 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32092/34643 [20:41<01:45, 24.11 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32095/34643 [20:41<01:52, 22.57 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32101/34643 [20:41<01:23, 30.51 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32105/34643 [20:41<01:17, 32.54 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32109/34643 [20:41<01:40, 25.16 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32112/34643 [20:42<01:54, 22.12 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32116/34643 [20:42<01:41, 24.80 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32120/34643 [20:42<01:29, 28.08 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32124/34643 [20:42<01:23, 30.04 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32128/34643 [20:42<01:41, 24.81 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32131/34643 [20:42<01:47, 23.34 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32134/34643 [20:43<01:46, 23.55 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32141/34643 [20:43<01:24, 29.74 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32145/34643 [20:43<01:32, 26.89 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32148/34643 [20:43<01:51, 22.32 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32151/34643 [20:43<01:49, 22.66 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32156/34643 [20:43<01:30, 27.49 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32162/34643 [20:43<01:20, 30.74 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32166/34643 [20:44<01:39, 24.99 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32170/34643 [20:44<01:38, 25.00 examples/s]preprocess datasets (num_proc=22):  93%|█���███████▎| 32173/34643 [20:44<01:41, 24.23 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32179/34643 [20:44<01:35, 25.69 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32182/34643 [20:44<01:36, 25.53 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32185/34643 [20:44<01:34, 26.15 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32189/34643 [20:45<01:25, 28.81 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32193/34643 [20:45<01:17, 31.52 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32197/34643 [20:45<01:43, 23.61 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32201/34643 [20:45<02:08, 19.01 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32205/34643 [20:45<01:48, 22.47 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32211/34643 [20:45<01:21, 29.74 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32215/34643 [20:46<01:17, 31.43 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32219/34643 [20:46<01:25, 28.37 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32223/34643 [20:46<01:42, 23.66 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32228/34643 [20:46<01:33, 25.80 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32231/34643 [20:46<01:52, 21.35 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32236/34643 [20:46<01:34, 25.55 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32239/34643 [20:47<01:34, 25.56 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32246/34643 [20:47<01:10, 33.88 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32250/34643 [20:47<01:34, 25.27 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32254/34643 [20:47<01:48, 22.07 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32257/34643 [20:47<01:44, 22.74 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32266/34643 [20:47<01:08, 34.63 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32271/34643 [20:48<01:32, 25.73 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32275/34643 [20:48<01:49, 21.61 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32281/34643 [20:48<01:27, 26.99 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32286/34643 [20:48<01:15, 31.14 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32291/34643 [20:48<01:16, 30.92 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32295/34643 [20:49<01:40, 23.37 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32298/34643 [20:49<02:21, 16.60 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32301/34643 [20:49<02:23, 16.28 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32304/34643 [20:49<02:22, 16.38 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32306/34643 [20:50<02:20, 16.69 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32308/34643 [20:50<02:25, 16.04 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32311/34643 [20:50<02:11, 17.71 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32313/34643 [20:50<02:23, 16.27 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32315/34643 [20:50<02:38, 14.70 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32317/34643 [20:50<02:48, 13.79 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32321/34643 [20:50<02:09, 17.88 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32323/34643 [20:51<02:10, 17.78 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32325/34643 [20:51<02:10, 17.81 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32327/34643 [20:51<02:15, 17.07 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32329/34643 [20:51<02:39, 14.49 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32332/34643 [20:51<02:11, 17.58 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32336/34643 [20:51<01:51, 20.74 examples/s]preprocess datasets (num_proc=22):  93%|██████��██▎| 32339/34643 [20:52<02:36, 14.70 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32345/34643 [20:52<01:48, 21.26 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32351/34643 [20:52<01:32, 24.81 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32354/34643 [20:52<01:37, 23.38 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32359/34643 [20:52<01:24, 27.09 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32362/34643 [20:52<01:43, 22.02 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32365/34643 [20:53<01:40, 22.68 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32368/34643 [20:53<01:35, 23.83 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32371/34643 [20:53<01:32, 24.53 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32377/34643 [20:53<01:11, 31.59 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32381/34643 [20:53<01:10, 32.18 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32385/34643 [20:53<01:36, 23.43 examples/s]preprocess datasets (num_proc=22):  93%|█████████▎| 32389/34643 [20:53<01:25, 26.52 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32393/34643 [20:54<01:19, 28.24 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32397/34643 [20:54<01:22, 27.26 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32400/34643 [20:54<01:23, 26.81 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32404/34643 [20:54<01:15, 29.82 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32408/34643 [20:54<01:14, 29.93 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32412/34643 [20:54<01:15, 29.38 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32416/34643 [20:54<01:33, 23.89 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32419/34643 [20:55<01:38, 22.58 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32426/34643 [20:55<01:14, 29.96 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32430/34643 [20:55<01:18, 28.36 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32433/34643 [20:55<01:17, 28.54 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32436/34643 [20:55<01:40, 21.87 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32441/34643 [20:55<01:25, 25.89 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32445/34643 [20:55<01:16, 28.89 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32450/34643 [20:56<01:31, 24.03 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32453/34643 [20:56<01:52, 19.45 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32465/34643 [20:56<01:00, 36.24 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32470/34643 [20:56<01:08, 31.72 examples/s]preprocess datasets (num_proc=22):  94%|█████████▎| 32475/34643 [20:57<01:47, 20.21 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32485/34643 [20:57<01:13, 29.27 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32491/34643 [20:57<01:04, 33.11 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32496/34643 [20:58<01:47, 19.97 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32506/34643 [20:58<01:13, 29.04 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32511/34643 [20:58<01:15, 28.14 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32516/34643 [20:58<01:27, 24.44 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32520/34643 [20:58<01:27, 24.30 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32524/34643 [20:59<01:21, 25.95 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32528/34643 [20:59<01:16, 27.52 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32532/34643 [20:59<01:27, 24.04 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32535/34643 [20:59<01:30, 23.27 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32540/34643 [20:59<01:14, 28.07 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32544/34643 [20:59<01:16, 27.35 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32548/34643 [20:59<01:17, 27.06 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32551/34643 [21:00<01:21, 25.55 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32555/34643 [21:00<01:25, 24.54 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32560/34643 [21:00<01:12, 28.84 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32564/34643 [21:00<01:16, 27.28 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32568/34643 [21:00<01:37, 21.29 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32571/34643 [21:00<01:31, 22.68 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32575/34643 [21:01<01:21, 25.22 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32579/34643 [21:01<01:14, 27.75 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32588/34643 [21:01<01:14, 27.60 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32592/34643 [21:01<01:16, 26.82 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32595/34643 [21:01<01:27, 23.33 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32600/34643 [21:01<01:12, 28.26 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32604/34643 [21:02<01:06, 30.55 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32608/34643 [21:02<01:20, 25.38 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32611/34643 [21:02<01:33, 21.71 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32617/34643 [21:02<01:13, 27.56 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32621/34643 [21:02<01:20, 25.07 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32625/34643 [21:03<01:27, 22.94 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32629/34643 [21:03<01:17, 26.12 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32632/34643 [21:03<01:16, 26.29 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32635/34643 [21:03<01:36, 20.74 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32642/34643 [21:03<01:09, 28.78 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32649/34643 [21:03<01:02, 31.85 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32653/34643 [21:04<01:19, 24.89 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32656/34643 [21:04<01:32, 21.55 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32659/34643 [21:04<01:47, 18.54 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32669/34643 [21:04<01:03, 31.12 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32673/34643 [21:04<01:02, 31.27 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32677/34643 [21:05<01:23, 23.54 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32681/34643 [21:05<01:38, 20.02 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32688/34643 [21:05<01:11, 27.35 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32693/34643 [21:05<01:02, 31.32 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32698/34643 [21:05<01:36, 20.16 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32704/34643 [21:06<01:19, 24.35 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32708/34643 [21:06<01:12, 26.53 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32712/34643 [21:06<01:15, 25.44 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32717/34643 [21:06<01:11, 26.90 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32721/34643 [21:06<01:16, 25.17 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32724/34643 [21:06<01:16, 25.24 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32729/34643 [21:07<01:09, 27.38 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32734/34643 [21:07<01:07, 28.17 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 32737/34643 [21:07<01:29, 21.38 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32741/34643 [21:07<01:18, 24.33 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32746/34643 [21:07<01:08, 27.90 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32750/34643 [21:07<01:20, 23.41 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32755/34643 [21:08<01:27, 21.70 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32760/34643 [21:08<01:10, 26.57 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32764/34643 [21:08<01:12, 25.95 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32769/34643 [21:08<01:01, 30.62 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32773/34643 [21:08<01:16, 24.39 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32776/34643 [21:08<01:15, 24.70 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32780/34643 [21:09<01:07, 27.68 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32784/34643 [21:09<01:08, 27.02 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32789/34643 [21:09<01:02, 29.78 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32793/34643 [21:09<01:29, 20.66 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32796/34643 [21:09<01:40, 18.40 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32802/34643 [21:10<01:17, 23.71 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32811/34643 [21:10<00:50, 35.92 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32816/34643 [21:10<01:16, 24.02 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32820/34643 [21:10<01:24, 21.67 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32830/34643 [21:10<00:54, 33.10 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32835/34643 [21:11<00:53, 33.92 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32840/34643 [21:11<01:21, 22.17 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32846/34643 [21:11<01:07, 26.63 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32853/34643 [21:11<00:53, 33.26 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32858/34643 [21:12<01:24, 21.17 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32863/34643 [21:12<01:13, 24.24 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32870/34643 [21:12<00:59, 29.95 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32876/34643 [21:12<00:50, 34.65 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32881/34643 [21:13<01:21, 21.65 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32888/34643 [21:13<01:02, 28.00 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32894/34643 [21:13<00:58, 29.91 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32899/34643 [21:13<01:22, 21.18 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 32906/34643 [21:13<01:03, 27.36 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32912/34643 [21:13<00:54, 31.89 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32917/34643 [21:14<00:59, 29.06 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32921/34643 [21:14<01:10, 24.27 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32925/34643 [21:14<01:18, 21.85 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32929/34643 [21:14<01:13, 23.38 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32932/34643 [21:14<01:16, 22.48 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32938/34643 [21:15<01:01, 27.88 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32942/34643 [21:15<01:01, 27.45 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32945/34643 [21:15<01:28, 19.29 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32952/34643 [21:15<01:08, 24.59 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32956/34643 [21:15<01:05, 25.85 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32962/34643 [21:16<00:55, 30.10 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32966/34643 [21:16<01:18, 21.33 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32970/34643 [21:16<01:09, 23.92 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32973/34643 [21:16<01:09, 23.87 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32981/34643 [21:16<00:47, 35.01 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32986/34643 [21:17<01:13, 22.65 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32990/34643 [21:17<01:20, 20.48 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 32997/34643 [21:17<00:58, 28.06 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33002/34643 [21:17<00:52, 31.15 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33007/34643 [21:18<01:20, 20.30 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33013/34643 [21:18<01:04, 25.37 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33019/34643 [21:18<00:54, 29.95 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33024/34643 [21:18<01:08, 23.76 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33028/34643 [21:18<01:18, 20.48 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33037/34643 [21:19<00:52, 30.81 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33042/34643 [21:19<00:49, 32.08 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33047/34643 [21:19<01:11, 22.26 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33051/34643 [21:19<01:04, 24.70 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33055/34643 [21:19<01:06, 23.87 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33063/34643 [21:19<00:49, 31.77 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33067/34643 [21:20<01:00, 26.12 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33071/34643 [21:20<01:16, 20.58 examples/s]preprocess datasets (num_proc=22):  95%|█████████▌| 33078/34643 [21:20<00:57, 27.38 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33085/34643 [21:20<00:45, 34.07 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33090/34643 [21:21<01:12, 21.49 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33099/34643 [21:21<00:50, 30.38 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33104/34643 [21:21<00:51, 30.06 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33109/34643 [21:21<00:59, 25.83 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33113/34643 [21:22<01:03, 24.14 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33118/34643 [21:22<00:57, 26.74 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33124/34643 [21:22<00:52, 28.85 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33128/34643 [21:22<01:08, 22.27 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33131/34643 [21:22<01:05, 23.06 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33134/34643 [21:22<01:02, 23.99 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33138/34643 [21:22<00:57, 26.20 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33141/34643 [21:23<01:08, 22.01 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33145/34643 [21:23<00:59, 25.26 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33150/34643 [21:23<00:52, 28.42 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33154/34643 [21:23<01:03, 23.41 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33158/34643 [21:23<01:03, 23.39 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33161/34643 [21:23<01:01, 24.11 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33167/34643 [21:24<00:55, 26.48 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33171/34643 [21:24<00:53, 27.57 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33174/34643 [21:24<00:55, 26.50 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33177/34643 [21:24<01:00, 24.24 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33182/34643 [21:24<00:52, 27.74 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33186/34643 [21:24<00:56, 26.02 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33193/34643 [21:25<00:50, 28.49 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33196/34643 [21:25<00:57, 25.02 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33199/34643 [21:25<01:00, 24.02 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33206/34643 [21:25<00:51, 27.75 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33210/34643 [21:25<00:47, 30.07 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33215/34643 [21:25<00:47, 30.12 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33219/34643 [21:26<01:08, 20.68 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33225/34643 [21:26<00:55, 25.77 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33230/34643 [21:26<00:46, 30.09 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33234/34643 [21:26<01:05, 21.62 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33237/34643 [21:26<01:05, 21.58 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33241/34643 [21:27<01:02, 22.56 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33247/34643 [21:27<00:51, 27.17 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33253/34643 [21:27<00:54, 25.74 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33256/34643 [21:27<00:59, 23.34 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33259/34643 [21:27<00:56, 24.38 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33262/34643 [21:27<00:57, 24.14 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33268/34643 [21:28<00:43, 31.64 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33273/34643 [21:28<00:40, 34.21 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33277/34643 [21:28<01:09, 19.59 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33281/34643 [21:28<00:59, 22.84 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33289/34643 [21:28<00:40, 33.32 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33294/34643 [21:28<00:40, 33.20 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33299/34643 [21:29<00:55, 24.30 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33303/34643 [21:29<00:58, 22.99 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33307/34643 [21:29<00:54, 24.64 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33312/34643 [21:29<00:46, 28.74 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33317/34643 [21:29<00:44, 30.01 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33321/34643 [21:30<00:55, 23.95 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33324/34643 [21:30<00:59, 21.98 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33329/34643 [21:30<00:49, 26.40 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33333/34643 [21:30<01:09, 18.81 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33336/34643 [21:30<01:04, 20.24 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 33340/34643 [21:31<00:55, 23.46 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33349/34643 [21:31<00:35, 36.80 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33354/34643 [21:31<00:51, 24.98 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33358/34643 [21:31<00:49, 25.93 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33362/34643 [21:31<00:45, 28.18 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33366/34643 [21:31<00:43, 29.19 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33371/34643 [21:32<00:47, 27.03 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33375/34643 [21:32<00:51, 24.84 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33378/34643 [21:32<00:56, 22.43 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33382/34643 [21:32<00:49, 25.34 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33386/34643 [21:32<00:53, 23.65 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33389/34643 [21:32<00:55, 22.79 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33392/34643 [21:33<01:00, 20.75 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33397/34643 [21:33<00:48, 25.66 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33403/34643 [21:33<00:37, 32.87 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33407/34643 [21:33<00:41, 30.02 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33413/34643 [21:33<00:38, 31.64 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33417/34643 [21:34<00:58, 20.79 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33421/34643 [21:34<00:51, 23.74 examples/s]preprocess datasets (num_proc=22):  96%|█████████▋| 33428/34643 [21:34<00:38, 31.23 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33433/34643 [21:34<00:47, 25.24 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33437/34643 [21:34<00:55, 21.82 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33442/34643 [21:34<00:46, 25.59 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33447/34643 [21:35<00:43, 27.24 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33451/34643 [21:35<00:56, 21.15 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33454/34643 [21:35<01:00, 19.57 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33460/34643 [21:35<00:49, 24.00 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33467/34643 [21:35<00:36, 31.81 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33471/34643 [21:36<00:41, 28.17 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33475/34643 [21:36<00:43, 26.95 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33479/34643 [21:36<00:50, 23.27 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33483/34643 [21:36<00:45, 25.77 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33489/34643 [21:36<00:38, 30.24 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33493/34643 [21:36<00:39, 28.76 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33497/34643 [21:37<00:49, 23.09 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33500/34643 [21:37<00:47, 24.31 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33504/34643 [21:37<00:48, 23.31 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33508/34643 [21:37<00:42, 26.57 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33513/34643 [21:37<00:37, 30.52 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33517/34643 [21:37<00:50, 22.17 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33521/34643 [21:38<00:44, 24.97 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33524/34643 [21:38<00:47, 23.77 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33530/34643 [21:38<00:37, 29.46 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33534/34643 [21:38<00:56, 19.64 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33541/34643 [21:38<00:40, 27.15 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33546/34643 [21:38<00:35, 30.77 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33550/34643 [21:39<00:34, 31.64 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33554/34643 [21:39<00:49, 22.20 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33558/34643 [21:39<00:48, 22.47 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33563/34643 [21:39<00:43, 24.94 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33566/34643 [21:39<00:42, 25.12 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33570/34643 [21:39<00:39, 27.46 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33575/34643 [21:40<00:39, 27.19 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33579/34643 [21:40<00:38, 27.61 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33582/34643 [21:40<00:43, 24.49 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33585/34643 [21:40<00:44, 23.64 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33589/34643 [21:40<00:41, 25.67 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33594/34643 [21:40<00:35, 29.59 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33598/34643 [21:41<00:47, 22.20 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33604/34643 [21:41<00:35, 29.15 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33608/34643 [21:41<00:38, 27.08 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33612/34643 [21:41<00:43, 23.52 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33616/34643 [21:41<00:39, 25.94 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33620/34643 [21:41<00:40, 25.10 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33626/34643 [21:41<00:32, 31.40 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33630/34643 [21:42<00:43, 23.21 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33634/34643 [21:42<00:38, 26.04 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33639/34643 [21:42<00:33, 29.97 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33647/34643 [21:42<00:25, 39.61 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33652/34643 [21:43<00:53, 18.68 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33661/34643 [21:43<00:35, 27.46 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33670/34643 [21:43<00:26, 36.62 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33676/34643 [21:44<00:47, 20.42 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33683/34643 [21:44<00:37, 25.88 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33691/34643 [21:44<00:30, 31.30 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33697/34643 [21:44<00:41, 22.63 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33703/34643 [21:44<00:34, 27.12 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33708/34643 [21:45<00:38, 24.18 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33712/34643 [21:45<00:42, 21.70 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33716/34643 [21:45<00:38, 23.85 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33722/34643 [21:45<00:31, 29.34 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33727/34643 [21:45<00:27, 33.20 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33732/34643 [21:46<00:40, 22.65 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33736/34643 [21:46<00:36, 25.07 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33740/34643 [21:46<00:33, 27.28 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33745/34643 [21:46<00:28, 31.30 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33749/34643 [21:46<00:28, 31.55 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33753/34643 [21:46<00:37, 23.50 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33756/34643 [21:47<00:37, 23.82 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33759/34643 [21:47<00:36, 23.92 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33762/34643 [21:47<00:35, 24.47 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33767/34643 [21:47<00:34, 25.28 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33771/34643 [21:47<00:33, 25.96 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 33774/34643 [21:47<00:36, 24.02 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33777/34643 [21:47<00:34, 25.11 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33780/34643 [21:48<00:42, 20.25 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33784/34643 [21:48<00:35, 24.02 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33790/34643 [21:48<00:26, 31.65 examples/s]preprocess datasets (num_proc=22):  98%|█████���███▊| 33794/34643 [21:48<00:34, 24.94 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33797/34643 [21:48<00:41, 20.60 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33801/34643 [21:48<00:36, 23.34 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33806/34643 [21:49<00:30, 27.25 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33810/34643 [21:49<00:27, 30.00 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33814/34643 [21:49<00:33, 24.67 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33817/34643 [21:49<00:36, 22.47 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33822/34643 [21:49<00:29, 27.83 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33828/34643 [21:49<00:27, 29.13 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33832/34643 [21:50<00:31, 25.54 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33836/34643 [21:50<00:34, 23.73 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33842/34643 [21:50<00:26, 29.94 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33846/34643 [21:50<00:26, 29.63 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33850/34643 [21:50<00:25, 31.35 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33854/34643 [21:50<00:25, 30.90 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33858/34643 [21:51<00:39, 19.81 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33863/34643 [21:51<00:31, 24.72 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33871/34643 [21:51<00:22, 34.92 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33876/34643 [21:51<00:33, 22.61 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33880/34643 [21:51<00:35, 21.69 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33885/34643 [21:52<00:29, 25.49 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33893/34643 [21:52<00:26, 28.56 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33897/34643 [21:52<00:30, 24.71 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33900/34643 [21:52<00:30, 24.03 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33904/34643 [21:52<00:27, 26.93 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33911/34643 [21:52<00:22, 33.19 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33915/34643 [21:53<00:31, 22.95 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33918/34643 [21:53<00:31, 23.20 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33923/34643 [21:53<00:25, 28.11 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33929/34643 [21:53<00:24, 29.58 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33933/34643 [21:53<00:28, 24.55 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33936/34643 [21:54<00:34, 20.74 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33940/34643 [21:54<00:29, 24.07 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33943/34643 [21:54<00:28, 24.88 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33949/34643 [21:54<00:21, 31.82 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33953/34643 [21:54<00:21, 32.22 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33957/34643 [21:54<00:26, 25.66 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33960/34643 [21:55<00:32, 20.72 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33968/34643 [21:55<00:21, 31.13 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33975/34643 [21:55<00:27, 24.09 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33979/34643 [21:55<00:32, 20.15 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33985/34643 [21:56<00:26, 25.19 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 33997/34643 [21:56<00:24, 26.22 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34001/34643 [21:56<00:26, 23.94 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34006/34643 [21:56<00:23, 27.02 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34012/34643 [21:56<00:19, 32.21 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34017/34643 [21:57<00:20, 30.66 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34021/34643 [21:57<00:24, 24.95 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34027/34643 [21:57<00:21, 29.23 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34031/34643 [21:57<00:23, 25.98 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34034/34643 [21:57<00:22, 26.53 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34037/34643 [21:58<00:27, 22.09 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34047/34643 [21:58<00:16, 36.07 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34052/34643 [21:58<00:27, 21.61 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34056/34643 [21:58<00:25, 22.92 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34063/34643 [21:58<00:19, 29.79 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34068/34643 [21:58<00:18, 31.17 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34072/34643 [21:59<00:22, 24.92 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34076/34643 [21:59<00:25, 22.35 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34079/34643 [21:59<00:24, 22.61 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34084/34643 [21:59<00:20, 26.94 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34089/34643 [21:59<00:17, 31.14 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34093/34643 [22:00<00:21, 25.94 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34097/34643 [22:00<00:26, 20.81 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34102/34643 [22:00<00:21, 25.06 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34107/34643 [22:00<00:18, 28.32 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34113/34643 [22:00<00:15, 33.88 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34117/34643 [22:01<00:27, 19.41 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 34122/34643 [22:01<00:22, 22.90 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34128/34643 [22:01<00:18, 27.61 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34132/34643 [22:01<00:18, 27.98 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34136/34643 [22:01<00:21, 23.55 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34139/34643 [22:01<00:22, 22.75 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34142/34643 [22:02<00:21, 23.31 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34149/34643 [22:02<00:15, 31.40 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34155/34643 [22:02<00:23, 21.21 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34158/34643 [22:02<00:24, 19.47 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34167/34643 [22:02<00:15, 30.37 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34172/34643 [22:03<00:14, 33.09 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34177/34643 [22:03<00:22, 20.31 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34181/34643 [22:03<00:20, 22.55 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34190/34643 [22:03<00:14, 30.71 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34195/34643 [22:04<00:18, 24.24 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34199/34643 [22:04<00:19, 23.24 examples/s]preprocess datasets (num_proc=22):  99%|█████████▊| 34206/34643 [22:04<00:14, 30.65 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34211/34643 [22:04<00:15, 28.73 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34215/34643 [22:05<00:21, 20.02 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34222/34643 [22:05<00:15, 27.08 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34229/34643 [22:05<00:13, 29.69 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34233/34643 [22:05<00:21, 19.09 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34237/34643 [22:05<00:18, 21.67 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34247/34643 [22:06<00:12, 31.54 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34252/34643 [22:06<00:15, 25.54 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34256/34643 [22:06<00:17, 22.65 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34260/34643 [22:06<00:15, 24.71 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34266/34643 [22:06<00:12, 30.41 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34270/34643 [22:07<00:12, 29.30 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34274/34643 [22:07<00:18, 20.49 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34280/34643 [22:07<00:13, 26.32 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34288/34643 [22:07<00:09, 35.88 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34293/34643 [22:08<00:16, 21.62 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34298/34643 [22:08<00:13, 25.34 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34307/34643 [22:08<00:09, 36.02 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34313/34643 [22:08<00:16, 20.50 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34326/34643 [22:09<00:09, 32.63 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34332/34643 [22:09<00:14, 22.00 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34343/34643 [22:09<00:09, 31.65 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34350/34643 [22:10<00:12, 23.82 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34355/34643 [22:10<00:11, 25.81 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34360/34643 [22:10<00:10, 28.16 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34365/34643 [22:10<00:11, 24.59 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34369/34643 [22:10<00:11, 23.13 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34374/34643 [22:11<00:10, 26.83 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34379/34643 [22:11<00:09, 29.20 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34383/34643 [22:11<00:09, 26.56 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34387/34643 [22:11<00:10, 23.95 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34390/34643 [22:11<00:10, 24.52 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34394/34643 [22:11<00:09, 27.21 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34398/34643 [22:12<00:11, 20.42 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34401/34643 [22:12<00:11, 21.74 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34407/34643 [22:12<00:08, 27.62 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34411/34643 [22:12<00:08, 25.79 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34414/34643 [22:12<00:10, 21.82 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34417/34643 [22:12<00:09, 22.87 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34420/34643 [22:13<00:09, 23.75 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34423/34643 [22:13<00:09, 22.73 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34427/34643 [22:13<00:08, 24.10 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34430/34643 [22:13<00:08, 25.36 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34434/34643 [22:13<00:08, 24.37 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34437/34643 [22:13<00:08, 23.61 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34440/34643 [22:13<00:08, 23.37 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34443/34643 [22:14<00:09, 21.76 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34450/34643 [22:14<00:06, 29.98 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34454/34643 [22:14<00:07, 23.96 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34457/34643 [22:14<00:08, 22.81 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34461/34643 [22:14<00:06, 26.06 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34464/34643 [22:14<00:07, 22.85 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 34468/34643 [22:14<00:07, 24.16 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34472/34643 [22:15<00:06, 26.56 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34475/34643 [22:15<00:06, 26.98 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34478/34643 [22:15<00:07, 20.74 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34483/34643 [22:15<00:06, 26.14 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34486/34643 [22:15<00:06, 24.76 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34489/34643 [22:15<00:07, 20.19 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34492/34643 [22:16<00:07, 21.36 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34497/34643 [22:16<00:05, 25.21 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34500/34643 [22:16<00:06, 22.51 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34503/34643 [22:16<00:06, 23.08 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34506/34643 [22:16<00:05, 23.55 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34510/34643 [22:16<00:05, 26.18 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34513/34643 [22:16<00:05, 25.70 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34516/34643 [22:17<00:05, 21.79 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34520/34643 [22:17<00:05, 22.18 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34524/34643 [22:17<00:04, 25.07 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34527/34643 [22:17<00:04, 23.23 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34531/34643 [22:17<00:04, 26.73 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34537/34643 [22:17<00:04, 23.00 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34544/34643 [22:18<00:03, 29.12 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34548/34643 [22:18<00:04, 23.39 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34552/34643 [22:18<00:04, 20.10 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34558/34643 [22:18<00:03, 24.62 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34561/34643 [22:19<00:04, 19.86 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34565/34643 [22:19<00:03, 22.40 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34568/34643 [22:19<00:04, 17.70 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34574/34643 [22:19<00:03, 21.97 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34577/34643 [22:19<00:03, 20.70 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34581/34643 [22:20<00:03, 17.52 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34586/34643 [22:20<00:02, 21.87 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34589/34643 [22:20<00:02, 18.69 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34592/34643 [22:20<00:02, 20.42 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34595/34643 [22:20<00:02, 19.06 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34598/34643 [22:20<00:02, 17.08 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34602/34643 [22:21<00:02, 17.15 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34605/34643 [22:21<00:02, 18.25 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34607/34643 [22:21<00:01, 18.43 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34609/34643 [22:21<00:02, 14.47 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34612/34643 [22:21<00:01, 17.17 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34614/34643 [22:21<00:01, 16.12 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34616/34643 [22:22<00:01, 15.90 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34619/34643 [22:22<00:01, 16.53 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34621/34643 [22:22<00:01, 15.33 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34624/34643 [22:22<00:01, 18.11 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34626/34643 [22:22<00:00, 17.44 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34628/34643 [22:22<00:01, 13.64 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34631/34643 [22:23<00:00, 14.84 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34633/34643 [22:23<00:00, 15.37 examples/s]preprocess datasets (num_proc=22): 100%|█████████▉| 34639/34643 [22:23<00:00, 23.88 examples/s]preprocess datasets (num_proc=22): 100%|██████████| 34643/34643 [22:23<00:00, 14.51 examples/s]preprocess datasets (num_proc=22): 100%|██████████| 34643/34643 [22:23<00:00, 25.78 examples/s]
+preprocess datasets (num_proc=22):   0%|          | 0/304 [00:00<?, ? examples/s]preprocess datasets (num_proc=22):   0%|          | 1/304 [00:01<05:28,  1.08s/ examples]preprocess datasets (num_proc=22):   1%|▏         | 4/304 [00:01<01:20,  3.71 examples/s]preprocess datasets (num_proc=22):   3%|▎         | 10/304 [00:01<00:28, 10.36 examples/s]preprocess datasets (num_proc=22):   4%|▍         | 13/304 [00:01<00:23, 12.28 examples/s]preprocess datasets (num_proc=22):   7%|▋         | 20/304 [00:01<00:13, 21.63 examples/s]preprocess datasets (num_proc=22):   8%|▊         | 24/304 [00:01<00:13, 20.72 examples/s]preprocess datasets (num_proc=22):   9%|▉         | 28/304 [00:02<00:13, 20.92 examples/s]preprocess datasets (num_proc=22):  10%|█         | 31/304 [00:02<00:13, 20.18 examples/s]preprocess datasets (num_proc=22):  11%|█         | 34/304 [00:02<00:12, 21.46 examples/s]preprocess datasets (num_proc=22):  13%|█▎        | 40/304 [00:02<00:09, 28.43 examples/s]preprocess datasets (num_proc=22):  15%|█▌        | 46/304 [00:02<00:07, 34.86 examples/s]preprocess datasets (num_proc=22):  17%|█▋        | 51/304 [00:03<00:12, 20.53 examples/s]preprocess datasets (num_proc=22):  19%|█▉        | 58/304 [00:03<00:08, 27.64 examples/s]preprocess datasets (num_proc=22):  21%|██        | 63/304 [00:03<00:08, 28.00 examples/s]preprocess datasets (num_proc=22):  22%|██▏       | 67/304 [00:03<00:12, 19.58 examples/s]preprocess datasets (num_proc=22):  24%|██▍       | 74/304 [00:03<00:09, 25.28 examples/s]preprocess datasets (num_proc=22):  26%|██▌       | 78/304 [00:04<00:08, 26.93 examples/s]preprocess datasets (num_proc=22):  27%|██▋       | 82/304 [00:04<00:08, 25.57 examples/s]preprocess datasets (num_proc=22):  29%|██▉       | 88/304 [00:04<00:06, 30.96 examples/s]preprocess datasets (num_proc=22):  30%|███       | 92/304 [00:04<00:10, 19.57 examples/s]preprocess datasets (num_proc=22):  32%|███▏      | 96/304 [00:04<00:09, 22.24 examples/s]preprocess datasets (num_proc=22):  34%|███▍      | 103/304 [00:04<00:06, 29.51 examples/s]preprocess datasets (num_proc=22):  36%|███▌      | 108/304 [00:05<00:06, 31.48 examples/s]preprocess datasets (num_proc=22):  37%|███▋      | 112/304 [00:05<00:09, 20.67 examples/s]preprocess datasets (num_proc=22):  39%|███▉      | 119/304 [00:05<00:06, 27.96 examples/s]preprocess datasets (num_proc=22):  41%|████      | 124/304 [00:05<00:06, 28.60 examples/s]preprocess datasets (num_proc=22):  42%|████▏     | 128/304 [00:05<00:05, 30.48 examples/s]preprocess datasets (num_proc=22):  43%|████▎     | 132/304 [00:06<00:07, 22.53 examples/s]preprocess datasets (num_proc=22):  45%|████▌     | 138/304 [00:06<00:06, 27.11 examples/s]preprocess datasets (num_proc=22):  47%|████▋     | 143/304 [00:06<00:05, 30.67 examples/s]preprocess datasets (num_proc=22):  48%|████▊     | 147/304 [00:06<00:05, 26.27 examples/s]preprocess datasets (num_proc=22):  50%|████▉     | 151/304 [00:06<00:05, 28.60 examples/s]preprocess datasets (num_proc=22):  51%|█████     | 155/304 [00:06<00:05, 26.22 examples/s]preprocess datasets (num_proc=22):  52%|█████▏    | 159/304 [00:07<00:05, 25.97 examples/s]preprocess datasets (num_proc=22):  53%|█████▎    | 162/304 [00:07<00:05, 24.64 examples/s]preprocess datasets (num_proc=22):  54%|█████▍    | 165/304 [00:07<00:05, 24.73 examples/s]preprocess datasets (num_proc=22):  56%|█████▋    | 171/304 [00:07<00:05, 26.40 examples/s]preprocess datasets (num_proc=22):  57%|█████▋    | 174/304 [00:07<00:05, 21.89 examples/s]preprocess datasets (num_proc=22):  60%|█████▉    | 181/304 [00:07<00:04, 30.33 examples/s]preprocess datasets (num_proc=22):  62%|██████▏   | 187/304 [00:08<00:03, 31.74 examples/s]preprocess datasets (num_proc=22):  63%|██████▎   | 191/304 [00:08<00:05, 19.20 examples/s]preprocess datasets (num_proc=22):  64%|██████▍   | 195/304 [00:08<00:05, 20.80 examples/s]preprocess datasets (num_proc=22):  67%|██████▋   | 203/304 [00:08<00:03, 30.32 examples/s]preprocess datasets (num_proc=22):  69%|██████▉   | 209/304 [00:08<00:02, 34.10 examples/s]preprocess datasets (num_proc=22):  70%|███████   | 214/304 [00:09<00:04, 21.76 examples/s]preprocess datasets (num_proc=22):  72%|███████▏  | 218/304 [00:09<00:03, 22.55 examples/s]preprocess datasets (num_proc=22):  73%|███████▎  | 223/304 [00:09<00:03, 26.12 examples/s]preprocess datasets (num_proc=22):  76%|███████▋  | 232/304 [00:09<00:02, 34.85 examples/s]preprocess datasets (num_proc=22):  78%|███████▊  | 237/304 [00:10<00:02, 24.08 examples/s]preprocess datasets (num_proc=22):  79%|███████▉  | 241/304 [00:10<00:02, 24.25 examples/s]preprocess datasets (num_proc=22):  81%|████████▏ | 247/304 [00:10<00:02, 27.75 examples/s]preprocess datasets (num_proc=22):  83%|████████▎ | 251/304 [00:10<00:02, 20.97 examples/s]preprocess datasets (num_proc=22):  84%|████████▎ | 254/304 [00:10<00:02, 21.55 examples/s]preprocess datasets (num_proc=22):  85%|████████▍ | 258/304 [00:11<00:01, 24.10 examples/s]preprocess datasets (num_proc=22):  86%|████████▌ | 262/304 [00:11<00:01, 26.36 examples/s]preprocess datasets (num_proc=22):  88%|████████▊ | 268/304 [00:11<00:01, 29.98 examples/s]preprocess datasets (num_proc=22):  89%|████████▉ | 272/304 [00:11<00:01, 27.22 examples/s]preprocess datasets (num_proc=22):  90%|█████████ | 275/304 [00:11<00:01, 27.31 examples/s]preprocess datasets (num_proc=22):  91%|█████████▏| 278/304 [00:11<00:01, 24.24 examples/s]preprocess datasets (num_proc=22):  92%|█████████▏| 281/304 [00:11<00:00, 23.57 examples/s]preprocess datasets (num_proc=22):  94%|█████████▍| 285/304 [00:12<00:00, 25.50 examples/s]preprocess datasets (num_proc=22):  95%|█████████▍| 288/304 [00:12<00:00, 25.95 examples/s]preprocess datasets (num_proc=22):  96%|█████████▌| 291/304 [00:12<00:00, 22.68 examples/s]preprocess datasets (num_proc=22):  97%|█████████▋| 294/304 [00:12<00:00, 18.71 examples/s]preprocess datasets (num_proc=22):  98%|█████████▊| 298/304 [00:12<00:00, 21.82 examples/s]preprocess datasets (num_proc=22):  99%|█████████▉| 302/304 [00:12<00:00, 24.44 examples/s]preprocess datasets (num_proc=22): 100%|██████████| 304/304 [00:13<00:00, 23.25 examples/s]
+Filter (num_proc=22):   0%|          | 0/34643 [00:00<?, ? examples/s]Filter (num_proc=22):  14%|█▎        | 4725/34643 [00:00<00:00, 45853.12 examples/s]Filter (num_proc=22):  32%|███▏      | 11025/34643 [00:00<00:00, 53640.02 examples/s]Filter (num_proc=22): 100%|██████████| 34643/34643 [00:00<00:00, 90898.12 examples/s]
+Filter (num_proc=22):   0%|          | 0/304 [00:00<?, ? examples/s]Filter (num_proc=22):  14%|█▍        | 42/304 [00:00<00:00, 400.60 examples/s]Filter (num_proc=22):  41%|████▏     | 126/304 [00:00<00:00, 631.86 examples/s]Filter (num_proc=22): 100%|██████████| 304/304 [00:00<00:00, 805.38 examples/s]
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/config.json
+loading configuration file ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+loading configuration file ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+Feature extractor SeamlessM4TFeatureExtractor {
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 1,
+  "processor_class": "Wav2Vec2BertProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "stride": 2
+}
+
+loading file vocab.json
+loading file tokenizer_config.json
+loading file added_tokens.json
+loading file special_tokens_map.json
+loading file tokenizer.json
+loading file chat_template.jinja
+Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
+Processor Wav2Vec2BertProcessor:
+- feature_extractor: SeamlessM4TFeatureExtractor {
+  "feature_extractor_type": "SeamlessM4TFeatureExtractor",
+  "feature_size": 80,
+  "num_mel_bins": 80,
+  "padding_side": "right",
+  "padding_value": 1,
+  "processor_class": "Wav2Vec2BertProcessor",
+  "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "stride": 2
+}
+
+- tokenizer: Wav2Vec2CTCTokenizer(name_or_path='./w2v-bert-2.0-chichewa_34_34h', vocab_size=60, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '[UNK]', 'pad_token': '[PAD]'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
+	58: AddedToken("[UNK]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
+	59: AddedToken("[PAD]", rstrip=True, lstrip=True, single_word=False, normalized=False, special=False),
+	60: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+	61: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
+}
+)
+
+{
+  "processor_class": "Wav2Vec2BertProcessor"
+}
+
+max_steps is given, it will override any value given in num_train_epochs
+Using auto half precision backend
+04/19/2025 15:23:36 - INFO - __main__ - Fine-tuning model from scratch
+The following columns in the training set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+***** Running training *****
+  Num examples = 34,643
+  Num Epochs = 185
+  Instantaneous batch size per device = 32
+  Total train batch size (w. parallel, distributed & accumulation) = 64
+  Gradient Accumulation steps = 2
+  Total optimization steps = 100,000
+  Number of trainable parameters = 605,740,926
+  0%|          | 0/100000 [00:00<?, ?it/s]  0%|          | 1/100000 [00:18<501:58:32, 18.07s/it]                                                        0%|          | 1/100000 [00:18<501:58:32, 18.07s/it]  0%|          | 2/100000 [00:23<301:28:42, 10.85s/it]                                                        0%|          | 2/100000 [00:23<301:28:42, 10.85s/it]  0%|          | 3/100000 [00:28<216:35:35,  7.80s/it]                                                        0%|          | 3/100000 [00:28<216:35:35,  7.80s/it]  0%|          | 4/100000 [00:32<175:10:34,  6.31s/it]                                                        0%|          | 4/100000 [00:32<175:10:34,  6.31s/it]  0%|          | 5/100000 [00:35<148:19:52,  5.34s/it]                                                        0%|          | 5/100000 [00:35<148:19:52,  5.34s/it]  0%|          | 6/100000 [00:38<126:44:51,  4.56s/it]                                                        0%|          | 6/100000 [00:38<126:44:51,  4.56s/it]  0%|          | 7/100000 [00:41<112:03:06,  4.03s/it]                                                        0%|          | 7/100000 [00:41<112:03:06,  4.03s/it]  0%|          | 8/100000 [00:44<100:56:00,  3.63s/it]                                                        0%|          | 8/100000 [00:44<100:56:00,  3.63s/it]  0%|          | 9/100000 [00:46<90:14:04,  3.25s/it]                                                        0%|          | 9/100000 [00:46<90:14:04,  3.25s/it]  0%|          | 10/100000 [00:49<82:28:02,  2.97s/it]                                                        0%|          | 10/100000 [00:49<82:28:02,  2.97s/it]  0%|          | 11/100000 [00:51<75:34:27,  2.72s/it]                                                        0%|          | 11/100000 [00:51<75:34:27,  2.72s/it]  0%|          | 12/100000 [00:53<69:46:05,  2.51s/it]                                                        0%|          | 12/100000 [00:53<69:46:05,  2.51s/it]  0%|          | 13/100000 [00:55<64:39:30,  2.33s/it]                                                        0%|          | 13/100000 [00:55<64:39:30,  2.33s/it]  0%|          | 14/100000 [00:57<60:25:55,  2.18s/it]                                                        0%|          | 14/100000 [00:57<60:25:55,  2.18s/it]  0%|          | 15/100000 [00:58<56:52:40,  2.05s/it]                                                        0%|          | 15/100000 [00:58<56:52:40,  2.05s/it]  0%|          | 16/100000 [01:00<53:29:50,  1.93s/it]                                                        0%|          | 16/100000 [01:00<53:29:50,  1.93s/it]  0%|          | 17/100000 [01:02<50:28:50,  1.82s/it]                                                        0%|          | 17/100000 [01:02<50:28:50,  1.82s/it]  0%|          | 18/100000 [01:03<48:31:48,  1.75s/it]                                                        0%|          | 18/100000 [01:03<48:31:48,  1.75s/it]  0%|          | 19/100000 [01:05<46:44:41,  1.68s/it]                                                        0%|          | 19/100000 [01:05<46:44:41,  1.68s/it]  0%|          | 20/100000 [01:06<45:12:27,  1.63s/it]                                                        0%|          | 20/100000 [01:06<45:12:27,  1.63s/it]  0%|          | 21/100000 [01:08<43:39:11,  1.57s/it]                                                        0%|          | 21/100000 [01:08<43:39:11,  1.57s/it]  0%|          | 22/100000 [01:09<42:26:26,  1.53s/it]                                                        0%|          | 22/100000 [01:09<42:26:26,  1.53s/it]  0%|          | 23/100000 [01:10<41:26:23,  1.49s/it]                                                        0%|          | 23/100000 [01:10<41:26:23,  1.49s/it]  0%|          | 24/100000 [01:12<40:28:21,  1.46s/it]                                                        0%|          | 24/100000 [01:12<40:28:21,  1.46s/it]  0%|          | 25/100000 [01:13<39:22:53,  1.42s/it]                                                        0%|          | 25/100000 [01:13<39:22:53,  1.42s/it]  0%|          | 26/100000 [01:15<38:47:04,  1.40s/it]                                                        0%|          | 26/100000 [01:15<38:47:04,  1.40s/it]  0%|          | 27/100000 [01:16<38:05:17,  1.37s/it]                                                        0%|          | 27/100000 [01:16<38:05:17,  1.37s/it]  0%|          | 28/100000 [01:17<37:38:48,  1.36s/it]                                                        0%|          | 28/100000 [01:17<37:38:48,  1.36s/it]  0%|          | 29/100000 [01:18<36:52:41,  1.33s/it]                                                        0%|          | 29/100000 [01:18<36:52:41,  1.33s/it]  0%|          | 30/100000 [01:20<36:22:47,  1.31s/it]                                                        0%|          | 30/100000 [01:20<36:22:47,  1.31s/it]  0%|          | 31/100000 [01:21<35:51:11,  1.29s/it]                                                        0%|          | 31/100000 [01:21<35:51:11,  1.29s/it]  0%|          | 32/100000 [01:22<35:29:39,  1.28s/it]                                                        0%|          | 32/100000 [01:22<35:29:39,  1.28s/it]  0%|          | 33/100000 [01:23<35:07:33,  1.26s/it]                                                        0%|          | 33/100000 [01:23<35:07:33,  1.26s/it]  0%|          | 34/100000 [01:25<34:10:23,  1.23s/it]                                                        0%|          | 34/100000 [01:25<34:10:23,  1.23s/it]  0%|          | 35/100000 [01:26<33:39:30,  1.21s/it]                                                        0%|          | 35/100000 [01:26<33:39:30,  1.21s/it]  0%|          | 36/100000 [01:27<33:12:08,  1.20s/it]                                                        0%|          | 36/100000 [01:27<33:12:08,  1.20s/it]  0%|          | 37/100000 [01:28<32:45:03,  1.18s/it]                                                        0%|          | 37/100000 [01:28<32:45:03,  1.18s/it]  0%|          | 38/100000 [01:29<32:03:39,  1.15s/it]                                                        0%|          | 38/100000 [01:29<32:03:39,  1.15s/it]  0%|          | 39/100000 [01:30<31:46:00,  1.14s/it]                                                        0%|          | 39/100000 [01:30<31:46:00,  1.14s/it]  0%|          | 40/100000 [01:31<31:29:11,  1.13s/it]                                                        0%|          | 40/100000 [01:31<31:29:11,  1.13s/it]  0%|          | 41/100000 [01:32<30:55:00,  1.11s/it]                                                        0%|          | 41/100000 [01:32<30:55:00,  1.11s/it]  0%|          | 42/100000 [01:34<30:35:36,  1.10s/it]                                                        0%|          | 42/100000 [01:34<30:35:36,  1.10s/it]  0%|          | 43/100000 [01:35<29:55:21,  1.08s/it]                                                        0%|          | 43/100000 [01:35<29:55:21,  1.08s/it]  0%|          | 44/100000 [01:36<29:28:16,  1.06s/it]                                                        0%|          | 44/100000 [01:36<29:28:16,  1.06s/it]  0%|          | 45/100000 [01:37<28:45:41,  1.04s/it]                                                        0%|          | 45/100000 [01:37<28:45:41,  1.04s/it]  0%|          | 46/100000 [01:38<28:15:54,  1.02s/it]                                                        0%|          | 46/100000 [01:38<28:15:54,  1.02s/it]  0%|          | 47/100000 [01:38<27:40:27,  1.00it/s]                                                        0%|          | 47/100000 [01:38<27:40:27,  1.00it/s]  0%|          | 48/100000 [01:39<27:22:41,  1.01it/s]                                                        0%|          | 48/100000 [01:39<27:22:41,  1.01it/s]  0%|          | 49/100000 [01:40<26:16:44,  1.06it/s]                                                        0%|          | 49/100000 [01:40<26:16:44,  1.06it/s]  0%|          | 50/100000 [01:41<25:13:07,  1.10it/s]                                                        0%|          | 50/100000 [01:41<25:13:07,  1.10it/s]  0%|          | 51/100000 [01:53<117:00:50,  4.21s/it]                                                         0%|          | 51/100000 [01:53<117:00:50,  4.21s/it]  0%|          | 52/100000 [01:58<127:05:47,  4.58s/it]                                                         0%|          | 52/100000 [01:58<127:05:47,  4.58s/it]  0%|          | 53/100000 [02:03<128:56:28,  4.64s/it]                                                         0%|          | 53/100000 [02:03<128:56:28,  4.64s/it]  0%|          | 54/100000 [02:07<124:37:09,  4.49s/it]                                                         0%|          | 54/100000 [02:07<124:37:09,  4.49s/it]  0%|          | 55/100000 [02:11<115:47:10,  4.17s/it]                                                         0%|          | 55/100000 [02:11<115:47:10,  4.17s/it]  0%|          | 56/100000 [02:14<108:19:26,  3.90s/it]                                                         0%|          | 56/100000 [02:14<108:19:26,  3.90s/it]  0%|          | 57/100000 [02:17<100:58:14,  3.64s/it]                                                         0%|          | 57/100000 [02:17<100:58:14,  3.64s/it]  0%|          | 58/100000 [02:20<93:37:52,  3.37s/it]                                                         0%|          | 58/100000 [02:20<93:37:52,  3.37s/it]  0%|          | 59/100000 [02:22<85:39:15,  3.09s/it]                                                        0%|          | 59/100000 [02:22<85:39:15,  3.09s/it]  0%|          | 60/100000 [02:25<78:46:29,  2.84s/it]                                                        0%|          | 60/100000 [02:25<78:46:29,  2.84s/it]  0%|          | 61/100000 [02:27<73:31:41,  2.65s/it]                                                        0%|          | 61/100000 [02:27<73:31:41,  2.65s/it]  0%|          | 62/100000 [02:29<68:39:00,  2.47s/it]                                                        0%|          | 62/100000 [02:29<68:39:00,  2.47s/it]  0%|          | 63/100000 [02:31<63:48:54,  2.30s/it]                                                        0%|          | 63/100000 [02:31<63:48:54,  2.30s/it]  0%|          | 64/100000 [02:33<60:08:05,  2.17s/it]                                                        0%|          | 64/100000 [02:33<60:08:05,  2.17s/it]  0%|          | 65/100000 [02:34<56:36:16,  2.04s/it]                                                        0%|          | 65/100000 [02:34<56:36:16,  2.04s/it]  0%|          | 66/100000 [02:36<53:43:59,  1.94s/it]                                                        0%|          | 66/100000 [02:36<53:43:59,  1.94s/it]  0%|          | 67/100000 [02:38<51:13:52,  1.85s/it]                                                        0%|          | 67/100000 [02:38<51:13:52,  1.85s/it]  0%|          | 68/100000 [02:39<48:49:25,  1.76s/it]                                                        0%|          | 68/100000 [02:39<48:49:25,  1.76s/it]  0%|          | 69/100000 [02:41<47:02:21,  1.69s/it]                                                        0%|          | 69/100000 [02:41<47:02:21,  1.69s/it]  0%|          | 70/100000 [02:42<45:18:19,  1.63s/it]                                                        0%|          | 70/100000 [02:42<45:18:19,  1.63s/it]  0%|          | 71/100000 [02:44<43:31:33,  1.57s/it]                                                        0%|          | 71/100000 [02:44<43:31:33,  1.57s/it]  0%|          | 72/100000 [02:45<42:33:05,  1.53s/it]                                                        0%|          | 72/100000 [02:45<42:33:05,  1.53s/it]  0%|          | 73/100000 [02:46<41:42:53,  1.50s/it]                                                        0%|          | 73/100000 [02:46<41:42:53,  1.50s/it]  0%|          | 74/100000 [02:48<40:50:08,  1.47s/it]                                                        0%|          | 74/100000 [02:48<40:50:08,  1.47s/it]  0%|          | 75/100000 [02:49<40:02:38,  1.44s/it]                                                        0%|          | 75/100000 [02:49<40:02:38,  1.44s/it]  0%|          | 76/100000 [02:51<39:08:08,  1.41s/it]                                                        0%|          | 76/100000 [02:51<39:08:08,  1.41s/it]  0%|          | 77/100000 [02:52<38:48:18,  1.40s/it]                                                        0%|          | 77/100000 [02:52<38:48:18,  1.40s/it]  0%|          | 78/100000 [02:53<37:47:44,  1.36s/it]                                                        0%|          | 78/100000 [02:53<37:47:44,  1.36s/it]  0%|          | 79/100000 [02:55<37:15:27,  1.34s/it]                                                        0%|          | 79/100000 [02:55<37:15:27,  1.34s/it]  0%|          | 80/100000 [02:56<36:19:49,  1.31s/it]                                                        0%|          | 80/100000 [02:56<36:19:49,  1.31s/it]  0%|          | 81/100000 [02:57<35:54:46,  1.29s/it]                                                        0%|          | 81/100000 [02:57<35:54:46,  1.29s/it]  0%|          | 82/100000 [02:58<35:23:38,  1.28s/it]                                                        0%|          | 82/100000 [02:58<35:23:38,  1.28s/it]  0%|          | 83/100000 [02:59<35:01:07,  1.26s/it]                                                        0%|          | 83/100000 [03:00<35:01:07,  1.26s/it]  0%|          | 84/100000 [03:01<34:33:24,  1.25s/it]                                                        0%|          | 84/100000 [03:01<34:33:24,  1.25s/it]  0%|          | 85/100000 [03:02<33:58:14,  1.22s/it]                                                        0%|          | 85/100000 [03:02<33:58:14,  1.22s/it]  0%|          | 86/100000 [03:03<33:10:06,  1.20s/it]                                                      {'loss': 9.3625, 'grad_norm': 22.621971130371094, 'learning_rate': 3.0000000000000004e-09, 'epoch': 0.0}
+{'loss': 8.455, 'grad_norm': 20.207006454467773, 'learning_rate': 6.000000000000001e-09, 'epoch': 0.0}
+{'loss': 8.2344, 'grad_norm': 19.7971134185791, 'learning_rate': 9e-09, 'epoch': 0.01}
+{'loss': 8.3048, 'grad_norm': 19.891284942626953, 'learning_rate': 1.2000000000000002e-08, 'epoch': 0.01}
+{'loss': 8.0988, 'grad_norm': 19.400951385498047, 'learning_rate': 1.5000000000000002e-08, 'epoch': 0.01}
+{'loss': 8.3828, 'grad_norm': 20.50615882873535, 'learning_rate': 1.8e-08, 'epoch': 0.01}
+{'loss': 8.2395, 'grad_norm': 20.289794921875, 'learning_rate': 2.1e-08, 'epoch': 0.01}
+{'loss': 8.3791, 'grad_norm': 20.422374725341797, 'learning_rate': 2.4000000000000003e-08, 'epoch': 0.01}
+{'loss': 8.223, 'grad_norm': 20.068317413330078, 'learning_rate': 2.7e-08, 'epoch': 0.02}
+{'loss': 8.2373, 'grad_norm': 20.406330108642578, 'learning_rate': 3.0000000000000004e-08, 'epoch': 0.02}
+{'loss': 8.1534, 'grad_norm': 20.23192024230957, 'learning_rate': 3.3000000000000004e-08, 'epoch': 0.02}
+{'loss': 8.0391, 'grad_norm': 20.09835433959961, 'learning_rate': 3.6e-08, 'epoch': 0.02}
+{'loss': 8.7457, 'grad_norm': 21.759641647338867, 'learning_rate': 3.9e-08, 'epoch': 0.02}
+{'loss': 8.8412, 'grad_norm': 21.865198135375977, 'learning_rate': 4.2e-08, 'epoch': 0.03}
+{'loss': 8.9815, 'grad_norm': 22.47687530517578, 'learning_rate': 4.5e-08, 'epoch': 0.03}
+{'loss': 9.5453, 'grad_norm': 24.19575309753418, 'learning_rate': 4.8000000000000006e-08, 'epoch': 0.03}
+{'loss': 9.4247, 'grad_norm': 23.769922256469727, 'learning_rate': 5.1e-08, 'epoch': 0.03}
+{'loss': 10.171, 'grad_norm': 26.34709358215332, 'learning_rate': 5.4e-08, 'epoch': 0.03}
+{'loss': 10.2378, 'grad_norm': 27.064607620239258, 'learning_rate': 5.7e-08, 'epoch': 0.04}
+{'loss': 9.9684, 'grad_norm': 25.482282638549805, 'learning_rate': 6.000000000000001e-08, 'epoch': 0.04}
+{'loss': 10.2665, 'grad_norm': 26.783565521240234, 'learning_rate': 6.3e-08, 'epoch': 0.04}
+{'loss': 9.8199, 'grad_norm': 25.946687698364258, 'learning_rate': 6.600000000000001e-08, 'epoch': 0.04}
+{'loss': 10.0497, 'grad_norm': 26.15570831298828, 'learning_rate': 6.9e-08, 'epoch': 0.04}
+{'loss': 10.1436, 'grad_norm': 26.88849639892578, 'learning_rate': 7.2e-08, 'epoch': 0.04}
+{'loss': 9.8762, 'grad_norm': 25.654088973999023, 'learning_rate': 7.500000000000001e-08, 'epoch': 0.05}
+{'loss': 9.9597, 'grad_norm': 26.350845336914062, 'learning_rate': 7.8e-08, 'epoch': 0.05}
+{'loss': 9.9127, 'grad_norm': 26.18523597717285, 'learning_rate': 8.100000000000001e-08, 'epoch': 0.05}
+{'loss': 9.9067, 'grad_norm': 25.764511108398438, 'learning_rate': 8.4e-08, 'epoch': 0.05}
+{'loss': 9.9984, 'grad_norm': 26.577726364135742, 'learning_rate': 8.7e-08, 'epoch': 0.05}
+{'loss': 9.9988, 'grad_norm': 26.31147575378418, 'learning_rate': 9e-08, 'epoch': 0.06}
+{'loss': 10.0926, 'grad_norm': 26.770029067993164, 'learning_rate': 9.3e-08, 'epoch': 0.06}
+{'loss': 9.9067, 'grad_norm': 26.448558807373047, 'learning_rate': 9.600000000000001e-08, 'epoch': 0.06}
+{'loss': 9.9779, 'grad_norm': 26.373918533325195, 'learning_rate': 9.9e-08, 'epoch': 0.06}
+{'loss': 10.1244, 'grad_norm': 27.763418197631836, 'learning_rate': 1.02e-07, 'epoch': 0.06}
+{'loss': 9.7475, 'grad_norm': 25.96488380432129, 'learning_rate': 1.05e-07, 'epoch': 0.06}
+{'loss': 9.7923, 'grad_norm': 25.816864013671875, 'learning_rate': 1.08e-07, 'epoch': 0.07}
+{'loss': 9.8985, 'grad_norm': 26.328279495239258, 'learning_rate': 1.11e-07, 'epoch': 0.07}
+{'loss': 9.7801, 'grad_norm': 25.940914154052734, 'learning_rate': 1.14e-07, 'epoch': 0.07}
+{'loss': 9.7807, 'grad_norm': 25.886962890625, 'learning_rate': 1.17e-07, 'epoch': 0.07}
+{'loss': 9.8574, 'grad_norm': 27.217947006225586, 'learning_rate': 1.2000000000000002e-07, 'epoch': 0.07}
+{'loss': 9.5134, 'grad_norm': 26.309337615966797, 'learning_rate': 1.23e-07, 'epoch': 0.08}
+{'loss': 9.513, 'grad_norm': 25.59661102294922, 'learning_rate': 1.26e-07, 'epoch': 0.08}
+{'loss': 9.6874, 'grad_norm': 27.14220428466797, 'learning_rate': 1.29e-07, 'epoch': 0.08}
+{'loss': 9.3105, 'grad_norm': 24.923891067504883, 'learning_rate': 1.3200000000000002e-07, 'epoch': 0.08}
+{'loss': 9.3556, 'grad_norm': 25.352060317993164, 'learning_rate': 1.35e-07, 'epoch': 0.08}
+{'loss': 9.2043, 'grad_norm': 25.561046600341797, 'learning_rate': 1.38e-07, 'epoch': 0.08}
+{'loss': 9.4057, 'grad_norm': 25.8244686126709, 'learning_rate': 1.41e-07, 'epoch': 0.09}
+{'loss': 9.2032, 'grad_norm': 26.3791561126709, 'learning_rate': 1.44e-07, 'epoch': 0.09}
+{'loss': 9.1291, 'grad_norm': 25.30979347229004, 'learning_rate': 1.47e-07, 'epoch': 0.09}
+{'loss': 8.591, 'grad_norm': 23.93961524963379, 'learning_rate': 1.5000000000000002e-07, 'epoch': 0.09}
+{'loss': 9.1986, 'grad_norm': 23.533157348632812, 'learning_rate': 1.53e-07, 'epoch': 0.09}
+{'loss': 7.9289, 'grad_norm': 19.902755737304688, 'learning_rate': 1.56e-07, 'epoch': 0.1}
+{'loss': 8.4068, 'grad_norm': 21.54668426513672, 'learning_rate': 1.59e-07, 'epoch': 0.1}
+{'loss': 8.0642, 'grad_norm': 20.574657440185547, 'learning_rate': 1.6200000000000002e-07, 'epoch': 0.1}
+{'loss': 7.8933, 'grad_norm': 20.305767059326172, 'learning_rate': 1.6499999999999998e-07, 'epoch': 0.1}
+{'loss': 8.2149, 'grad_norm': 21.524248123168945, 'learning_rate': 1.68e-07, 'epoch': 0.1}
+{'loss': 7.8225, 'grad_norm': 20.279159545898438, 'learning_rate': 1.71e-07, 'epoch': 0.11}
+{'loss': 7.8799, 'grad_norm': 20.45210838317871, 'learning_rate': 1.74e-07, 'epoch': 0.11}
+{'loss': 7.9268, 'grad_norm': 21.43587303161621, 'learning_rate': 1.77e-07, 'epoch': 0.11}
+{'loss': 7.9966, 'grad_norm': 20.783554077148438, 'learning_rate': 1.8e-07, 'epoch': 0.11}
+{'loss': 7.7444, 'grad_norm': 20.195615768432617, 'learning_rate': 1.83e-07, 'epoch': 0.11}
+{'loss': 8.2015, 'grad_norm': 22.26091766357422, 'learning_rate': 1.86e-07, 'epoch': 0.11}
+{'loss': 8.3655, 'grad_norm': 22.69646453857422, 'learning_rate': 1.89e-07, 'epoch': 0.12}
+{'loss': 8.1947, 'grad_norm': 22.68636131286621, 'learning_rate': 1.9200000000000003e-07, 'epoch': 0.12}
+{'loss': 8.832, 'grad_norm': 25.018808364868164, 'learning_rate': 1.9499999999999999e-07, 'epoch': 0.12}
+{'loss': 9.3476, 'grad_norm': 27.025386810302734, 'learning_rate': 1.98e-07, 'epoch': 0.12}
+{'loss': 9.5083, 'grad_norm': 27.390701293945312, 'learning_rate': 2.01e-07, 'epoch': 0.12}
+{'loss': 9.9266, 'grad_norm': 28.93164825439453, 'learning_rate': 2.04e-07, 'epoch': 0.13}
+{'loss': 9.9968, 'grad_norm': 29.568239212036133, 'learning_rate': 2.0700000000000001e-07, 'epoch': 0.13}
+{'loss': 10.2074, 'grad_norm': 31.310028076171875, 'learning_rate': 2.1e-07, 'epoch': 0.13}
+{'loss': 9.6556, 'grad_norm': 29.128494262695312, 'learning_rate': 2.1300000000000001e-07, 'epoch': 0.13}
+{'loss': 9.7587, 'grad_norm': 29.401884078979492, 'learning_rate': 2.16e-07, 'epoch': 0.13}
+{'loss': 9.6016, 'grad_norm': 29.164548873901367, 'learning_rate': 2.1900000000000002e-07, 'epoch': 0.13}
+{'loss': 9.6611, 'grad_norm': 29.890323638916016, 'learning_rate': 2.22e-07, 'epoch': 0.14}
+{'loss': 9.8628, 'grad_norm': 30.824186325073242, 'learning_rate': 2.25e-07, 'epoch': 0.14}
+{'loss': 9.7659, 'grad_norm': 30.39980125427246, 'learning_rate': 2.28e-07, 'epoch': 0.14}
+{'loss': 9.4846, 'grad_norm': 28.811660766601562, 'learning_rate': 2.3100000000000002e-07, 'epoch': 0.14}
+{'loss': 9.6802, 'grad_norm': 30.074052810668945, 'learning_rate': 2.34e-07, 'epoch': 0.14}
+{'loss': 9.5901, 'grad_norm': 30.820892333984375, 'learning_rate': 2.3700000000000002e-07, 'epoch': 0.15}
+{'loss': 9.3774, 'grad_norm': 28.861011505126953, 'learning_rate': 2.4000000000000003e-07, 'epoch': 0.15}
+{'loss': 9.5449, 'grad_norm': 29.80718231201172, 'learning_rate': 2.43e-07, 'epoch': 0.15}
+{'loss': 9.2557, 'grad_norm': 29.73357391357422, 'learning_rate': 2.46e-07, 'epoch': 0.15}
+{'loss': 9.2959, 'grad_norm': 29.006399154663086, 'learning_rate': 2.49e-07, 'epoch': 0.15}
+{'loss': 9.5172, 'grad_norm': 31.09878921508789, 'learning_rate': 2.52e-07, 'epoch': 0.16}
+{'loss': 9.4964, 'grad_norm': 30.797834396362305, 'learning_rate': 2.5500000000000005e-07, 'epoch': 0.16}
+  0%|          | 86/100000 [03:03<33:10:06,  1.20s/it]  0%|          | 87/100000 [03:04<32:38:36,  1.18s/it]                                                        0%|          | 87/100000 [03:04<32:38:36,  1.18s/it]  0%|          | 88/100000 [03:05<32:14:36,  1.16s/it]                                                        0%|          | 88/100000 [03:05<32:14:36,  1.16s/it]  0%|          | 89/100000 [03:06<32:00:38,  1.15s/it]                                                        0%|          | 89/100000 [03:06<32:00:38,  1.15s/it]  0%|          | 90/100000 [03:08<31:34:04,  1.14s/it]                                                        0%|          | 90/100000 [03:08<31:34:04,  1.14s/it]  0%|          | 91/100000 [03:09<30:54:23,  1.11s/it]                                                        0%|          | 91/100000 [03:09<30:54:23,  1.11s/it]  0%|          | 92/100000 [03:10<30:28:29,  1.10s/it]                                                        0%|          | 92/100000 [03:10<30:28:29,  1.10s/it]  0%|          | 93/100000 [03:11<30:01:28,  1.08s/it]                                                        0%|          | 93/100000 [03:11<30:01:28,  1.08s/it]  0%|          | 94/100000 [03:12<29:18:14,  1.06s/it]                                                        0%|          | 94/100000 [03:12<29:18:14,  1.06s/it]  0%|          | 95/100000 [03:13<28:46:40,  1.04s/it]                                                        0%|          | 95/100000 [03:13<28:46:40,  1.04s/it]  0%|          | 96/100000 [03:14<28:16:45,  1.02s/it]                                                        0%|          | 96/100000 [03:14<28:16:45,  1.02s/it]  0%|          | 97/100000 [03:15<28:15:10,  1.02s/it]                                                        0%|          | 97/100000 [03:15<28:15:10,  1.02s/it]  0%|          | 98/100000 [03:16<27:47:52,  1.00s/it]                                                        0%|          | 98/100000 [03:16<27:47:52,  1.00s/it]  0%|          | 99/100000 [03:17<28:33:50,  1.03s/it]                                                        0%|          | 99/100000 [03:17<28:33:50,  1.03s/it]  0%|          | 100/100000 [03:18<27:18:57,  1.02it/s]                                                         0%|          | 100/100000 [03:18<27:18:57,  1.02it/s]  0%|          | 101/100000 [03:29<116:48:55,  4.21s/it]                                                          0%|          | 101/100000 [03:29<116:48:55,  4.21s/it]  0%|          | 102/100000 [03:35<130:13:23,  4.69s/it]                                                          0%|          | 102/100000 [03:35<130:13:23,  4.69s/it]  0%|          | 103/100000 [03:40<128:38:48,  4.64s/it]                                                          0%|          | 103/100000 [03:40<128:38:48,  4.64s/it]  0%|          | 104/100000 [03:44<123:21:49,  4.45s/it]                                                          0%|          | 104/100000 [03:44<123:21:49,  4.45s/it]  0%|          | 105/100000 [03:47<115:10:13,  4.15s/it]                                                          0%|          | 105/100000 [03:47<115:10:13,  4.15s/it]  0%|          | 106/100000 [03:50<107:47:50,  3.88s/it]                                                          0%|          | 106/100000 [03:50<107:47:50,  3.88s/it]  0%|          | 107/100000 [03:53<100:22:29,  3.62s/it]                                                          0%|          | 107/100000 [03:53<100:22:29,  3.62s/it]  0%|          | 108/100000 [03:56<93:19:14,  3.36s/it]                                                          0%|          | 108/100000 [03:56<93:19:14,  3.36s/it]  0%|          | 109/100000 [03:59<86:42:20,  3.12s/it]                                                         0%|          | 109/100000 [03:59<86:42:20,  3.12s/it]  0%|          | 110/100000 [04:01<80:21:21,  2.90s/it]                                                         0%|          | 110/100000 [04:01<80:21:21,  2.90s/it]  0%|          | 111/100000 [04:03<74:51:06,  2.70s/it]                                                         0%|          | 111/100000 [04:03<74:51:06,  2.70s/it]  0%|          | 112/100000 [04:05<69:32:39,  2.51s/it]                                                         0%|          | 112/100000 [04:05<69:32:39,  2.51s/it]  0%|          | 113/100000 [04:07<64:53:21,  2.34s/it]                                                         0%|          | 113/100000 [04:07<64:53:21,  2.34s/it]  0%|          | 114/100000 [04:09<60:52:57,  2.19s/it]                                                         0%|          | 114/100000 [04:09<60:52:57,  2.19s/it]  0%|          | 115/100000 [04:11<57:16:35,  2.06s/it]                                                         0%|          | 115/100000 [04:11<57:16:35,  2.06s/it]  0%|          | 116/100000 [04:13<53:59:21,  1.95s/it]                                                         0%|          | 116/100000 [04:13<53:59:21,  1.95s/it]  0%|          | 117/100000 [04:14<51:13:00,  1.85s/it]                                                         0%|          | 117/100000 [04:14<51:13:00,  1.85s/it]  0%|          | 118/100000 [04:16<49:09:43,  1.77s/it]                                                         0%|          | 118/100000 [04:16<49:09:43,  1.77s/it]  0%|          | 119/100000 [04:17<47:14:30,  1.70s/it]                                                         0%|          | 119/100000 [04:17<47:14:30,  1.70s/it]  0%|          | 120/100000 [04:19<45:08:28,  1.63s/it]                                                         0%|          | 120/100000 [04:19<45:08:28,  1.63s/it]  0%|          | 121/100000 [04:20<43:42:32,  1.58s/it]                                                         0%|          | 121/100000 [04:20<43:42:32,  1.58s/it]  0%|          | 122/100000 [04:22<42:32:51,  1.53s/it]                                                         0%|          | 122/100000 [04:22<42:32:51,  1.53s/it]  0%|          | 123/100000 [04:23<41:26:55,  1.49s/it]                                                         0%|          | 123/100000 [04:23<41:26:55,  1.49s/it]  0%|          | 124/100000 [04:24<40:30:49,  1.46s/it]                                                         0%|          | 124/100000 [04:24<40:30:49,  1.46s/it]  0%|          | 125/100000 [04:26<39:21:46,  1.42s/it]                                                         0%|          | 125/100000 [04:26<39:21:46,  1.42s/it]  0%|          | 126/100000 [04:27<38:49:15,  1.40s/it]                                                         0%|          | 126/100000 [04:27<38:49:15,  1.40s/it]  0%|          | 127/100000 [04:28<38:02:02,  1.37s/it]                                                         0%|          | 127/100000 [04:28<38:02:02,  1.37s/it]  0%|          | 128/100000 [04:30<37:30:26,  1.35s/it]                                                         0%|          | 128/100000 [04:30<37:30:26,  1.35s/it]  0%|          | 129/100000 [04:31<36:34:40,  1.32s/it]                                                         0%|          | 129/100000 [04:31<36:34:40,  1.32s/it]  0%|          | 130/100000 [04:32<36:21:10,  1.31s/it]                                                         0%|          | 130/100000 [04:32<36:21:10,  1.31s/it]  0%|          | 131/100000 [04:34<35:52:19,  1.29s/it]                                                         0%|          | 131/100000 [04:34<35:52:19,  1.29s/it]  0%|          | 132/100000 [04:35<35:24:12,  1.28s/it]                                                         0%|          | 132/100000 [04:35<35:24:12,  1.28s/it]  0%|          | 133/100000 [04:36<34:56:05,  1.26s/it]                                                         0%|          | 133/100000 [04:36<34:56:05,  1.26s/it]  0%|          | 134/100000 [04:37<34:15:21,  1.23s/it]                                                         0%|          | 134/100000 [04:37<34:15:21,  1.23s/it]  0%|          | 135/100000 [04:38<33:29:27,  1.21s/it]                                                         0%|          | 135/100000 [04:38<33:29:27,  1.21s/it]  0%|          | 136/100000 [04:39<33:06:17,  1.19s/it]                                                         0%|          | 136/100000 [04:39<33:06:17,  1.19s/it]  0%|          | 137/100000 [04:41<32:39:13,  1.18s/it]                                                         0%|          | 137/100000 [04:41<32:39:13,  1.18s/it]  0%|          | 138/100000 [04:42<32:16:45,  1.16s/it]                                                         0%|          | 138/100000 [04:42<32:16:45,  1.16s/it]  0%|          | 139/100000 [04:43<31:48:56,  1.15s/it]                                                         0%|          | 139/100000 [04:43<31:48:56,  1.15s/it]  0%|          | 140/100000 [04:44<31:31:34,  1.14s/it]                                                         0%|          | 140/100000 [04:44<31:31:34,  1.14s/it]  0%|          | 141/100000 [04:45<31:10:50,  1.12s/it]                                                         0%|          | 141/100000 [04:45<31:10:50,  1.12s/it]  0%|          | 142/100000 [04:46<30:46:27,  1.11s/it]                                                         0%|          | 142/100000 [04:46<30:46:27,  1.11s/it]  0%|          | 143/100000 [04:47<30:23:04,  1.10s/it]                                                         0%|          | 143/100000 [04:47<30:23:04,  1.10s/it]  0%|          | 144/100000 [04:48<29:59:53,  1.08s/it]                                                         0%|          | 144/100000 [04:48<29:59:53,  1.08s/it]  0%|          | 145/100000 [04:49<29:28:36,  1.06s/it]                                                         0%|          | 145/100000 [04:49<29:28:36,  1.06s/it]  0%|          | 146/100000 [04:50<28:50:53,  1.04s/it]                                                         0%|          | 146/100000 [04:50<28:50:53,  1.04s/it]  0%|          | 147/100000 [04:51<28:16:11,  1.02s/it]                                                         0%|          | 147/100000 [04:51<28:16:11,  1.02s/it]  0%|          | 148/100000 [04:52<27:45:39,  1.00s/it]                                                         0%|          | 148/100000 [04:52<27:45:39,  1.00s/it]  0%|          | 149/100000 [04:53<26:56:05,  1.03it/s]                                                         0%|          | 149/100000 [04:53<26:56:05,  1.03it/s]  0%|          | 150/100000 [04:54<26:39:02,  1.04it/s]                                                         0%|          | 150/100000 [04:54<26:39:02,  1.04it/s]  0%|          | 151/100000 [05:04<97:39:05,  3.52s/it]                                                         0%|          | 151/100000 [05:04<97:39:05,  3.52s/it]  0%|          | 152/100000 [05:09<112:12:19,  4.05s/it]                                                          0%|          | 152/100000 [05:09<112:12:19,  4.05s/it]  0%|          | 153/100000 [05:13<115:36:50,  4.17s/it]                                                          0%|          | 153/100000 [05:13<115:36:50,  4.17s/it]  0%|          | 154/100000 [05:17<115:00:58,  4.15s/it]                                                          0%|          | 154/100000 [05:17<115:00:58,  4.15s/it]  0%|          | 155/100000 [05:21<110:12:27,  3.97s/it]                                                          0%|          | 155/100000 [05:21<110:12:27,  3.97s/it]  0%|          | 156/100000 [05:24<104:30:54,  3.77s/it]                                                          0%|          | 156/100000 [05:24<104:30:54,  3.77s/it]  0%|          | 157/100000 [05:27<98:36:15,  3.56s/it]                                                          0%|          | 157/100000 [05:27<98:36:15,  3.56s/it]  0%|          | 158/100000 [05:30<91:42:59,  3.31s/it]                                                         0%|          | 158/100000 [05:30<91:42:59,  3.31s/it]  0%|          | 159/100000 [05:33<85:17:09,  3.08s/it]                                                         0%|          | 159/100000 [05:33<85:17:09,  3.08s/it]  0%|          | 160/100000 [05:35<78:23:32,  2.83s/it]                                                         0%|          | 160/100000 [05:35<78:23:32,  2.83s/it]  0%|          | 161/100000 [05:37<73:04:59,  2.64s/it]                                                         0%|          | 161/100000 [05:37<73:04:59,  2.64s/it]  0%|          | 162/100000 [05:39<68:09:58,  2.46s/it]                                                         0%|          | 162/100000 [05:39<68:09:58,  2.46s/it]  0%|          | 163/100000 [05:41<63:16:49,  2.28s/it]                                                         0%|          | 163/100000 [05:41<63:16:49,  2.28s/it]  0%|          | 164/100000 [05:43<59:21:21,  2.14s/it]                                                         0%|          | 164/100000 [05:43<59:21:21,  2.14s/it]  0%|          | 165/100000 [05:44<55:46:41,  2.01s/it]                                                         0%|          | 165/100000 [05:44<55:46:41,  2.01s/it]  0%|          | 166/100000 [05:46<53:02:52,  1.91s/it]                                                         0%|          | 166/100000 [05:46<53:02:52,  1.91s/it]  0%|          | 167/100000 [05:48<50:15:03,  1.81s/it]                                                         0%|          | 167/100000 [05:48<50:15:03,  1.81s/it]  0%|          | 168/100000 [05:49<48:15:42,  1.74s/it]                                                         0%|          | 168/100000 [05:49<48:15:42,  1.74s/it]  0%|          | 169/100000 [05:51<46:35:17,  1.68s/it]                                                         0%|          | 169/100000 [05:51<46:35:17,  1.68s/it]  0%|          | 170/100000 [05:52<45:09:02,  1.63s/it]                                                         0%|          | 170/100000 [05:52<45:09:02,  1.63s/it]  0%|          | 171/100000 [05:54<43:50:33,  1.58s/it]                                                         0%|          | 171/100000 [05:54<43:50:33,  1.58s/it]  0%|          | 172/100000 [05:55<42:09:28,  1.52s/it]                                                       {'loss': 9.4663, 'grad_norm': 30.867095947265625, 'learning_rate': 2.58e-07, 'epoch': 0.16}
+{'loss': 9.1204, 'grad_norm': 30.52632713317871, 'learning_rate': 2.6099999999999997e-07, 'epoch': 0.16}
+{'loss': 9.2421, 'grad_norm': 30.950654983520508, 'learning_rate': 2.6400000000000003e-07, 'epoch': 0.16}
+{'loss': 9.2844, 'grad_norm': 31.74310302734375, 'learning_rate': 2.67e-07, 'epoch': 0.16}
+{'loss': 9.2126, 'grad_norm': 31.408519744873047, 'learning_rate': 2.7e-07, 'epoch': 0.17}
+{'loss': 9.2066, 'grad_norm': 31.419960021972656, 'learning_rate': 2.73e-07, 'epoch': 0.17}
+{'loss': 9.0334, 'grad_norm': 30.93468475341797, 'learning_rate': 2.76e-07, 'epoch': 0.17}
+{'loss': 8.8968, 'grad_norm': 31.12645721435547, 'learning_rate': 2.79e-07, 'epoch': 0.17}
+{'loss': 8.8951, 'grad_norm': 30.42648696899414, 'learning_rate': 2.82e-07, 'epoch': 0.17}
+{'loss': 8.8357, 'grad_norm': 29.975467681884766, 'learning_rate': 2.85e-07, 'epoch': 0.18}
+{'loss': 8.7768, 'grad_norm': 30.835067749023438, 'learning_rate': 2.88e-07, 'epoch': 0.18}
+{'loss': 8.7634, 'grad_norm': 30.060455322265625, 'learning_rate': 2.91e-07, 'epoch': 0.18}
+{'loss': 8.5461, 'grad_norm': 30.031410217285156, 'learning_rate': 2.94e-07, 'epoch': 0.18}
+{'loss': 8.5539, 'grad_norm': 31.30252456665039, 'learning_rate': 2.97e-07, 'epoch': 0.18}
+{'loss': 8.2293, 'grad_norm': 29.008281707763672, 'learning_rate': 3.0000000000000004e-07, 'epoch': 0.18}
+{'loss': 9.5889, 'grad_norm': 32.37430191040039, 'learning_rate': 3.03e-07, 'epoch': 0.19}
+{'loss': 7.8944, 'grad_norm': 25.16545295715332, 'learning_rate': 3.06e-07, 'epoch': 0.19}
+{'loss': 7.4857, 'grad_norm': 23.66377067565918, 'learning_rate': 3.0900000000000003e-07, 'epoch': 0.19}
+{'loss': 7.511, 'grad_norm': 24.09159278869629, 'learning_rate': 3.12e-07, 'epoch': 0.19}
+{'loss': 7.3832, 'grad_norm': 23.55128288269043, 'learning_rate': 3.15e-07, 'epoch': 0.19}
+{'loss': 7.4328, 'grad_norm': 24.18902587890625, 'learning_rate': 3.18e-07, 'epoch': 0.2}
+{'loss': 7.3789, 'grad_norm': 23.721189498901367, 'learning_rate': 3.21e-07, 'epoch': 0.2}
+{'loss': 7.4585, 'grad_norm': 25.13196563720703, 'learning_rate': 3.2400000000000004e-07, 'epoch': 0.2}
+{'loss': 7.1487, 'grad_norm': 23.71413230895996, 'learning_rate': 3.27e-07, 'epoch': 0.2}
+{'loss': 7.1516, 'grad_norm': 24.34363555908203, 'learning_rate': 3.2999999999999996e-07, 'epoch': 0.2}
+{'loss': 7.2355, 'grad_norm': 24.962244033813477, 'learning_rate': 3.3300000000000003e-07, 'epoch': 0.2}
+{'loss': 7.3704, 'grad_norm': 25.698650360107422, 'learning_rate': 3.36e-07, 'epoch': 0.21}
+{'loss': 7.9443, 'grad_norm': 29.467025756835938, 'learning_rate': 3.39e-07, 'epoch': 0.21}
+{'loss': 7.7096, 'grad_norm': 28.43014907836914, 'learning_rate': 3.42e-07, 'epoch': 0.21}
+{'loss': 8.204, 'grad_norm': 33.474647521972656, 'learning_rate': 3.45e-07, 'epoch': 0.21}
+{'loss': 8.3935, 'grad_norm': inf, 'learning_rate': 3.45e-07, 'epoch': 0.21}
+{'loss': 8.3841, 'grad_norm': 33.81159591674805, 'learning_rate': 3.48e-07, 'epoch': 0.22}
+{'loss': 8.526, 'grad_norm': 35.76697540283203, 'learning_rate': 3.51e-07, 'epoch': 0.22}
+{'loss': 8.5882, 'grad_norm': 37.332489013671875, 'learning_rate': 3.54e-07, 'epoch': 0.22}
+{'loss': 8.5769, 'grad_norm': 38.213417053222656, 'learning_rate': 3.5700000000000003e-07, 'epoch': 0.22}
+{'loss': 8.5438, 'grad_norm': 37.23543167114258, 'learning_rate': 3.6e-07, 'epoch': 0.22}
+{'loss': 8.8844, 'grad_norm': 41.91793441772461, 'learning_rate': 3.63e-07, 'epoch': 0.23}
+{'loss': 8.4606, 'grad_norm': 38.34842300415039, 'learning_rate': 3.66e-07, 'epoch': 0.23}
+{'loss': 8.8698, 'grad_norm': 43.13532638549805, 'learning_rate': 3.6900000000000004e-07, 'epoch': 0.23}
+{'loss': 8.4624, 'grad_norm': 39.65250015258789, 'learning_rate': 3.72e-07, 'epoch': 0.23}
+{'loss': 8.4699, 'grad_norm': 39.97956848144531, 'learning_rate': 3.75e-07, 'epoch': 0.23}
+{'loss': 8.4046, 'grad_norm': 39.858314514160156, 'learning_rate': 3.78e-07, 'epoch': 0.23}
+{'loss': 8.3207, 'grad_norm': 40.01725387573242, 'learning_rate': 3.81e-07, 'epoch': 0.24}
+{'loss': 8.0651, 'grad_norm': 38.98045349121094, 'learning_rate': 3.8400000000000005e-07, 'epoch': 0.24}
+{'loss': 8.1929, 'grad_norm': 41.58202362060547, 'learning_rate': 3.87e-07, 'epoch': 0.24}
+{'loss': 8.0894, 'grad_norm': 41.836204528808594, 'learning_rate': 3.8999999999999997e-07, 'epoch': 0.24}
+{'loss': 7.9278, 'grad_norm': 40.90363693237305, 'learning_rate': 3.9300000000000004e-07, 'epoch': 0.24}
+{'loss': 8.1413, 'grad_norm': 44.515872955322266, 'learning_rate': 3.96e-07, 'epoch': 0.25}
+{'loss': 8.0039, 'grad_norm': 42.47338104248047, 'learning_rate': 3.99e-07, 'epoch': 0.25}
+{'loss': 8.0041, 'grad_norm': 44.11112594604492, 'learning_rate': 4.02e-07, 'epoch': 0.25}
+{'loss': 8.0428, 'grad_norm': 46.43265914916992, 'learning_rate': 4.05e-07, 'epoch': 0.25}
+{'loss': 8.0573, 'grad_norm': 45.253013610839844, 'learning_rate': 4.08e-07, 'epoch': 0.25}
+{'loss': 7.8205, 'grad_norm': 43.769744873046875, 'learning_rate': 4.11e-07, 'epoch': 0.25}
+{'loss': 7.7984, 'grad_norm': 46.40185546875, 'learning_rate': 4.1400000000000003e-07, 'epoch': 0.26}
+{'loss': 7.5095, 'grad_norm': 44.123138427734375, 'learning_rate': 4.17e-07, 'epoch': 0.26}
+{'loss': 7.7006, 'grad_norm': 47.95862579345703, 'learning_rate': 4.2e-07, 'epoch': 0.26}
+{'loss': 7.2459, 'grad_norm': 43.312129974365234, 'learning_rate': 4.23e-07, 'epoch': 0.26}
+{'loss': 7.3567, 'grad_norm': 45.633419036865234, 'learning_rate': 4.2600000000000003e-07, 'epoch': 0.26}
+{'loss': 7.2379, 'grad_norm': 43.2322998046875, 'learning_rate': 4.2900000000000004e-07, 'epoch': 0.27}
+{'loss': 6.94, 'grad_norm': 41.97365188598633, 'learning_rate': 4.32e-07, 'epoch': 0.27}
+{'loss': 7.1133, 'grad_norm': 45.6364860534668, 'learning_rate': 4.35e-07, 'epoch': 0.27}
+{'loss': 6.9913, 'grad_norm': 44.61563491821289, 'learning_rate': 4.3800000000000003e-07, 'epoch': 0.27}
+{'loss': 6.8122, 'grad_norm': 43.38426208496094, 'learning_rate': 4.41e-07, 'epoch': 0.27}
+{'loss': 6.7077, 'grad_norm': 44.04775619506836, 'learning_rate': 4.44e-07, 'epoch': 0.28}
+{'loss': 6.4878, 'grad_norm': 41.649017333984375, 'learning_rate': 4.47e-07, 'epoch': 0.28}
+{'loss': 6.4685, 'grad_norm': 38.133544921875, 'learning_rate': 4.5e-07, 'epoch': 0.28}
+{'loss': 6.4852, 'grad_norm': 39.247467041015625, 'learning_rate': 4.5300000000000005e-07, 'epoch': 0.28}
+{'loss': 6.2618, 'grad_norm': 36.58827590942383, 'learning_rate': 4.56e-07, 'epoch': 0.28}
+{'loss': 6.0097, 'grad_norm': 33.99684524536133, 'learning_rate': 4.5899999999999997e-07, 'epoch': 0.28}
+{'loss': 6.1671, 'grad_norm': 37.434478759765625, 'learning_rate': 4.6200000000000003e-07, 'epoch': 0.29}
+{'loss': 5.9534, 'grad_norm': 35.457984924316406, 'learning_rate': 4.65e-07, 'epoch': 0.29}
+{'loss': 6.0054, 'grad_norm': 37.76537322998047, 'learning_rate': 4.68e-07, 'epoch': 0.29}
+{'loss': 5.7492, 'grad_norm': 34.144412994384766, 'learning_rate': 4.7099999999999997e-07, 'epoch': 0.29}
+{'loss': 5.7278, 'grad_norm': 35.62531280517578, 'learning_rate': 4.7400000000000004e-07, 'epoch': 0.29}
+{'loss': 5.7173, 'grad_norm': 36.27285385131836, 'learning_rate': 4.77e-07, 'epoch': 0.3}
+{'loss': 5.5855, 'grad_norm': 36.02254104614258, 'learning_rate': 4.800000000000001e-07, 'epoch': 0.3}
+{'loss': 5.663, 'grad_norm': 37.09486770629883, 'learning_rate': 4.83e-07, 'epoch': 0.3}
+{'loss': 5.6351, 'grad_norm': 37.96799087524414, 'learning_rate': 4.86e-07, 'epoch': 0.3}
+{'loss': 5.6276, 'grad_norm': 40.50882339477539, 'learning_rate': 4.89e-07, 'epoch': 0.3}
+{'loss': 5.6743, 'grad_norm': 41.79549789428711, 'learning_rate': 4.92e-07, 'epoch': 0.3}
+{'loss': 5.7052, 'grad_norm': 43.414180755615234, 'learning_rate': 4.95e-07, 'epoch': 0.31}
+{'loss': 5.6869, 'grad_norm': 43.84006118774414, 'learning_rate': 4.98e-07, 'epoch': 0.31}
+{'loss': 5.7381, 'grad_norm': 46.30332565307617, 'learning_rate': 5.01e-07, 'epoch': 0.31}
+{'loss': 5.6472, 'grad_norm': 44.577213287353516, 'learning_rate': 5.04e-07, 'epoch': 0.31}
+{'loss': 5.6299, 'grad_norm': 44.917484283447266, 'learning_rate': 5.07e-07, 'epoch': 0.31}
+{'loss': 5.6951, 'grad_norm': 47.360355377197266, 'learning_rate': 5.100000000000001e-07, 'epoch': 0.32}
+  0%|          | 172/100000 [05:55<42:09:28,  1.52s/it]  0%|          | 173/100000 [05:57<41:21:57,  1.49s/it]                                                         0%|          | 173/100000 [05:57<41:21:57,  1.49s/it]  0%|          | 174/100000 [05:58<40:31:15,  1.46s/it]                                                         0%|          | 174/100000 [05:58<40:31:15,  1.46s/it]  0%|          | 175/100000 [05:59<39:44:43,  1.43s/it]                                                         0%|          | 175/100000 [05:59<39:44:43,  1.43s/it]  0%|          | 176/100000 [06:01<38:59:40,  1.41s/it]                                                         0%|          | 176/100000 [06:01<38:59:40,  1.41s/it]  0%|          | 177/100000 [06:02<38:18:31,  1.38s/it]                                                         0%|          | 177/100000 [06:02<38:18:31,  1.38s/it]  0%|          | 178/100000 [06:03<37:43:25,  1.36s/it]                                                         0%|          | 178/100000 [06:03<37:43:25,  1.36s/it]  0%|          | 179/100000 [06:05<36:49:09,  1.33s/it]                                                         0%|          | 179/100000 [06:05<36:49:09,  1.33s/it]  0%|          | 180/100000 [06:06<36:22:53,  1.31s/it]                                                         0%|          | 180/100000 [06:06<36:22:53,  1.31s/it]  0%|          | 181/100000 [06:07<35:33:51,  1.28s/it]                                                         0%|          | 181/100000 [06:07<35:33:51,  1.28s/it]  0%|          | 182/100000 [06:08<35:00:25,  1.26s/it]                                                         0%|          | 182/100000 [06:08<35:00:25,  1.26s/it]  0%|          | 183/100000 [06:09<34:42:50,  1.25s/it]                                                         0%|          | 183/100000 [06:09<34:42:50,  1.25s/it]  0%|          | 184/100000 [06:11<33:58:43,  1.23s/it]                                                         0%|          | 184/100000 [06:11<33:58:43,  1.23s/it]  0%|          | 185/100000 [06:12<33:27:16,  1.21s/it]                                                         0%|          | 185/100000 [06:12<33:27:16,  1.21s/it]  0%|          | 186/100000 [06:13<33:02:47,  1.19s/it]                                                         0%|          | 186/100000 [06:13<33:02:47,  1.19s/it]  0%|          | 187/100000 [06:14<32:36:45,  1.18s/it]                                                         0%|          | 187/100000 [06:14<32:36:45,  1.18s/it]  0%|          | 188/100000 [06:15<32:08:14,  1.16s/it]                                                         0%|          | 188/100000 [06:15<32:08:14,  1.16s/it]  0%|          | 189/100000 [06:16<31:45:39,  1.15s/it]                                                         0%|          | 189/100000 [06:16<31:45:39,  1.15s/it]  0%|          | 190/100000 [06:17<31:18:12,  1.13s/it]                                                         0%|          | 190/100000 [06:17<31:18:12,  1.13s/it]  0%|          | 191/100000 [06:18<30:48:46,  1.11s/it]                                                         0%|          | 191/100000 [06:18<30:48:46,  1.11s/it]  0%|          | 192/100000 [06:20<30:31:08,  1.10s/it]                                                         0%|          | 192/100000 [06:20<30:31:08,  1.10s/it]  0%|          | 193/100000 [06:21<30:09:09,  1.09s/it]                                                         0%|          | 193/100000 [06:21<30:09:09,  1.09s/it]  0%|          | 194/100000 [06:22<29:51:58,  1.08s/it]                                                         0%|          | 194/100000 [06:22<29:51:58,  1.08s/it]  0%|          | 195/100000 [06:23<29:22:21,  1.06s/it]                                                         0%|          | 195/100000 [06:23<29:22:21,  1.06s/it]  0%|          | 196/100000 [06:24<28:43:03,  1.04s/it]                                                         0%|          | 196/100000 [06:24<28:43:03,  1.04s/it]  0%|          | 197/100000 [06:25<28:11:16,  1.02s/it]                                                         0%|          | 197/100000 [06:25<28:11:16,  1.02s/it]  0%|          | 198/100000 [06:26<27:37:30,  1.00it/s]                                                         0%|          | 198/100000 [06:26<27:37:30,  1.00it/s]  0%|          | 199/100000 [06:27<26:56:18,  1.03it/s]                                                         0%|          | 199/100000 [06:27<26:56:18,  1.03it/s]  0%|          | 200/100000 [06:27<26:10:52,  1.06it/s]                                                         0%|          | 200/100000 [06:27<26:10:52,  1.06it/s]  0%|          | 201/100000 [06:39<114:41:22,  4.14s/it]                                                          0%|          | 201/100000 [06:39<114:41:22,  4.14s/it]  0%|          | 202/100000 [06:44<126:01:13,  4.55s/it]                                                          0%|          | 202/100000 [06:44<126:01:13,  4.55s/it]  0%|          | 203/100000 [06:49<125:17:34,  4.52s/it]                                                          0%|          | 203/100000 [06:49<125:17:34,  4.52s/it]  0%|          | 204/100000 [06:53<120:51:17,  4.36s/it]                                                          0%|          | 204/100000 [06:53<120:51:17,  4.36s/it]  0%|          | 205/100000 [06:57<115:07:10,  4.15s/it]                                                          0%|          | 205/100000 [06:57<115:07:10,  4.15s/it]  0%|          | 206/100000 [07:00<108:03:51,  3.90s/it]                                                          0%|          | 206/100000 [07:00<108:03:51,  3.90s/it]  0%|          | 207/100000 [07:03<99:17:09,  3.58s/it]                                                          0%|          | 207/100000 [07:03<99:17:09,  3.58s/it]  0%|          | 208/100000 [07:05<91:43:49,  3.31s/it]                                                         0%|          | 208/100000 [07:05<91:43:49,  3.31s/it]  0%|          | 209/100000 [07:08<84:56:47,  3.06s/it]                                                         0%|          | 209/100000 [07:08<84:56:47,  3.06s/it]  0%|          | 210/100000 [07:10<78:50:20,  2.84s/it]                                                         0%|          | 210/100000 [07:10<78:50:20,  2.84s/it]  0%|          | 211/100000 [07:12<73:14:08,  2.64s/it]                                                         0%|          | 211/100000 [07:12<73:14:08,  2.64s/it]  0%|          | 212/100000 [07:14<68:21:04,  2.47s/it]                                                         0%|          | 212/100000 [07:14<68:21:04,  2.47s/it]  0%|          | 213/100000 [07:16<64:09:00,  2.31s/it]                                                         0%|          | 213/100000 [07:16<64:09:00,  2.31s/it]  0%|          | 214/100000 [07:18<59:57:57,  2.16s/it]                                                         0%|          | 214/100000 [07:18<59:57:57,  2.16s/it]  0%|          | 215/100000 [07:20<56:13:49,  2.03s/it]                                                         0%|          | 215/100000 [07:20<56:13:49,  2.03s/it]  0%|          | 216/100000 [07:22<53:20:39,  1.92s/it]                                                         0%|          | 216/100000 [07:22<53:20:39,  1.92s/it]  0%|          | 217/100000 [07:23<51:08:16,  1.84s/it]                                                         0%|          | 217/100000 [07:23<51:08:16,  1.84s/it]  0%|          | 218/100000 [07:25<48:55:40,  1.77s/it]                                                         0%|          | 218/100000 [07:25<48:55:40,  1.77s/it]  0%|          | 219/100000 [07:26<46:59:02,  1.70s/it]                                                         0%|          | 219/100000 [07:26<46:59:02,  1.70s/it]  0%|          | 220/100000 [07:28<45:01:26,  1.62s/it]                                                         0%|          | 220/100000 [07:28<45:01:26,  1.62s/it]  0%|          | 221/100000 [07:29<43:40:43,  1.58s/it]                                                         0%|          | 221/100000 [07:29<43:40:43,  1.58s/it]  0%|          | 222/100000 [07:31<42:33:57,  1.54s/it]                                                         0%|          | 222/100000 [07:31<42:33:57,  1.54s/it]  0%|          | 223/100000 [07:32<41:39:21,  1.50s/it]                                                         0%|          | 223/100000 [07:32<41:39:21,  1.50s/it]  0%|          | 224/100000 [07:34<40:19:57,  1.46s/it]                                                         0%|          | 224/100000 [07:34<40:19:57,  1.46s/it]  0%|          | 225/100000 [07:35<39:51:56,  1.44s/it]                                                         0%|          | 225/100000 [07:35<39:51:56,  1.44s/it]  0%|          | 226/100000 [07:36<39:10:44,  1.41s/it]                                                         0%|          | 226/100000 [07:36<39:10:44,  1.41s/it]  0%|          | 227/100000 [07:38<38:34:10,  1.39s/it]                                                         0%|          | 227/100000 [07:38<38:34:10,  1.39s/it]  0%|          | 228/100000 [07:39<37:25:03,  1.35s/it]                                                         0%|          | 228/100000 [07:39<37:25:03,  1.35s/it]  0%|          | 229/100000 [07:40<37:08:30,  1.34s/it]                                                         0%|          | 229/100000 [07:40<37:08:30,  1.34s/it]  0%|          | 230/100000 [07:41<36:28:47,  1.32s/it]                                                         0%|          | 230/100000 [07:41<36:28:47,  1.32s/it]  0%|          | 231/100000 [07:43<36:06:26,  1.30s/it]                                                         0%|          | 231/100000 [07:43<36:06:26,  1.30s/it]  0%|          | 232/100000 [07:44<35:20:48,  1.28s/it]                                                         0%|          | 232/100000 [07:44<35:20:48,  1.28s/it]  0%|          | 233/100000 [07:45<35:02:56,  1.26s/it]                                                         0%|          | 233/100000 [07:45<35:02:56,  1.26s/it]  0%|          | 234/100000 [07:46<34:31:57,  1.25s/it]                                                         0%|          | 234/100000 [07:46<34:31:57,  1.25s/it]  0%|          | 235/100000 [07:48<34:07:10,  1.23s/it]                                                         0%|          | 235/100000 [07:48<34:07:10,  1.23s/it]  0%|          | 236/100000 [07:49<33:40:55,  1.22s/it]                                                         0%|          | 236/100000 [07:49<33:40:55,  1.22s/it]  0%|          | 237/100000 [07:50<32:59:56,  1.19s/it]                                                         0%|          | 237/100000 [07:50<32:59:56,  1.19s/it]  0%|          | 238/100000 [07:51<32:36:40,  1.18s/it]                                                         0%|          | 238/100000 [07:51<32:36:40,  1.18s/it]  0%|          | 239/100000 [07:52<32:00:08,  1.15s/it]                                                         0%|          | 239/100000 [07:52<32:00:08,  1.15s/it]  0%|          | 240/100000 [07:53<31:35:52,  1.14s/it]                                                         0%|          | 240/100000 [07:53<31:35:52,  1.14s/it]  0%|          | 241/100000 [07:54<31:00:24,  1.12s/it]                                                         0%|          | 241/100000 [07:54<31:00:24,  1.12s/it]  0%|          | 242/100000 [07:55<30:44:57,  1.11s/it]                                                         0%|          | 242/100000 [07:55<30:44:57,  1.11s/it]  0%|          | 243/100000 [07:56<30:16:09,  1.09s/it]                                                         0%|          | 243/100000 [07:56<30:16:09,  1.09s/it]  0%|          | 244/100000 [07:57<29:43:01,  1.07s/it]                                                         0%|          | 244/100000 [07:57<29:43:01,  1.07s/it]  0%|          | 245/100000 [07:58<28:55:30,  1.04s/it]                                                         0%|          | 245/100000 [07:58<28:55:30,  1.04s/it]  0%|          | 246/100000 [08:00<30:06:37,  1.09s/it]                                                         0%|          | 246/100000 [08:00<30:06:37,  1.09s/it]  0%|          | 247/100000 [08:01<29:14:47,  1.06s/it]                                                         0%|          | 247/100000 [08:01<29:14:47,  1.06s/it]  0%|          | 248/100000 [08:02<28:33:45,  1.03s/it]                                                         0%|          | 248/100000 [08:02<28:33:45,  1.03s/it]  0%|          | 249/100000 [08:03<27:54:51,  1.01s/it]                                                         0%|          | 249/100000 [08:03<27:54:51,  1.01s/it]  0%|          | 250/100000 [08:03<27:02:23,  1.02it/s]                                                         0%|          | 250/100000 [08:03<27:02:23,  1.02it/s]  0%|          | 251/100000 [08:16<123:41:41,  4.46s/it]                                                          0%|          | 251/100000 [08:16<123:41:41,  4.46s/it]  0%|          | 252/100000 [08:22<138:27:38,  5.00s/it]                                                          0%|          | 252/100000 [08:22<138:27:38,  5.00s/it]  0%|          | 253/100000 [08:27<135:54:18,  4.90s/it]                                                          0%|          | 253/100000 [08:27<135:54:18,  4.90s/it]  0%|          | 254/100000 [08:31<131:31:56,  4.75s/it]                                                          0%|          | 254/100000 [08:31<131:31:56,  4.75s/it]  0%|          | 255/100000 [08:35<124:11:15,  4.48s/it]                                                          0%|          | 255/100000 [08:35<124:11:15,  4.48s/it]  0%|          | 256/100000 [08:39<115:16:05,  4.16s/it]                                                          0%|          | 256/100000 [08:39<115:16:05,  4.16s/it]  0%|          | 257/100000 [08:42<106:46:06,  3.85s/it]                                                          0%|          | 257/100000 [08:42<106:46:06,  3.85s/it]  0%|          | 258/100000 [08:45<97:38:27,  3.52s/it]                                                          0%|          | 258/100000 [08:45<97:38:27,  3.52s/it]  0%|          | 259/100000 [08:47<90:09:43,  3.25s/it]                                                       {'loss': 5.4645, 'grad_norm': 41.15222930908203, 'learning_rate': 5.13e-07, 'epoch': 0.32}
+{'loss': 5.4574, 'grad_norm': 42.47678756713867, 'learning_rate': 5.16e-07, 'epoch': 0.32}
+{'loss': 5.3821, 'grad_norm': 40.974754333496094, 'learning_rate': 5.19e-07, 'epoch': 0.32}
+{'loss': 5.2527, 'grad_norm': 37.154075622558594, 'learning_rate': 5.219999999999999e-07, 'epoch': 0.32}
+{'loss': 5.1485, 'grad_norm': 34.92766571044922, 'learning_rate': 5.250000000000001e-07, 'epoch': 0.33}
+{'loss': 5.1358, 'grad_norm': 33.639408111572266, 'learning_rate': 5.280000000000001e-07, 'epoch': 0.33}
+{'loss': 5.0301, 'grad_norm': 31.7966365814209, 'learning_rate': 5.31e-07, 'epoch': 0.33}
+{'loss': 5.0694, 'grad_norm': 32.888492584228516, 'learning_rate': 5.34e-07, 'epoch': 0.33}
+{'loss': 4.9529, 'grad_norm': 28.766515731811523, 'learning_rate': 5.37e-07, 'epoch': 0.33}
+{'loss': 4.928, 'grad_norm': 27.88300323486328, 'learning_rate': 5.4e-07, 'epoch': 0.33}
+{'loss': 4.9091, 'grad_norm': 26.481048583984375, 'learning_rate': 5.43e-07, 'epoch': 0.34}
+{'loss': 4.86, 'grad_norm': 23.27083969116211, 'learning_rate': 5.46e-07, 'epoch': 0.34}
+{'loss': 4.7144, 'grad_norm': 21.233184814453125, 'learning_rate': 5.490000000000001e-07, 'epoch': 0.34}
+{'loss': 4.7257, 'grad_norm': 18.95135498046875, 'learning_rate': 5.52e-07, 'epoch': 0.34}
+{'loss': 4.7432, 'grad_norm': 16.528169631958008, 'learning_rate': 5.55e-07, 'epoch': 0.34}
+{'loss': 4.6586, 'grad_norm': 14.118398666381836, 'learning_rate': 5.58e-07, 'epoch': 0.35}
+{'loss': 4.5834, 'grad_norm': 11.961546897888184, 'learning_rate': 5.61e-07, 'epoch': 0.35}
+{'loss': 4.6245, 'grad_norm': 10.75606918334961, 'learning_rate': 5.64e-07, 'epoch': 0.35}
+{'loss': 4.5646, 'grad_norm': 8.708870887756348, 'learning_rate': 5.67e-07, 'epoch': 0.35}
+{'loss': 4.4985, 'grad_norm': 7.9037346839904785, 'learning_rate': 5.7e-07, 'epoch': 0.35}
+{'loss': 4.549, 'grad_norm': 7.6336259841918945, 'learning_rate': 5.73e-07, 'epoch': 0.35}
+{'loss': 4.5836, 'grad_norm': 8.644391059875488, 'learning_rate': 5.76e-07, 'epoch': 0.36}
+{'loss': 4.5207, 'grad_norm': 8.554842948913574, 'learning_rate': 5.790000000000001e-07, 'epoch': 0.36}
+{'loss': 4.4461, 'grad_norm': 9.063313484191895, 'learning_rate': 5.82e-07, 'epoch': 0.36}
+{'loss': 4.5165, 'grad_norm': 10.217832565307617, 'learning_rate': 5.85e-07, 'epoch': 0.36}
+{'loss': 4.4659, 'grad_norm': 10.64183235168457, 'learning_rate': 5.88e-07, 'epoch': 0.36}
+{'loss': 4.4518, 'grad_norm': 11.097018241882324, 'learning_rate': 5.909999999999999e-07, 'epoch': 0.37}
+{'loss': 4.4149, 'grad_norm': 11.132061958312988, 'learning_rate': 5.94e-07, 'epoch': 0.37}
+{'loss': 4.4589, 'grad_norm': 12.801709175109863, 'learning_rate': 5.970000000000001e-07, 'epoch': 0.37}
+{'loss': 4.3065, 'grad_norm': 7.300925254821777, 'learning_rate': 6.000000000000001e-07, 'epoch': 0.37}
+{'loss': 4.2383, 'grad_norm': 6.761147975921631, 'learning_rate': 6.03e-07, 'epoch': 0.37}
+{'loss': 4.1914, 'grad_norm': 7.358983516693115, 'learning_rate': 6.06e-07, 'epoch': 0.37}
+{'loss': 4.2535, 'grad_norm': 6.69858455657959, 'learning_rate': 6.09e-07, 'epoch': 0.38}
+{'loss': 4.1431, 'grad_norm': 7.087483882904053, 'learning_rate': 6.12e-07, 'epoch': 0.38}
+{'loss': 4.1343, 'grad_norm': 7.197114944458008, 'learning_rate': 6.15e-07, 'epoch': 0.38}
+{'loss': 4.0637, 'grad_norm': 7.602322101593018, 'learning_rate': 6.180000000000001e-07, 'epoch': 0.38}
+{'loss': 4.0418, 'grad_norm': 7.007232666015625, 'learning_rate': 6.21e-07, 'epoch': 0.38}
+{'loss': 4.0599, 'grad_norm': 6.680031776428223, 'learning_rate': 6.24e-07, 'epoch': 0.39}
+{'loss': 4.004, 'grad_norm': 6.525915145874023, 'learning_rate': 6.27e-07, 'epoch': 0.39}
+{'loss': 4.0534, 'grad_norm': 6.130704879760742, 'learning_rate': 6.3e-07, 'epoch': 0.39}
+{'loss': 4.0821, 'grad_norm': 5.882370471954346, 'learning_rate': 6.33e-07, 'epoch': 0.39}
+{'loss': 4.1033, 'grad_norm': 5.746700763702393, 'learning_rate': 6.36e-07, 'epoch': 0.39}
+{'loss': 4.0979, 'grad_norm': 5.587550640106201, 'learning_rate': 6.39e-07, 'epoch': 0.4}
+{'loss': 4.1246, 'grad_norm': 5.65580415725708, 'learning_rate': 6.42e-07, 'epoch': 0.4}
+{'loss': 4.1217, 'grad_norm': 5.67427921295166, 'learning_rate': 6.45e-07, 'epoch': 0.4}
+{'loss': 4.2012, 'grad_norm': 6.284714698791504, 'learning_rate': 6.480000000000001e-07, 'epoch': 0.4}
+{'loss': 4.1859, 'grad_norm': 5.949926376342773, 'learning_rate': 6.51e-07, 'epoch': 0.4}
+{'loss': 4.1414, 'grad_norm': 6.066436767578125, 'learning_rate': 6.54e-07, 'epoch': 0.4}
+{'loss': 4.1737, 'grad_norm': 6.133418083190918, 'learning_rate': 6.57e-07, 'epoch': 0.41}
+{'loss': 4.1053, 'grad_norm': 5.733587265014648, 'learning_rate': 6.599999999999999e-07, 'epoch': 0.41}
+{'loss': 4.0954, 'grad_norm': 5.346182823181152, 'learning_rate': 6.63e-07, 'epoch': 0.41}
+{'loss': 4.1524, 'grad_norm': 5.801249980926514, 'learning_rate': 6.660000000000001e-07, 'epoch': 0.41}
+{'loss': 4.1132, 'grad_norm': 5.427605628967285, 'learning_rate': 6.690000000000001e-07, 'epoch': 0.41}
+{'loss': 4.0983, 'grad_norm': 5.082065582275391, 'learning_rate': 6.72e-07, 'epoch': 0.42}
+{'loss': 4.089, 'grad_norm': 5.642475605010986, 'learning_rate': 6.75e-07, 'epoch': 0.42}
+{'loss': 4.0512, 'grad_norm': 5.176789283752441, 'learning_rate': 6.78e-07, 'epoch': 0.42}
+{'loss': 4.0565, 'grad_norm': 5.5746541023254395, 'learning_rate': 6.81e-07, 'epoch': 0.42}
+{'loss': 4.0774, 'grad_norm': 5.4985032081604, 'learning_rate': 6.84e-07, 'epoch': 0.42}
+{'loss': 4.0619, 'grad_norm': 5.544588565826416, 'learning_rate': 6.87e-07, 'epoch': 0.42}
+{'loss': 3.9928, 'grad_norm': 5.085567474365234, 'learning_rate': 6.9e-07, 'epoch': 0.43}
+{'loss': 4.0557, 'grad_norm': 5.949645519256592, 'learning_rate': 6.93e-07, 'epoch': 0.43}
+{'loss': 4.005, 'grad_norm': 5.037247657775879, 'learning_rate': 6.96e-07, 'epoch': 0.43}
+{'loss': 4.0016, 'grad_norm': 5.97141695022583, 'learning_rate': 6.990000000000001e-07, 'epoch': 0.43}
+{'loss': 3.9743, 'grad_norm': 4.68813943862915, 'learning_rate': 7.02e-07, 'epoch': 0.43}
+{'loss': 3.9354, 'grad_norm': 14.047794342041016, 'learning_rate': 7.05e-07, 'epoch': 0.44}
+{'loss': 4.0027, 'grad_norm': 5.274556636810303, 'learning_rate': 7.08e-07, 'epoch': 0.44}
+{'loss': 3.9243, 'grad_norm': 4.5572733879089355, 'learning_rate': 7.11e-07, 'epoch': 0.44}
+{'loss': 3.889, 'grad_norm': 4.318416118621826, 'learning_rate': 7.140000000000001e-07, 'epoch': 0.44}
+{'loss': 3.9835, 'grad_norm': 4.351585388183594, 'learning_rate': 7.170000000000001e-07, 'epoch': 0.44}
+{'loss': 3.9077, 'grad_norm': 4.199488639831543, 'learning_rate': 7.2e-07, 'epoch': 0.45}
+{'loss': 3.8684, 'grad_norm': 4.0089898109436035, 'learning_rate': 7.23e-07, 'epoch': 0.45}
+{'loss': 3.8637, 'grad_norm': 4.100970268249512, 'learning_rate': 7.26e-07, 'epoch': 0.45}
+{'loss': 3.8156, 'grad_norm': 4.072782516479492, 'learning_rate': 7.29e-07, 'epoch': 0.45}
+{'loss': 3.8037, 'grad_norm': 4.012927532196045, 'learning_rate': 7.32e-07, 'epoch': 0.45}
+{'loss': 3.9028, 'grad_norm': 6.060505390167236, 'learning_rate': 7.350000000000001e-07, 'epoch': 0.45}
+{'loss': 3.8943, 'grad_norm': 4.179002285003662, 'learning_rate': 7.380000000000001e-07, 'epoch': 0.46}
+{'loss': 3.8375, 'grad_norm': 5.213497638702393, 'learning_rate': 7.41e-07, 'epoch': 0.46}
+{'loss': 3.7996, 'grad_norm': 4.26724910736084, 'learning_rate': 7.44e-07, 'epoch': 0.46}
+{'loss': 3.8624, 'grad_norm': 12.426194190979004, 'learning_rate': 7.47e-07, 'epoch': 0.46}
+{'loss': 3.7192, 'grad_norm': 4.382394790649414, 'learning_rate': 7.5e-07, 'epoch': 0.46}
+{'loss': 3.6259, 'grad_norm': 4.744300365447998, 'learning_rate': 7.53e-07, 'epoch': 0.47}
+{'loss': 3.5965, 'grad_norm': 4.654346942901611, 'learning_rate': 7.56e-07, 'epoch': 0.47}
+{'loss': 3.5887, 'grad_norm': 3.6834309101104736, 'learning_rate': 7.59e-07, 'epoch': 0.47}
+{'loss': 3.5426, 'grad_norm': 4.092491149902344, 'learning_rate': 7.62e-07, 'epoch': 0.47}
+{'loss': 3.5544, 'grad_norm': 4.001455783843994, 'learning_rate': 7.65e-07, 'epoch': 0.47}
+{'loss': 3.4742, 'grad_norm': 5.414680480957031, 'learning_rate': 7.680000000000001e-07, 'epoch': 0.47}
+{'loss': 3.4772, 'grad_norm': 3.3546714782714844, 'learning_rate': 7.71e-07, 'epoch': 0.48}
+  0%|          | 259/100000 [08:47<90:09:43,  3.25s/it]  0%|          | 260/100000 [08:50<83:30:07,  3.01s/it]                                                         0%|          | 260/100000 [08:50<83:30:07,  3.01s/it]  0%|          | 261/100000 [08:52<77:19:41,  2.79s/it]                                                         0%|          | 261/100000 [08:52<77:19:41,  2.79s/it]  0%|          | 262/100000 [08:54<71:08:02,  2.57s/it]                                                         0%|          | 262/100000 [08:54<71:08:02,  2.57s/it]  0%|          | 263/100000 [08:56<66:17:38,  2.39s/it]                                                         0%|          | 263/100000 [08:56<66:17:38,  2.39s/it]  0%|          | 264/100000 [08:58<62:07:34,  2.24s/it]                                                         0%|          | 264/100000 [08:58<62:07:34,  2.24s/it]  0%|          | 265/100000 [09:00<58:15:57,  2.10s/it]                                                         0%|          | 265/100000 [09:00<58:15:57,  2.10s/it]  0%|          | 266/100000 [09:01<54:20:56,  1.96s/it]                                                         0%|          | 266/100000 [09:01<54:20:56,  1.96s/it]  0%|          | 267/100000 [09:03<51:49:37,  1.87s/it]                                                         0%|          | 267/100000 [09:03<51:49:37,  1.87s/it]  0%|          | 268/100000 [09:04<49:11:57,  1.78s/it]                                                         0%|          | 268/100000 [09:04<49:11:57,  1.78s/it]  0%|          | 269/100000 [09:06<46:55:21,  1.69s/it]                                                         0%|          | 269/100000 [09:06<46:55:21,  1.69s/it]  0%|          | 270/100000 [09:07<45:32:09,  1.64s/it]                                                         0%|          | 270/100000 [09:07<45:32:09,  1.64s/it]  0%|          | 271/100000 [09:09<44:00:04,  1.59s/it]                                                         0%|          | 271/100000 [09:09<44:00:04,  1.59s/it]  0%|          | 272/100000 [09:10<43:05:12,  1.56s/it]                                                         0%|          | 272/100000 [09:10<43:05:12,  1.56s/it]  0%|          | 273/100000 [09:12<41:45:27,  1.51s/it]                                                         0%|          | 273/100000 [09:12<41:45:27,  1.51s/it]  0%|          | 274/100000 [09:13<40:44:12,  1.47s/it]                                                         0%|          | 274/100000 [09:13<40:44:12,  1.47s/it]  0%|          | 275/100000 [09:15<40:05:05,  1.45s/it]                                                         0%|          | 275/100000 [09:15<40:05:05,  1.45s/it]  0%|          | 276/100000 [09:16<39:08:17,  1.41s/it]                                                         0%|          | 276/100000 [09:16<39:08:17,  1.41s/it]  0%|          | 277/100000 [09:17<38:36:42,  1.39s/it]                                                         0%|          | 277/100000 [09:17<38:36:42,  1.39s/it]  0%|          | 278/100000 [09:19<38:03:09,  1.37s/it]                                                         0%|          | 278/100000 [09:19<38:03:09,  1.37s/it]  0%|          | 279/100000 [09:20<37:24:10,  1.35s/it]                                                         0%|          | 279/100000 [09:20<37:24:10,  1.35s/it]  0%|          | 280/100000 [09:21<36:48:09,  1.33s/it]                                                         0%|          | 280/100000 [09:21<36:48:09,  1.33s/it]  0%|          | 281/100000 [09:22<36:14:58,  1.31s/it]                                                         0%|          | 281/100000 [09:22<36:14:58,  1.31s/it]  0%|          | 282/100000 [09:24<35:49:30,  1.29s/it]                                                         0%|          | 282/100000 [09:24<35:49:30,  1.29s/it]  0%|          | 283/100000 [09:25<35:26:21,  1.28s/it]                                                         0%|          | 283/100000 [09:25<35:26:21,  1.28s/it]  0%|          | 284/100000 [09:26<35:00:36,  1.26s/it]                                                         0%|          | 284/100000 [09:26<35:00:36,  1.26s/it]  0%|          | 285/100000 [09:27<34:05:33,  1.23s/it]                                                         0%|          | 285/100000 [09:27<34:05:33,  1.23s/it]  0%|          | 286/100000 [09:28<33:38:54,  1.21s/it]                                                         0%|          | 286/100000 [09:28<33:38:54,  1.21s/it]  0%|          | 287/100000 [09:30<33:12:07,  1.20s/it]                                                         0%|          | 287/100000 [09:30<33:12:07,  1.20s/it]  0%|          | 288/100000 [09:31<32:46:50,  1.18s/it]                                                         0%|          | 288/100000 [09:31<32:46:50,  1.18s/it]  0%|          | 289/100000 [09:32<32:18:55,  1.17s/it]                                                         0%|          | 289/100000 [09:32<32:18:55,  1.17s/it]  0%|          | 290/100000 [09:33<31:46:39,  1.15s/it]                                                         0%|          | 290/100000 [09:33<31:46:39,  1.15s/it]  0%|          | 291/100000 [09:34<31:06:13,  1.12s/it]                                                         0%|          | 291/100000 [09:34<31:06:13,  1.12s/it]  0%|          | 292/100000 [09:35<30:32:52,  1.10s/it]                                                         0%|          | 292/100000 [09:35<30:32:52,  1.10s/it]  0%|          | 293/100000 [09:36<30:10:06,  1.09s/it]                                                         0%|          | 293/100000 [09:36<30:10:06,  1.09s/it]  0%|          | 294/100000 [09:37<29:48:49,  1.08s/it]                                                         0%|          | 294/100000 [09:37<29:48:49,  1.08s/it]  0%|          | 295/100000 [09:38<29:29:13,  1.06s/it]                                                         0%|          | 295/100000 [09:38<29:29:13,  1.06s/it]  0%|          | 296/100000 [09:39<28:58:40,  1.05s/it]                                                         0%|          | 296/100000 [09:39<28:58:40,  1.05s/it]  0%|          | 297/100000 [09:40<28:29:30,  1.03s/it]                                                         0%|          | 297/100000 [09:40<28:29:30,  1.03s/it]  0%|          | 298/100000 [09:41<27:43:49,  1.00s/it]                                                         0%|          | 298/100000 [09:41<27:43:49,  1.00s/it]  0%|          | 299/100000 [09:42<26:55:45,  1.03it/s]                                                         0%|          | 299/100000 [09:42<26:55:45,  1.03it/s]  0%|          | 300/100000 [09:43<26:00:04,  1.07it/s]                                                         0%|          | 300/100000 [09:43<26:00:04,  1.07it/s]  0%|          | 301/100000 [09:55<118:44:58,  4.29s/it]                                                          0%|          | 301/100000 [09:55<118:44:58,  4.29s/it]  0%|          | 302/100000 [10:01<132:56:50,  4.80s/it]                                                          0%|          | 302/100000 [10:01<132:56:50,  4.80s/it]  0%|          | 303/100000 [10:06<131:54:42,  4.76s/it]                                                          0%|          | 303/100000 [10:06<131:54:42,  4.76s/it]  0%|          | 304/100000 [10:10<126:45:11,  4.58s/it]                                                          0%|          | 304/100000 [10:10<126:45:11,  4.58s/it]  0%|          | 305/100000 [10:14<119:29:31,  4.31s/it]                                                          0%|          | 305/100000 [10:14<119:29:31,  4.31s/it]  0%|          | 306/100000 [10:17<109:30:13,  3.95s/it]                                                          0%|          | 306/100000 [10:17<109:30:13,  3.95s/it]  0%|          | 307/100000 [10:20<100:53:31,  3.64s/it]                                                          0%|          | 307/100000 [10:20<100:53:31,  3.64s/it]  0%|          | 308/100000 [10:22<93:40:32,  3.38s/it]                                                          0%|          | 308/100000 [10:22<93:40:32,  3.38s/it]  0%|          | 309/100000 [10:25<86:54:42,  3.14s/it]                                                         0%|          | 309/100000 [10:25<86:54:42,  3.14s/it]  0%|          | 310/100000 [10:27<80:32:02,  2.91s/it]                                                         0%|          | 310/100000 [10:27<80:32:02,  2.91s/it]  0%|          | 311/100000 [10:30<74:51:21,  2.70s/it]                                                         0%|          | 311/100000 [10:30<74:51:21,  2.70s/it]  0%|          | 312/100000 [10:32<69:00:33,  2.49s/it]                                                         0%|          | 312/100000 [10:32<69:00:33,  2.49s/it]  0%|          | 313/100000 [10:34<64:34:22,  2.33s/it]                                                         0%|          | 313/100000 [10:34<64:34:22,  2.33s/it]  0%|          | 314/100000 [10:35<60:28:26,  2.18s/it]                                                         0%|          | 314/100000 [10:35<60:28:26,  2.18s/it]  0%|          | 315/100000 [10:37<57:09:48,  2.06s/it]                                                         0%|          | 315/100000 [10:37<57:09:48,  2.06s/it]  0%|          | 316/100000 [10:39<54:14:51,  1.96s/it]                                                         0%|          | 316/100000 [10:39<54:14:51,  1.96s/it]  0%|          | 317/100000 [10:41<51:42:54,  1.87s/it]                                                         0%|          | 317/100000 [10:41<51:42:54,  1.87s/it]  0%|          | 318/100000 [10:42<49:08:52,  1.77s/it]                                                         0%|          | 318/100000 [10:42<49:08:52,  1.77s/it]  0%|          | 319/100000 [10:44<47:05:39,  1.70s/it]                                                         0%|          | 319/100000 [10:44<47:05:39,  1.70s/it]  0%|          | 320/100000 [10:45<45:04:49,  1.63s/it]                                                         0%|          | 320/100000 [10:45<45:04:49,  1.63s/it]  0%|          | 321/100000 [10:47<43:48:39,  1.58s/it]                                                         0%|          | 321/100000 [10:47<43:48:39,  1.58s/it]  0%|          | 322/100000 [10:48<42:22:37,  1.53s/it]                                                         0%|          | 322/100000 [10:48<42:22:37,  1.53s/it]  0%|          | 323/100000 [10:49<41:29:58,  1.50s/it]                                                         0%|          | 323/100000 [10:49<41:29:58,  1.50s/it]  0%|          | 324/100000 [10:51<40:44:01,  1.47s/it]                                                         0%|          | 324/100000 [10:51<40:44:01,  1.47s/it]  0%|          | 325/100000 [10:52<39:58:56,  1.44s/it]                                                         0%|          | 325/100000 [10:52<39:58:56,  1.44s/it]  0%|          | 326/100000 [10:54<39:15:50,  1.42s/it]                                                         0%|          | 326/100000 [10:54<39:15:50,  1.42s/it]  0%|          | 327/100000 [10:55<38:28:50,  1.39s/it]                                                         0%|          | 327/100000 [10:55<38:28:50,  1.39s/it]  0%|          | 328/100000 [10:56<37:53:39,  1.37s/it]                                                         0%|          | 328/100000 [10:56<37:53:39,  1.37s/it]  0%|          | 329/100000 [10:57<37:22:26,  1.35s/it]                                                         0%|          | 329/100000 [10:57<37:22:26,  1.35s/it]  0%|          | 330/100000 [10:59<36:52:30,  1.33s/it]                                                         0%|          | 330/100000 [10:59<36:52:30,  1.33s/it]  0%|          | 331/100000 [11:00<36:20:06,  1.31s/it]                                                         0%|          | 331/100000 [11:00<36:20:06,  1.31s/it]  0%|          | 332/100000 [11:01<35:31:49,  1.28s/it]                                                         0%|          | 332/100000 [11:01<35:31:49,  1.28s/it]  0%|          | 333/100000 [11:02<34:52:03,  1.26s/it]                                                         0%|          | 333/100000 [11:02<34:52:03,  1.26s/it]  0%|          | 334/100000 [11:04<34:17:08,  1.24s/it]                                                         0%|          | 334/100000 [11:04<34:17:08,  1.24s/it]  0%|          | 335/100000 [11:05<33:46:43,  1.22s/it]                                                         0%|          | 335/100000 [11:05<33:46:43,  1.22s/it]  0%|          | 336/100000 [11:06<33:09:12,  1.20s/it]                                                         0%|          | 336/100000 [11:06<33:09:12,  1.20s/it]  0%|          | 337/100000 [11:07<32:46:09,  1.18s/it]                                                         0%|          | 337/100000 [11:07<32:46:09,  1.18s/it]  0%|          | 338/100000 [11:08<32:20:58,  1.17s/it]                                                         0%|          | 338/100000 [11:08<32:20:58,  1.17s/it]  0%|          | 339/100000 [11:09<31:39:43,  1.14s/it]                                                         0%|          | 339/100000 [11:09<31:39:43,  1.14s/it]  0%|          | 340/100000 [11:10<31:15:25,  1.13s/it]                                                         0%|          | 340/100000 [11:10<31:15:25,  1.13s/it]  0%|          | 341/100000 [11:11<30:36:08,  1.11s/it]                                                         0%|          | 341/100000 [11:11<30:36:08,  1.11s/it]  0%|          | 342/100000 [11:13<30:13:16,  1.09s/it]                                                         0%|          | 342/100000 [11:13<30:13:16,  1.09s/it]  0%|          | 343/100000 [11:14<30:03:30,  1.09s/it]                                                         0%|          | 343/100000 [11:14<30:03:30,  1.09s/it]  0%|          | 344/100000 [11:15<29:49:24,  1.08s/it]                                                         0%|          | 344/100000 [11:15<29:49:24,  1.08s/it]  0%|          | 345/100000 [11:16<29:08:41,  1.05s/it]                                                       {'loss': 3.4811, 'grad_norm': 3.5425257682800293, 'learning_rate': 7.74e-07, 'epoch': 0.48}
+{'loss': 3.4188, 'grad_norm': 3.1755106449127197, 'learning_rate': 7.77e-07, 'epoch': 0.48}
+{'loss': 3.3899, 'grad_norm': 4.707540988922119, 'learning_rate': 7.799999999999999e-07, 'epoch': 0.48}
+{'loss': 3.4876, 'grad_norm': 3.285004138946533, 'learning_rate': 7.830000000000001e-07, 'epoch': 0.48}
+{'loss': 3.4514, 'grad_norm': 4.9399638175964355, 'learning_rate': 7.860000000000001e-07, 'epoch': 0.49}
+{'loss': 3.476, 'grad_norm': 3.9122636318206787, 'learning_rate': 7.89e-07, 'epoch': 0.49}
+{'loss': 3.5428, 'grad_norm': 5.649412155151367, 'learning_rate': 7.92e-07, 'epoch': 0.49}
+{'loss': 3.5073, 'grad_norm': 14.08123779296875, 'learning_rate': 7.95e-07, 'epoch': 0.49}
+{'loss': 3.5416, 'grad_norm': 4.978379726409912, 'learning_rate': 7.98e-07, 'epoch': 0.49}
+{'loss': 3.5272, 'grad_norm': 4.730838298797607, 'learning_rate': 8.01e-07, 'epoch': 0.49}
+{'loss': 3.4973, 'grad_norm': 4.087198257446289, 'learning_rate': 8.04e-07, 'epoch': 0.5}
+{'loss': 3.5052, 'grad_norm': 4.161842346191406, 'learning_rate': 8.070000000000001e-07, 'epoch': 0.5}
+{'loss': 3.5112, 'grad_norm': 5.521448135375977, 'learning_rate': 8.1e-07, 'epoch': 0.5}
+{'loss': 3.4638, 'grad_norm': 3.795762062072754, 'learning_rate': 8.13e-07, 'epoch': 0.5}
+{'loss': 3.4319, 'grad_norm': 4.849123001098633, 'learning_rate': 8.16e-07, 'epoch': 0.5}
+{'loss': 3.4609, 'grad_norm': 4.427425861358643, 'learning_rate': 8.19e-07, 'epoch': 0.51}
+{'loss': 3.4332, 'grad_norm': 4.559118747711182, 'learning_rate': 8.22e-07, 'epoch': 0.51}
+{'loss': 3.4064, 'grad_norm': 5.236905574798584, 'learning_rate': 8.25e-07, 'epoch': 0.51}
+{'loss': 3.4709, 'grad_norm': 6.23512077331543, 'learning_rate': 8.280000000000001e-07, 'epoch': 0.51}
+{'loss': 3.4046, 'grad_norm': 5.505606174468994, 'learning_rate': 8.31e-07, 'epoch': 0.51}
+{'loss': 3.3852, 'grad_norm': 15.238096237182617, 'learning_rate': 8.34e-07, 'epoch': 0.52}
+{'loss': 3.3836, 'grad_norm': 7.080745697021484, 'learning_rate': 8.370000000000001e-07, 'epoch': 0.52}
+{'loss': 3.3356, 'grad_norm': 4.308071136474609, 'learning_rate': 8.4e-07, 'epoch': 0.52}
+{'loss': 3.3544, 'grad_norm': 5.031737327575684, 'learning_rate': 8.43e-07, 'epoch': 0.52}
+{'loss': 3.3315, 'grad_norm': 4.0981268882751465, 'learning_rate': 8.46e-07, 'epoch': 0.52}
+{'loss': 3.3009, 'grad_norm': 8.215164184570312, 'learning_rate': 8.489999999999999e-07, 'epoch': 0.52}
+{'loss': 3.3268, 'grad_norm': 4.3822245597839355, 'learning_rate': 8.520000000000001e-07, 'epoch': 0.53}
+{'loss': 3.2991, 'grad_norm': 3.282374382019043, 'learning_rate': 8.550000000000001e-07, 'epoch': 0.53}
+{'loss': 3.2981, 'grad_norm': 5.968320846557617, 'learning_rate': 8.580000000000001e-07, 'epoch': 0.53}
+{'loss': 3.2595, 'grad_norm': 10.67861270904541, 'learning_rate': 8.61e-07, 'epoch': 0.53}
+{'loss': 3.2271, 'grad_norm': 3.8899168968200684, 'learning_rate': 8.64e-07, 'epoch': 0.53}
+{'loss': 3.3094, 'grad_norm': 4.796634674072266, 'learning_rate': 8.67e-07, 'epoch': 0.54}
+{'loss': 3.2095, 'grad_norm': 4.089239120483398, 'learning_rate': 8.7e-07, 'epoch': 0.54}
+{'loss': 3.2382, 'grad_norm': 5.146942615509033, 'learning_rate': 8.73e-07, 'epoch': 0.54}
+{'loss': 3.2271, 'grad_norm': 5.682231903076172, 'learning_rate': 8.760000000000001e-07, 'epoch': 0.54}
+{'loss': 3.2294, 'grad_norm': 4.716771602630615, 'learning_rate': 8.79e-07, 'epoch': 0.54}
+{'loss': 3.2358, 'grad_norm': 4.983368873596191, 'learning_rate': 8.82e-07, 'epoch': 0.54}
+{'loss': 3.2556, 'grad_norm': 7.215044975280762, 'learning_rate': 8.85e-07, 'epoch': 0.55}
+{'loss': 3.2566, 'grad_norm': 4.684432506561279, 'learning_rate': 8.88e-07, 'epoch': 0.55}
+{'loss': 3.2236, 'grad_norm': 4.458353519439697, 'learning_rate': 8.91e-07, 'epoch': 0.55}
+{'loss': 3.2065, 'grad_norm': 8.782550811767578, 'learning_rate': 8.94e-07, 'epoch': 0.55}
+{'loss': 3.1937, 'grad_norm': 12.405173301696777, 'learning_rate': 8.97e-07, 'epoch': 0.55}
+{'loss': 3.3293, 'grad_norm': 12.274544715881348, 'learning_rate': 9e-07, 'epoch': 0.56}
+{'loss': 3.2509, 'grad_norm': 10.548261642456055, 'learning_rate': 9.03e-07, 'epoch': 0.56}
+{'loss': 3.1922, 'grad_norm': 7.260283946990967, 'learning_rate': 9.060000000000001e-07, 'epoch': 0.56}
+{'loss': 3.2229, 'grad_norm': 6.222684860229492, 'learning_rate': 9.09e-07, 'epoch': 0.56}
+{'loss': 3.2094, 'grad_norm': 3.192690849304199, 'learning_rate': 9.12e-07, 'epoch': 0.56}
+{'loss': 3.1659, 'grad_norm': 4.268246173858643, 'learning_rate': 9.15e-07, 'epoch': 0.57}
+{'loss': 3.1662, 'grad_norm': 5.622379779815674, 'learning_rate': 9.179999999999999e-07, 'epoch': 0.57}
+{'loss': 3.1983, 'grad_norm': 5.32727575302124, 'learning_rate': 9.210000000000001e-07, 'epoch': 0.57}
+{'loss': 3.2035, 'grad_norm': 4.53847599029541, 'learning_rate': 9.240000000000001e-07, 'epoch': 0.57}
+{'loss': 3.1746, 'grad_norm': 5.334409713745117, 'learning_rate': 9.270000000000001e-07, 'epoch': 0.57}
+{'loss': 3.1904, 'grad_norm': 4.618269920349121, 'learning_rate': 9.3e-07, 'epoch': 0.57}
+{'loss': 3.1811, 'grad_norm': 2.947032928466797, 'learning_rate': 9.33e-07, 'epoch': 0.58}
+{'loss': 3.2034, 'grad_norm': 9.83170223236084, 'learning_rate': 9.36e-07, 'epoch': 0.58}
+{'loss': 3.1925, 'grad_norm': 4.297440052032471, 'learning_rate': 9.39e-07, 'epoch': 0.58}
+{'loss': 3.1584, 'grad_norm': 3.8568122386932373, 'learning_rate': 9.419999999999999e-07, 'epoch': 0.58}
+{'loss': 3.1015, 'grad_norm': 3.8877062797546387, 'learning_rate': 9.450000000000001e-07, 'epoch': 0.58}
+{'loss': 3.1743, 'grad_norm': 3.579789400100708, 'learning_rate': 9.480000000000001e-07, 'epoch': 0.59}
+{'loss': 3.2222, 'grad_norm': 3.8187687397003174, 'learning_rate': 9.51e-07, 'epoch': 0.59}
+{'loss': 3.1866, 'grad_norm': 5.050365447998047, 'learning_rate': 9.54e-07, 'epoch': 0.59}
+{'loss': 3.1362, 'grad_norm': 4.368477821350098, 'learning_rate': 9.57e-07, 'epoch': 0.59}
+{'loss': 3.1577, 'grad_norm': 7.682777404785156, 'learning_rate': 9.600000000000001e-07, 'epoch': 0.59}
+{'loss': 3.1668, 'grad_norm': 4.716755390167236, 'learning_rate': 9.63e-07, 'epoch': 0.59}
+{'loss': 3.1626, 'grad_norm': 7.155860424041748, 'learning_rate': 9.66e-07, 'epoch': 0.6}
+{'loss': 3.0961, 'grad_norm': 3.2187845706939697, 'learning_rate': 9.690000000000002e-07, 'epoch': 0.6}
+{'loss': 3.1912, 'grad_norm': 7.184601783752441, 'learning_rate': 9.72e-07, 'epoch': 0.6}
+{'loss': 3.1594, 'grad_norm': 6.903328895568848, 'learning_rate': 9.75e-07, 'epoch': 0.6}
+{'loss': 3.1753, 'grad_norm': 6.267014980316162, 'learning_rate': 9.78e-07, 'epoch': 0.6}
+{'loss': 3.1726, 'grad_norm': 6.188835620880127, 'learning_rate': 9.81e-07, 'epoch': 0.61}
+{'loss': 3.1101, 'grad_norm': 4.90877103805542, 'learning_rate': 9.84e-07, 'epoch': 0.61}
+{'loss': 3.1213, 'grad_norm': 5.561330318450928, 'learning_rate': 9.87e-07, 'epoch': 0.61}
+{'loss': 3.1224, 'grad_norm': 4.409107208251953, 'learning_rate': 9.9e-07, 'epoch': 0.61}
+{'loss': 3.1419, 'grad_norm': 2.835259437561035, 'learning_rate': 9.929999999999999e-07, 'epoch': 0.61}
+{'loss': 3.1314, 'grad_norm': 5.65529203414917, 'learning_rate': 9.96e-07, 'epoch': 0.61}
+{'loss': 3.1238, 'grad_norm': 5.926425457000732, 'learning_rate': 9.99e-07, 'epoch': 0.62}
+{'loss': 3.1094, 'grad_norm': 4.398102760314941, 'learning_rate': 1.002e-06, 'epoch': 0.62}
+{'loss': 3.158, 'grad_norm': 5.749934673309326, 'learning_rate': 1.0050000000000001e-06, 'epoch': 0.62}
+{'loss': 3.1159, 'grad_norm': 4.760705947875977, 'learning_rate': 1.008e-06, 'epoch': 0.62}
+{'loss': 3.1001, 'grad_norm': 7.050318241119385, 'learning_rate': 1.0110000000000001e-06, 'epoch': 0.62}
+{'loss': 3.1326, 'grad_norm': 7.832237720489502, 'learning_rate': 1.014e-06, 'epoch': 0.63}
+{'loss': 3.1487, 'grad_norm': 4.517617225646973, 'learning_rate': 1.017e-06, 'epoch': 0.63}
+{'loss': 3.0753, 'grad_norm': 6.685205936431885, 'learning_rate': 1.0200000000000002e-06, 'epoch': 0.63}
+{'loss': 3.1213, 'grad_norm': 6.85542106628418, 'learning_rate': 1.023e-06, 'epoch': 0.63}
+{'loss': 3.0636, 'grad_norm': 6.824644565582275, 'learning_rate': 1.026e-06, 'epoch': 0.63}
+{'loss': 3.0875, 'grad_norm': 8.230368614196777, 'learning_rate': 1.029e-06, 'epoch': 0.64}
+  0%|          | 345/100000 [11:16<29:08:41,  1.05s/it]  0%|          | 346/100000 [11:17<28:36:58,  1.03s/it]                                                         0%|          | 346/100000 [11:17<28:36:58,  1.03s/it]  0%|          | 347/100000 [11:18<28:14:59,  1.02s/it]                                                         0%|          | 347/100000 [11:18<28:14:59,  1.02s/it]  0%|          | 348/100000 [11:19<27:48:43,  1.00s/it]                                                         0%|          | 348/100000 [11:19<27:48:43,  1.00s/it]  0%|          | 349/100000 [11:20<27:03:32,  1.02it/s]                                                         0%|          | 349/100000 [11:20<27:03:32,  1.02it/s]  0%|          | 350/100000 [11:20<26:17:15,  1.05it/s]                                                         0%|          | 350/100000 [11:20<26:17:15,  1.05it/s]  0%|          | 351/100000 [11:32<115:54:01,  4.19s/it]                                                          0%|          | 351/100000 [11:32<115:54:01,  4.19s/it]  0%|          | 352/100000 [11:37<125:14:55,  4.52s/it]                                                          0%|          | 352/100000 [11:37<125:14:55,  4.52s/it]  0%|          | 353/100000 [11:42<125:59:03,  4.55s/it]                                                          0%|          | 353/100000 [11:42<125:59:03,  4.55s/it]  0%|          | 354/100000 [11:46<120:03:42,  4.34s/it]                                                          0%|          | 354/100000 [11:46<120:03:42,  4.34s/it]  0%|          | 355/100000 [11:49<112:05:29,  4.05s/it]                                                          0%|          | 355/100000 [11:49<112:05:29,  4.05s/it]  0%|          | 356/100000 [11:52<104:33:16,  3.78s/it]                                                          0%|          | 356/100000 [11:52<104:33:16,  3.78s/it]  0%|          | 357/100000 [11:55<97:07:36,  3.51s/it]                                                          0%|          | 357/100000 [11:55<97:07:36,  3.51s/it]  0%|          | 358/100000 [11:58<89:46:19,  3.24s/it]                                                         0%|          | 358/100000 [11:58<89:46:19,  3.24s/it]  0%|          | 359/100000 [12:00<83:17:05,  3.01s/it]                                                         0%|          | 359/100000 [12:00<83:17:05,  3.01s/it]  0%|          | 360/100000 [12:03<77:02:01,  2.78s/it]                                                         0%|          | 360/100000 [12:03<77:02:01,  2.78s/it]  0%|          | 361/100000 [12:05<71:10:54,  2.57s/it]                                                         0%|          | 361/100000 [12:05<71:10:54,  2.57s/it]  0%|          | 362/100000 [12:07<66:10:30,  2.39s/it]                                                         0%|          | 362/100000 [12:07<66:10:30,  2.39s/it]  0%|          | 363/100000 [12:09<62:00:51,  2.24s/it]                                                         0%|          | 363/100000 [12:09<62:00:51,  2.24s/it]  0%|          | 364/100000 [12:10<58:02:45,  2.10s/it]                                                         0%|          | 364/100000 [12:10<58:02:45,  2.10s/it]  0%|          | 365/100000 [12:12<54:54:20,  1.98s/it]                                                         0%|          | 365/100000 [12:12<54:54:20,  1.98s/it]  0%|          | 366/100000 [12:14<51:55:03,  1.88s/it]                                                         0%|          | 366/100000 [12:14<51:55:03,  1.88s/it]  0%|          | 367/100000 [12:15<49:40:10,  1.79s/it]                                                         0%|          | 367/100000 [12:15<49:40:10,  1.79s/it]  0%|          | 368/100000 [12:17<48:06:55,  1.74s/it]                                                         0%|          | 368/100000 [12:17<48:06:55,  1.74s/it]  0%|          | 369/100000 [12:18<46:21:31,  1.68s/it]                                                         0%|          | 369/100000 [12:18<46:21:31,  1.68s/it]  0%|          | 370/100000 [12:20<44:44:31,  1.62s/it]                                                         0%|          | 370/100000 [12:20<44:44:31,  1.62s/it]  0%|          | 371/100000 [12:21<43:31:10,  1.57s/it]                                                         0%|          | 371/100000 [12:21<43:31:10,  1.57s/it]  0%|          | 372/100000 [12:23<42:19:38,  1.53s/it]                                                         0%|          | 372/100000 [12:23<42:19:38,  1.53s/it]  0%|          | 373/100000 [12:24<41:29:55,  1.50s/it]                                                         0%|          | 373/100000 [12:24<41:29:55,  1.50s/it]  0%|          | 374/100000 [12:26<40:45:55,  1.47s/it]                                                         0%|          | 374/100000 [12:26<40:45:55,  1.47s/it]  0%|          | 375/100000 [12:27<40:02:54,  1.45s/it]                                                         0%|          | 375/100000 [12:27<40:02:54,  1.45s/it]  0%|          | 376/100000 [12:28<39:01:21,  1.41s/it]                                                         0%|          | 376/100000 [12:28<39:01:21,  1.41s/it]  0%|          | 377/100000 [12:30<38:28:47,  1.39s/it]                                                         0%|          | 377/100000 [12:30<38:28:47,  1.39s/it]  0%|          | 378/100000 [12:31<37:39:23,  1.36s/it]                                                         0%|          | 378/100000 [12:31<37:39:23,  1.36s/it]  0%|          | 379/100000 [12:32<37:13:30,  1.35s/it]                                                         0%|          | 379/100000 [12:32<37:13:30,  1.35s/it]  0%|          | 380/100000 [12:34<36:28:07,  1.32s/it]                                                         0%|          | 380/100000 [12:34<36:28:07,  1.32s/it]  0%|          | 381/100000 [12:35<36:12:32,  1.31s/it]                                                         0%|          | 381/100000 [12:35<36:12:32,  1.31s/it]  0%|          | 382/100000 [12:36<35:29:22,  1.28s/it]                                                         0%|          | 382/100000 [12:36<35:29:22,  1.28s/it]  0%|          | 383/100000 [12:37<35:06:48,  1.27s/it]                                                         0%|          | 383/100000 [12:37<35:06:48,  1.27s/it]  0%|          | 384/100000 [12:39<34:40:56,  1.25s/it]                                                         0%|          | 384/100000 [12:39<34:40:56,  1.25s/it]  0%|          | 385/100000 [12:40<33:54:44,  1.23s/it]                                                         0%|          | 385/100000 [12:40<33:54:44,  1.23s/it]  0%|          | 386/100000 [12:41<33:29:54,  1.21s/it]                                                         0%|          | 386/100000 [12:41<33:29:54,  1.21s/it]  0%|          | 387/100000 [12:42<32:50:36,  1.19s/it]                                                         0%|          | 387/100000 [12:42<32:50:36,  1.19s/it]  0%|          | 388/100000 [12:43<32:19:33,  1.17s/it]                                                         0%|          | 388/100000 [12:43<32:19:33,  1.17s/it]  0%|          | 389/100000 [12:44<31:27:31,  1.14s/it]                                                         0%|          | 389/100000 [12:44<31:27:31,  1.14s/it]  0%|          | 390/100000 [12:45<31:18:16,  1.13s/it]                                                         0%|          | 390/100000 [12:45<31:18:16,  1.13s/it]  0%|          | 391/100000 [12:46<30:48:38,  1.11s/it]                                                         0%|          | 391/100000 [12:46<30:48:38,  1.11s/it]  0%|          | 392/100000 [12:47<30:44:52,  1.11s/it]                                                         0%|          | 392/100000 [12:47<30:44:52,  1.11s/it]  0%|          | 393/100000 [12:49<30:18:52,  1.10s/it]                                                         0%|          | 393/100000 [12:49<30:18:52,  1.10s/it]  0%|          | 394/100000 [12:50<29:43:06,  1.07s/it]                                                         0%|          | 394/100000 [12:50<29:43:06,  1.07s/it]  0%|          | 395/100000 [12:51<29:13:46,  1.06s/it]                                                         0%|          | 395/100000 [12:51<29:13:46,  1.06s/it]  0%|          | 396/100000 [12:52<28:54:56,  1.05s/it]                                                         0%|          | 396/100000 [12:52<28:54:56,  1.05s/it]  0%|          | 397/100000 [12:53<28:17:21,  1.02s/it]                                                         0%|          | 397/100000 [12:53<28:17:21,  1.02s/it]  0%|          | 398/100000 [12:54<27:49:45,  1.01s/it]                                                         0%|          | 398/100000 [12:54<27:49:45,  1.01s/it]  0%|          | 399/100000 [12:54<27:13:17,  1.02it/s]                                                         0%|          | 399/100000 [12:54<27:13:17,  1.02it/s]  0%|          | 400/100000 [12:55<26:39:30,  1.04it/s]                                                         0%|          | 400/100000 [12:55<26:39:30,  1.04it/s]  0%|          | 401/100000 [13:08<121:23:34,  4.39s/it]                                                          0%|          | 401/100000 [13:08<121:23:34,  4.39s/it]  0%|          | 402/100000 [13:14<134:19:07,  4.85s/it]                                                          0%|          | 402/100000 [13:14<134:19:07,  4.85s/it]  0%|          | 403/100000 [13:19<134:37:46,  4.87s/it]                                                          0%|          | 403/100000 [13:19<134:37:46,  4.87s/it]  0%|          | 404/100000 [13:23<128:03:46,  4.63s/it]                                                          0%|          | 404/100000 [13:23<128:03:46,  4.63s/it]  0%|          | 405/100000 [13:26<120:07:19,  4.34s/it]                                                          0%|          | 405/100000 [13:26<120:07:19,  4.34s/it]  0%|          | 406/100000 [13:30<111:44:14,  4.04s/it]                                                          0%|          | 406/100000 [13:30<111:44:14,  4.04s/it]  0%|          | 407/100000 [13:33<103:58:44,  3.76s/it]                                                          0%|          | 407/100000 [13:33<103:58:44,  3.76s/it]  0%|          | 408/100000 [13:36<95:45:26,  3.46s/it]                                                          0%|          | 408/100000 [13:36<95:45:26,  3.46s/it]  0%|          | 409/100000 [13:38<88:23:28,  3.20s/it]                                                         0%|          | 409/100000 [13:38<88:23:28,  3.20s/it]  0%|          | 410/100000 [13:41<81:46:54,  2.96s/it]                                                         0%|          | 410/100000 [13:41<81:46:54,  2.96s/it]  0%|          | 411/100000 [13:43<75:21:13,  2.72s/it]                                                         0%|          | 411/100000 [13:43<75:21:13,  2.72s/it]  0%|          | 412/100000 [13:45<69:45:33,  2.52s/it]                                                         0%|          | 412/100000 [13:45<69:45:33,  2.52s/it]  0%|          | 413/100000 [13:47<65:00:43,  2.35s/it]                                                         0%|          | 413/100000 [13:47<65:00:43,  2.35s/it]  0%|          | 414/100000 [13:48<59:37:50,  2.16s/it]                                                         0%|          | 414/100000 [13:48<59:37:50,  2.16s/it]  0%|          | 415/100000 [13:50<56:17:19,  2.03s/it]                                                         0%|          | 415/100000 [13:50<56:17:19,  2.03s/it]  0%|          | 416/100000 [13:52<53:25:40,  1.93s/it]                                                         0%|          | 416/100000 [13:52<53:25:40,  1.93s/it]  0%|          | 417/100000 [13:53<50:34:14,  1.83s/it]                                                         0%|          | 417/100000 [13:53<50:34:14,  1.83s/it]  0%|          | 418/100000 [13:55<48:40:03,  1.76s/it]                                                         0%|          | 418/100000 [13:55<48:40:03,  1.76s/it]  0%|          | 419/100000 [13:57<46:59:17,  1.70s/it]                                                         0%|          | 419/100000 [13:57<46:59:17,  1.70s/it]  0%|          | 420/100000 [13:58<45:28:28,  1.64s/it]                                                         0%|          | 420/100000 [13:58<45:28:28,  1.64s/it]  0%|          | 421/100000 [14:00<43:56:46,  1.59s/it]                                                         0%|          | 421/100000 [14:00<43:56:46,  1.59s/it]  0%|          | 422/100000 [14:01<42:35:30,  1.54s/it]                                                         0%|          | 422/100000 [14:01<42:35:30,  1.54s/it]  0%|          | 423/100000 [14:02<41:40:31,  1.51s/it]                                                         0%|          | 423/100000 [14:02<41:40:31,  1.51s/it]  0%|          | 424/100000 [14:04<40:32:28,  1.47s/it]                                                         0%|          | 424/100000 [14:04<40:32:28,  1.47s/it]  0%|          | 425/100000 [14:05<39:50:33,  1.44s/it]                                                         0%|          | 425/100000 [14:05<39:50:33,  1.44s/it]  0%|          | 426/100000 [14:07<39:10:11,  1.42s/it]                                                         0%|          | 426/100000 [14:07<39:10:11,  1.42s/it]  0%|          | 427/100000 [14:08<38:32:21,  1.39s/it]                                                         0%|          | 427/100000 [14:08<38:32:21,  1.39s/it]  0%|          | 428/100000 [14:09<37:41:36,  1.36s/it]                                                         0%|          | 428/100000 [14:09<37:41:36,  1.36s/it]  0%|          | 429/100000 [14:10<37:04:26,  1.34s/it]                                                         0%|          | 429/100000 [14:10<37:04:26,  1.34s/it]  0%|          | 430/100000 [14:12<36:20:23,  1.31s/it]                                                         0%|          | 430/100000 [14:12<36:20:23,  1.31s/it]  0%|          | 431/100000 [14:13<35:57:20,  1.30s/it]                                                       {'loss': 3.1108, 'grad_norm': 3.8798701763153076, 'learning_rate': 1.032e-06, 'epoch': 0.64}
+{'loss': 3.1304, 'grad_norm': 4.092694282531738, 'learning_rate': 1.035e-06, 'epoch': 0.64}
+{'loss': 3.1214, 'grad_norm': 4.441507339477539, 'learning_rate': 1.038e-06, 'epoch': 0.64}
+{'loss': 3.0863, 'grad_norm': 8.2803955078125, 'learning_rate': 1.041e-06, 'epoch': 0.64}
+{'loss': 3.1261, 'grad_norm': 5.707834720611572, 'learning_rate': 1.0439999999999999e-06, 'epoch': 0.64}
+{'loss': 3.0936, 'grad_norm': 6.7514238357543945, 'learning_rate': 1.047e-06, 'epoch': 0.65}
+{'loss': 3.1867, 'grad_norm': 9.191317558288574, 'learning_rate': 1.0500000000000001e-06, 'epoch': 0.65}
+{'loss': 3.1831, 'grad_norm': 8.901002883911133, 'learning_rate': 1.053e-06, 'epoch': 0.65}
+{'loss': 3.115, 'grad_norm': 5.3682169914245605, 'learning_rate': 1.0560000000000001e-06, 'epoch': 0.65}
+{'loss': 3.1332, 'grad_norm': 3.2384531497955322, 'learning_rate': 1.059e-06, 'epoch': 0.65}
+{'loss': 3.1003, 'grad_norm': 2.113199472427368, 'learning_rate': 1.062e-06, 'epoch': 0.66}
+{'loss': 3.0896, 'grad_norm': 3.5084481239318848, 'learning_rate': 1.065e-06, 'epoch': 0.66}
+{'loss': 3.0751, 'grad_norm': 4.078393936157227, 'learning_rate': 1.068e-06, 'epoch': 0.66}
+{'loss': 3.0848, 'grad_norm': 6.067633628845215, 'learning_rate': 1.0710000000000002e-06, 'epoch': 0.66}
+{'loss': 3.0941, 'grad_norm': 5.45023775100708, 'learning_rate': 1.074e-06, 'epoch': 0.66}
+{'loss': 3.0869, 'grad_norm': 4.068233966827393, 'learning_rate': 1.077e-06, 'epoch': 0.66}
+{'loss': 3.1117, 'grad_norm': 3.762965202331543, 'learning_rate': 1.08e-06, 'epoch': 0.67}
+{'loss': 3.0524, 'grad_norm': 2.311380624771118, 'learning_rate': 1.083e-06, 'epoch': 0.67}
+{'loss': 3.0798, 'grad_norm': 4.134860038757324, 'learning_rate': 1.086e-06, 'epoch': 0.67}
+{'loss': 3.1159, 'grad_norm': 3.7544875144958496, 'learning_rate': 1.089e-06, 'epoch': 0.67}
+{'loss': 3.0632, 'grad_norm': 3.5989551544189453, 'learning_rate': 1.092e-06, 'epoch': 0.67}
+{'loss': 3.0727, 'grad_norm': 4.7507853507995605, 'learning_rate': 1.0949999999999999e-06, 'epoch': 0.68}
+{'loss': 3.0851, 'grad_norm': 7.671990871429443, 'learning_rate': 1.0980000000000001e-06, 'epoch': 0.68}
+{'loss': 3.0607, 'grad_norm': 6.9083380699157715, 'learning_rate': 1.1010000000000001e-06, 'epoch': 0.68}
+{'loss': 3.0911, 'grad_norm': 4.966256618499756, 'learning_rate': 1.104e-06, 'epoch': 0.68}
+{'loss': 3.0722, 'grad_norm': 12.021642684936523, 'learning_rate': 1.1070000000000002e-06, 'epoch': 0.68}
+{'loss': 3.0455, 'grad_norm': 3.737931728363037, 'learning_rate': 1.11e-06, 'epoch': 0.69}
+{'loss': 3.0536, 'grad_norm': 4.485469341278076, 'learning_rate': 1.113e-06, 'epoch': 0.69}
+{'loss': 3.049, 'grad_norm': 6.518353462219238, 'learning_rate': 1.116e-06, 'epoch': 0.69}
+{'loss': 3.0453, 'grad_norm': 4.276355743408203, 'learning_rate': 1.119e-06, 'epoch': 0.69}
+{'loss': 3.0717, 'grad_norm': 7.017218112945557, 'learning_rate': 1.122e-06, 'epoch': 0.69}
+{'loss': 3.0627, 'grad_norm': 4.840349197387695, 'learning_rate': 1.125e-06, 'epoch': 0.69}
+{'loss': 3.053, 'grad_norm': 6.178562164306641, 'learning_rate': 1.128e-06, 'epoch': 0.7}
+{'loss': 3.1017, 'grad_norm': 7.595609664916992, 'learning_rate': 1.131e-06, 'epoch': 0.7}
+{'loss': 3.0428, 'grad_norm': 4.348419666290283, 'learning_rate': 1.134e-06, 'epoch': 0.7}
+{'loss': 3.0727, 'grad_norm': 4.139669418334961, 'learning_rate': 1.137e-06, 'epoch': 0.7}
+{'loss': 3.0405, 'grad_norm': 5.153532981872559, 'learning_rate': 1.14e-06, 'epoch': 0.7}
+{'loss': 3.0353, 'grad_norm': 4.004812240600586, 'learning_rate': 1.1430000000000001e-06, 'epoch': 0.71}
+{'loss': 3.0672, 'grad_norm': 5.635801792144775, 'learning_rate': 1.146e-06, 'epoch': 0.71}
+{'loss': 3.0607, 'grad_norm': 3.6818764209747314, 'learning_rate': 1.1490000000000001e-06, 'epoch': 0.71}
+{'loss': 3.0002, 'grad_norm': 8.386887550354004, 'learning_rate': 1.152e-06, 'epoch': 0.71}
+{'loss': 3.0347, 'grad_norm': 7.178035259246826, 'learning_rate': 1.155e-06, 'epoch': 0.71}
+{'loss': 3.0274, 'grad_norm': 3.6302337646484375, 'learning_rate': 1.1580000000000002e-06, 'epoch': 0.71}
+{'loss': 3.0377, 'grad_norm': 3.4200942516326904, 'learning_rate': 1.161e-06, 'epoch': 0.72}
+{'loss': 3.0216, 'grad_norm': 3.180461883544922, 'learning_rate': 1.164e-06, 'epoch': 0.72}
+{'loss': 3.0542, 'grad_norm': 3.9970366954803467, 'learning_rate': 1.167e-06, 'epoch': 0.72}
+{'loss': 3.0152, 'grad_norm': 8.964760780334473, 'learning_rate': 1.17e-06, 'epoch': 0.72}
+{'loss': 3.0372, 'grad_norm': 4.677817344665527, 'learning_rate': 1.173e-06, 'epoch': 0.72}
+{'loss': 2.9933, 'grad_norm': 5.287402153015137, 'learning_rate': 1.176e-06, 'epoch': 0.73}
+{'loss': 3.0533, 'grad_norm': 4.688521385192871, 'learning_rate': 1.179e-06, 'epoch': 0.73}
+{'loss': 3.0147, 'grad_norm': 5.032068729400635, 'learning_rate': 1.1819999999999999e-06, 'epoch': 0.73}
+{'loss': 3.0879, 'grad_norm': 6.2361626625061035, 'learning_rate': 1.185e-06, 'epoch': 0.73}
+{'loss': 3.0227, 'grad_norm': 7.5859270095825195, 'learning_rate': 1.188e-06, 'epoch': 0.73}
+{'loss': 2.9768, 'grad_norm': 6.370418071746826, 'learning_rate': 1.191e-06, 'epoch': 0.73}
+{'loss': 3.0001, 'grad_norm': 4.1537675857543945, 'learning_rate': 1.1940000000000001e-06, 'epoch': 0.74}
+{'loss': 3.0386, 'grad_norm': 4.340860843658447, 'learning_rate': 1.197e-06, 'epoch': 0.74}
+{'loss': 3.187, 'grad_norm': 7.044209003448486, 'learning_rate': 1.2000000000000002e-06, 'epoch': 0.74}
+{'loss': 3.0968, 'grad_norm': 9.477621078491211, 'learning_rate': 1.203e-06, 'epoch': 0.74}
+{'loss': 3.0578, 'grad_norm': 4.682133197784424, 'learning_rate': 1.206e-06, 'epoch': 0.74}
+{'loss': 3.0519, 'grad_norm': 3.7250590324401855, 'learning_rate': 1.2090000000000002e-06, 'epoch': 0.75}
+{'loss': 3.0602, 'grad_norm': 2.828423500061035, 'learning_rate': 1.212e-06, 'epoch': 0.75}
+{'loss': 3.0154, 'grad_norm': 4.87825870513916, 'learning_rate': 1.215e-06, 'epoch': 0.75}
+{'loss': 3.0498, 'grad_norm': 5.9660234451293945, 'learning_rate': 1.218e-06, 'epoch': 0.75}
+{'loss': 3.014, 'grad_norm': 6.8960862159729, 'learning_rate': 1.221e-06, 'epoch': 0.75}
+{'loss': 3.0294, 'grad_norm': 3.969679117202759, 'learning_rate': 1.224e-06, 'epoch': 0.76}
+{'loss': 2.9686, 'grad_norm': 4.408971786499023, 'learning_rate': 1.227e-06, 'epoch': 0.76}
+{'loss': 3.0472, 'grad_norm': 4.6965107917785645, 'learning_rate': 1.23e-06, 'epoch': 0.76}
+{'loss': 2.9867, 'grad_norm': 3.0788402557373047, 'learning_rate': 1.2329999999999999e-06, 'epoch': 0.76}
+{'loss': 3.0021, 'grad_norm': 5.122383117675781, 'learning_rate': 1.2360000000000001e-06, 'epoch': 0.76}
+{'loss': 2.9976, 'grad_norm': 3.920349359512329, 'learning_rate': 1.2390000000000001e-06, 'epoch': 0.76}
+{'loss': 2.9776, 'grad_norm': 8.338603019714355, 'learning_rate': 1.242e-06, 'epoch': 0.77}
+{'loss': 3.0257, 'grad_norm': 3.2974908351898193, 'learning_rate': 1.2450000000000002e-06, 'epoch': 0.77}
+{'loss': 2.9794, 'grad_norm': 4.498806953430176, 'learning_rate': 1.248e-06, 'epoch': 0.77}
+{'loss': 3.0031, 'grad_norm': 3.317884683609009, 'learning_rate': 1.251e-06, 'epoch': 0.77}
+{'loss': 3.0484, 'grad_norm': 5.48812198638916, 'learning_rate': 1.254e-06, 'epoch': 0.77}
+{'loss': 3.0451, 'grad_norm': 5.9689154624938965, 'learning_rate': 1.257e-06, 'epoch': 0.78}
+{'loss': 3.0069, 'grad_norm': 4.714944839477539, 'learning_rate': 1.26e-06, 'epoch': 0.78}
+{'loss': 3.0274, 'grad_norm': 4.204563617706299, 'learning_rate': 1.263e-06, 'epoch': 0.78}
+{'loss': 2.9794, 'grad_norm': 4.774872779846191, 'learning_rate': 1.266e-06, 'epoch': 0.78}
+{'loss': 3.0081, 'grad_norm': 5.415470600128174, 'learning_rate': 1.269e-06, 'epoch': 0.78}
+{'loss': 3.0158, 'grad_norm': 4.5735554695129395, 'learning_rate': 1.272e-06, 'epoch': 0.78}
+{'loss': 3.0651, 'grad_norm': 4.952023506164551, 'learning_rate': 1.275e-06, 'epoch': 0.79}
+{'loss': 2.9854, 'grad_norm': 4.689613342285156, 'learning_rate': 1.278e-06, 'epoch': 0.79}
+{'loss': 2.9901, 'grad_norm': 5.4375762939453125, 'learning_rate': 1.281e-06, 'epoch': 0.79}
+{'loss': 3.0129, 'grad_norm': 4.584848880767822, 'learning_rate': 1.284e-06, 'epoch': 0.79}
+{'loss': 3.017, 'grad_norm': 5.961929798126221, 'learning_rate': 1.2870000000000001e-06, 'epoch': 0.79}
+  0%|          | 431/100000 [14:13<35:57:20,  1.30s/it]  0%|          | 432/100000 [14:14<35:16:03,  1.28s/it]                                                         0%|          | 432/100000 [14:14<35:16:03,  1.28s/it]  0%|          | 433/100000 [14:15<34:54:02,  1.26s/it]                                                         0%|          | 433/100000 [14:15<34:54:02,  1.26s/it]  0%|          | 434/100000 [14:17<34:13:37,  1.24s/it]                                                         0%|          | 434/100000 [14:17<34:13:37,  1.24s/it]  0%|          | 435/100000 [14:18<33:34:59,  1.21s/it]                                                         0%|          | 435/100000 [14:18<33:34:59,  1.21s/it]  0%|          | 436/100000 [14:19<33:09:34,  1.20s/it]                                                         0%|          | 436/100000 [14:19<33:09:34,  1.20s/it]  0%|          | 437/100000 [14:20<32:32:10,  1.18s/it]                                                         0%|          | 437/100000 [14:20<32:32:10,  1.18s/it]  0%|          | 438/100000 [14:21<32:07:47,  1.16s/it]                                                         0%|          | 438/100000 [14:21<32:07:47,  1.16s/it]  0%|          | 439/100000 [14:22<31:53:42,  1.15s/it]                                                         0%|          | 439/100000 [14:22<31:53:42,  1.15s/it]  0%|          | 440/100000 [14:23<31:32:48,  1.14s/it]                                                         0%|          | 440/100000 [14:23<31:32:48,  1.14s/it]  0%|          | 441/100000 [14:25<31:01:47,  1.12s/it]                                                         0%|          | 441/100000 [14:25<31:01:47,  1.12s/it]  0%|          | 442/100000 [14:26<30:39:46,  1.11s/it]                                                         0%|          | 442/100000 [14:26<30:39:46,  1.11s/it]  0%|          | 443/100000 [14:27<30:05:40,  1.09s/it]                                                         0%|          | 443/100000 [14:27<30:05:40,  1.09s/it]  0%|          | 444/100000 [14:28<29:45:30,  1.08s/it]                                                         0%|          | 444/100000 [14:28<29:45:30,  1.08s/it]  0%|          | 445/100000 [14:29<29:06:46,  1.05s/it]                                                         0%|          | 445/100000 [14:29<29:06:46,  1.05s/it]  0%|          | 446/100000 [14:30<28:15:00,  1.02s/it]                                                         0%|          | 446/100000 [14:30<28:15:00,  1.02s/it]  0%|          | 447/100000 [14:31<27:33:49,  1.00it/s]                                                         0%|          | 447/100000 [14:31<27:33:49,  1.00it/s]  0%|          | 448/100000 [14:32<27:28:14,  1.01it/s]                                                         0%|          | 448/100000 [14:32<27:28:14,  1.01it/s]  0%|          | 449/100000 [14:32<26:55:27,  1.03it/s]                                                         0%|          | 449/100000 [14:32<26:55:27,  1.03it/s]  0%|          | 450/100000 [14:33<26:26:03,  1.05it/s]                                                         0%|          | 450/100000 [14:33<26:26:03,  1.05it/s]  0%|          | 451/100000 [14:44<108:53:13,  3.94s/it]                                                          0%|          | 451/100000 [14:44<108:53:13,  3.94s/it]  0%|          | 452/100000 [14:49<118:13:27,  4.28s/it]                                                          0%|          | 452/100000 [14:49<118:13:27,  4.28s/it]  0%|          | 453/100000 [14:54<119:27:23,  4.32s/it]                                                          0%|          | 453/100000 [14:54<119:27:23,  4.32s/it]  0%|          | 454/100000 [14:58<115:42:38,  4.18s/it]                                                          0%|          | 454/100000 [14:58<115:42:38,  4.18s/it]  0%|          | 455/100000 [15:01<110:12:19,  3.99s/it]                                                          0%|          | 455/100000 [15:01<110:12:19,  3.99s/it]  0%|          | 456/100000 [15:04<103:28:45,  3.74s/it]                                                          0%|          | 456/100000 [15:04<103:28:45,  3.74s/it]  0%|          | 457/100000 [15:07<96:01:50,  3.47s/it]                                                          0%|          | 457/100000 [15:07<96:01:50,  3.47s/it]  0%|          | 458/100000 [15:10<89:51:35,  3.25s/it]                                                         0%|          | 458/100000 [15:10<89:51:35,  3.25s/it]  0%|          | 459/100000 [15:12<83:24:07,  3.02s/it]                                                         0%|          | 459/100000 [15:12<83:24:07,  3.02s/it]  0%|          | 460/100000 [15:15<77:31:38,  2.80s/it]                                                         0%|          | 460/100000 [15:15<77:31:38,  2.80s/it]  0%|          | 461/100000 [15:17<72:11:31,  2.61s/it]                                                         0%|          | 461/100000 [15:17<72:11:31,  2.61s/it]  0%|          | 462/100000 [15:19<67:07:35,  2.43s/it]                                                         0%|          | 462/100000 [15:19<67:07:35,  2.43s/it]  0%|          | 463/100000 [15:21<62:05:27,  2.25s/it]                                                         0%|          | 463/100000 [15:21<62:05:27,  2.25s/it]  0%|          | 464/100000 [15:22<58:19:01,  2.11s/it]                                                         0%|          | 464/100000 [15:22<58:19:01,  2.11s/it]  0%|          | 465/100000 [15:24<55:16:46,  2.00s/it]                                                         0%|          | 465/100000 [15:24<55:16:46,  2.00s/it]  0%|          | 466/100000 [15:26<52:24:18,  1.90s/it]                                                         0%|          | 466/100000 [15:26<52:24:18,  1.90s/it]  0%|          | 467/100000 [15:27<50:15:30,  1.82s/it]                                                         0%|          | 467/100000 [15:27<50:15:30,  1.82s/it]  0%|          | 468/100000 [15:29<48:21:12,  1.75s/it]                                                         0%|          | 468/100000 [15:29<48:21:12,  1.75s/it]  0%|          | 469/100000 [15:31<46:25:14,  1.68s/it]                                                         0%|          | 469/100000 [15:31<46:25:14,  1.68s/it]  0%|          | 470/100000 [15:32<44:30:27,  1.61s/it]                                                         0%|          | 470/100000 [15:32<44:30:27,  1.61s/it]  0%|          | 471/100000 [15:33<43:11:00,  1.56s/it]                                                         0%|          | 471/100000 [15:33<43:11:00,  1.56s/it]  0%|          | 472/100000 [15:35<42:04:45,  1.52s/it]                                                         0%|          | 472/100000 [15:35<42:04:45,  1.52s/it]  0%|          | 473/100000 [15:36<41:08:39,  1.49s/it]                                                         0%|          | 473/100000 [15:36<41:08:39,  1.49s/it]  0%|          | 474/100000 [15:38<40:22:11,  1.46s/it]                                                         0%|          | 474/100000 [15:38<40:22:11,  1.46s/it]  0%|          | 475/100000 [15:39<39:38:57,  1.43s/it]                                                         0%|          | 475/100000 [15:39<39:38:57,  1.43s/it]  0%|          | 476/100000 [15:40<38:58:23,  1.41s/it]                                                         0%|          | 476/100000 [15:40<38:58:23,  1.41s/it]  0%|          | 477/100000 [15:42<38:02:44,  1.38s/it]                                                         0%|          | 477/100000 [15:42<38:02:44,  1.38s/it]  0%|          | 478/100000 [15:43<37:26:30,  1.35s/it]                                                         0%|          | 478/100000 [15:43<37:26:30,  1.35s/it]  0%|          | 479/100000 [15:44<36:36:57,  1.32s/it]                                                         0%|          | 479/100000 [15:44<36:36:57,  1.32s/it]  0%|          | 480/100000 [15:46<36:18:04,  1.31s/it]                                                         0%|          | 480/100000 [15:46<36:18:04,  1.31s/it]  0%|          | 481/100000 [15:47<35:55:08,  1.30s/it]                                                         0%|          | 481/100000 [15:47<35:55:08,  1.30s/it]  0%|          | 482/100000 [15:48<35:25:18,  1.28s/it]                                                         0%|          | 482/100000 [15:48<35:25:18,  1.28s/it]  0%|          | 483/100000 [15:49<34:45:44,  1.26s/it]                                                         0%|          | 483/100000 [15:49<34:45:44,  1.26s/it]  0%|          | 484/100000 [15:50<34:04:17,  1.23s/it]                                                         0%|          | 484/100000 [15:50<34:04:17,  1.23s/it]  0%|          | 485/100000 [15:52<33:27:45,  1.21s/it]                                                         0%|          | 485/100000 [15:52<33:27:45,  1.21s/it]  0%|          | 486/100000 [15:53<32:49:25,  1.19s/it]                                                         0%|          | 486/100000 [15:53<32:49:25,  1.19s/it]  0%|          | 487/100000 [15:54<32:37:30,  1.18s/it]                                                         0%|          | 487/100000 [15:54<32:37:30,  1.18s/it]  0%|          | 488/100000 [15:55<32:04:53,  1.16s/it]                                                         0%|          | 488/100000 [15:55<32:04:53,  1.16s/it]  0%|          | 489/100000 [15:56<31:41:02,  1.15s/it]                                                         0%|          | 489/100000 [15:56<31:41:02,  1.15s/it]  0%|          | 490/100000 [15:57<31:06:40,  1.13s/it]                                                         0%|          | 490/100000 [15:57<31:06:40,  1.13s/it]  0%|          | 491/100000 [15:58<30:48:46,  1.11s/it]                                                         0%|          | 491/100000 [15:58<30:48:46,  1.11s/it]  0%|          | 492/100000 [15:59<30:25:15,  1.10s/it]                                                         0%|          | 492/100000 [15:59<30:25:15,  1.10s/it]  0%|          | 493/100000 [16:00<29:50:59,  1.08s/it]                                                         0%|          | 493/100000 [16:00<29:50:59,  1.08s/it]  0%|          | 494/100000 [16:01<29:30:38,  1.07s/it]                                                         0%|          | 494/100000 [16:01<29:30:38,  1.07s/it]  0%|          | 495/100000 [16:02<28:31:01,  1.03s/it]                                                         0%|          | 495/100000 [16:02<28:31:01,  1.03s/it]  0%|          | 496/100000 [16:03<28:10:00,  1.02s/it]                                                         0%|          | 496/100000 [16:03<28:10:00,  1.02s/it]  0%|          | 497/100000 [16:04<27:52:13,  1.01s/it]                                                         0%|          | 497/100000 [16:04<27:52:13,  1.01s/it]  0%|          | 498/100000 [16:05<27:27:13,  1.01it/s]                                                         0%|          | 498/100000 [16:05<27:27:13,  1.01it/s]  0%|          | 499/100000 [16:06<26:45:01,  1.03it/s]                                                         0%|          | 499/100000 [16:06<26:45:01,  1.03it/s]  0%|          | 500/100000 [16:07<25:40:13,  1.08it/s]                                                         0%|          | 500/100000 [16:07<25:40:13,  1.08it/s]  1%|          | 501/100000 [16:18<110:11:52,  3.99s/it]                                                          1%|          | 501/100000 [16:18<110:11:52,  3.99s/it]  1%|          | 502/100000 [16:23<118:11:31,  4.28s/it]                                                          1%|          | 502/100000 [16:23<118:11:31,  4.28s/it]  1%|          | 503/100000 [16:27<116:07:02,  4.20s/it]                                                          1%|          | 503/100000 [16:27<116:07:02,  4.20s/it]  1%|          | 504/100000 [16:31<110:30:28,  4.00s/it]                                                          1%|          | 504/100000 [16:31<110:30:28,  4.00s/it]  1%|          | 505/100000 [16:34<104:40:35,  3.79s/it]                                                          1%|          | 505/100000 [16:34<104:40:35,  3.79s/it]  1%|          | 506/100000 [16:37<97:23:13,  3.52s/it]                                                          1%|          | 506/100000 [16:37<97:23:13,  3.52s/it]  1%|          | 507/100000 [16:39<88:31:37,  3.20s/it]                                                         1%|          | 507/100000 [16:39<88:31:37,  3.20s/it]  1%|          | 508/100000 [16:42<81:34:30,  2.95s/it]                                                         1%|          | 508/100000 [16:42<81:34:30,  2.95s/it]  1%|          | 509/100000 [16:44<75:45:06,  2.74s/it]                                                         1%|          | 509/100000 [16:44<75:45:06,  2.74s/it]  1%|          | 510/100000 [16:46<70:19:01,  2.54s/it]                                                         1%|          | 510/100000 [16:46<70:19:01,  2.54s/it]  1%|          | 511/100000 [16:48<65:26:29,  2.37s/it]                                                         1%|          | 511/100000 [16:48<65:26:29,  2.37s/it]  1%|          | 512/100000 [16:50<60:22:31,  2.18s/it]                                                         1%|          | 512/100000 [16:50<60:22:31,  2.18s/it]  1%|          | 513/100000 [16:51<55:48:59,  2.02s/it]                                                         1%|          | 513/100000 [16:51<55:48:59,  2.02s/it]  1%|          | 514/100000 [16:53<52:18:26,  1.89s/it]                                                         1%|          | 514/100000 [16:53<52:18:26,  1.89s/it]  1%|          | 515/100000 [16:55<49:40:02,  1.80s/it]                                                         1%|          | 515/100000 [16:55<49:40:02,  1.80s/it]  1%|          | 516/100000 [16:56<47:16:18,  1.71s/it]                                                         1%|          | 516/100000 [16:56<47:16:18,  1.71s/it]  1%|          | 517/100000 [16:58<44:57:37,  1.63s/it]                                                       {'loss': 3.0211, 'grad_norm': 6.332926273345947, 'learning_rate': 1.29e-06, 'epoch': 0.8}
+{'loss': 3.0044, 'grad_norm': 4.257788181304932, 'learning_rate': 1.293e-06, 'epoch': 0.8}
+{'loss': 2.9987, 'grad_norm': 4.114194393157959, 'learning_rate': 1.2960000000000002e-06, 'epoch': 0.8}
+{'loss': 2.9784, 'grad_norm': 12.284896850585938, 'learning_rate': 1.299e-06, 'epoch': 0.8}
+{'loss': 3.0016, 'grad_norm': 7.53204870223999, 'learning_rate': 1.302e-06, 'epoch': 0.8}
+{'loss': 3.0036, 'grad_norm': 3.8289263248443604, 'learning_rate': 1.305e-06, 'epoch': 0.81}
+{'loss': 2.9835, 'grad_norm': 6.599183559417725, 'learning_rate': 1.308e-06, 'epoch': 0.81}
+{'loss': 3.0261, 'grad_norm': 4.600238800048828, 'learning_rate': 1.311e-06, 'epoch': 0.81}
+{'loss': 2.9914, 'grad_norm': 4.442101955413818, 'learning_rate': 1.314e-06, 'epoch': 0.81}
+{'loss': 2.9763, 'grad_norm': 4.377070903778076, 'learning_rate': 1.317e-06, 'epoch': 0.81}
+{'loss': 2.9904, 'grad_norm': 5.045103549957275, 'learning_rate': 1.3199999999999999e-06, 'epoch': 0.81}
+{'loss': 3.0087, 'grad_norm': 6.373979568481445, 'learning_rate': 1.323e-06, 'epoch': 0.82}
+{'loss': 2.9853, 'grad_norm': 4.301845073699951, 'learning_rate': 1.326e-06, 'epoch': 0.82}
+{'loss': 3.0014, 'grad_norm': 15.533903121948242, 'learning_rate': 1.3290000000000001e-06, 'epoch': 0.82}
+{'loss': 2.9524, 'grad_norm': 4.522268772125244, 'learning_rate': 1.3320000000000001e-06, 'epoch': 0.82}
+{'loss': 3.0163, 'grad_norm': 4.2080559730529785, 'learning_rate': 1.335e-06, 'epoch': 0.82}
+{'loss': 2.996, 'grad_norm': 4.199611663818359, 'learning_rate': 1.3380000000000001e-06, 'epoch': 0.83}
+{'loss': 2.9532, 'grad_norm': 4.514741897583008, 'learning_rate': 1.341e-06, 'epoch': 0.83}
+{'loss': 2.973, 'grad_norm': 4.151061058044434, 'learning_rate': 1.344e-06, 'epoch': 0.83}
+{'loss': 2.998, 'grad_norm': 8.964682579040527, 'learning_rate': 1.3470000000000002e-06, 'epoch': 0.83}
+{'loss': 3.1545, 'grad_norm': 7.244773864746094, 'learning_rate': 1.35e-06, 'epoch': 0.83}
+{'loss': 3.0276, 'grad_norm': 5.385263919830322, 'learning_rate': 1.353e-06, 'epoch': 0.83}
+{'loss': 2.9877, 'grad_norm': 2.983064889907837, 'learning_rate': 1.356e-06, 'epoch': 0.84}
+{'loss': 2.9808, 'grad_norm': 4.306495666503906, 'learning_rate': 1.359e-06, 'epoch': 0.84}
+{'loss': 3.0441, 'grad_norm': 5.624070167541504, 'learning_rate': 1.362e-06, 'epoch': 0.84}
+{'loss': 3.014, 'grad_norm': 5.876847267150879, 'learning_rate': 1.365e-06, 'epoch': 0.84}
+{'loss': 3.0038, 'grad_norm': 5.433878421783447, 'learning_rate': 1.368e-06, 'epoch': 0.84}
+{'loss': 2.9971, 'grad_norm': 2.7806458473205566, 'learning_rate': 1.3709999999999999e-06, 'epoch': 0.85}
+{'loss': 2.9475, 'grad_norm': 3.286996603012085, 'learning_rate': 1.374e-06, 'epoch': 0.85}
+{'loss': 2.9524, 'grad_norm': 4.864804267883301, 'learning_rate': 1.3770000000000001e-06, 'epoch': 0.85}
+{'loss': 2.9754, 'grad_norm': 5.1426615715026855, 'learning_rate': 1.38e-06, 'epoch': 0.85}
+{'loss': 2.9736, 'grad_norm': 6.4956955909729, 'learning_rate': 1.3830000000000001e-06, 'epoch': 0.85}
+{'loss': 2.989, 'grad_norm': 5.773088455200195, 'learning_rate': 1.386e-06, 'epoch': 0.86}
+{'loss': 2.9945, 'grad_norm': 4.204294204711914, 'learning_rate': 1.389e-06, 'epoch': 0.86}
+{'loss': 2.9446, 'grad_norm': 4.098605632781982, 'learning_rate': 1.392e-06, 'epoch': 0.86}
+{'loss': 2.9319, 'grad_norm': 5.481067180633545, 'learning_rate': 1.395e-06, 'epoch': 0.86}
+{'loss': 2.9674, 'grad_norm': 6.614928245544434, 'learning_rate': 1.3980000000000002e-06, 'epoch': 0.86}
+{'loss': 2.9716, 'grad_norm': 7.987035751342773, 'learning_rate': 1.401e-06, 'epoch': 0.86}
+{'loss': 2.9757, 'grad_norm': 5.396458625793457, 'learning_rate': 1.404e-06, 'epoch': 0.87}
+{'loss': 2.9759, 'grad_norm': 7.34463357925415, 'learning_rate': 1.407e-06, 'epoch': 0.87}
+{'loss': 2.9274, 'grad_norm': 4.453892707824707, 'learning_rate': 1.41e-06, 'epoch': 0.87}
+{'loss': 2.9369, 'grad_norm': 6.051670551300049, 'learning_rate': 1.413e-06, 'epoch': 0.87}
+{'loss': 2.9687, 'grad_norm': 5.094610214233398, 'learning_rate': 1.416e-06, 'epoch': 0.87}
+{'loss': 2.9616, 'grad_norm': 6.582310199737549, 'learning_rate': 1.419e-06, 'epoch': 0.88}
+{'loss': 2.9422, 'grad_norm': 6.141293525695801, 'learning_rate': 1.422e-06, 'epoch': 0.88}
+{'loss': 3.0109, 'grad_norm': 11.331812858581543, 'learning_rate': 1.4250000000000001e-06, 'epoch': 0.88}
+{'loss': 2.9676, 'grad_norm': 3.9797582626342773, 'learning_rate': 1.4280000000000001e-06, 'epoch': 0.88}
+{'loss': 2.9751, 'grad_norm': 10.876532554626465, 'learning_rate': 1.431e-06, 'epoch': 0.88}
+{'loss': 2.9888, 'grad_norm': 6.678962707519531, 'learning_rate': 1.4340000000000002e-06, 'epoch': 0.88}
+{'loss': 2.9691, 'grad_norm': 5.212357044219971, 'learning_rate': 1.437e-06, 'epoch': 0.89}
+{'loss': 2.9692, 'grad_norm': 10.343843460083008, 'learning_rate': 1.44e-06, 'epoch': 0.89}
+{'loss': 2.9718, 'grad_norm': 5.704240798950195, 'learning_rate': 1.443e-06, 'epoch': 0.89}
+{'loss': 2.9566, 'grad_norm': 5.897530555725098, 'learning_rate': 1.446e-06, 'epoch': 0.89}
+{'loss': 2.9642, 'grad_norm': 6.475763320922852, 'learning_rate': 1.449e-06, 'epoch': 0.89}
+{'loss': 2.9554, 'grad_norm': 12.50463581085205, 'learning_rate': 1.452e-06, 'epoch': 0.9}
+{'loss': 2.9559, 'grad_norm': 9.410432815551758, 'learning_rate': 1.455e-06, 'epoch': 0.9}
+{'loss': 3.0047, 'grad_norm': 5.922210216522217, 'learning_rate': 1.458e-06, 'epoch': 0.9}
+{'loss': 2.9478, 'grad_norm': 4.550955295562744, 'learning_rate': 1.461e-06, 'epoch': 0.9}
+{'loss': 2.9659, 'grad_norm': 4.072491645812988, 'learning_rate': 1.464e-06, 'epoch': 0.9}
+{'loss': 2.9295, 'grad_norm': 5.787655353546143, 'learning_rate': 1.467e-06, 'epoch': 0.9}
+{'loss': 2.9969, 'grad_norm': 6.225001335144043, 'learning_rate': 1.4700000000000001e-06, 'epoch': 0.91}
+{'loss': 2.9654, 'grad_norm': 5.337482452392578, 'learning_rate': 1.473e-06, 'epoch': 0.91}
+{'loss': 2.9851, 'grad_norm': 5.667120456695557, 'learning_rate': 1.4760000000000001e-06, 'epoch': 0.91}
+{'loss': 2.9161, 'grad_norm': 5.20329475402832, 'learning_rate': 1.479e-06, 'epoch': 0.91}
+{'loss': 2.94, 'grad_norm': 8.450933456420898, 'learning_rate': 1.482e-06, 'epoch': 0.91}
+{'loss': 2.9509, 'grad_norm': 4.999294281005859, 'learning_rate': 1.4850000000000002e-06, 'epoch': 0.92}
+{'loss': 2.9833, 'grad_norm': 12.855695724487305, 'learning_rate': 1.488e-06, 'epoch': 0.92}
+{'loss': 2.9338, 'grad_norm': 3.0434823036193848, 'learning_rate': 1.491e-06, 'epoch': 0.92}
+{'loss': 3.0113, 'grad_norm': 7.846760272979736, 'learning_rate': 1.494e-06, 'epoch': 0.92}
+{'loss': 3.0131, 'grad_norm': 7.970994472503662, 'learning_rate': 1.497e-06, 'epoch': 0.92}
+{'loss': 3.1065, 'grad_norm': 5.931797981262207, 'learning_rate': 1.5e-06, 'epoch': 0.93}
+{'loss': 2.9859, 'grad_norm': 5.381325721740723, 'learning_rate': 1.503e-06, 'epoch': 0.93}
+{'loss': 2.964, 'grad_norm': 4.340394020080566, 'learning_rate': 1.506e-06, 'epoch': 0.93}
+{'loss': 2.9981, 'grad_norm': 10.615586280822754, 'learning_rate': 1.5089999999999999e-06, 'epoch': 0.93}
+{'loss': 2.9368, 'grad_norm': 4.364864826202393, 'learning_rate': 1.512e-06, 'epoch': 0.93}
+{'loss': 2.9529, 'grad_norm': 4.9499359130859375, 'learning_rate': 1.5150000000000001e-06, 'epoch': 0.93}
+{'loss': 2.9482, 'grad_norm': 3.906594753265381, 'learning_rate': 1.518e-06, 'epoch': 0.94}
+{'loss': 2.9554, 'grad_norm': 4.437647819519043, 'learning_rate': 1.5210000000000001e-06, 'epoch': 0.94}
+{'loss': 2.9123, 'grad_norm': 3.466791868209839, 'learning_rate': 1.524e-06, 'epoch': 0.94}
+{'loss': 2.9242, 'grad_norm': 4.363769054412842, 'learning_rate': 1.5270000000000002e-06, 'epoch': 0.94}
+{'loss': 2.9258, 'grad_norm': 5.1405863761901855, 'learning_rate': 1.53e-06, 'epoch': 0.94}
+{'loss': 2.9457, 'grad_norm': 4.913668632507324, 'learning_rate': 1.533e-06, 'epoch': 0.95}
+{'loss': 2.9271, 'grad_norm': 6.878814220428467, 'learning_rate': 1.5360000000000002e-06, 'epoch': 0.95}
+{'loss': 2.9196, 'grad_norm': 5.439577102661133, 'learning_rate': 1.539e-06, 'epoch': 0.95}
+{'loss': 2.9413, 'grad_norm': 3.7509171962738037, 'learning_rate': 1.542e-06, 'epoch': 0.95}
+{'loss': 2.9481, 'grad_norm': 6.960578918457031, 'learning_rate': 1.545e-06, 'epoch': 0.95}
+  1%|          | 517/100000 [16:58<44:57:37,  1.63s/it]  1%|          | 518/100000 [16:59<43:02:22,  1.56s/it]                                                         1%|          | 518/100000 [16:59<43:02:22,  1.56s/it]  1%|          | 519/100000 [17:00<42:04:15,  1.52s/it]                                                         1%|          | 519/100000 [17:00<42:04:15,  1.52s/it]  1%|          | 520/100000 [17:02<41:00:33,  1.48s/it]                                                         1%|          | 520/100000 [17:02<41:00:33,  1.48s/it]  1%|          | 521/100000 [17:03<40:02:54,  1.45s/it]                                                         1%|          | 521/100000 [17:03<40:02:54,  1.45s/it]  1%|          | 522/100000 [17:04<39:10:07,  1.42s/it]                                                         1%|          | 522/100000 [17:04<39:10:07,  1.42s/it]  1%|          | 523/100000 [17:06<38:04:35,  1.38s/it]                                                         1%|          | 523/100000 [17:06<38:04:35,  1.38s/it]  1%|          | 524/100000 [17:07<37:29:44,  1.36s/it]                                                         1%|          | 524/100000 [17:07<37:29:44,  1.36s/it]  1%|          | 525/100000 [17:08<36:41:54,  1.33s/it]                                                         1%|          | 525/100000 [17:08<36:41:54,  1.33s/it]  1%|          | 526/100000 [17:10<36:10:28,  1.31s/it]                                                         1%|          | 526/100000 [17:10<36:10:28,  1.31s/it]  1%|          | 527/100000 [17:11<35:42:22,  1.29s/it]                                                         1%|          | 527/100000 [17:11<35:42:22,  1.29s/it]  1%|          | 528/100000 [17:12<35:12:35,  1.27s/it]                                                         1%|          | 528/100000 [17:12<35:12:35,  1.27s/it]  1%|          | 529/100000 [17:13<34:10:55,  1.24s/it]                                                         1%|          | 529/100000 [17:13<34:10:55,  1.24s/it]  1%|          | 530/100000 [17:14<33:28:29,  1.21s/it]                                                         1%|          | 530/100000 [17:14<33:28:29,  1.21s/it]  1%|          | 531/100000 [17:16<33:03:23,  1.20s/it]                                                         1%|          | 531/100000 [17:16<33:03:23,  1.20s/it]  1%|          | 532/100000 [17:17<32:38:33,  1.18s/it]                                                         1%|          | 532/100000 [17:17<32:38:33,  1.18s/it]  1%|          | 533/100000 [17:18<32:06:36,  1.16s/it]                                                         1%|          | 533/100000 [17:18<32:06:36,  1.16s/it]  1%|          | 534/100000 [17:19<31:16:33,  1.13s/it]                                                         1%|          | 534/100000 [17:19<31:16:33,  1.13s/it]  1%|          | 535/100000 [17:20<30:54:25,  1.12s/it]                                                         1%|          | 535/100000 [17:20<30:54:25,  1.12s/it]  1%|          | 536/100000 [17:21<30:16:30,  1.10s/it]                                                         1%|          | 536/100000 [17:21<30:16:30,  1.10s/it]  1%|          | 537/100000 [17:22<29:49:46,  1.08s/it]                                                         1%|          | 537/100000 [17:22<29:49:46,  1.08s/it]  1%|          | 538/100000 [17:23<28:58:03,  1.05s/it]                                                         1%|          | 538/100000 [17:23<28:58:03,  1.05s/it]  1%|          | 539/100000 [17:24<28:18:00,  1.02s/it]                                                         1%|          | 539/100000 [17:24<28:18:00,  1.02s/it]  1%|          | 540/100000 [17:25<27:52:39,  1.01s/it]                                                         1%|          | 540/100000 [17:25<27:52:39,  1.01s/it]  1%|          | 541/100000 [17:26<26:59:03,  1.02it/s]                                                         1%|          | 541/100000 [17:26<26:59:03,  1.02it/s]  1%|          | 542/100000 [17:27<25:25:09,  1.09it/s]                                                         1%|          | 542/100000 [17:27<25:25:09,  1.09it/s]{'loss': 2.9559, 'grad_norm': 7.0822930335998535, 'learning_rate': 1.548e-06, 'epoch': 0.95}
+{'loss': 2.9432, 'grad_norm': 6.05672550201416, 'learning_rate': 1.551e-06, 'epoch': 0.96}
+{'loss': 2.9519, 'grad_norm': 5.092657566070557, 'learning_rate': 1.554e-06, 'epoch': 0.96}
+{'loss': 2.9207, 'grad_norm': 8.910967826843262, 'learning_rate': 1.557e-06, 'epoch': 0.96}
+{'loss': 2.9386, 'grad_norm': 6.184726238250732, 'learning_rate': 1.5599999999999999e-06, 'epoch': 0.96}
+{'loss': 2.9322, 'grad_norm': 7.006811141967773, 'learning_rate': 1.5630000000000001e-06, 'epoch': 0.96}
+{'loss': 2.9562, 'grad_norm': 6.83420467376709, 'learning_rate': 1.5660000000000001e-06, 'epoch': 0.97}
+{'loss': 2.9554, 'grad_norm': 7.393522262573242, 'learning_rate': 1.569e-06, 'epoch': 0.97}
+{'loss': 2.9534, 'grad_norm': 5.073296070098877, 'learning_rate': 1.5720000000000002e-06, 'epoch': 0.97}
+{'loss': 2.9545, 'grad_norm': 6.644114017486572, 'learning_rate': 1.575e-06, 'epoch': 0.97}
+{'loss': 2.934, 'grad_norm': 5.469161510467529, 'learning_rate': 1.578e-06, 'epoch': 0.97}
+{'loss': 2.9644, 'grad_norm': 8.649992942810059, 'learning_rate': 1.581e-06, 'epoch': 0.98}
+{'loss': 2.8967, 'grad_norm': 5.227014064788818, 'learning_rate': 1.584e-06, 'epoch': 0.98}
+{'loss': 2.9356, 'grad_norm': 6.67928409576416, 'learning_rate': 1.5870000000000002e-06, 'epoch': 0.98}
+{'loss': 2.939, 'grad_norm': 6.659364700317383, 'learning_rate': 1.59e-06, 'epoch': 0.98}
+{'loss': 2.9603, 'grad_norm': 9.442721366882324, 'learning_rate': 1.593e-06, 'epoch': 0.98}
+{'loss': 2.9177, 'grad_norm': 6.252249240875244, 'learning_rate': 1.596e-06, 'epoch': 0.98}
+{'loss': 2.9185, 'grad_norm': 6.107838153839111, 'learning_rate': 1.599e-06, 'epoch': 0.99}
+{'loss': 2.9011, 'grad_norm': 8.275815963745117, 'learning_rate': 1.602e-06, 'epoch': 0.99}
+{'loss': 2.9344, 'grad_norm': 5.931856155395508, 'learning_rate': 1.605e-06, 'epoch': 0.99}
+{'loss': 2.8943, 'grad_norm': 7.1943511962890625, 'learning_rate': 1.608e-06, 'epoch': 0.99}
+{'loss': 2.9317, 'grad_norm': 12.691488265991211, 'learning_rate': 1.611e-06, 'epoch': 0.99}
+{'loss': 2.8875, 'grad_norm': 4.4045233726501465, 'learning_rate': 1.6140000000000001e-06, 'epoch': 1.0}
+{'loss': 2.9094, 'grad_norm': 6.350393772125244, 'learning_rate': 1.6170000000000001e-06, 'epoch': 1.0}
+{'loss': 2.944, 'grad_norm': 6.049736499786377, 'learning_rate': 1.62e-06, 'epoch': 1.0}
+{'loss': 1.4558, 'grad_norm': 4.06985330581665, 'learning_rate': 1.6230000000000002e-06, 'epoch': 1.0}
+  1%|          | 543/100000 [17:45<165:55:11,  6.01s/it]                                                          1%|          | 543/100000 [17:45<165:55:11,  6.01s/it]  1%|          | 544/100000 [17:50<164:37:34,  5.96s/it]                                                          1%|          | 544/100000 [17:50<164:37:34,  5.96s/it]  1%|          | 545/100000 [17:55<153:03:32,  5.54s/it]                                                          1%|          | 545/100000 [17:55<153:03:32,  5.54s/it]  1%|          | 546/100000 [17:59<141:04:36,  5.11s/it]                                                          1%|          | 546/100000 [17:59<141:04:36,  5.11s/it]  1%|          | 547/100000 [18:03<128:11:03,  4.64s/it]                                                          1%|          | 547/100000 [18:03<128:11:03,  4.64s/it]  1%|          | 548/100000 [18:06<116:32:45,  4.22s/it]                                                          1%|          | 548/100000 [18:06<116:32:45,  4.22s/it]  1%|          | 549/100000 [18:09<106:00:59,  3.84s/it]                                                          1%|          | 549/100000 [18:09<106:00:59,  3.84s/it]  1%|          | 550/100000 [18:11<96:23:38,  3.49s/it]                                                          1%|          | 550/100000 [18:11<96:23:38,  3.49s/it]  1%|          | 551/100000 [18:14<87:57:52,  3.18s/it]                                                         1%|          | 551/100000 [18:14<87:57:52,  3.18s/it]  1%|          | 552/100000 [18:16<80:53:32,  2.93s/it]                                                         1%|          | 552/100000 [18:16<80:53:32,  2.93s/it]  1%|          | 553/100000 [18:18<74:29:36,  2.70s/it]                                                         1%|          | 553/100000 [18:18<74:29:36,  2.70s/it]  1%|          | 554/100000 [18:20<69:09:31,  2.50s/it]                                                         1%|          | 554/100000 [18:20<69:09:31,  2.50s/it]  1%|          | 555/100000 [18:22<64:42:13,  2.34s/it]                                                         1%|          | 555/100000 [18:22<64:42:13,  2.34s/it]  1%|          | 556/100000 [18:24<60:00:48,  2.17s/it]                                                         1%|          | 556/100000 [18:24<60:00:48,  2.17s/it]  1%|          | 557/100000 [18:26<56:05:08,  2.03s/it]                                                         1%|          | 557/100000 [18:26<56:05:08,  2.03s/it]  1%|          | 558/100000 [18:28<53:16:10,  1.93s/it]                                                         1%|          | 558/100000 [18:28<53:16:10,  1.93s/it]  1%|          | 559/100000 [18:29<50:54:14,  1.84s/it]                                                         1%|          | 559/100000 [18:29<50:54:14,  1.84s/it]  1%|          | 560/100000 [18:31<48:26:09,  1.75s/it]                                                         1%|          | 560/100000 [18:31<48:26:09,  1.75s/it]  1%|          | 561/100000 [18:32<46:19:39,  1.68s/it]                                                         1%|          | 561/100000 [18:32<46:19:39,  1.68s/it]  1%|          | 562/100000 [18:34<44:54:12,  1.63s/it]                                                         1%|          | 562/100000 [18:34<44:54:12,  1.63s/it]  1%|          | 563/100000 [18:35<43:36:41,  1.58s/it]                                                         1%|          | 563/100000 [18:35<43:36:41,  1.58s/it]  1%|          | 564/100000 [18:37<42:28:55,  1.54s/it]                                                         1%|          | 564/100000 [18:37<42:28:55,  1.54s/it]  1%|          | 565/100000 [18:38<41:36:36,  1.51s/it]                                                         1%|          | 565/100000 [18:38<41:36:36,  1.51s/it]  1%|          | 566/100000 [18:39<40:27:03,  1.46s/it]                                                         1%|          | 566/100000 [18:40<40:27:03,  1.46s/it]  1%|          | 567/100000 [18:41<39:32:15,  1.43s/it]                                                         1%|          | 567/100000 [18:41<39:32:15,  1.43s/it]  1%|          | 568/100000 [18:42<38:56:53,  1.41s/it]                                                         1%|          | 568/100000 [18:42<38:56:53,  1.41s/it]  1%|          | 569/100000 [18:44<38:18:41,  1.39s/it]                                                         1%|          | 569/100000 [18:44<38:18:41,  1.39s/it]  1%|          | 570/100000 [18:45<37:53:19,  1.37s/it]                                                         1%|          | 570/100000 [18:45<37:53:19,  1.37s/it]  1%|          | 571/100000 [18:46<37:05:50,  1.34s/it]                                                         1%|          | 571/100000 [18:46<37:05:50,  1.34s/it]  1%|          | 572/100000 [18:47<36:35:10,  1.32s/it]                                                         1%|          | 572/100000 [18:47<36:35:10,  1.32s/it]  1%|          | 573/100000 [18:49<35:48:37,  1.30s/it]                                                         1%|          | 573/100000 [18:49<35:48:37,  1.30s/it]  1%|          | 574/100000 [18:50<35:25:01,  1.28s/it]                                                         1%|          | 574/100000 [18:50<35:25:01,  1.28s/it]  1%|          | 575/100000 [18:51<36:24:24,  1.32s/it]                                                         1%|          | 575/100000 [18:51<36:24:24,  1.32s/it]  1%|          | 576/100000 [18:52<35:06:01,  1.27s/it]                                                         1%|          | 576/100000 [18:52<35:06:01,  1.27s/it]  1%|          | 577/100000 [18:54<34:20:04,  1.24s/it]                                                         1%|          | 577/100000 [18:54<34:20:04,  1.24s/it]  1%|          | 578/100000 [18:55<33:41:13,  1.22s/it]                                                         1%|          | 578/100000 [18:55<33:41:13,  1.22s/it]  1%|          | 579/100000 [18:56<33:09:25,  1.20s/it]                                                         1%|          | 579/100000 [18:56<33:09:25,  1.20s/it]  1%|          | 580/100000 [18:57<32:26:32,  1.17s/it]                                                         1%|          | 580/100000 [18:57<32:26:32,  1.17s/it]  1%|          | 581/100000 [18:58<31:50:29,  1.15s/it]                                                         1%|          | 581/100000 [18:58<31:50:29,  1.15s/it]  1%|          | 582/100000 [18:59<31:19:42,  1.13s/it]                                                         1%|          | 582/100000 [18:59<31:19:42,  1.13s/it]  1%|          | 583/100000 [19:00<30:32:03,  1.11s/it]                                                         1%|          | 583/100000 [19:00<30:32:03,  1.11s/it]  1%|          | 584/100000 [19:01<30:15:34,  1.10s/it]                                                         1%|          | 584/100000 [19:01<30:15:34,  1.10s/it]  1%|          | 585/100000 [19:02<29:56:25,  1.08s/it]                                                         1%|          | 585/100000 [19:02<29:56:25,  1.08s/it]  1%|          | 586/100000 [19:03<29:39:10,  1.07s/it]                                                         1%|          | 586/100000 [19:03<29:39:10,  1.07s/it]  1%|          | 587/100000 [19:04<28:59:21,  1.05s/it]                                                         1%|          | 587/100000 [19:04<28:59:21,  1.05s/it]  1%|          | 588/100000 [19:05<28:39:01,  1.04s/it]                                                         1%|          | 588/100000 [19:06<28:39:01,  1.04s/it]  1%|          | 589/100000 [19:06<28:11:45,  1.02s/it]                                                         1%|          | 589/100000 [19:06<28:11:45,  1.02s/it]  1%|          | 590/100000 [19:07<27:55:26,  1.01s/it]                                                         1%|          | 590/100000 [19:07<27:55:26,  1.01s/it]  1%|          | 591/100000 [19:08<27:37:30,  1.00s/it]                                                         1%|          | 591/100000 [19:08<27:37:30,  1.00s/it]  1%|          | 592/100000 [19:09<26:27:47,  1.04it/s]                                                         1%|          | 592/100000 [19:09<26:27:47,  1.04it/s]  1%|          | 593/100000 [19:20<107:53:39,  3.91s/it]                                                          1%|          | 593/100000 [19:20<107:53:39,  3.91s/it]  1%|          | 594/100000 [19:26<122:48:26,  4.45s/it]                                                          1%|          | 594/100000 [19:26<122:48:26,  4.45s/it]  1%|          | 595/100000 [19:30<124:10:45,  4.50s/it]                                                          1%|          | 595/100000 [19:30<124:10:45,  4.50s/it]  1%|          | 596/100000 [19:34<119:20:33,  4.32s/it]                                                          1%|          | 596/100000 [19:34<119:20:33,  4.32s/it]  1%|          | 597/100000 [19:38<111:54:10,  4.05s/it]                                                          1%|          | 597/100000 [19:38<111:54:10,  4.05s/it]  1%|          | 598/100000 [19:41<105:27:15,  3.82s/it]                                                          1%|          | 598/100000 [19:41<105:27:15,  3.82s/it]  1%|          | 599/100000 [19:44<98:31:07,  3.57s/it]                                                          1%|          | 599/100000 [19:44<98:31:07,  3.57s/it]  1%|          | 600/100000 [19:47<91:48:35,  3.33s/it]                                                         1%|          | 600/100000 [19:47<91:48:35,  3.33s/it]  1%|          | 601/100000 [19:49<85:05:33,  3.08s/it]                                                         1%|          | 601/100000 [19:49<85:05:33,  3.08s/it]  1%|          | 602/100000 [19:52<78:46:06,  2.85s/it]                                                         1%|          | 602/100000 [19:52<78:46:06,  2.85s/it]  1%|          | 603/100000 [19:54<73:11:01,  2.65s/it]                                                         1%|          | 603/100000 [19:54<73:11:01,  2.65s/it]  1%|          | 604/100000 [19:56<68:07:13,  2.47s/it]                                                         1%|          | 604/100000 [19:56<68:07:13,  2.47s/it]  1%|          | 605/100000 [19:58<63:14:14,  2.29s/it]                                                         1%|          | 605/100000 [19:58<63:14:14,  2.29s/it]  1%|          | 606/100000 [20:00<59:16:28,  2.15s/it]                                                         1%|          | 606/100000 [20:00<59:16:28,  2.15s/it]  1%|          | 607/100000 [20:01<55:45:20,  2.02s/it]                                                         1%|          | 607/100000 [20:01<55:45:20,  2.02s/it]  1%|          | 608/100000 [20:03<52:54:44,  1.92s/it]                                                         1%|          | 608/100000 [20:03<52:54:44,  1.92s/it]  1%|          | 609/100000 [20:04<50:13:07,  1.82s/it]                                                         1%|          | 609/100000 [20:05<50:13:07,  1.82s/it]  1%|          | 610/100000 [20:06<47:44:20,  1.73s/it]                                                         1%|          | 610/100000 [20:06<47:44:20,  1.73s/it]  1%|          | 611/100000 [20:08<45:53:11,  1.66s/it]                                                         1%|          | 611/100000 [20:08<45:53:11,  1.66s/it]  1%|          | 612/100000 [20:09<44:15:54,  1.60s/it]                                                         1%|          | 612/100000 [20:09<44:15:54,  1.60s/it]  1%|          | 613/100000 [20:10<43:01:53,  1.56s/it]                                                         1%|          | 613/100000 [20:10<43:01:53,  1.56s/it]  1%|          | 614/100000 [20:12<41:48:36,  1.51s/it]                                                         1%|          | 614/100000 [20:12<41:48:36,  1.51s/it]  1%|          | 615/100000 [20:13<40:33:35,  1.47s/it]                                                         1%|          | 615/100000 [20:13<40:33:35,  1.47s/it]  1%|          | 616/100000 [20:15<39:49:37,  1.44s/it]                                                         1%|          | 616/100000 [20:15<39:49:37,  1.44s/it]  1%|          | 617/100000 [20:16<38:33:50,  1.40s/it]                                                         1%|          | 617/100000 [20:16<38:33:50,  1.40s/it]  1%|          | 618/100000 [20:17<37:58:11,  1.38s/it]                                                         1%|          | 618/100000 [20:17<37:58:11,  1.38s/it]  1%|          | 619/100000 [20:18<37:13:27,  1.35s/it]                                                         1%|          | 619/100000 [20:19<37:13:27,  1.35s/it]  1%|          | 620/100000 [20:20<36:39:02,  1.33s/it]                                                         1%|          | 620/100000 [20:20<36:39:02,  1.33s/it]  1%|          | 621/100000 [20:21<36:12:04,  1.31s/it]                                                         1%|          | 621/100000 [20:21<36:12:04,  1.31s/it]  1%|          | 622/100000 [20:22<35:50:12,  1.30s/it]                                                         1%|          | 622/100000 [20:22<35:50:12,  1.30s/it]  1%|          | 623/100000 [20:24<35:32:01,  1.29s/it]                                                         1%|          | 623/100000 [20:24<35:32:01,  1.29s/it]  1%|          | 624/100000 [20:25<35:04:27,  1.27s/it]                                                         1%|          | 624/100000 [20:25<35:04:27,  1.27s/it]  1%|          | 625/100000 [20:26<34:43:27,  1.26s/it]                                                         1%|          | 625/100000 [20:26<34:43:27,  1.26s/it]  1%|          | 626/100000 [20:27<33:53:41,  1.23s/it]                                                         1%|          | 626/100000 [20:27<33:53:41,  1.23s/it]  1%|          | 627/100000 [20:28<33:22:45,  1.21s/it]                                                         1%|          | 627/100000 [20:28<33:22:45,  1.21s/it]  1%|          | 628/100000 [20:29<32:41:46,  1.18s/it]                                                       {'loss': 3.0718, 'grad_norm': 12.09255599975586, 'learning_rate': 1.626e-06, 'epoch': 1.0}
+{'loss': 3.0656, 'grad_norm': 9.780098915100098, 'learning_rate': 1.629e-06, 'epoch': 1.0}
+{'loss': 3.0008, 'grad_norm': 5.1886467933654785, 'learning_rate': 1.632e-06, 'epoch': 1.01}
+{'loss': 2.9359, 'grad_norm': 4.111461162567139, 'learning_rate': 1.635e-06, 'epoch': 1.01}
+{'loss': 2.9783, 'grad_norm': 5.650781154632568, 'learning_rate': 1.638e-06, 'epoch': 1.01}
+{'loss': 3.0137, 'grad_norm': 7.087272644042969, 'learning_rate': 1.641e-06, 'epoch': 1.01}
+{'loss': 2.9767, 'grad_norm': 6.621068477630615, 'learning_rate': 1.644e-06, 'epoch': 1.01}
+{'loss': 2.948, 'grad_norm': 4.337469100952148, 'learning_rate': 1.6469999999999999e-06, 'epoch': 1.01}
+{'loss': 2.9006, 'grad_norm': 3.3184478282928467, 'learning_rate': 1.65e-06, 'epoch': 1.02}
+{'loss': 2.9339, 'grad_norm': 3.802716016769409, 'learning_rate': 1.653e-06, 'epoch': 1.02}
+{'loss': 2.9551, 'grad_norm': 5.8885297775268555, 'learning_rate': 1.6560000000000001e-06, 'epoch': 1.02}
+{'loss': 2.9743, 'grad_norm': 10.987329483032227, 'learning_rate': 1.6590000000000001e-06, 'epoch': 1.02}
+{'loss': 2.9448, 'grad_norm': 8.780963897705078, 'learning_rate': 1.662e-06, 'epoch': 1.02}
+{'loss': 2.971, 'grad_norm': 10.191997528076172, 'learning_rate': 1.6650000000000002e-06, 'epoch': 1.03}
+{'loss': 2.8992, 'grad_norm': 6.121068954467773, 'learning_rate': 1.668e-06, 'epoch': 1.03}
+{'loss': 2.915, 'grad_norm': 5.866390228271484, 'learning_rate': 1.671e-06, 'epoch': 1.03}
+{'loss': 2.9023, 'grad_norm': 4.83311653137207, 'learning_rate': 1.6740000000000002e-06, 'epoch': 1.03}
+{'loss': 2.938, 'grad_norm': 12.177200317382812, 'learning_rate': 1.677e-06, 'epoch': 1.03}
+{'loss': 2.9344, 'grad_norm': 11.86186695098877, 'learning_rate': 1.68e-06, 'epoch': 1.04}
+{'loss': 2.9468, 'grad_norm': 8.23930835723877, 'learning_rate': 1.683e-06, 'epoch': 1.04}
+{'loss': 2.8912, 'grad_norm': 5.7900166511535645, 'learning_rate': 1.686e-06, 'epoch': 1.04}
+{'loss': 2.8847, 'grad_norm': 9.679719924926758, 'learning_rate': 1.689e-06, 'epoch': 1.04}
+{'loss': 2.9201, 'grad_norm': 4.417483806610107, 'learning_rate': 1.692e-06, 'epoch': 1.04}
+{'loss': 2.9109, 'grad_norm': 11.755255699157715, 'learning_rate': 1.695e-06, 'epoch': 1.04}
+{'loss': 2.8868, 'grad_norm': 6.306344985961914, 'learning_rate': 1.6979999999999999e-06, 'epoch': 1.05}
+{'loss': 2.9801, 'grad_norm': 7.374333381652832, 'learning_rate': 1.701e-06, 'epoch': 1.05}
+{'loss': 2.9041, 'grad_norm': 9.103034973144531, 'learning_rate': 1.7040000000000001e-06, 'epoch': 1.05}
+{'loss': 2.9199, 'grad_norm': 6.525115013122559, 'learning_rate': 1.707e-06, 'epoch': 1.05}
+{'loss': 2.9292, 'grad_norm': 5.839273452758789, 'learning_rate': 1.7100000000000001e-06, 'epoch': 1.05}
+{'loss': 2.92, 'grad_norm': 7.118470668792725, 'learning_rate': 1.713e-06, 'epoch': 1.06}
+{'loss': 2.8916, 'grad_norm': 7.868495464324951, 'learning_rate': 1.7160000000000002e-06, 'epoch': 1.06}
+{'loss': 2.9395, 'grad_norm': 14.98963737487793, 'learning_rate': 1.719e-06, 'epoch': 1.06}
+{'loss': 2.9224, 'grad_norm': 6.7287774085998535, 'learning_rate': 1.722e-06, 'epoch': 1.06}
+{'loss': 2.932, 'grad_norm': 6.143113613128662, 'learning_rate': 1.7250000000000002e-06, 'epoch': 1.06}
+{'loss': 2.8912, 'grad_norm': 5.883518695831299, 'learning_rate': 1.728e-06, 'epoch': 1.06}
+{'loss': 2.9304, 'grad_norm': 6.572492599487305, 'learning_rate': 1.731e-06, 'epoch': 1.07}
+{'loss': 2.8974, 'grad_norm': 8.820541381835938, 'learning_rate': 1.734e-06, 'epoch': 1.07}
+{'loss': 2.9745, 'grad_norm': 8.882281303405762, 'learning_rate': 1.737e-06, 'epoch': 1.07}
+{'loss': 2.9035, 'grad_norm': 14.256232261657715, 'learning_rate': 1.74e-06, 'epoch': 1.07}
+{'loss': 2.8644, 'grad_norm': 7.182823181152344, 'learning_rate': 1.743e-06, 'epoch': 1.07}
+{'loss': 2.8771, 'grad_norm': 7.0797600746154785, 'learning_rate': 1.746e-06, 'epoch': 1.08}
+{'loss': 2.9435, 'grad_norm': 11.359004974365234, 'learning_rate': 1.749e-06, 'epoch': 1.08}
+{'loss': 2.9306, 'grad_norm': 21.062517166137695, 'learning_rate': 1.7520000000000001e-06, 'epoch': 1.08}
+{'loss': 2.9346, 'grad_norm': 10.017592430114746, 'learning_rate': 1.7550000000000001e-06, 'epoch': 1.08}
+{'loss': 2.8635, 'grad_norm': nan, 'learning_rate': 1.7550000000000001e-06, 'epoch': 1.08}
+{'loss': 2.9339, 'grad_norm': 8.263057708740234, 'learning_rate': 1.758e-06, 'epoch': 1.08}
+{'loss': 2.8913, 'grad_norm': 6.318991661071777, 'learning_rate': 1.7610000000000002e-06, 'epoch': 1.09}
+{'loss': 2.8813, 'grad_norm': 5.331015110015869, 'learning_rate': 1.764e-06, 'epoch': 1.09}
+{'loss': 2.9171, 'grad_norm': 7.7847089767456055, 'learning_rate': 1.767e-06, 'epoch': 1.09}
+{'loss': 2.8977, 'grad_norm': 4.977515697479248, 'learning_rate': 1.77e-06, 'epoch': 1.09}
+{'loss': 3.0373, 'grad_norm': 5.907567024230957, 'learning_rate': 1.773e-06, 'epoch': 1.09}
+{'loss': 2.9802, 'grad_norm': 4.246371269226074, 'learning_rate': 1.776e-06, 'epoch': 1.1}
+{'loss': 2.9497, 'grad_norm': 3.133854389190674, 'learning_rate': 1.779e-06, 'epoch': 1.1}
+{'loss': 2.9732, 'grad_norm': 3.6142194271087646, 'learning_rate': 1.782e-06, 'epoch': 1.1}
+{'loss': 2.934, 'grad_norm': 3.5081558227539062, 'learning_rate': 1.785e-06, 'epoch': 1.1}
+{'loss': 2.9035, 'grad_norm': 5.0536956787109375, 'learning_rate': 1.788e-06, 'epoch': 1.1}
+{'loss': 2.9239, 'grad_norm': 6.321654796600342, 'learning_rate': 1.791e-06, 'epoch': 1.11}
+{'loss': 2.9125, 'grad_norm': 6.200789451599121, 'learning_rate': 1.794e-06, 'epoch': 1.11}
+{'loss': 2.9131, 'grad_norm': 12.870471954345703, 'learning_rate': 1.7970000000000001e-06, 'epoch': 1.11}
+{'loss': 2.9016, 'grad_norm': 4.161349296569824, 'learning_rate': 1.8e-06, 'epoch': 1.11}
+{'loss': 2.9012, 'grad_norm': 7.384085655212402, 'learning_rate': 1.8030000000000001e-06, 'epoch': 1.11}
+{'loss': 2.9031, 'grad_norm': 5.1679840087890625, 'learning_rate': 1.806e-06, 'epoch': 1.11}
+{'loss': 2.8899, 'grad_norm': 5.276459693908691, 'learning_rate': 1.809e-06, 'epoch': 1.12}
+{'loss': 2.8708, 'grad_norm': 5.313704967498779, 'learning_rate': 1.8120000000000002e-06, 'epoch': 1.12}
+{'loss': 2.9006, 'grad_norm': 5.521195888519287, 'learning_rate': 1.815e-06, 'epoch': 1.12}
+{'loss': 2.905, 'grad_norm': 8.239352226257324, 'learning_rate': 1.818e-06, 'epoch': 1.12}
+{'loss': 2.8871, 'grad_norm': 5.124113082885742, 'learning_rate': 1.821e-06, 'epoch': 1.12}
+{'loss': 2.8934, 'grad_norm': 4.876293659210205, 'learning_rate': 1.824e-06, 'epoch': 1.13}
+{'loss': 2.9043, 'grad_norm': 10.052160263061523, 'learning_rate': 1.827e-06, 'epoch': 1.13}
+{'loss': 2.9086, 'grad_norm': 8.201723098754883, 'learning_rate': 1.83e-06, 'epoch': 1.13}
+{'loss': 2.8758, 'grad_norm': 4.239204406738281, 'learning_rate': 1.833e-06, 'epoch': 1.13}
+{'loss': 2.8823, 'grad_norm': 5.192922592163086, 'learning_rate': 1.8359999999999999e-06, 'epoch': 1.13}
+{'loss': 2.8688, 'grad_norm': 8.6290864944458, 'learning_rate': 1.839e-06, 'epoch': 1.13}
+{'loss': 2.8978, 'grad_norm': 6.887111663818359, 'learning_rate': 1.8420000000000001e-06, 'epoch': 1.14}
+{'loss': 2.8983, 'grad_norm': 4.787206172943115, 'learning_rate': 1.8450000000000001e-06, 'epoch': 1.14}
+{'loss': 2.9018, 'grad_norm': 10.718205451965332, 'learning_rate': 1.8480000000000001e-06, 'epoch': 1.14}
+{'loss': 2.8909, 'grad_norm': 6.42782735824585, 'learning_rate': 1.851e-06, 'epoch': 1.14}
+{'loss': 2.9127, 'grad_norm': 7.556795120239258, 'learning_rate': 1.8540000000000002e-06, 'epoch': 1.14}
+{'loss': 2.885, 'grad_norm': 9.342985153198242, 'learning_rate': 1.857e-06, 'epoch': 1.15}
+{'loss': 2.8918, 'grad_norm': 9.603569984436035, 'learning_rate': 1.86e-06, 'epoch': 1.15}
+{'loss': 2.8943, 'grad_norm': 15.569653511047363, 'learning_rate': 1.8630000000000002e-06, 'epoch': 1.15}
+{'loss': 2.889, 'grad_norm': 8.585500717163086, 'learning_rate': 1.866e-06, 'epoch': 1.15}
+{'loss': 2.8983, 'grad_norm': 4.9472150802612305, 'learning_rate': 1.869e-06, 'epoch': 1.15}
+{'loss': 2.8734, 'grad_norm': 14.335213661193848, 'learning_rate': 1.872e-06, 'epoch': 1.16}
+{'loss': 2.9226, 'grad_norm': 10.756952285766602, 'learning_rate': 1.875e-06, 'epoch': 1.16}
+{'loss': 2.8554, 'grad_norm': 5.745858192443848, 'learning_rate': 1.878e-06, 'epoch': 1.16}
+  1%|          | 628/100000 [20:29<32:41:46,  1.18s/it]  1%|          | 629/100000 [20:31<32:21:05,  1.17s/it]                                                         1%|          | 629/100000 [20:31<32:21:05,  1.17s/it]  1%|          | 630/100000 [20:32<31:52:42,  1.15s/it]                                                         1%|          | 630/100000 [20:32<31:52:42,  1.15s/it]  1%|          | 631/100000 [20:33<31:07:43,  1.13s/it]                                                         1%|          | 631/100000 [20:33<31:07:43,  1.13s/it]  1%|          | 632/100000 [20:34<30:47:12,  1.12s/it]                                                         1%|          | 632/100000 [20:34<30:47:12,  1.12s/it]  1%|          | 633/100000 [20:35<30:24:07,  1.10s/it]                                                         1%|          | 633/100000 [20:35<30:24:07,  1.10s/it]  1%|          | 634/100000 [20:36<30:12:54,  1.09s/it]                                                         1%|          | 634/100000 [20:36<30:12:54,  1.09s/it]  1%|          | 635/100000 [20:37<29:31:23,  1.07s/it]                                                         1%|          | 635/100000 [20:37<29:31:23,  1.07s/it]  1%|          | 636/100000 [20:38<29:03:14,  1.05s/it]                                                         1%|          | 636/100000 [20:38<29:03:14,  1.05s/it]  1%|          | 637/100000 [20:39<28:32:38,  1.03s/it]                                                         1%|          | 637/100000 [20:39<28:32:38,  1.03s/it]  1%|          | 638/100000 [20:40<28:24:44,  1.03s/it]                                                         1%|          | 638/100000 [20:40<28:24:44,  1.03s/it]  1%|          | 639/100000 [20:41<27:54:45,  1.01s/it]                                                         1%|          | 639/100000 [20:41<27:54:45,  1.01s/it]  1%|          | 640/100000 [20:42<27:37:11,  1.00s/it]                                                         1%|          | 640/100000 [20:42<27:37:11,  1.00s/it]  1%|          | 641/100000 [20:43<27:18:11,  1.01it/s]                                                         1%|          | 641/100000 [20:43<27:18:11,  1.01it/s]  1%|          | 642/100000 [20:44<26:49:47,  1.03it/s]                                                         1%|          | 642/100000 [20:44<26:49:47,  1.03it/s]  1%|          | 643/100000 [20:56<121:58:44,  4.42s/it]                                                          1%|          | 643/100000 [20:56<121:58:44,  4.42s/it]  1%|          | 644/100000 [21:02<135:15:45,  4.90s/it]                                                          1%|          | 644/100000 [21:02<135:15:45,  4.90s/it]  1%|          | 645/100000 [21:07<134:42:04,  4.88s/it]                                                          1%|          | 645/100000 [21:07<134:42:04,  4.88s/it]  1%|          | 646/100000 [21:11<128:24:14,  4.65s/it]                                                          1%|          | 646/100000 [21:11<128:24:14,  4.65s/it]  1%|          | 647/100000 [21:15<120:30:05,  4.37s/it]                                                          1%|          | 647/100000 [21:15<120:30:05,  4.37s/it]  1%|          | 648/100000 [21:18<111:17:50,  4.03s/it]                                                          1%|          | 648/100000 [21:18<111:17:50,  4.03s/it]  1%|          | 649/100000 [21:21<103:33:06,  3.75s/it]                                                          1%|          | 649/100000 [21:21<103:33:06,  3.75s/it]  1%|          | 650/100000 [21:24<96:33:02,  3.50s/it]                                                          1%|          | 650/100000 [21:24<96:33:02,  3.50s/it]  1%|          | 651/100000 [21:27<89:44:04,  3.25s/it]                                                         1%|          | 651/100000 [21:27<89:44:04,  3.25s/it]  1%|          | 652/100000 [21:29<82:54:28,  3.00s/it]                                                         1%|          | 652/100000 [21:29<82:54:28,  3.00s/it]  1%|          | 653/100000 [21:32<76:44:40,  2.78s/it]                                                         1%|          | 653/100000 [21:32<76:44:40,  2.78s/it]  1%|          | 654/100000 [21:34<71:12:54,  2.58s/it]                                                         1%|          | 654/100000 [21:34<71:12:54,  2.58s/it]  1%|          | 655/100000 [21:36<66:31:13,  2.41s/it]                                                         1%|          | 655/100000 [21:36<66:31:13,  2.41s/it]  1%|          | 656/100000 [21:38<62:11:48,  2.25s/it]                                                         1%|          | 656/100000 [21:38<62:11:48,  2.25s/it]  1%|          | 657/100000 [21:39<57:56:42,  2.10s/it]                                                         1%|          | 657/100000 [21:39<57:56:42,  2.10s/it]  1%|          | 658/100000 [21:41<54:58:34,  1.99s/it]                                                         1%|          | 658/100000 [21:41<54:58:34,  1.99s/it]  1%|          | 659/100000 [21:43<52:26:10,  1.90s/it]                                                         1%|          | 659/100000 [21:43<52:26:10,  1.90s/it]  1%|          | 660/100000 [21:45<50:16:01,  1.82s/it]                                                         1%|          | 660/100000 [21:45<50:16:01,  1.82s/it]  1%|          | 661/100000 [21:46<47:59:56,  1.74s/it]                                                         1%|          | 661/100000 [21:46<47:59:56,  1.74s/it]  1%|          | 662/100000 [21:48<46:31:03,  1.69s/it]                                                         1%|          | 662/100000 [21:48<46:31:03,  1.69s/it]  1%|          | 663/100000 [21:49<45:00:04,  1.63s/it]                                                         1%|          | 663/100000 [21:49<45:00:04,  1.63s/it]  1%|          | 664/100000 [21:51<43:37:16,  1.58s/it]                                                         1%|          | 664/100000 [21:51<43:37:16,  1.58s/it]  1%|          | 665/100000 [21:52<42:31:03,  1.54s/it]                                                         1%|          | 665/100000 [21:52<42:31:03,  1.54s/it]  1%|          | 666/100000 [21:53<41:33:48,  1.51s/it]                                                         1%|          | 666/100000 [21:53<41:33:48,  1.51s/it]  1%|          | 667/100000 [21:55<40:34:51,  1.47s/it]                                                         1%|          | 667/100000 [21:55<40:34:51,  1.47s/it]  1%|          | 668/100000 [21:56<39:47:17,  1.44s/it]                                                         1%|          | 668/100000 [21:56<39:47:17,  1.44s/it]  1%|          | 669/100000 [21:58<39:02:44,  1.42s/it]                                                         1%|          | 669/100000 [21:58<39:02:44,  1.42s/it]  1%|          | 670/100000 [21:59<38:21:20,  1.39s/it]                                                         1%|          | 670/100000 [21:59<38:21:20,  1.39s/it]  1%|          | 671/100000 [22:00<37:42:32,  1.37s/it]                                                         1%|          | 671/100000 [22:00<37:42:32,  1.37s/it]  1%|          | 672/100000 [22:02<37:10:52,  1.35s/it]                                                         1%|          | 672/100000 [22:02<37:10:52,  1.35s/it]  1%|          | 673/100000 [22:03<36:38:46,  1.33s/it]                                                         1%|          | 673/100000 [22:03<36:38:46,  1.33s/it]  1%|          | 674/100000 [22:04<35:51:00,  1.30s/it]                                                         1%|          | 674/100000 [22:04<35:51:00,  1.30s/it]  1%|          | 675/100000 [22:05<35:18:35,  1.28s/it]                                                         1%|          | 675/100000 [22:05<35:18:35,  1.28s/it]  1%|          | 676/100000 [22:06<34:57:03,  1.27s/it]                                                         1%|          | 676/100000 [22:07<34:57:03,  1.27s/it]  1%|          | 677/100000 [22:08<34:06:33,  1.24s/it]                                                         1%|          | 677/100000 [22:08<34:06:33,  1.24s/it]  1%|          | 678/100000 [22:09<33:38:52,  1.22s/it]                                                         1%|          | 678/100000 [22:09<33:38:52,  1.22s/it]  1%|          | 679/100000 [22:10<33:02:08,  1.20s/it]                                                         1%|          | 679/100000 [22:10<33:02:08,  1.20s/it]  1%|          | 680/100000 [22:11<32:40:57,  1.18s/it]                                                         1%|          | 680/100000 [22:11<32:40:57,  1.18s/it]  1%|          | 681/100000 [22:12<31:58:18,  1.16s/it]                                                         1%|          | 681/100000 [22:12<31:58:18,  1.16s/it]  1%|          | 682/100000 [22:13<31:33:08,  1.14s/it]                                                         1%|          | 682/100000 [22:13<31:33:08,  1.14s/it]  1%|          | 683/100000 [22:14<31:15:36,  1.13s/it]                                                         1%|          | 683/100000 [22:14<31:15:36,  1.13s/it]  1%|          | 684/100000 [22:16<30:55:20,  1.12s/it]                                                         1%|          | 684/100000 [22:16<30:55:20,  1.12s/it]  1%|          | 685/100000 [22:17<30:22:03,  1.10s/it]                                                         1%|          | 685/100000 [22:17<30:22:03,  1.10s/it]  1%|          | 686/100000 [22:18<29:59:43,  1.09s/it]                                                         1%|          | 686/100000 [22:18<29:59:43,  1.09s/it]  1%|          | 687/100000 [22:19<29:32:49,  1.07s/it]                                                         1%|          | 687/100000 [22:19<29:32:49,  1.07s/it]  1%|          | 688/100000 [22:20<28:49:04,  1.04s/it]                                                         1%|          | 688/100000 [22:20<28:49:04,  1.04s/it]  1%|          | 689/100000 [22:21<28:19:32,  1.03s/it]                                                         1%|          | 689/100000 [22:21<28:19:32,  1.03s/it]  1%|          | 690/100000 [22:22<27:42:19,  1.00s/it]                                                         1%|          | 690/100000 [22:22<27:42:19,  1.00s/it]  1%|          | 691/100000 [22:23<27:00:34,  1.02it/s]                                                         1%|          | 691/100000 [22:23<27:00:34,  1.02it/s]  1%|          | 692/100000 [22:23<26:19:23,  1.05it/s]                                                         1%|          | 692/100000 [22:23<26:19:23,  1.05it/s]  1%|          | 693/100000 [22:36<118:53:14,  4.31s/it]                                                          1%|          | 693/100000 [22:36<118:53:14,  4.31s/it]  1%|          | 694/100000 [22:42<132:35:41,  4.81s/it]                                                          1%|          | 694/100000 [22:42<132:35:41,  4.81s/it]  1%|          | 695/100000 [22:46<131:32:49,  4.77s/it]                                                          1%|          | 695/100000 [22:46<131:32:49,  4.77s/it]  1%|          | 696/100000 [22:50<125:03:39,  4.53s/it]                                                          1%|          | 696/100000 [22:50<125:03:39,  4.53s/it]  1%|          | 697/100000 [22:54<116:48:08,  4.23s/it]                                                          1%|          | 697/100000 [22:54<116:48:08,  4.23s/it]  1%|          | 698/100000 [22:57<108:04:50,  3.92s/it]                                                          1%|          | 698/100000 [22:57<108:04:50,  3.92s/it]  1%|          | 699/100000 [23:00<100:31:07,  3.64s/it]                                                          1%|          | 699/100000 [23:00<100:31:07,  3.64s/it]  1%|          | 700/100000 [23:03<92:43:30,  3.36s/it]                                                          1%|          | 700/100000 [23:03<92:43:30,  3.36s/it]  1%|          | 701/100000 [23:05<85:32:35,  3.10s/it]                                                         1%|          | 701/100000 [23:05<85:32:35,  3.10s/it]  1%|          | 702/100000 [23:07<77:57:38,  2.83s/it]                                                         1%|          | 702/100000 [23:07<77:57:38,  2.83s/it]  1%|          | 703/100000 [23:09<72:40:05,  2.63s/it]                                                         1%|          | 703/100000 [23:10<72:40:05,  2.63s/it]  1%|          | 704/100000 [23:12<67:31:13,  2.45s/it]                                                         1%|          | 704/100000 [23:12<67:31:13,  2.45s/it]  1%|          | 705/100000 [23:13<63:19:35,  2.30s/it]                                                         1%|          | 705/100000 [23:13<63:19:35,  2.30s/it]  1%|          | 706/100000 [23:15<59:26:27,  2.16s/it]                                                         1%|          | 706/100000 [23:15<59:26:27,  2.16s/it]  1%|          | 707/100000 [23:17<56:01:12,  2.03s/it]                                                         1%|          | 707/100000 [23:17<56:01:12,  2.03s/it]  1%|          | 708/100000 [23:19<52:39:34,  1.91s/it]                                                         1%|          | 708/100000 [23:19<52:39:34,  1.91s/it]  1%|          | 709/100000 [23:20<50:13:54,  1.82s/it]                                                         1%|          | 709/100000 [23:20<50:13:54,  1.82s/it]  1%|          | 710/100000 [23:22<48:16:23,  1.75s/it]                                                         1%|          | 710/100000 [23:22<48:16:23,  1.75s/it]  1%|          | 711/100000 [23:23<46:24:55,  1.68s/it]                                                         1%|          | 711/100000 [23:23<46:24:55,  1.68s/it]  1%|          | 712/100000 [23:25<44:18:38,  1.61s/it]                                                         1%|          | 712/100000 [23:25<44:18:38,  1.61s/it]  1%|          | 713/100000 [23:26<43:09:48,  1.57s/it]                                                         1%|          | 713/100000 [23:26<43:09:48,  1.57s/it]  1%|          | 714/100000 [23:28<41:45:37,  1.51s/it]                                                       {'loss': 2.9119, 'grad_norm': 8.257650375366211, 'learning_rate': 1.8810000000000003e-06, 'epoch': 1.16}
+{'loss': 2.8432, 'grad_norm': 13.96142292022705, 'learning_rate': 1.8839999999999999e-06, 'epoch': 1.16}
+{'loss': 2.9012, 'grad_norm': 8.9722900390625, 'learning_rate': 1.8869999999999999e-06, 'epoch': 1.16}
+{'loss': 2.852, 'grad_norm': 5.260127544403076, 'learning_rate': 1.8900000000000001e-06, 'epoch': 1.17}
+{'loss': 2.8762, 'grad_norm': 12.734224319458008, 'learning_rate': 1.8930000000000001e-06, 'epoch': 1.17}
+{'loss': 2.8813, 'grad_norm': 10.812736511230469, 'learning_rate': 1.8960000000000001e-06, 'epoch': 1.17}
+{'loss': 2.8701, 'grad_norm': 7.148223876953125, 'learning_rate': 1.899e-06, 'epoch': 1.17}
+{'loss': 2.8745, 'grad_norm': 10.687859535217285, 'learning_rate': 1.902e-06, 'epoch': 1.17}
+{'loss': 2.881, 'grad_norm': 14.53646469116211, 'learning_rate': 1.905e-06, 'epoch': 1.18}
+{'loss': 2.8867, 'grad_norm': 9.041234970092773, 'learning_rate': 1.908e-06, 'epoch': 1.18}
+{'loss': 2.8243, 'grad_norm': 6.838634967803955, 'learning_rate': 1.9110000000000004e-06, 'epoch': 1.18}
+{'loss': 2.8369, 'grad_norm': 6.505585193634033, 'learning_rate': 1.914e-06, 'epoch': 1.18}
+{'loss': 2.8408, 'grad_norm': 4.176347732543945, 'learning_rate': 1.917e-06, 'epoch': 1.18}
+{'loss': 2.8581, 'grad_norm': 9.723844528198242, 'learning_rate': 1.9200000000000003e-06, 'epoch': 1.18}
+{'loss': 2.9751, 'grad_norm': 3.1684012413024902, 'learning_rate': 1.923e-06, 'epoch': 1.19}
+{'loss': 2.9243, 'grad_norm': 3.2966151237487793, 'learning_rate': 1.926e-06, 'epoch': 1.19}
+{'loss': 2.9082, 'grad_norm': 3.4464704990386963, 'learning_rate': 1.929e-06, 'epoch': 1.19}
+{'loss': 2.905, 'grad_norm': 2.4331507682800293, 'learning_rate': 1.932e-06, 'epoch': 1.19}
+{'loss': 2.9147, 'grad_norm': 4.029451370239258, 'learning_rate': 1.935e-06, 'epoch': 1.19}
+{'loss': 2.8587, 'grad_norm': 15.655887603759766, 'learning_rate': 1.9380000000000003e-06, 'epoch': 1.2}
+{'loss': 2.8423, 'grad_norm': 4.774689197540283, 'learning_rate': 1.9409999999999997e-06, 'epoch': 1.2}
+{'loss': 2.8417, 'grad_norm': 3.9174821376800537, 'learning_rate': 1.944e-06, 'epoch': 1.2}
+{'loss': 2.8605, 'grad_norm': 2.8984720706939697, 'learning_rate': 1.947e-06, 'epoch': 1.2}
+{'loss': 2.8173, 'grad_norm': 5.679083824157715, 'learning_rate': 1.95e-06, 'epoch': 1.2}
+{'loss': 2.8322, 'grad_norm': 3.6044998168945312, 'learning_rate': 1.953e-06, 'epoch': 1.2}
+{'loss': 2.8368, 'grad_norm': 5.281006813049316, 'learning_rate': 1.956e-06, 'epoch': 1.21}
+{'loss': 2.822, 'grad_norm': 4.353389263153076, 'learning_rate': 1.959e-06, 'epoch': 1.21}
+{'loss': 2.8404, 'grad_norm': 5.798543930053711, 'learning_rate': 1.962e-06, 'epoch': 1.21}
+{'loss': 2.8379, 'grad_norm': 5.485929489135742, 'learning_rate': 1.9650000000000002e-06, 'epoch': 1.21}
+{'loss': 2.8366, 'grad_norm': 4.834137916564941, 'learning_rate': 1.968e-06, 'epoch': 1.21}
+{'loss': 2.8385, 'grad_norm': 5.665460586547852, 'learning_rate': 1.971e-06, 'epoch': 1.22}
+{'loss': 2.8221, 'grad_norm': 7.043797492980957, 'learning_rate': 1.974e-06, 'epoch': 1.22}
+{'loss': 2.8227, 'grad_norm': 5.808165073394775, 'learning_rate': 1.977e-06, 'epoch': 1.22}
+{'loss': 2.8435, 'grad_norm': 21.553096771240234, 'learning_rate': 1.98e-06, 'epoch': 1.22}
+{'loss': 2.8029, 'grad_norm': 4.092555046081543, 'learning_rate': 1.9830000000000003e-06, 'epoch': 1.22}
+{'loss': 2.8122, 'grad_norm': 6.962827682495117, 'learning_rate': 1.9859999999999997e-06, 'epoch': 1.23}
+{'loss': 2.833, 'grad_norm': 4.3983659744262695, 'learning_rate': 1.989e-06, 'epoch': 1.23}
+{'loss': 2.8313, 'grad_norm': 4.870649814605713, 'learning_rate': 1.992e-06, 'epoch': 1.23}
+{'loss': 2.8211, 'grad_norm': 8.451695442199707, 'learning_rate': 1.995e-06, 'epoch': 1.23}
+{'loss': 2.8427, 'grad_norm': 9.19526481628418, 'learning_rate': 1.998e-06, 'epoch': 1.23}
+{'loss': 2.8373, 'grad_norm': 7.379989147186279, 'learning_rate': 2.001e-06, 'epoch': 1.23}
+{'loss': 2.8293, 'grad_norm': 10.438669204711914, 'learning_rate': 2.004e-06, 'epoch': 1.24}
+{'loss': 2.8231, 'grad_norm': 3.9440643787384033, 'learning_rate': 2.007e-06, 'epoch': 1.24}
+{'loss': 2.846, 'grad_norm': 7.063518524169922, 'learning_rate': 2.0100000000000002e-06, 'epoch': 1.24}
+{'loss': 2.8227, 'grad_norm': 5.866770267486572, 'learning_rate': 2.0130000000000005e-06, 'epoch': 1.24}
+{'loss': 2.8078, 'grad_norm': 4.861609935760498, 'learning_rate': 2.016e-06, 'epoch': 1.24}
+{'loss': 2.8705, 'grad_norm': 4.8793463706970215, 'learning_rate': 2.019e-06, 'epoch': 1.25}
+{'loss': 2.8138, 'grad_norm': 5.221220016479492, 'learning_rate': 2.0220000000000003e-06, 'epoch': 1.25}
+{'loss': 2.795, 'grad_norm': 6.798542022705078, 'learning_rate': 2.025e-06, 'epoch': 1.25}
+{'loss': 2.8433, 'grad_norm': 6.260668754577637, 'learning_rate': 2.028e-06, 'epoch': 1.25}
+{'loss': 2.7893, 'grad_norm': 4.344798564910889, 'learning_rate': 2.031e-06, 'epoch': 1.25}
+{'loss': 2.8129, 'grad_norm': 3.513256549835205, 'learning_rate': 2.034e-06, 'epoch': 1.25}
+{'loss': 2.7959, 'grad_norm': 5.4455718994140625, 'learning_rate': 2.037e-06, 'epoch': 1.26}
+{'loss': 2.8195, 'grad_norm': 9.517064094543457, 'learning_rate': 2.0400000000000004e-06, 'epoch': 1.26}
+{'loss': 2.8049, 'grad_norm': 6.500871658325195, 'learning_rate': 2.0429999999999998e-06, 'epoch': 1.26}
+{'loss': 2.7864, 'grad_norm': 4.144886016845703, 'learning_rate': 2.046e-06, 'epoch': 1.26}
+{'loss': 2.7869, 'grad_norm': 5.43059778213501, 'learning_rate': 2.049e-06, 'epoch': 1.26}
+{'loss': 2.8101, 'grad_norm': 7.421367168426514, 'learning_rate': 2.052e-06, 'epoch': 1.27}
+{'loss': 2.7979, 'grad_norm': 5.0669941902160645, 'learning_rate': 2.0550000000000002e-06, 'epoch': 1.27}
+{'loss': 2.7967, 'grad_norm': 5.999461650848389, 'learning_rate': 2.058e-06, 'epoch': 1.27}
+{'loss': 2.8188, 'grad_norm': 5.63998556137085, 'learning_rate': 2.061e-06, 'epoch': 1.27}
+{'loss': 2.819, 'grad_norm': 10.207146644592285, 'learning_rate': 2.064e-06, 'epoch': 1.27}
+{'loss': 2.7793, 'grad_norm': 2.9560375213623047, 'learning_rate': 2.0670000000000003e-06, 'epoch': 1.28}
+{'loss': 2.7723, 'grad_norm': 3.9872069358825684, 'learning_rate': 2.07e-06, 'epoch': 1.28}
+{'loss': 2.927, 'grad_norm': 9.619598388671875, 'learning_rate': 2.073e-06, 'epoch': 1.28}
+{'loss': 2.8825, 'grad_norm': 10.317651748657227, 'learning_rate': 2.076e-06, 'epoch': 1.28}
+{'loss': 2.8653, 'grad_norm': 4.086780071258545, 'learning_rate': 2.079e-06, 'epoch': 1.28}
+{'loss': 2.8542, 'grad_norm': 6.283045768737793, 'learning_rate': 2.082e-06, 'epoch': 1.28}
+{'loss': 2.8521, 'grad_norm': 9.914119720458984, 'learning_rate': 2.0850000000000004e-06, 'epoch': 1.29}
+{'loss': 2.861, 'grad_norm': 9.009072303771973, 'learning_rate': 2.0879999999999997e-06, 'epoch': 1.29}
+{'loss': 2.8336, 'grad_norm': 5.214295864105225, 'learning_rate': 2.091e-06, 'epoch': 1.29}
+{'loss': 2.7949, 'grad_norm': 4.523592472076416, 'learning_rate': 2.094e-06, 'epoch': 1.29}
+{'loss': 2.8029, 'grad_norm': 5.53308629989624, 'learning_rate': 2.097e-06, 'epoch': 1.29}
+{'loss': 2.7991, 'grad_norm': 5.987646579742432, 'learning_rate': 2.1000000000000002e-06, 'epoch': 1.3}
+{'loss': 2.7892, 'grad_norm': 6.248629570007324, 'learning_rate': 2.103e-06, 'epoch': 1.3}
+{'loss': 2.7865, 'grad_norm': 2.0059845447540283, 'learning_rate': 2.106e-06, 'epoch': 1.3}
+{'loss': 2.7815, 'grad_norm': 4.6807098388671875, 'learning_rate': 2.109e-06, 'epoch': 1.3}
+{'loss': 2.8086, 'grad_norm': 3.9518628120422363, 'learning_rate': 2.1120000000000003e-06, 'epoch': 1.3}
+{'loss': 2.7868, 'grad_norm': 4.064188003540039, 'learning_rate': 2.1149999999999997e-06, 'epoch': 1.3}
+{'loss': 2.7812, 'grad_norm': 3.1247639656066895, 'learning_rate': 2.118e-06, 'epoch': 1.31}
+{'loss': 2.7804, 'grad_norm': 4.630458831787109, 'learning_rate': 2.121e-06, 'epoch': 1.31}
+{'loss': 2.748, 'grad_norm': 22.884502410888672, 'learning_rate': 2.124e-06, 'epoch': 1.31}
+{'loss': 2.8104, 'grad_norm': 4.427460670471191, 'learning_rate': 2.127e-06, 'epoch': 1.31}
+{'loss': 2.7915, 'grad_norm': 4.474238872528076, 'learning_rate': 2.13e-06, 'epoch': 1.31}
+{'loss': 2.7305, 'grad_norm': 2.491396903991699, 'learning_rate': 2.133e-06, 'epoch': 1.32}
+  1%|          | 714/100000 [23:28<41:45:37,  1.51s/it]  1%|          | 715/100000 [23:29<40:58:29,  1.49s/it]                                                         1%|          | 715/100000 [23:29<40:58:29,  1.49s/it]  1%|          | 716/100000 [23:30<40:13:48,  1.46s/it]                                                         1%|          | 716/100000 [23:30<40:13:48,  1.46s/it]  1%|          | 717/100000 [23:32<39:15:23,  1.42s/it]                                                         1%|          | 717/100000 [23:32<39:15:23,  1.42s/it]  1%|          | 718/100000 [23:33<38:47:12,  1.41s/it]                                                         1%|          | 718/100000 [23:33<38:47:12,  1.41s/it]  1%|          | 719/100000 [23:34<37:58:26,  1.38s/it]                                                         1%|          | 719/100000 [23:34<37:58:26,  1.38s/it]  1%|          | 720/100000 [23:36<37:31:27,  1.36s/it]                                                         1%|          | 720/100000 [23:36<37:31:27,  1.36s/it]  1%|          | 721/100000 [23:37<37:08:00,  1.35s/it]                                                         1%|          | 721/100000 [23:37<37:08:00,  1.35s/it]  1%|          | 722/100000 [23:38<36:35:10,  1.33s/it]                                                         1%|          | 722/100000 [23:38<36:35:10,  1.33s/it]  1%|          | 723/100000 [23:40<36:07:15,  1.31s/it]                                                         1%|          | 723/100000 [23:40<36:07:15,  1.31s/it]  1%|          | 724/100000 [23:41<35:17:27,  1.28s/it]                                                         1%|          | 724/100000 [23:41<35:17:27,  1.28s/it]  1%|          | 725/100000 [23:42<34:54:23,  1.27s/it]                                                         1%|          | 725/100000 [23:42<34:54:23,  1.27s/it]  1%|          | 726/100000 [23:43<33:51:40,  1.23s/it]                                                         1%|          | 726/100000 [23:43<33:51:40,  1.23s/it]  1%|          | 727/100000 [23:44<33:30:52,  1.22s/it]                                                         1%|          | 727/100000 [23:44<33:30:52,  1.22s/it]  1%|          | 728/100000 [23:46<32:55:36,  1.19s/it]                                                         1%|          | 728/100000 [23:46<32:55:36,  1.19s/it]  1%|          | 729/100000 [23:47<32:37:52,  1.18s/it]                                                         1%|          | 729/100000 [23:47<32:37:52,  1.18s/it]  1%|          | 730/100000 [23:48<32:15:55,  1.17s/it]                                                         1%|          | 730/100000 [23:48<32:15:55,  1.17s/it]  1%|          | 731/100000 [23:49<31:39:52,  1.15s/it]                                                         1%|          | 731/100000 [23:49<31:39:52,  1.15s/it]  1%|          | 732/100000 [23:50<31:24:44,  1.14s/it]                                                         1%|          | 732/100000 [23:50<31:24:44,  1.14s/it]  1%|          | 733/100000 [23:51<31:05:39,  1.13s/it]                                                         1%|          | 733/100000 [23:51<31:05:39,  1.13s/it]  1%|          | 734/100000 [23:52<30:37:30,  1.11s/it]                                                         1%|          | 734/100000 [23:52<30:37:30,  1.11s/it]  1%|          | 735/100000 [23:53<29:58:10,  1.09s/it]                                                         1%|          | 735/100000 [23:53<29:58:10,  1.09s/it]  1%|          | 736/100000 [23:54<29:39:48,  1.08s/it]                                                         1%|          | 736/100000 [23:54<29:39:48,  1.08s/it]  1%|          | 737/100000 [23:55<29:11:53,  1.06s/it]                                                         1%|          | 737/100000 [23:55<29:11:53,  1.06s/it]  1%|          | 738/100000 [23:56<28:39:34,  1.04s/it]                                                         1%|          | 738/100000 [23:56<28:39:34,  1.04s/it]  1%|          | 739/100000 [23:57<28:05:37,  1.02s/it]                                                         1%|          | 739/100000 [23:57<28:05:37,  1.02s/it]  1%|          | 740/100000 [23:58<27:29:58,  1.00it/s]                                                         1%|          | 740/100000 [23:58<27:29:58,  1.00it/s]  1%|          | 741/100000 [23:59<27:04:33,  1.02it/s]                                                         1%|          | 741/100000 [23:59<27:04:33,  1.02it/s]  1%|          | 742/100000 [24:00<26:41:29,  1.03it/s]                                                         1%|          | 742/100000 [24:00<26:41:29,  1.03it/s]  1%|          | 743/100000 [24:12<119:46:20,  4.34s/it]                                                          1%|          | 743/100000 [24:12<119:46:20,  4.34s/it]  1%|          | 744/100000 [24:18<133:16:07,  4.83s/it]                                                          1%|          | 744/100000 [24:18<133:16:07,  4.83s/it]  1%|          | 745/100000 [24:23<133:19:52,  4.84s/it]                                                          1%|          | 745/100000 [24:23<133:19:52,  4.84s/it]  1%|          | 746/100000 [24:28<129:04:14,  4.68s/it]                                                          1%|          | 746/100000 [24:28<129:04:14,  4.68s/it]  1%|          | 747/100000 [24:31<122:40:58,  4.45s/it]                                                          1%|          | 747/100000 [24:31<122:40:58,  4.45s/it]  1%|          | 748/100000 [24:35<113:21:57,  4.11s/it]                                                          1%|          | 748/100000 [24:35<113:21:57,  4.11s/it]  1%|          | 749/100000 [24:38<104:31:10,  3.79s/it]                                                          1%|          | 749/100000 [24:38<104:31:10,  3.79s/it]  1%|          | 750/100000 [24:41<97:31:16,  3.54s/it]                                                          1%|          | 750/100000 [24:41<97:31:16,  3.54s/it]  1%|          | 751/100000 [24:43<89:20:25,  3.24s/it]                                                         1%|          | 751/100000 [24:43<89:20:25,  3.24s/it]  1%|          | 752/100000 [24:46<82:47:44,  3.00s/it]                                                         1%|          | 752/100000 [24:46<82:47:44,  3.00s/it]  1%|          | 753/100000 [24:48<76:47:01,  2.79s/it]                                                         1%|          | 753/100000 [24:48<76:47:01,  2.79s/it]  1%|          | 754/100000 [24:50<71:20:12,  2.59s/it]                                                         1%|          | 754/100000 [24:50<71:20:12,  2.59s/it]  1%|          | 755/100000 [24:52<66:42:35,  2.42s/it]                                                         1%|          | 755/100000 [24:52<66:42:35,  2.42s/it]  1%|          | 756/100000 [24:54<62:26:25,  2.26s/it]                                                         1%|          | 756/100000 [24:54<62:26:25,  2.26s/it]  1%|          | 757/100000 [24:56<58:08:40,  2.11s/it]                                                         1%|          | 757/100000 [24:56<58:08:40,  2.11s/it]  1%|          | 758/100000 [24:58<54:37:49,  1.98s/it]                                                         1%|          | 758/100000 [24:58<54:37:49,  1.98s/it]  1%|          | 759/100000 [24:59<51:44:58,  1.88s/it]                                                         1%|          | 759/100000 [24:59<51:44:58,  1.88s/it]  1%|          | 760/100000 [25:01<49:29:04,  1.80s/it]                                                         1%|          | 760/100000 [25:01<49:29:04,  1.80s/it]  1%|          | 761/100000 [25:02<47:11:11,  1.71s/it]                                                         1%|          | 761/100000 [25:02<47:11:11,  1.71s/it]  1%|          | 762/100000 [25:04<45:40:39,  1.66s/it]                                                         1%|          | 762/100000 [25:04<45:40:39,  1.66s/it]  1%|          | 763/100000 [25:05<43:54:12,  1.59s/it]                                                         1%|          | 763/100000 [25:05<43:54:12,  1.59s/it]  1%|          | 764/100000 [25:07<42:47:27,  1.55s/it]                                                         1%|          | 764/100000 [25:07<42:47:27,  1.55s/it]  1%|          | 765/100000 [25:08<41:32:02,  1.51s/it]                                                         1%|          | 765/100000 [25:08<41:32:02,  1.51s/it]  1%|          | 766/100000 [25:10<40:47:37,  1.48s/it]                                                         1%|          | 766/100000 [25:10<40:47:37,  1.48s/it]  1%|          | 767/100000 [25:11<41:22:06,  1.50s/it]                                                         1%|          | 767/100000 [25:11<41:22:06,  1.50s/it]  1%|          | 768/100000 [25:12<40:08:01,  1.46s/it]                                                         1%|          | 768/100000 [25:12<40:08:01,  1.46s/it]  1%|          | 769/100000 [25:14<39:19:24,  1.43s/it]                                                         1%|          | 769/100000 [25:14<39:19:24,  1.43s/it]  1%|          | 770/100000 [25:15<38:33:15,  1.40s/it]                                                         1%|          | 770/100000 [25:15<38:33:15,  1.40s/it]  1%|          | 771/100000 [25:16<37:47:53,  1.37s/it]                                                         1%|          | 771/100000 [25:16<37:47:53,  1.37s/it]  1%|          | 772/100000 [25:18<37:04:35,  1.35s/it]                                                         1%|          | 772/100000 [25:18<37:04:35,  1.35s/it]  1%|          | 773/100000 [25:19<36:19:34,  1.32s/it]                                                         1%|          | 773/100000 [25:19<36:19:34,  1.32s/it]  1%|          | 774/100000 [25:20<35:37:03,  1.29s/it]                                                         1%|          | 774/100000 [25:20<35:37:03,  1.29s/it]  1%|          | 775/100000 [25:21<35:06:49,  1.27s/it]                                                         1%|          | 775/100000 [25:21<35:06:49,  1.27s/it]  1%|          | 776/100000 [25:23<34:42:21,  1.26s/it]                                                         1%|          | 776/100000 [25:23<34:42:21,  1.26s/it]  1%|          | 777/100000 [25:24<34:08:28,  1.24s/it]                                                         1%|          | 777/100000 [25:24<34:08:28,  1.24s/it]  1%|          | 778/100000 [25:25<33:33:04,  1.22s/it]                                                         1%|          | 778/100000 [25:25<33:33:04,  1.22s/it]  1%|          | 779/100000 [25:26<32:53:24,  1.19s/it]                                                         1%|          | 779/100000 [25:26<32:53:24,  1.19s/it]  1%|          | 780/100000 [25:27<32:23:50,  1.18s/it]                                                         1%|          | 780/100000 [25:27<32:23:50,  1.18s/it]  1%|          | 781/100000 [25:28<31:51:38,  1.16s/it]                                                         1%|          | 781/100000 [25:28<31:51:38,  1.16s/it]  1%|          | 782/100000 [25:29<31:14:59,  1.13s/it]                                                         1%|          | 782/100000 [25:29<31:14:59,  1.13s/it]  1%|          | 783/100000 [25:31<30:36:49,  1.11s/it]                                                         1%|          | 783/100000 [25:31<30:36:49,  1.11s/it]  1%|          | 784/100000 [25:32<30:07:13,  1.09s/it]                                                         1%|          | 784/100000 [25:32<30:07:13,  1.09s/it]  1%|          | 785/100000 [25:33<29:43:25,  1.08s/it]                                                         1%|          | 785/100000 [25:33<29:43:25,  1.08s/it]  1%|          | 786/100000 [25:34<29:22:16,  1.07s/it]                                                         1%|          | 786/100000 [25:34<29:22:16,  1.07s/it]  1%|          | 787/100000 [25:35<28:40:56,  1.04s/it]                                                         1%|          | 787/100000 [25:35<28:40:56,  1.04s/it]  1%|          | 788/100000 [25:36<28:00:02,  1.02s/it]                                                         1%|          | 788/100000 [25:36<28:00:02,  1.02s/it]  1%|          | 789/100000 [25:37<27:43:21,  1.01s/it]                                                         1%|          | 789/100000 [25:37<27:43:21,  1.01s/it]  1%|          | 790/100000 [25:38<27:23:10,  1.01it/s]                                                         1%|          | 790/100000 [25:38<27:23:10,  1.01it/s]  1%|          | 791/100000 [25:39<27:13:40,  1.01it/s]                                                         1%|          | 791/100000 [25:39<27:13:40,  1.01it/s]  1%|          | 792/100000 [25:39<26:51:31,  1.03it/s]                                                         1%|          | 792/100000 [25:39<26:51:31,  1.03it/s]  1%|          | 793/100000 [25:51<110:08:54,  4.00s/it]                                                          1%|          | 793/100000 [25:51<110:08:54,  4.00s/it]  1%|          | 794/100000 [25:56<125:53:34,  4.57s/it]                                                          1%|          | 794/100000 [25:56<125:53:34,  4.57s/it]  1%|          | 795/100000 [26:01<126:31:30,  4.59s/it]                                                          1%|          | 795/100000 [26:01<126:31:30,  4.59s/it]  1%|          | 796/100000 [26:05<122:01:46,  4.43s/it]                                                          1%|          | 796/100000 [26:05<122:01:46,  4.43s/it]  1%|          | 797/100000 [26:09<115:42:54,  4.20s/it]                                                          1%|          | 797/100000 [26:09<115:42:54,  4.20s/it]  1%|          | 798/100000 [26:12<108:28:18,  3.94s/it]                                                          1%|          | 798/100000 [26:12<108:28:18,  3.94s/it]  1%|          | 799/100000 [26:15<100:54:24,  3.66s/it]                                                        {'loss': 2.7733, 'grad_norm': 4.121035099029541, 'learning_rate': 2.136e-06, 'epoch': 1.32}
+{'loss': 2.7607, 'grad_norm': 4.982003211975098, 'learning_rate': 2.139e-06, 'epoch': 1.32}
+{'loss': 2.7735, 'grad_norm': 2.3569273948669434, 'learning_rate': 2.1420000000000004e-06, 'epoch': 1.32}
+{'loss': 2.7653, 'grad_norm': 4.553219318389893, 'learning_rate': 2.145e-06, 'epoch': 1.32}
+{'loss': 2.7853, 'grad_norm': 3.5110154151916504, 'learning_rate': 2.148e-06, 'epoch': 1.33}
+{'loss': 2.7661, 'grad_norm': 3.3325610160827637, 'learning_rate': 2.1510000000000002e-06, 'epoch': 1.33}
+{'loss': 2.7715, 'grad_norm': 5.185281753540039, 'learning_rate': 2.154e-06, 'epoch': 1.33}
+{'loss': 2.7784, 'grad_norm': 5.594532489776611, 'learning_rate': 2.1570000000000003e-06, 'epoch': 1.33}
+{'loss': 2.7305, 'grad_norm': 5.433917999267578, 'learning_rate': 2.16e-06, 'epoch': 1.33}
+{'loss': 2.7773, 'grad_norm': 4.988367080688477, 'learning_rate': 2.163e-06, 'epoch': 1.33}
+{'loss': 2.7538, 'grad_norm': 3.9520010948181152, 'learning_rate': 2.166e-06, 'epoch': 1.34}
+{'loss': 2.7799, 'grad_norm': 6.544180393218994, 'learning_rate': 2.1690000000000003e-06, 'epoch': 1.34}
+{'loss': 2.7307, 'grad_norm': 7.745989799499512, 'learning_rate': 2.172e-06, 'epoch': 1.34}
+{'loss': 2.8229, 'grad_norm': 4.38186502456665, 'learning_rate': 2.175e-06, 'epoch': 1.34}
+{'loss': 2.7445, 'grad_norm': 3.6738603115081787, 'learning_rate': 2.178e-06, 'epoch': 1.34}
+{'loss': 2.7487, 'grad_norm': 4.38754940032959, 'learning_rate': 2.181e-06, 'epoch': 1.35}
+{'loss': 2.75, 'grad_norm': 3.183619260787964, 'learning_rate': 2.184e-06, 'epoch': 1.35}
+{'loss': 2.765, 'grad_norm': 6.966119289398193, 'learning_rate': 2.1870000000000004e-06, 'epoch': 1.35}
+{'loss': 2.7622, 'grad_norm': 4.263189792633057, 'learning_rate': 2.1899999999999998e-06, 'epoch': 1.35}
+{'loss': 2.7429, 'grad_norm': 2.978217124938965, 'learning_rate': 2.193e-06, 'epoch': 1.35}
+{'loss': 2.7563, 'grad_norm': 4.708694934844971, 'learning_rate': 2.1960000000000002e-06, 'epoch': 1.35}
+{'loss': 2.7436, 'grad_norm': 4.529090881347656, 'learning_rate': 2.199e-06, 'epoch': 1.36}
+{'loss': 2.7406, 'grad_norm': 4.785562992095947, 'learning_rate': 2.2020000000000003e-06, 'epoch': 1.36}
+{'loss': 2.7357, 'grad_norm': 10.316986083984375, 'learning_rate': 2.205e-06, 'epoch': 1.36}
+{'loss': 2.7566, 'grad_norm': 4.90836238861084, 'learning_rate': 2.208e-06, 'epoch': 1.36}
+{'loss': 2.7523, 'grad_norm': 8.626869201660156, 'learning_rate': 2.211e-06, 'epoch': 1.36}
+{'loss': 2.7543, 'grad_norm': 11.956260681152344, 'learning_rate': 2.2140000000000003e-06, 'epoch': 1.37}
+{'loss': 2.7477, 'grad_norm': 5.312864303588867, 'learning_rate': 2.2169999999999997e-06, 'epoch': 1.37}
+{'loss': 2.7476, 'grad_norm': 4.989658355712891, 'learning_rate': 2.22e-06, 'epoch': 1.37}
+{'loss': 2.8991, 'grad_norm': 6.6182637214660645, 'learning_rate': 2.223e-06, 'epoch': 1.37}
+{'loss': 2.8556, 'grad_norm': 6.964872360229492, 'learning_rate': 2.226e-06, 'epoch': 1.37}
+{'loss': 2.7974, 'grad_norm': 3.2420098781585693, 'learning_rate': 2.229e-06, 'epoch': 1.37}
+{'loss': 2.8501, 'grad_norm': 9.735184669494629, 'learning_rate': 2.232e-06, 'epoch': 1.38}
+{'loss': 2.8392, 'grad_norm': 10.228830337524414, 'learning_rate': 2.2349999999999998e-06, 'epoch': 1.38}
+{'loss': 2.8219, 'grad_norm': 10.16733455657959, 'learning_rate': 2.238e-06, 'epoch': 1.38}
+{'loss': 2.7874, 'grad_norm': 8.562270164489746, 'learning_rate': 2.2410000000000002e-06, 'epoch': 1.38}
+{'loss': 2.7978, 'grad_norm': 7.701913833618164, 'learning_rate': 2.244e-06, 'epoch': 1.38}
+{'loss': 2.7869, 'grad_norm': 8.914648056030273, 'learning_rate': 2.247e-06, 'epoch': 1.39}
+{'loss': 2.7883, 'grad_norm': 11.16434383392334, 'learning_rate': 2.25e-06, 'epoch': 1.39}
+{'loss': 2.7952, 'grad_norm': 10.750763893127441, 'learning_rate': 2.253e-06, 'epoch': 1.39}
+{'loss': 2.77, 'grad_norm': 7.983006954193115, 'learning_rate': 2.256e-06, 'epoch': 1.39}
+{'loss': 2.736, 'grad_norm': 4.1849188804626465, 'learning_rate': 2.2590000000000003e-06, 'epoch': 1.39}
+{'loss': 2.7679, 'grad_norm': 5.593008995056152, 'learning_rate': 2.262e-06, 'epoch': 1.4}
+{'loss': 2.7588, 'grad_norm': 8.314484596252441, 'learning_rate': 2.265e-06, 'epoch': 1.4}
+{'loss': 2.7147, 'grad_norm': 10.190176010131836, 'learning_rate': 2.268e-06, 'epoch': 1.4}
+{'loss': 2.726, 'grad_norm': 6.350856304168701, 'learning_rate': 2.2710000000000004e-06, 'epoch': 1.4}
+{'loss': 2.6919, 'grad_norm': 2.3066318035125732, 'learning_rate': 2.274e-06, 'epoch': 1.4}
+{'loss': 2.7338, 'grad_norm': 3.782069683074951, 'learning_rate': 2.277e-06, 'epoch': 1.4}
+{'loss': 2.7093, 'grad_norm': 4.446532726287842, 'learning_rate': 2.28e-06, 'epoch': 1.41}
+{'loss': 2.7388, 'grad_norm': 6.186867713928223, 'learning_rate': 2.283e-06, 'epoch': 1.41}
+{'loss': 2.6958, 'grad_norm': 5.769529819488525, 'learning_rate': 2.2860000000000002e-06, 'epoch': 1.41}
+{'loss': 2.719, 'grad_norm': 4.115484237670898, 'learning_rate': 2.2890000000000004e-06, 'epoch': 1.41}
+{'loss': 2.7121, 'grad_norm': 5.355208873748779, 'learning_rate': 2.292e-06, 'epoch': 1.41}
+{'loss': 2.6666, 'grad_norm': 4.1041035652160645, 'learning_rate': 2.295e-06, 'epoch': 1.42}
+{'loss': 2.7147, 'grad_norm': 6.766019344329834, 'learning_rate': 2.2980000000000003e-06, 'epoch': 1.42}
+{'loss': 2.7387, 'grad_norm': 8.364627838134766, 'learning_rate': 2.301e-06, 'epoch': 1.42}
+{'loss': 2.7544, 'grad_norm': 5.883131504058838, 'learning_rate': 2.304e-06, 'epoch': 1.42}
+{'loss': 2.7187, 'grad_norm': 5.160414695739746, 'learning_rate': 2.307e-06, 'epoch': 1.42}
+{'loss': 2.7144, 'grad_norm': 6.408952236175537, 'learning_rate': 2.31e-06, 'epoch': 1.42}
+{'loss': 2.6918, 'grad_norm': 4.58326530456543, 'learning_rate': 2.313e-06, 'epoch': 1.43}
+{'loss': 2.7173, 'grad_norm': 4.147642135620117, 'learning_rate': 2.3160000000000004e-06, 'epoch': 1.43}
+{'loss': 2.7323, 'grad_norm': 5.40259313583374, 'learning_rate': 2.3189999999999997e-06, 'epoch': 1.43}
+{'loss': 2.7337, 'grad_norm': 9.753005981445312, 'learning_rate': 2.322e-06, 'epoch': 1.43}
+{'loss': 2.7285, 'grad_norm': 4.117685794830322, 'learning_rate': 2.325e-06, 'epoch': 1.43}
+{'loss': 2.7262, 'grad_norm': 6.1139421463012695, 'learning_rate': 2.328e-06, 'epoch': 1.44}
+{'loss': 2.7265, 'grad_norm': 4.455411434173584, 'learning_rate': 2.3310000000000002e-06, 'epoch': 1.44}
+{'loss': 2.68, 'grad_norm': 4.577296733856201, 'learning_rate': 2.334e-06, 'epoch': 1.44}
+{'loss': 2.7446, 'grad_norm': 3.3163914680480957, 'learning_rate': 2.337e-06, 'epoch': 1.44}
+{'loss': 2.7558, 'grad_norm': 9.669931411743164, 'learning_rate': 2.34e-06, 'epoch': 1.44}
+{'loss': 2.7302, 'grad_norm': 5.4542555809021, 'learning_rate': 2.3430000000000003e-06, 'epoch': 1.45}
+{'loss': 2.7001, 'grad_norm': 9.963101387023926, 'learning_rate': 2.346e-06, 'epoch': 1.45}
+{'loss': 2.6938, 'grad_norm': 11.758763313293457, 'learning_rate': 2.349e-06, 'epoch': 1.45}
+{'loss': 2.7307, 'grad_norm': 5.225876808166504, 'learning_rate': 2.352e-06, 'epoch': 1.45}
+{'loss': 2.6993, 'grad_norm': 14.65092945098877, 'learning_rate': 2.355e-06, 'epoch': 1.45}
+{'loss': 2.7313, 'grad_norm': 10.20727825164795, 'learning_rate': 2.358e-06, 'epoch': 1.45}
+{'loss': 2.7177, 'grad_norm': 5.7672505378723145, 'learning_rate': 2.3610000000000003e-06, 'epoch': 1.46}
+{'loss': 2.7246, 'grad_norm': 9.435592651367188, 'learning_rate': 2.3639999999999997e-06, 'epoch': 1.46}
+{'loss': 2.745, 'grad_norm': 26.1789608001709, 'learning_rate': 2.367e-06, 'epoch': 1.46}
+{'loss': 2.7087, 'grad_norm': 3.997400999069214, 'learning_rate': 2.37e-06, 'epoch': 1.46}
+{'loss': 2.8327, 'grad_norm': 3.2992331981658936, 'learning_rate': 2.373e-06, 'epoch': 1.46}
+{'loss': 2.8169, 'grad_norm': 4.294439792633057, 'learning_rate': 2.376e-06, 'epoch': 1.47}
+{'loss': 2.7942, 'grad_norm': 4.262382507324219, 'learning_rate': 2.379e-06, 'epoch': 1.47}
+{'loss': 2.8166, 'grad_norm': 6.730347633361816, 'learning_rate': 2.382e-06, 'epoch': 1.47}
+{'loss': 2.788, 'grad_norm': 4.085928440093994, 'learning_rate': 2.385e-06, 'epoch': 1.47}
+{'loss': 2.7739, 'grad_norm': 3.401494264602661, 'learning_rate': 2.3880000000000003e-06, 'epoch': 1.47}
+  1%|          | 799/100000 [26:15<100:54:24,  3.66s/it]  1%|          | 800/100000 [26:18<93:37:06,  3.40s/it]                                                          1%|          | 800/100000 [26:18<93:37:06,  3.40s/it]  1%|          | 801/100000 [26:20<85:40:56,  3.11s/it]                                                         1%|          | 801/100000 [26:20<85:40:56,  3.11s/it]  1%|          | 802/100000 [26:23<78:49:54,  2.86s/it]                                                         1%|          | 802/100000 [26:23<78:49:54,  2.86s/it]  1%|          | 803/100000 [26:25<73:16:18,  2.66s/it]                                                         1%|          | 803/100000 [26:25<73:16:18,  2.66s/it]  1%|          | 804/100000 [26:27<68:20:53,  2.48s/it]                                                         1%|          | 804/100000 [26:27<68:20:53,  2.48s/it]  1%|          | 805/100000 [26:29<64:08:42,  2.33s/it]                                                         1%|          | 805/100000 [26:29<64:08:42,  2.33s/it]  1%|          | 806/100000 [26:31<60:29:29,  2.20s/it]                                                         1%|          | 806/100000 [26:31<60:29:29,  2.20s/it]  1%|          | 807/100000 [26:32<57:02:05,  2.07s/it]                                                         1%|          | 807/100000 [26:33<57:02:05,  2.07s/it]  1%|          | 808/100000 [26:34<54:00:19,  1.96s/it]                                                         1%|          | 808/100000 [26:34<54:00:19,  1.96s/it]  1%|          | 809/100000 [26:36<51:24:30,  1.87s/it]                                                         1%|          | 809/100000 [26:36<51:24:30,  1.87s/it]  1%|          | 810/100000 [26:37<49:16:33,  1.79s/it]                                                         1%|          | 810/100000 [26:37<49:16:33,  1.79s/it]  1%|          | 811/100000 [26:39<47:14:36,  1.71s/it]                                                         1%|          | 811/100000 [26:39<47:14:36,  1.71s/it]  1%|          | 812/100000 [26:40<45:25:31,  1.65s/it]                                                         1%|          | 812/100000 [26:40<45:25:31,  1.65s/it]  1%|          | 813/100000 [26:42<43:55:37,  1.59s/it]                                                         1%|          | 813/100000 [26:42<43:55:37,  1.59s/it]  1%|          | 814/100000 [26:43<42:39:09,  1.55s/it]                                                         1%|          | 814/100000 [26:43<42:39:09,  1.55s/it]  1%|          | 815/100000 [26:45<41:22:46,  1.50s/it]                                                         1%|          | 815/100000 [26:45<41:22:46,  1.50s/it]  1%|          | 816/100000 [26:46<40:23:36,  1.47s/it]                                                         1%|          | 816/100000 [26:46<40:23:36,  1.47s/it]  1%|          | 817/100000 [26:48<39:41:48,  1.44s/it]                                                         1%|          | 817/100000 [26:48<39:41:48,  1.44s/it]  1%|          | 818/100000 [26:49<39:01:34,  1.42s/it]                                                         1%|          | 818/100000 [26:49<39:01:34,  1.42s/it]  1%|          | 819/100000 [26:50<38:26:52,  1.40s/it]                                                         1%|          | 819/100000 [26:50<38:26:52,  1.40s/it]  1%|          | 820/100000 [26:52<37:54:35,  1.38s/it]                                                         1%|          | 820/100000 [26:52<37:54:35,  1.38s/it]  1%|          | 821/100000 [26:53<37:25:13,  1.36s/it]                                                         1%|          | 821/100000 [26:53<37:25:13,  1.36s/it]  1%|          | 822/100000 [26:54<36:39:13,  1.33s/it]                                                         1%|          | 822/100000 [26:54<36:39:13,  1.33s/it]  1%|          | 823/100000 [26:55<36:13:10,  1.31s/it]                                                         1%|          | 823/100000 [26:55<36:13:10,  1.31s/it]  1%|          | 824/100000 [26:57<35:31:31,  1.29s/it]                                                         1%|          | 824/100000 [26:57<35:31:31,  1.29s/it]  1%|          | 825/100000 [26:58<35:09:29,  1.28s/it]                                                         1%|          | 825/100000 [26:58<35:09:29,  1.28s/it]  1%|          | 826/100000 [26:59<34:46:54,  1.26s/it]                                                         1%|          | 826/100000 [26:59<34:46:54,  1.26s/it]  1%|          | 827/100000 [27:00<33:54:43,  1.23s/it]                                                         1%|          | 827/100000 [27:00<33:54:43,  1.23s/it]  1%|          | 828/100000 [27:01<33:28:02,  1.21s/it]                                                         1%|          | 828/100000 [27:01<33:28:02,  1.21s/it]  1%|          | 829/100000 [27:03<32:52:57,  1.19s/it]                                                         1%|          | 829/100000 [27:03<32:52:57,  1.19s/it]  1%|          | 830/100000 [27:04<32:34:42,  1.18s/it]                                                         1%|          | 830/100000 [27:04<32:34:42,  1.18s/it]  1%|          | 831/100000 [27:05<32:09:00,  1.17s/it]                                                         1%|          | 831/100000 [27:05<32:09:00,  1.17s/it]  1%|          | 832/100000 [27:06<31:22:36,  1.14s/it]                                                         1%|          | 832/100000 [27:06<31:22:36,  1.14s/it]  1%|          | 833/100000 [27:07<31:12:37,  1.13s/it]                                                         1%|          | 833/100000 [27:07<31:12:37,  1.13s/it]  1%|          | 834/100000 [27:08<30:52:16,  1.12s/it]                                                         1%|          | 834/100000 [27:08<30:52:16,  1.12s/it]  1%|          | 835/100000 [27:09<30:31:08,  1.11s/it]                                                         1%|          | 835/100000 [27:09<30:31:08,  1.11s/it]  1%|          | 836/100000 [27:10<30:03:18,  1.09s/it]                                                         1%|          | 836/100000 [27:10<30:03:18,  1.09s/it]  1%|          | 837/100000 [27:11<29:37:03,  1.08s/it]                                                         1%|          | 837/100000 [27:11<29:37:03,  1.08s/it]  1%|          | 838/100000 [27:12<29:00:19,  1.05s/it]                                                         1%|          | 838/100000 [27:12<29:00:19,  1.05s/it]  1%|          | 839/100000 [27:13<28:26:53,  1.03s/it]                                                         1%|          | 839/100000 [27:13<28:26:53,  1.03s/it]  1%|          | 840/100000 [27:14<27:55:36,  1.01s/it]                                                         1%|          | 840/100000 [27:14<27:55:36,  1.01s/it]  1%|          | 841/100000 [27:15<27:24:19,  1.01it/s]                                                         1%|          | 841/100000 [27:15<27:24:19,  1.01it/s]  1%|          | 842/100000 [27:16<26:39:01,  1.03it/s]                                                         1%|          | 842/100000 [27:16<26:39:01,  1.03it/s]  1%|          | 843/100000 [27:28<117:14:23,  4.26s/it]                                                          1%|          | 843/100000 [27:28<117:14:23,  4.26s/it]  1%|          | 844/100000 [27:34<127:07:26,  4.62s/it]                                                          1%|          | 844/100000 [27:34<127:07:26,  4.62s/it]  1%|          | 845/100000 [27:38<126:12:49,  4.58s/it]                                                          1%|          | 845/100000 [27:38<126:12:49,  4.58s/it]  1%|          | 846/100000 [27:42<121:21:05,  4.41s/it]                                                          1%|          | 846/100000 [27:42<121:21:05,  4.41s/it]  1%|          | 847/100000 [27:46<115:24:06,  4.19s/it]                                                          1%|          | 847/100000 [27:46<115:24:06,  4.19s/it]  1%|          | 848/100000 [27:49<108:05:16,  3.92s/it]                                                          1%|          | 848/100000 [27:49<108:05:16,  3.92s/it]  1%|          | 849/100000 [27:52<100:19:12,  3.64s/it]                                                          1%|          | 849/100000 [27:52<100:19:12,  3.64s/it]  1%|          | 850/100000 [27:55<93:18:08,  3.39s/it]                                                          1%|          | 850/100000 [27:55<93:18:08,  3.39s/it]  1%|          | 851/100000 [27:57<86:38:47,  3.15s/it]                                                         1%|          | 851/100000 [27:57<86:38:47,  3.15s/it]  1%|          | 852/100000 [28:00<79:23:35,  2.88s/it]                                                         1%|          | 852/100000 [28:00<79:23:35,  2.88s/it]  1%|          | 853/100000 [28:02<73:32:49,  2.67s/it]                                                         1%|          | 853/100000 [28:02<73:32:49,  2.67s/it]  1%|          | 854/100000 [28:04<68:11:45,  2.48s/it]                                                         1%|          | 854/100000 [28:04<68:11:45,  2.48s/it]  1%|          | 855/100000 [28:06<62:57:56,  2.29s/it]                                                         1%|          | 855/100000 [28:06<62:57:56,  2.29s/it]  1%|          | 856/100000 [28:08<58:54:47,  2.14s/it]                                                         1%|          | 856/100000 [28:08<58:54:47,  2.14s/it]  1%|          | 857/100000 [28:09<55:00:59,  2.00s/it]                                                         1%|          | 857/100000 [28:09<55:00:59,  2.00s/it]  1%|          | 858/100000 [28:11<52:14:02,  1.90s/it]                                                         1%|          | 858/100000 [28:11<52:14:02,  1.90s/it]  1%|          | 859/100000 [28:12<49:56:38,  1.81s/it]                                                         1%|          | 859/100000 [28:12<49:56:38,  1.81s/it]  1%|          | 860/100000 [28:14<48:11:54,  1.75s/it]                                                         1%|          | 860/100000 [28:14<48:11:54,  1.75s/it]  1%|          | 861/100000 [28:16<46:18:36,  1.68s/it]                                                         1%|          | 861/100000 [28:16<46:18:36,  1.68s/it]  1%|          | 862/100000 [28:17<44:46:14,  1.63s/it]                                                         1%|          | 862/100000 [28:17<44:46:14,  1.63s/it]  1%|          | 863/100000 [28:19<43:25:32,  1.58s/it]                                                         1%|          | 863/100000 [28:19<43:25:32,  1.58s/it]  1%|          | 864/100000 [28:20<41:59:28,  1.52s/it]                                                         1%|          | 864/100000 [28:20<41:59:28,  1.52s/it]  1%|          | 865/100000 [28:21<41:10:35,  1.50s/it]                                                         1%|          | 865/100000 [28:21<41:10:35,  1.50s/it]  1%|          | 866/100000 [28:23<40:20:34,  1.47s/it]                                                         1%|          | 866/100000 [28:23<40:20:34,  1.47s/it]  1%|          | 867/100000 [28:24<39:39:22,  1.44s/it]                                                         1%|          | 867/100000 [28:24<39:39:22,  1.44s/it]  1%|          | 868/100000 [28:26<38:59:18,  1.42s/it]                                                         1%|          | 868/100000 [28:26<38:59:18,  1.42s/it]  1%|          | 869/100000 [28:27<38:03:14,  1.38s/it]                                                         1%|          | 869/100000 [28:27<38:03:14,  1.38s/it]  1%|          | 870/100000 [28:28<37:28:14,  1.36s/it]                                                         1%|          | 870/100000 [28:28<37:28:14,  1.36s/it]  1%|          | 871/100000 [28:29<36:40:50,  1.33s/it]                                                         1%|          | 871/100000 [28:29<36:40:50,  1.33s/it]  1%|          | 872/100000 [28:31<36:15:27,  1.32s/it]                                                         1%|          | 872/100000 [28:31<36:15:27,  1.32s/it]  1%|          | 873/100000 [28:32<35:50:49,  1.30s/it]                                                         1%|          | 873/100000 [28:32<35:50:49,  1.30s/it]  1%|          | 874/100000 [28:33<35:07:39,  1.28s/it]                                                         1%|          | 874/100000 [28:33<35:07:39,  1.28s/it]  1%|          | 875/100000 [28:34<34:38:39,  1.26s/it]                                                         1%|          | 875/100000 [28:34<34:38:39,  1.26s/it]  1%|          | 876/100000 [28:36<34:22:09,  1.25s/it]                                                         1%|          | 876/100000 [28:36<34:22:09,  1.25s/it]  1%|          | 877/100000 [28:37<33:51:53,  1.23s/it]                                                         1%|          | 877/100000 [28:37<33:51:53,  1.23s/it]  1%|          | 878/100000 [28:38<33:22:09,  1.21s/it]                                                         1%|          | 878/100000 [28:38<33:22:09,  1.21s/it]  1%|          | 879/100000 [28:39<32:44:15,  1.19s/it]                                                         1%|          | 879/100000 [28:39<32:44:15,  1.19s/it]  1%|          | 880/100000 [28:40<32:20:27,  1.17s/it]                                                         1%|          | 880/100000 [28:40<32:20:27,  1.17s/it]  1%|          | 881/100000 [28:41<31:53:06,  1.16s/it]                                                         1%|          | 881/100000 [28:41<31:53:06,  1.16s/it]  1%|          | 882/100000 [28:42<31:33:14,  1.15s/it]                                                         1%|          | 882/100000 [28:42<31:33:14,  1.15s/it]  1%|          | 883/100000 [28:44<31:06:08,  1.13s/it]                                                         1%|          | 883/100000 [28:44<31:06:08,  1.13s/it]  1%|          | 884/100000 [28:45<30:45:43,  1.12s/it]                                                       {'loss': 2.771, 'grad_norm': 6.391687870025635, 'learning_rate': 2.391e-06, 'epoch': 1.47}
+{'loss': 2.765, 'grad_norm': 9.127158164978027, 'learning_rate': 2.394e-06, 'epoch': 1.48}
+{'loss': 2.755, 'grad_norm': 7.535577774047852, 'learning_rate': 2.397e-06, 'epoch': 1.48}
+{'loss': 2.7157, 'grad_norm': 2.549172878265381, 'learning_rate': 2.4000000000000003e-06, 'epoch': 1.48}
+{'loss': 2.7071, 'grad_norm': 4.9487128257751465, 'learning_rate': 2.403e-06, 'epoch': 1.48}
+{'loss': 2.7335, 'grad_norm': 4.3724799156188965, 'learning_rate': 2.406e-06, 'epoch': 1.48}
+{'loss': 2.7254, 'grad_norm': 5.787751197814941, 'learning_rate': 2.409e-06, 'epoch': 1.49}
+{'loss': 2.723, 'grad_norm': 3.1072328090667725, 'learning_rate': 2.412e-06, 'epoch': 1.49}
+{'loss': 2.6765, 'grad_norm': 4.013876438140869, 'learning_rate': 2.415e-06, 'epoch': 1.49}
+{'loss': 2.6791, 'grad_norm': 5.162932872772217, 'learning_rate': 2.4180000000000004e-06, 'epoch': 1.49}
+{'loss': 2.6731, 'grad_norm': 3.466583728790283, 'learning_rate': 2.4209999999999998e-06, 'epoch': 1.49}
+{'loss': 2.7359, 'grad_norm': 5.3154191970825195, 'learning_rate': 2.424e-06, 'epoch': 1.49}
+{'loss': 2.7224, 'grad_norm': 6.798288822174072, 'learning_rate': 2.4270000000000002e-06, 'epoch': 1.5}
+{'loss': 2.7205, 'grad_norm': 7.94334077835083, 'learning_rate': 2.43e-06, 'epoch': 1.5}
+{'loss': 2.6951, 'grad_norm': 6.905054092407227, 'learning_rate': 2.4330000000000003e-06, 'epoch': 1.5}
+{'loss': 2.6836, 'grad_norm': 5.6237688064575195, 'learning_rate': 2.436e-06, 'epoch': 1.5}
+{'loss': 2.6905, 'grad_norm': 6.948147773742676, 'learning_rate': 2.439e-06, 'epoch': 1.5}
+{'loss': 2.7105, 'grad_norm': 7.7601847648620605, 'learning_rate': 2.442e-06, 'epoch': 1.51}
+{'loss': 2.6873, 'grad_norm': 6.125829696655273, 'learning_rate': 2.4450000000000003e-06, 'epoch': 1.51}
+{'loss': 2.6749, 'grad_norm': 9.361186981201172, 'learning_rate': 2.448e-06, 'epoch': 1.51}
+{'loss': 2.6779, 'grad_norm': 5.572545528411865, 'learning_rate': 2.451e-06, 'epoch': 1.51}
+{'loss': 2.7265, 'grad_norm': 9.183470726013184, 'learning_rate': 2.454e-06, 'epoch': 1.51}
+{'loss': 2.6752, 'grad_norm': 5.680612087249756, 'learning_rate': 2.457e-06, 'epoch': 1.52}
+{'loss': 2.6951, 'grad_norm': 4.805209159851074, 'learning_rate': 2.46e-06, 'epoch': 1.52}
+{'loss': 2.6981, 'grad_norm': 7.211028099060059, 'learning_rate': 2.4630000000000004e-06, 'epoch': 1.52}
+{'loss': 2.6957, 'grad_norm': 6.059957504272461, 'learning_rate': 2.4659999999999998e-06, 'epoch': 1.52}
+{'loss': 2.6932, 'grad_norm': 4.662355899810791, 'learning_rate': 2.469e-06, 'epoch': 1.52}
+{'loss': 2.698, 'grad_norm': 9.695551872253418, 'learning_rate': 2.4720000000000002e-06, 'epoch': 1.52}
+{'loss': 2.6918, 'grad_norm': 6.460937976837158, 'learning_rate': 2.475e-06, 'epoch': 1.53}
+{'loss': 2.6999, 'grad_norm': 4.860535144805908, 'learning_rate': 2.4780000000000002e-06, 'epoch': 1.53}
+{'loss': 2.6793, 'grad_norm': 3.691718578338623, 'learning_rate': 2.481e-06, 'epoch': 1.53}
+{'loss': 2.6883, 'grad_norm': 6.444655895233154, 'learning_rate': 2.484e-06, 'epoch': 1.53}
+{'loss': 2.6928, 'grad_norm': 4.39552116394043, 'learning_rate': 2.487e-06, 'epoch': 1.53}
+{'loss': 2.7049, 'grad_norm': 4.5506696701049805, 'learning_rate': 2.4900000000000003e-06, 'epoch': 1.54}
+{'loss': 2.698, 'grad_norm': 3.6617109775543213, 'learning_rate': 2.4929999999999997e-06, 'epoch': 1.54}
+{'loss': 2.6257, 'grad_norm': 2.4751598834991455, 'learning_rate': 2.496e-06, 'epoch': 1.54}
+{'loss': 2.7211, 'grad_norm': 3.382323980331421, 'learning_rate': 2.499e-06, 'epoch': 1.54}
+{'loss': 2.6868, 'grad_norm': 5.438704967498779, 'learning_rate': 2.502e-06, 'epoch': 1.54}
+{'loss': 2.6893, 'grad_norm': 7.3822784423828125, 'learning_rate': 2.505e-06, 'epoch': 1.54}
+{'loss': 2.6683, 'grad_norm': 3.2348599433898926, 'learning_rate': 2.508e-06, 'epoch': 1.55}
+{'loss': 2.6667, 'grad_norm': 4.4207377433776855, 'learning_rate': 2.5109999999999998e-06, 'epoch': 1.55}
+{'loss': 2.6793, 'grad_norm': 2.893880844116211, 'learning_rate': 2.514e-06, 'epoch': 1.55}
+{'loss': 2.6794, 'grad_norm': 3.3121488094329834, 'learning_rate': 2.517e-06, 'epoch': 1.55}
+{'loss': 2.6549, 'grad_norm': 4.944551944732666, 'learning_rate': 2.52e-06, 'epoch': 1.55}
+{'loss': 2.8968, 'grad_norm': 4.086531162261963, 'learning_rate': 2.523e-06, 'epoch': 1.56}
+{'loss': 2.8208, 'grad_norm': 2.7039895057678223, 'learning_rate': 2.526e-06, 'epoch': 1.56}
+{'loss': 2.7717, 'grad_norm': 2.362365245819092, 'learning_rate': 2.5290000000000003e-06, 'epoch': 1.56}
+{'loss': 2.7733, 'grad_norm': 5.044862747192383, 'learning_rate': 2.532e-06, 'epoch': 1.56}
+{'loss': 2.7638, 'grad_norm': 5.624716281890869, 'learning_rate': 2.5350000000000003e-06, 'epoch': 1.56}
+{'loss': 2.7417, 'grad_norm': 6.3323163986206055, 'learning_rate': 2.538e-06, 'epoch': 1.57}
+{'loss': 2.707, 'grad_norm': 4.66796350479126, 'learning_rate': 2.541e-06, 'epoch': 1.57}
+{'loss': 2.7194, 'grad_norm': 6.403055191040039, 'learning_rate': 2.544e-06, 'epoch': 1.57}
+{'loss': 2.7007, 'grad_norm': 5.171673774719238, 'learning_rate': 2.5470000000000003e-06, 'epoch': 1.57}
+{'loss': 2.7044, 'grad_norm': 3.812385320663452, 'learning_rate': 2.55e-06, 'epoch': 1.57}
+{'loss': 2.7368, 'grad_norm': 8.64167594909668, 'learning_rate': 2.553e-06, 'epoch': 1.57}
+{'loss': 2.6865, 'grad_norm': 6.886471271514893, 'learning_rate': 2.556e-06, 'epoch': 1.58}
+{'loss': 2.6864, 'grad_norm': 4.122204303741455, 'learning_rate': 2.559e-06, 'epoch': 1.58}
+{'loss': 2.6743, 'grad_norm': 5.5636067390441895, 'learning_rate': 2.562e-06, 'epoch': 1.58}
+{'loss': 2.6896, 'grad_norm': 4.138462543487549, 'learning_rate': 2.5650000000000004e-06, 'epoch': 1.58}
+{'loss': 2.6389, 'grad_norm': 3.9760003089904785, 'learning_rate': 2.568e-06, 'epoch': 1.58}
+{'loss': 2.6655, 'grad_norm': 3.1889688968658447, 'learning_rate': 2.571e-06, 'epoch': 1.59}
+{'loss': 2.6764, 'grad_norm': 5.70900821685791, 'learning_rate': 2.5740000000000003e-06, 'epoch': 1.59}
+{'loss': 2.6499, 'grad_norm': 4.828238487243652, 'learning_rate': 2.577e-06, 'epoch': 1.59}
+{'loss': 2.6698, 'grad_norm': 3.9876034259796143, 'learning_rate': 2.58e-06, 'epoch': 1.59}
+{'loss': 2.6383, 'grad_norm': 3.536850690841675, 'learning_rate': 2.583e-06, 'epoch': 1.59}
+{'loss': 2.6255, 'grad_norm': 3.826817035675049, 'learning_rate': 2.586e-06, 'epoch': 1.59}
+{'loss': 2.6355, 'grad_norm': 6.136444091796875, 'learning_rate': 2.589e-06, 'epoch': 1.6}
+{'loss': 2.677, 'grad_norm': 3.2077252864837646, 'learning_rate': 2.5920000000000003e-06, 'epoch': 1.6}
+{'loss': 2.6584, 'grad_norm': 3.540379762649536, 'learning_rate': 2.5949999999999997e-06, 'epoch': 1.6}
+{'loss': 2.6294, 'grad_norm': 3.182039737701416, 'learning_rate': 2.598e-06, 'epoch': 1.6}
+{'loss': 2.6402, 'grad_norm': 2.667015314102173, 'learning_rate': 2.601e-06, 'epoch': 1.6}
+{'loss': 2.6315, 'grad_norm': 4.8609938621521, 'learning_rate': 2.604e-06, 'epoch': 1.61}
+{'loss': 2.5968, 'grad_norm': 3.460028648376465, 'learning_rate': 2.607e-06, 'epoch': 1.61}
+{'loss': 2.6517, 'grad_norm': 2.8984220027923584, 'learning_rate': 2.61e-06, 'epoch': 1.61}
+{'loss': 2.5993, 'grad_norm': 5.12603759765625, 'learning_rate': 2.613e-06, 'epoch': 1.61}
+{'loss': 2.6411, 'grad_norm': 4.4763641357421875, 'learning_rate': 2.616e-06, 'epoch': 1.61}
+{'loss': 2.619, 'grad_norm': 3.163438558578491, 'learning_rate': 2.6190000000000003e-06, 'epoch': 1.61}
+{'loss': 2.609, 'grad_norm': 5.125920295715332, 'learning_rate': 2.622e-06, 'epoch': 1.62}
+{'loss': 2.6037, 'grad_norm': 3.5490097999572754, 'learning_rate': 2.625e-06, 'epoch': 1.62}
+{'loss': 2.6346, 'grad_norm': 6.430298805236816, 'learning_rate': 2.628e-06, 'epoch': 1.62}
+{'loss': 2.6379, 'grad_norm': 3.71742844581604, 'learning_rate': 2.631e-06, 'epoch': 1.62}
+{'loss': 2.6065, 'grad_norm': 3.395528554916382, 'learning_rate': 2.634e-06, 'epoch': 1.62}
+{'loss': 2.6013, 'grad_norm': 5.155135631561279, 'learning_rate': 2.6370000000000003e-06, 'epoch': 1.63}
+{'loss': 2.6259, 'grad_norm': 4.800289630889893, 'learning_rate': 2.6399999999999997e-06, 'epoch': 1.63}
+{'loss': 2.6065, 'grad_norm': 5.167157173156738, 'learning_rate': 2.643e-06, 'epoch': 1.63}
+  1%|          | 884/100000 [28:45<30:45:43,  1.12s/it]  1%|          | 885/100000 [28:46<30:24:06,  1.10s/it]                                                         1%|          | 885/100000 [28:46<30:24:06,  1.10s/it]  1%|          | 886/100000 [28:47<29:58:20,  1.09s/it]                                                         1%|          | 886/100000 [28:47<29:58:20,  1.09s/it]  1%|          | 887/100000 [28:48<29:26:53,  1.07s/it]                                                         1%|          | 887/100000 [28:48<29:26:53,  1.07s/it]  1%|          | 888/100000 [28:49<28:56:05,  1.05s/it]                                                         1%|          | 888/100000 [28:49<28:56:05,  1.05s/it]  1%|          | 889/100000 [28:50<28:20:22,  1.03s/it]                                                         1%|          | 889/100000 [28:50<28:20:22,  1.03s/it]  1%|          | 890/100000 [28:51<27:57:50,  1.02s/it]                                                         1%|          | 890/100000 [28:51<27:57:50,  1.02s/it]  1%|          | 891/100000 [28:52<27:25:07,  1.00it/s]                                                         1%|          | 891/100000 [28:52<27:25:07,  1.00it/s]  1%|          | 892/100000 [28:53<26:32:47,  1.04it/s]                                                         1%|          | 892/100000 [28:53<26:32:47,  1.04it/s]  1%|          | 893/100000 [29:04<111:48:10,  4.06s/it]                                                          1%|          | 893/100000 [29:04<111:48:10,  4.06s/it]  1%|          | 894/100000 [29:10<127:45:05,  4.64s/it]                                                          1%|          | 894/100000 [29:10<127:45:05,  4.64s/it]  1%|          | 895/100000 [29:15<129:13:40,  4.69s/it]                                                          1%|          | 895/100000 [29:15<129:13:40,  4.69s/it]  1%|          | 896/100000 [29:19<124:50:23,  4.53s/it]                                                          1%|          | 896/100000 [29:19<124:50:23,  4.53s/it]  1%|          | 897/100000 [29:23<118:19:23,  4.30s/it]                                                          1%|          | 897/100000 [29:23<118:19:23,  4.30s/it]  1%|          | 898/100000 [29:26<110:19:50,  4.01s/it]                                                          1%|          | 898/100000 [29:26<110:19:50,  4.01s/it]  1%|          | 899/100000 [29:29<101:13:45,  3.68s/it]                                                          1%|          | 899/100000 [29:29<101:13:45,  3.68s/it]  1%|          | 900/100000 [29:32<93:10:46,  3.38s/it]                                                          1%|          | 900/100000 [29:32<93:10:46,  3.38s/it]  1%|          | 901/100000 [29:34<85:23:48,  3.10s/it]                                                         1%|          | 901/100000 [29:34<85:23:48,  3.10s/it]  1%|          | 902/100000 [29:36<79:33:36,  2.89s/it]                                                         1%|          | 902/100000 [29:36<79:33:36,  2.89s/it]  1%|          | 903/100000 [29:38<72:50:27,  2.65s/it]                                                         1%|          | 903/100000 [29:39<72:50:27,  2.65s/it]  1%|          | 904/100000 [29:41<68:23:21,  2.48s/it]                                                         1%|          | 904/100000 [29:41<68:23:21,  2.48s/it]  1%|          | 905/100000 [29:43<63:50:19,  2.32s/it]                                                         1%|          | 905/100000 [29:43<63:50:19,  2.32s/it]  1%|          | 906/100000 [29:44<60:17:05,  2.19s/it]                                                         1%|          | 906/100000 [29:44<60:17:05,  2.19s/it]  1%|          | 907/100000 [29:46<56:28:21,  2.05s/it]                                                         1%|          | 907/100000 [29:46<56:28:21,  2.05s/it]  1%|          | 908/100000 [29:48<53:51:02,  1.96s/it]                                                         1%|          | 908/100000 [29:48<53:51:02,  1.96s/it]  1%|          | 909/100000 [29:50<51:31:10,  1.87s/it]                                                         1%|          | 909/100000 [29:50<51:31:10,  1.87s/it]  1%|          | 910/100000 [29:51<49:33:40,  1.80s/it]                                                         1%|          | 910/100000 [29:51<49:33:40,  1.80s/it]  1%|          | 911/100000 [29:53<47:50:24,  1.74s/it]                                                         1%|          | 911/100000 [29:53<47:50:24,  1.74s/it]  1%|          | 912/100000 [29:54<46:21:15,  1.68s/it]                                                         1%|          | 912/100000 [29:54<46:21:15,  1.68s/it]  1%|          | 913/100000 [29:56<44:47:56,  1.63s/it]                                                         1%|          | 913/100000 [29:56<44:47:56,  1.63s/it]  1%|          | 914/100000 [29:57<43:10:42,  1.57s/it]                                                         1%|          | 914/100000 [29:57<43:10:42,  1.57s/it]  1%|          | 915/100000 [29:59<41:49:14,  1.52s/it]                                                         1%|          | 915/100000 [29:59<41:49:14,  1.52s/it]  1%|          | 916/100000 [30:00<40:56:53,  1.49s/it]                                                         1%|          | 916/100000 [30:00<40:56:53,  1.49s/it]  1%|          | 917/100000 [30:01<40:02:17,  1.45s/it]                                                         1%|          | 917/100000 [30:01<40:02:17,  1.45s/it]  1%|          | 918/100000 [30:03<39:19:39,  1.43s/it]                                                         1%|          | 918/100000 [30:03<39:19:39,  1.43s/it]  1%|          | 919/100000 [30:04<38:47:06,  1.41s/it]                                                         1%|          | 919/100000 [30:04<38:47:06,  1.41s/it]  1%|          | 920/100000 [30:06<38:06:13,  1.38s/it]                                                         1%|          | 920/100000 [30:06<38:06:13,  1.38s/it]  1%|          | 921/100000 [30:07<37:32:56,  1.36s/it]                                                         1%|          | 921/100000 [30:07<37:32:56,  1.36s/it]  1%|          | 922/100000 [30:08<37:00:15,  1.34s/it]                                                         1%|          | 922/100000 [30:08<37:00:15,  1.34s/it]  1%|          | 923/100000 [30:09<36:21:59,  1.32s/it]                                                         1%|          | 923/100000 [30:09<36:21:59,  1.32s/it]  1%|          | 924/100000 [30:11<35:52:33,  1.30s/it]                                                         1%|          | 924/100000 [30:11<35:52:33,  1.30s/it]  1%|          | 925/100000 [30:12<35:13:32,  1.28s/it]                                                         1%|          | 925/100000 [30:12<35:13:32,  1.28s/it]  1%|          | 926/100000 [30:13<34:48:11,  1.26s/it]                                                         1%|          | 926/100000 [30:13<34:48:11,  1.26s/it]  1%|          | 927/100000 [30:14<34:22:28,  1.25s/it]                                                         1%|          | 927/100000 [30:14<34:22:28,  1.25s/it]  1%|          | 928/100000 [30:15<33:39:46,  1.22s/it]                                                         1%|          | 928/100000 [30:16<33:39:46,  1.22s/it]  1%|          | 929/100000 [30:17<33:06:26,  1.20s/it]                                                         1%|          | 929/100000 [30:17<33:06:26,  1.20s/it]  1%|          | 930/100000 [30:18<32:23:01,  1.18s/it]                                                         1%|          | 930/100000 [30:18<32:23:01,  1.18s/it]  1%|          | 931/100000 [30:19<31:57:28,  1.16s/it]                                                         1%|          | 931/100000 [30:19<31:57:28,  1.16s/it]  1%|          | 932/100000 [30:20<31:53:18,  1.16s/it]                                                         1%|          | 932/100000 [30:20<31:53:18,  1.16s/it]  1%|          | 933/100000 [30:21<31:29:25,  1.14s/it]                                                         1%|          | 933/100000 [30:21<31:29:25,  1.14s/it]  1%|          | 934/100000 [30:22<31:06:08,  1.13s/it]                                                         1%|          | 934/100000 [30:22<31:06:08,  1.13s/it]  1%|          | 935/100000 [30:23<30:40:46,  1.11s/it]                                                         1%|          | 935/100000 [30:23<30:40:46,  1.11s/it]  1%|          | 936/100000 [30:24<30:09:39,  1.10s/it]                                                         1%|          | 936/100000 [30:24<30:09:39,  1.10s/it]  1%|          | 937/100000 [30:25<29:29:08,  1.07s/it]                                                         1%|          | 937/100000 [30:25<29:29:08,  1.07s/it]  1%|          | 938/100000 [30:26<28:55:26,  1.05s/it]                                                         1%|          | 938/100000 [30:26<28:55:26,  1.05s/it]  1%|          | 939/100000 [30:27<28:15:50,  1.03s/it]                                                         1%|          | 939/100000 [30:27<28:15:50,  1.03s/it]  1%|          | 940/100000 [30:28<27:44:42,  1.01s/it]                                                         1%|          | 940/100000 [30:28<27:44:42,  1.01s/it]  1%|          | 941/100000 [30:29<26:49:15,  1.03it/s]                                                         1%|          | 941/100000 [30:29<26:49:15,  1.03it/s]  1%|          | 942/100000 [30:30<25:48:36,  1.07it/s]                                                         1%|          | 942/100000 [30:30<25:48:36,  1.07it/s]  1%|          | 943/100000 [30:42<114:37:22,  4.17s/it]                                                          1%|          | 943/100000 [30:42<114:37:22,  4.17s/it]  1%|          | 944/100000 [30:48<127:27:45,  4.63s/it]                                                          1%|          | 944/100000 [30:48<127:27:45,  4.63s/it]  1%|          | 945/100000 [30:52<126:34:30,  4.60s/it]                                                          1%|          | 945/100000 [30:52<126:34:30,  4.60s/it]  1%|          | 946/100000 [30:56<122:44:18,  4.46s/it]                                                          1%|          | 946/100000 [30:56<122:44:18,  4.46s/it]  1%|          | 947/100000 [31:00<115:42:51,  4.21s/it]                                                          1%|          | 947/100000 [31:00<115:42:51,  4.21s/it]  1%|          | 948/100000 [31:03<107:32:44,  3.91s/it]                                                          1%|          | 948/100000 [31:03<107:32:44,  3.91s/it]  1%|          | 949/100000 [31:06<100:17:20,  3.64s/it]                                                          1%|          | 949/100000 [31:06<100:17:20,  3.64s/it]  1%|          | 950/100000 [31:09<93:32:41,  3.40s/it]                                                          1%|          | 950/100000 [31:09<93:32:41,  3.40s/it]  1%|          | 951/100000 [31:11<86:10:50,  3.13s/it]                                                         1%|          | 951/100000 [31:11<86:10:50,  3.13s/it]  1%|          | 952/100000 [31:14<80:15:43,  2.92s/it]                                                         1%|          | 952/100000 [31:14<80:15:43,  2.92s/it]  1%|          | 953/100000 [31:16<74:13:31,  2.70s/it]                                                         1%|          | 953/100000 [31:16<74:13:31,  2.70s/it]  1%|          | 954/100000 [31:18<69:07:28,  2.51s/it]                                                         1%|          | 954/100000 [31:18<69:07:28,  2.51s/it]  1%|          | 955/100000 [31:20<64:36:49,  2.35s/it]                                                         1%|          | 955/100000 [31:20<64:36:49,  2.35s/it]  1%|          | 956/100000 [31:22<60:01:36,  2.18s/it]                                                         1%|          | 956/100000 [31:22<60:01:36,  2.18s/it]  1%|          | 957/100000 [31:23<55:39:01,  2.02s/it]                                                         1%|          | 957/100000 [31:23<55:39:01,  2.02s/it]  1%|          | 958/100000 [31:25<52:59:12,  1.93s/it]                                                         1%|          | 958/100000 [31:25<52:59:12,  1.93s/it]  1%|          | 959/100000 [31:27<50:21:13,  1.83s/it]                                                         1%|          | 959/100000 [31:27<50:21:13,  1.83s/it]  1%|          | 960/100000 [31:28<48:27:19,  1.76s/it]                                                         1%|          | 960/100000 [31:28<48:27:19,  1.76s/it]  1%|          | 961/100000 [31:30<46:41:35,  1.70s/it]                                                         1%|          | 961/100000 [31:30<46:41:35,  1.70s/it]  1%|          | 962/100000 [31:31<44:57:04,  1.63s/it]                                                         1%|          | 962/100000 [31:31<44:57:04,  1.63s/it]  1%|          | 963/100000 [31:33<43:44:22,  1.59s/it]                                                         1%|          | 963/100000 [31:33<43:44:22,  1.59s/it]  1%|          | 964/100000 [31:34<42:31:33,  1.55s/it]                                                         1%|          | 964/100000 [31:34<42:31:33,  1.55s/it]  1%|          | 965/100000 [31:36<41:34:59,  1.51s/it]                                                         1%|          | 965/100000 [31:36<41:34:59,  1.51s/it]  1%|          | 966/100000 [31:37<40:38:56,  1.48s/it]                                                         1%|          | 966/100000 [31:37<40:38:56,  1.48s/it]  1%|          | 967/100000 [31:38<39:28:02,  1.43s/it]                                                         1%|          | 967/100000 [31:38<39:28:02,  1.43s/it]  1%|          | 968/100000 [31:40<38:51:28,  1.41s/it]                                                         1%|          | 968/100000 [31:40<38:51:28,  1.41s/it]  1%|          | 969/100000 [31:41<37:51:45,  1.38s/it]                                                       {'loss': 2.6042, 'grad_norm': 5.212462902069092, 'learning_rate': 2.646e-06, 'epoch': 1.63}
+{'loss': 2.5636, 'grad_norm': 3.7768590450286865, 'learning_rate': 2.649e-06, 'epoch': 1.63}
+{'loss': 2.624, 'grad_norm': 3.708564281463623, 'learning_rate': 2.652e-06, 'epoch': 1.64}
+{'loss': 2.5539, 'grad_norm': 3.8434557914733887, 'learning_rate': 2.655e-06, 'epoch': 1.64}
+{'loss': 2.5992, 'grad_norm': 5.406363487243652, 'learning_rate': 2.6580000000000002e-06, 'epoch': 1.64}
+{'loss': 2.6162, 'grad_norm': 3.292588710784912, 'learning_rate': 2.661e-06, 'epoch': 1.64}
+{'loss': 2.6225, 'grad_norm': 6.086481094360352, 'learning_rate': 2.6640000000000002e-06, 'epoch': 1.64}
+{'loss': 2.6216, 'grad_norm': 5.598721504211426, 'learning_rate': 2.6670000000000005e-06, 'epoch': 1.64}
+{'loss': 2.5437, 'grad_norm': 4.04868221282959, 'learning_rate': 2.67e-06, 'epoch': 1.65}
+{'loss': 2.7949, 'grad_norm': 4.556248188018799, 'learning_rate': 2.673e-06, 'epoch': 1.65}
+{'loss': 2.7995, 'grad_norm': 3.4863927364349365, 'learning_rate': 2.6760000000000003e-06, 'epoch': 1.65}
+{'loss': 2.7359, 'grad_norm': 2.3505067825317383, 'learning_rate': 2.679e-06, 'epoch': 1.65}
+{'loss': 2.7324, 'grad_norm': 2.904036521911621, 'learning_rate': 2.682e-06, 'epoch': 1.65}
+{'loss': 2.7101, 'grad_norm': 2.6287262439727783, 'learning_rate': 2.685e-06, 'epoch': 1.66}
+{'loss': 2.6604, 'grad_norm': 4.635859966278076, 'learning_rate': 2.688e-06, 'epoch': 1.66}
+{'loss': 2.6693, 'grad_norm': 3.0158092975616455, 'learning_rate': 2.691e-06, 'epoch': 1.66}
+{'loss': 2.6603, 'grad_norm': 2.7617454528808594, 'learning_rate': 2.6940000000000004e-06, 'epoch': 1.66}
+{'loss': 2.6057, 'grad_norm': 4.1142449378967285, 'learning_rate': 2.6969999999999998e-06, 'epoch': 1.66}
+{'loss': 2.6286, 'grad_norm': 4.510326385498047, 'learning_rate': 2.7e-06, 'epoch': 1.66}
+{'loss': 2.6388, 'grad_norm': 3.2970147132873535, 'learning_rate': 2.703e-06, 'epoch': 1.67}
+{'loss': 2.6044, 'grad_norm': 4.057903289794922, 'learning_rate': 2.706e-06, 'epoch': 1.67}
+{'loss': 2.5706, 'grad_norm': 2.707749605178833, 'learning_rate': 2.7090000000000002e-06, 'epoch': 1.67}
+{'loss': 2.5373, 'grad_norm': 3.057931423187256, 'learning_rate': 2.712e-06, 'epoch': 1.67}
+{'loss': 2.5179, 'grad_norm': 3.6897811889648438, 'learning_rate': 2.715e-06, 'epoch': 1.67}
+{'loss': 2.5037, 'grad_norm': 3.4612832069396973, 'learning_rate': 2.718e-06, 'epoch': 1.68}
+{'loss': 2.5421, 'grad_norm': 4.006030559539795, 'learning_rate': 2.7210000000000003e-06, 'epoch': 1.68}
+{'loss': 2.5214, 'grad_norm': 4.664487838745117, 'learning_rate': 2.724e-06, 'epoch': 1.68}
+{'loss': 2.4488, 'grad_norm': 4.485028266906738, 'learning_rate': 2.727e-06, 'epoch': 1.68}
+{'loss': 2.4525, 'grad_norm': 3.4627418518066406, 'learning_rate': 2.73e-06, 'epoch': 1.68}
+{'loss': 2.4505, 'grad_norm': 3.839110851287842, 'learning_rate': 2.733e-06, 'epoch': 1.69}
+{'loss': 2.4108, 'grad_norm': 3.6342220306396484, 'learning_rate': 2.736e-06, 'epoch': 1.69}
+{'loss': 2.4424, 'grad_norm': 4.183078765869141, 'learning_rate': 2.7390000000000004e-06, 'epoch': 1.69}
+{'loss': 2.3767, 'grad_norm': 4.1377854347229, 'learning_rate': 2.7419999999999998e-06, 'epoch': 1.69}
+{'loss': 2.3823, 'grad_norm': 3.869332790374756, 'learning_rate': 2.745e-06, 'epoch': 1.69}
+{'loss': 2.3853, 'grad_norm': 3.835867166519165, 'learning_rate': 2.748e-06, 'epoch': 1.69}
+{'loss': 2.3881, 'grad_norm': 5.005284309387207, 'learning_rate': 2.751e-06, 'epoch': 1.7}
+{'loss': 2.3436, 'grad_norm': 4.473355770111084, 'learning_rate': 2.7540000000000002e-06, 'epoch': 1.7}
+{'loss': 2.3374, 'grad_norm': 3.1353838443756104, 'learning_rate': 2.757e-06, 'epoch': 1.7}
+{'loss': 2.2889, 'grad_norm': 3.464097499847412, 'learning_rate': 2.76e-06, 'epoch': 1.7}
+{'loss': 2.2898, 'grad_norm': 3.300783634185791, 'learning_rate': 2.763e-06, 'epoch': 1.7}
+{'loss': 2.2912, 'grad_norm': 4.972532272338867, 'learning_rate': 2.7660000000000003e-06, 'epoch': 1.71}
+{'loss': 2.2812, 'grad_norm': 5.833555698394775, 'learning_rate': 2.7689999999999997e-06, 'epoch': 1.71}
+{'loss': 2.2297, 'grad_norm': 4.416055202484131, 'learning_rate': 2.772e-06, 'epoch': 1.71}
+{'loss': 2.243, 'grad_norm': 8.705913543701172, 'learning_rate': 2.775e-06, 'epoch': 1.71}
+{'loss': 2.2515, 'grad_norm': 3.3832077980041504, 'learning_rate': 2.778e-06, 'epoch': 1.71}
+{'loss': 2.193, 'grad_norm': 4.412527561187744, 'learning_rate': 2.781e-06, 'epoch': 1.71}
+{'loss': 2.2242, 'grad_norm': 4.890414237976074, 'learning_rate': 2.784e-06, 'epoch': 1.72}
+{'loss': 2.1902, 'grad_norm': 4.201949596405029, 'learning_rate': 2.787e-06, 'epoch': 1.72}
+{'loss': 2.188, 'grad_norm': 3.7861242294311523, 'learning_rate': 2.79e-06, 'epoch': 1.72}
+{'loss': 2.1455, 'grad_norm': 4.323360443115234, 'learning_rate': 2.793e-06, 'epoch': 1.72}
+{'loss': 2.099, 'grad_norm': 2.85317325592041, 'learning_rate': 2.7960000000000004e-06, 'epoch': 1.72}
+{'loss': 2.0754, 'grad_norm': 3.6395180225372314, 'learning_rate': 2.799e-06, 'epoch': 1.73}
+{'loss': 2.0919, 'grad_norm': 4.379446983337402, 'learning_rate': 2.802e-06, 'epoch': 1.73}
+{'loss': 2.0443, 'grad_norm': 3.4269096851348877, 'learning_rate': 2.8050000000000002e-06, 'epoch': 1.73}
+{'loss': 2.0577, 'grad_norm': 4.84335994720459, 'learning_rate': 2.808e-06, 'epoch': 1.73}
+{'loss': 2.0765, 'grad_norm': 7.587337493896484, 'learning_rate': 2.8110000000000003e-06, 'epoch': 1.73}
+{'loss': 2.0361, 'grad_norm': 6.143586158752441, 'learning_rate': 2.814e-06, 'epoch': 1.73}
+{'loss': 1.9983, 'grad_norm': 4.004847526550293, 'learning_rate': 2.817e-06, 'epoch': 1.74}
+{'loss': 2.0316, 'grad_norm': 6.8099260330200195, 'learning_rate': 2.82e-06, 'epoch': 1.74}
+{'loss': 2.4311, 'grad_norm': 9.880424499511719, 'learning_rate': 2.8230000000000003e-06, 'epoch': 1.74}
+{'loss': 2.3447, 'grad_norm': 6.309079170227051, 'learning_rate': 2.826e-06, 'epoch': 1.74}
+{'loss': 2.2527, 'grad_norm': 4.839874744415283, 'learning_rate': 2.829e-06, 'epoch': 1.74}
+{'loss': 2.1876, 'grad_norm': 3.779041051864624, 'learning_rate': 2.832e-06, 'epoch': 1.75}
+{'loss': 2.1817, 'grad_norm': 6.362606048583984, 'learning_rate': 2.835e-06, 'epoch': 1.75}
+{'loss': 2.1166, 'grad_norm': 8.506185531616211, 'learning_rate': 2.838e-06, 'epoch': 1.75}
+{'loss': 2.1144, 'grad_norm': 5.72320032119751, 'learning_rate': 2.8410000000000004e-06, 'epoch': 1.75}
+{'loss': 2.0904, 'grad_norm': 4.872931957244873, 'learning_rate': 2.844e-06, 'epoch': 1.75}
+{'loss': 2.0425, 'grad_norm': 5.8115153312683105, 'learning_rate': 2.847e-06, 'epoch': 1.76}
+{'loss': 1.9555, 'grad_norm': 5.148961067199707, 'learning_rate': 2.8500000000000002e-06, 'epoch': 1.76}
+{'loss': 1.8868, 'grad_norm': 4.77873420715332, 'learning_rate': 2.853e-06, 'epoch': 1.76}
+{'loss': 1.9266, 'grad_norm': 6.63554573059082, 'learning_rate': 2.8560000000000003e-06, 'epoch': 1.76}
+{'loss': 1.9111, 'grad_norm': 5.592360019683838, 'learning_rate': 2.859e-06, 'epoch': 1.76}
+{'loss': 1.8245, 'grad_norm': 6.387895107269287, 'learning_rate': 2.862e-06, 'epoch': 1.76}
+{'loss': 1.748, 'grad_norm': 5.357057571411133, 'learning_rate': 2.865e-06, 'epoch': 1.77}
+{'loss': 1.7151, 'grad_norm': 13.47465991973877, 'learning_rate': 2.8680000000000003e-06, 'epoch': 1.77}
+{'loss': 1.673, 'grad_norm': 3.3738362789154053, 'learning_rate': 2.8709999999999997e-06, 'epoch': 1.77}
+{'loss': 1.7046, 'grad_norm': 4.385458946228027, 'learning_rate': 2.874e-06, 'epoch': 1.77}
+{'loss': 1.6725, 'grad_norm': 2.9951484203338623, 'learning_rate': 2.877e-06, 'epoch': 1.77}
+{'loss': 1.6102, 'grad_norm': 5.280602931976318, 'learning_rate': 2.88e-06, 'epoch': 1.78}
+{'loss': 1.5605, 'grad_norm': 3.529313802719116, 'learning_rate': 2.883e-06, 'epoch': 1.78}
+{'loss': 1.5792, 'grad_norm': 8.768348693847656, 'learning_rate': 2.886e-06, 'epoch': 1.78}
+{'loss': 1.5769, 'grad_norm': 4.621875286102295, 'learning_rate': 2.8889999999999998e-06, 'epoch': 1.78}
+{'loss': 1.522, 'grad_norm': 2.7766876220703125, 'learning_rate': 2.892e-06, 'epoch': 1.78}
+{'loss': 1.539, 'grad_norm': 3.9150314331054688, 'learning_rate': 2.8950000000000002e-06, 'epoch': 1.78}
+{'loss': 1.4637, 'grad_norm': 7.411330699920654, 'learning_rate': 2.898e-06, 'epoch': 1.79}
+  1%|          | 969/100000 [31:41<37:51:45,  1.38s/it]  1%|          | 970/100000 [31:42<37:35:31,  1.37s/it]                                                         1%|          | 970/100000 [31:42<37:35:31,  1.37s/it]  1%|          | 971/100000 [31:44<36:47:18,  1.34s/it]                                                         1%|          | 971/100000 [31:44<36:47:18,  1.34s/it]  1%|          | 972/100000 [31:45<36:22:49,  1.32s/it]                                                         1%|          | 972/100000 [31:45<36:22:49,  1.32s/it]  1%|          | 973/100000 [31:46<35:35:50,  1.29s/it]                                                         1%|          | 973/100000 [31:46<35:35:50,  1.29s/it]  1%|          | 974/100000 [31:47<35:00:11,  1.27s/it]                                                         1%|          | 974/100000 [31:47<35:00:11,  1.27s/it]  1%|          | 975/100000 [31:49<34:34:20,  1.26s/it]                                                         1%|          | 975/100000 [31:49<34:34:20,  1.26s/it]  1%|          | 976/100000 [31:50<33:49:29,  1.23s/it]                                                         1%|          | 976/100000 [31:50<33:49:29,  1.23s/it]  1%|          | 977/100000 [31:51<33:18:05,  1.21s/it]                                                         1%|          | 977/100000 [31:51<33:18:05,  1.21s/it]  1%|          | 978/100000 [31:52<32:51:04,  1.19s/it]                                                         1%|          | 978/100000 [31:52<32:51:04,  1.19s/it]  1%|          | 979/100000 [31:53<32:34:09,  1.18s/it]                                                         1%|          | 979/100000 [31:53<32:34:09,  1.18s/it]  1%|          | 980/100000 [31:55<32:17:18,  1.17s/it]                                                         1%|          | 980/100000 [31:55<32:17:18,  1.17s/it]  1%|          | 981/100000 [31:56<31:29:42,  1.15s/it]                                                         1%|          | 981/100000 [31:56<31:29:42,  1.15s/it]  1%|          | 982/100000 [31:57<31:01:56,  1.13s/it]                                                         1%|          | 982/100000 [31:57<31:01:56,  1.13s/it]  1%|          | 983/100000 [31:58<30:29:50,  1.11s/it]                                                         1%|          | 983/100000 [31:58<30:29:50,  1.11s/it]  1%|          | 984/100000 [31:59<30:14:54,  1.10s/it]                                                         1%|          | 984/100000 [31:59<30:14:54,  1.10s/it]  1%|          | 985/100000 [32:00<29:44:45,  1.08s/it]                                                         1%|          | 985/100000 [32:00<29:44:45,  1.08s/it]  1%|          | 986/100000 [32:01<29:18:27,  1.07s/it]                                                         1%|          | 986/100000 [32:01<29:18:27,  1.07s/it]  1%|          | 987/100000 [32:02<28:37:33,  1.04s/it]                                                         1%|          | 987/100000 [32:02<28:37:33,  1.04s/it]  1%|          | 988/100000 [32:03<27:57:38,  1.02s/it]                                                         1%|          | 988/100000 [32:03<27:57:38,  1.02s/it]  1%|          | 989/100000 [32:04<27:33:57,  1.00s/it]                                                         1%|          | 989/100000 [32:04<27:33:57,  1.00s/it]  1%|          | 990/100000 [32:05<26:55:44,  1.02it/s]                                                         1%|          | 990/100000 [32:05<26:55:44,  1.02it/s]  1%|          | 991/100000 [32:06<26:15:56,  1.05it/s]                                                         1%|          | 991/100000 [32:06<26:15:56,  1.05it/s]  1%|          | 992/100000 [32:06<25:35:43,  1.07it/s]                                                         1%|          | 992/100000 [32:06<25:35:43,  1.07it/s]  1%|          | 993/100000 [32:19<117:24:12,  4.27s/it]                                                          1%|          | 993/100000 [32:19<117:24:12,  4.27s/it]  1%|          | 994/100000 [32:24<127:05:32,  4.62s/it]                                                          1%|          | 994/100000 [32:24<127:05:32,  4.62s/it]  1%|          | 995/100000 [32:28<125:22:10,  4.56s/it]                                                          1%|          | 995/100000 [32:28<125:22:10,  4.56s/it]  1%|          | 996/100000 [32:32<119:14:42,  4.34s/it]                                                          1%|          | 996/100000 [32:32<119:14:42,  4.34s/it]  1%|          | 997/100000 [32:36<110:49:45,  4.03s/it]                                                          1%|          | 997/100000 [32:36<110:49:45,  4.03s/it]  1%|          | 998/100000 [32:39<103:25:32,  3.76s/it]                                                          1%|          | 998/100000 [32:39<103:25:32,  3.76s/it]  1%|          | 999/100000 [32:42<96:00:43,  3.49s/it]                                                          1%|          | 999/100000 [32:42<96:00:43,  3.49s/it]  1%|          | 1000/100000 [32:44<89:15:23,  3.25s/it]                                                          1%|          | 1000/100000 [32:44<89:15:23,  3.25s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 1.4333, 'grad_norm': 4.648345470428467, 'learning_rate': 2.901e-06, 'epoch': 1.79}
+{'loss': 1.4157, 'grad_norm': 4.080045223236084, 'learning_rate': 2.904e-06, 'epoch': 1.79}
+{'loss': 1.3991, 'grad_norm': 15.073267936706543, 'learning_rate': 2.907e-06, 'epoch': 1.79}
+{'loss': 1.3885, 'grad_norm': 5.176401138305664, 'learning_rate': 2.91e-06, 'epoch': 1.79}
+{'loss': 1.3605, 'grad_norm': 3.8407390117645264, 'learning_rate': 2.9130000000000003e-06, 'epoch': 1.8}
+{'loss': 1.3694, 'grad_norm': 3.0771899223327637, 'learning_rate': 2.916e-06, 'epoch': 1.8}
+{'loss': 1.2812, 'grad_norm': 4.342832088470459, 'learning_rate': 2.919e-06, 'epoch': 1.8}
+{'loss': 1.2985, 'grad_norm': 3.102047920227051, 'learning_rate': 2.922e-06, 'epoch': 1.8}
+{'loss': 1.2971, 'grad_norm': 2.795923948287964, 'learning_rate': 2.9250000000000004e-06, 'epoch': 1.8}
+{'loss': 1.1874, 'grad_norm': 6.470213413238525, 'learning_rate': 2.928e-06, 'epoch': 1.81}
+{'loss': 1.2674, 'grad_norm': 9.83168888092041, 'learning_rate': 2.931e-06, 'epoch': 1.81}
+{'loss': 1.2251, 'grad_norm': 5.468801498413086, 'learning_rate': 2.934e-06, 'epoch': 1.81}
+{'loss': 1.1727, 'grad_norm': 4.2570109367370605, 'learning_rate': 2.937e-06, 'epoch': 1.81}
+{'loss': 1.1752, 'grad_norm': 7.420529842376709, 'learning_rate': 2.9400000000000002e-06, 'epoch': 1.81}
+{'loss': 1.185, 'grad_norm': nan, 'learning_rate': 2.9400000000000002e-06, 'epoch': 1.81}
+{'loss': 1.178, 'grad_norm': 4.976733207702637, 'learning_rate': 2.9430000000000005e-06, 'epoch': 1.82}
+{'loss': 1.1264, 'grad_norm': 4.1213765144348145, 'learning_rate': 2.946e-06, 'epoch': 1.82}
+{'loss': 1.1685, 'grad_norm': 3.392833948135376, 'learning_rate': 2.949e-06, 'epoch': 1.82}
+{'loss': 1.1395, 'grad_norm': 21.531436920166016, 'learning_rate': 2.9520000000000003e-06, 'epoch': 1.82}
+{'loss': 1.1045, 'grad_norm': 4.77427339553833, 'learning_rate': 2.955e-06, 'epoch': 1.82}
+{'loss': 1.1141, 'grad_norm': 5.12446928024292, 'learning_rate': 2.958e-06, 'epoch': 1.83}
+{'loss': 1.0613, 'grad_norm': 4.657517910003662, 'learning_rate': 2.961e-06, 'epoch': 1.83}
+{'loss': 1.0681, 'grad_norm': 9.723724365234375, 'learning_rate': 2.964e-06, 'epoch': 1.83}
+{'loss': 1.1434, 'grad_norm': 3.2556118965148926, 'learning_rate': 2.967e-06, 'epoch': 1.83}
+{'loss': 1.8507, 'grad_norm': 10.147623062133789, 'learning_rate': 2.9700000000000004e-06, 'epoch': 1.83}
+{'loss': 1.5426, 'grad_norm': 5.80134391784668, 'learning_rate': 2.9729999999999997e-06, 'epoch': 1.83}
+{'loss': 1.486, 'grad_norm': 4.6190876960754395, 'learning_rate': 2.976e-06, 'epoch': 1.84}
+{'loss': 1.4601, 'grad_norm': 3.1225485801696777, 'learning_rate': 2.979e-06, 'epoch': 1.84}
+{'loss': 1.4278, 'grad_norm': 3.720115900039673, 'learning_rate': 2.982e-06, 'epoch': 1.84}
+{'loss': 1.2362, 'grad_norm': 10.240564346313477, 'learning_rate': 2.9850000000000002e-06, 'epoch': 1.84}
+{'loss': 1.2611, 'grad_norm': 5.202827453613281, 'learning_rate': 2.988e-06, 'epoch': 1.84}
+{'loss': 1.2884, 'grad_norm': 4.68275785446167, 'learning_rate': 2.991e-06, 'epoch': 1.85}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.64it/s][A
+ 30%|███       | 3/10 [00:01<00:05,  1.34it/s][A
+ 40%|████      | 4/10 [00:02<00:03,  1.55it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.08s/it][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.12it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.17s/it][A
+ 80%|████████  | 8/10 [00:07<00:01,  1.04it/s][A
+ 90%|█████████ | 9/10 [00:09<00:01,  1.28s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.02s/it][A
+                                               [A                                                        
+100%|██████████| 10/10 [00:10<00:00,  1.02s/it][A  1%|          | 1000/100000 [33:17<89:15:23,  3.25s/it]
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-1000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-1000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-1000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-1000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-1000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-1000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-1000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+  1%|          | 1001/100000 [33:29<432:02:17, 15.71s/it]                                                           1%|          | 1001/100000 [33:29<432:02:17, 15.71s/it]  1%|          | 1002/100000 [33:31<321:33:51, 11.69s/it]                                                           1%|          | 1002/100000 [33:31<321:33:51, 11.69s/it]  1%|          | 1003/100000 [33:33<242:46:24,  8.83s/it]                                                           1%|          | 1003/100000 [33:33<242:46:24,  8.83s/it]  1%|          | 1004/100000 [33:35<186:15:22,  6.77s/it]                                                           1%|          | 1004/100000 [33:35<186:15:22,  6.77s/it]  1%|          | 1005/100000 [33:37<146:13:09,  5.32s/it]                                                           1%|          | 1005/100000 [33:37<146:13:09,  5.32s/it]  1%|          | 1006/100000 [33:39<117:21:16,  4.27s/it]                                                           1%|          | 1006/100000 [33:39<117:21:16,  4.27s/it]  1%|          | 1007/100000 [33:41<96:22:53,  3.51s/it]                                                           1%|          | 1007/100000 [33:41<96:22:53,  3.51s/it]  1%|          | 1008/100000 [33:43<81:07:40,  2.95s/it]                                                          1%|          | 1008/100000 [33:43<81:07:40,  2.95s/it]  1%|          | 1009/100000 [33:44<69:51:26,  2.54s/it]                                                          1%|          | 1009/100000 [33:44<69:51:26,  2.54s/it]  1%|          | 1010/100000 [33:46<61:59:05,  2.25s/it]                                                          1%|          | 1010/100000 [33:46<61:59:05,  2.25s/it]  1%|          | 1011/100000 [33:47<55:35:11,  2.02s/it]                                                          1%|          | 1011/100000 [33:47<55:35:11,  2.02s/it]  1%|          | 1012/100000 [33:49<50:54:57,  1.85s/it]                                                          1%|          | 1012/100000 [33:49<50:54:57,  1.85s/it]  1%|          | 1013/100000 [33:50<47:51:10,  1.74s/it]                                                          1%|          | 1013/100000 [33:50<47:51:10,  1.74s/it]  1%|          | 1014/100000 [33:52<45:11:17,  1.64s/it]                                                          1%|          | 1014/100000 [33:52<45:11:17,  1.64s/it]  1%|          | 1015/100000 [33:53<43:27:12,  1.58s/it]                                                          1%|          | 1015/100000 [33:53<43:27:12,  1.58s/it]  1%|          | 1016/100000 [33:54<41:51:04,  1.52s/it]                                                          1%|          | 1016/100000 [33:54<41:51:04,  1.52s/it]  1%|          | 1017/100000 [33:56<40:33:46,  1.48s/it]                                                          1%|          | 1017/100000 [33:56<40:33:46,  1.48s/it]  1%|          | 1018/100000 [33:57<39:17:12,  1.43s/it]                                                          1%|          | 1018/100000 [33:57<39:17:12,  1.43s/it]  1%|          | 1019/100000 [33:58<38:09:06,  1.39s/it]                                                          1%|          | 1019/100000 [33:58<38:09:06,  1.39s/it]  1%|          | 1020/100000 [34:00<37:34:22,  1.37s/it]                                                          1%|          | 1020/100000 [34:00<37:34:22,  1.37s/it]  1%|          | 1021/100000 [34:01<36:36:40,  1.33s/it]                                                          1%|          | 1021/100000 [34:01<36:36:40,  1.33s/it]  1%|          | 1022/100000 [34:02<36:21:40,  1.32s/it]                                                          1%|          | 1022/100000 [34:02<36:21:40,  1.32s/it]  1%|          | 1023/100000 [34:03<35:44:22,  1.30s/it]                                                          1%|          | 1023/100000 [34:03<35:44:22,  1.30s/it]  1%|          | 1024/100000 [34:05<34:53:47,  1.27s/it]                                                          1%|          | 1024/100000 [34:05<34:53:47,  1.27s/it]  1%|          | 1025/100000 [34:06<34:21:01,  1.25s/it]                                                          1%|          | 1025/100000 [34:06<34:21:01,  1.25s/it]  1%|          | 1026/100000 [34:07<34:10:19,  1.24s/it]                                                          1%|          | 1026/100000 [34:07<34:10:19,  1.24s/it]  1%|          | 1027/100000 [34:08<33:33:56,  1.22s/it]                                                          1%|          | 1027/100000 [34:08<33:33:56,  1.22s/it]  1%|          | 1028/100000 [34:09<33:13:39,  1.21s/it]                                                          1%|          | 1028/100000 [34:09<33:13:39,  1.21s/it]  1%|          | 1029/100000 [34:11<32:43:49,  1.19s/it]                                                          1%|          | 1029/100000 [34:11<32:43:49,  1.19s/it]  1%|          | 1030/100000 [34:12<32:36:35,  1.19s/it]                                                          1%|          | 1030/100000 [34:12<32:36:35,  1.19s/it]  1%|          | 1031/100000 [34:13<32:09:32,  1.17s/it]                                                          1%|          | 1031/100000 [34:13<32:09:32,  1.17s/it]  1%|          | 1032/100000 [34:14<31:50:47,  1.16s/it]                                                          1%|          | 1032/100000 [34:14<31:50:47,  1.16s/it]  1%|          | 1033/100000 [34:15<31:27:09,  1.14s/it]                                                          1%|          | 1033/100000 [34:15<31:27:09,  1.14s/it]  1%|          | 1034/100000 [34:16<31:10:39,  1.13s/it]                                                          1%|          | 1034/100000 [34:16<31:10:39,  1.13s/it]  1%|          | 1035/100000 [34:17<30:38:35,  1.11s/it]                                                          1%|          | 1035/100000 [34:17<30:38:35,  1.11s/it]  1%|          | 1036/100000 [34:18<30:01:37,  1.09s/it]                                                          1%|          | 1036/100000 [34:18<30:01:37,  1.09s/it]  1%|          | 1037/100000 [34:19<29:19:46,  1.07s/it]                                                          1%|          | 1037/100000 [34:19<29:19:46,  1.07s/it]  1%|          | 1038/100000 [34:20<28:39:44,  1.04s/it]                                                          1%|          | 1038/100000 [34:20<28:39:44,  1.04s/it]  1%|          | 1039/100000 [34:21<28:09:53,  1.02s/it]                                                          1%|          | 1039/100000 [34:21<28:09:53,  1.02s/it]  1%|          | 1040/100000 [34:22<27:38:12,  1.01s/it]                                                          1%|          | 1040/100000 [34:22<27:38:12,  1.01s/it]  1%|          | 1041/100000 [34:23<27:44:32,  1.01s/it]                                                          1%|          | 1041/100000 [34:23<27:44:32,  1.01s/it]  1%|          | 1042/100000 [34:24<28:08:11,  1.02s/it]                                                          1%|          | 1042/100000 [34:24<28:08:11,  1.02s/it]  1%|          | 1043/100000 [34:34<97:35:59,  3.55s/it]                                                          1%|          | 1043/100000 [34:34<97:35:59,  3.55s/it]  1%|          | 1044/100000 [34:39<110:36:31,  4.02s/it]                                                           1%|          | 1044/100000 [34:39<110:36:31,  4.02s/it]  1%|          | 1045/100000 [34:43<113:29:53,  4.13s/it]                                                           1%|          | 1045/100000 [34:43<113:29:53,  4.13s/it]  1%|          | 1046/100000 [34:47<109:39:32,  3.99s/it]                                                           1%|          | 1046/100000 [34:47<109:39:32,  3.99s/it]  1%|          | 1047/100000 [34:50<103:50:16,  3.78s/it]                                                           1%|          | 1047/100000 [34:50<103:50:16,  3.78s/it]  1%|          | 1048/100000 [34:53<97:02:19,  3.53s/it]                                                           1%|          | 1048/100000 [34:53<97:02:19,  3.53s/it]  1%|          | 1049/100000 [34:56<90:01:36,  3.28s/it]                                                          1%|          | 1049/100000 [34:56<90:01:36,  3.28s/it]  1%|          | 1050/100000 [34:58<83:02:58,  3.02s/it]                                                          1%|          | 1050/100000 [34:58<83:02:58,  3.02s/it]  1%|          | 1051/100000 [35:01<76:19:22,  2.78s/it]                                                          1%|          | 1051/100000 [35:01<76:19:22,  2.78s/it]  1%|          | 1052/100000 [35:03<70:07:27,  2.55s/it]                                                          1%|          | 1052/100000 [35:03<70:07:27,  2.55s/it]  1%|          | 1053/100000 [35:04<64:37:43,  2.35s/it]                                                          1%|          | 1053/100000 [35:04<64:37:43,  2.35s/it]  1%|          | 1054/100000 [35:06<59:38:26,  2.17s/it]                                                          1%|          | 1054/100000 [35:06<59:38:26,  2.17s/it]  1%|          | 1055/100000 [35:08<55:40:20,  2.03s/it]                                                          1%|          | 1055/100000 [35:08<55:40:20,  2.03s/it]  1%|          | 1056/100000 [35:10<52:11:30,  1.90s/it]                                                          1%|          | 1056/100000 [35:10<52:11:30,  1.90s/it]  1%|          | 1057/100000 [35:11<49:47:01,  1.81s/it]                                                          1%|          | 1057/100000 [35:11<49:47:01,  1.81s/it]  1%|          | 1058/100000 [35:13<46:52:34,  1.71s/it]                                                          1%|          | 1058/100000 [35:13<46:52:34,  1.71s/it]  1%|          | 1059/100000 [35:14<44:58:25,  1.64s/it]                                                          1%|          | 1059/100000 [35:14<44:58:25,  1.64s/it]  1%|          | 1060/100000 [35:16<43:36:46,  1.59s/it]                                                          1%|          | 1060/100000 [35:16<43:36:46,  1.59s/it]  1%|          | 1061/100000 [35:17<41:52:44,  1.52s/it]                                                          1%|          | 1061/100000 [35:17<41:52:44,  1.52s/it]  1%|          | 1062/100000 [35:18<40:38:25,  1.48s/it]                                                          1%|          | 1062/100000 [35:18<40:38:25,  1.48s/it]  1%|          | 1063/100000 [35:20<40:01:49,  1.46s/it]                                                          1%|          | 1063/100000 [35:20<40:01:49,  1.46s/it]  1%|          | 1064/100000 [35:21<39:15:30,  1.43s/it]                                                          1%|          | 1064/100000 [35:21<39:15:30,  1.43s/it]  1%|          | 1065/100000 [35:22<38:15:41,  1.39s/it]                                                          1%|          | 1065/100000 [35:22<38:15:41,  1.39s/it]  1%|          | 1066/100000 [35:24<37:27:25,  1.36s/it]                                                          1%|          | 1066/100000 [35:24<37:27:25,  1.36s/it]  1%|          | 1067/100000 [35:25<36:20:34,  1.32s/it]                                                          1%|          | 1067/100000 [35:25<36:20:34,  1.32s/it]  1%|          | 1068/100000 [35:26<35:52:24,  1.31s/it]                                                          1%|          | 1068/100000 [35:26<35:52:24,  1.31s/it]  1%|          | 1069/100000 [35:27<35:21:03,  1.29s/it]                                                          1%|          | 1069/100000 [35:27<35:21:03,  1.29s/it]  1%|          | 1070/100000 [35:29<34:35:58,  1.26s/it]                                                          1%|          | 1070/100000 [35:29<34:35:58,  1.26s/it]  1%|          | 1071/100000 [35:30<33:43:58,  1.23s/it]                                                          1%|          | 1071/100000 [35:30<33:43:58,  1.23s/it]  1%|          | 1072/100000 [35:31<32:46:53,  1.19s/it]                                                          1%|          | 1072/100000 [35:31<32:46:53,  1.19s/it]  1%|          | 1073/100000 [35:32<32:27:16,  1.18s/it]                                                          1%|          | 1073/100000 [35:32<32:27:16,  1.18s/it]  1%|          | 1074/100000 [35:33<31:42:15,  1.15s/it]                                                          1%|          | 1074/100000 [35:33<31:42:15,  1.15s/it]  1%|          | 1075/100000 [35:34<31:01:23,  1.13s/it]                                                          1%|          | 1075/100000 [35:34<31:01:23,  1.13s/it]  1%|          | 1076/100000 [35:35<30:28:30,  1.11s/it]                                                          1%|          | 1076/100000 [35:35<30:28:30,  1.11s/it]  1%|          | 1077/100000 [35:36<30:06:21,  1.10s/it]                                                          1%|          | 1077/100000 [35:36<30:06:21,  1.10s/it]  1%|          | 1078/100000 [35:37<29:41:24,  1.08s/it]                                                          1%|          | 1078/100000 [35:37<29:41:24,  1.08s/it]  1%|          | 1079/100000 [35:38<29:16:28,  1.07s/it]                                                          1%|          | 1079/100000 [35:38<29:16:28,  1.07s/it]  1%|          | 1080/100000 [35:39<28:36:30,  1.04s/it]                                                          1%|          | 1080/100000 [35:39<28:36:30,  1.04s/it]  1%|          | 1081/100000 [35:40<28:08:25,  1.02s/it]                                                          1%|          | 1081/100000 [35:40<28:08:25,  1.02s/it]  1%|          | 1082/100000 [35:41<27:26:41,  1.00it/s]                                                          1%|          | 1082/100000 [35:41<27:26:41,  1.00it/s]  1%|          | 1083/100000 [35:42<26:51:59,  1.02it/s]                                                          1%|          | 1083/100000 [35:42<26:51:59,  1.02it/s]  1%|          | 1084/100000 [35:43<26:45:28,  1.03it/s]                                                        {'eval_loss': 1.387242317199707, 'eval_wer': 1.0113200306983883, 'eval_cer': 0.3808227700443269, 'eval_runtime': 16.2128, 'eval_samples_per_second': 18.751, 'eval_steps_per_second': 0.617, 'epoch': 1.85}
+{'loss': 1.2335, 'grad_norm': 5.817086219787598, 'learning_rate': 2.994e-06, 'epoch': 1.85}
+{'loss': 1.1889, 'grad_norm': 2.8305552005767822, 'learning_rate': 2.9970000000000003e-06, 'epoch': 1.85}
+{'loss': 1.1404, 'grad_norm': 5.681527614593506, 'learning_rate': 3e-06, 'epoch': 1.85}
+{'loss': 1.1088, 'grad_norm': 4.868209362030029, 'learning_rate': 3.003e-06, 'epoch': 1.85}
+{'loss': 1.0609, 'grad_norm': 4.205574989318848, 'learning_rate': 3.006e-06, 'epoch': 1.86}
+{'loss': 0.9499, 'grad_norm': 9.881863594055176, 'learning_rate': 3.009e-06, 'epoch': 1.86}
+{'loss': 0.8826, 'grad_norm': 3.2579362392425537, 'learning_rate': 3.012e-06, 'epoch': 1.86}
+{'loss': 0.873, 'grad_norm': 5.675721645355225, 'learning_rate': 3.0150000000000004e-06, 'epoch': 1.86}
+{'loss': 0.8653, 'grad_norm': 4.980535507202148, 'learning_rate': 3.0179999999999997e-06, 'epoch': 1.86}
+{'loss': 0.903, 'grad_norm': 11.08716869354248, 'learning_rate': 3.021e-06, 'epoch': 1.86}
+{'loss': 0.939, 'grad_norm': 4.356354236602783, 'learning_rate': 3.024e-06, 'epoch': 1.87}
+{'loss': 0.8441, 'grad_norm': 6.092064380645752, 'learning_rate': 3.027e-06, 'epoch': 1.87}
+{'loss': 0.7909, 'grad_norm': 10.622693061828613, 'learning_rate': 3.0300000000000002e-06, 'epoch': 1.87}
+{'loss': 0.8149, 'grad_norm': 5.019896030426025, 'learning_rate': 3.033e-06, 'epoch': 1.87}
+{'loss': 0.741, 'grad_norm': 3.3237733840942383, 'learning_rate': 3.036e-06, 'epoch': 1.87}
+{'loss': 0.7615, 'grad_norm': 4.057783603668213, 'learning_rate': 3.039e-06, 'epoch': 1.88}
+{'loss': 0.7755, 'grad_norm': 3.0382447242736816, 'learning_rate': 3.0420000000000003e-06, 'epoch': 1.88}
+{'loss': 0.7565, 'grad_norm': 3.909538745880127, 'learning_rate': 3.0450000000000005e-06, 'epoch': 1.88}
+{'loss': 0.8341, 'grad_norm': 7.082792282104492, 'learning_rate': 3.048e-06, 'epoch': 1.88}
+{'loss': 0.7641, 'grad_norm': 3.4757003784179688, 'learning_rate': 3.051e-06, 'epoch': 1.88}
+{'loss': 0.7306, 'grad_norm': 4.288313388824463, 'learning_rate': 3.0540000000000003e-06, 'epoch': 1.88}
+{'loss': 0.6782, 'grad_norm': 12.425573348999023, 'learning_rate': 3.057e-06, 'epoch': 1.89}
+{'loss': 0.7367, 'grad_norm': 3.1311159133911133, 'learning_rate': 3.06e-06, 'epoch': 1.89}
+{'loss': 0.7476, 'grad_norm': 3.636770248413086, 'learning_rate': 3.063e-06, 'epoch': 1.89}
+{'loss': 0.7078, 'grad_norm': 3.5470006465911865, 'learning_rate': 3.066e-06, 'epoch': 1.89}
+{'loss': 0.6822, 'grad_norm': 4.514321804046631, 'learning_rate': 3.069e-06, 'epoch': 1.89}
+{'loss': 0.6728, 'grad_norm': 4.672080993652344, 'learning_rate': 3.0720000000000004e-06, 'epoch': 1.9}
+{'loss': 0.6897, 'grad_norm': 20.278226852416992, 'learning_rate': 3.0749999999999998e-06, 'epoch': 1.9}
+{'loss': 0.6794, 'grad_norm': 7.047516345977783, 'learning_rate': 3.078e-06, 'epoch': 1.9}
+{'loss': 0.738, 'grad_norm': 2.9382872581481934, 'learning_rate': 3.0810000000000002e-06, 'epoch': 1.9}
+{'loss': 0.7073, 'grad_norm': 3.0094921588897705, 'learning_rate': 3.084e-06, 'epoch': 1.9}
+{'loss': 0.6801, 'grad_norm': 20.426923751831055, 'learning_rate': 3.0870000000000003e-06, 'epoch': 1.9}
+{'loss': 0.6999, 'grad_norm': 5.870213508605957, 'learning_rate': 3.09e-06, 'epoch': 1.91}
+{'loss': 0.6844, 'grad_norm': 4.475285530090332, 'learning_rate': 3.093e-06, 'epoch': 1.91}
+{'loss': 0.6208, 'grad_norm': 24.2203311920166, 'learning_rate': 3.096e-06, 'epoch': 1.91}
+{'loss': 0.6121, 'grad_norm': 4.748508453369141, 'learning_rate': 3.0990000000000003e-06, 'epoch': 1.91}
+{'loss': 0.6886, 'grad_norm': 3.6154093742370605, 'learning_rate': 3.102e-06, 'epoch': 1.91}
+{'loss': 0.6453, 'grad_norm': 3.9529449939727783, 'learning_rate': 3.105e-06, 'epoch': 1.92}
+{'loss': 0.6588, 'grad_norm': 18.980297088623047, 'learning_rate': 3.108e-06, 'epoch': 1.92}
+{'loss': 0.6229, 'grad_norm': 4.728965759277344, 'learning_rate': 3.111e-06, 'epoch': 1.92}
+{'loss': 0.7132, 'grad_norm': 8.780813217163086, 'learning_rate': 3.114e-06, 'epoch': 1.92}
+{'loss': 0.8253, 'grad_norm': 7.412342071533203, 'learning_rate': 3.1170000000000004e-06, 'epoch': 1.92}
+{'loss': 1.3585, 'grad_norm': 8.90256118774414, 'learning_rate': 3.1199999999999998e-06, 'epoch': 1.93}
+{'loss': 1.1706, 'grad_norm': 4.4571428298950195, 'learning_rate': 3.123e-06, 'epoch': 1.93}
+{'loss': 1.0833, 'grad_norm': 4.3071184158325195, 'learning_rate': 3.1260000000000002e-06, 'epoch': 1.93}
+{'loss': 0.9173, 'grad_norm': 9.08230972290039, 'learning_rate': 3.129e-06, 'epoch': 1.93}
+{'loss': 0.886, 'grad_norm': 5.986129283905029, 'learning_rate': 3.1320000000000003e-06, 'epoch': 1.93}
+{'loss': 0.9184, 'grad_norm': 4.313248157501221, 'learning_rate': 3.135e-06, 'epoch': 1.93}
+{'loss': 0.8592, 'grad_norm': 3.475137948989868, 'learning_rate': 3.138e-06, 'epoch': 1.94}
+{'loss': 0.8229, 'grad_norm': 3.4487123489379883, 'learning_rate': 3.141e-06, 'epoch': 1.94}
+{'loss': 0.7537, 'grad_norm': 5.085602760314941, 'learning_rate': 3.1440000000000003e-06, 'epoch': 1.94}
+{'loss': 0.778, 'grad_norm': 3.04370379447937, 'learning_rate': 3.1469999999999997e-06, 'epoch': 1.94}
+{'loss': 0.6315, 'grad_norm': 3.9167068004608154, 'learning_rate': 3.15e-06, 'epoch': 1.94}
+{'loss': 0.6394, 'grad_norm': 2.40921950340271, 'learning_rate': 3.153e-06, 'epoch': 1.95}
+{'loss': 0.6353, 'grad_norm': 9.868019104003906, 'learning_rate': 3.156e-06, 'epoch': 1.95}
+{'loss': 0.5673, 'grad_norm': 2.789872646331787, 'learning_rate': 3.159e-06, 'epoch': 1.95}
+{'loss': 0.6103, 'grad_norm': 2.2566208839416504, 'learning_rate': 3.162e-06, 'epoch': 1.95}
+{'loss': 0.5088, 'grad_norm': 3.410893678665161, 'learning_rate': 3.1649999999999998e-06, 'epoch': 1.95}
+{'loss': 0.5453, 'grad_norm': 2.58414626121521, 'learning_rate': 3.168e-06, 'epoch': 1.95}
+{'loss': 0.4953, 'grad_norm': 6.431880950927734, 'learning_rate': 3.1710000000000002e-06, 'epoch': 1.96}
+{'loss': 0.5452, 'grad_norm': 2.7993009090423584, 'learning_rate': 3.1740000000000004e-06, 'epoch': 1.96}
+{'loss': 0.5177, 'grad_norm': 5.0864386558532715, 'learning_rate': 3.177e-06, 'epoch': 1.96}
+{'loss': 0.5564, 'grad_norm': 2.416808605194092, 'learning_rate': 3.18e-06, 'epoch': 1.96}
+{'loss': 0.4664, 'grad_norm': 3.0072779655456543, 'learning_rate': 3.1830000000000003e-06, 'epoch': 1.96}
+{'loss': 0.5069, 'grad_norm': 3.39021635055542, 'learning_rate': 3.186e-06, 'epoch': 1.97}
+{'loss': 0.5095, 'grad_norm': 2.3784401416778564, 'learning_rate': 3.1890000000000003e-06, 'epoch': 1.97}
+{'loss': 0.581, 'grad_norm': 2.980907440185547, 'learning_rate': 3.192e-06, 'epoch': 1.97}
+{'loss': 0.5368, 'grad_norm': 3.834425687789917, 'learning_rate': 3.195e-06, 'epoch': 1.97}
+{'loss': 0.5162, 'grad_norm': 4.101207733154297, 'learning_rate': 3.198e-06, 'epoch': 1.97}
+{'loss': 0.4687, 'grad_norm': 2.8639001846313477, 'learning_rate': 3.2010000000000004e-06, 'epoch': 1.98}
+{'loss': 0.5063, 'grad_norm': 3.660947561264038, 'learning_rate': 3.204e-06, 'epoch': 1.98}
+{'loss': 0.5655, 'grad_norm': 4.399283409118652, 'learning_rate': 3.207e-06, 'epoch': 1.98}
+{'loss': 0.5052, 'grad_norm': 5.054996967315674, 'learning_rate': 3.21e-06, 'epoch': 1.98}
+{'loss': 0.484, 'grad_norm': 3.4301655292510986, 'learning_rate': 3.213e-06, 'epoch': 1.98}
+{'loss': 0.5369, 'grad_norm': 3.875305652618408, 'learning_rate': 3.216e-06, 'epoch': 1.98}
+{'loss': 0.5141, 'grad_norm': 4.462026119232178, 'learning_rate': 3.2190000000000004e-06, 'epoch': 1.99}
+{'loss': 0.5084, 'grad_norm': 4.290552139282227, 'learning_rate': 3.222e-06, 'epoch': 1.99}
+{'loss': 0.5143, 'grad_norm': 2.693206787109375, 'learning_rate': 3.225e-06, 'epoch': 1.99}
+{'loss': 0.5154, 'grad_norm': 13.908217430114746, 'learning_rate': 3.2280000000000003e-06, 'epoch': 1.99}
+{'loss': 0.5337, 'grad_norm': 4.1457600593566895, 'learning_rate': 3.231e-06, 'epoch': 1.99}
+{'loss': 0.5313, 'grad_norm': 4.087045669555664, 'learning_rate': 3.2340000000000003e-06, 'epoch': 2.0}
+{'loss': 0.5336, 'grad_norm': 6.225906848907471, 'learning_rate': 3.237e-06, 'epoch': 2.0}
+{'loss': 0.5495, 'grad_norm': 4.523451328277588, 'learning_rate': 3.24e-06, 'epoch': 2.0}
+  1%|          | 1084/100000 [35:43<26:45:28,  1.03it/s]{'loss': 0.3116, 'grad_norm': 3.176987648010254, 'learning_rate': 3.243e-06, 'epoch': 2.0}
+  1%|          | 1085/100000 [36:02<176:27:34,  6.42s/it]                                                           1%|          | 1085/100000 [36:02<176:27:34,  6.42s/it]  1%|          | 1086/100000 [36:08<173:59:23,  6.33s/it]                                                           1%|          | 1086/100000 [36:08<173:59:23,  6.33s/it]  1%|          | 1087/100000 [36:13<162:44:39,  5.92s/it]                                                           1%|          | 1087/100000 [36:13<162:44:39,  5.92s/it]  1%|          | 1088/100000 [36:18<148:54:52,  5.42s/it]                                                           1%|          | 1088/100000 [36:18<148:54:52,  5.42s/it]  1%|          | 1089/100000 [36:21<135:21:32,  4.93s/it]                                                           1%|          | 1089/100000 [36:21<135:21:32,  4.93s/it]  1%|          | 1090/100000 [36:25<122:35:23,  4.46s/it]                                                           1%|          | 1090/100000 [36:25<122:35:23,  4.46s/it]  1%|          | 1091/100000 [36:28<111:39:36,  4.06s/it]                                                           1%|          | 1091/100000 [36:28<111:39:36,  4.06s/it]  1%|          | 1092/100000 [36:31<101:01:24,  3.68s/it]                                                           1%|          | 1092/100000 [36:31<101:01:24,  3.68s/it]  1%|          | 1093/100000 [36:33<92:24:26,  3.36s/it]                                                           1%|          | 1093/100000 [36:33<92:24:26,  3.36s/it]  1%|          | 1094/100000 [36:36<84:24:09,  3.07s/it]                                                          1%|          | 1094/100000 [36:36<84:24:09,  3.07s/it]  1%|          | 1095/100000 [36:38<77:19:05,  2.81s/it]                                                          1%|          | 1095/100000 [36:38<77:19:05,  2.81s/it]  1%|          | 1096/100000 [36:40<71:08:03,  2.59s/it]                                                          1%|          | 1096/100000 [36:40<71:08:03,  2.59s/it]  1%|          | 1097/100000 [36:42<65:59:29,  2.40s/it]                                                          1%|          | 1097/100000 [36:42<65:59:29,  2.40s/it]  1%|          | 1098/100000 [36:44<60:26:12,  2.20s/it]                                                          1%|          | 1098/100000 [36:44<60:26:12,  2.20s/it]  1%|          | 1099/100000 [36:45<56:24:44,  2.05s/it]                                                          1%|          | 1099/100000 [36:45<56:24:44,  2.05s/it]  1%|          | 1100/100000 [36:47<53:37:12,  1.95s/it]                                                          1%|          | 1100/100000 [36:47<53:37:12,  1.95s/it]  1%|          | 1101/100000 [36:49<50:39:16,  1.84s/it]                                                          1%|          | 1101/100000 [36:49<50:39:16,  1.84s/it]  1%|          | 1102/100000 [36:50<48:37:43,  1.77s/it]                                                          1%|          | 1102/100000 [36:50<48:37:43,  1.77s/it]  1%|          | 1103/100000 [36:52<46:46:17,  1.70s/it]                                                          1%|          | 1103/100000 [36:52<46:46:17,  1.70s/it]  1%|          | 1104/100000 [36:53<45:02:53,  1.64s/it]                                                          1%|          | 1104/100000 [36:53<45:02:53,  1.64s/it]  1%|          | 1105/100000 [36:55<43:25:16,  1.58s/it]                                                          1%|          | 1105/100000 [36:55<43:25:16,  1.58s/it]  1%|          | 1106/100000 [36:56<42:19:37,  1.54s/it]                                                          1%|          | 1106/100000 [36:56<42:19:37,  1.54s/it]  1%|          | 1107/100000 [36:58<41:20:17,  1.50s/it]                                                          1%|          | 1107/100000 [36:58<41:20:17,  1.50s/it]  1%|          | 1108/100000 [36:59<40:12:13,  1.46s/it]                                                          1%|          | 1108/100000 [36:59<40:12:13,  1.46s/it]  1%|          | 1109/100000 [37:00<39:32:22,  1.44s/it]                                                          1%|          | 1109/100000 [37:00<39:32:22,  1.44s/it]  1%|          | 1110/100000 [37:02<38:53:27,  1.42s/it]                                                          1%|          | 1110/100000 [37:02<38:53:27,  1.42s/it]  1%|          | 1111/100000 [37:03<37:59:35,  1.38s/it]                                                          1%|          | 1111/100000 [37:03<37:59:35,  1.38s/it]  1%|          | 1112/100000 [37:04<37:27:08,  1.36s/it]                                                          1%|          | 1112/100000 [37:04<37:27:08,  1.36s/it]  1%|          | 1113/100000 [37:06<36:39:44,  1.33s/it]                                                          1%|          | 1113/100000 [37:06<36:39:44,  1.33s/it]  1%|          | 1114/100000 [37:07<36:18:11,  1.32s/it]                                                          1%|          | 1114/100000 [37:07<36:18:11,  1.32s/it]  1%|          | 1115/100000 [37:08<35:49:35,  1.30s/it]                                                          1%|          | 1115/100000 [37:08<35:49:35,  1.30s/it]  1%|          | 1116/100000 [37:09<35:08:15,  1.28s/it]                                                          1%|          | 1116/100000 [37:09<35:08:15,  1.28s/it]  1%|          | 1117/100000 [37:11<34:44:58,  1.27s/it]                                                          1%|          | 1117/100000 [37:11<34:44:58,  1.27s/it]  1%|          | 1118/100000 [37:12<34:21:40,  1.25s/it]                                                          1%|          | 1118/100000 [37:12<34:21:40,  1.25s/it]  1%|          | 1119/100000 [37:13<33:36:42,  1.22s/it]                                                          1%|          | 1119/100000 [37:13<33:36:42,  1.22s/it]  1%|          | 1120/100000 [37:14<33:09:15,  1.21s/it]                                                          1%|          | 1120/100000 [37:14<33:09:15,  1.21s/it]  1%|          | 1121/100000 [37:15<32:37:15,  1.19s/it]                                                          1%|          | 1121/100000 [37:15<32:37:15,  1.19s/it]  1%|          | 1122/100000 [37:16<32:15:33,  1.17s/it]                                                          1%|          | 1122/100000 [37:16<32:15:33,  1.17s/it]  1%|          | 1123/100000 [37:18<31:51:37,  1.16s/it]                                                          1%|          | 1123/100000 [37:18<31:51:37,  1.16s/it]  1%|          | 1124/100000 [37:19<31:25:01,  1.14s/it]                                                          1%|          | 1124/100000 [37:19<31:25:01,  1.14s/it]  1%|          | 1125/100000 [37:20<30:57:46,  1.13s/it]                                                          1%|          | 1125/100000 [37:20<30:57:46,  1.13s/it]  1%|          | 1126/100000 [37:21<30:38:38,  1.12s/it]                                                          1%|          | 1126/100000 [37:21<30:38:38,  1.12s/it]  1%|          | 1127/100000 [37:22<30:05:36,  1.10s/it]                                                          1%|          | 1127/100000 [37:22<30:05:36,  1.10s/it]  1%|          | 1128/100000 [37:23<29:43:10,  1.08s/it]                                                          1%|          | 1128/100000 [37:23<29:43:10,  1.08s/it]  1%|          | 1129/100000 [37:24<29:02:37,  1.06s/it]                                                          1%|          | 1129/100000 [37:24<29:02:37,  1.06s/it]  1%|          | 1130/100000 [37:25<28:32:46,  1.04s/it]                                                          1%|          | 1130/100000 [37:25<28:32:46,  1.04s/it]  1%|          | 1131/100000 [37:26<28:01:29,  1.02s/it]                                                          1%|          | 1131/100000 [37:26<28:01:29,  1.02s/it]  1%|          | 1132/100000 [37:27<27:24:14,  1.00it/s]                                                          1%|          | 1132/100000 [37:27<27:24:14,  1.00it/s]  1%|          | 1133/100000 [37:28<26:41:12,  1.03it/s]                                                          1%|          | 1133/100000 [37:28<26:41:12,  1.03it/s]  1%|          | 1134/100000 [37:29<26:11:29,  1.05it/s]                                                          1%|          | 1134/100000 [37:29<26:11:29,  1.05it/s]  1%|          | 1135/100000 [37:41<116:28:33,  4.24s/it]                                                           1%|          | 1135/100000 [37:41<116:28:33,  4.24s/it]  1%|          | 1136/100000 [37:46<125:44:03,  4.58s/it]                                                           1%|          | 1136/100000 [37:46<125:44:03,  4.58s/it]  1%|          | 1137/100000 [37:51<126:09:43,  4.59s/it]                                                           1%|          | 1137/100000 [37:51<126:09:43,  4.59s/it]  1%|          | 1138/100000 [37:55<120:30:50,  4.39s/it]                                                           1%|          | 1138/100000 [37:55<120:30:50,  4.39s/it]  1%|          | 1139/100000 [37:58<114:42:25,  4.18s/it]                                                           1%|          | 1139/100000 [37:58<114:42:25,  4.18s/it]  1%|          | 1140/100000 [38:01<106:28:25,  3.88s/it]                                                           1%|          | 1140/100000 [38:01<106:28:25,  3.88s/it]  1%|          | 1141/100000 [38:05<100:02:57,  3.64s/it]                                                           1%|          | 1141/100000 [38:05<100:02:57,  3.64s/it]  1%|          | 1142/100000 [38:07<93:23:45,  3.40s/it]                                                           1%|          | 1142/100000 [38:07<93:23:45,  3.40s/it]  1%|          | 1143/100000 [38:10<86:40:45,  3.16s/it]                                                          1%|          | 1143/100000 [38:10<86:40:45,  3.16s/it]  1%|          | 1144/100000 [38:12<80:17:02,  2.92s/it]                                                          1%|          | 1144/100000 [38:12<80:17:02,  2.92s/it]  1%|          | 1145/100000 [38:15<74:24:10,  2.71s/it]                                                          1%|          | 1145/100000 [38:15<74:24:10,  2.71s/it]  1%|          | 1146/100000 [38:17<69:15:10,  2.52s/it]                                                          1%|          | 1146/100000 [38:17<69:15:10,  2.52s/it]  1%|          | 1147/100000 [38:19<64:43:33,  2.36s/it]                                                          1%|          | 1147/100000 [38:19<64:43:33,  2.36s/it]  1%|          | 1148/100000 [38:20<60:40:29,  2.21s/it]                                                          1%|          | 1148/100000 [38:20<60:40:29,  2.21s/it]  1%|          | 1149/100000 [38:22<57:05:19,  2.08s/it]                                                          1%|          | 1149/100000 [38:22<57:05:19,  2.08s/it]  1%|          | 1150/100000 [38:24<54:09:51,  1.97s/it]                                                          1%|          | 1150/100000 [38:24<54:09:51,  1.97s/it]  1%|          | 1151/100000 [38:26<51:19:04,  1.87s/it]                                                          1%|          | 1151/100000 [38:26<51:19:04,  1.87s/it]  1%|          | 1152/100000 [38:27<49:01:05,  1.79s/it]                                                          1%|          | 1152/100000 [38:27<49:01:05,  1.79s/it]  1%|          | 1153/100000 [38:29<47:12:01,  1.72s/it]                                                          1%|          | 1153/100000 [38:29<47:12:01,  1.72s/it]  1%|          | 1154/100000 [38:30<45:40:23,  1.66s/it]                                                          1%|          | 1154/100000 [38:30<45:40:23,  1.66s/it]  1%|          | 1155/100000 [38:32<43:52:01,  1.60s/it]                                                          1%|          | 1155/100000 [38:32<43:52:01,  1.60s/it]  1%|          | 1156/100000 [38:33<42:33:58,  1.55s/it]                                                          1%|          | 1156/100000 [38:33<42:33:58,  1.55s/it]  1%|          | 1157/100000 [38:35<42:44:20,  1.56s/it]                                                          1%|          | 1157/100000 [38:35<42:44:20,  1.56s/it]  1%|          | 1158/100000 [38:36<41:33:35,  1.51s/it]                                                          1%|          | 1158/100000 [38:36<41:33:35,  1.51s/it]  1%|          | 1159/100000 [38:37<39:59:05,  1.46s/it]                                                          1%|          | 1159/100000 [38:37<39:59:05,  1.46s/it]  1%|          | 1160/100000 [38:39<39:05:43,  1.42s/it]                                                          1%|          | 1160/100000 [38:39<39:05:43,  1.42s/it]  1%|          | 1161/100000 [38:40<38:08:11,  1.39s/it]                                                          1%|          | 1161/100000 [38:40<38:08:11,  1.39s/it]  1%|          | 1162/100000 [38:41<37:29:10,  1.37s/it]                                                          1%|          | 1162/100000 [38:41<37:29:10,  1.37s/it]  1%|          | 1163/100000 [38:43<36:50:03,  1.34s/it]                                                          1%|          | 1163/100000 [38:43<36:50:03,  1.34s/it]  1%|          | 1164/100000 [38:44<36:27:37,  1.33s/it]                                                          1%|          | 1164/100000 [38:44<36:27:37,  1.33s/it]  1%|          | 1165/100000 [38:45<35:54:51,  1.31s/it]                                                          1%|          | 1165/100000 [38:45<35:54:51,  1.31s/it]  1%|          | 1166/100000 [38:46<35:13:48,  1.28s/it]                                                          1%|          | 1166/100000 [38:46<35:13:48,  1.28s/it]  1%|          | 1167/100000 [38:48<34:55:56,  1.27s/it]                                                          1%|          | 1167/100000 [38:48<34:55:56,  1.27s/it]  1%|          | 1168/100000 [38:49<34:14:45,  1.25s/it]                                                          1%|          | 1168/100000 [38:49<34:14:45,  1.25s/it]  1%|          | 1169/100000 [38:50<33:38:45,  1.23s/it]                                                          1%|          | 1169/100000 [38:50<33:38:45,  1.23s/it]  1%|          | 1170/100000 [38:51<33:03:55,  1.20s/it]                                                        {'loss': 1.2542, 'grad_norm': 5.960220813751221, 'learning_rate': 3.2460000000000003e-06, 'epoch': 2.0}
+{'loss': 1.1583, 'grad_norm': 5.376857757568359, 'learning_rate': 3.2489999999999997e-06, 'epoch': 2.0}
+{'loss': 0.9727, 'grad_norm': 3.4985902309417725, 'learning_rate': 3.252e-06, 'epoch': 2.01}
+{'loss': 1.0657, 'grad_norm': 3.4755091667175293, 'learning_rate': 3.255e-06, 'epoch': 2.01}
+{'loss': 0.8495, 'grad_norm': 2.7386229038238525, 'learning_rate': 3.258e-06, 'epoch': 2.01}
+{'loss': 0.8668, 'grad_norm': 4.1003737449646, 'learning_rate': 3.261e-06, 'epoch': 2.01}
+{'loss': 0.8225, 'grad_norm': 6.044220447540283, 'learning_rate': 3.264e-06, 'epoch': 2.01}
+{'loss': 0.6906, 'grad_norm': 3.062387704849243, 'learning_rate': 3.267e-06, 'epoch': 2.01}
+{'loss': 0.6469, 'grad_norm': 5.289513111114502, 'learning_rate': 3.27e-06, 'epoch': 2.02}
+{'loss': 0.7619, 'grad_norm': 2.689310312271118, 'learning_rate': 3.2730000000000003e-06, 'epoch': 2.02}
+{'loss': 0.6249, 'grad_norm': 6.174566745758057, 'learning_rate': 3.276e-06, 'epoch': 2.02}
+{'loss': 0.5918, 'grad_norm': 6.018412113189697, 'learning_rate': 3.279e-06, 'epoch': 2.02}
+{'loss': 0.578, 'grad_norm': 2.6255674362182617, 'learning_rate': 3.282e-06, 'epoch': 2.02}
+{'loss': 0.6471, 'grad_norm': 2.5936782360076904, 'learning_rate': 3.285e-06, 'epoch': 2.03}
+{'loss': 0.5161, 'grad_norm': 2.8347206115722656, 'learning_rate': 3.288e-06, 'epoch': 2.03}
+{'loss': 0.4732, 'grad_norm': 3.6363515853881836, 'learning_rate': 3.2910000000000003e-06, 'epoch': 2.03}
+{'loss': 0.4759, 'grad_norm': 2.8886845111846924, 'learning_rate': 3.2939999999999997e-06, 'epoch': 2.03}
+{'loss': 0.4244, 'grad_norm': 5.658815383911133, 'learning_rate': 3.297e-06, 'epoch': 2.03}
+{'loss': 0.5042, 'grad_norm': 3.8610455989837646, 'learning_rate': 3.3e-06, 'epoch': 2.04}
+{'loss': 0.4401, 'grad_norm': 3.7909250259399414, 'learning_rate': 3.3030000000000004e-06, 'epoch': 2.04}
+{'loss': 0.4517, 'grad_norm': 3.0346169471740723, 'learning_rate': 3.306e-06, 'epoch': 2.04}
+{'loss': 0.512, 'grad_norm': 2.9240636825561523, 'learning_rate': 3.309e-06, 'epoch': 2.04}
+{'loss': 0.4491, 'grad_norm': 3.549503803253174, 'learning_rate': 3.3120000000000002e-06, 'epoch': 2.04}
+{'loss': 0.4317, 'grad_norm': 2.4286088943481445, 'learning_rate': 3.315e-06, 'epoch': 2.04}
+{'loss': 0.507, 'grad_norm': 4.359600067138672, 'learning_rate': 3.3180000000000003e-06, 'epoch': 2.05}
+{'loss': 0.4248, 'grad_norm': 2.9661221504211426, 'learning_rate': 3.3210000000000005e-06, 'epoch': 2.05}
+{'loss': 0.4179, 'grad_norm': 18.271678924560547, 'learning_rate': 3.324e-06, 'epoch': 2.05}
+{'loss': 0.4596, 'grad_norm': 3.5711114406585693, 'learning_rate': 3.327e-06, 'epoch': 2.05}
+{'loss': 0.4043, 'grad_norm': 3.6461987495422363, 'learning_rate': 3.3300000000000003e-06, 'epoch': 2.05}
+{'loss': 0.4284, 'grad_norm': 3.886255979537964, 'learning_rate': 3.333e-06, 'epoch': 2.06}
+{'loss': 0.4275, 'grad_norm': 3.654627799987793, 'learning_rate': 3.336e-06, 'epoch': 2.06}
+{'loss': 0.3802, 'grad_norm': 2.4884819984436035, 'learning_rate': 3.339e-06, 'epoch': 2.06}
+{'loss': 0.4153, 'grad_norm': 10.350143432617188, 'learning_rate': 3.342e-06, 'epoch': 2.06}
+{'loss': 0.4242, 'grad_norm': 4.766338348388672, 'learning_rate': 3.345e-06, 'epoch': 2.06}
+{'loss': 0.3617, 'grad_norm': 2.0844154357910156, 'learning_rate': 3.3480000000000004e-06, 'epoch': 2.06}
+{'loss': 0.4822, 'grad_norm': 5.149382591247559, 'learning_rate': 3.3509999999999998e-06, 'epoch': 2.07}
+{'loss': 0.4138, 'grad_norm': 8.087337493896484, 'learning_rate': 3.354e-06, 'epoch': 2.07}
+{'loss': 0.3851, 'grad_norm': 3.428081750869751, 'learning_rate': 3.3570000000000002e-06, 'epoch': 2.07}
+{'loss': 0.4297, 'grad_norm': 2.2771971225738525, 'learning_rate': 3.36e-06, 'epoch': 2.07}
+{'loss': 0.3744, 'grad_norm': 3.1540608406066895, 'learning_rate': 3.3630000000000002e-06, 'epoch': 2.07}
+{'loss': 0.4036, 'grad_norm': 4.224101543426514, 'learning_rate': 3.366e-06, 'epoch': 2.08}
+{'loss': 0.3774, 'grad_norm': 3.432368278503418, 'learning_rate': 3.369e-06, 'epoch': 2.08}
+{'loss': 0.3861, 'grad_norm': 4.711674690246582, 'learning_rate': 3.372e-06, 'epoch': 2.08}
+{'loss': 0.4297, 'grad_norm': 4.5501909255981445, 'learning_rate': 3.3750000000000003e-06, 'epoch': 2.08}
+{'loss': 0.3753, 'grad_norm': 8.730445861816406, 'learning_rate': 3.378e-06, 'epoch': 2.08}
+{'loss': 0.4272, 'grad_norm': 5.603017330169678, 'learning_rate': 3.381e-06, 'epoch': 2.08}
+{'loss': 0.432, 'grad_norm': 3.613166332244873, 'learning_rate': 3.384e-06, 'epoch': 2.09}
+{'loss': 0.4113, 'grad_norm': 4.397871494293213, 'learning_rate': 3.387e-06, 'epoch': 2.09}
+{'loss': 0.433, 'grad_norm': 3.521243095397949, 'learning_rate': 3.39e-06, 'epoch': 2.09}
+{'loss': 0.4833, 'grad_norm': 4.172756671905518, 'learning_rate': 3.3930000000000004e-06, 'epoch': 2.09}
+{'loss': 1.2138, 'grad_norm': 6.483964920043945, 'learning_rate': 3.3959999999999998e-06, 'epoch': 2.09}
+{'loss': 0.9175, 'grad_norm': 3.9152333736419678, 'learning_rate': 3.399e-06, 'epoch': 2.1}
+{'loss': 0.9543, 'grad_norm': 4.725359916687012, 'learning_rate': 3.402e-06, 'epoch': 2.1}
+{'loss': 0.8489, 'grad_norm': 2.669206142425537, 'learning_rate': 3.405e-06, 'epoch': 2.1}
+{'loss': 0.8881, 'grad_norm': 7.135278224945068, 'learning_rate': 3.4080000000000002e-06, 'epoch': 2.1}
+{'loss': 0.7659, 'grad_norm': 4.369724273681641, 'learning_rate': 3.411e-06, 'epoch': 2.1}
+{'loss': 0.8159, 'grad_norm': 6.003192901611328, 'learning_rate': 3.414e-06, 'epoch': 2.11}
+{'loss': 0.6835, 'grad_norm': 4.358618259429932, 'learning_rate': 3.417e-06, 'epoch': 2.11}
+{'loss': 0.6636, 'grad_norm': 5.704505920410156, 'learning_rate': 3.4200000000000003e-06, 'epoch': 2.11}
+{'loss': 0.6394, 'grad_norm': 5.818912506103516, 'learning_rate': 3.4229999999999997e-06, 'epoch': 2.11}
+{'loss': 0.5845, 'grad_norm': 4.240537166595459, 'learning_rate': 3.426e-06, 'epoch': 2.11}
+{'loss': 0.5257, 'grad_norm': 4.361617088317871, 'learning_rate': 3.429e-06, 'epoch': 2.11}
+{'loss': 0.5765, 'grad_norm': 5.02565860748291, 'learning_rate': 3.4320000000000003e-06, 'epoch': 2.12}
+{'loss': 0.6254, 'grad_norm': 2.9467175006866455, 'learning_rate': 3.435e-06, 'epoch': 2.12}
+{'loss': 0.4371, 'grad_norm': 2.518874168395996, 'learning_rate': 3.438e-06, 'epoch': 2.12}
+{'loss': 0.386, 'grad_norm': 3.232793092727661, 'learning_rate': 3.441e-06, 'epoch': 2.12}
+{'loss': 0.3993, 'grad_norm': 2.345193862915039, 'learning_rate': 3.444e-06, 'epoch': 2.12}
+{'loss': 0.4761, 'grad_norm': 4.542880535125732, 'learning_rate': 3.447e-06, 'epoch': 2.13}
+{'loss': 0.4417, 'grad_norm': 5.272704124450684, 'learning_rate': 3.4500000000000004e-06, 'epoch': 2.13}
+{'loss': 0.409, 'grad_norm': 2.8965117931365967, 'learning_rate': 3.453e-06, 'epoch': 2.13}
+{'loss': 0.3611, 'grad_norm': 15.167119026184082, 'learning_rate': 3.456e-06, 'epoch': 2.13}
+{'loss': 0.3397, 'grad_norm': 5.197674751281738, 'learning_rate': 3.4590000000000003e-06, 'epoch': 2.13}
+{'loss': 0.3809, 'grad_norm': 2.644599199295044, 'learning_rate': 3.462e-06, 'epoch': 2.13}
+{'loss': 0.3453, 'grad_norm': 14.982160568237305, 'learning_rate': 3.4650000000000003e-06, 'epoch': 2.14}
+{'loss': 0.351, 'grad_norm': 2.48482346534729, 'learning_rate': 3.468e-06, 'epoch': 2.14}
+{'loss': 0.306, 'grad_norm': 2.524677038192749, 'learning_rate': 3.471e-06, 'epoch': 2.14}
+{'loss': 0.3509, 'grad_norm': 4.211189270019531, 'learning_rate': 3.474e-06, 'epoch': 2.14}
+{'loss': 0.3004, 'grad_norm': 2.2646098136901855, 'learning_rate': 3.4770000000000003e-06, 'epoch': 2.14}
+{'loss': 0.3862, 'grad_norm': 2.701345443725586, 'learning_rate': 3.48e-06, 'epoch': 2.15}
+{'loss': 0.441, 'grad_norm': 2.695441961288452, 'learning_rate': 3.483e-06, 'epoch': 2.15}
+{'loss': 0.3228, 'grad_norm': 3.7059075832366943, 'learning_rate': 3.486e-06, 'epoch': 2.15}
+{'loss': 0.4142, 'grad_norm': 5.615117073059082, 'learning_rate': 3.489e-06, 'epoch': 2.15}
+{'loss': 0.3822, 'grad_norm': 3.990037441253662, 'learning_rate': 3.492e-06, 'epoch': 2.15}
+{'loss': 0.3355, 'grad_norm': 2.899252414703369, 'learning_rate': 3.4950000000000004e-06, 'epoch': 2.16}
+{'loss': 0.3535, 'grad_norm': 3.141970634460449, 'learning_rate': 3.498e-06, 'epoch': 2.16}
+  1%|          | 1170/100000 [38:51<33:03:55,  1.20s/it]  1%|          | 1171/100000 [38:52<32:34:35,  1.19s/it]                                                          1%|          | 1171/100000 [38:52<32:34:35,  1.19s/it]  1%|          | 1172/100000 [38:54<32:13:36,  1.17s/it]                                                          1%|          | 1172/100000 [38:54<32:13:36,  1.17s/it]  1%|          | 1173/100000 [38:55<31:50:46,  1.16s/it]                                                          1%|          | 1173/100000 [38:55<31:50:46,  1.16s/it]  1%|          | 1174/100000 [38:56<31:26:47,  1.15s/it]                                                          1%|          | 1174/100000 [38:56<31:26:47,  1.15s/it]  1%|          | 1175/100000 [38:57<31:02:45,  1.13s/it]                                                          1%|          | 1175/100000 [38:57<31:02:45,  1.13s/it]  1%|          | 1176/100000 [38:58<30:36:32,  1.12s/it]                                                          1%|          | 1176/100000 [38:58<30:36:32,  1.12s/it]  1%|          | 1177/100000 [38:59<30:05:06,  1.10s/it]                                                          1%|          | 1177/100000 [38:59<30:05:06,  1.10s/it]  1%|          | 1178/100000 [39:00<29:35:00,  1.08s/it]                                                          1%|          | 1178/100000 [39:00<29:35:00,  1.08s/it]  1%|          | 1179/100000 [39:01<28:46:57,  1.05s/it]                                                          1%|          | 1179/100000 [39:01<28:46:57,  1.05s/it]  1%|          | 1180/100000 [39:02<27:50:00,  1.01s/it]                                                          1%|          | 1180/100000 [39:02<27:50:00,  1.01s/it]  1%|          | 1181/100000 [39:03<27:37:59,  1.01s/it]                                                          1%|          | 1181/100000 [39:03<27:37:59,  1.01s/it]  1%|          | 1182/100000 [39:04<27:24:02,  1.00it/s]                                                          1%|          | 1182/100000 [39:04<27:24:02,  1.00it/s]  1%|          | 1183/100000 [39:05<27:02:45,  1.01it/s]                                                          1%|          | 1183/100000 [39:05<27:02:45,  1.01it/s]  1%|          | 1184/100000 [39:06<26:22:20,  1.04it/s]                                                          1%|          | 1184/100000 [39:06<26:22:20,  1.04it/s]  1%|          | 1185/100000 [39:16<104:15:33,  3.80s/it]                                                           1%|          | 1185/100000 [39:16<104:15:33,  3.80s/it]  1%|          | 1186/100000 [39:22<117:40:54,  4.29s/it]                                                           1%|          | 1186/100000 [39:22<117:40:54,  4.29s/it]  1%|          | 1187/100000 [39:26<118:51:33,  4.33s/it]                                                           1%|          | 1187/100000 [39:26<118:51:33,  4.33s/it]  1%|          | 1188/100000 [39:30<115:08:14,  4.19s/it]                                                           1%|          | 1188/100000 [39:30<115:08:14,  4.19s/it]  1%|          | 1189/100000 [39:33<109:16:16,  3.98s/it]                                                           1%|          | 1189/100000 [39:33<109:16:16,  3.98s/it]  1%|          | 1190/100000 [39:37<103:17:06,  3.76s/it]                                                           1%|          | 1190/100000 [39:37<103:17:06,  3.76s/it]  1%|          | 1191/100000 [39:40<97:03:44,  3.54s/it]                                                           1%|          | 1191/100000 [39:40<97:03:44,  3.54s/it]  1%|          | 1192/100000 [39:42<90:48:11,  3.31s/it]                                                          1%|          | 1192/100000 [39:42<90:48:11,  3.31s/it]  1%|          | 1193/100000 [39:45<84:27:40,  3.08s/it]                                                          1%|          | 1193/100000 [39:45<84:27:40,  3.08s/it]  1%|          | 1194/100000 [39:47<77:05:13,  2.81s/it]                                                          1%|          | 1194/100000 [39:47<77:05:13,  2.81s/it]  1%|          | 1195/100000 [39:49<71:49:56,  2.62s/it]                                                          1%|          | 1195/100000 [39:49<71:49:56,  2.62s/it]  1%|          | 1196/100000 [39:51<67:10:59,  2.45s/it]                                                          1%|          | 1196/100000 [39:51<67:10:59,  2.45s/it]  1%|          | 1197/100000 [39:53<63:09:17,  2.30s/it]                                                          1%|          | 1197/100000 [39:53<63:09:17,  2.30s/it]  1%|          | 1198/100000 [39:55<59:29:31,  2.17s/it]                                                          1%|          | 1198/100000 [39:55<59:29:31,  2.17s/it]  1%|          | 1199/100000 [39:57<56:14:13,  2.05s/it]                                                          1%|          | 1199/100000 [39:57<56:14:13,  2.05s/it]  1%|          | 1200/100000 [39:59<53:23:43,  1.95s/it]                                                          1%|          | 1200/100000 [39:59<53:23:43,  1.95s/it]  1%|          | 1201/100000 [40:00<51:04:09,  1.86s/it]                                                          1%|          | 1201/100000 [40:00<51:04:09,  1.86s/it]  1%|          | 1202/100000 [40:02<49:02:30,  1.79s/it]                                                          1%|          | 1202/100000 [40:02<49:02:30,  1.79s/it]  1%|          | 1203/100000 [40:04<46:57:54,  1.71s/it]                                                          1%|          | 1203/100000 [40:04<46:57:54,  1.71s/it]  1%|          | 1204/100000 [40:05<45:11:18,  1.65s/it]                                                          1%|          | 1204/100000 [40:05<45:11:18,  1.65s/it]  1%|          | 1205/100000 [40:06<43:43:58,  1.59s/it]                                                          1%|          | 1205/100000 [40:06<43:43:58,  1.59s/it]  1%|          | 1206/100000 [40:08<42:41:58,  1.56s/it]                                                          1%|          | 1206/100000 [40:08<42:41:58,  1.56s/it]  1%|          | 1207/100000 [40:09<41:36:42,  1.52s/it]                                                          1%|          | 1207/100000 [40:09<41:36:42,  1.52s/it]  1%|          | 1208/100000 [40:11<40:08:11,  1.46s/it]                                                          1%|          | 1208/100000 [40:11<40:08:11,  1.46s/it]  1%|          | 1209/100000 [40:12<39:30:02,  1.44s/it]                                                          1%|          | 1209/100000 [40:12<39:30:02,  1.44s/it]  1%|          | 1210/100000 [40:13<38:51:28,  1.42s/it]                                                          1%|          | 1210/100000 [40:13<38:51:28,  1.42s/it]  1%|          | 1211/100000 [40:15<38:15:29,  1.39s/it]                                                          1%|          | 1211/100000 [40:15<38:15:29,  1.39s/it]  1%|          | 1212/100000 [40:16<37:27:25,  1.37s/it]                                                          1%|          | 1212/100000 [40:16<37:27:25,  1.37s/it]  1%|          | 1213/100000 [40:17<36:38:56,  1.34s/it]                                                          1%|          | 1213/100000 [40:17<36:38:56,  1.34s/it]  1%|          | 1214/100000 [40:19<35:55:15,  1.31s/it]                                                          1%|          | 1214/100000 [40:19<35:55:15,  1.31s/it]  1%|          | 1215/100000 [40:20<35:44:35,  1.30s/it]                                                          1%|          | 1215/100000 [40:20<35:44:35,  1.30s/it]  1%|          | 1216/100000 [40:21<34:56:51,  1.27s/it]                                                          1%|          | 1216/100000 [40:21<34:56:51,  1.27s/it]  1%|          | 1217/100000 [40:22<34:42:30,  1.26s/it]                                                          1%|          | 1217/100000 [40:22<34:42:30,  1.26s/it]  1%|          | 1218/100000 [40:24<34:14:26,  1.25s/it]                                                          1%|          | 1218/100000 [40:24<34:14:26,  1.25s/it]  1%|          | 1219/100000 [40:25<33:33:39,  1.22s/it]                                                          1%|          | 1219/100000 [40:25<33:33:39,  1.22s/it]  1%|          | 1220/100000 [40:26<33:11:02,  1.21s/it]                                                          1%|          | 1220/100000 [40:26<33:11:02,  1.21s/it]  1%|          | 1221/100000 [40:27<32:33:46,  1.19s/it]                                                          1%|          | 1221/100000 [40:27<32:33:46,  1.19s/it]  1%|          | 1222/100000 [40:28<32:17:21,  1.18s/it]                                                          1%|          | 1222/100000 [40:28<32:17:21,  1.18s/it]  1%|          | 1223/100000 [40:29<31:39:23,  1.15s/it]                                                          1%|          | 1223/100000 [40:29<31:39:23,  1.15s/it]  1%|          | 1224/100000 [40:30<31:21:56,  1.14s/it]                                                          1%|          | 1224/100000 [40:30<31:21:56,  1.14s/it]  1%|          | 1225/100000 [40:32<30:59:09,  1.13s/it]                                                          1%|          | 1225/100000 [40:32<30:59:09,  1.13s/it]  1%|          | 1226/100000 [40:33<30:40:05,  1.12s/it]                                                          1%|          | 1226/100000 [40:33<30:40:05,  1.12s/it]  1%|          | 1227/100000 [40:34<30:09:33,  1.10s/it]                                                          1%|          | 1227/100000 [40:34<30:09:33,  1.10s/it]  1%|          | 1228/100000 [40:35<29:46:44,  1.09s/it]                                                          1%|          | 1228/100000 [40:35<29:46:44,  1.09s/it]  1%|          | 1229/100000 [40:36<28:59:32,  1.06s/it]                                                          1%|          | 1229/100000 [40:36<28:59:32,  1.06s/it]  1%|          | 1230/100000 [40:37<28:45:47,  1.05s/it]                                                          1%|          | 1230/100000 [40:37<28:45:47,  1.05s/it]  1%|          | 1231/100000 [40:38<27:48:33,  1.01s/it]                                                          1%|          | 1231/100000 [40:38<27:48:33,  1.01s/it]  1%|          | 1232/100000 [40:39<27:25:33,  1.00it/s]                                                          1%|          | 1232/100000 [40:39<27:25:33,  1.00it/s]  1%|          | 1233/100000 [40:40<26:41:24,  1.03it/s]                                                          1%|          | 1233/100000 [40:40<26:41:24,  1.03it/s]  1%|          | 1234/100000 [40:40<26:05:22,  1.05it/s]                                                          1%|          | 1234/100000 [40:40<26:05:22,  1.05it/s]  1%|          | 1235/100000 [40:51<108:44:51,  3.96s/it]                                                           1%|          | 1235/100000 [40:51<108:44:51,  3.96s/it]  1%|          | 1236/100000 [40:57<122:53:21,  4.48s/it]                                                           1%|          | 1236/100000 [40:57<122:53:21,  4.48s/it]  1%|          | 1237/100000 [41:01<121:54:52,  4.44s/it]                                                           1%|          | 1237/100000 [41:01<121:54:52,  4.44s/it]  1%|          | 1238/100000 [41:06<118:45:46,  4.33s/it]                                                           1%|          | 1238/100000 [41:06<118:45:46,  4.33s/it]  1%|          | 1239/100000 [41:09<111:03:02,  4.05s/it]                                                           1%|          | 1239/100000 [41:09<111:03:02,  4.05s/it]  1%|          | 1240/100000 [41:12<104:31:58,  3.81s/it]                                                           1%|          | 1240/100000 [41:12<104:31:58,  3.81s/it]  1%|          | 1241/100000 [41:15<96:43:54,  3.53s/it]                                                           1%|          | 1241/100000 [41:15<96:43:54,  3.53s/it]  1%|          | 1242/100000 [41:18<90:05:46,  3.28s/it]                                                          1%|          | 1242/100000 [41:18<90:05:46,  3.28s/it]  1%|          | 1243/100000 [41:20<83:34:55,  3.05s/it]                                                          1%|          | 1243/100000 [41:20<83:34:55,  3.05s/it]  1%|          | 1244/100000 [41:23<77:24:04,  2.82s/it]                                                          1%|          | 1244/100000 [41:23<77:24:04,  2.82s/it]  1%|          | 1245/100000 [41:25<71:43:07,  2.61s/it]                                                          1%|          | 1245/100000 [41:25<71:43:07,  2.61s/it]  1%|          | 1246/100000 [41:27<66:45:18,  2.43s/it]                                                          1%|          | 1246/100000 [41:27<66:45:18,  2.43s/it]  1%|          | 1247/100000 [41:29<61:59:14,  2.26s/it]                                                          1%|          | 1247/100000 [41:29<61:59:14,  2.26s/it]  1%|          | 1248/100000 [41:30<57:43:42,  2.10s/it]                                                          1%|          | 1248/100000 [41:30<57:43:42,  2.10s/it]  1%|          | 1249/100000 [41:32<54:45:10,  2.00s/it]                                                          1%|          | 1249/100000 [41:32<54:45:10,  2.00s/it]  1%|▏         | 1250/100000 [41:34<51:44:35,  1.89s/it]                                                          1%|▏         | 1250/100000 [41:34<51:44:35,  1.89s/it]  1%|▏         | 1251/100000 [41:35<49:29:47,  1.80s/it]                                                          1%|▏         | 1251/100000 [41:35<49:29:47,  1.80s/it]  1%|▏         | 1252/100000 [41:37<47:39:11,  1.74s/it]                                                          1%|▏         | 1252/100000 [41:37<47:39:11,  1.74s/it]  1%|▏         | 1253/100000 [41:38<46:00:40,  1.68s/it]                                                          1%|▏         | 1253/100000 [41:38<46:00:40,  1.68s/it]  1%|▏         | 1254/100000 [41:40<44:01:51,  1.61s/it]                                                          1%|▏         | 1254/100000 [41:40<44:01:51,  1.61s/it]  1%|▏         | 1255/100000 [41:41<42:50:19,  1.56s/it]                                                        {'loss': 0.3351, 'grad_norm': 2.840134620666504, 'learning_rate': 3.501e-06, 'epoch': 2.16}
+{'loss': 0.3443, 'grad_norm': 2.2682883739471436, 'learning_rate': 3.5040000000000002e-06, 'epoch': 2.16}
+{'loss': 0.3911, 'grad_norm': 3.5608057975769043, 'learning_rate': 3.507e-06, 'epoch': 2.16}
+{'loss': 0.3563, 'grad_norm': 3.4463419914245605, 'learning_rate': 3.5100000000000003e-06, 'epoch': 2.16}
+{'loss': 0.3671, 'grad_norm': 3.2165534496307373, 'learning_rate': 3.513e-06, 'epoch': 2.17}
+{'loss': 0.3282, 'grad_norm': 4.781904220581055, 'learning_rate': 3.516e-06, 'epoch': 2.17}
+{'loss': 0.375, 'grad_norm': 22.736854553222656, 'learning_rate': 3.519e-06, 'epoch': 2.17}
+{'loss': 0.3934, 'grad_norm': 3.0178444385528564, 'learning_rate': 3.5220000000000003e-06, 'epoch': 2.17}
+{'loss': 0.3651, 'grad_norm': 7.673983573913574, 'learning_rate': 3.5249999999999997e-06, 'epoch': 2.17}
+{'loss': 0.3587, 'grad_norm': 2.905626058578491, 'learning_rate': 3.528e-06, 'epoch': 2.18}
+{'loss': 0.3424, 'grad_norm': 5.361052989959717, 'learning_rate': 3.531e-06, 'epoch': 2.18}
+{'loss': 0.3506, 'grad_norm': 2.9514048099517822, 'learning_rate': 3.534e-06, 'epoch': 2.18}
+{'loss': 0.4183, 'grad_norm': 6.453454494476318, 'learning_rate': 3.537e-06, 'epoch': 2.18}
+{'loss': 0.4085, 'grad_norm': 4.925314903259277, 'learning_rate': 3.54e-06, 'epoch': 2.18}
+{'loss': 0.3729, 'grad_norm': 3.5400233268737793, 'learning_rate': 3.543e-06, 'epoch': 2.18}
+{'loss': 1.11, 'grad_norm': 7.280455589294434, 'learning_rate': 3.546e-06, 'epoch': 2.19}
+{'loss': 0.9891, 'grad_norm': 3.9851276874542236, 'learning_rate': 3.5490000000000002e-06, 'epoch': 2.19}
+{'loss': 0.907, 'grad_norm': 3.3686535358428955, 'learning_rate': 3.552e-06, 'epoch': 2.19}
+{'loss': 0.7925, 'grad_norm': 3.4856481552124023, 'learning_rate': 3.555e-06, 'epoch': 2.19}
+{'loss': 0.6853, 'grad_norm': 3.7457706928253174, 'learning_rate': 3.558e-06, 'epoch': 2.19}
+{'loss': 0.6675, 'grad_norm': 5.772076606750488, 'learning_rate': 3.5610000000000003e-06, 'epoch': 2.2}
+{'loss': 0.5446, 'grad_norm': 3.661681890487671, 'learning_rate': 3.564e-06, 'epoch': 2.2}
+{'loss': 0.5409, 'grad_norm': 3.1582486629486084, 'learning_rate': 3.5670000000000003e-06, 'epoch': 2.2}
+{'loss': 0.5944, 'grad_norm': 3.120471954345703, 'learning_rate': 3.57e-06, 'epoch': 2.2}
+{'loss': 0.5486, 'grad_norm': 3.0466837882995605, 'learning_rate': 3.573e-06, 'epoch': 2.2}
+{'loss': 0.516, 'grad_norm': 2.113574743270874, 'learning_rate': 3.576e-06, 'epoch': 2.2}
+{'loss': 0.5089, 'grad_norm': 2.616821527481079, 'learning_rate': 3.5790000000000004e-06, 'epoch': 2.21}
+{'loss': 0.4616, 'grad_norm': 3.7034990787506104, 'learning_rate': 3.582e-06, 'epoch': 2.21}
+{'loss': 0.4608, 'grad_norm': 3.5968942642211914, 'learning_rate': 3.585e-06, 'epoch': 2.21}
+{'loss': 0.4004, 'grad_norm': 2.87996506690979, 'learning_rate': 3.588e-06, 'epoch': 2.21}
+{'loss': 0.4628, 'grad_norm': 2.8459644317626953, 'learning_rate': 3.591e-06, 'epoch': 2.21}
+{'loss': 0.3203, 'grad_norm': 1.9606138467788696, 'learning_rate': 3.5940000000000002e-06, 'epoch': 2.22}
+{'loss': 0.3311, 'grad_norm': 3.2116522789001465, 'learning_rate': 3.5970000000000005e-06, 'epoch': 2.22}
+{'loss': 0.3352, 'grad_norm': 3.8338441848754883, 'learning_rate': 3.6e-06, 'epoch': 2.22}
+{'loss': 0.3138, 'grad_norm': 2.1496729850769043, 'learning_rate': 3.603e-06, 'epoch': 2.22}
+{'loss': 0.3463, 'grad_norm': 4.74179220199585, 'learning_rate': 3.6060000000000003e-06, 'epoch': 2.22}
+{'loss': 0.3382, 'grad_norm': 2.1020402908325195, 'learning_rate': 3.609e-06, 'epoch': 2.23}
+{'loss': 0.3619, 'grad_norm': 3.37388277053833, 'learning_rate': 3.612e-06, 'epoch': 2.23}
+{'loss': 0.2963, 'grad_norm': 3.114112377166748, 'learning_rate': 3.615e-06, 'epoch': 2.23}
+{'loss': 0.3247, 'grad_norm': 15.57221794128418, 'learning_rate': 3.618e-06, 'epoch': 2.23}
+{'loss': 0.3519, 'grad_norm': 3.1523525714874268, 'learning_rate': 3.621e-06, 'epoch': 2.23}
+{'loss': 0.3248, 'grad_norm': 4.5500688552856445, 'learning_rate': 3.6240000000000004e-06, 'epoch': 2.23}
+{'loss': 0.2886, 'grad_norm': 3.338387966156006, 'learning_rate': 3.6269999999999997e-06, 'epoch': 2.24}
+{'loss': 0.3965, 'grad_norm': 13.98320484161377, 'learning_rate': 3.63e-06, 'epoch': 2.24}
+{'loss': 0.322, 'grad_norm': 2.9857637882232666, 'learning_rate': 3.633e-06, 'epoch': 2.24}
+{'loss': 0.3352, 'grad_norm': 2.754495143890381, 'learning_rate': 3.636e-06, 'epoch': 2.24}
+{'loss': 0.2727, 'grad_norm': 3.092918634414673, 'learning_rate': 3.6390000000000002e-06, 'epoch': 2.24}
+{'loss': 0.3195, 'grad_norm': 2.6611902713775635, 'learning_rate': 3.642e-06, 'epoch': 2.25}
+{'loss': 0.3389, 'grad_norm': 5.46854305267334, 'learning_rate': 3.645e-06, 'epoch': 2.25}
+{'loss': 0.3301, 'grad_norm': 3.306468963623047, 'learning_rate': 3.648e-06, 'epoch': 2.25}
+{'loss': 0.2876, 'grad_norm': 5.192465782165527, 'learning_rate': 3.6510000000000003e-06, 'epoch': 2.25}
+{'loss': 0.3413, 'grad_norm': 6.205870628356934, 'learning_rate': 3.654e-06, 'epoch': 2.25}
+{'loss': 0.3459, 'grad_norm': 5.976049900054932, 'learning_rate': 3.657e-06, 'epoch': 2.25}
+{'loss': 0.3013, 'grad_norm': 4.196659564971924, 'learning_rate': 3.66e-06, 'epoch': 2.26}
+{'loss': 0.3416, 'grad_norm': 4.1666107177734375, 'learning_rate': 3.663e-06, 'epoch': 2.26}
+{'loss': 0.3489, 'grad_norm': 6.647060394287109, 'learning_rate': 3.666e-06, 'epoch': 2.26}
+{'loss': 0.3276, 'grad_norm': 10.108695983886719, 'learning_rate': 3.6690000000000004e-06, 'epoch': 2.26}
+{'loss': 0.3288, 'grad_norm': 3.9936745166778564, 'learning_rate': 3.6719999999999997e-06, 'epoch': 2.26}
+{'loss': 0.3284, 'grad_norm': 3.6058974266052246, 'learning_rate': 3.675e-06, 'epoch': 2.27}
+{'loss': 0.3364, 'grad_norm': 9.84175968170166, 'learning_rate': 3.678e-06, 'epoch': 2.27}
+{'loss': 0.348, 'grad_norm': 4.596037864685059, 'learning_rate': 3.681e-06, 'epoch': 2.27}
+{'loss': 0.3163, 'grad_norm': 3.893502712249756, 'learning_rate': 3.6840000000000002e-06, 'epoch': 2.27}
+{'loss': 0.3415, 'grad_norm': 2.600052833557129, 'learning_rate': 3.687e-06, 'epoch': 2.27}
+{'loss': 0.3369, 'grad_norm': 3.8423099517822266, 'learning_rate': 3.6900000000000002e-06, 'epoch': 2.28}
+{'loss': 0.3862, 'grad_norm': 5.047562599182129, 'learning_rate': 3.693e-06, 'epoch': 2.28}
+{'loss': 1.0494, 'grad_norm': 6.9906697273254395, 'learning_rate': 3.6960000000000003e-06, 'epoch': 2.28}
+{'loss': 0.8679, 'grad_norm': 4.055783748626709, 'learning_rate': 3.6990000000000005e-06, 'epoch': 2.28}
+{'loss': 0.6641, 'grad_norm': 22.55494499206543, 'learning_rate': 3.702e-06, 'epoch': 2.28}
+{'loss': 0.771, 'grad_norm': 4.827858924865723, 'learning_rate': 3.705e-06, 'epoch': 2.28}
+{'loss': 0.5988, 'grad_norm': 2.824592113494873, 'learning_rate': 3.7080000000000003e-06, 'epoch': 2.29}
+{'loss': 0.6778, 'grad_norm': 2.9814367294311523, 'learning_rate': 3.711e-06, 'epoch': 2.29}
+{'loss': 0.6152, 'grad_norm': 2.789565324783325, 'learning_rate': 3.714e-06, 'epoch': 2.29}
+{'loss': 0.6609, 'grad_norm': 7.15195369720459, 'learning_rate': 3.717e-06, 'epoch': 2.29}
+{'loss': 0.489, 'grad_norm': 2.280348062515259, 'learning_rate': 3.72e-06, 'epoch': 2.29}
+{'loss': 0.4645, 'grad_norm': 2.8647119998931885, 'learning_rate': 3.723e-06, 'epoch': 2.3}
+{'loss': 0.5328, 'grad_norm': 2.9245121479034424, 'learning_rate': 3.7260000000000004e-06, 'epoch': 2.3}
+{'loss': 0.4194, 'grad_norm': 2.771186113357544, 'learning_rate': 3.7289999999999998e-06, 'epoch': 2.3}
+{'loss': 0.4229, 'grad_norm': 2.297076463699341, 'learning_rate': 3.732e-06, 'epoch': 2.3}
+{'loss': 0.3892, 'grad_norm': 4.746479511260986, 'learning_rate': 3.7350000000000002e-06, 'epoch': 2.3}
+{'loss': 0.2941, 'grad_norm': 4.564180374145508, 'learning_rate': 3.738e-06, 'epoch': 2.3}
+{'loss': 0.4098, 'grad_norm': 3.5963242053985596, 'learning_rate': 3.7410000000000003e-06, 'epoch': 2.31}
+{'loss': 0.3319, 'grad_norm': 3.23600435256958, 'learning_rate': 3.744e-06, 'epoch': 2.31}
+{'loss': 0.279, 'grad_norm': 1.7888182401657104, 'learning_rate': 3.747e-06, 'epoch': 2.31}
+{'loss': 0.3066, 'grad_norm': 2.327932357788086, 'learning_rate': 3.75e-06, 'epoch': 2.31}
+{'loss': 0.3174, 'grad_norm': 2.380089282989502, 'learning_rate': 3.753e-06, 'epoch': 2.31}
+  1%|▏         | 1255/100000 [41:41<42:50:19,  1.56s/it]  1%|▏         | 1256/100000 [41:43<41:29:40,  1.51s/it]                                                          1%|▏         | 1256/100000 [41:43<41:29:40,  1.51s/it]  1%|▏         | 1257/100000 [41:44<40:21:31,  1.47s/it]                                                          1%|▏         | 1257/100000 [41:44<40:21:31,  1.47s/it]  1%|▏         | 1258/100000 [41:45<39:44:50,  1.45s/it]                                                          1%|▏         | 1258/100000 [41:45<39:44:50,  1.45s/it]  1%|▏         | 1259/100000 [41:47<38:50:32,  1.42s/it]                                                          1%|▏         | 1259/100000 [41:47<38:50:32,  1.42s/it]  1%|▏         | 1260/100000 [41:48<38:23:01,  1.40s/it]                                                          1%|▏         | 1260/100000 [41:48<38:23:01,  1.40s/it]  1%|▏         | 1261/100000 [41:49<37:49:07,  1.38s/it]                                                          1%|▏         | 1261/100000 [41:49<37:49:07,  1.38s/it]  1%|▏         | 1262/100000 [41:51<37:08:14,  1.35s/it]                                                          1%|▏         | 1262/100000 [41:51<37:08:14,  1.35s/it]  1%|▏         | 1263/100000 [41:52<36:41:44,  1.34s/it]                                                          1%|▏         | 1263/100000 [41:52<36:41:44,  1.34s/it]  1%|▏         | 1264/100000 [41:53<36:07:22,  1.32s/it]                                                          1%|▏         | 1264/100000 [41:53<36:07:22,  1.32s/it]  1%|▏         | 1265/100000 [41:55<35:22:34,  1.29s/it]                                                          1%|▏         | 1265/100000 [41:55<35:22:34,  1.29s/it]  1%|▏         | 1266/100000 [41:56<35:00:24,  1.28s/it]                                                          1%|▏         | 1266/100000 [41:56<35:00:24,  1.28s/it]  1%|▏         | 1267/100000 [41:57<34:35:59,  1.26s/it]                                                          1%|▏         | 1267/100000 [41:57<34:35:59,  1.26s/it]  1%|▏         | 1268/100000 [41:58<34:07:28,  1.24s/it]                                                          1%|▏         | 1268/100000 [41:58<34:07:28,  1.24s/it]  1%|▏         | 1269/100000 [41:59<33:31:50,  1.22s/it]                                                          1%|▏         | 1269/100000 [41:59<33:31:50,  1.22s/it]  1%|▏         | 1270/100000 [42:01<33:01:49,  1.20s/it]                                                          1%|▏         | 1270/100000 [42:01<33:01:49,  1.20s/it]  1%|▏         | 1271/100000 [42:02<32:27:11,  1.18s/it]                                                          1%|▏         | 1271/100000 [42:02<32:27:11,  1.18s/it]  1%|▏         | 1272/100000 [42:03<32:00:53,  1.17s/it]                                                          1%|▏         | 1272/100000 [42:03<32:00:53,  1.17s/it]  1%|▏         | 1273/100000 [42:04<31:26:53,  1.15s/it]                                                          1%|▏         | 1273/100000 [42:04<31:26:53,  1.15s/it]  1%|▏         | 1274/100000 [42:05<31:02:04,  1.13s/it]                                                          1%|▏         | 1274/100000 [42:05<31:02:04,  1.13s/it]  1%|▏         | 1275/100000 [42:06<30:33:03,  1.11s/it]                                                          1%|▏         | 1275/100000 [42:06<30:33:03,  1.11s/it]  1%|▏         | 1276/100000 [42:07<30:13:43,  1.10s/it]                                                          1%|▏         | 1276/100000 [42:07<30:13:43,  1.10s/it]  1%|▏         | 1277/100000 [42:08<29:50:43,  1.09s/it]                                                          1%|▏         | 1277/100000 [42:08<29:50:43,  1.09s/it]  1%|▏         | 1278/100000 [42:09<29:15:54,  1.07s/it]                                                          1%|▏         | 1278/100000 [42:09<29:15:54,  1.07s/it]  1%|▏         | 1279/100000 [42:10<28:27:14,  1.04s/it]                                                          1%|▏         | 1279/100000 [42:10<28:27:14,  1.04s/it]  1%|▏         | 1280/100000 [42:11<27:59:50,  1.02s/it]                                                          1%|▏         | 1280/100000 [42:11<27:59:50,  1.02s/it]  1%|▏         | 1281/100000 [42:12<27:14:44,  1.01it/s]                                                          1%|▏         | 1281/100000 [42:12<27:14:44,  1.01it/s]  1%|▏         | 1282/100000 [42:13<26:42:48,  1.03it/s]                                                          1%|▏         | 1282/100000 [42:13<26:42:48,  1.03it/s]  1%|▏         | 1283/100000 [42:14<26:07:22,  1.05it/s]                                                          1%|▏         | 1283/100000 [42:14<26:07:22,  1.05it/s]  1%|▏         | 1284/100000 [42:15<24:57:41,  1.10it/s]                                                          1%|▏         | 1284/100000 [42:15<24:57:41,  1.10it/s]  1%|▏         | 1285/100000 [42:27<121:45:01,  4.44s/it]                                                           1%|▏         | 1285/100000 [42:27<121:45:01,  4.44s/it]  1%|▏         | 1286/100000 [42:33<131:05:47,  4.78s/it]                                                           1%|▏         | 1286/100000 [42:33<131:05:47,  4.78s/it]  1%|▏         | 1287/100000 [42:38<129:48:25,  4.73s/it]                                                           1%|▏         | 1287/100000 [42:38<129:48:25,  4.73s/it]  1%|▏         | 1288/100000 [42:42<124:45:35,  4.55s/it]                                                           1%|▏         | 1288/100000 [42:42<124:45:35,  4.55s/it]  1%|▏         | 1289/100000 [42:45<117:00:26,  4.27s/it]                                                           1%|▏         | 1289/100000 [42:45<117:00:26,  4.27s/it]  1%|▏         | 1290/100000 [42:49<109:25:18,  3.99s/it]                                                           1%|▏         | 1290/100000 [42:49<109:25:18,  3.99s/it]  1%|▏         | 1291/100000 [42:52<101:24:15,  3.70s/it]                                                           1%|▏         | 1291/100000 [42:52<101:24:15,  3.70s/it]  1%|▏         | 1292/100000 [42:54<91:26:14,  3.33s/it]                                                           1%|▏         | 1292/100000 [42:54<91:26:14,  3.33s/it]  1%|▏         | 1293/100000 [42:57<84:40:04,  3.09s/it]                                                          1%|▏         | 1293/100000 [42:57<84:40:04,  3.09s/it]  1%|▏         | 1294/100000 [42:59<78:31:28,  2.86s/it]                                                          1%|▏         | 1294/100000 [42:59<78:31:28,  2.86s/it]  1%|▏         | 1295/100000 [43:01<72:59:35,  2.66s/it]                                                          1%|▏         | 1295/100000 [43:01<72:59:35,  2.66s/it]  1%|▏         | 1296/100000 [43:03<68:10:45,  2.49s/it]                                                          1%|▏         | 1296/100000 [43:03<68:10:45,  2.49s/it]  1%|▏         | 1297/100000 [43:05<63:51:02,  2.33s/it]                                                          1%|▏         | 1297/100000 [43:05<63:51:02,  2.33s/it]  1%|▏         | 1298/100000 [43:07<59:50:30,  2.18s/it]                                                          1%|▏         | 1298/100000 [43:07<59:50:30,  2.18s/it]  1%|▏         | 1299/100000 [43:09<56:19:08,  2.05s/it]                                                          1%|▏         | 1299/100000 [43:09<56:19:08,  2.05s/it]  1%|▏         | 1300/100000 [43:11<53:11:08,  1.94s/it]                                                          1%|▏         | 1300/100000 [43:11<53:11:08,  1.94s/it]  1%|▏         | 1301/100000 [43:12<50:35:09,  1.85s/it]                                                          1%|▏         | 1301/100000 [43:12<50:35:09,  1.85s/it]  1%|▏         | 1302/100000 [43:14<48:25:42,  1.77s/it]                                                          1%|▏         | 1302/100000 [43:14<48:25:42,  1.77s/it]  1%|▏         | 1303/100000 [43:15<46:03:41,  1.68s/it]                                                          1%|▏         | 1303/100000 [43:15<46:03:41,  1.68s/it]  1%|▏         | 1304/100000 [43:17<44:32:47,  1.62s/it]                                                          1%|▏         | 1304/100000 [43:17<44:32:47,  1.62s/it]  1%|▏         | 1305/100000 [43:18<42:56:56,  1.57s/it]                                                          1%|▏         | 1305/100000 [43:18<42:56:56,  1.57s/it]  1%|▏         | 1306/100000 [43:20<41:30:35,  1.51s/it]                                                          1%|▏         | 1306/100000 [43:20<41:30:35,  1.51s/it]  1%|▏         | 1307/100000 [43:21<40:38:13,  1.48s/it]                                                          1%|▏         | 1307/100000 [43:21<40:38:13,  1.48s/it]  1%|▏         | 1308/100000 [43:22<39:44:40,  1.45s/it]                                                          1%|▏         | 1308/100000 [43:22<39:44:40,  1.45s/it]  1%|▏         | 1309/100000 [43:24<39:08:10,  1.43s/it]                                                          1%|▏         | 1309/100000 [43:24<39:08:10,  1.43s/it]  1%|▏         | 1310/100000 [43:25<38:33:07,  1.41s/it]                                                          1%|▏         | 1310/100000 [43:25<38:33:07,  1.41s/it]  1%|▏         | 1311/100000 [43:26<37:55:06,  1.38s/it]                                                          1%|▏         | 1311/100000 [43:26<37:55:06,  1.38s/it]  1%|▏         | 1312/100000 [43:28<37:15:19,  1.36s/it]                                                          1%|▏         | 1312/100000 [43:28<37:15:19,  1.36s/it]  1%|▏         | 1313/100000 [43:29<36:52:33,  1.35s/it]                                                          1%|▏         | 1313/100000 [43:29<36:52:33,  1.35s/it]  1%|▏         | 1314/100000 [43:30<36:02:21,  1.31s/it]                                                          1%|▏         | 1314/100000 [43:30<36:02:21,  1.31s/it]  1%|▏         | 1315/100000 [43:32<35:45:27,  1.30s/it]                                                          1%|▏         | 1315/100000 [43:32<35:45:27,  1.30s/it]  1%|▏         | 1316/100000 [43:33<35:07:56,  1.28s/it]                                                          1%|▏         | 1316/100000 [43:33<35:07:56,  1.28s/it]  1%|▏         | 1317/100000 [43:34<34:45:51,  1.27s/it]                                                          1%|▏         | 1317/100000 [43:34<34:45:51,  1.27s/it]  1%|▏         | 1318/100000 [43:35<34:25:29,  1.26s/it]                                                          1%|▏         | 1318/100000 [43:35<34:25:29,  1.26s/it]  1%|▏         | 1319/100000 [43:36<33:44:36,  1.23s/it]                                                          1%|▏         | 1319/100000 [43:36<33:44:36,  1.23s/it]  1%|▏         | 1320/100000 [43:38<33:13:16,  1.21s/it]                                                          1%|▏         | 1320/100000 [43:38<33:13:16,  1.21s/it]  1%|▏         | 1321/100000 [43:39<32:38:01,  1.19s/it]                                                          1%|▏         | 1321/100000 [43:39<32:38:01,  1.19s/it]  1%|▏         | 1322/100000 [43:40<32:04:11,  1.17s/it]                                                          1%|▏         | 1322/100000 [43:40<32:04:11,  1.17s/it]  1%|▏         | 1323/100000 [43:41<31:17:38,  1.14s/it]                                                          1%|▏         | 1323/100000 [43:41<31:17:38,  1.14s/it]  1%|▏         | 1324/100000 [43:42<30:48:20,  1.12s/it]                                                          1%|▏         | 1324/100000 [43:42<30:48:20,  1.12s/it]  1%|▏         | 1325/100000 [43:43<30:15:54,  1.10s/it]                                                          1%|▏         | 1325/100000 [43:43<30:15:54,  1.10s/it]  1%|▏         | 1326/100000 [43:44<30:04:48,  1.10s/it]                                                          1%|▏         | 1326/100000 [43:44<30:04:48,  1.10s/it]  1%|▏         | 1327/100000 [43:45<29:35:54,  1.08s/it]                                                          1%|▏         | 1327/100000 [43:45<29:35:54,  1.08s/it]  1%|▏         | 1328/100000 [43:46<29:12:40,  1.07s/it]                                                          1%|▏         | 1328/100000 [43:46<29:12:40,  1.07s/it]  1%|▏         | 1329/100000 [43:47<28:30:53,  1.04s/it]                                                          1%|▏         | 1329/100000 [43:47<28:30:53,  1.04s/it]  1%|▏         | 1330/100000 [43:48<27:46:12,  1.01s/it]                                                          1%|▏         | 1330/100000 [43:48<27:46:12,  1.01s/it]  1%|▏         | 1331/100000 [43:49<27:10:16,  1.01it/s]                                                          1%|▏         | 1331/100000 [43:49<27:10:16,  1.01it/s]  1%|▏         | 1332/100000 [43:50<26:39:50,  1.03it/s]                                                          1%|▏         | 1332/100000 [43:50<26:39:50,  1.03it/s]  1%|▏         | 1333/100000 [43:51<26:07:03,  1.05it/s]                                                          1%|▏         | 1333/100000 [43:51<26:07:03,  1.05it/s]  1%|▏         | 1334/100000 [43:52<25:05:03,  1.09it/s]                                                          1%|▏         | 1334/100000 [43:52<25:05:03,  1.09it/s]  1%|▏         | 1335/100000 [44:01<96:18:03,  3.51s/it]                                                          1%|▏         | 1335/100000 [44:01<96:18:03,  3.51s/it]  1%|▏         | 1336/100000 [44:07<112:43:25,  4.11s/it]                                                           1%|▏         | 1336/100000 [44:07<112:43:25,  4.11s/it]  1%|▏         | 1337/100000 [44:11<115:36:59,  4.22s/it]                                                           1%|▏         | 1337/100000 [44:11<115:36:59,  4.22s/it]  1%|▏         | 1338/100000 [44:15<112:45:54,  4.11s/it]                                                           1%|▏         | 1338/100000 [44:15<112:45:54,  4.11s/it]  1%|▏         | 1339/100000 [44:19<109:16:36,  3.99s/it]                                                         {'loss': 0.291, 'grad_norm': 6.162848949432373, 'learning_rate': 3.756e-06, 'epoch': 2.32}
+{'loss': 0.3356, 'grad_norm': 2.3624391555786133, 'learning_rate': 3.759e-06, 'epoch': 2.32}
+{'loss': 0.2871, 'grad_norm': 2.3133296966552734, 'learning_rate': 3.7620000000000006e-06, 'epoch': 2.32}
+{'loss': 0.2981, 'grad_norm': 2.8012380599975586, 'learning_rate': 3.765e-06, 'epoch': 2.32}
+{'loss': 0.2726, 'grad_norm': 6.965078353881836, 'learning_rate': 3.7679999999999998e-06, 'epoch': 2.32}
+{'loss': 0.3289, 'grad_norm': 2.270150899887085, 'learning_rate': 3.7710000000000004e-06, 'epoch': 2.33}
+{'loss': 0.308, 'grad_norm': 12.200182914733887, 'learning_rate': 3.7739999999999998e-06, 'epoch': 2.33}
+{'loss': 0.2571, 'grad_norm': 3.335463285446167, 'learning_rate': 3.7770000000000004e-06, 'epoch': 2.33}
+{'loss': 0.275, 'grad_norm': 3.326897144317627, 'learning_rate': 3.7800000000000002e-06, 'epoch': 2.33}
+{'loss': 0.2572, 'grad_norm': 2.531522274017334, 'learning_rate': 3.7829999999999996e-06, 'epoch': 2.33}
+{'loss': 0.3005, 'grad_norm': 3.5164692401885986, 'learning_rate': 3.7860000000000003e-06, 'epoch': 2.33}
+{'loss': 0.2758, 'grad_norm': 2.500251531600952, 'learning_rate': 3.789e-06, 'epoch': 2.34}
+{'loss': 0.2581, 'grad_norm': 2.022705078125, 'learning_rate': 3.7920000000000003e-06, 'epoch': 2.34}
+{'loss': 0.2543, 'grad_norm': 3.829115629196167, 'learning_rate': 3.795e-06, 'epoch': 2.34}
+{'loss': 0.2756, 'grad_norm': 2.7531073093414307, 'learning_rate': 3.798e-06, 'epoch': 2.34}
+{'loss': 0.2785, 'grad_norm': 3.9547321796417236, 'learning_rate': 3.801e-06, 'epoch': 2.34}
+{'loss': 0.308, 'grad_norm': 2.6992123126983643, 'learning_rate': 3.804e-06, 'epoch': 2.35}
+{'loss': 0.2926, 'grad_norm': 3.0379865169525146, 'learning_rate': 3.8070000000000006e-06, 'epoch': 2.35}
+{'loss': 0.2887, 'grad_norm': 7.398136615753174, 'learning_rate': 3.81e-06, 'epoch': 2.35}
+{'loss': 0.2795, 'grad_norm': 2.398902177810669, 'learning_rate': 3.8129999999999997e-06, 'epoch': 2.35}
+{'loss': 0.2811, 'grad_norm': 3.1875367164611816, 'learning_rate': 3.816e-06, 'epoch': 2.35}
+{'loss': 0.2525, 'grad_norm': 5.333486080169678, 'learning_rate': 3.819e-06, 'epoch': 2.35}
+{'loss': 0.3073, 'grad_norm': 3.6999690532684326, 'learning_rate': 3.822000000000001e-06, 'epoch': 2.36}
+{'loss': 0.2757, 'grad_norm': 9.801976203918457, 'learning_rate': 3.825e-06, 'epoch': 2.36}
+{'loss': 0.2975, 'grad_norm': 3.6513302326202393, 'learning_rate': 3.828e-06, 'epoch': 2.36}
+{'loss': 0.3085, 'grad_norm': 19.606441497802734, 'learning_rate': 3.831e-06, 'epoch': 2.36}
+{'loss': 0.4162, 'grad_norm': 3.0111238956451416, 'learning_rate': 3.834e-06, 'epoch': 2.36}
+{'loss': 0.2412, 'grad_norm': 3.498967170715332, 'learning_rate': 3.837000000000001e-06, 'epoch': 2.37}
+{'loss': 0.321, 'grad_norm': 3.1680524349212646, 'learning_rate': 3.8400000000000005e-06, 'epoch': 2.37}
+{'loss': 0.3806, 'grad_norm': 3.2572083473205566, 'learning_rate': 3.8429999999999995e-06, 'epoch': 2.37}
+{'loss': 0.9676, 'grad_norm': 8.028724670410156, 'learning_rate': 3.846e-06, 'epoch': 2.37}
+{'loss': 0.7188, 'grad_norm': 3.0075464248657227, 'learning_rate': 3.849e-06, 'epoch': 2.37}
+{'loss': 0.7748, 'grad_norm': 3.325401544570923, 'learning_rate': 3.852e-06, 'epoch': 2.37}
+{'loss': 0.6705, 'grad_norm': 3.004544973373413, 'learning_rate': 3.855e-06, 'epoch': 2.38}
+{'loss': 0.648, 'grad_norm': 5.643571853637695, 'learning_rate': 3.858e-06, 'epoch': 2.38}
+{'loss': 0.6225, 'grad_norm': 3.7997190952301025, 'learning_rate': 3.861e-06, 'epoch': 2.38}
+{'loss': 0.5235, 'grad_norm': 3.801635265350342, 'learning_rate': 3.864e-06, 'epoch': 2.38}
+{'loss': 0.5504, 'grad_norm': 6.873345375061035, 'learning_rate': 3.8669999999999996e-06, 'epoch': 2.38}
+{'loss': 0.6031, 'grad_norm': 30.787782669067383, 'learning_rate': 3.87e-06, 'epoch': 2.39}
+{'loss': 0.4685, 'grad_norm': 2.551400661468506, 'learning_rate': 3.873e-06, 'epoch': 2.39}
+{'loss': 0.4373, 'grad_norm': 2.9074532985687256, 'learning_rate': 3.876000000000001e-06, 'epoch': 2.39}
+{'loss': 0.4662, 'grad_norm': 2.8484601974487305, 'learning_rate': 3.8790000000000005e-06, 'epoch': 2.39}
+{'loss': 0.3518, 'grad_norm': 1.9514797925949097, 'learning_rate': 3.8819999999999994e-06, 'epoch': 2.39}
+{'loss': 0.3705, 'grad_norm': 2.5072360038757324, 'learning_rate': 3.885e-06, 'epoch': 2.4}
+{'loss': 0.4064, 'grad_norm': 3.407132863998413, 'learning_rate': 3.888e-06, 'epoch': 2.4}
+{'loss': 0.279, 'grad_norm': 3.2116904258728027, 'learning_rate': 3.8910000000000005e-06, 'epoch': 2.4}
+{'loss': 0.3032, 'grad_norm': 2.4596047401428223, 'learning_rate': 3.894e-06, 'epoch': 2.4}
+{'loss': 0.2755, 'grad_norm': 2.024303913116455, 'learning_rate': 3.897e-06, 'epoch': 2.4}
+{'loss': 0.367, 'grad_norm': 2.66182017326355, 'learning_rate': 3.9e-06, 'epoch': 2.4}
+{'loss': 0.2667, 'grad_norm': 2.259300470352173, 'learning_rate': 3.903e-06, 'epoch': 2.41}
+{'loss': 0.2952, 'grad_norm': 1.9543769359588623, 'learning_rate': 3.906e-06, 'epoch': 2.41}
+{'loss': 0.2995, 'grad_norm': 2.3687384128570557, 'learning_rate': 3.909e-06, 'epoch': 2.41}
+{'loss': 0.2687, 'grad_norm': 2.4152207374572754, 'learning_rate': 3.912e-06, 'epoch': 2.41}
+{'loss': 0.3216, 'grad_norm': 2.8712761402130127, 'learning_rate': 3.915000000000001e-06, 'epoch': 2.41}
+{'loss': 0.2717, 'grad_norm': 4.489912033081055, 'learning_rate': 3.918e-06, 'epoch': 2.42}
+{'loss': 0.2734, 'grad_norm': 5.658008575439453, 'learning_rate': 3.921e-06, 'epoch': 2.42}
+{'loss': 0.2723, 'grad_norm': 4.131112575531006, 'learning_rate': 3.924e-06, 'epoch': 2.42}
+{'loss': 0.231, 'grad_norm': 2.3462915420532227, 'learning_rate': 3.927e-06, 'epoch': 2.42}
+{'loss': 0.2303, 'grad_norm': 2.1342649459838867, 'learning_rate': 3.9300000000000005e-06, 'epoch': 2.42}
+{'loss': 0.2828, 'grad_norm': 2.8530802726745605, 'learning_rate': 3.933e-06, 'epoch': 2.42}
+{'loss': 0.2884, 'grad_norm': 5.358726978302002, 'learning_rate': 3.936e-06, 'epoch': 2.43}
+{'loss': 0.2985, 'grad_norm': 4.366053581237793, 'learning_rate': 3.939e-06, 'epoch': 2.43}
+{'loss': 0.2599, 'grad_norm': 2.7431342601776123, 'learning_rate': 3.942e-06, 'epoch': 2.43}
+{'loss': 0.2414, 'grad_norm': 2.0079314708709717, 'learning_rate': 3.945e-06, 'epoch': 2.43}
+{'loss': 0.2709, 'grad_norm': 2.379559278488159, 'learning_rate': 3.948e-06, 'epoch': 2.43}
+{'loss': 0.2579, 'grad_norm': 2.566490411758423, 'learning_rate': 3.951000000000001e-06, 'epoch': 2.44}
+{'loss': 0.2446, 'grad_norm': 2.704746723175049, 'learning_rate': 3.954e-06, 'epoch': 2.44}
+{'loss': 0.2526, 'grad_norm': 2.497107744216919, 'learning_rate': 3.9569999999999996e-06, 'epoch': 2.44}
+{'loss': 0.31, 'grad_norm': 2.8292629718780518, 'learning_rate': 3.96e-06, 'epoch': 2.44}
+{'loss': 0.2827, 'grad_norm': 11.356720924377441, 'learning_rate': 3.963e-06, 'epoch': 2.44}
+{'loss': 0.2188, 'grad_norm': 2.888221263885498, 'learning_rate': 3.966000000000001e-06, 'epoch': 2.45}
+{'loss': 0.3131, 'grad_norm': 2.1754820346832275, 'learning_rate': 3.9690000000000005e-06, 'epoch': 2.45}
+{'loss': 0.286, 'grad_norm': 3.7316973209381104, 'learning_rate': 3.971999999999999e-06, 'epoch': 2.45}
+{'loss': 0.3083, 'grad_norm': 4.8265581130981445, 'learning_rate': 3.975e-06, 'epoch': 2.45}
+{'loss': 0.2119, 'grad_norm': 2.3270061016082764, 'learning_rate': 3.978e-06, 'epoch': 2.45}
+{'loss': 0.2849, 'grad_norm': 2.599588394165039, 'learning_rate': 3.9810000000000005e-06, 'epoch': 2.45}
+{'loss': 0.3126, 'grad_norm': 3.5899312496185303, 'learning_rate': 3.984e-06, 'epoch': 2.46}
+{'loss': 0.3042, 'grad_norm': 5.132264137268066, 'learning_rate': 3.987e-06, 'epoch': 2.46}
+{'loss': 0.2809, 'grad_norm': 2.8291397094726562, 'learning_rate': 3.99e-06, 'epoch': 2.46}
+{'loss': 0.3302, 'grad_norm': 3.450786828994751, 'learning_rate': 3.993e-06, 'epoch': 2.46}
+{'loss': 0.8375, 'grad_norm': 4.955879211425781, 'learning_rate': 3.996e-06, 'epoch': 2.46}
+{'loss': 0.779, 'grad_norm': 5.112767219543457, 'learning_rate': 3.999e-06, 'epoch': 2.47}
+{'loss': 0.6466, 'grad_norm': 3.635031223297119, 'learning_rate': 4.002e-06, 'epoch': 2.47}
+{'loss': 0.7017, 'grad_norm': 2.0046777725219727, 'learning_rate': 4.005000000000001e-06, 'epoch': 2.47}
+  1%|▏         | 1339/100000 [44:19<109:16:36,  3.99s/it]  1%|▏         | 1340/100000 [44:22<103:17:57,  3.77s/it]                                                           1%|▏         | 1340/100000 [44:22<103:17:57,  3.77s/it]  1%|▏         | 1341/100000 [44:25<97:32:20,  3.56s/it]                                                           1%|▏         | 1341/100000 [44:25<97:32:20,  3.56s/it]  1%|▏         | 1342/100000 [44:28<91:17:48,  3.33s/it]                                                          1%|▏         | 1342/100000 [44:28<91:17:48,  3.33s/it]  1%|▏         | 1343/100000 [44:31<84:31:20,  3.08s/it]                                                          1%|▏         | 1343/100000 [44:31<84:31:20,  3.08s/it]  1%|▏         | 1344/100000 [44:33<78:24:47,  2.86s/it]                                                          1%|▏         | 1344/100000 [44:33<78:24:47,  2.86s/it]  1%|▏         | 1345/100000 [44:35<73:25:34,  2.68s/it]                                                          1%|▏         | 1345/100000 [44:35<73:25:34,  2.68s/it]  1%|▏         | 1346/100000 [44:37<68:02:20,  2.48s/it]                                                          1%|▏         | 1346/100000 [44:37<68:02:20,  2.48s/it]  1%|▏         | 1347/100000 [44:39<63:41:04,  2.32s/it]                                                          1%|▏         | 1347/100000 [44:39<63:41:04,  2.32s/it]  1%|▏         | 1348/100000 [44:41<60:03:40,  2.19s/it]                                                          1%|▏         | 1348/100000 [44:41<60:03:40,  2.19s/it]  1%|▏         | 1349/100000 [44:43<55:57:24,  2.04s/it]                                                          1%|▏         | 1349/100000 [44:43<55:57:24,  2.04s/it]  1%|▏         | 1350/100000 [44:44<53:12:42,  1.94s/it]                                                          1%|▏         | 1350/100000 [44:44<53:12:42,  1.94s/it]  1%|▏         | 1351/100000 [44:46<50:06:51,  1.83s/it]                                                          1%|▏         | 1351/100000 [44:46<50:06:51,  1.83s/it]  1%|▏         | 1352/100000 [44:48<48:26:40,  1.77s/it]                                                          1%|▏         | 1352/100000 [44:48<48:26:40,  1.77s/it]  1%|▏         | 1353/100000 [44:49<46:48:43,  1.71s/it]                                                          1%|▏         | 1353/100000 [44:49<46:48:43,  1.71s/it]  1%|▏         | 1354/100000 [44:51<44:35:39,  1.63s/it]                                                          1%|▏         | 1354/100000 [44:51<44:35:39,  1.63s/it]  1%|▏         | 1355/100000 [44:52<43:25:30,  1.58s/it]                                                          1%|▏         | 1355/100000 [44:52<43:25:30,  1.58s/it]  1%|▏         | 1356/100000 [44:53<41:56:46,  1.53s/it]                                                          1%|▏         | 1356/100000 [44:53<41:56:46,  1.53s/it]  1%|▏         | 1357/100000 [44:55<40:51:23,  1.49s/it]                                                          1%|▏         | 1357/100000 [44:55<40:51:23,  1.49s/it]  1%|▏         | 1358/100000 [44:56<40:25:33,  1.48s/it]                                                          1%|▏         | 1358/100000 [44:56<40:25:33,  1.48s/it]  1%|▏         | 1359/100000 [44:58<39:47:31,  1.45s/it]                                                          1%|▏         | 1359/100000 [44:58<39:47:31,  1.45s/it]  1%|▏         | 1360/100000 [44:59<38:51:30,  1.42s/it]                                                          1%|▏         | 1360/100000 [44:59<38:51:30,  1.42s/it]  1%|▏         | 1361/100000 [45:00<38:24:55,  1.40s/it]                                                          1%|▏         | 1361/100000 [45:00<38:24:55,  1.40s/it]  1%|▏         | 1362/100000 [45:02<37:39:59,  1.37s/it]                                                          1%|▏         | 1362/100000 [45:02<37:39:59,  1.37s/it]  1%|▏         | 1363/100000 [45:03<36:56:37,  1.35s/it]                                                          1%|▏         | 1363/100000 [45:03<36:56:37,  1.35s/it]  1%|▏         | 1364/100000 [45:04<36:06:23,  1.32s/it]                                                          1%|▏         | 1364/100000 [45:04<36:06:23,  1.32s/it]  1%|▏         | 1365/100000 [45:06<35:44:53,  1.30s/it]                                                          1%|▏         | 1365/100000 [45:06<35:44:53,  1.30s/it]  1%|▏         | 1366/100000 [45:07<35:10:25,  1.28s/it]                                                          1%|▏         | 1366/100000 [45:07<35:10:25,  1.28s/it]  1%|▏         | 1367/100000 [45:08<34:43:20,  1.27s/it]                                                          1%|▏         | 1367/100000 [45:08<34:43:20,  1.27s/it]  1%|▏         | 1368/100000 [45:09<34:15:57,  1.25s/it]                                                          1%|▏         | 1368/100000 [45:09<34:15:57,  1.25s/it]  1%|▏         | 1369/100000 [45:10<33:52:11,  1.24s/it]                                                          1%|▏         | 1369/100000 [45:10<33:52:11,  1.24s/it]  1%|▏         | 1370/100000 [45:12<33:15:56,  1.21s/it]                                                          1%|▏         | 1370/100000 [45:12<33:15:56,  1.21s/it]  1%|▏         | 1371/100000 [45:13<32:29:40,  1.19s/it]                                                          1%|▏         | 1371/100000 [45:13<32:29:40,  1.19s/it]  1%|▏         | 1372/100000 [45:14<32:05:53,  1.17s/it]                                                          1%|▏         | 1372/100000 [45:14<32:05:53,  1.17s/it]  1%|▏         | 1373/100000 [45:15<31:35:47,  1.15s/it]                                                          1%|▏         | 1373/100000 [45:15<31:35:47,  1.15s/it]  1%|▏         | 1374/100000 [45:16<31:04:32,  1.13s/it]                                                          1%|▏         | 1374/100000 [45:16<31:04:32,  1.13s/it]  1%|▏         | 1375/100000 [45:17<30:33:54,  1.12s/it]                                                          1%|▏         | 1375/100000 [45:17<30:33:54,  1.12s/it]  1%|▏         | 1376/100000 [45:18<30:06:11,  1.10s/it]                                                          1%|▏         | 1376/100000 [45:18<30:06:11,  1.10s/it]  1%|▏         | 1377/100000 [45:19<29:50:06,  1.09s/it]                                                          1%|▏         | 1377/100000 [45:19<29:50:06,  1.09s/it]  1%|▏         | 1378/100000 [45:20<29:30:21,  1.08s/it]                                                          1%|▏         | 1378/100000 [45:20<29:30:21,  1.08s/it]  1%|▏         | 1379/100000 [45:21<29:00:57,  1.06s/it]                                                          1%|▏         | 1379/100000 [45:21<29:00:57,  1.06s/it]  1%|▏         | 1380/100000 [45:22<28:33:54,  1.04s/it]                                                          1%|▏         | 1380/100000 [45:22<28:33:54,  1.04s/it]  1%|▏         | 1381/100000 [45:23<27:56:43,  1.02s/it]                                                          1%|▏         | 1381/100000 [45:23<27:56:43,  1.02s/it]  1%|▏         | 1382/100000 [45:24<27:15:46,  1.00it/s]                                                          1%|▏         | 1382/100000 [45:24<27:15:46,  1.00it/s]  1%|▏         | 1383/100000 [45:25<26:48:16,  1.02it/s]                                                          1%|▏         | 1383/100000 [45:25<26:48:16,  1.02it/s]  1%|▏         | 1384/100000 [45:26<26:01:53,  1.05it/s]                                                          1%|▏         | 1384/100000 [45:26<26:01:53,  1.05it/s]  1%|▏         | 1385/100000 [45:38<115:57:24,  4.23s/it]                                                           1%|▏         | 1385/100000 [45:38<115:57:24,  4.23s/it]  1%|▏         | 1386/100000 [45:43<124:54:30,  4.56s/it]                                                           1%|▏         | 1386/100000 [45:43<124:54:30,  4.56s/it]  1%|▏         | 1387/100000 [45:48<128:06:58,  4.68s/it]                                                           1%|▏         | 1387/100000 [45:48<128:06:58,  4.68s/it]  1%|▏         | 1388/100000 [45:52<123:52:08,  4.52s/it]                                                           1%|▏         | 1388/100000 [45:52<123:52:08,  4.52s/it]  1%|▏         | 1389/100000 [45:56<116:00:46,  4.24s/it]                                                           1%|▏         | 1389/100000 [45:56<116:00:46,  4.24s/it]  1%|▏         | 1390/100000 [45:59<107:55:24,  3.94s/it]                                                           1%|▏         | 1390/100000 [45:59<107:55:24,  3.94s/it]  1%|▏         | 1391/100000 [46:02<98:37:35,  3.60s/it]                                                           1%|▏         | 1391/100000 [46:02<98:37:35,  3.60s/it]  1%|▏         | 1392/100000 [46:05<91:43:58,  3.35s/it]                                                          1%|▏         | 1392/100000 [46:05<91:43:58,  3.35s/it]  1%|▏         | 1393/100000 [46:07<85:26:44,  3.12s/it]                                                          1%|▏         | 1393/100000 [46:07<85:26:44,  3.12s/it]  1%|▏         | 1394/100000 [46:10<79:24:29,  2.90s/it]                                                          1%|▏         | 1394/100000 [46:10<79:24:29,  2.90s/it]  1%|▏         | 1395/100000 [46:12<74:11:33,  2.71s/it]                                                          1%|▏         | 1395/100000 [46:12<74:11:33,  2.71s/it]  1%|▏         | 1396/100000 [46:14<69:16:54,  2.53s/it]                                                          1%|▏         | 1396/100000 [46:14<69:16:54,  2.53s/it]  1%|▏         | 1397/100000 [46:16<64:46:35,  2.36s/it]                                                          1%|▏         | 1397/100000 [46:16<64:46:35,  2.36s/it]  1%|▏         | 1398/100000 [46:18<60:45:16,  2.22s/it]                                                          1%|▏         | 1398/100000 [46:18<60:45:16,  2.22s/it]  1%|▏         | 1399/100000 [46:20<57:05:02,  2.08s/it]                                                          1%|▏         | 1399/100000 [46:20<57:05:02,  2.08s/it]  1%|▏         | 1400/100000 [46:21<53:29:13,  1.95s/it]                                                          1%|▏         | 1400/100000 [46:21<53:29:13,  1.95s/it]  1%|▏         | 1401/100000 [46:23<50:53:58,  1.86s/it]                                                          1%|▏         | 1401/100000 [46:23<50:53:58,  1.86s/it]  1%|▏         | 1402/100000 [46:25<49:01:55,  1.79s/it]                                                          1%|▏         | 1402/100000 [46:25<49:01:55,  1.79s/it]  1%|▏         | 1403/100000 [46:26<46:34:35,  1.70s/it]                                                          1%|▏         | 1403/100000 [46:26<46:34:35,  1.70s/it]  1%|▏         | 1404/100000 [46:28<45:10:35,  1.65s/it]                                                          1%|▏         | 1404/100000 [46:28<45:10:35,  1.65s/it]  1%|▏         | 1405/100000 [46:29<43:41:09,  1.60s/it]                                                          1%|▏         | 1405/100000 [46:29<43:41:09,  1.60s/it]  1%|▏         | 1406/100000 [46:31<41:54:53,  1.53s/it]                                                          1%|▏         | 1406/100000 [46:31<41:54:53,  1.53s/it]  1%|▏         | 1407/100000 [46:32<41:02:12,  1.50s/it]                                                          1%|▏         | 1407/100000 [46:32<41:02:12,  1.50s/it]  1%|▏         | 1408/100000 [46:33<40:05:26,  1.46s/it]                                                          1%|▏         | 1408/100000 [46:33<40:05:26,  1.46s/it]  1%|▏         | 1409/100000 [46:35<39:16:04,  1.43s/it]                                                          1%|▏         | 1409/100000 [46:35<39:16:04,  1.43s/it]  1%|▏         | 1410/100000 [46:36<38:30:35,  1.41s/it]                                                          1%|▏         | 1410/100000 [46:36<38:30:35,  1.41s/it]  1%|▏         | 1411/100000 [46:37<38:01:30,  1.39s/it]                                                          1%|▏         | 1411/100000 [46:37<38:01:30,  1.39s/it]  1%|▏         | 1412/100000 [46:39<37:05:19,  1.35s/it]                                                          1%|▏         | 1412/100000 [46:39<37:05:19,  1.35s/it]  1%|▏         | 1413/100000 [46:40<36:40:36,  1.34s/it]                                                          1%|▏         | 1413/100000 [46:40<36:40:36,  1.34s/it]  1%|▏         | 1414/100000 [46:41<35:47:09,  1.31s/it]                                                          1%|▏         | 1414/100000 [46:41<35:47:09,  1.31s/it]  1%|▏         | 1415/100000 [46:42<35:27:02,  1.29s/it]                                                          1%|▏         | 1415/100000 [46:42<35:27:02,  1.29s/it]  1%|▏         | 1416/100000 [46:44<34:51:19,  1.27s/it]                                                          1%|▏         | 1416/100000 [46:44<34:51:19,  1.27s/it]  1%|▏         | 1417/100000 [46:45<34:35:12,  1.26s/it]                                                          1%|▏         | 1417/100000 [46:45<34:35:12,  1.26s/it]  1%|▏         | 1418/100000 [46:46<33:49:44,  1.24s/it]                                                          1%|▏         | 1418/100000 [46:46<33:49:44,  1.24s/it]  1%|▏         | 1419/100000 [46:47<33:24:46,  1.22s/it]                                                          1%|▏         | 1419/100000 [46:47<33:24:46,  1.22s/it]  1%|▏         | 1420/100000 [46:48<32:52:27,  1.20s/it]                                                          1%|▏         | 1420/100000 [46:48<32:52:27,  1.20s/it]  1%|▏         | 1421/100000 [46:50<32:22:55,  1.18s/it]                                                          1%|▏         | 1421/100000 [46:50<32:22:55,  1.18s/it]  1%|▏         | 1422/100000 [46:51<31:59:17,  1.17s/it]                                                          1%|▏         | 1422/100000 [46:51<31:59:17,  1.17s/it]  1%|▏         | 1423/100000 [46:52<31:32:41,  1.15s/it]                                                          1%|▏         | 1423/100000 [46:52<31:32:41,  1.15s/it]  1%|▏         | 1424/100000 [46:53<30:55:26,  1.13s/it]                                                        {'loss': 0.5682, 'grad_norm': 3.8623645305633545, 'learning_rate': 4.008e-06, 'epoch': 2.47}
+{'loss': 0.5209, 'grad_norm': 2.804150342941284, 'learning_rate': 4.011e-06, 'epoch': 2.47}
+{'loss': 0.4553, 'grad_norm': 2.1142044067382812, 'learning_rate': 4.014e-06, 'epoch': 2.47}
+{'loss': 0.5504, 'grad_norm': 3.2303378582000732, 'learning_rate': 4.017e-06, 'epoch': 2.48}
+{'loss': 0.4207, 'grad_norm': 2.541952610015869, 'learning_rate': 4.0200000000000005e-06, 'epoch': 2.48}
+{'loss': 0.4172, 'grad_norm': 7.729579925537109, 'learning_rate': 4.023e-06, 'epoch': 2.48}
+{'loss': 0.4869, 'grad_norm': 2.261575698852539, 'learning_rate': 4.026000000000001e-06, 'epoch': 2.48}
+{'loss': 0.4203, 'grad_norm': 3.2447593212127686, 'learning_rate': 4.029e-06, 'epoch': 2.48}
+{'loss': 0.36, 'grad_norm': 2.228067398071289, 'learning_rate': 4.032e-06, 'epoch': 2.49}
+{'loss': 0.3544, 'grad_norm': 2.548985719680786, 'learning_rate': 4.035e-06, 'epoch': 2.49}
+{'loss': 0.3304, 'grad_norm': 2.606369733810425, 'learning_rate': 4.038e-06, 'epoch': 2.49}
+{'loss': 0.3204, 'grad_norm': 2.1755919456481934, 'learning_rate': 4.041e-06, 'epoch': 2.49}
+{'loss': 0.2592, 'grad_norm': 2.264122724533081, 'learning_rate': 4.044000000000001e-06, 'epoch': 2.49}
+{'loss': 0.2682, 'grad_norm': 2.880892515182495, 'learning_rate': 4.0469999999999995e-06, 'epoch': 2.49}
+{'loss': 0.2418, 'grad_norm': 2.182246685028076, 'learning_rate': 4.05e-06, 'epoch': 2.5}
+{'loss': 0.2489, 'grad_norm': 1.7105096578598022, 'learning_rate': 4.053e-06, 'epoch': 2.5}
+{'loss': 0.2585, 'grad_norm': 4.293247222900391, 'learning_rate': 4.056e-06, 'epoch': 2.5}
+{'loss': 0.2307, 'grad_norm': 1.896207332611084, 'learning_rate': 4.0590000000000004e-06, 'epoch': 2.5}
+{'loss': 0.2302, 'grad_norm': 3.0287654399871826, 'learning_rate': 4.062e-06, 'epoch': 2.5}
+{'loss': 0.2106, 'grad_norm': 1.682420015335083, 'learning_rate': 4.065e-06, 'epoch': 2.51}
+{'loss': 0.2265, 'grad_norm': 2.477034330368042, 'learning_rate': 4.068e-06, 'epoch': 2.51}
+{'loss': 0.2257, 'grad_norm': 2.927973508834839, 'learning_rate': 4.071e-06, 'epoch': 2.51}
+{'loss': 0.2496, 'grad_norm': 2.208219051361084, 'learning_rate': 4.074e-06, 'epoch': 2.51}
+{'loss': 0.2835, 'grad_norm': 2.2488653659820557, 'learning_rate': 4.077e-06, 'epoch': 2.51}
+{'loss': 0.2286, 'grad_norm': 2.399538993835449, 'learning_rate': 4.080000000000001e-06, 'epoch': 2.52}
+{'loss': 0.2554, 'grad_norm': 3.4305288791656494, 'learning_rate': 4.083e-06, 'epoch': 2.52}
+{'loss': 0.3603, 'grad_norm': 2.3506622314453125, 'learning_rate': 4.0859999999999995e-06, 'epoch': 2.52}
+{'loss': 0.2436, 'grad_norm': 2.6317431926727295, 'learning_rate': 4.089e-06, 'epoch': 2.52}
+{'loss': 0.2334, 'grad_norm': 3.0093767642974854, 'learning_rate': 4.092e-06, 'epoch': 2.52}
+{'loss': 0.208, 'grad_norm': 3.368942975997925, 'learning_rate': 4.095000000000001e-06, 'epoch': 2.52}
+{'loss': 0.2505, 'grad_norm': 2.1555802822113037, 'learning_rate': 4.098e-06, 'epoch': 2.53}
+{'loss': 0.219, 'grad_norm': 2.5781638622283936, 'learning_rate': 4.100999999999999e-06, 'epoch': 2.53}
+{'loss': 0.2179, 'grad_norm': 4.542846202850342, 'learning_rate': 4.104e-06, 'epoch': 2.53}
+{'loss': 0.1994, 'grad_norm': 1.7584036588668823, 'learning_rate': 4.107e-06, 'epoch': 2.53}
+{'loss': 0.2002, 'grad_norm': 1.8268120288848877, 'learning_rate': 4.1100000000000005e-06, 'epoch': 2.53}
+{'loss': 0.2568, 'grad_norm': 2.2652413845062256, 'learning_rate': 4.113e-06, 'epoch': 2.54}
+{'loss': 0.2373, 'grad_norm': 4.071157932281494, 'learning_rate': 4.116e-06, 'epoch': 2.54}
+{'loss': 0.1984, 'grad_norm': 2.830423355102539, 'learning_rate': 4.119e-06, 'epoch': 2.54}
+{'loss': 0.2728, 'grad_norm': 2.961411237716675, 'learning_rate': 4.122e-06, 'epoch': 2.54}
+{'loss': 0.2201, 'grad_norm': 2.2902283668518066, 'learning_rate': 4.125e-06, 'epoch': 2.54}
+{'loss': 0.206, 'grad_norm': 2.1575589179992676, 'learning_rate': 4.128e-06, 'epoch': 2.54}
+{'loss': 0.2204, 'grad_norm': 2.122411012649536, 'learning_rate': 4.131e-06, 'epoch': 2.55}
+{'loss': 0.267, 'grad_norm': 2.2870776653289795, 'learning_rate': 4.1340000000000006e-06, 'epoch': 2.55}
+{'loss': 0.2183, 'grad_norm': 2.6069374084472656, 'learning_rate': 4.137e-06, 'epoch': 2.55}
+{'loss': 0.2969, 'grad_norm': 2.5496888160705566, 'learning_rate': 4.14e-06, 'epoch': 2.55}
+{'loss': 0.253, 'grad_norm': 4.724157333374023, 'learning_rate': 4.143e-06, 'epoch': 2.55}
+{'loss': 0.8273, 'grad_norm': 6.4206390380859375, 'learning_rate': 4.146e-06, 'epoch': 2.56}
+{'loss': 0.857, 'grad_norm': 6.399569511413574, 'learning_rate': 4.1490000000000004e-06, 'epoch': 2.56}
+{'loss': 0.5886, 'grad_norm': 1.8726593255996704, 'learning_rate': 4.152e-06, 'epoch': 2.56}
+{'loss': 0.5749, 'grad_norm': 3.172929525375366, 'learning_rate': 4.155000000000001e-06, 'epoch': 2.56}
+{'loss': 0.5789, 'grad_norm': 2.1683387756347656, 'learning_rate': 4.158e-06, 'epoch': 2.56}
+{'loss': 0.597, 'grad_norm': 2.343235969543457, 'learning_rate': 4.161e-06, 'epoch': 2.57}
+{'loss': 0.5261, 'grad_norm': 2.232675552368164, 'learning_rate': 4.164e-06, 'epoch': 2.57}
+{'loss': 0.4831, 'grad_norm': 1.9980791807174683, 'learning_rate': 4.167e-06, 'epoch': 2.57}
+{'loss': 0.5287, 'grad_norm': 2.491255521774292, 'learning_rate': 4.170000000000001e-06, 'epoch': 2.57}
+{'loss': 0.384, 'grad_norm': 1.8359003067016602, 'learning_rate': 4.1730000000000005e-06, 'epoch': 2.57}
+{'loss': 0.3815, 'grad_norm': 2.0215978622436523, 'learning_rate': 4.1759999999999995e-06, 'epoch': 2.57}
+{'loss': 0.4254, 'grad_norm': 1.9105162620544434, 'learning_rate': 4.179e-06, 'epoch': 2.58}
+{'loss': 0.4206, 'grad_norm': 5.220210552215576, 'learning_rate': 4.182e-06, 'epoch': 2.58}
+{'loss': 0.2673, 'grad_norm': 1.760629653930664, 'learning_rate': 4.185000000000001e-06, 'epoch': 2.58}
+{'loss': 0.271, 'grad_norm': 2.2482142448425293, 'learning_rate': 4.188e-06, 'epoch': 2.58}
+{'loss': 0.277, 'grad_norm': 1.5858904123306274, 'learning_rate': 4.191e-06, 'epoch': 2.58}
+{'loss': 0.1968, 'grad_norm': 2.4095640182495117, 'learning_rate': 4.194e-06, 'epoch': 2.59}
+{'loss': 0.2765, 'grad_norm': 1.7928316593170166, 'learning_rate': 4.197e-06, 'epoch': 2.59}
+{'loss': 0.2139, 'grad_norm': 2.0820446014404297, 'learning_rate': 4.2000000000000004e-06, 'epoch': 2.59}
+{'loss': 0.1674, 'grad_norm': 1.5978951454162598, 'learning_rate': 4.203e-06, 'epoch': 2.59}
+{'loss': 0.1904, 'grad_norm': 1.8610577583312988, 'learning_rate': 4.206e-06, 'epoch': 2.59}
+{'loss': 0.2835, 'grad_norm': 2.742856740951538, 'learning_rate': 4.209000000000001e-06, 'epoch': 2.59}
+{'loss': 0.1867, 'grad_norm': 1.738468885421753, 'learning_rate': 4.212e-06, 'epoch': 2.6}
+{'loss': 0.231, 'grad_norm': 7.230634689331055, 'learning_rate': 4.215e-06, 'epoch': 2.6}
+{'loss': 0.268, 'grad_norm': 2.0607056617736816, 'learning_rate': 4.218e-06, 'epoch': 2.6}
+{'loss': 0.2136, 'grad_norm': 2.3839364051818848, 'learning_rate': 4.221e-06, 'epoch': 2.6}
+{'loss': 0.1609, 'grad_norm': 3.0196101665496826, 'learning_rate': 4.2240000000000006e-06, 'epoch': 2.6}
+{'loss': 0.3409, 'grad_norm': 2.1394782066345215, 'learning_rate': 4.227e-06, 'epoch': 2.61}
+{'loss': 0.2025, 'grad_norm': 2.8312456607818604, 'learning_rate': 4.229999999999999e-06, 'epoch': 2.61}
+{'loss': 0.1856, 'grad_norm': 2.4542574882507324, 'learning_rate': 4.233e-06, 'epoch': 2.61}
+{'loss': 0.228, 'grad_norm': 3.183842658996582, 'learning_rate': 4.236e-06, 'epoch': 2.61}
+{'loss': 0.2479, 'grad_norm': 2.6048052310943604, 'learning_rate': 4.239e-06, 'epoch': 2.61}
+{'loss': 0.2015, 'grad_norm': 2.054537773132324, 'learning_rate': 4.242e-06, 'epoch': 2.61}
+{'loss': 0.2257, 'grad_norm': 2.2461042404174805, 'learning_rate': 4.245e-06, 'epoch': 2.62}
+{'loss': 0.2595, 'grad_norm': 2.653735876083374, 'learning_rate': 4.248e-06, 'epoch': 2.62}
+{'loss': 0.1943, 'grad_norm': 1.8901677131652832, 'learning_rate': 4.251e-06, 'epoch': 2.62}
+{'loss': 0.2195, 'grad_norm': 2.2802734375, 'learning_rate': 4.254e-06, 'epoch': 2.62}
+{'loss': 0.3164, 'grad_norm': 2.666233539581299, 'learning_rate': 4.257e-06, 'epoch': 2.62}
+{'loss': 0.221, 'grad_norm': 3.170790195465088, 'learning_rate': 4.26e-06, 'epoch': 2.63}
+  1%|▏         | 1424/100000 [46:53<30:55:26,  1.13s/it]  1%|▏         | 1425/100000 [46:54<30:14:34,  1.10s/it]                                                          1%|▏         | 1425/100000 [46:54<30:14:34,  1.10s/it]  1%|▏         | 1426/100000 [46:55<29:46:45,  1.09s/it]                                                          1%|▏         | 1426/100000 [46:55<29:46:45,  1.09s/it]  1%|▏         | 1427/100000 [46:56<29:26:11,  1.08s/it]                                                          1%|▏         | 1427/100000 [46:56<29:26:11,  1.08s/it]  1%|▏         | 1428/100000 [46:57<29:04:27,  1.06s/it]                                                          1%|▏         | 1428/100000 [46:57<29:04:27,  1.06s/it]  1%|▏         | 1429/100000 [46:58<28:14:52,  1.03s/it]                                                          1%|▏         | 1429/100000 [46:58<28:14:52,  1.03s/it]  1%|▏         | 1430/100000 [46:59<27:53:05,  1.02s/it]                                                          1%|▏         | 1430/100000 [46:59<27:53:05,  1.02s/it]  1%|▏         | 1431/100000 [47:00<27:35:20,  1.01s/it]                                                          1%|▏         | 1431/100000 [47:00<27:35:20,  1.01s/it]  1%|▏         | 1432/100000 [47:01<27:18:17,  1.00it/s]                                                          1%|▏         | 1432/100000 [47:01<27:18:17,  1.00it/s]  1%|▏         | 1433/100000 [47:02<26:55:13,  1.02it/s]                                                          1%|▏         | 1433/100000 [47:02<26:55:13,  1.02it/s]  1%|▏         | 1434/100000 [47:03<26:36:26,  1.03it/s]                                                          1%|▏         | 1434/100000 [47:03<26:36:26,  1.03it/s]  1%|▏         | 1435/100000 [47:14<110:10:16,  4.02s/it]                                                           1%|▏         | 1435/100000 [47:14<110:10:16,  4.02s/it]  1%|▏         | 1436/100000 [47:20<125:47:52,  4.59s/it]                                                           1%|▏         | 1436/100000 [47:20<125:47:52,  4.59s/it]  1%|▏         | 1437/100000 [47:25<129:10:51,  4.72s/it]                                                           1%|▏         | 1437/100000 [47:25<129:10:51,  4.72s/it]  1%|▏         | 1438/100000 [47:29<125:21:45,  4.58s/it]                                                           1%|▏         | 1438/100000 [47:29<125:21:45,  4.58s/it]  1%|▏         | 1439/100000 [47:33<117:32:17,  4.29s/it]                                                           1%|▏         | 1439/100000 [47:33<117:32:17,  4.29s/it]  1%|▏         | 1440/100000 [47:36<109:24:33,  4.00s/it]                                                           1%|▏         | 1440/100000 [47:36<109:24:33,  4.00s/it]  1%|▏         | 1441/100000 [47:39<101:42:39,  3.72s/it]                                                           1%|▏         | 1441/100000 [47:39<101:42:39,  3.72s/it]  1%|▏         | 1442/100000 [47:42<94:26:45,  3.45s/it]                                                           1%|▏         | 1442/100000 [47:42<94:26:45,  3.45s/it]  1%|▏         | 1443/100000 [47:45<87:20:26,  3.19s/it]                                                          1%|▏         | 1443/100000 [47:45<87:20:26,  3.19s/it]  1%|▏         | 1444/100000 [47:47<79:49:18,  2.92s/it]                                                          1%|▏         | 1444/100000 [47:47<79:49:18,  2.92s/it]  1%|▏         | 1445/100000 [47:49<73:19:50,  2.68s/it]                                                          1%|▏         | 1445/100000 [47:49<73:19:50,  2.68s/it]  1%|▏         | 1446/100000 [47:51<68:15:10,  2.49s/it]                                                          1%|▏         | 1446/100000 [47:51<68:15:10,  2.49s/it]  1%|▏         | 1447/100000 [47:53<63:26:26,  2.32s/it]                                                          1%|▏         | 1447/100000 [47:53<63:26:26,  2.32s/it]  1%|▏         | 1448/100000 [47:55<59:18:05,  2.17s/it]                                                          1%|▏         | 1448/100000 [47:55<59:18:05,  2.17s/it]  1%|▏         | 1449/100000 [47:56<55:22:07,  2.02s/it]                                                          1%|▏         | 1449/100000 [47:56<55:22:07,  2.02s/it]  1%|▏         | 1450/100000 [47:58<52:45:43,  1.93s/it]                                                          1%|▏         | 1450/100000 [47:58<52:45:43,  1.93s/it]  1%|▏         | 1451/100000 [48:00<50:34:24,  1.85s/it]                                                          1%|▏         | 1451/100000 [48:00<50:34:24,  1.85s/it]  1%|▏         | 1452/100000 [48:01<48:22:17,  1.77s/it]                                                          1%|▏         | 1452/100000 [48:01<48:22:17,  1.77s/it]  1%|▏         | 1453/100000 [48:03<46:44:43,  1.71s/it]                                                          1%|▏         | 1453/100000 [48:03<46:44:43,  1.71s/it]  1%|▏         | 1454/100000 [48:04<45:01:45,  1.64s/it]                                                          1%|▏         | 1454/100000 [48:04<45:01:45,  1.64s/it]  1%|▏         | 1455/100000 [48:06<43:07:39,  1.58s/it]                                                          1%|▏         | 1455/100000 [48:06<43:07:39,  1.58s/it]  1%|▏         | 1456/100000 [48:07<41:56:03,  1.53s/it]                                                          1%|▏         | 1456/100000 [48:07<41:56:03,  1.53s/it]  1%|▏         | 1457/100000 [48:09<41:12:19,  1.51s/it]                                                          1%|▏         | 1457/100000 [48:09<41:12:19,  1.51s/it]  1%|▏         | 1458/100000 [48:10<39:56:32,  1.46s/it]                                                          1%|▏         | 1458/100000 [48:10<39:56:32,  1.46s/it]  1%|▏         | 1459/100000 [48:12<39:22:00,  1.44s/it]                                                          1%|▏         | 1459/100000 [48:12<39:22:00,  1.44s/it]  1%|▏         | 1460/100000 [48:13<38:43:03,  1.41s/it]                                                          1%|▏         | 1460/100000 [48:13<38:43:03,  1.41s/it]  1%|▏         | 1461/100000 [48:14<38:07:03,  1.39s/it]                                                          1%|▏         | 1461/100000 [48:14<38:07:03,  1.39s/it]  1%|▏         | 1462/100000 [48:16<37:24:28,  1.37s/it]                                                          1%|▏         | 1462/100000 [48:16<37:24:28,  1.37s/it]  1%|▏         | 1463/100000 [48:17<36:49:00,  1.35s/it]                                                          1%|▏         | 1463/100000 [48:17<36:49:00,  1.35s/it]  1%|▏         | 1464/100000 [48:18<36:29:02,  1.33s/it]                                                          1%|▏         | 1464/100000 [48:18<36:29:02,  1.33s/it]  1%|▏         | 1465/100000 [48:19<35:55:06,  1.31s/it]                                                          1%|▏         | 1465/100000 [48:19<35:55:06,  1.31s/it]  1%|▏         | 1466/100000 [48:21<35:09:44,  1.28s/it]                                                          1%|▏         | 1466/100000 [48:21<35:09:44,  1.28s/it]  1%|▏         | 1467/100000 [48:22<34:37:15,  1.26s/it]                                                          1%|▏         | 1467/100000 [48:22<34:37:15,  1.26s/it]  1%|▏         | 1468/100000 [48:23<33:53:53,  1.24s/it]                                                          1%|▏         | 1468/100000 [48:23<33:53:53,  1.24s/it]  1%|▏         | 1469/100000 [48:24<33:25:52,  1.22s/it]                                                          1%|▏         | 1469/100000 [48:24<33:25:52,  1.22s/it]  1%|▏         | 1470/100000 [48:25<33:04:32,  1.21s/it]                                                          1%|▏         | 1470/100000 [48:25<33:04:32,  1.21s/it]  1%|▏         | 1471/100000 [48:26<32:32:39,  1.19s/it]                                                          1%|▏         | 1471/100000 [48:26<32:32:39,  1.19s/it]  1%|▏         | 1472/100000 [48:28<32:10:21,  1.18s/it]                                                          1%|▏         | 1472/100000 [48:28<32:10:21,  1.18s/it]  1%|▏         | 1473/100000 [48:29<31:39:49,  1.16s/it]                                                          1%|▏         | 1473/100000 [48:29<31:39:49,  1.16s/it]  1%|▏         | 1474/100000 [48:30<31:27:47,  1.15s/it]                                                          1%|▏         | 1474/100000 [48:30<31:27:47,  1.15s/it]  1%|▏         | 1475/100000 [48:31<31:11:03,  1.14s/it]                                                          1%|▏         | 1475/100000 [48:31<31:11:03,  1.14s/it]  1%|▏         | 1476/100000 [48:32<30:46:59,  1.12s/it]                                                          1%|▏         | 1476/100000 [48:32<30:46:59,  1.12s/it]  1%|▏         | 1477/100000 [48:33<30:23:44,  1.11s/it]                                                          1%|▏         | 1477/100000 [48:33<30:23:44,  1.11s/it]  1%|▏         | 1478/100000 [48:34<29:47:56,  1.09s/it]                                                          1%|▏         | 1478/100000 [48:34<29:47:56,  1.09s/it]  1%|▏         | 1479/100000 [48:35<29:09:26,  1.07s/it]                                                          1%|▏         | 1479/100000 [48:35<29:09:26,  1.07s/it]  1%|▏         | 1480/100000 [48:36<28:40:22,  1.05s/it]                                                          1%|▏         | 1480/100000 [48:36<28:40:22,  1.05s/it]  1%|▏         | 1481/100000 [48:37<28:17:11,  1.03s/it]                                                          1%|▏         | 1481/100000 [48:37<28:17:11,  1.03s/it]  1%|▏         | 1482/100000 [48:38<27:44:57,  1.01s/it]                                                          1%|▏         | 1482/100000 [48:38<27:44:57,  1.01s/it]  1%|▏         | 1483/100000 [48:39<26:49:10,  1.02it/s]                                                          1%|▏         | 1483/100000 [48:39<26:49:10,  1.02it/s]  1%|▏         | 1484/100000 [48:40<26:11:03,  1.05it/s]                                                          1%|▏         | 1484/100000 [48:40<26:11:03,  1.05it/s]  1%|▏         | 1485/100000 [48:52<117:50:25,  4.31s/it]                                                           1%|▏         | 1485/100000 [48:52<117:50:25,  4.31s/it]  1%|▏         | 1486/100000 [48:57<124:49:44,  4.56s/it]                                                           1%|▏         | 1486/100000 [48:57<124:49:44,  4.56s/it]  1%|▏         | 1487/100000 [49:02<124:24:06,  4.55s/it]                                                           1%|▏         | 1487/100000 [49:02<124:24:06,  4.55s/it]  1%|▏         | 1488/100000 [49:06<118:25:20,  4.33s/it]                                                           1%|▏         | 1488/100000 [49:06<118:25:20,  4.33s/it]  1%|▏         | 1489/100000 [49:09<111:03:11,  4.06s/it]                                                           1%|▏         | 1489/100000 [49:09<111:03:11,  4.06s/it]  1%|▏         | 1490/100000 [49:12<103:39:05,  3.79s/it]                                                           1%|▏         | 1490/100000 [49:12<103:39:05,  3.79s/it]  1%|▏         | 1491/100000 [49:15<96:55:25,  3.54s/it]                                                           1%|▏         | 1491/100000 [49:15<96:55:25,  3.54s/it]  1%|▏         | 1492/100000 [49:18<89:53:22,  3.29s/it]                                                          1%|▏         | 1492/100000 [49:18<89:53:22,  3.29s/it]  1%|▏         | 1493/100000 [49:20<83:36:44,  3.06s/it]                                                          1%|▏         | 1493/100000 [49:20<83:36:44,  3.06s/it]  1%|▏         | 1494/100000 [49:23<77:12:08,  2.82s/it]                                                          1%|▏         | 1494/100000 [49:23<77:12:08,  2.82s/it]  1%|▏         | 1495/100000 [49:25<72:00:16,  2.63s/it]                                                          1%|▏         | 1495/100000 [49:25<72:00:16,  2.63s/it]  1%|▏         | 1496/100000 [49:27<67:27:48,  2.47s/it]                                                          1%|▏         | 1496/100000 [49:27<67:27:48,  2.47s/it]  1%|▏         | 1497/100000 [49:29<63:38:11,  2.33s/it]                                                          1%|▏         | 1497/100000 [49:29<63:38:11,  2.33s/it]  1%|▏         | 1498/100000 [49:31<59:07:23,  2.16s/it]                                                          1%|▏         | 1498/100000 [49:31<59:07:23,  2.16s/it]  1%|▏         | 1499/100000 [49:32<55:10:57,  2.02s/it]                                                          1%|▏         | 1499/100000 [49:32<55:10:57,  2.02s/it]  2%|▏         | 1500/100000 [49:34<52:22:47,  1.91s/it]                                                          2%|▏         | 1500/100000 [49:34<52:22:47,  1.91s/it]  2%|▏         | 1501/100000 [49:36<49:46:04,  1.82s/it]                                                          2%|▏         | 1501/100000 [49:36<49:46:04,  1.82s/it]  2%|▏         | 1502/100000 [49:37<48:03:01,  1.76s/it]                                                          2%|▏         | 1502/100000 [49:37<48:03:01,  1.76s/it]  2%|▏         | 1503/100000 [49:39<46:23:26,  1.70s/it]                                                          2%|▏         | 1503/100000 [49:39<46:23:26,  1.70s/it]  2%|▏         | 1504/100000 [49:40<44:44:54,  1.64s/it]                                                          2%|▏         | 1504/100000 [49:40<44:44:54,  1.64s/it]  2%|▏         | 1505/100000 [49:42<43:04:17,  1.57s/it]                                                          2%|▏         | 1505/100000 [49:42<43:04:17,  1.57s/it]  2%|▏         | 1506/100000 [49:43<42:00:45,  1.54s/it]                                                          2%|▏         | 1506/100000 [49:43<42:00:45,  1.54s/it]  2%|▏         | 1507/100000 [49:45<41:08:36,  1.50s/it]                                                          2%|▏         | 1507/100000 [49:45<41:08:36,  1.50s/it]  2%|▏         | 1508/100000 [49:46<40:01:12,  1.46s/it]                                                          2%|▏         | 1508/100000 [49:46<40:01:12,  1.46s/it]  2%|▏         | 1509/100000 [49:47<39:11:59,  1.43s/it]                                                        {'loss': 0.2229, 'grad_norm': 1.983960747718811, 'learning_rate': 4.2630000000000005e-06, 'epoch': 2.63}
+{'loss': 0.2237, 'grad_norm': 2.3078384399414062, 'learning_rate': 4.266e-06, 'epoch': 2.63}
+{'loss': 0.2458, 'grad_norm': 1.8761299848556519, 'learning_rate': 4.269e-06, 'epoch': 2.63}
+{'loss': 0.2519, 'grad_norm': 3.2777647972106934, 'learning_rate': 4.272e-06, 'epoch': 2.63}
+{'loss': 0.2276, 'grad_norm': 2.3433635234832764, 'learning_rate': 4.275e-06, 'epoch': 2.64}
+{'loss': 0.215, 'grad_norm': 3.0046474933624268, 'learning_rate': 4.278e-06, 'epoch': 2.64}
+{'loss': 0.2128, 'grad_norm': 2.6063246726989746, 'learning_rate': 4.281e-06, 'epoch': 2.64}
+{'loss': 0.2393, 'grad_norm': 2.668186902999878, 'learning_rate': 4.284000000000001e-06, 'epoch': 2.64}
+{'loss': 0.2509, 'grad_norm': 2.6497902870178223, 'learning_rate': 4.287e-06, 'epoch': 2.64}
+{'loss': 0.2447, 'grad_norm': 2.981414556503296, 'learning_rate': 4.29e-06, 'epoch': 2.64}
+{'loss': 0.2624, 'grad_norm': 2.751962900161743, 'learning_rate': 4.293e-06, 'epoch': 2.65}
+{'loss': 0.8055, 'grad_norm': 4.448115825653076, 'learning_rate': 4.296e-06, 'epoch': 2.65}
+{'loss': 0.7689, 'grad_norm': 2.5063092708587646, 'learning_rate': 4.299000000000001e-06, 'epoch': 2.65}
+{'loss': 0.6302, 'grad_norm': 2.950172185897827, 'learning_rate': 4.3020000000000005e-06, 'epoch': 2.65}
+{'loss': 0.5561, 'grad_norm': 3.074154853820801, 'learning_rate': 4.3049999999999994e-06, 'epoch': 2.65}
+{'loss': 0.605, 'grad_norm': 2.672722101211548, 'learning_rate': 4.308e-06, 'epoch': 2.66}
+{'loss': 0.4401, 'grad_norm': 1.9718472957611084, 'learning_rate': 4.311e-06, 'epoch': 2.66}
+{'loss': 0.4255, 'grad_norm': 1.7161527872085571, 'learning_rate': 4.3140000000000005e-06, 'epoch': 2.66}
+{'loss': 0.4338, 'grad_norm': 2.125276803970337, 'learning_rate': 4.317e-06, 'epoch': 2.66}
+{'loss': 0.4755, 'grad_norm': 2.82174015045166, 'learning_rate': 4.32e-06, 'epoch': 2.66}
+{'loss': 0.5066, 'grad_norm': 1.9432512521743774, 'learning_rate': 4.323e-06, 'epoch': 2.66}
+{'loss': 0.3927, 'grad_norm': 1.7846685647964478, 'learning_rate': 4.326e-06, 'epoch': 2.67}
+{'loss': 0.3077, 'grad_norm': 2.2068796157836914, 'learning_rate': 4.329e-06, 'epoch': 2.67}
+{'loss': 0.3395, 'grad_norm': 2.306232213973999, 'learning_rate': 4.332e-06, 'epoch': 2.67}
+{'loss': 0.2894, 'grad_norm': 2.3692593574523926, 'learning_rate': 4.335e-06, 'epoch': 2.67}
+{'loss': 0.3051, 'grad_norm': 1.493941307067871, 'learning_rate': 4.338000000000001e-06, 'epoch': 2.67}
+{'loss': 0.3822, 'grad_norm': 2.4704809188842773, 'learning_rate': 4.341e-06, 'epoch': 2.68}
+{'loss': 0.2224, 'grad_norm': 2.337467670440674, 'learning_rate': 4.344e-06, 'epoch': 2.68}
+{'loss': 0.1888, 'grad_norm': 1.7623108625411987, 'learning_rate': 4.347e-06, 'epoch': 2.68}
+{'loss': 0.2508, 'grad_norm': 3.122779369354248, 'learning_rate': 4.35e-06, 'epoch': 2.68}
+{'loss': 0.1959, 'grad_norm': 2.7472877502441406, 'learning_rate': 4.3530000000000005e-06, 'epoch': 2.68}
+{'loss': 0.193, 'grad_norm': 1.7916723489761353, 'learning_rate': 4.356e-06, 'epoch': 2.69}
+{'loss': 0.2094, 'grad_norm': 1.9161310195922852, 'learning_rate': 4.359e-06, 'epoch': 2.69}
+{'loss': 0.1904, 'grad_norm': 1.7572247982025146, 'learning_rate': 4.362e-06, 'epoch': 2.69}
+{'loss': 0.1926, 'grad_norm': 1.8705005645751953, 'learning_rate': 4.365e-06, 'epoch': 2.69}
+{'loss': 0.1821, 'grad_norm': 4.131222724914551, 'learning_rate': 4.368e-06, 'epoch': 2.69}
+{'loss': 0.2116, 'grad_norm': 1.7637590169906616, 'learning_rate': 4.371e-06, 'epoch': 2.69}
+{'loss': 0.1705, 'grad_norm': 2.1233274936676025, 'learning_rate': 4.374000000000001e-06, 'epoch': 2.7}
+{'loss': 0.1745, 'grad_norm': 2.2717113494873047, 'learning_rate': 4.377e-06, 'epoch': 2.7}
+{'loss': 0.211, 'grad_norm': 1.8533835411071777, 'learning_rate': 4.3799999999999996e-06, 'epoch': 2.7}
+{'loss': 0.1767, 'grad_norm': 1.4384863376617432, 'learning_rate': 4.383e-06, 'epoch': 2.7}
+{'loss': 0.2391, 'grad_norm': 4.695356369018555, 'learning_rate': 4.386e-06, 'epoch': 2.7}
+{'loss': 0.2206, 'grad_norm': 1.8919119834899902, 'learning_rate': 4.389000000000001e-06, 'epoch': 2.71}
+{'loss': 0.2006, 'grad_norm': 2.0214920043945312, 'learning_rate': 4.3920000000000005e-06, 'epoch': 2.71}
+{'loss': 0.1902, 'grad_norm': 2.4652929306030273, 'learning_rate': 4.395e-06, 'epoch': 2.71}
+{'loss': 0.1999, 'grad_norm': 2.2650187015533447, 'learning_rate': 4.398e-06, 'epoch': 2.71}
+{'loss': 0.2368, 'grad_norm': 2.400144338607788, 'learning_rate': 4.401e-06, 'epoch': 2.71}
+{'loss': 0.2032, 'grad_norm': 2.085756540298462, 'learning_rate': 4.4040000000000005e-06, 'epoch': 2.71}
+{'loss': 0.2296, 'grad_norm': 3.604992628097534, 'learning_rate': 4.407e-06, 'epoch': 2.72}
+{'loss': 0.1673, 'grad_norm': 1.75570547580719, 'learning_rate': 4.41e-06, 'epoch': 2.72}
+{'loss': 0.1703, 'grad_norm': 2.396017551422119, 'learning_rate': 4.413000000000001e-06, 'epoch': 2.72}
+{'loss': 0.2345, 'grad_norm': 2.6366143226623535, 'learning_rate': 4.416e-06, 'epoch': 2.72}
+{'loss': 0.1987, 'grad_norm': 1.9363056421279907, 'learning_rate': 4.4189999999999995e-06, 'epoch': 2.72}
+{'loss': 0.1939, 'grad_norm': 2.850567102432251, 'learning_rate': 4.422e-06, 'epoch': 2.73}
+{'loss': 0.2129, 'grad_norm': 2.088304281234741, 'learning_rate': 4.425e-06, 'epoch': 2.73}
+{'loss': 0.2247, 'grad_norm': 2.7488322257995605, 'learning_rate': 4.428000000000001e-06, 'epoch': 2.73}
+{'loss': 0.2246, 'grad_norm': 3.1374897956848145, 'learning_rate': 4.4310000000000004e-06, 'epoch': 2.73}
+{'loss': 0.2151, 'grad_norm': 2.563474416732788, 'learning_rate': 4.433999999999999e-06, 'epoch': 2.73}
+{'loss': 0.2009, 'grad_norm': 2.290768623352051, 'learning_rate': 4.437e-06, 'epoch': 2.73}
+{'loss': 0.2311, 'grad_norm': 3.419640302658081, 'learning_rate': 4.44e-06, 'epoch': 2.74}
+{'loss': 0.303, 'grad_norm': 3.651583671569824, 'learning_rate': 4.4430000000000005e-06, 'epoch': 2.74}
+{'loss': 0.6854, 'grad_norm': 2.9224209785461426, 'learning_rate': 4.446e-06, 'epoch': 2.74}
+{'loss': 0.6776, 'grad_norm': 2.3546254634857178, 'learning_rate': 4.449e-06, 'epoch': 2.74}
+{'loss': 0.495, 'grad_norm': 2.4229791164398193, 'learning_rate': 4.452e-06, 'epoch': 2.74}
+{'loss': 0.488, 'grad_norm': 2.2081387042999268, 'learning_rate': 4.455e-06, 'epoch': 2.75}
+{'loss': 0.4709, 'grad_norm': 1.6628825664520264, 'learning_rate': 4.458e-06, 'epoch': 2.75}
+{'loss': 0.4067, 'grad_norm': 2.055128335952759, 'learning_rate': 4.461e-06, 'epoch': 2.75}
+{'loss': 0.3766, 'grad_norm': 4.5744194984436035, 'learning_rate': 4.464e-06, 'epoch': 2.75}
+{'loss': 0.4352, 'grad_norm': 2.0984883308410645, 'learning_rate': 4.467000000000001e-06, 'epoch': 2.75}
+{'loss': 0.42, 'grad_norm': 1.9840891361236572, 'learning_rate': 4.4699999999999996e-06, 'epoch': 2.76}
+{'loss': 0.3601, 'grad_norm': 1.4575275182724, 'learning_rate': 4.473e-06, 'epoch': 2.76}
+{'loss': 0.3062, 'grad_norm': 2.2698862552642822, 'learning_rate': 4.476e-06, 'epoch': 2.76}
+{'loss': 0.4122, 'grad_norm': 2.3743550777435303, 'learning_rate': 4.479e-06, 'epoch': 2.76}
+{'loss': 0.446, 'grad_norm': 2.3653502464294434, 'learning_rate': 4.4820000000000005e-06, 'epoch': 2.76}
+{'loss': 0.3055, 'grad_norm': 1.8148143291473389, 'learning_rate': 4.485e-06, 'epoch': 2.76}
+{'loss': 0.2572, 'grad_norm': 1.6854664087295532, 'learning_rate': 4.488e-06, 'epoch': 2.77}
+{'loss': 0.2348, 'grad_norm': 2.335649013519287, 'learning_rate': 4.491e-06, 'epoch': 2.77}
+{'loss': 0.2342, 'grad_norm': 2.0741183757781982, 'learning_rate': 4.494e-06, 'epoch': 2.77}
+{'loss': 0.1631, 'grad_norm': 1.6792997121810913, 'learning_rate': 4.497e-06, 'epoch': 2.77}
+{'loss': 0.2065, 'grad_norm': 2.1965067386627197, 'learning_rate': 4.5e-06, 'epoch': 2.77}
+{'loss': 0.1888, 'grad_norm': 3.105736017227173, 'learning_rate': 4.503000000000001e-06, 'epoch': 2.78}
+{'loss': 0.2168, 'grad_norm': 1.6356396675109863, 'learning_rate': 4.506e-06, 'epoch': 2.78}
+{'loss': 0.1784, 'grad_norm': 1.6595216989517212, 'learning_rate': 4.5089999999999995e-06, 'epoch': 2.78}
+{'loss': 0.193, 'grad_norm': 1.616804599761963, 'learning_rate': 4.512e-06, 'epoch': 2.78}
+{'loss': 0.2007, 'grad_norm': 2.185166597366333, 'learning_rate': 4.515e-06, 'epoch': 2.78}
+  2%|▏         | 1509/100000 [49:47<39:11:59,  1.43s/it]  2%|▏         | 1510/100000 [49:49<38:26:48,  1.41s/it]                                                          2%|▏         | 1510/100000 [49:49<38:26:48,  1.41s/it]  2%|▏         | 1511/100000 [49:50<37:55:53,  1.39s/it]                                                          2%|▏         | 1511/100000 [49:50<37:55:53,  1.39s/it]  2%|▏         | 1512/100000 [49:51<37:15:49,  1.36s/it]                                                          2%|▏         | 1512/100000 [49:51<37:15:49,  1.36s/it]  2%|▏         | 1513/100000 [49:53<36:54:17,  1.35s/it]                                                          2%|▏         | 1513/100000 [49:53<36:54:17,  1.35s/it]  2%|▏         | 1514/100000 [49:54<36:14:34,  1.32s/it]                                                          2%|▏         | 1514/100000 [49:54<36:14:34,  1.32s/it]  2%|▏         | 1515/100000 [49:55<35:44:28,  1.31s/it]                                                          2%|▏         | 1515/100000 [49:55<35:44:28,  1.31s/it]  2%|▏         | 1516/100000 [49:56<35:25:19,  1.29s/it]                                                          2%|▏         | 1516/100000 [49:56<35:25:19,  1.29s/it]  2%|▏         | 1517/100000 [49:58<34:57:07,  1.28s/it]                                                          2%|▏         | 1517/100000 [49:58<34:57:07,  1.28s/it]  2%|▏         | 1518/100000 [49:59<35:02:31,  1.28s/it]                                                          2%|▏         | 1518/100000 [49:59<35:02:31,  1.28s/it]  2%|▏         | 1519/100000 [50:00<34:14:58,  1.25s/it]                                                          2%|▏         | 1519/100000 [50:00<34:14:58,  1.25s/it]  2%|▏         | 1520/100000 [50:01<33:22:24,  1.22s/it]                                                          2%|▏         | 1520/100000 [50:01<33:22:24,  1.22s/it]  2%|▏         | 1521/100000 [50:02<32:48:39,  1.20s/it]                                                          2%|▏         | 1521/100000 [50:02<32:48:39,  1.20s/it]  2%|▏         | 1522/100000 [50:04<32:14:16,  1.18s/it]                                                          2%|▏         | 1522/100000 [50:04<32:14:16,  1.18s/it]  2%|▏         | 1523/100000 [50:05<31:39:42,  1.16s/it]                                                          2%|▏         | 1523/100000 [50:05<31:39:42,  1.16s/it]  2%|▏         | 1524/100000 [50:06<31:19:18,  1.15s/it]                                                          2%|▏         | 1524/100000 [50:06<31:19:18,  1.15s/it]  2%|▏         | 1525/100000 [50:07<30:41:55,  1.12s/it]                                                          2%|▏         | 1525/100000 [50:07<30:41:55,  1.12s/it]  2%|▏         | 1526/100000 [50:08<30:19:47,  1.11s/it]                                                          2%|▏         | 1526/100000 [50:08<30:19:47,  1.11s/it]  2%|▏         | 1527/100000 [50:09<29:47:51,  1.09s/it]                                                          2%|▏         | 1527/100000 [50:09<29:47:51,  1.09s/it]  2%|▏         | 1528/100000 [50:10<29:25:50,  1.08s/it]                                                          2%|▏         | 1528/100000 [50:10<29:25:50,  1.08s/it]  2%|▏         | 1529/100000 [50:11<28:53:45,  1.06s/it]                                                          2%|▏         | 1529/100000 [50:11<28:53:45,  1.06s/it]  2%|▏         | 1530/100000 [50:12<28:29:42,  1.04s/it]                                                          2%|▏         | 1530/100000 [50:12<28:29:42,  1.04s/it]  2%|▏         | 1531/100000 [50:13<27:44:39,  1.01s/it]                                                          2%|▏         | 1531/100000 [50:13<27:44:39,  1.01s/it]  2%|▏         | 1532/100000 [50:14<27:28:02,  1.00s/it]                                                          2%|▏         | 1532/100000 [50:14<27:28:02,  1.00s/it]  2%|▏         | 1533/100000 [50:15<26:55:00,  1.02it/s]                                                          2%|▏         | 1533/100000 [50:15<26:55:00,  1.02it/s]  2%|▏         | 1534/100000 [50:16<25:54:04,  1.06it/s]                                                          2%|▏         | 1534/100000 [50:16<25:54:04,  1.06it/s]  2%|▏         | 1535/100000 [50:27<112:25:33,  4.11s/it]                                                           2%|▏         | 1535/100000 [50:27<112:25:33,  4.11s/it]  2%|▏         | 1536/100000 [50:33<123:36:03,  4.52s/it]                                                           2%|▏         | 1536/100000 [50:33<123:36:03,  4.52s/it]  2%|▏         | 1537/100000 [50:37<124:00:28,  4.53s/it]                                                           2%|▏         | 1537/100000 [50:37<124:00:28,  4.53s/it]  2%|▏         | 1538/100000 [50:41<119:49:28,  4.38s/it]                                                           2%|▏         | 1538/100000 [50:41<119:49:28,  4.38s/it]  2%|▏         | 1539/100000 [50:45<113:07:38,  4.14s/it]                                                           2%|▏         | 1539/100000 [50:45<113:07:38,  4.14s/it]  2%|▏         | 1540/100000 [50:48<105:35:29,  3.86s/it]                                                           2%|▏         | 1540/100000 [50:48<105:35:29,  3.86s/it]  2%|▏         | 1541/100000 [50:51<97:59:53,  3.58s/it]                                                           2%|▏         | 1541/100000 [50:51<97:59:53,  3.58s/it]  2%|▏         | 1542/100000 [50:54<90:37:37,  3.31s/it]                                                          2%|▏         | 1542/100000 [50:54<90:37:37,  3.31s/it]  2%|▏         | 1543/100000 [50:56<83:52:58,  3.07s/it]                                                          2%|▏         | 1543/100000 [50:56<83:52:58,  3.07s/it]  2%|▏         | 1544/100000 [50:59<77:52:18,  2.85s/it]                                                          2%|▏         | 1544/100000 [50:59<77:52:18,  2.85s/it]  2%|▏         | 1545/100000 [51:01<72:19:12,  2.64s/it]                                                          2%|▏         | 1545/100000 [51:01<72:19:12,  2.64s/it]  2%|▏         | 1546/100000 [51:03<67:15:42,  2.46s/it]                                                          2%|▏         | 1546/100000 [51:03<67:15:42,  2.46s/it]  2%|▏         | 1547/100000 [51:05<62:55:03,  2.30s/it]                                                          2%|▏         | 1547/100000 [51:05<62:55:03,  2.30s/it]  2%|▏         | 1548/100000 [51:06<58:33:51,  2.14s/it]                                                          2%|▏         | 1548/100000 [51:06<58:33:51,  2.14s/it]  2%|▏         | 1549/100000 [51:08<55:06:32,  2.02s/it]                                                          2%|▏         | 1549/100000 [51:08<55:06:32,  2.02s/it]  2%|▏         | 1550/100000 [51:10<52:18:53,  1.91s/it]                                                          2%|▏         | 1550/100000 [51:10<52:18:53,  1.91s/it]  2%|▏         | 1551/100000 [51:11<49:45:26,  1.82s/it]                                                          2%|▏         | 1551/100000 [51:11<49:45:26,  1.82s/it]  2%|▏         | 1552/100000 [51:13<47:30:06,  1.74s/it]                                                          2%|▏         | 1552/100000 [51:13<47:30:06,  1.74s/it]  2%|▏         | 1553/100000 [51:15<45:43:10,  1.67s/it]                                                          2%|▏         | 1553/100000 [51:15<45:43:10,  1.67s/it]  2%|▏         | 1554/100000 [51:16<43:48:55,  1.60s/it]                                                          2%|▏         | 1554/100000 [51:16<43:48:55,  1.60s/it]  2%|▏         | 1555/100000 [51:17<42:36:31,  1.56s/it]                                                          2%|▏         | 1555/100000 [51:17<42:36:31,  1.56s/it]  2%|▏         | 1556/100000 [51:19<41:20:39,  1.51s/it]                                                          2%|▏         | 1556/100000 [51:19<41:20:39,  1.51s/it]  2%|▏         | 1557/100000 [51:20<40:34:24,  1.48s/it]                                                          2%|▏         | 1557/100000 [51:20<40:34:24,  1.48s/it]  2%|▏         | 1558/100000 [51:22<39:40:53,  1.45s/it]                                                          2%|▏         | 1558/100000 [51:22<39:40:53,  1.45s/it]  2%|▏         | 1559/100000 [51:23<38:34:49,  1.41s/it]                                                          2%|▏         | 1559/100000 [51:23<38:34:49,  1.41s/it]  2%|▏         | 1560/100000 [51:24<37:58:19,  1.39s/it]                                                          2%|▏         | 1560/100000 [51:24<37:58:19,  1.39s/it]  2%|▏         | 1561/100000 [51:26<37:21:38,  1.37s/it]                                                          2%|▏         | 1561/100000 [51:26<37:21:38,  1.37s/it]  2%|▏         | 1562/100000 [51:27<36:43:41,  1.34s/it]                                                          2%|▏         | 1562/100000 [51:27<36:43:41,  1.34s/it]  2%|▏         | 1563/100000 [51:28<36:03:06,  1.32s/it]                                                          2%|▏         | 1563/100000 [51:28<36:03:06,  1.32s/it]  2%|▏         | 1564/100000 [51:29<35:51:38,  1.31s/it]                                                          2%|▏         | 1564/100000 [51:29<35:51:38,  1.31s/it]  2%|▏         | 1565/100000 [51:31<35:25:00,  1.30s/it]                                                          2%|▏         | 1565/100000 [51:31<35:25:00,  1.30s/it]  2%|▏         | 1566/100000 [51:32<34:42:27,  1.27s/it]                                                          2%|▏         | 1566/100000 [51:32<34:42:27,  1.27s/it]  2%|▏         | 1567/100000 [51:33<34:20:38,  1.26s/it]                                                          2%|▏         | 1567/100000 [51:33<34:20:38,  1.26s/it]  2%|▏         | 1568/100000 [51:34<33:44:57,  1.23s/it]                                                          2%|▏         | 1568/100000 [51:34<33:44:57,  1.23s/it]  2%|▏         | 1569/100000 [51:35<33:10:31,  1.21s/it]                                                          2%|▏         | 1569/100000 [51:35<33:10:31,  1.21s/it]  2%|▏         | 1570/100000 [51:37<32:48:56,  1.20s/it]                                                          2%|▏         | 1570/100000 [51:37<32:48:56,  1.20s/it]  2%|▏         | 1571/100000 [51:38<32:32:05,  1.19s/it]                                                          2%|▏         | 1571/100000 [51:38<32:32:05,  1.19s/it]  2%|▏         | 1572/100000 [51:39<31:52:21,  1.17s/it]                                                          2%|▏         | 1572/100000 [51:39<31:52:21,  1.17s/it]  2%|▏         | 1573/100000 [51:40<31:07:34,  1.14s/it]                                                          2%|▏         | 1573/100000 [51:40<31:07:34,  1.14s/it]  2%|▏         | 1574/100000 [51:41<30:30:27,  1.12s/it]                                                          2%|▏         | 1574/100000 [51:41<30:30:27,  1.12s/it]  2%|▏         | 1575/100000 [51:42<30:12:14,  1.10s/it]                                                          2%|▏         | 1575/100000 [51:42<30:12:14,  1.10s/it]  2%|▏         | 1576/100000 [51:43<29:46:47,  1.09s/it]                                                          2%|▏         | 1576/100000 [51:43<29:46:47,  1.09s/it]  2%|▏         | 1577/100000 [51:44<29:15:06,  1.07s/it]                                                          2%|▏         | 1577/100000 [51:44<29:15:06,  1.07s/it]  2%|▏         | 1578/100000 [51:45<28:45:16,  1.05s/it]                                                          2%|▏         | 1578/100000 [51:45<28:45:16,  1.05s/it]  2%|▏         | 1579/100000 [51:46<27:58:17,  1.02s/it]                                                          2%|▏         | 1579/100000 [51:46<27:58:17,  1.02s/it]  2%|▏         | 1580/100000 [51:47<27:27:37,  1.00s/it]                                                          2%|▏         | 1580/100000 [51:47<27:27:37,  1.00s/it]  2%|▏         | 1581/100000 [51:48<27:05:22,  1.01it/s]                                                          2%|▏         | 1581/100000 [51:48<27:05:22,  1.01it/s]  2%|▏         | 1582/100000 [51:49<26:28:37,  1.03it/s]                                                          2%|▏         | 1582/100000 [51:49<26:28:37,  1.03it/s]  2%|▏         | 1583/100000 [51:50<25:39:58,  1.07it/s]                                                          2%|▏         | 1583/100000 [51:50<25:39:58,  1.07it/s]  2%|▏         | 1584/100000 [51:51<24:43:08,  1.11it/s]                                                          2%|▏         | 1584/100000 [51:51<24:43:08,  1.11it/s]  2%|▏         | 1585/100000 [52:02<106:32:26,  3.90s/it]                                                           2%|▏         | 1585/100000 [52:02<106:32:26,  3.90s/it]  2%|▏         | 1586/100000 [52:07<119:58:53,  4.39s/it]                                                           2%|▏         | 1586/100000 [52:07<119:58:53,  4.39s/it]  2%|▏         | 1587/100000 [52:11<118:01:45,  4.32s/it]                                                           2%|▏         | 1587/100000 [52:11<118:01:45,  4.32s/it]  2%|▏         | 1588/100000 [52:15<112:44:17,  4.12s/it]                                                           2%|▏         | 1588/100000 [52:15<112:44:17,  4.12s/it]  2%|▏         | 1589/100000 [52:18<105:53:11,  3.87s/it]                                                           2%|▏         | 1589/100000 [52:18<105:53:11,  3.87s/it]  2%|▏         | 1590/100000 [52:21<98:40:10,  3.61s/it]                                                           2%|▏         | 1590/100000 [52:21<98:40:10,  3.61s/it]  2%|▏         | 1591/100000 [52:24<90:19:40,  3.30s/it]                                                          2%|▏         | 1591/100000 [52:24<90:19:40,  3.30s/it]  2%|▏         | 1592/100000 [52:26<82:37:49,  3.02s/it]                                                          2%|▏         | 1592/100000 [52:26<82:37:49,  3.02s/it]  2%|▏         | 1593/100000 [52:28<76:21:51,  2.79s/it]                                                          2%|▏         | 1593/100000 [52:28<76:21:51,  2.79s/it]  2%|▏         | 1594/100000 [52:31<70:19:09,  2.57s/it]                                                        {'loss': 0.1807, 'grad_norm': 1.600041151046753, 'learning_rate': 4.518000000000001e-06, 'epoch': 2.78}
+{'loss': 0.1933, 'grad_norm': 2.245534896850586, 'learning_rate': 4.521e-06, 'epoch': 2.79}
+{'loss': 0.1914, 'grad_norm': 2.0908350944519043, 'learning_rate': 4.524e-06, 'epoch': 2.79}
+{'loss': 0.175, 'grad_norm': 1.715218424797058, 'learning_rate': 4.527e-06, 'epoch': 2.79}
+{'loss': 0.1799, 'grad_norm': 1.8380025625228882, 'learning_rate': 4.53e-06, 'epoch': 2.79}
+{'loss': 0.183, 'grad_norm': 3.243588447570801, 'learning_rate': 4.5330000000000005e-06, 'epoch': 2.79}
+{'loss': 0.1827, 'grad_norm': 2.1115996837615967, 'learning_rate': 4.536e-06, 'epoch': 2.8}
+{'loss': 0.1978, 'grad_norm': 3.3165128231048584, 'learning_rate': 4.539e-06, 'epoch': 2.8}
+{'loss': 0.1685, 'grad_norm': 1.9535701274871826, 'learning_rate': 4.542000000000001e-06, 'epoch': 2.8}
+{'loss': 0.1515, 'grad_norm': 1.7053006887435913, 'learning_rate': 4.545e-06, 'epoch': 2.8}
+{'loss': 0.1939, 'grad_norm': 2.9324450492858887, 'learning_rate': 4.548e-06, 'epoch': 2.8}
+{'loss': 0.1666, 'grad_norm': 1.7410835027694702, 'learning_rate': 4.551e-06, 'epoch': 2.81}
+{'loss': 0.1814, 'grad_norm': 1.9593206644058228, 'learning_rate': 4.554e-06, 'epoch': 2.81}
+{'loss': 0.2177, 'grad_norm': 6.398316383361816, 'learning_rate': 4.557000000000001e-06, 'epoch': 2.81}
+{'loss': 0.2002, 'grad_norm': 2.2251827716827393, 'learning_rate': 4.56e-06, 'epoch': 2.81}
+{'loss': 0.1882, 'grad_norm': 2.4644134044647217, 'learning_rate': 4.563e-06, 'epoch': 2.81}
+{'loss': 0.1932, 'grad_norm': 2.2142317295074463, 'learning_rate': 4.566e-06, 'epoch': 2.81}
+{'loss': 0.1872, 'grad_norm': 3.522850751876831, 'learning_rate': 4.569e-06, 'epoch': 2.82}
+{'loss': 0.1613, 'grad_norm': 1.950206995010376, 'learning_rate': 4.5720000000000004e-06, 'epoch': 2.82}
+{'loss': 0.1761, 'grad_norm': 1.9772347211837769, 'learning_rate': 4.575e-06, 'epoch': 2.82}
+{'loss': 0.186, 'grad_norm': 2.442274570465088, 'learning_rate': 4.578000000000001e-06, 'epoch': 2.82}
+{'loss': 0.1791, 'grad_norm': 2.1009490489959717, 'learning_rate': 4.581e-06, 'epoch': 2.82}
+{'loss': 0.2082, 'grad_norm': 3.239732027053833, 'learning_rate': 4.584e-06, 'epoch': 2.83}
+{'loss': 0.1945, 'grad_norm': 2.345767021179199, 'learning_rate': 4.587e-06, 'epoch': 2.83}
+{'loss': 0.2387, 'grad_norm': 3.2505600452423096, 'learning_rate': 4.59e-06, 'epoch': 2.83}
+{'loss': 0.3456, 'grad_norm': 4.839790344238281, 'learning_rate': 4.593000000000001e-06, 'epoch': 2.83}
+{'loss': 0.7057, 'grad_norm': 2.4936726093292236, 'learning_rate': 4.5960000000000006e-06, 'epoch': 2.83}
+{'loss': 0.5805, 'grad_norm': 3.3598785400390625, 'learning_rate': 4.5989999999999995e-06, 'epoch': 2.83}
+{'loss': 0.5297, 'grad_norm': 1.8686054944992065, 'learning_rate': 4.602e-06, 'epoch': 2.84}
+{'loss': 0.4223, 'grad_norm': 1.5554466247558594, 'learning_rate': 4.605e-06, 'epoch': 2.84}
+{'loss': 0.4202, 'grad_norm': 2.1304216384887695, 'learning_rate': 4.608e-06, 'epoch': 2.84}
+{'loss': 0.4698, 'grad_norm': 2.460719108581543, 'learning_rate': 4.611e-06, 'epoch': 2.84}
+{'loss': 0.4742, 'grad_norm': 1.9906436204910278, 'learning_rate': 4.614e-06, 'epoch': 2.84}
+{'loss': 0.3593, 'grad_norm': 2.511833906173706, 'learning_rate': 4.617e-06, 'epoch': 2.85}
+{'loss': 0.3863, 'grad_norm': 2.1805901527404785, 'learning_rate': 4.62e-06, 'epoch': 2.85}
+{'loss': 0.4269, 'grad_norm': 1.7413595914840698, 'learning_rate': 4.623e-06, 'epoch': 2.85}
+{'loss': 0.3202, 'grad_norm': 2.286431312561035, 'learning_rate': 4.626e-06, 'epoch': 2.85}
+{'loss': 0.3118, 'grad_norm': 2.3051440715789795, 'learning_rate': 4.629e-06, 'epoch': 2.85}
+{'loss': 0.355, 'grad_norm': 2.242866277694702, 'learning_rate': 4.632000000000001e-06, 'epoch': 2.86}
+{'loss': 0.2136, 'grad_norm': 1.6628878116607666, 'learning_rate': 4.635e-06, 'epoch': 2.86}
+{'loss': 0.2046, 'grad_norm': 1.5874680280685425, 'learning_rate': 4.6379999999999995e-06, 'epoch': 2.86}
+{'loss': 0.1926, 'grad_norm': 2.236630439758301, 'learning_rate': 4.641e-06, 'epoch': 2.86}
+{'loss': 0.1719, 'grad_norm': 2.906998872756958, 'learning_rate': 4.644e-06, 'epoch': 2.86}
+{'loss': 0.2125, 'grad_norm': 1.578851342201233, 'learning_rate': 4.6470000000000006e-06, 'epoch': 2.86}
+{'loss': 0.1364, 'grad_norm': 2.263638496398926, 'learning_rate': 4.65e-06, 'epoch': 2.87}
+{'loss': 0.1701, 'grad_norm': 1.3934235572814941, 'learning_rate': 4.653e-06, 'epoch': 2.87}
+{'loss': 0.1496, 'grad_norm': 1.5761624574661255, 'learning_rate': 4.656e-06, 'epoch': 2.87}
+{'loss': 0.15, 'grad_norm': 2.035221576690674, 'learning_rate': 4.659e-06, 'epoch': 2.87}
+{'loss': 0.158, 'grad_norm': 1.6897352933883667, 'learning_rate': 4.6620000000000004e-06, 'epoch': 2.87}
+{'loss': 0.1266, 'grad_norm': 2.1436944007873535, 'learning_rate': 4.665e-06, 'epoch': 2.88}
+{'loss': 0.2247, 'grad_norm': 2.5911736488342285, 'learning_rate': 4.668e-06, 'epoch': 2.88}
+{'loss': 0.2369, 'grad_norm': 2.169934034347534, 'learning_rate': 4.671000000000001e-06, 'epoch': 2.88}
+{'loss': 0.1544, 'grad_norm': 1.4315106868743896, 'learning_rate': 4.674e-06, 'epoch': 2.88}
+{'loss': 0.1559, 'grad_norm': 1.5830488204956055, 'learning_rate': 4.677e-06, 'epoch': 2.88}
+{'loss': 0.1657, 'grad_norm': 2.221632480621338, 'learning_rate': 4.68e-06, 'epoch': 2.88}
+{'loss': 0.1606, 'grad_norm': 2.146801710128784, 'learning_rate': 4.683e-06, 'epoch': 2.89}
+{'loss': 0.2723, 'grad_norm': 2.3033361434936523, 'learning_rate': 4.6860000000000005e-06, 'epoch': 2.89}
+{'loss': 0.1503, 'grad_norm': 2.868062734603882, 'learning_rate': 4.689e-06, 'epoch': 2.89}
+{'loss': 0.1728, 'grad_norm': 1.7747246026992798, 'learning_rate': 4.692e-06, 'epoch': 2.89}
+{'loss': 0.141, 'grad_norm': 1.6821857690811157, 'learning_rate': 4.695e-06, 'epoch': 2.89}
+{'loss': 0.2091, 'grad_norm': 2.7381348609924316, 'learning_rate': 4.698e-06, 'epoch': 2.9}
+{'loss': 0.2118, 'grad_norm': 2.3321731090545654, 'learning_rate': 4.701e-06, 'epoch': 2.9}
+{'loss': 0.1553, 'grad_norm': 1.6755270957946777, 'learning_rate': 4.704e-06, 'epoch': 2.9}
+{'loss': 0.1424, 'grad_norm': 1.7802635431289673, 'learning_rate': 4.707000000000001e-06, 'epoch': 2.9}
+{'loss': 0.1851, 'grad_norm': 2.5739917755126953, 'learning_rate': 4.71e-06, 'epoch': 2.9}
+{'loss': 0.2264, 'grad_norm': 2.763282060623169, 'learning_rate': 4.713e-06, 'epoch': 2.9}
+{'loss': 0.1417, 'grad_norm': 1.8808858394622803, 'learning_rate': 4.716e-06, 'epoch': 2.91}
+{'loss': 0.1822, 'grad_norm': 3.0323848724365234, 'learning_rate': 4.719e-06, 'epoch': 2.91}
+{'loss': 0.1641, 'grad_norm': 2.023909091949463, 'learning_rate': 4.722000000000001e-06, 'epoch': 2.91}
+{'loss': 0.1566, 'grad_norm': 1.6922128200531006, 'learning_rate': 4.7250000000000005e-06, 'epoch': 2.91}
+{'loss': 0.1718, 'grad_norm': 2.9664113521575928, 'learning_rate': 4.7279999999999995e-06, 'epoch': 2.91}
+{'loss': 0.2049, 'grad_norm': 2.469337224960327, 'learning_rate': 4.731e-06, 'epoch': 2.92}
+{'loss': 0.1615, 'grad_norm': 1.755744218826294, 'learning_rate': 4.734e-06, 'epoch': 2.92}
+{'loss': 0.1993, 'grad_norm': 4.633786678314209, 'learning_rate': 4.7370000000000006e-06, 'epoch': 2.92}
+{'loss': 0.1641, 'grad_norm': 1.6162577867507935, 'learning_rate': 4.74e-06, 'epoch': 2.92}
+{'loss': 0.2215, 'grad_norm': 3.0486338138580322, 'learning_rate': 4.743e-06, 'epoch': 2.92}
+{'loss': 0.6632, 'grad_norm': 4.850353717803955, 'learning_rate': 4.746e-06, 'epoch': 2.93}
+{'loss': 0.6831, 'grad_norm': 2.6363439559936523, 'learning_rate': 4.749e-06, 'epoch': 2.93}
+{'loss': 0.5065, 'grad_norm': 2.2633118629455566, 'learning_rate': 4.752e-06, 'epoch': 2.93}
+{'loss': 0.5256, 'grad_norm': 2.4349043369293213, 'learning_rate': 4.755e-06, 'epoch': 2.93}
+{'loss': 0.6051, 'grad_norm': 14.977548599243164, 'learning_rate': 4.758e-06, 'epoch': 2.93}
+{'loss': 0.3641, 'grad_norm': 1.744310975074768, 'learning_rate': 4.761000000000001e-06, 'epoch': 2.93}
+{'loss': 0.469, 'grad_norm': 2.5987777709960938, 'learning_rate': 4.764e-06, 'epoch': 2.94}
+{'loss': 0.2756, 'grad_norm': 3.108370304107666, 'learning_rate': 4.767e-06, 'epoch': 2.94}
+{'loss': 0.3, 'grad_norm': 1.5362529754638672, 'learning_rate': 4.77e-06, 'epoch': 2.94}
+  2%|▏         | 1594/100000 [52:31<70:19:09,  2.57s/it]  2%|▏         | 1595/100000 [52:32<65:01:27,  2.38s/it]                                                          2%|▏         | 1595/100000 [52:32<65:01:27,  2.38s/it]  2%|▏         | 1596/100000 [52:34<59:44:40,  2.19s/it]                                                          2%|▏         | 1596/100000 [52:34<59:44:40,  2.19s/it]  2%|▏         | 1597/100000 [52:36<55:25:03,  2.03s/it]                                                          2%|▏         | 1597/100000 [52:36<55:25:03,  2.03s/it]  2%|▏         | 1598/100000 [52:37<52:16:49,  1.91s/it]                                                          2%|▏         | 1598/100000 [52:37<52:16:49,  1.91s/it]  2%|▏         | 1599/100000 [52:39<49:56:19,  1.83s/it]                                                          2%|▏         | 1599/100000 [52:39<49:56:19,  1.83s/it]  2%|▏         | 1600/100000 [52:41<47:28:40,  1.74s/it]                                                          2%|▏         | 1600/100000 [52:41<47:28:40,  1.74s/it]  2%|▏         | 1601/100000 [52:42<45:31:10,  1.67s/it]                                                          2%|▏         | 1601/100000 [52:42<45:31:10,  1.67s/it]  2%|▏         | 1602/100000 [52:44<43:35:23,  1.59s/it]                                                          2%|▏         | 1602/100000 [52:44<43:35:23,  1.59s/it]  2%|▏         | 1603/100000 [52:45<42:02:33,  1.54s/it]                                                          2%|▏         | 1603/100000 [52:45<42:02:33,  1.54s/it]  2%|▏         | 1604/100000 [52:46<40:49:35,  1.49s/it]                                                          2%|▏         | 1604/100000 [52:46<40:49:35,  1.49s/it]  2%|▏         | 1605/100000 [52:48<39:46:31,  1.46s/it]                                                          2%|▏         | 1605/100000 [52:48<39:46:31,  1.46s/it]  2%|▏         | 1606/100000 [52:49<38:51:10,  1.42s/it]                                                          2%|▏         | 1606/100000 [52:49<38:51:10,  1.42s/it]  2%|▏         | 1607/100000 [52:50<37:56:32,  1.39s/it]                                                          2%|▏         | 1607/100000 [52:50<37:56:32,  1.39s/it]  2%|▏         | 1608/100000 [52:52<37:09:01,  1.36s/it]                                                          2%|▏         | 1608/100000 [52:52<37:09:01,  1.36s/it]  2%|▏         | 1609/100000 [52:53<36:03:52,  1.32s/it]                                                          2%|▏         | 1609/100000 [52:53<36:03:52,  1.32s/it]  2%|▏         | 1610/100000 [52:54<35:19:18,  1.29s/it]                                                          2%|▏         | 1610/100000 [52:54<35:19:18,  1.29s/it]  2%|▏         | 1611/100000 [52:55<34:26:38,  1.26s/it]                                                          2%|▏         | 1611/100000 [52:55<34:26:38,  1.26s/it]  2%|▏         | 1612/100000 [52:57<34:15:08,  1.25s/it]                                                          2%|▏         | 1612/100000 [52:57<34:15:08,  1.25s/it]  2%|▏         | 1613/100000 [52:58<33:06:38,  1.21s/it]                                                          2%|▏         | 1613/100000 [52:58<33:06:38,  1.21s/it]  2%|▏         | 1614/100000 [52:59<32:32:12,  1.19s/it]                                                          2%|▏         | 1614/100000 [52:59<32:32:12,  1.19s/it]  2%|▏         | 1615/100000 [53:00<31:57:04,  1.17s/it]                                                          2%|▏         | 1615/100000 [53:00<31:57:04,  1.17s/it]  2%|▏         | 1616/100000 [53:01<31:36:48,  1.16s/it]                                                          2%|▏         | 1616/100000 [53:01<31:36:48,  1.16s/it]  2%|▏         | 1617/100000 [53:02<31:05:22,  1.14s/it]                                                          2%|▏         | 1617/100000 [53:02<31:05:22,  1.14s/it]  2%|▏         | 1618/100000 [53:03<30:15:45,  1.11s/it]                                                          2%|▏         | 1618/100000 [53:03<30:15:45,  1.11s/it]  2%|▏         | 1619/100000 [53:04<29:53:02,  1.09s/it]                                                          2%|▏         | 1619/100000 [53:04<29:53:02,  1.09s/it]  2%|▏         | 1620/100000 [53:05<29:21:51,  1.07s/it]                                                          2%|▏         | 1620/100000 [53:05<29:21:51,  1.07s/it]  2%|▏         | 1621/100000 [53:06<28:52:58,  1.06s/it]                                                          2%|▏         | 1621/100000 [53:06<28:52:58,  1.06s/it]  2%|▏         | 1622/100000 [53:07<28:02:21,  1.03s/it]                                                          2%|▏         | 1622/100000 [53:07<28:02:21,  1.03s/it]  2%|▏         | 1623/100000 [53:08<27:18:06,  1.00it/s]                                                          2%|▏         | 1623/100000 [53:08<27:18:06,  1.00it/s]  2%|▏         | 1624/100000 [53:09<26:19:51,  1.04it/s]                                                          2%|▏         | 1624/100000 [53:09<26:19:51,  1.04it/s]  2%|▏         | 1625/100000 [53:10<25:29:36,  1.07it/s]                                                          2%|▏         | 1625/100000 [53:10<25:29:36,  1.07it/s]  2%|▏         | 1626/100000 [53:11<24:36:10,  1.11it/s]                                                          2%|▏         | 1626/100000 [53:11<24:36:10,  1.11it/s]{'loss': 0.2937, 'grad_norm': 1.8580305576324463, 'learning_rate': 4.773e-06, 'epoch': 2.94}
+{'loss': 0.2125, 'grad_norm': 2.898499011993408, 'learning_rate': 4.7760000000000005e-06, 'epoch': 2.94}
+{'loss': 0.3014, 'grad_norm': 2.2666280269622803, 'learning_rate': 4.779e-06, 'epoch': 2.95}
+{'loss': 0.2166, 'grad_norm': 1.9050452709197998, 'learning_rate': 4.782e-06, 'epoch': 2.95}
+{'loss': 0.1901, 'grad_norm': 2.1083133220672607, 'learning_rate': 4.785e-06, 'epoch': 2.95}
+{'loss': 0.2178, 'grad_norm': 2.402987480163574, 'learning_rate': 4.788e-06, 'epoch': 2.95}
+{'loss': 0.2102, 'grad_norm': 1.4459607601165771, 'learning_rate': 4.791e-06, 'epoch': 2.95}
+{'loss': 0.2142, 'grad_norm': 1.7319731712341309, 'learning_rate': 4.794e-06, 'epoch': 2.95}
+{'loss': 0.1676, 'grad_norm': 1.5321577787399292, 'learning_rate': 4.797e-06, 'epoch': 2.96}
+{'loss': 0.1819, 'grad_norm': 1.6956512928009033, 'learning_rate': 4.800000000000001e-06, 'epoch': 2.96}
+{'loss': 0.1777, 'grad_norm': 2.4199330806732178, 'learning_rate': 4.803e-06, 'epoch': 2.96}
+{'loss': 0.155, 'grad_norm': 1.6201728582382202, 'learning_rate': 4.806e-06, 'epoch': 2.96}
+{'loss': 0.1551, 'grad_norm': 2.5003530979156494, 'learning_rate': 4.809e-06, 'epoch': 2.96}
+{'loss': 0.1395, 'grad_norm': 2.197706699371338, 'learning_rate': 4.812e-06, 'epoch': 2.97}
+{'loss': 0.1677, 'grad_norm': 1.5907740592956543, 'learning_rate': 4.8150000000000005e-06, 'epoch': 2.97}
+{'loss': 0.1671, 'grad_norm': 2.2628791332244873, 'learning_rate': 4.818e-06, 'epoch': 2.97}
+{'loss': 0.1803, 'grad_norm': 2.739673376083374, 'learning_rate': 4.821e-06, 'epoch': 2.97}
+{'loss': 0.1546, 'grad_norm': 1.834478497505188, 'learning_rate': 4.824e-06, 'epoch': 2.97}
+{'loss': 0.1619, 'grad_norm': 1.9884629249572754, 'learning_rate': 4.827e-06, 'epoch': 2.98}
+{'loss': 0.1375, 'grad_norm': 1.7522231340408325, 'learning_rate': 4.83e-06, 'epoch': 2.98}
+{'loss': 0.1763, 'grad_norm': 1.8641668558120728, 'learning_rate': 4.833e-06, 'epoch': 2.98}
+{'loss': 0.1819, 'grad_norm': 2.795372724533081, 'learning_rate': 4.836000000000001e-06, 'epoch': 2.98}
+{'loss': 0.1448, 'grad_norm': 1.361962914466858, 'learning_rate': 4.839e-06, 'epoch': 2.98}
+{'loss': 0.1818, 'grad_norm': 2.029982805252075, 'learning_rate': 4.8419999999999996e-06, 'epoch': 2.98}
+{'loss': 0.1743, 'grad_norm': 3.986133575439453, 'learning_rate': 4.845e-06, 'epoch': 2.99}
+{'loss': 0.1853, 'grad_norm': 2.4707727432250977, 'learning_rate': 4.848e-06, 'epoch': 2.99}
+{'loss': 0.1881, 'grad_norm': 3.1868081092834473, 'learning_rate': 4.851000000000001e-06, 'epoch': 2.99}
+{'loss': 0.1776, 'grad_norm': 2.083648204803467, 'learning_rate': 4.8540000000000005e-06, 'epoch': 2.99}
+{'loss': 0.1843, 'grad_norm': 2.8003695011138916, 'learning_rate': 4.856999999999999e-06, 'epoch': 2.99}
+{'loss': 0.1757, 'grad_norm': 2.0337893962860107, 'learning_rate': 4.86e-06, 'epoch': 3.0}
+{'loss': 0.1648, 'grad_norm': 2.571591854095459, 'learning_rate': 4.863e-06, 'epoch': 3.0}
+{'loss': 0.2077, 'grad_norm': 2.681323766708374, 'learning_rate': 4.8660000000000005e-06, 'epoch': 3.0}
+{'loss': 0.0914, 'grad_norm': 1.5731614828109741, 'learning_rate': 4.869e-06, 'epoch': 3.0}
+  2%|▏         | 1627/100000 [53:29<167:30:23,  6.13s/it]                                                           2%|▏         | 1627/100000 [53:29<167:30:23,  6.13s/it]  2%|▏         | 1628/100000 [53:35<166:43:25,  6.10s/it]                                                           2%|▏         | 1628/100000 [53:35<166:43:25,  6.10s/it]  2%|��         | 1629/100000 [53:40<156:33:27,  5.73s/it]                                                           2%|▏         | 1629/100000 [53:40<156:33:27,  5.73s/it]  2%|▏         | 1630/100000 [53:44<142:32:36,  5.22s/it]                                                           2%|▏         | 1630/100000 [53:44<142:32:36,  5.22s/it]  2%|▏         | 1631/100000 [53:47<128:06:50,  4.69s/it]                                                           2%|▏         | 1631/100000 [53:47<128:06:50,  4.69s/it]  2%|▏         | 1632/100000 [53:51<116:58:06,  4.28s/it]                                                           2%|▏         | 1632/100000 [53:51<116:58:06,  4.28s/it]  2%|▏         | 1633/100000 [53:54<106:42:39,  3.91s/it]                                                           2%|▏         | 1633/100000 [53:54<106:42:39,  3.91s/it]  2%|▏         | 1634/100000 [53:57<97:20:52,  3.56s/it]                                                           2%|▏         | 1634/100000 [53:57<97:20:52,  3.56s/it]  2%|▏         | 1635/100000 [53:59<88:28:56,  3.24s/it]                                                          2%|▏         | 1635/100000 [53:59<88:28:56,  3.24s/it]  2%|▏         | 1636/100000 [54:01<81:16:10,  2.97s/it]                                                          2%|▏         | 1636/100000 [54:01<81:16:10,  2.97s/it]  2%|▏         | 1637/100000 [54:04<74:57:33,  2.74s/it]                                                          2%|▏         | 1637/100000 [54:04<74:57:33,  2.74s/it]  2%|▏         | 1638/100000 [54:06<69:59:32,  2.56s/it]                                                          2%|▏         | 1638/100000 [54:06<69:59:32,  2.56s/it]  2%|▏         | 1639/100000 [54:08<65:20:26,  2.39s/it]                                                          2%|▏         | 1639/100000 [54:08<65:20:26,  2.39s/it]  2%|▏         | 1640/100000 [54:10<61:12:15,  2.24s/it]                                                          2%|▏         | 1640/100000 [54:10<61:12:15,  2.24s/it]  2%|▏         | 1641/100000 [54:11<57:36:42,  2.11s/it]                                                          2%|▏         | 1641/100000 [54:11<57:36:42,  2.11s/it]  2%|▏         | 1642/100000 [54:13<54:30:16,  1.99s/it]                                                          2%|▏         | 1642/100000 [54:13<54:30:16,  1.99s/it]  2%|▏         | 1643/100000 [54:15<51:26:27,  1.88s/it]                                                          2%|▏         | 1643/100000 [54:15<51:26:27,  1.88s/it]  2%|▏         | 1644/100000 [54:16<48:51:55,  1.79s/it]                                                          2%|▏         | 1644/100000 [54:16<48:51:55,  1.79s/it]  2%|▏         | 1645/100000 [54:18<46:47:48,  1.71s/it]                                                          2%|▏         | 1645/100000 [54:18<46:47:48,  1.71s/it]  2%|▏         | 1646/100000 [54:19<45:26:49,  1.66s/it]                                                          2%|▏         | 1646/100000 [54:19<45:26:49,  1.66s/it]  2%|▏         | 1647/100000 [54:21<44:07:45,  1.62s/it]                                                          2%|▏         | 1647/100000 [54:21<44:07:45,  1.62s/it]  2%|▏         | 1648/100000 [54:22<43:01:14,  1.57s/it]                                                          2%|▏         | 1648/100000 [54:22<43:01:14,  1.57s/it]  2%|▏         | 1649/100000 [54:24<41:39:18,  1.52s/it]                                                          2%|▏         | 1649/100000 [54:24<41:39:18,  1.52s/it]  2%|▏         | 1650/100000 [54:25<40:38:39,  1.49s/it]                                                          2%|▏         | 1650/100000 [54:25<40:38:39,  1.49s/it]  2%|▏         | 1651/100000 [54:27<39:59:07,  1.46s/it]                                                          2%|▏         | 1651/100000 [54:27<39:59:07,  1.46s/it]  2%|▏         | 1652/100000 [54:28<39:19:26,  1.44s/it]                                                          2%|▏         | 1652/100000 [54:28<39:19:26,  1.44s/it]  2%|▏         | 1653/100000 [54:29<38:06:51,  1.40s/it]                                                          2%|▏         | 1653/100000 [54:29<38:06:51,  1.40s/it]  2%|▏         | 1654/100000 [54:31<37:30:31,  1.37s/it]                                                          2%|▏         | 1654/100000 [54:31<37:30:31,  1.37s/it]  2%|▏         | 1655/100000 [54:32<37:06:13,  1.36s/it]                                                          2%|▏         | 1655/100000 [54:32<37:06:13,  1.36s/it]  2%|▏         | 1656/100000 [54:33<36:33:14,  1.34s/it]                                                          2%|▏         | 1656/100000 [54:33<36:33:14,  1.34s/it]  2%|▏         | 1657/100000 [54:35<36:02:00,  1.32s/it]                                                          2%|▏         | 1657/100000 [54:35<36:02:00,  1.32s/it]  2%|��         | 1658/100000 [54:36<35:28:39,  1.30s/it]                                                          2%|▏         | 1658/100000 [54:36<35:28:39,  1.30s/it]  2%|▏         | 1659/100000 [54:37<35:04:57,  1.28s/it]                                                          2%|▏         | 1659/100000 [54:37<35:04:57,  1.28s/it]  2%|▏         | 1660/100000 [54:38<34:38:13,  1.27s/it]                                                          2%|▏         | 1660/100000 [54:38<34:38:13,  1.27s/it]  2%|▏         | 1661/100000 [54:39<33:51:40,  1.24s/it]                                                          2%|▏         | 1661/100000 [54:39<33:51:40,  1.24s/it]  2%|▏         | 1662/100000 [54:41<33:13:03,  1.22s/it]                                                          2%|▏         | 1662/100000 [54:41<33:13:03,  1.22s/it]  2%|▏         | 1663/100000 [54:42<32:49:40,  1.20s/it]                                                          2%|▏         | 1663/100000 [54:42<32:49:40,  1.20s/it]  2%|▏         | 1664/100000 [54:43<32:14:25,  1.18s/it]                                                          2%|▏         | 1664/100000 [54:43<32:14:25,  1.18s/it]  2%|▏         | 1665/100000 [54:44<31:48:15,  1.16s/it]                                                          2%|▏         | 1665/100000 [54:44<31:48:15,  1.16s/it]  2%|▏         | 1666/100000 [54:45<31:14:07,  1.14s/it]                                                          2%|▏         | 1666/100000 [54:45<31:14:07,  1.14s/it]  2%|▏         | 1667/100000 [54:46<30:33:37,  1.12s/it]                                                          2%|▏         | 1667/100000 [54:46<30:33:37,  1.12s/it]  2%|▏         | 1668/100000 [54:47<29:52:22,  1.09s/it]                                                          2%|▏         | 1668/100000 [54:47<29:52:22,  1.09s/it]  2%|▏         | 1669/100000 [54:48<29:25:43,  1.08s/it]                                                          2%|▏         | 1669/100000 [54:48<29:25:43,  1.08s/it]  2%|▏         | 1670/100000 [54:49<28:57:04,  1.06s/it]                                                          2%|▏         | 1670/100000 [54:49<28:57:04,  1.06s/it]  2%|▏         | 1671/100000 [54:50<28:14:15,  1.03s/it]                                                          2%|▏         | 1671/100000 [54:50<28:14:15,  1.03s/it]  2%|▏         | 1672/100000 [54:51<27:38:47,  1.01s/it]                                                          2%|▏         | 1672/100000 [54:51<27:38:47,  1.01s/it]  2%|▏         | 1673/100000 [54:52<26:58:14,  1.01it/s]                                                          2%|▏         | 1673/100000 [54:52<26:58:14,  1.01it/s]  2%|▏         | 1674/100000 [54:53<26:18:17,  1.04it/s]                                                          2%|▏         | 1674/100000 [54:53<26:18:17,  1.04it/s]  2%|▏         | 1675/100000 [54:54<25:56:55,  1.05it/s]                                                          2%|▏         | 1675/100000 [54:54<25:56:55,  1.05it/s]  2%|▏         | 1676/100000 [54:55<25:25:02,  1.07it/s]                                                          2%|▏         | 1676/100000 [54:55<25:25:02,  1.07it/s]  2%|▏         | 1677/100000 [55:06<107:38:08,  3.94s/it]                                                           2%|▏         | 1677/100000 [55:06<107:38:08,  3.94s/it]  2%|▏         | 1678/100000 [55:11<121:26:33,  4.45s/it]                                                           2%|▏         | 1678/100000 [55:11<121:26:33,  4.45s/it]  2%|▏         | 1679/100000 [55:16<126:20:21,  4.63s/it]                                                           2%|▏         | 1679/100000 [55:16<126:20:21,  4.63s/it]  2%|▏         | 1680/100000 [55:21<122:42:49,  4.49s/it]                                                           2%|▏         | 1680/100000 [55:21<122:42:49,  4.49s/it]  2%|▏         | 1681/100000 [55:24<116:00:34,  4.25s/it]                                                           2%|▏         | 1681/100000 [55:24<116:00:34,  4.25s/it]  2%|▏         | 1682/100000 [55:28<107:36:46,  3.94s/it]                                                           2%|▏         | 1682/100000 [55:28<107:36:46,  3.94s/it]  2%|▏         | 1683/100000 [55:31<99:44:12,  3.65s/it]                                                           2%|▏         | 1683/100000 [55:31<99:44:12,  3.65s/it]  2%|▏         | 1684/100000 [55:33<91:21:40,  3.35s/it]                                                          2%|▏         | 1684/100000 [55:33<91:21:40,  3.35s/it]  2%|▏         | 1685/100000 [55:36<84:32:48,  3.10s/it]                                                          2%|▏         | 1685/100000 [55:36<84:32:48,  3.10s/it]  2%|▏         | 1686/100000 [55:38<78:16:27,  2.87s/it]                                                          2%|▏         | 1686/100000 [55:38<78:16:27,  2.87s/it]  2%|▏         | 1687/100000 [55:40<72:24:36,  2.65s/it]                                                          2%|▏         | 1687/100000 [55:40<72:24:36,  2.65s/it]  2%|▏         | 1688/100000 [55:42<66:38:33,  2.44s/it]                                                          2%|▏         | 1688/100000 [55:42<66:38:33,  2.44s/it]  2%|▏         | 1689/100000 [55:44<62:22:09,  2.28s/it]                                                          2%|▏         | 1689/100000 [55:44<62:22:09,  2.28s/it]  2%|▏         | 1690/100000 [55:46<57:55:24,  2.12s/it]                                                          2%|▏         | 1690/100000 [55:46<57:55:24,  2.12s/it]  2%|▏         | 1691/100000 [55:47<54:34:42,  2.00s/it]                                                          2%|▏         | 1691/100000 [55:47<54:34:42,  2.00s/it]  2%|▏         | 1692/100000 [55:49<51:42:17,  1.89s/it]                                                          2%|▏         | 1692/100000 [55:49<51:42:17,  1.89s/it]  2%|▏         | 1693/100000 [55:51<49:16:50,  1.80s/it]                                                          2%|▏         | 1693/100000 [55:51<49:16:50,  1.80s/it]  2%|▏         | 1694/100000 [55:52<47:06:59,  1.73s/it]                                                          2%|▏         | 1694/100000 [55:52<47:06:59,  1.73s/it]  2%|▏         | 1695/100000 [55:54<45:19:07,  1.66s/it]                                                          2%|▏         | 1695/100000 [55:54<45:19:07,  1.66s/it]  2%|▏         | 1696/100000 [55:55<43:36:49,  1.60s/it]                                                          2%|▏         | 1696/100000 [55:55<43:36:49,  1.60s/it]  2%|▏         | 1697/100000 [55:57<42:31:42,  1.56s/it]                                                          2%|▏         | 1697/100000 [55:57<42:31:42,  1.56s/it]  2%|▏         | 1698/100000 [55:58<41:11:29,  1.51s/it]                                                          2%|▏         | 1698/100000 [55:58<41:11:29,  1.51s/it]  2%|▏         | 1699/100000 [55:59<40:23:56,  1.48s/it]                                                          2%|▏         | 1699/100000 [55:59<40:23:56,  1.48s/it]  2%|▏         | 1700/100000 [56:01<39:41:19,  1.45s/it]                                                          2%|▏         | 1700/100000 [56:01<39:41:19,  1.45s/it]  2%|▏         | 1701/100000 [56:02<38:34:01,  1.41s/it]                                                          2%|▏         | 1701/100000 [56:02<38:34:01,  1.41s/it]  2%|▏         | 1702/100000 [56:04<38:03:23,  1.39s/it]                                                          2%|▏         | 1702/100000 [56:04<38:03:23,  1.39s/it]  2%|▏         | 1703/100000 [56:05<37:13:09,  1.36s/it]                                                          2%|▏         | 1703/100000 [56:05<37:13:09,  1.36s/it]  2%|▏         | 1704/100000 [56:06<36:52:01,  1.35s/it]                                                          2%|▏         | 1704/100000 [56:06<36:52:01,  1.35s/it]  2%|▏         | 1705/100000 [56:07<36:06:59,  1.32s/it]                                                          2%|▏         | 1705/100000 [56:07<36:06:59,  1.32s/it]  2%|▏         | 1706/100000 [56:09<35:41:58,  1.31s/it]                                                          2%|▏         | 1706/100000 [56:09<35:41:58,  1.31s/it]  2%|▏         | 1707/100000 [56:10<35:21:02,  1.29s/it]                                                          2%|▏         | 1707/100000 [56:10<35:21:02,  1.29s/it]  2%|▏         | 1708/100000 [56:11<34:46:55,  1.27s/it]                                                          2%|▏         | 1708/100000 [56:11<34:46:55,  1.27s/it]  2%|▏         | 1709/100000 [56:12<34:21:51,  1.26s/it]                                                          2%|▏         | 1709/100000 [56:12<34:21:51,  1.26s/it]  2%|▏         | 1710/100000 [56:14<33:29:41,  1.23s/it]                                                          2%|▏         | 1710/100000 [56:14<33:29:41,  1.23s/it]  2%|▏         | 1711/100000 [56:15<32:57:11,  1.21s/it]                                                          2%|▏         | 1711/100000 [56:15<32:57:11,  1.21s/it]  2%|▏         | 1712/100000 [56:16<32:37:58,  1.20s/it]                                                        {'loss': 0.5649, 'grad_norm': 2.272230386734009, 'learning_rate': 4.872e-06, 'epoch': 3.0}
+{'loss': 0.624, 'grad_norm': 2.1991465091705322, 'learning_rate': 4.875e-06, 'epoch': 3.0}
+{'loss': 0.563, 'grad_norm': 1.6478530168533325, 'learning_rate': 4.878e-06, 'epoch': 3.01}
+{'loss': 0.4616, 'grad_norm': 1.7868117094039917, 'learning_rate': 4.881e-06, 'epoch': 3.01}
+{'loss': 0.4051, 'grad_norm': 1.7761942148208618, 'learning_rate': 4.884e-06, 'epoch': 3.01}
+{'loss': 0.4763, 'grad_norm': 1.7362419366836548, 'learning_rate': 4.887e-06, 'epoch': 3.01}
+{'loss': 0.4974, 'grad_norm': 2.110557794570923, 'learning_rate': 4.890000000000001e-06, 'epoch': 3.01}
+{'loss': 0.3519, 'grad_norm': 1.771098017692566, 'learning_rate': 4.8929999999999996e-06, 'epoch': 3.01}
+{'loss': 0.3971, 'grad_norm': 1.9019705057144165, 'learning_rate': 4.896e-06, 'epoch': 3.02}
+{'loss': 0.3578, 'grad_norm': 1.8817514181137085, 'learning_rate': 4.899e-06, 'epoch': 3.02}
+{'loss': 0.3423, 'grad_norm': 1.5816795825958252, 'learning_rate': 4.902e-06, 'epoch': 3.02}
+{'loss': 0.2532, 'grad_norm': 2.711153030395508, 'learning_rate': 4.9050000000000005e-06, 'epoch': 3.02}
+{'loss': 0.2882, 'grad_norm': 1.6076635122299194, 'learning_rate': 4.908e-06, 'epoch': 3.02}
+{'loss': 0.2771, 'grad_norm': 1.8714416027069092, 'learning_rate': 4.911e-06, 'epoch': 3.03}
+{'loss': 0.2915, 'grad_norm': 2.4448885917663574, 'learning_rate': 4.914e-06, 'epoch': 3.03}
+{'loss': 0.1761, 'grad_norm': 1.5730973482131958, 'learning_rate': 4.917e-06, 'epoch': 3.03}
+{'loss': 0.172, 'grad_norm': 1.8119219541549683, 'learning_rate': 4.92e-06, 'epoch': 3.03}
+{'loss': 0.2029, 'grad_norm': 1.9520834684371948, 'learning_rate': 4.923e-06, 'epoch': 3.03}
+{'loss': 0.1399, 'grad_norm': 1.4923053979873657, 'learning_rate': 4.926000000000001e-06, 'epoch': 3.04}
+{'loss': 0.1687, 'grad_norm': 1.0933345556259155, 'learning_rate': 4.929000000000001e-06, 'epoch': 3.04}
+{'loss': 0.2484, 'grad_norm': 2.112572193145752, 'learning_rate': 4.9319999999999995e-06, 'epoch': 3.04}
+{'loss': 0.1377, 'grad_norm': 1.7236456871032715, 'learning_rate': 4.935e-06, 'epoch': 3.04}
+{'loss': 0.1647, 'grad_norm': 1.726274847984314, 'learning_rate': 4.938e-06, 'epoch': 3.04}
+{'loss': 0.1538, 'grad_norm': 1.6629983186721802, 'learning_rate': 4.941000000000001e-06, 'epoch': 3.04}
+{'loss': 0.1484, 'grad_norm': 1.8645832538604736, 'learning_rate': 4.9440000000000004e-06, 'epoch': 3.05}
+{'loss': 0.1349, 'grad_norm': 1.8150570392608643, 'learning_rate': 4.947e-06, 'epoch': 3.05}
+{'loss': 0.1593, 'grad_norm': 2.544318199157715, 'learning_rate': 4.95e-06, 'epoch': 3.05}
+{'loss': 0.1239, 'grad_norm': 2.0313374996185303, 'learning_rate': 4.953e-06, 'epoch': 3.05}
+{'loss': 0.1705, 'grad_norm': 1.766607642173767, 'learning_rate': 4.9560000000000005e-06, 'epoch': 3.05}
+{'loss': 0.1477, 'grad_norm': 1.6488720178604126, 'learning_rate': 4.959e-06, 'epoch': 3.06}
+{'loss': 0.1626, 'grad_norm': 1.9187687635421753, 'learning_rate': 4.962e-06, 'epoch': 3.06}
+{'loss': 0.1291, 'grad_norm': 1.9352442026138306, 'learning_rate': 4.965000000000001e-06, 'epoch': 3.06}
+{'loss': 0.2403, 'grad_norm': 2.122387647628784, 'learning_rate': 4.968e-06, 'epoch': 3.06}
+{'loss': 0.1439, 'grad_norm': 1.7077113389968872, 'learning_rate': 4.9709999999999995e-06, 'epoch': 3.06}
+{'loss': 0.1117, 'grad_norm': 2.4755544662475586, 'learning_rate': 4.974e-06, 'epoch': 3.06}
+{'loss': 0.1821, 'grad_norm': 1.930274248123169, 'learning_rate': 4.977e-06, 'epoch': 3.07}
+{'loss': 0.1167, 'grad_norm': 1.8199743032455444, 'learning_rate': 4.980000000000001e-06, 'epoch': 3.07}
+{'loss': 0.1242, 'grad_norm': 1.5116584300994873, 'learning_rate': 4.983e-06, 'epoch': 3.07}
+{'loss': 0.186, 'grad_norm': 1.9836688041687012, 'learning_rate': 4.985999999999999e-06, 'epoch': 3.07}
+{'loss': 0.1463, 'grad_norm': 2.199866533279419, 'learning_rate': 4.989e-06, 'epoch': 3.07}
+{'loss': 0.1495, 'grad_norm': 1.57767653465271, 'learning_rate': 4.992e-06, 'epoch': 3.08}
+{'loss': 0.1426, 'grad_norm': 9.19756031036377, 'learning_rate': 4.9950000000000005e-06, 'epoch': 3.08}
+{'loss': 0.1973, 'grad_norm': 2.502916097640991, 'learning_rate': 4.998e-06, 'epoch': 3.08}
+{'loss': 0.1319, 'grad_norm': 2.128638982772827, 'learning_rate': 5.001e-06, 'epoch': 3.08}
+{'loss': 0.155, 'grad_norm': 1.7738232612609863, 'learning_rate': 5.004e-06, 'epoch': 3.08}
+{'loss': 0.1543, 'grad_norm': 2.350332260131836, 'learning_rate': 5.007e-06, 'epoch': 3.08}
+{'loss': 0.1919, 'grad_norm': 1.9206435680389404, 'learning_rate': 5.01e-06, 'epoch': 3.09}
+{'loss': 0.1699, 'grad_norm': 2.0797274112701416, 'learning_rate': 5.013e-06, 'epoch': 3.09}
+{'loss': 0.178, 'grad_norm': 1.9949361085891724, 'learning_rate': 5.016e-06, 'epoch': 3.09}
+{'loss': 0.1716, 'grad_norm': 2.23211669921875, 'learning_rate': 5.0190000000000006e-06, 'epoch': 3.09}
+{'loss': 0.6273, 'grad_norm': 4.083524703979492, 'learning_rate': 5.0219999999999995e-06, 'epoch': 3.09}
+{'loss': 0.5839, 'grad_norm': 1.6188116073608398, 'learning_rate': 5.025e-06, 'epoch': 3.1}
+{'loss': 0.5534, 'grad_norm': 2.0627925395965576, 'learning_rate': 5.028e-06, 'epoch': 3.1}
+{'loss': 0.5056, 'grad_norm': 2.4019577503204346, 'learning_rate': 5.031e-06, 'epoch': 3.1}
+{'loss': 0.4375, 'grad_norm': 2.0087342262268066, 'learning_rate': 5.034e-06, 'epoch': 3.1}
+{'loss': 0.4366, 'grad_norm': 1.7077587842941284, 'learning_rate': 5.037e-06, 'epoch': 3.1}
+{'loss': 0.3506, 'grad_norm': 1.9419629573822021, 'learning_rate': 5.04e-06, 'epoch': 3.11}
+{'loss': 0.3371, 'grad_norm': 1.676218867301941, 'learning_rate': 5.043e-06, 'epoch': 3.11}
+{'loss': 0.3364, 'grad_norm': 1.9952783584594727, 'learning_rate': 5.046e-06, 'epoch': 3.11}
+{'loss': 0.3141, 'grad_norm': 2.8741376399993896, 'learning_rate': 5.049e-06, 'epoch': 3.11}
+{'loss': 0.2986, 'grad_norm': 1.4315117597579956, 'learning_rate': 5.052e-06, 'epoch': 3.11}
+{'loss': 0.2689, 'grad_norm': 1.3568508625030518, 'learning_rate': 5.055000000000001e-06, 'epoch': 3.11}
+{'loss': 0.2782, 'grad_norm': 2.1754391193389893, 'learning_rate': 5.0580000000000005e-06, 'epoch': 3.12}
+{'loss': 0.2859, 'grad_norm': 2.0119006633758545, 'learning_rate': 5.0609999999999995e-06, 'epoch': 3.12}
+{'loss': 0.2626, 'grad_norm': 1.4242953062057495, 'learning_rate': 5.064e-06, 'epoch': 3.12}
+{'loss': 0.2223, 'grad_norm': 1.5842236280441284, 'learning_rate': 5.067e-06, 'epoch': 3.12}
+{'loss': 0.1274, 'grad_norm': 4.055980205535889, 'learning_rate': 5.070000000000001e-06, 'epoch': 3.12}
+{'loss': 0.2235, 'grad_norm': 2.017376184463501, 'learning_rate': 5.073e-06, 'epoch': 3.13}
+{'loss': 0.1488, 'grad_norm': 1.4071455001831055, 'learning_rate': 5.076e-06, 'epoch': 3.13}
+{'loss': 0.1208, 'grad_norm': 1.4524205923080444, 'learning_rate': 5.079e-06, 'epoch': 3.13}
+{'loss': 0.1519, 'grad_norm': 2.6339752674102783, 'learning_rate': 5.082e-06, 'epoch': 3.13}
+{'loss': 0.1285, 'grad_norm': 1.3864768743515015, 'learning_rate': 5.0850000000000004e-06, 'epoch': 3.13}
+{'loss': 0.1302, 'grad_norm': 1.4206315279006958, 'learning_rate': 5.088e-06, 'epoch': 3.13}
+{'loss': 0.1233, 'grad_norm': 1.1164093017578125, 'learning_rate': 5.091e-06, 'epoch': 3.14}
+{'loss': 0.1948, 'grad_norm': 2.3856983184814453, 'learning_rate': 5.094000000000001e-06, 'epoch': 3.14}
+{'loss': 0.1125, 'grad_norm': 1.6560757160186768, 'learning_rate': 5.097e-06, 'epoch': 3.14}
+{'loss': 0.1099, 'grad_norm': 1.2046996355056763, 'learning_rate': 5.1e-06, 'epoch': 3.14}
+{'loss': 0.1507, 'grad_norm': 2.4310736656188965, 'learning_rate': 5.103e-06, 'epoch': 3.14}
+{'loss': 0.1306, 'grad_norm': 1.898454189300537, 'learning_rate': 5.106e-06, 'epoch': 3.15}
+{'loss': 0.1367, 'grad_norm': 2.1356546878814697, 'learning_rate': 5.1090000000000006e-06, 'epoch': 3.15}
+{'loss': 0.1339, 'grad_norm': 2.0182154178619385, 'learning_rate': 5.112e-06, 'epoch': 3.15}
+{'loss': 0.1415, 'grad_norm': 1.420379638671875, 'learning_rate': 5.115e-06, 'epoch': 3.15}
+{'loss': 0.144, 'grad_norm': 9.14201831817627, 'learning_rate': 5.118e-06, 'epoch': 3.15}
+{'loss': 0.1447, 'grad_norm': 2.5935096740722656, 'learning_rate': 5.121e-06, 'epoch': 3.16}
+{'loss': 0.1698, 'grad_norm': 2.102509021759033, 'learning_rate': 5.124e-06, 'epoch': 3.16}
+  2%|▏         | 1712/100000 [56:16<32:37:58,  1.20s/it]  2%|▏         | 1713/100000 [56:17<32:11:05,  1.18s/it]                                                          2%|▏         | 1713/100000 [56:17<32:11:05,  1.18s/it]  2%|▏         | 1714/100000 [56:18<31:46:25,  1.16s/it]                                                          2%|▏         | 1714/100000 [56:18<31:46:25,  1.16s/it]  2%|▏         | 1715/100000 [56:19<31:17:07,  1.15s/it]                                                          2%|▏         | 1715/100000 [56:19<31:17:07,  1.15s/it]  2%|▏         | 1716/100000 [56:20<30:44:34,  1.13s/it]                                                          2%|▏         | 1716/100000 [56:20<30:44:34,  1.13s/it]  2%|▏         | 1717/100000 [56:21<30:01:31,  1.10s/it]                                                          2%|▏         | 1717/100000 [56:21<30:01:31,  1.10s/it]  2%|▏         | 1718/100000 [56:22<29:54:12,  1.10s/it]                                                          2%|▏         | 1718/100000 [56:22<29:54:12,  1.10s/it]  2%|▏         | 1719/100000 [56:23<29:13:57,  1.07s/it]                                                          2%|▏         | 1719/100000 [56:23<29:13:57,  1.07s/it]  2%|▏         | 1720/100000 [56:24<28:47:25,  1.05s/it]                                                          2%|▏         | 1720/100000 [56:25<28:47:25,  1.05s/it]  2%|▏         | 1721/100000 [56:25<28:01:21,  1.03s/it]                                                          2%|▏         | 1721/100000 [56:25<28:01:21,  1.03s/it]  2%|▏         | 1722/100000 [56:26<27:32:46,  1.01s/it]                                                          2%|▏         | 1722/100000 [56:26<27:32:46,  1.01s/it]  2%|▏         | 1723/100000 [56:27<26:55:13,  1.01it/s]                                                          2%|▏         | 1723/100000 [56:27<26:55:13,  1.01it/s]  2%|▏         | 1724/100000 [56:28<26:41:17,  1.02it/s]                                                          2%|▏         | 1724/100000 [56:28<26:41:17,  1.02it/s]  2%|▏         | 1725/100000 [56:29<26:06:58,  1.05it/s]                                                          2%|▏         | 1725/100000 [56:29<26:06:58,  1.05it/s]  2%|▏         | 1726/100000 [56:30<25:27:45,  1.07it/s]                                                          2%|▏         | 1726/100000 [56:30<25:27:45,  1.07it/s]  2%|▏         | 1727/100000 [56:41<110:47:26,  4.06s/it]                                                           2%|▏         | 1727/100000 [56:41<110:47:26,  4.06s/it]  2%|▏         | 1728/100000 [56:47<125:18:39,  4.59s/it]                                                           2%|▏         | 1728/100000 [56:47<125:18:39,  4.59s/it]  2%|▏         | 1729/100000 [56:52<124:51:29,  4.57s/it]                                                           2%|▏         | 1729/100000 [56:52<124:51:29,  4.57s/it]  2%|▏         | 1730/100000 [56:56<119:33:20,  4.38s/it]                                                           2%|▏         | 1730/100000 [56:56<119:33:20,  4.38s/it]  2%|▏         | 1731/100000 [56:59<111:05:51,  4.07s/it]                                                           2%|▏         | 1731/100000 [56:59<111:05:51,  4.07s/it]  2%|▏         | 1732/100000 [57:02<104:05:51,  3.81s/it]                                                           2%|▏         | 1732/100000 [57:02<104:05:51,  3.81s/it]  2%|▏         | 1733/100000 [57:05<96:36:17,  3.54s/it]                                                           2%|▏         | 1733/100000 [57:05<96:36:17,  3.54s/it]  2%|▏         | 1734/100000 [57:08<89:17:47,  3.27s/it]                                                          2%|▏         | 1734/100000 [57:08<89:17:47,  3.27s/it]  2%|▏         | 1735/100000 [57:10<81:46:20,  3.00s/it]                                                          2%|▏         | 1735/100000 [57:10<81:46:20,  3.00s/it]  2%|▏         | 1736/100000 [57:12<75:54:39,  2.78s/it]                                                          2%|▏         | 1736/100000 [57:12<75:54:39,  2.78s/it]  2%|▏         | 1737/100000 [57:15<70:20:48,  2.58s/it]                                                          2%|▏         | 1737/100000 [57:15<70:20:48,  2.58s/it]  2%|▏         | 1738/100000 [57:17<65:32:49,  2.40s/it]                                                          2%|▏         | 1738/100000 [57:17<65:32:49,  2.40s/it]  2%|▏         | 1739/100000 [57:18<61:37:43,  2.26s/it]                                                          2%|▏         | 1739/100000 [57:19<61:37:43,  2.26s/it]  2%|▏         | 1740/100000 [57:20<57:53:46,  2.12s/it]                                                          2%|▏         | 1740/100000 [57:20<57:53:46,  2.12s/it]  2%|▏         | 1741/100000 [57:22<54:46:03,  2.01s/it]                                                          2%|▏         | 1741/100000 [57:22<54:46:03,  2.01s/it]  2%|▏         | 1742/100000 [57:24<51:26:35,  1.88s/it]                                                          2%|▏         | 1742/100000 [57:24<51:26:35,  1.88s/it]  2%|▏         | 1743/100000 [57:25<49:23:36,  1.81s/it]                                                          2%|▏         | 1743/100000 [57:25<49:23:36,  1.81s/it]  2%|▏         | 1744/100000 [57:27<47:31:50,  1.74s/it]                                                          2%|▏         | 1744/100000 [57:27<47:31:50,  1.74s/it]  2%|▏         | 1745/100000 [57:28<45:43:57,  1.68s/it]                                                          2%|▏         | 1745/100000 [57:28<45:43:57,  1.68s/it]  2%|▏         | 1746/100000 [57:30<43:51:15,  1.61s/it]                                                          2%|▏         | 1746/100000 [57:30<43:51:15,  1.61s/it]  2%|▏         | 1747/100000 [57:31<42:39:05,  1.56s/it]                                                          2%|▏         | 1747/100000 [57:31<42:39:05,  1.56s/it]  2%|▏         | 1748/100000 [57:33<41:35:08,  1.52s/it]                                                          2%|▏         | 1748/100000 [57:33<41:35:08,  1.52s/it]  2%|▏         | 1749/100000 [57:34<40:22:15,  1.48s/it]                                                          2%|▏         | 1749/100000 [57:34<40:22:15,  1.48s/it]  2%|▏         | 1750/100000 [57:35<39:31:53,  1.45s/it]                                                          2%|▏         | 1750/100000 [57:35<39:31:53,  1.45s/it]  2%|▏         | 1751/100000 [57:37<38:41:29,  1.42s/it]                                                          2%|▏         | 1751/100000 [57:37<38:41:29,  1.42s/it]  2%|▏         | 1752/100000 [57:38<38:18:10,  1.40s/it]                                                          2%|▏         | 1752/100000 [57:38<38:18:10,  1.40s/it]  2%|▏         | 1753/100000 [57:39<37:20:05,  1.37s/it]                                                          2%|▏         | 1753/100000 [57:39<37:20:05,  1.37s/it]  2%|▏         | 1754/100000 [57:41<36:49:07,  1.35s/it]                                                          2%|▏         | 1754/100000 [57:41<36:49:07,  1.35s/it]  2%|▏         | 1755/100000 [57:42<36:03:42,  1.32s/it]                                                          2%|▏         | 1755/100000 [57:42<36:03:42,  1.32s/it]  2%|▏         | 1756/100000 [57:43<36:58:52,  1.36s/it]                                                          2%|▏         | 1756/100000 [57:43<36:58:52,  1.36s/it]  2%|▏         | 1757/100000 [57:45<36:19:05,  1.33s/it]                                                          2%|▏         | 1757/100000 [57:45<36:19:05,  1.33s/it]  2%|▏         | 1758/100000 [57:46<35:23:41,  1.30s/it]                                                          2%|▏         | 1758/100000 [57:46<35:23:41,  1.30s/it]  2%|▏         | 1759/100000 [57:47<34:51:01,  1.28s/it]                                                          2%|▏         | 1759/100000 [57:47<34:51:01,  1.28s/it]  2%|▏         | 1760/100000 [57:48<34:00:09,  1.25s/it]                                                          2%|▏         | 1760/100000 [57:48<34:00:09,  1.25s/it]  2%|▏         | 1761/100000 [57:50<33:26:56,  1.23s/it]                                                          2%|▏         | 1761/100000 [57:50<33:26:56,  1.23s/it]  2%|▏         | 1762/100000 [57:51<32:49:43,  1.20s/it]                                                          2%|▏         | 1762/100000 [57:51<32:49:43,  1.20s/it]  2%|▏         | 1763/100000 [57:52<32:03:36,  1.17s/it]                                                          2%|▏         | 1763/100000 [57:52<32:03:36,  1.17s/it]  2%|▏         | 1764/100000 [57:53<31:49:06,  1.17s/it]                                                          2%|▏         | 1764/100000 [57:53<31:49:06,  1.17s/it]  2%|▏         | 1765/100000 [57:54<31:28:27,  1.15s/it]                                                          2%|▏         | 1765/100000 [57:54<31:28:27,  1.15s/it]  2%|▏         | 1766/100000 [57:55<30:50:23,  1.13s/it]                                                          2%|▏         | 1766/100000 [57:55<30:50:23,  1.13s/it]  2%|▏         | 1767/100000 [57:56<30:06:20,  1.10s/it]                                                          2%|▏         | 1767/100000 [57:56<30:06:20,  1.10s/it]  2%|▏         | 1768/100000 [57:57<29:55:28,  1.10s/it]                                                          2%|▏         | 1768/100000 [57:57<29:55:28,  1.10s/it]  2%|▏         | 1769/100000 [57:58<29:09:52,  1.07s/it]                                                          2%|▏         | 1769/100000 [57:58<29:09:52,  1.07s/it]  2%|▏         | 1770/100000 [57:59<28:58:36,  1.06s/it]                                                          2%|▏         | 1770/100000 [57:59<28:58:36,  1.06s/it]  2%|▏         | 1771/100000 [58:00<28:45:09,  1.05s/it]                                                          2%|▏         | 1771/100000 [58:00<28:45:09,  1.05s/it]  2%|▏         | 1772/100000 [58:01<28:26:10,  1.04s/it]                                                          2%|▏         | 1772/100000 [58:01<28:26:10,  1.04s/it]  2%|▏         | 1773/100000 [58:02<27:59:12,  1.03s/it]                                                          2%|▏         | 1773/100000 [58:02<27:59:12,  1.03s/it]  2%|▏         | 1774/100000 [58:03<27:41:21,  1.01s/it]                                                          2%|▏         | 1774/100000 [58:03<27:41:21,  1.01s/it]  2%|▏         | 1775/100000 [58:04<27:17:45,  1.00s/it]                                                          2%|▏         | 1775/100000 [58:04<27:17:45,  1.00s/it]  2%|▏         | 1776/100000 [58:05<26:42:51,  1.02it/s]                                                          2%|▏         | 1776/100000 [58:05<26:42:51,  1.02it/s]  2%|▏         | 1777/100000 [58:17<115:48:39,  4.24s/it]                                                           2%|▏         | 1777/100000 [58:17<115:48:39,  4.24s/it]  2%|▏         | 1778/100000 [58:23<128:50:26,  4.72s/it]                                                           2%|▏         | 1778/100000 [58:23<128:50:26,  4.72s/it]  2%|▏         | 1779/100000 [58:28<128:56:07,  4.73s/it]                                                           2%|▏         | 1779/100000 [58:28<128:56:07,  4.73s/it]  2%|▏         | 1780/100000 [58:32<124:05:53,  4.55s/it]                                                           2%|▏         | 1780/100000 [58:32<124:05:53,  4.55s/it]  2%|▏         | 1781/100000 [58:35<115:53:20,  4.25s/it]                                                           2%|▏         | 1781/100000 [58:35<115:53:20,  4.25s/it]  2%|▏         | 1782/100000 [58:39<108:04:18,  3.96s/it]                                                           2%|▏         | 1782/100000 [58:39<108:04:18,  3.96s/it]  2%|▏         | 1783/100000 [58:42<100:02:09,  3.67s/it]                                                           2%|▏         | 1783/100000 [58:42<100:02:09,  3.67s/it]  2%|▏         | 1784/100000 [58:44<93:03:14,  3.41s/it]                                                           2%|▏         | 1784/100000 [58:44<93:03:14,  3.41s/it]  2%|▏         | 1785/100000 [58:47<86:15:46,  3.16s/it]                                                          2%|▏         | 1785/100000 [58:47<86:15:46,  3.16s/it]  2%|▏         | 1786/100000 [58:49<79:58:45,  2.93s/it]                                                          2%|▏         | 1786/100000 [58:49<79:58:45,  2.93s/it]  2%|▏         | 1787/100000 [58:52<73:37:10,  2.70s/it]                                                          2%|▏         | 1787/100000 [58:52<73:37:10,  2.70s/it]  2%|▏         | 1788/100000 [58:54<68:37:58,  2.52s/it]                                                          2%|▏         | 1788/100000 [58:54<68:37:58,  2.52s/it]  2%|▏         | 1789/100000 [58:56<63:59:32,  2.35s/it]                                                          2%|▏         | 1789/100000 [58:56<63:59:32,  2.35s/it]  2%|▏         | 1790/100000 [58:57<60:05:20,  2.20s/it]                                                          2%|▏         | 1790/100000 [58:57<60:05:20,  2.20s/it]  2%|▏         | 1791/100000 [58:59<56:37:55,  2.08s/it]                                                          2%|▏         | 1791/100000 [58:59<56:37:55,  2.08s/it]  2%|▏         | 1792/100000 [59:01<53:30:51,  1.96s/it]                                                          2%|▏         | 1792/100000 [59:01<53:30:51,  1.96s/it]  2%|▏         | 1793/100000 [59:03<51:02:57,  1.87s/it]                                                          2%|▏         | 1793/100000 [59:03<51:02:57,  1.87s/it]  2%|▏         | 1794/100000 [59:04<48:56:24,  1.79s/it]                                                          2%|▏         | 1794/100000 [59:04<48:56:24,  1.79s/it]  2%|▏         | 1795/100000 [59:06<46:39:00,  1.71s/it]                                                          2%|▏         | 1795/100000 [59:06<46:39:00,  1.71s/it]  2%|▏         | 1796/100000 [59:07<44:58:32,  1.65s/it]                                                          2%|▏         | 1796/100000 [59:07<44:58:32,  1.65s/it]  2%|▏         | 1797/100000 [59:09<43:02:38,  1.58s/it]                                                        {'loss': 0.1426, 'grad_norm': 1.7125483751296997, 'learning_rate': 5.127e-06, 'epoch': 3.16}
+{'loss': 0.1363, 'grad_norm': 2.138498306274414, 'learning_rate': 5.130000000000001e-06, 'epoch': 3.16}
+{'loss': 0.1309, 'grad_norm': 2.0215048789978027, 'learning_rate': 5.133e-06, 'epoch': 3.16}
+{'loss': 0.1733, 'grad_norm': 3.2613959312438965, 'learning_rate': 5.136e-06, 'epoch': 3.16}
+{'loss': 0.1563, 'grad_norm': 2.8282909393310547, 'learning_rate': 5.139e-06, 'epoch': 3.17}
+{'loss': 0.1375, 'grad_norm': 1.946689486503601, 'learning_rate': 5.142e-06, 'epoch': 3.17}
+{'loss': 0.1319, 'grad_norm': 1.8160659074783325, 'learning_rate': 5.145000000000001e-06, 'epoch': 3.17}
+{'loss': 0.1782, 'grad_norm': 1.7862443923950195, 'learning_rate': 5.1480000000000005e-06, 'epoch': 3.17}
+{'loss': 0.1747, 'grad_norm': 2.174208879470825, 'learning_rate': 5.1509999999999995e-06, 'epoch': 3.17}
+{'loss': 0.1822, 'grad_norm': 2.127056121826172, 'learning_rate': 5.154e-06, 'epoch': 3.18}
+{'loss': 0.1204, 'grad_norm': 1.744895577430725, 'learning_rate': 5.157e-06, 'epoch': 3.18}
+{'loss': 0.1292, 'grad_norm': 1.6898212432861328, 'learning_rate': 5.16e-06, 'epoch': 3.18}
+{'loss': 0.1442, 'grad_norm': 1.7619431018829346, 'learning_rate': 5.163e-06, 'epoch': 3.18}
+{'loss': 0.1423, 'grad_norm': 1.6283921003341675, 'learning_rate': 5.166e-06, 'epoch': 3.18}
+{'loss': 0.1778, 'grad_norm': 3.300206184387207, 'learning_rate': 5.169e-06, 'epoch': 3.18}
+{'loss': 0.534, 'grad_norm': 1.6233912706375122, 'learning_rate': 5.172e-06, 'epoch': 3.19}
+{'loss': 0.589, 'grad_norm': 2.2645161151885986, 'learning_rate': 5.175e-06, 'epoch': 3.19}
+{'loss': 0.4501, 'grad_norm': 4.905712127685547, 'learning_rate': 5.178e-06, 'epoch': 3.19}
+{'loss': 0.4044, 'grad_norm': 2.5921883583068848, 'learning_rate': 5.181e-06, 'epoch': 3.19}
+{'loss': 0.347, 'grad_norm': 1.6506649255752563, 'learning_rate': 5.184000000000001e-06, 'epoch': 3.19}
+{'loss': 0.4327, 'grad_norm': 1.9817479848861694, 'learning_rate': 5.1870000000000005e-06, 'epoch': 3.2}
+{'loss': 0.3587, 'grad_norm': 2.370718240737915, 'learning_rate': 5.1899999999999994e-06, 'epoch': 3.2}
+{'loss': 0.2848, 'grad_norm': 1.4260053634643555, 'learning_rate': 5.193e-06, 'epoch': 3.2}
+{'loss': 0.2891, 'grad_norm': 1.3881109952926636, 'learning_rate': 5.196e-06, 'epoch': 3.2}
+{'loss': 0.3453, 'grad_norm': 1.8376153707504272, 'learning_rate': 5.1990000000000005e-06, 'epoch': 3.2}
+{'loss': 0.4393, 'grad_norm': 2.22748064994812, 'learning_rate': 5.202e-06, 'epoch': 3.2}
+{'loss': 0.2238, 'grad_norm': 1.5622321367263794, 'learning_rate': 5.205e-06, 'epoch': 3.21}
+{'loss': 0.2132, 'grad_norm': 2.117229461669922, 'learning_rate': 5.208e-06, 'epoch': 3.21}
+{'loss': 0.1495, 'grad_norm': 5.6894073486328125, 'learning_rate': 5.211e-06, 'epoch': 3.21}
+{'loss': 0.1761, 'grad_norm': 1.2661709785461426, 'learning_rate': 5.214e-06, 'epoch': 3.21}
+{'loss': 0.1238, 'grad_norm': 1.3423945903778076, 'learning_rate': 5.217e-06, 'epoch': 3.21}
+{'loss': 0.1806, 'grad_norm': 1.421120047569275, 'learning_rate': 5.22e-06, 'epoch': 3.22}
+{'loss': 0.1248, 'grad_norm': 1.6990739107131958, 'learning_rate': 5.223000000000001e-06, 'epoch': 3.22}
+{'loss': 0.1372, 'grad_norm': 2.5295536518096924, 'learning_rate': 5.226e-06, 'epoch': 3.22}
+{'loss': 0.145, 'grad_norm': 1.3577442169189453, 'learning_rate': 5.229e-06, 'epoch': 3.22}
+{'loss': 0.0898, 'grad_norm': 1.1989928483963013, 'learning_rate': 5.232e-06, 'epoch': 3.22}
+{'loss': 0.164, 'grad_norm': 2.8232219219207764, 'learning_rate': 5.235e-06, 'epoch': 3.23}
+{'loss': 0.1451, 'grad_norm': 2.043588876724243, 'learning_rate': 5.2380000000000005e-06, 'epoch': 3.23}
+{'loss': 0.1178, 'grad_norm': 2.160836696624756, 'learning_rate': 5.241e-06, 'epoch': 3.23}
+{'loss': 0.1553, 'grad_norm': 1.4974416494369507, 'learning_rate': 5.244e-06, 'epoch': 3.23}
+{'loss': 0.172, 'grad_norm': 2.6034817695617676, 'learning_rate': 5.247e-06, 'epoch': 3.23}
+{'loss': 0.138, 'grad_norm': 1.3825095891952515, 'learning_rate': 5.25e-06, 'epoch': 3.23}
+{'loss': 0.1471, 'grad_norm': 1.5406382083892822, 'learning_rate': 5.253e-06, 'epoch': 3.24}
+{'loss': 0.1445, 'grad_norm': 2.92680287361145, 'learning_rate': 5.256e-06, 'epoch': 3.24}
+{'loss': 0.1616, 'grad_norm': 4.907720565795898, 'learning_rate': 5.259000000000001e-06, 'epoch': 3.24}
+{'loss': 0.1392, 'grad_norm': 1.7645773887634277, 'learning_rate': 5.262e-06, 'epoch': 3.24}
+{'loss': 0.1177, 'grad_norm': 2.366370677947998, 'learning_rate': 5.2649999999999996e-06, 'epoch': 3.24}
+{'loss': 0.1436, 'grad_norm': 3.015122890472412, 'learning_rate': 5.268e-06, 'epoch': 3.25}
+{'loss': 0.1338, 'grad_norm': 1.498371958732605, 'learning_rate': 5.271e-06, 'epoch': 3.25}
+{'loss': 0.1333, 'grad_norm': 1.8410630226135254, 'learning_rate': 5.274000000000001e-06, 'epoch': 3.25}
+{'loss': 0.1199, 'grad_norm': 1.737515926361084, 'learning_rate': 5.2770000000000005e-06, 'epoch': 3.25}
+{'loss': 0.1505, 'grad_norm': 1.9851926565170288, 'learning_rate': 5.279999999999999e-06, 'epoch': 3.25}
+{'loss': 0.1445, 'grad_norm': 5.256008148193359, 'learning_rate': 5.283e-06, 'epoch': 3.25}
+{'loss': 0.1317, 'grad_norm': 1.6933232545852661, 'learning_rate': 5.286e-06, 'epoch': 3.26}
+{'loss': 0.1561, 'grad_norm': 2.7634260654449463, 'learning_rate': 5.2890000000000005e-06, 'epoch': 3.26}
+{'loss': 0.1626, 'grad_norm': 2.7004668712615967, 'learning_rate': 5.292e-06, 'epoch': 3.26}
+{'loss': 0.1528, 'grad_norm': 1.7570018768310547, 'learning_rate': 5.295e-06, 'epoch': 3.26}
+{'loss': 0.11, 'grad_norm': 2.9642531871795654, 'learning_rate': 5.298e-06, 'epoch': 3.26}
+{'loss': 0.1467, 'grad_norm': 2.9844934940338135, 'learning_rate': 5.301e-06, 'epoch': 3.27}
+{'loss': 0.1505, 'grad_norm': 1.9152250289916992, 'learning_rate': 5.304e-06, 'epoch': 3.27}
+{'loss': 0.1601, 'grad_norm': 2.3223955631256104, 'learning_rate': 5.307e-06, 'epoch': 3.27}
+{'loss': 0.1601, 'grad_norm': 1.631397008895874, 'learning_rate': 5.31e-06, 'epoch': 3.27}
+{'loss': 0.1995, 'grad_norm': 2.114636182785034, 'learning_rate': 5.313000000000001e-06, 'epoch': 3.27}
+{'loss': 0.145, 'grad_norm': 1.5473500490188599, 'learning_rate': 5.3160000000000004e-06, 'epoch': 3.28}
+{'loss': 0.2343, 'grad_norm': 2.362990379333496, 'learning_rate': 5.319e-06, 'epoch': 3.28}
+{'loss': 0.5929, 'grad_norm': 3.1484501361846924, 'learning_rate': 5.322e-06, 'epoch': 3.28}
+{'loss': 0.666, 'grad_norm': 5.884219646453857, 'learning_rate': 5.325e-06, 'epoch': 3.28}
+{'loss': 0.4397, 'grad_norm': 1.5649977922439575, 'learning_rate': 5.3280000000000005e-06, 'epoch': 3.28}
+{'loss': 0.4573, 'grad_norm': 2.324662446975708, 'learning_rate': 5.331e-06, 'epoch': 3.28}
+{'loss': 0.3962, 'grad_norm': 1.8567326068878174, 'learning_rate': 5.334000000000001e-06, 'epoch': 3.29}
+{'loss': 0.3903, 'grad_norm': 2.1249706745147705, 'learning_rate': 5.337e-06, 'epoch': 3.29}
+{'loss': 0.3403, 'grad_norm': 2.6666476726531982, 'learning_rate': 5.34e-06, 'epoch': 3.29}
+{'loss': 0.3315, 'grad_norm': 1.413912296295166, 'learning_rate': 5.343e-06, 'epoch': 3.29}
+{'loss': 0.3878, 'grad_norm': 2.263784885406494, 'learning_rate': 5.346e-06, 'epoch': 3.29}
+{'loss': 0.3375, 'grad_norm': 1.5043153762817383, 'learning_rate': 5.349e-06, 'epoch': 3.3}
+{'loss': 0.2909, 'grad_norm': 1.6676349639892578, 'learning_rate': 5.352000000000001e-06, 'epoch': 3.3}
+{'loss': 0.3257, 'grad_norm': 2.5972864627838135, 'learning_rate': 5.3549999999999996e-06, 'epoch': 3.3}
+{'loss': 0.2643, 'grad_norm': 1.6890889406204224, 'learning_rate': 5.358e-06, 'epoch': 3.3}
+{'loss': 0.2016, 'grad_norm': 1.1364909410476685, 'learning_rate': 5.361e-06, 'epoch': 3.3}
+{'loss': 0.2205, 'grad_norm': 1.5025843381881714, 'learning_rate': 5.364e-06, 'epoch': 3.3}
+{'loss': 0.2018, 'grad_norm': 1.2549930810928345, 'learning_rate': 5.3670000000000005e-06, 'epoch': 3.31}
+{'loss': 0.1963, 'grad_norm': 2.2258710861206055, 'learning_rate': 5.37e-06, 'epoch': 3.31}
+{'loss': 0.1456, 'grad_norm': 1.2186377048492432, 'learning_rate': 5.373e-06, 'epoch': 3.31}
+{'loss': 0.1224, 'grad_norm': 1.2291967868804932, 'learning_rate': 5.376e-06, 'epoch': 3.31}
+{'loss': 0.0991, 'grad_norm': 0.9632380604743958, 'learning_rate': 5.379e-06, 'epoch': 3.31}
+  2%|▏         | 1797/100000 [59:09<43:02:38,  1.58s/it]  2%|▏         | 1798/100000 [59:10<41:56:51,  1.54s/it]                                                          2%|▏         | 1798/100000 [59:10<41:56:51,  1.54s/it]  2%|▏         | 1799/100000 [59:12<40:55:03,  1.50s/it]                                                          2%|▏         | 1799/100000 [59:12<40:55:03,  1.50s/it]  2%|▏         | 1800/100000 [59:13<39:32:56,  1.45s/it]                                                          2%|▏         | 1800/100000 [59:13<39:32:56,  1.45s/it]  2%|▏         | 1801/100000 [59:14<39:09:45,  1.44s/it]                                                          2%|▏         | 1801/100000 [59:14<39:09:45,  1.44s/it]  2%|▏         | 1802/100000 [59:16<38:29:25,  1.41s/it]                                                          2%|▏         | 1802/100000 [59:16<38:29:25,  1.41s/it]  2%|▏         | 1803/100000 [59:17<37:39:35,  1.38s/it]                                                          2%|▏         | 1803/100000 [59:17<37:39:35,  1.38s/it]  2%|▏         | 1804/100000 [59:18<37:08:10,  1.36s/it]                                                          2%|▏         | 1804/100000 [59:18<37:08:10,  1.36s/it]  2%|▏         | 1805/100000 [59:20<36:23:49,  1.33s/it]                                                          2%|▏         | 1805/100000 [59:20<36:23:49,  1.33s/it]  2%|▏         | 1806/100000 [59:21<35:48:33,  1.31s/it]                                                          2%|▏         | 1806/100000 [59:21<35:48:33,  1.31s/it]  2%|▏         | 1807/100000 [59:22<35:33:19,  1.30s/it]                                                          2%|▏         | 1807/100000 [59:22<35:33:19,  1.30s/it]  2%|▏         | 1808/100000 [59:23<34:35:05,  1.27s/it]                                                          2%|▏         | 1808/100000 [59:23<34:35:05,  1.27s/it]  2%|▏         | 1809/100000 [59:24<34:13:27,  1.25s/it]                                                          2%|▏         | 1809/100000 [59:24<34:13:27,  1.25s/it]  2%|▏         | 1810/100000 [59:26<34:02:22,  1.25s/it]                                                          2%|▏         | 1810/100000 [59:26<34:02:22,  1.25s/it]  2%|▏         | 1811/100000 [59:27<33:27:07,  1.23s/it]                                                          2%|▏         | 1811/100000 [59:27<33:27:07,  1.23s/it]  2%|▏         | 1812/100000 [59:28<32:51:38,  1.20s/it]                                                          2%|▏         | 1812/100000 [59:28<32:51:38,  1.20s/it]  2%|▏         | 1813/100000 [59:29<32:17:35,  1.18s/it]                                                          2%|▏         | 1813/100000 [59:29<32:17:35,  1.18s/it]  2%|▏         | 1814/100000 [59:30<31:43:15,  1.16s/it]                                                          2%|▏         | 1814/100000 [59:30<31:43:15,  1.16s/it]  2%|▏         | 1815/100000 [59:31<31:25:49,  1.15s/it]                                                          2%|▏         | 1815/100000 [59:31<31:25:49,  1.15s/it]  2%|▏         | 1816/100000 [59:32<30:46:01,  1.13s/it]                                                          2%|▏         | 1816/100000 [59:32<30:46:01,  1.13s/it]  2%|▏         | 1817/100000 [59:34<30:12:48,  1.11s/it]                                                          2%|▏         | 1817/100000 [59:34<30:12:48,  1.11s/it]  2%|▏         | 1818/100000 [59:35<29:51:24,  1.09s/it]                                                          2%|▏         | 1818/100000 [59:35<29:51:24,  1.09s/it]  2%|▏         | 1819/100000 [59:36<29:17:39,  1.07s/it]                                                          2%|▏         | 1819/100000 [59:36<29:17:39,  1.07s/it]  2%|▏         | 1820/100000 [59:37<28:55:16,  1.06s/it]                                                          2%|▏         | 1820/100000 [59:37<28:55:16,  1.06s/it]  2%|▏         | 1821/100000 [59:38<27:57:20,  1.03s/it]                                                          2%|▏         | 1821/100000 [59:38<27:57:20,  1.03s/it]  2%|▏         | 1822/100000 [59:39<27:10:38,  1.00it/s]                                                          2%|▏         | 1822/100000 [59:39<27:10:38,  1.00it/s]  2%|▏         | 1823/100000 [59:39<26:43:08,  1.02it/s]                                                          2%|▏         | 1823/100000 [59:39<26:43:08,  1.02it/s]  2%|▏         | 1824/100000 [59:40<26:15:38,  1.04it/s]                                                          2%|▏         | 1824/100000 [59:40<26:15:38,  1.04it/s]  2%|▏         | 1825/100000 [59:41<25:32:01,  1.07it/s]                                                          2%|▏         | 1825/100000 [59:41<25:32:01,  1.07it/s]  2%|▏         | 1826/100000 [59:42<25:24:32,  1.07it/s]                                                          2%|▏         | 1826/100000 [59:42<25:24:32,  1.07it/s]  2%|▏         | 1827/100000 [59:54<117:22:07,  4.30s/it]                                                           2%|▏         | 1827/100000 [59:54<117:22:07,  4.30s/it]  2%|▏         | 1828/100000 [1:00:00<130:11:54,  4.77s/it]                                                             2%|▏         | 1828/100000 [1:00:00<130:11:54,  4.77s/it]  2%|▏         | 1829/100000 [1:00:05<128:29:32,  4.71s/it]                                                             2%|▏         | 1829/100000 [1:00:05<128:29:32,  4.71s/it]  2%|▏         | 1830/100000 [1:00:09<122:09:21,  4.48s/it]                                                             2%|▏         | 1830/100000 [1:00:09<122:09:21,  4.48s/it]  2%|▏         | 1831/100000 [1:00:12<114:55:54,  4.21s/it]                                                             2%|▏         | 1831/100000 [1:00:12<114:55:54,  4.21s/it]  2%|▏         | 1832/100000 [1:00:15<105:36:37,  3.87s/it]                                                             2%|▏         | 1832/100000 [1:00:15<105:36:37,  3.87s/it]  2%|▏         | 1833/100000 [1:00:18<98:18:36,  3.61s/it]                                                             2%|▏         | 1833/100000 [1:00:18<98:18:36,  3.61s/it]  2%|▏         | 1834/100000 [1:00:21<91:29:17,  3.36s/it]                                                            2%|▏         | 1834/100000 [1:00:21<91:29:17,  3.36s/it]  2%|▏         | 1835/100000 [1:00:24<83:48:21,  3.07s/it]                                                            2%|▏         | 1835/100000 [1:00:24<83:48:21,  3.07s/it]  2%|▏         | 1836/100000 [1:00:26<76:57:02,  2.82s/it]                                                            2%|▏         | 1836/100000 [1:00:26<76:57:02,  2.82s/it]  2%|▏         | 1837/100000 [1:00:28<71:16:19,  2.61s/it]                                                            2%|▏         | 1837/100000 [1:00:28<71:16:19,  2.61s/it]  2%|▏         | 1838/100000 [1:00:30<66:09:43,  2.43s/it]                                                            2%|▏         | 1838/100000 [1:00:30<66:09:43,  2.43s/it]  2%|▏         | 1839/100000 [1:00:32<62:06:49,  2.28s/it]                                                            2%|▏         | 1839/100000 [1:00:32<62:06:49,  2.28s/it]  2%|▏         | 1840/100000 [1:00:34<57:38:25,  2.11s/it]                                                            2%|▏         | 1840/100000 [1:00:34<57:38:25,  2.11s/it]  2%|▏         | 1841/100000 [1:00:35<54:25:29,  2.00s/it]                                                            2%|▏         | 1841/100000 [1:00:35<54:25:29,  2.00s/it]  2%|▏         | 1842/100000 [1:00:37<51:49:05,  1.90s/it]                                                            2%|▏         | 1842/100000 [1:00:37<51:49:05,  1.90s/it]  2%|▏         | 1843/100000 [1:00:39<49:36:43,  1.82s/it]                                                            2%|▏         | 1843/100000 [1:00:39<49:36:43,  1.82s/it]  2%|▏         | 1844/100000 [1:00:40<47:40:58,  1.75s/it]                                                            2%|▏         | 1844/100000 [1:00:40<47:40:58,  1.75s/it]  2%|▏         | 1845/100000 [1:00:42<45:48:01,  1.68s/it]                                                            2%|▏         | 1845/100000 [1:00:42<45:48:01,  1.68s/it]  2%|▏         | 1846/100000 [1:00:43<44:15:48,  1.62s/it]                                                            2%|▏         | 1846/100000 [1:00:43<44:15:48,  1.62s/it]  2%|▏         | 1847/100000 [1:00:45<42:59:04,  1.58s/it]                                                            2%|▏         | 1847/100000 [1:00:45<42:59:04,  1.58s/it]  2%|▏         | 1848/100000 [1:00:46<41:53:47,  1.54s/it]                                                            2%|▏         | 1848/100000 [1:00:46<41:53:47,  1.54s/it]  2%|▏         | 1849/100000 [1:00:48<41:00:06,  1.50s/it]                                                            2%|▏         | 1849/100000 [1:00:48<41:00:06,  1.50s/it]  2%|▏         | 1850/100000 [1:00:49<39:53:18,  1.46s/it]                                                            2%|▏         | 1850/100000 [1:00:49<39:53:18,  1.46s/it]  2%|▏         | 1851/100000 [1:00:50<39:14:02,  1.44s/it]                                                            2%|▏         | 1851/100000 [1:00:50<39:14:02,  1.44s/it]  2%|▏         | 1852/100000 [1:00:52<38:34:59,  1.42s/it]                                                            2%|▏         | 1852/100000 [1:00:52<38:34:59,  1.42s/it]  2%|▏         | 1853/100000 [1:00:53<37:59:01,  1.39s/it]                                                            2%|▏         | 1853/100000 [1:00:53<37:59:01,  1.39s/it]  2%|▏         | 1854/100000 [1:00:54<37:24:46,  1.37s/it]                                                            2%|▏         | 1854/100000 [1:00:54<37:24:46,  1.37s/it]  2%|▏         | 1855/100000 [1:00:56<36:54:29,  1.35s/it]                                                            2%|▏         | 1855/100000 [1:00:56<36:54:29,  1.35s/it]  2%|▏         | 1856/100000 [1:00:57<36:24:22,  1.34s/it]                                                            2%|▏         | 1856/100000 [1:00:57<36:24:22,  1.34s/it]  2%|▏         | 1857/100000 [1:00:58<35:50:27,  1.31s/it]                                                            2%|▏         | 1857/100000 [1:00:58<35:50:27,  1.31s/it]  2%|▏         | 1858/100000 [1:00:59<35:14:44,  1.29s/it]                                                            2%|▏         | 1858/100000 [1:00:59<35:14:44,  1.29s/it]  2%|▏         | 1859/100000 [1:01:01<34:43:56,  1.27s/it]                                                            2%|▏         | 1859/100000 [1:01:01<34:43:56,  1.27s/it]  2%|▏         | 1860/100000 [1:01:02<33:32:31,  1.23s/it]                                                            2%|▏         | 1860/100000 [1:01:02<33:32:31,  1.23s/it]  2%|▏         | 1861/100000 [1:01:03<33:01:44,  1.21s/it]                                                            2%|▏         | 1861/100000 [1:01:03<33:01:44,  1.21s/it]  2%|▏         | 1862/100000 [1:01:04<32:42:18,  1.20s/it]                                                            2%|▏         | 1862/100000 [1:01:04<32:42:18,  1.20s/it]  2%|▏         | 1863/100000 [1:01:05<32:21:40,  1.19s/it]                                                            2%|▏         | 1863/100000 [1:01:05<32:21:40,  1.19s/it]  2%|▏         | 1864/100000 [1:01:06<31:50:27,  1.17s/it]                                                            2%|▏         | 1864/100000 [1:01:06<31:50:27,  1.17s/it]  2%|▏         | 1865/100000 [1:01:08<31:20:33,  1.15s/it]                                                            2%|▏         | 1865/100000 [1:01:08<31:20:33,  1.15s/it]  2%|▏         | 1866/100000 [1:01:09<30:53:56,  1.13s/it]                                                            2%|▏         | 1866/100000 [1:01:09<30:53:56,  1.13s/it]  2%|▏         | 1867/100000 [1:01:10<30:28:06,  1.12s/it]                                                            2%|▏         | 1867/100000 [1:01:10<30:28:06,  1.12s/it]  2%|▏         | 1868/100000 [1:01:11<30:09:55,  1.11s/it]                                                            2%|▏         | 1868/100000 [1:01:11<30:09:55,  1.11s/it]  2%|▏         | 1869/100000 [1:01:12<29:16:41,  1.07s/it]                                                            2%|▏         | 1869/100000 [1:01:12<29:16:41,  1.07s/it]  2%|▏         | 1870/100000 [1:01:13<28:42:43,  1.05s/it]                                                            2%|▏         | 1870/100000 [1:01:13<28:42:43,  1.05s/it]  2%|▏         | 1871/100000 [1:01:14<28:23:04,  1.04s/it]                                                            2%|▏         | 1871/100000 [1:01:14<28:23:04,  1.04s/it]  2%|▏         | 1872/100000 [1:01:15<27:44:18,  1.02s/it]                                                            2%|▏         | 1872/100000 [1:01:15<27:44:18,  1.02s/it]  2%|▏         | 1873/100000 [1:01:16<27:09:08,  1.00it/s]                                                            2%|▏         | 1873/100000 [1:01:16<27:09:08,  1.00it/s]  2%|▏         | 1874/100000 [1:01:17<26:50:26,  1.02it/s]                                                            2%|▏         | 1874/100000 [1:01:17<26:50:26,  1.02it/s]  2%|▏         | 1875/100000 [1:01:18<26:31:34,  1.03it/s]                                                            2%|▏         | 1875/100000 [1:01:18<26:31:34,  1.03it/s]  2%|▏         | 1876/100000 [1:01:19<26:06:23,  1.04it/s]                                                            2%|▏         | 1876/100000 [1:01:19<26:06:23,  1.04it/s]  2%|▏         | 1877/100000 [1:01:29<107:44:57,  3.95s/it]                                                             2%|▏         | 1877/100000 [1:01:29<107:44:57,  3.95s/it]  2%|▏         | 1878/100000 [1:01:35<122:39:40,  4.50s/it]                                                             2%|▏         | 1878/100000 [1:01:35<122:39:40,  4.50s/it]  2%|▏         | 1879/100000 [1:01:40<123:21:24,  4.53s/it]                                                             2%|▏         | 1879/100000 [1:01:40<123:21:24,  4.53s/it]  2%|▏         | 1880/100000 [1:01:44<119:42:44,  4.39s/it]                                                             2%|▏         | 1880/100000 [1:01:44<119:42:44,  4.39s/it]  2%|▏         | 1881/100000 [1:01:48<113:15:09,  4.16s/it]                                                             2%|▏         | 1881/100000 [1:01:48<113:15:09,  4.16s/it]  2%|▏         | 1882/100000 [1:01:51<106:22:41,  3.90s/it]                                                           {'loss': 0.095, 'grad_norm': 1.194434404373169, 'learning_rate': 5.382e-06, 'epoch': 3.32}
+{'loss': 0.1738, 'grad_norm': 1.77876877784729, 'learning_rate': 5.385e-06, 'epoch': 3.32}
+{'loss': 0.105, 'grad_norm': 2.20609974861145, 'learning_rate': 5.388000000000001e-06, 'epoch': 3.32}
+{'loss': 0.1241, 'grad_norm': 1.5217195749282837, 'learning_rate': 5.391e-06, 'epoch': 3.32}
+{'loss': 0.1365, 'grad_norm': 1.194684386253357, 'learning_rate': 5.3939999999999995e-06, 'epoch': 3.32}
+{'loss': 0.1279, 'grad_norm': 1.244110345840454, 'learning_rate': 5.397e-06, 'epoch': 3.33}
+{'loss': 0.135, 'grad_norm': 2.9739558696746826, 'learning_rate': 5.4e-06, 'epoch': 3.33}
+{'loss': 0.1005, 'grad_norm': 1.8225957155227661, 'learning_rate': 5.403000000000001e-06, 'epoch': 3.33}
+{'loss': 0.1708, 'grad_norm': 1.5515562295913696, 'learning_rate': 5.406e-06, 'epoch': 3.33}
+{'loss': 0.1091, 'grad_norm': 1.735154151916504, 'learning_rate': 5.408999999999999e-06, 'epoch': 3.33}
+{'loss': 0.1558, 'grad_norm': 1.587384819984436, 'learning_rate': 5.412e-06, 'epoch': 3.33}
+{'loss': 0.1064, 'grad_norm': 1.638647198677063, 'learning_rate': 5.415e-06, 'epoch': 3.34}
+{'loss': 0.1065, 'grad_norm': 1.2404173612594604, 'learning_rate': 5.4180000000000005e-06, 'epoch': 3.34}
+{'loss': 0.1334, 'grad_norm': 3.201526165008545, 'learning_rate': 5.421e-06, 'epoch': 3.34}
+{'loss': 0.134, 'grad_norm': 2.358724355697632, 'learning_rate': 5.424e-06, 'epoch': 3.34}
+{'loss': 0.0946, 'grad_norm': 1.3843193054199219, 'learning_rate': 5.427e-06, 'epoch': 3.34}
+{'loss': 0.1552, 'grad_norm': 2.5044610500335693, 'learning_rate': 5.43e-06, 'epoch': 3.35}
+{'loss': 0.154, 'grad_norm': 1.6049011945724487, 'learning_rate': 5.433e-06, 'epoch': 3.35}
+{'loss': 0.1191, 'grad_norm': 1.7652519941329956, 'learning_rate': 5.436e-06, 'epoch': 3.35}
+{'loss': 0.1366, 'grad_norm': 1.646363615989685, 'learning_rate': 5.439e-06, 'epoch': 3.35}
+{'loss': 0.1325, 'grad_norm': 2.438486337661743, 'learning_rate': 5.442000000000001e-06, 'epoch': 3.35}
+{'loss': 0.1316, 'grad_norm': 1.6104596853256226, 'learning_rate': 5.445e-06, 'epoch': 3.35}
+{'loss': 0.1435, 'grad_norm': 1.6542346477508545, 'learning_rate': 5.448e-06, 'epoch': 3.36}
+{'loss': 0.1408, 'grad_norm': 1.6384179592132568, 'learning_rate': 5.451e-06, 'epoch': 3.36}
+{'loss': 0.1251, 'grad_norm': 2.035884380340576, 'learning_rate': 5.454e-06, 'epoch': 3.36}
+{'loss': 0.1318, 'grad_norm': 2.1199872493743896, 'learning_rate': 5.4570000000000004e-06, 'epoch': 3.36}
+{'loss': 0.1293, 'grad_norm': 2.0500221252441406, 'learning_rate': 5.46e-06, 'epoch': 3.36}
+{'loss': 0.2024, 'grad_norm': 1.677475094795227, 'learning_rate': 5.463000000000001e-06, 'epoch': 3.37}
+{'loss': 0.1779, 'grad_norm': 1.9693593978881836, 'learning_rate': 5.466e-06, 'epoch': 3.37}
+{'loss': 0.1339, 'grad_norm': 1.5180773735046387, 'learning_rate': 5.469e-06, 'epoch': 3.37}
+{'loss': 0.589, 'grad_norm': 2.3797709941864014, 'learning_rate': 5.472e-06, 'epoch': 3.37}
+{'loss': 0.5639, 'grad_norm': 2.1648378372192383, 'learning_rate': 5.475e-06, 'epoch': 3.37}
+{'loss': 0.4686, 'grad_norm': 1.9987053871154785, 'learning_rate': 5.478000000000001e-06, 'epoch': 3.37}
+{'loss': 0.4747, 'grad_norm': 2.010835886001587, 'learning_rate': 5.4810000000000005e-06, 'epoch': 3.38}
+{'loss': 0.3482, 'grad_norm': 1.4874591827392578, 'learning_rate': 5.4839999999999995e-06, 'epoch': 3.38}
+{'loss': 0.3022, 'grad_norm': 1.4924468994140625, 'learning_rate': 5.487e-06, 'epoch': 3.38}
+{'loss': 0.3013, 'grad_norm': 1.5955424308776855, 'learning_rate': 5.49e-06, 'epoch': 3.38}
+{'loss': 0.4244, 'grad_norm': 1.8055914640426636, 'learning_rate': 5.493000000000001e-06, 'epoch': 3.38}
+{'loss': 0.3016, 'grad_norm': 1.6258183717727661, 'learning_rate': 5.496e-06, 'epoch': 3.39}
+{'loss': 0.3108, 'grad_norm': 1.7717417478561401, 'learning_rate': 5.499e-06, 'epoch': 3.39}
+{'loss': 0.2754, 'grad_norm': 2.136167049407959, 'learning_rate': 5.502e-06, 'epoch': 3.39}
+{'loss': 0.193, 'grad_norm': 1.1560344696044922, 'learning_rate': 5.505e-06, 'epoch': 3.39}
+{'loss': 0.1924, 'grad_norm': 1.2215458154678345, 'learning_rate': 5.5080000000000005e-06, 'epoch': 3.39}
+{'loss': 0.1704, 'grad_norm': 1.3697618246078491, 'learning_rate': 5.511e-06, 'epoch': 3.4}
+{'loss': 0.1752, 'grad_norm': 1.5075842142105103, 'learning_rate': 5.514e-06, 'epoch': 3.4}
+{'loss': 0.1683, 'grad_norm': 1.186893343925476, 'learning_rate': 5.517000000000001e-06, 'epoch': 3.4}
+{'loss': 0.1104, 'grad_norm': 1.2870360612869263, 'learning_rate': 5.52e-06, 'epoch': 3.4}
+{'loss': 0.1625, 'grad_norm': 1.3535423278808594, 'learning_rate': 5.523e-06, 'epoch': 3.4}
+{'loss': 0.1042, 'grad_norm': 0.9633287191390991, 'learning_rate': 5.526e-06, 'epoch': 3.4}
+{'loss': 0.1994, 'grad_norm': 1.3369865417480469, 'learning_rate': 5.529e-06, 'epoch': 3.41}
+{'loss': 0.1389, 'grad_norm': 1.342253565788269, 'learning_rate': 5.5320000000000006e-06, 'epoch': 3.41}
+{'loss': 0.1297, 'grad_norm': 2.2483065128326416, 'learning_rate': 5.535e-06, 'epoch': 3.41}
+{'loss': 0.1155, 'grad_norm': 1.504280686378479, 'learning_rate': 5.537999999999999e-06, 'epoch': 3.41}
+{'loss': 0.1765, 'grad_norm': 1.8840082883834839, 'learning_rate': 5.541e-06, 'epoch': 3.41}
+{'loss': 0.1434, 'grad_norm': 1.5378448963165283, 'learning_rate': 5.544e-06, 'epoch': 3.42}
+{'loss': 0.1191, 'grad_norm': 1.1429051160812378, 'learning_rate': 5.547e-06, 'epoch': 3.42}
+{'loss': 0.089, 'grad_norm': 1.4453113079071045, 'learning_rate': 5.55e-06, 'epoch': 3.42}
+{'loss': 0.1171, 'grad_norm': 1.3558111190795898, 'learning_rate': 5.553e-06, 'epoch': 3.42}
+{'loss': 0.1268, 'grad_norm': 3.135983943939209, 'learning_rate': 5.556e-06, 'epoch': 3.42}
+{'loss': 0.119, 'grad_norm': 1.6183189153671265, 'learning_rate': 5.559e-06, 'epoch': 3.42}
+{'loss': 0.1557, 'grad_norm': 1.4396922588348389, 'learning_rate': 5.562e-06, 'epoch': 3.43}
+{'loss': 0.0944, 'grad_norm': 1.64681077003479, 'learning_rate': 5.565e-06, 'epoch': 3.43}
+{'loss': 0.1203, 'grad_norm': 1.7854353189468384, 'learning_rate': 5.568e-06, 'epoch': 3.43}
+{'loss': 0.0962, 'grad_norm': 1.3215970993041992, 'learning_rate': 5.5710000000000005e-06, 'epoch': 3.43}
+{'loss': 0.1415, 'grad_norm': 1.485531210899353, 'learning_rate': 5.574e-06, 'epoch': 3.43}
+{'loss': 0.1219, 'grad_norm': 1.915353775024414, 'learning_rate': 5.577e-06, 'epoch': 3.44}
+{'loss': 0.1146, 'grad_norm': 5.033260345458984, 'learning_rate': 5.58e-06, 'epoch': 3.44}
+{'loss': 0.1072, 'grad_norm': 1.7047919034957886, 'learning_rate': 5.583e-06, 'epoch': 3.44}
+{'loss': 0.1166, 'grad_norm': 1.481224536895752, 'learning_rate': 5.586e-06, 'epoch': 3.44}
+{'loss': 0.1386, 'grad_norm': 1.5594127178192139, 'learning_rate': 5.589e-06, 'epoch': 3.44}
+{'loss': 0.1145, 'grad_norm': 1.7530744075775146, 'learning_rate': 5.592000000000001e-06, 'epoch': 3.45}
+{'loss': 0.1197, 'grad_norm': 1.3681082725524902, 'learning_rate': 5.595e-06, 'epoch': 3.45}
+{'loss': 0.1206, 'grad_norm': 1.802425503730774, 'learning_rate': 5.598e-06, 'epoch': 3.45}
+{'loss': 0.1961, 'grad_norm': 1.789586067199707, 'learning_rate': 5.601e-06, 'epoch': 3.45}
+{'loss': 0.1543, 'grad_norm': 1.5348275899887085, 'learning_rate': 5.604e-06, 'epoch': 3.45}
+{'loss': 0.1006, 'grad_norm': 1.5526305437088013, 'learning_rate': 5.607000000000001e-06, 'epoch': 3.45}
+{'loss': 0.1398, 'grad_norm': 4.2244415283203125, 'learning_rate': 5.6100000000000005e-06, 'epoch': 3.46}
+{'loss': 0.1257, 'grad_norm': 2.305570602416992, 'learning_rate': 5.6129999999999995e-06, 'epoch': 3.46}
+{'loss': 0.1504, 'grad_norm': 1.7376497983932495, 'learning_rate': 5.616e-06, 'epoch': 3.46}
+{'loss': 0.2539, 'grad_norm': 3.7213504314422607, 'learning_rate': 5.619e-06, 'epoch': 3.46}
+{'loss': 0.6193, 'grad_norm': 3.0193634033203125, 'learning_rate': 5.6220000000000006e-06, 'epoch': 3.46}
+{'loss': 0.3857, 'grad_norm': 2.032485008239746, 'learning_rate': 5.625e-06, 'epoch': 3.47}
+{'loss': 0.455, 'grad_norm': 1.407131314277649, 'learning_rate': 5.628e-06, 'epoch': 3.47}
+{'loss': 0.4029, 'grad_norm': 1.7298333644866943, 'learning_rate': 5.631e-06, 'epoch': 3.47}
+{'loss': 0.438, 'grad_norm': 1.9133267402648926, 'learning_rate': 5.634e-06, 'epoch': 3.47}
+  2%|▏         | 1882/100000 [1:01:51<106:22:41,  3.90s/it]  2%|▏         | 1883/100000 [1:01:54<98:37:42,  3.62s/it]                                                             2%|▏         | 1883/100000 [1:01:54<98:37:42,  3.62s/it]  2%|▏         | 1884/100000 [1:01:56<90:41:39,  3.33s/it]                                                            2%|▏         | 1884/100000 [1:01:56<90:41:39,  3.33s/it]  2%|▏         | 1885/100000 [1:01:59<83:23:43,  3.06s/it]                                                            2%|▏         | 1885/100000 [1:01:59<83:23:43,  3.06s/it]  2%|▏         | 1886/100000 [1:02:01<77:02:37,  2.83s/it]                                                            2%|▏         | 1886/100000 [1:02:01<77:02:37,  2.83s/it]  2%|▏         | 1887/100000 [1:02:03<71:23:47,  2.62s/it]                                                            2%|▏         | 1887/100000 [1:02:03<71:23:47,  2.62s/it]  2%|▏         | 1888/100000 [1:02:05<66:02:34,  2.42s/it]                                                            2%|▏         | 1888/100000 [1:02:05<66:02:34,  2.42s/it]  2%|▏         | 1889/100000 [1:02:07<61:38:15,  2.26s/it]                                                            2%|▏         | 1889/100000 [1:02:07<61:38:15,  2.26s/it]  2%|▏         | 1890/100000 [1:02:09<57:24:06,  2.11s/it]                                                            2%|▏         | 1890/100000 [1:02:09<57:24:06,  2.11s/it]  2%|▏         | 1891/100000 [1:02:11<53:50:17,  1.98s/it]                                                            2%|▏         | 1891/100000 [1:02:11<53:50:17,  1.98s/it]  2%|▏         | 1892/100000 [1:02:12<50:50:51,  1.87s/it]                                                            2%|▏         | 1892/100000 [1:02:12<50:50:51,  1.87s/it]  2%|▏         | 1893/100000 [1:02:14<48:41:31,  1.79s/it]                                                            2%|▏         | 1893/100000 [1:02:14<48:41:31,  1.79s/it]  2%|▏         | 1894/100000 [1:02:15<46:58:55,  1.72s/it]                                                            2%|▏         | 1894/100000 [1:02:15<46:58:55,  1.72s/it]  2%|▏         | 1895/100000 [1:02:17<45:09:48,  1.66s/it]                                                            2%|▏         | 1895/100000 [1:02:17<45:09:48,  1.66s/it]  2%|▏         | 1896/100000 [1:02:18<43:27:43,  1.59s/it]                                                            2%|▏         | 1896/100000 [1:02:18<43:27:43,  1.59s/it]  2%|▏         | 1897/100000 [1:02:20<42:14:02,  1.55s/it]                                                            2%|▏         | 1897/100000 [1:02:20<42:14:02,  1.55s/it]  2%|▏         | 1898/100000 [1:02:21<41:21:39,  1.52s/it]                                                            2%|▏         | 1898/100000 [1:02:21<41:21:39,  1.52s/it]  2%|▏         | 1899/100000 [1:02:23<40:27:21,  1.48s/it]                                                            2%|▏         | 1899/100000 [1:02:23<40:27:21,  1.48s/it]  2%|▏         | 1900/100000 [1:02:24<39:40:15,  1.46s/it]                                                            2%|▏         | 1900/100000 [1:02:24<39:40:15,  1.46s/it]  2%|▏         | 1901/100000 [1:02:25<38:23:11,  1.41s/it]                                                            2%|▏         | 1901/100000 [1:02:25<38:23:11,  1.41s/it]  2%|▏         | 1902/100000 [1:02:27<37:51:22,  1.39s/it]                                                            2%|▏         | 1902/100000 [1:02:27<37:51:22,  1.39s/it]  2%|▏         | 1903/100000 [1:02:28<37:19:56,  1.37s/it]                                                            2%|▏         | 1903/100000 [1:02:28<37:19:56,  1.37s/it]  2%|▏         | 1904/100000 [1:02:29<36:58:43,  1.36s/it]                                                            2%|▏         | 1904/100000 [1:02:29<36:58:43,  1.36s/it]  2%|▏         | 1905/100000 [1:02:31<36:07:05,  1.33s/it]                                                            2%|▏         | 1905/100000 [1:02:31<36:07:05,  1.33s/it]  2%|▏         | 1906/100000 [1:02:32<35:49:29,  1.31s/it]                                                            2%|▏         | 1906/100000 [1:02:32<35:49:29,  1.31s/it]  2%|▏         | 1907/100000 [1:02:33<35:24:09,  1.30s/it]                                                            2%|▏         | 1907/100000 [1:02:33<35:24:09,  1.30s/it]  2%|▏         | 1908/100000 [1:02:34<34:47:23,  1.28s/it]                                                            2%|▏         | 1908/100000 [1:02:34<34:47:23,  1.28s/it]  2%|▏         | 1909/100000 [1:02:36<34:13:14,  1.26s/it]                                                            2%|▏         | 1909/100000 [1:02:36<34:13:14,  1.26s/it]  2%|▏         | 1910/100000 [1:02:37<33:43:45,  1.24s/it]                                                            2%|▏         | 1910/100000 [1:02:37<33:43:45,  1.24s/it]  2%|▏         | 1911/100000 [1:02:38<33:15:08,  1.22s/it]                                                            2%|▏         | 1911/100000 [1:02:38<33:15:08,  1.22s/it]  2%|▏         | 1912/100000 [1:02:39<32:51:42,  1.21s/it]                                                            2%|▏         | 1912/100000 [1:02:39<32:51:42,  1.21s/it]  2%|▏         | 1913/100000 [1:02:40<32:19:17,  1.19s/it]                                                            2%|▏         | 1913/100000 [1:02:40<32:19:17,  1.19s/it]  2%|▏         | 1914/100000 [1:02:41<31:56:30,  1.17s/it]                                                            2%|▏         | 1914/100000 [1:02:41<31:56:30,  1.17s/it]  2%|▏         | 1915/100000 [1:02:42<31:28:09,  1.16s/it]                                                            2%|▏         | 1915/100000 [1:02:42<31:28:09,  1.16s/it]  2%|▏         | 1916/100000 [1:02:44<31:06:14,  1.14s/it]                                                            2%|▏         | 1916/100000 [1:02:44<31:06:14,  1.14s/it]  2%|▏         | 1917/100000 [1:02:45<30:37:48,  1.12s/it]                                                            2%|▏         | 1917/100000 [1:02:45<30:37:48,  1.12s/it]  2%|▏         | 1918/100000 [1:02:46<30:22:44,  1.12s/it]                                                            2%|▏         | 1918/100000 [1:02:46<30:22:44,  1.12s/it]  2%|▏         | 1919/100000 [1:02:47<30:00:56,  1.10s/it]                                                            2%|▏         | 1919/100000 [1:02:47<30:00:56,  1.10s/it]  2%|▏         | 1920/100000 [1:02:48<29:37:11,  1.09s/it]                                                            2%|▏         | 1920/100000 [1:02:48<29:37:11,  1.09s/it]  2%|▏         | 1921/100000 [1:02:49<28:53:10,  1.06s/it]                                                            2%|▏         | 1921/100000 [1:02:49<28:53:10,  1.06s/it]  2%|▏         | 1922/100000 [1:02:50<28:15:47,  1.04s/it]                                                            2%|▏         | 1922/100000 [1:02:50<28:15:47,  1.04s/it]  2%|▏         | 1923/100000 [1:02:51<27:29:48,  1.01s/it]                                                            2%|▏         | 1923/100000 [1:02:51<27:29:48,  1.01s/it]  2%|▏         | 1924/100000 [1:02:52<26:48:12,  1.02it/s]                                                            2%|▏         | 1924/100000 [1:02:52<26:48:12,  1.02it/s]  2%|▏         | 1925/100000 [1:02:53<25:52:33,  1.05it/s]                                                            2%|▏         | 1925/100000 [1:02:53<25:52:33,  1.05it/s]  2%|▏         | 1926/100000 [1:02:53<24:45:46,  1.10it/s]                                                            2%|▏         | 1926/100000 [1:02:53<24:45:46,  1.10it/s]  2%|▏         | 1927/100000 [1:03:05<116:06:38,  4.26s/it]                                                             2%|▏         | 1927/100000 [1:03:05<116:06:38,  4.26s/it]  2%|▏         | 1928/100000 [1:03:11<129:11:03,  4.74s/it]                                                             2%|▏         | 1928/100000 [1:03:11<129:11:03,  4.74s/it]  2%|▏         | 1929/100000 [1:03:16<130:19:31,  4.78s/it]                                                             2%|▏         | 1929/100000 [1:03:16<130:19:31,  4.78s/it]  2%|▏         | 1930/100000 [1:03:20<125:27:46,  4.61s/it]                                                             2%|▏         | 1930/100000 [1:03:20<125:27:46,  4.61s/it]  2%|▏         | 1931/100000 [1:03:24<118:29:30,  4.35s/it]                                                             2%|▏         | 1931/100000 [1:03:24<118:29:30,  4.35s/it]  2%|▏         | 1932/100000 [1:03:27<109:39:08,  4.03s/it]                                                             2%|▏         | 1932/100000 [1:03:27<109:39:08,  4.03s/it]  2%|▏         | 1933/100000 [1:03:30<100:30:15,  3.69s/it]                                                             2%|▏         | 1933/100000 [1:03:30<100:30:15,  3.69s/it]  2%|▏         | 1934/100000 [1:03:33<93:24:17,  3.43s/it]                                                             2%|▏         | 1934/100000 [1:03:33<93:24:17,  3.43s/it]  2%|▏         | 1935/100000 [1:03:36<86:33:00,  3.18s/it]                                                            2%|▏         | 1935/100000 [1:03:36<86:33:00,  3.18s/it]  2%|▏         | 1936/100000 [1:03:38<80:10:10,  2.94s/it]                                                            2%|▏         | 1936/100000 [1:03:38<80:10:10,  2.94s/it]  2%|▏         | 1937/100000 [1:03:40<74:17:35,  2.73s/it]                                                            2%|▏         | 1937/100000 [1:03:40<74:17:35,  2.73s/it]  2%|▏         | 1938/100000 [1:03:42<69:11:39,  2.54s/it]                                                            2%|▏         | 1938/100000 [1:03:42<69:11:39,  2.54s/it]  2%|▏         | 1939/100000 [1:03:44<64:40:34,  2.37s/it]                                                            2%|▏         | 1939/100000 [1:03:44<64:40:34,  2.37s/it]  2%|▏         | 1940/100000 [1:03:46<60:39:39,  2.23s/it]                                                            2%|▏         | 1940/100000 [1:03:46<60:39:39,  2.23s/it]  2%|▏         | 1941/100000 [1:03:48<57:07:09,  2.10s/it]                                                            2%|▏         | 1941/100000 [1:03:48<57:07:09,  2.10s/it]  2%|▏         | 1942/100000 [1:03:50<54:04:03,  1.98s/it]                                                            2%|▏         | 1942/100000 [1:03:50<54:04:03,  1.98s/it]  2%|▏         | 1943/100000 [1:03:52<51:20:07,  1.88s/it]                                                            2%|▏         | 1943/100000 [1:03:52<51:20:07,  1.88s/it]  2%|▏         | 1944/100000 [1:03:53<48:59:15,  1.80s/it]                                                            2%|▏         | 1944/100000 [1:03:53<48:59:15,  1.80s/it]  2%|▏         | 1945/100000 [1:03:55<47:06:26,  1.73s/it]                                                            2%|▏         | 1945/100000 [1:03:55<47:06:26,  1.73s/it]  2%|▏         | 1946/100000 [1:03:56<45:20:22,  1.66s/it]                                                            2%|▏         | 1946/100000 [1:03:56<45:20:22,  1.66s/it]  2%|▏         | 1947/100000 [1:03:58<43:24:26,  1.59s/it]                                                            2%|▏         | 1947/100000 [1:03:58<43:24:26,  1.59s/it]  2%|▏         | 1948/100000 [1:03:59<42:15:00,  1.55s/it]                                                            2%|▏         | 1948/100000 [1:03:59<42:15:00,  1.55s/it]  2%|▏         | 1949/100000 [1:04:00<41:01:48,  1.51s/it]                                                            2%|▏         | 1949/100000 [1:04:00<41:01:48,  1.51s/it]  2%|▏         | 1950/100000 [1:04:02<40:19:54,  1.48s/it]                                                            2%|▏         | 1950/100000 [1:04:02<40:19:54,  1.48s/it]  2%|▏         | 1951/100000 [1:04:03<39:39:12,  1.46s/it]                                                            2%|▏         | 1951/100000 [1:04:03<39:39:12,  1.46s/it]  2%|▏         | 1952/100000 [1:04:05<38:55:55,  1.43s/it]                                                            2%|▏         | 1952/100000 [1:04:05<38:55:55,  1.43s/it]  2%|▏         | 1953/100000 [1:04:06<38:15:29,  1.40s/it]                                                            2%|▏         | 1953/100000 [1:04:06<38:15:29,  1.40s/it]  2%|▏         | 1954/100000 [1:04:07<37:35:29,  1.38s/it]                                                            2%|▏         | 1954/100000 [1:04:07<37:35:29,  1.38s/it]  2%|▏         | 1955/100000 [1:04:09<37:01:51,  1.36s/it]                                                            2%|▏         | 1955/100000 [1:04:09<37:01:51,  1.36s/it]  2%|▏         | 1956/100000 [1:04:10<36:30:11,  1.34s/it]                                                            2%|▏         | 1956/100000 [1:04:10<36:30:11,  1.34s/it]  2%|▏         | 1957/100000 [1:04:11<35:59:32,  1.32s/it]                                                            2%|▏         | 1957/100000 [1:04:11<35:59:32,  1.32s/it]  2%|▏         | 1958/100000 [1:04:12<35:19:03,  1.30s/it]                                                            2%|▏         | 1958/100000 [1:04:12<35:19:03,  1.30s/it]  2%|▏         | 1959/100000 [1:04:14<34:28:37,  1.27s/it]                                                            2%|▏         | 1959/100000 [1:04:14<34:28:37,  1.27s/it]  2%|▏         | 1960/100000 [1:04:15<34:08:04,  1.25s/it]                                                            2%|▏         | 1960/100000 [1:04:15<34:08:04,  1.25s/it]  2%|▏         | 1961/100000 [1:04:16<33:34:28,  1.23s/it]                                                            2%|▏         | 1961/100000 [1:04:16<33:34:28,  1.23s/it]  2%|▏         | 1962/100000 [1:04:17<33:02:52,  1.21s/it]                                                            2%|▏         | 1962/100000 [1:04:17<33:02:52,  1.21s/it]  2%|▏         | 1963/100000 [1:04:18<32:28:36,  1.19s/it]                                                            2%|▏         | 1963/100000 [1:04:18<32:28:36,  1.19s/it]  2%|▏         | 1964/100000 [1:04:20<32:09:32,  1.18s/it]                                                            2%|▏         | 1964/100000 [1:04:20<32:09:32,  1.18s/it]  2%|▏         | 1965/100000 [1:04:21<31:34:10,  1.16s/it]                                                            2%|▏         | 1965/100000 [1:04:21<31:34:10,  1.16s/it]  2%|▏         | 1966/100000 [1:04:22<30:53:59,  1.13s/it]                                                            2%|▏         | 1966/100000 [1:04:22<30:53:59,  1.13s/it]  2%|▏         | 1967/100000 [1:04:23<30:20:02,  1.11s/it]                                                          {'loss': 0.4298, 'grad_norm': 1.6703765392303467, 'learning_rate': 5.637e-06, 'epoch': 3.47}
+{'loss': 0.3063, 'grad_norm': 1.2871016263961792, 'learning_rate': 5.64e-06, 'epoch': 3.47}
+{'loss': 0.4411, 'grad_norm': 2.3849496841430664, 'learning_rate': 5.643e-06, 'epoch': 3.48}
+{'loss': 0.27, 'grad_norm': 1.4804643392562866, 'learning_rate': 5.646000000000001e-06, 'epoch': 3.48}
+{'loss': 0.2392, 'grad_norm': 2.092325210571289, 'learning_rate': 5.649e-06, 'epoch': 3.48}
+{'loss': 0.1759, 'grad_norm': 1.2303647994995117, 'learning_rate': 5.652e-06, 'epoch': 3.48}
+{'loss': 0.2126, 'grad_norm': 1.8435465097427368, 'learning_rate': 5.655e-06, 'epoch': 3.48}
+{'loss': 0.213, 'grad_norm': 1.3646825551986694, 'learning_rate': 5.658e-06, 'epoch': 3.49}
+{'loss': 0.1466, 'grad_norm': 1.2749691009521484, 'learning_rate': 5.6610000000000005e-06, 'epoch': 3.49}
+{'loss': 0.1894, 'grad_norm': 1.3183910846710205, 'learning_rate': 5.664e-06, 'epoch': 3.49}
+{'loss': 0.1734, 'grad_norm': 1.5395432710647583, 'learning_rate': 5.667e-06, 'epoch': 3.49}
+{'loss': 0.1379, 'grad_norm': 2.1787004470825195, 'learning_rate': 5.67e-06, 'epoch': 3.49}
+{'loss': 0.1335, 'grad_norm': 1.3665242195129395, 'learning_rate': 5.673e-06, 'epoch': 3.49}
+{'loss': 0.1146, 'grad_norm': 5.0550103187561035, 'learning_rate': 5.676e-06, 'epoch': 3.5}
+{'loss': 0.1421, 'grad_norm': 2.3658273220062256, 'learning_rate': 5.679e-06, 'epoch': 3.5}
+{'loss': 0.1141, 'grad_norm': 1.0035806894302368, 'learning_rate': 5.682000000000001e-06, 'epoch': 3.5}
+{'loss': 0.1171, 'grad_norm': 6.410629749298096, 'learning_rate': 5.685e-06, 'epoch': 3.5}
+{'loss': 0.1112, 'grad_norm': 1.1340585947036743, 'learning_rate': 5.688e-06, 'epoch': 3.5}
+{'loss': 0.129, 'grad_norm': 1.2341041564941406, 'learning_rate': 5.691e-06, 'epoch': 3.51}
+{'loss': 0.116, 'grad_norm': 2.3341636657714844, 'learning_rate': 5.694e-06, 'epoch': 3.51}
+{'loss': 0.1143, 'grad_norm': 1.6923784017562866, 'learning_rate': 5.697000000000001e-06, 'epoch': 3.51}
+{'loss': 0.1099, 'grad_norm': 2.5729382038116455, 'learning_rate': 5.7000000000000005e-06, 'epoch': 3.51}
+{'loss': 0.1303, 'grad_norm': 1.2444424629211426, 'learning_rate': 5.703e-06, 'epoch': 3.51}
+{'loss': 0.0941, 'grad_norm': 1.2153400182724, 'learning_rate': 5.706e-06, 'epoch': 3.52}
+{'loss': 0.1996, 'grad_norm': 1.57122004032135, 'learning_rate': 5.709e-06, 'epoch': 3.52}
+{'loss': 0.1322, 'grad_norm': 1.2429941892623901, 'learning_rate': 5.7120000000000005e-06, 'epoch': 3.52}
+{'loss': 0.0835, 'grad_norm': 1.3662152290344238, 'learning_rate': 5.715e-06, 'epoch': 3.52}
+{'loss': 0.1686, 'grad_norm': 4.294366359710693, 'learning_rate': 5.718e-06, 'epoch': 3.52}
+{'loss': 0.1044, 'grad_norm': 2.29258394241333, 'learning_rate': 5.721000000000001e-06, 'epoch': 3.52}
+{'loss': 0.0925, 'grad_norm': 1.248388648033142, 'learning_rate': 5.724e-06, 'epoch': 3.53}
+{'loss': 0.1123, 'grad_norm': 1.540623426437378, 'learning_rate': 5.7269999999999995e-06, 'epoch': 3.53}
+{'loss': 0.1247, 'grad_norm': 2.4571754932403564, 'learning_rate': 5.73e-06, 'epoch': 3.53}
+{'loss': 0.1746, 'grad_norm': 1.2694852352142334, 'learning_rate': 5.733e-06, 'epoch': 3.53}
+{'loss': 0.1105, 'grad_norm': 1.9375823736190796, 'learning_rate': 5.736000000000001e-06, 'epoch': 3.53}
+{'loss': 0.1333, 'grad_norm': 1.210279107093811, 'learning_rate': 5.7390000000000004e-06, 'epoch': 3.54}
+{'loss': 0.1251, 'grad_norm': 1.4333395957946777, 'learning_rate': 5.741999999999999e-06, 'epoch': 3.54}
+{'loss': 0.105, 'grad_norm': 1.5113213062286377, 'learning_rate': 5.745e-06, 'epoch': 3.54}
+{'loss': 0.1238, 'grad_norm': 1.5336154699325562, 'learning_rate': 5.748e-06, 'epoch': 3.54}
+{'loss': 0.1156, 'grad_norm': 1.4925528764724731, 'learning_rate': 5.7510000000000005e-06, 'epoch': 3.54}
+{'loss': 0.1149, 'grad_norm': 1.5090351104736328, 'learning_rate': 5.754e-06, 'epoch': 3.54}
+{'loss': 0.1477, 'grad_norm': 1.419166922569275, 'learning_rate': 5.757e-06, 'epoch': 3.55}
+{'loss': 0.1166, 'grad_norm': 1.3856487274169922, 'learning_rate': 5.76e-06, 'epoch': 3.55}
+{'loss': 0.146, 'grad_norm': 1.7472511529922485, 'learning_rate': 5.763e-06, 'epoch': 3.55}
+{'loss': 0.1507, 'grad_norm': 1.4180855751037598, 'learning_rate': 5.766e-06, 'epoch': 3.55}
+{'loss': 0.1547, 'grad_norm': 2.02449107170105, 'learning_rate': 5.769e-06, 'epoch': 3.55}
+{'loss': 0.5175, 'grad_norm': 4.551610469818115, 'learning_rate': 5.772e-06, 'epoch': 3.56}
+{'loss': 0.5595, 'grad_norm': 1.604357123374939, 'learning_rate': 5.775000000000001e-06, 'epoch': 3.56}
+{'loss': 0.4088, 'grad_norm': 1.855041265487671, 'learning_rate': 5.7779999999999996e-06, 'epoch': 3.56}
+{'loss': 0.3441, 'grad_norm': 1.8530044555664062, 'learning_rate': 5.781e-06, 'epoch': 3.56}
+{'loss': 0.5021, 'grad_norm': 2.204385280609131, 'learning_rate': 5.784e-06, 'epoch': 3.56}
+{'loss': 0.3674, 'grad_norm': 2.2241737842559814, 'learning_rate': 5.787e-06, 'epoch': 3.57}
+{'loss': 0.297, 'grad_norm': 1.4868899583816528, 'learning_rate': 5.7900000000000005e-06, 'epoch': 3.57}
+{'loss': 0.292, 'grad_norm': 2.145841121673584, 'learning_rate': 5.793e-06, 'epoch': 3.57}
+{'loss': 0.263, 'grad_norm': 1.8769104480743408, 'learning_rate': 5.796e-06, 'epoch': 3.57}
+{'loss': 0.3297, 'grad_norm': 4.806507110595703, 'learning_rate': 5.799e-06, 'epoch': 3.57}
+{'loss': 0.2308, 'grad_norm': 1.6606978178024292, 'learning_rate': 5.802e-06, 'epoch': 3.57}
+{'loss': 0.2831, 'grad_norm': 1.4710232019424438, 'learning_rate': 5.805e-06, 'epoch': 3.58}
+{'loss': 0.2106, 'grad_norm': 2.6567530632019043, 'learning_rate': 5.808e-06, 'epoch': 3.58}
+{'loss': 0.2107, 'grad_norm': 1.5181427001953125, 'learning_rate': 5.811000000000001e-06, 'epoch': 3.58}
+{'loss': 0.1584, 'grad_norm': 0.9983479976654053, 'learning_rate': 5.814e-06, 'epoch': 3.58}
+{'loss': 0.1357, 'grad_norm': 1.196229338645935, 'learning_rate': 5.8169999999999995e-06, 'epoch': 3.58}
+{'loss': 0.1194, 'grad_norm': 1.343436598777771, 'learning_rate': 5.82e-06, 'epoch': 3.59}
+{'loss': 0.1649, 'grad_norm': 1.8224588632583618, 'learning_rate': 5.823e-06, 'epoch': 3.59}
+{'loss': 0.106, 'grad_norm': 1.064284324645996, 'learning_rate': 5.826000000000001e-06, 'epoch': 3.59}
+{'loss': 0.1177, 'grad_norm': 1.1194217205047607, 'learning_rate': 5.8290000000000004e-06, 'epoch': 3.59}
+{'loss': 0.133, 'grad_norm': 1.6041698455810547, 'learning_rate': 5.832e-06, 'epoch': 3.59}
+{'loss': 0.0764, 'grad_norm': 1.0496641397476196, 'learning_rate': 5.835e-06, 'epoch': 3.59}
+{'loss': 0.1288, 'grad_norm': 1.0636441707611084, 'learning_rate': 5.838e-06, 'epoch': 3.6}
+{'loss': 0.1299, 'grad_norm': 1.3821836709976196, 'learning_rate': 5.8410000000000005e-06, 'epoch': 3.6}
+{'loss': 0.1114, 'grad_norm': 1.1364189386367798, 'learning_rate': 5.844e-06, 'epoch': 3.6}
+{'loss': 0.1286, 'grad_norm': 1.2574251890182495, 'learning_rate': 5.847e-06, 'epoch': 3.6}
+{'loss': 0.1498, 'grad_norm': 1.209403157234192, 'learning_rate': 5.850000000000001e-06, 'epoch': 3.6}
+{'loss': 0.1073, 'grad_norm': 1.3319051265716553, 'learning_rate': 5.853e-06, 'epoch': 3.61}
+{'loss': 0.106, 'grad_norm': 1.2135307788848877, 'learning_rate': 5.856e-06, 'epoch': 3.61}
+{'loss': 0.1141, 'grad_norm': 1.4304325580596924, 'learning_rate': 5.859e-06, 'epoch': 3.61}
+{'loss': 0.1105, 'grad_norm': 5.753938674926758, 'learning_rate': 5.862e-06, 'epoch': 3.61}
+{'loss': 0.1175, 'grad_norm': 2.1282248497009277, 'learning_rate': 5.865000000000001e-06, 'epoch': 3.61}
+{'loss': 0.1184, 'grad_norm': 1.8825041055679321, 'learning_rate': 5.868e-06, 'epoch': 3.61}
+{'loss': 0.0976, 'grad_norm': 1.0043890476226807, 'learning_rate': 5.871e-06, 'epoch': 3.62}
+{'loss': 0.0953, 'grad_norm': 2.1982343196868896, 'learning_rate': 5.874e-06, 'epoch': 3.62}
+{'loss': 0.1208, 'grad_norm': 1.6441147327423096, 'learning_rate': 5.877e-06, 'epoch': 3.62}
+{'loss': 0.1104, 'grad_norm': 1.4551324844360352, 'learning_rate': 5.8800000000000005e-06, 'epoch': 3.62}
+{'loss': 0.1104, 'grad_norm': 1.2573660612106323, 'learning_rate': 5.883e-06, 'epoch': 3.62}
+{'loss': 0.1119, 'grad_norm': 1.6478545665740967, 'learning_rate': 5.886000000000001e-06, 'epoch': 3.63}
+{'loss': 0.1182, 'grad_norm': 1.328403115272522, 'learning_rate': 5.889e-06, 'epoch': 3.63}
+  2%|▏         | 1967/100000 [1:04:23<30:20:02,  1.11s/it]  2%|▏         | 1968/100000 [1:04:24<29:54:52,  1.10s/it]                                                            2%|▏         | 1968/100000 [1:04:24<29:54:52,  1.10s/it]  2%|▏         | 1969/100000 [1:04:25<29:23:20,  1.08s/it]                                                            2%|▏         | 1969/100000 [1:04:25<29:23:20,  1.08s/it]  2%|▏         | 1970/100000 [1:04:26<28:59:15,  1.06s/it]                                                            2%|▏         | 1970/100000 [1:04:26<28:59:15,  1.06s/it]  2%|▏         | 1971/100000 [1:04:27<28:39:32,  1.05s/it]                                                            2%|▏         | 1971/100000 [1:04:27<28:39:32,  1.05s/it]  2%|▏         | 1972/100000 [1:04:28<28:09:53,  1.03s/it]                                                            2%|▏         | 1972/100000 [1:04:28<28:09:53,  1.03s/it]  2%|▏         | 1973/100000 [1:04:29<27:25:48,  1.01s/it]                                                            2%|▏         | 1973/100000 [1:04:29<27:25:48,  1.01s/it]  2%|▏         | 1974/100000 [1:04:30<26:51:22,  1.01it/s]                                                            2%|▏         | 1974/100000 [1:04:30<26:51:22,  1.01it/s]  2%|▏         | 1975/100000 [1:04:31<25:57:20,  1.05it/s]                                                            2%|▏         | 1975/100000 [1:04:31<25:57:20,  1.05it/s]  2%|▏         | 1976/100000 [1:04:32<25:01:22,  1.09it/s]                                                            2%|▏         | 1976/100000 [1:04:32<25:01:22,  1.09it/s]  2%|▏         | 1977/100000 [1:04:42<101:54:48,  3.74s/it]                                                             2%|▏         | 1977/100000 [1:04:42<101:54:48,  3.74s/it]  2%|▏         | 1978/100000 [1:04:47<114:57:50,  4.22s/it]                                                             2%|▏         | 1978/100000 [1:04:47<114:57:50,  4.22s/it]  2%|▏         | 1979/100000 [1:04:52<117:23:07,  4.31s/it]                                                             2%|▏         | 1979/100000 [1:04:52<117:23:07,  4.31s/it]  2%|▏         | 1980/100000 [1:04:56<113:38:58,  4.17s/it]                                                             2%|▏         | 1980/100000 [1:04:56<113:38:58,  4.17s/it]  2%|▏         | 1981/100000 [1:04:59<108:21:44,  3.98s/it]                                                             2%|▏         | 1981/100000 [1:04:59<108:21:44,  3.98s/it]  2%|▏         | 1982/100000 [1:05:02<102:54:12,  3.78s/it]                                                             2%|▏         | 1982/100000 [1:05:02<102:54:12,  3.78s/it]  2%|▏         | 1983/100000 [1:05:05<96:56:01,  3.56s/it]                                                             2%|▏         | 1983/100000 [1:05:05<96:56:01,  3.56s/it]  2%|▏         | 1984/100000 [1:05:08<90:07:22,  3.31s/it]                                                            2%|▏         | 1984/100000 [1:05:08<90:07:22,  3.31s/it]  2%|▏         | 1985/100000 [1:05:11<83:55:45,  3.08s/it]                                                            2%|▏         | 1985/100000 [1:05:11<83:55:45,  3.08s/it]  2%|▏         | 1986/100000 [1:05:13<78:04:49,  2.87s/it]                                                            2%|▏         | 1986/100000 [1:05:13<78:04:49,  2.87s/it]  2%|▏         | 1987/100000 [1:05:15<72:52:09,  2.68s/it]                                                            2%|▏         | 1987/100000 [1:05:15<72:52:09,  2.68s/it]  2%|▏         | 1988/100000 [1:05:17<67:32:05,  2.48s/it]                                                            2%|▏         | 1988/100000 [1:05:17<67:32:05,  2.48s/it]  2%|▏         | 1989/100000 [1:05:19<63:19:30,  2.33s/it]                                                            2%|▏         | 1989/100000 [1:05:19<63:19:30,  2.33s/it]  2%|▏         | 1990/100000 [1:05:21<59:35:47,  2.19s/it]                                                            2%|▏         | 1990/100000 [1:05:21<59:35:47,  2.19s/it]  2%|▏         | 1991/100000 [1:05:23<56:01:38,  2.06s/it]                                                            2%|▏         | 1991/100000 [1:05:23<56:01:38,  2.06s/it]  2%|▏         | 1992/100000 [1:05:25<52:43:53,  1.94s/it]                                                            2%|▏         | 1992/100000 [1:05:25<52:43:53,  1.94s/it]  2%|▏         | 1993/100000 [1:05:26<50:04:52,  1.84s/it]                                                            2%|▏         | 1993/100000 [1:05:26<50:04:52,  1.84s/it]  2%|▏         | 1994/100000 [1:05:28<47:40:37,  1.75s/it]                                                            2%|▏         | 1994/100000 [1:05:28<47:40:37,  1.75s/it]  2%|▏         | 1995/100000 [1:05:29<46:06:18,  1.69s/it]                                                            2%|▏         | 1995/100000 [1:05:29<46:06:18,  1.69s/it]  2%|▏         | 1996/100000 [1:05:31<44:25:39,  1.63s/it]                                                            2%|▏         | 1996/100000 [1:05:31<44:25:39,  1.63s/it]  2%|▏         | 1997/100000 [1:05:32<43:55:33,  1.61s/it]                                                            2%|▏         | 1997/100000 [1:05:32<43:55:33,  1.61s/it]  2%|▏         | 1998/100000 [1:05:34<42:28:06,  1.56s/it]                                                            2%|▏         | 1998/100000 [1:05:34<42:28:06,  1.56s/it]  2%|▏         | 1999/100000 [1:05:35<41:12:05,  1.51s/it]                                                            2%|▏         | 1999/100000 [1:05:35<41:12:05,  1.51s/it]  2%|▏         | 2000/100000 [1:05:37<40:14:30,  1.48s/it]                                                            2%|▏         | 2000/100000 [1:05:37<40:14:30,  1.48s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.1433, 'grad_norm': 2.832441806793213, 'learning_rate': 5.892e-06, 'epoch': 3.63}
+{'loss': 0.0838, 'grad_norm': 1.5062068700790405, 'learning_rate': 5.895e-06, 'epoch': 3.63}
+{'loss': 0.0968, 'grad_norm': 1.5999783277511597, 'learning_rate': 5.898e-06, 'epoch': 3.63}
+{'loss': 0.1154, 'grad_norm': 1.426970362663269, 'learning_rate': 5.901000000000001e-06, 'epoch': 3.64}
+{'loss': 0.1042, 'grad_norm': 3.131009340286255, 'learning_rate': 5.9040000000000006e-06, 'epoch': 3.64}
+{'loss': 0.1047, 'grad_norm': 1.6253173351287842, 'learning_rate': 5.9069999999999995e-06, 'epoch': 3.64}
+{'loss': 0.115, 'grad_norm': 1.677268385887146, 'learning_rate': 5.91e-06, 'epoch': 3.64}
+{'loss': 0.1139, 'grad_norm': 2.1825778484344482, 'learning_rate': 5.913e-06, 'epoch': 3.64}
+{'loss': 0.1551, 'grad_norm': 2.2541301250457764, 'learning_rate': 5.916e-06, 'epoch': 3.64}
+{'loss': 0.2356, 'grad_norm': 1.7591955661773682, 'learning_rate': 5.919e-06, 'epoch': 3.65}
+{'loss': 0.5899, 'grad_norm': 2.3737945556640625, 'learning_rate': 5.922e-06, 'epoch': 3.65}
+{'loss': 0.4634, 'grad_norm': 1.9221827983856201, 'learning_rate': 5.925e-06, 'epoch': 3.65}
+{'loss': 0.4463, 'grad_norm': 2.4015867710113525, 'learning_rate': 5.928e-06, 'epoch': 3.65}
+{'loss': 0.426, 'grad_norm': 4.889469146728516, 'learning_rate': 5.931e-06, 'epoch': 3.65}
+{'loss': 0.4606, 'grad_norm': 2.2621586322784424, 'learning_rate': 5.934e-06, 'epoch': 3.66}
+{'loss': 0.3655, 'grad_norm': 1.894276738166809, 'learning_rate': 5.937e-06, 'epoch': 3.66}
+{'loss': 0.3543, 'grad_norm': 3.954047203063965, 'learning_rate': 5.940000000000001e-06, 'epoch': 3.66}
+{'loss': 0.3325, 'grad_norm': 1.4562526941299438, 'learning_rate': 5.943e-06, 'epoch': 3.66}
+{'loss': 0.3744, 'grad_norm': 2.2910425662994385, 'learning_rate': 5.9459999999999995e-06, 'epoch': 3.66}
+{'loss': 0.2899, 'grad_norm': 1.5386607646942139, 'learning_rate': 5.949e-06, 'epoch': 3.66}
+{'loss': 0.2228, 'grad_norm': 1.333303451538086, 'learning_rate': 5.952e-06, 'epoch': 3.67}
+{'loss': 0.2197, 'grad_norm': 3.049942970275879, 'learning_rate': 5.955000000000001e-06, 'epoch': 3.67}
+{'loss': 0.2569, 'grad_norm': 2.74458384513855, 'learning_rate': 5.958e-06, 'epoch': 3.67}
+{'loss': 0.1435, 'grad_norm': 1.1316044330596924, 'learning_rate': 5.961e-06, 'epoch': 3.67}
+{'loss': 0.165, 'grad_norm': 1.435760498046875, 'learning_rate': 5.964e-06, 'epoch': 3.67}
+{'loss': 0.0853, 'grad_norm': 1.0853261947631836, 'learning_rate': 5.967e-06, 'epoch': 3.68}
+{'loss': 0.2136, 'grad_norm': 1.67013418674469, 'learning_rate': 5.9700000000000004e-06, 'epoch': 3.68}
+{'loss': 0.0932, 'grad_norm': 1.1271677017211914, 'learning_rate': 5.973e-06, 'epoch': 3.68}
+{'loss': 0.1335, 'grad_norm': 1.1513522863388062, 'learning_rate': 5.976e-06, 'epoch': 3.68}
+{'loss': 0.0735, 'grad_norm': 1.074549674987793, 'learning_rate': 5.979000000000001e-06, 'epoch': 3.68}
+{'loss': 0.2005, 'grad_norm': 1.177593469619751, 'learning_rate': 5.982e-06, 'epoch': 3.69}
+{'loss': 0.143, 'grad_norm': 1.4211703538894653, 'learning_rate': 5.985e-06, 'epoch': 3.69}
+{'loss': 0.1164, 'grad_norm': 1.6892846822738647, 'learning_rate': 5.988e-06, 'epoch': 3.69}
+{'loss': 0.092, 'grad_norm': 1.2731127738952637, 'learning_rate': 5.991e-06, 'epoch': 3.69}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  4.00it/s][A
+ 30%|███       | 3/10 [00:02<00:06,  1.03it/s][A
+ 40%|████      | 4/10 [00:03<00:04,  1.21it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.17s/it][A
+ 60%|██████    | 6/10 [00:05<00:03,  1.04it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.12s/it][A
+ 80%|████████  | 8/10 [00:07<00:01,  1.05it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.09s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.13it/s][A                                                          
+                                               [A  2%|▏         | 2000/100000 [1:06:09<40:14:30,  1.48s/it]
+100%|██████████| 10/10 [00:10<00:00,  1.13it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-2000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-2000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-2000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-2000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-2000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-2000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-2000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+  2%|▏         | 2001/100000 [1:06:24<411:38:36, 15.12s/it]                                                             2%|▏         | 2001/100000 [1:06:24<411:38:36, 15.12s/it]  2%|▏         | 2002/100000 [1:06:25<299:08:57, 10.99s/it]                                                             2%|▏         | 2002/100000 [1:06:25<299:08:57, 10.99s/it]  2%|▏         | 2003/100000 [1:06:26<220:07:56,  8.09s/it]                                                             2%|▏         | 2003/100000 [1:06:26<220:07:56,  8.09s/it]  2%|▏         | 2004/100000 [1:06:28<164:46:08,  6.05s/it]                                                             2%|▏         | 2004/100000 [1:06:28<164:46:08,  6.05s/it]  2%|▏         | 2005/100000 [1:06:29<125:40:28,  4.62s/it]                                                             2%|▏         | 2005/100000 [1:06:29<125:40:28,  4.62s/it]  2%|▏         | 2006/100000 [1:06:30<98:25:40,  3.62s/it]                                                             2%|▏         | 2006/100000 [1:06:30<98:25:40,  3.62s/it]  2%|▏         | 2007/100000 [1:06:31<79:14:36,  2.91s/it]                                                            2%|▏         | 2007/100000 [1:06:31<79:14:36,  2.91s/it]  2%|▏         | 2008/100000 [1:06:33<65:33:59,  2.41s/it]                                                            2%|▏         | 2008/100000 [1:06:33<65:33:59,  2.41s/it]  2%|▏         | 2009/100000 [1:06:34<56:10:28,  2.06s/it]                                                            2%|▏         | 2009/100000 [1:06:34<56:10:28,  2.06s/it]  2%|▏         | 2010/100000 [1:06:35<49:18:31,  1.81s/it]                                                            2%|▏         | 2010/100000 [1:06:35<49:18:31,  1.81s/it]  2%|▏         | 2011/100000 [1:06:36<43:54:56,  1.61s/it]                                                            2%|▏         | 2011/100000 [1:06:36<43:54:56,  1.61s/it]  2%|▏         | 2012/100000 [1:06:37<40:16:19,  1.48s/it]                                                            2%|▏         | 2012/100000 [1:06:37<40:16:19,  1.48s/it]  2%|▏         | 2013/100000 [1:06:39<37:26:48,  1.38s/it]                                                            2%|▏         | 2013/100000 [1:06:39<37:26:48,  1.38s/it]  2%|▏         | 2014/100000 [1:06:40<35:20:05,  1.30s/it]                                                            2%|▏         | 2014/100000 [1:06:40<35:20:05,  1.30s/it]  2%|▏         | 2015/100000 [1:06:41<34:03:45,  1.25s/it]                                                            2%|▏         | 2015/100000 [1:06:41<34:03:45,  1.25s/it]  2%|▏         | 2016/100000 [1:06:42<33:07:18,  1.22s/it]                                                            2%|▏         | 2016/100000 [1:06:42<33:07:18,  1.22s/it]  2%|▏         | 2017/100000 [1:06:43<31:41:52,  1.16s/it]                                                            2%|▏         | 2017/100000 [1:06:43<31:41:52,  1.16s/it]  2%|▏         | 2018/100000 [1:06:44<31:03:41,  1.14s/it]                                                            2%|▏         | 2018/100000 [1:06:44<31:03:41,  1.14s/it]  2%|▏         | 2019/100000 [1:06:45<30:18:38,  1.11s/it]                                                            2%|▏         | 2019/100000 [1:06:45<30:18:38,  1.11s/it]  2%|▏         | 2020/100000 [1:06:46<30:07:07,  1.11s/it]                                                            2%|▏         | 2020/100000 [1:06:46<30:07:07,  1.11s/it]  2%|▏         | 2021/100000 [1:06:47<29:27:34,  1.08s/it]                                                            2%|▏         | 2021/100000 [1:06:47<29:27:34,  1.08s/it]  2%|▏         | 2022/100000 [1:06:48<28:23:17,  1.04s/it]                                                            2%|▏         | 2022/100000 [1:06:48<28:23:17,  1.04s/it]  2%|▏         | 2023/100000 [1:06:49<27:57:02,  1.03s/it]                                                            2%|▏         | 2023/100000 [1:06:49<27:57:02,  1.03s/it]  2%|▏         | 2024/100000 [1:06:50<27:14:38,  1.00s/it]                                                            2%|▏         | 2024/100000 [1:06:50<27:14:38,  1.00s/it]  2%|▏         | 2025/100000 [1:06:51<26:16:06,  1.04it/s]                                                            2%|▏         | 2025/100000 [1:06:51<26:16:06,  1.04it/s]  2%|▏         | 2026/100000 [1:06:52<24:59:44,  1.09it/s]                                                            2%|▏         | 2026/100000 [1:06:52<24:59:44,  1.09it/s]  2%|▏         | 2027/100000 [1:07:04<113:50:48,  4.18s/it]                                                             2%|▏         | 2027/100000 [1:07:04<113:50:48,  4.18s/it]  2%|▏         | 2028/100000 [1:07:09<125:45:37,  4.62s/it]                                                             2%|▏         | 2028/100000 [1:07:09<125:45:37,  4.62s/it]  2%|▏         | 2029/100000 [1:07:14<126:38:08,  4.65s/it]                                                             2%|▏         | 2029/100000 [1:07:14<126:38:08,  4.65s/it]  2%|▏         | 2030/100000 [1:07:18<121:11:16,  4.45s/it]                                                             2%|▏         | 2030/100000 [1:07:18<121:11:16,  4.45s/it]  2%|▏         | 2031/100000 [1:07:22<113:59:32,  4.19s/it]                                                             2%|▏         | 2031/100000 [1:07:22<113:59:32,  4.19s/it]  2%|▏         | 2032/100000 [1:07:25<107:09:55,  3.94s/it]                                                             2%|▏         | 2032/100000 [1:07:25<107:09:55,  3.94s/it]  2%|▏         | 2033/100000 [1:07:28<99:04:18,  3.64s/it]                                                             2%|▏         | 2033/100000 [1:07:28<99:04:18,  3.64s/it]  2%|▏         | 2034/100000 [1:07:31<92:21:42,  3.39s/it]                                                            2%|▏         | 2034/100000 [1:07:31<92:21:42,  3.39s/it]  2%|▏         | 2035/100000 [1:07:33<85:24:36,  3.14s/it]                                                            2%|▏         | 2035/100000 [1:07:33<85:24:36,  3.14s/it]  2%|▏         | 2036/100000 [1:07:36<79:13:08,  2.91s/it]                                                            2%|▏         | 2036/100000 [1:07:36<79:13:08,  2.91s/it]  2%|▏         | 2037/100000 [1:07:38<73:32:24,  2.70s/it]                                                            2%|▏         | 2037/100000 [1:07:38<73:32:24,  2.70s/it]  2%|▏         | 2038/100000 [1:07:40<68:48:47,  2.53s/it]                                                            2%|▏         | 2038/100000 [1:07:40<68:48:47,  2.53s/it]  2%|▏         | 2039/100000 [1:07:42<64:07:17,  2.36s/it]                                                            2%|▏         | 2039/100000 [1:07:42<64:07:17,  2.36s/it]  2%|▏         | 2040/100000 [1:07:44<60:13:25,  2.21s/it]                                                            2%|▏         | 2040/100000 [1:07:44<60:13:25,  2.21s/it]  2%|▏         | 2041/100000 [1:07:46<56:44:32,  2.09s/it]                                                            2%|▏         | 2041/100000 [1:07:46<56:44:32,  2.09s/it]  2%|▏         | 2042/100000 [1:07:47<53:48:11,  1.98s/it]                                                            2%|▏         | 2042/100000 [1:07:47<53:48:11,  1.98s/it]  2%|▏         | 2043/100000 [1:07:49<51:21:05,  1.89s/it]                                                            2%|▏         | 2043/100000 [1:07:49<51:21:05,  1.89s/it]  2%|▏         | 2044/100000 [1:07:51<49:07:50,  1.81s/it]                                                            2%|▏         | 2044/100000 [1:07:51<49:07:50,  1.81s/it]  2%|▏         | 2045/100000 [1:07:52<47:22:43,  1.74s/it]                                                            2%|▏         | 2045/100000 [1:07:52<47:22:43,  1.74s/it]  2%|▏         | 2046/100000 [1:07:54<45:12:08,  1.66s/it]                                                            2%|▏         | 2046/100000 [1:07:54<45:12:08,  1.66s/it]  2%|▏         | 2047/100000 [1:07:55<43:24:43,  1.60s/it]                                                            2%|▏         | 2047/100000 [1:07:55<43:24:43,  1.60s/it]  2%|▏         | 2048/100000 [1:07:57<42:28:47,  1.56s/it]                                                            2%|▏         | 2048/100000 [1:07:57<42:28:47,  1.56s/it]  2%|▏         | 2049/100000 [1:07:58<41:06:48,  1.51s/it]                                                            2%|▏         | 2049/100000 [1:07:58<41:06:48,  1.51s/it]  2%|▏         | 2050/100000 [1:07:59<39:59:23,  1.47s/it]                                                            2%|▏         | 2050/100000 [1:07:59<39:59:23,  1.47s/it]  2%|▏         | 2051/100000 [1:08:01<39:19:35,  1.45s/it]                                                            2%|▏         | 2051/100000 [1:08:01<39:19:35,  1.45s/it]  2%|▏         | 2052/100000 [1:08:02<38:35:49,  1.42s/it]                                                            2%|▏         | 2052/100000 [1:08:02<38:35:49,  1.42s/it]  2%|▏         | 2053/100000 [1:08:03<37:56:11,  1.39s/it]                                                            2%|▏         | 2053/100000 [1:08:03<37:56:11,  1.39s/it]  2%|▏         | 2054/100000 [1:08:05<36:52:30,  1.36s/it]                                                            2%|▏         | 2054/100000 [1:08:05<36:52:30,  1.36s/it]  2%|▏         | 2055/100000 [1:08:06<36:23:15,  1.34s/it]                                                            2%|▏         | 2055/100000 [1:08:06<36:23:15,  1.34s/it]  2%|▏         | 2056/100000 [1:08:07<35:43:50,  1.31s/it]                                                            2%|▏         | 2056/100000 [1:08:07<35:43:50,  1.31s/it]  2%|▏         | 2057/100000 [1:08:08<35:19:25,  1.30s/it]                                                            2%|▏         | 2057/100000 [1:08:08<35:19:25,  1.30s/it]  2%|▏         | 2058/100000 [1:08:10<34:40:00,  1.27s/it]                                                            2%|▏         | 2058/100000 [1:08:10<34:40:00,  1.27s/it]  2%|▏         | 2059/100000 [1:08:11<34:02:43,  1.25s/it]                                                            2%|▏         | 2059/100000 [1:08:11<34:02:43,  1.25s/it]  2%|▏         | 2060/100000 [1:08:12<33:31:40,  1.23s/it]                                                            2%|▏         | 2060/100000 [1:08:12<33:31:40,  1.23s/it]  2%|▏         | 2061/100000 [1:08:13<32:54:31,  1.21s/it]                                                            2%|▏         | 2061/100000 [1:08:13<32:54:31,  1.21s/it]  2%|▏         | 2062/100000 [1:08:14<32:33:50,  1.20s/it]                                                            2%|▏         | 2062/100000 [1:08:14<32:33:50,  1.20s/it]  2%|▏         | 2063/100000 [1:08:15<31:56:12,  1.17s/it]                                                            2%|▏         | 2063/100000 [1:08:15<31:56:12,  1.17s/it]  2%|▏         | 2064/100000 [1:08:17<31:36:20,  1.16s/it]                                                            2%|▏         | 2064/100000 [1:08:17<31:36:20,  1.16s/it]  2%|▏         | 2065/100000 [1:08:18<31:00:37,  1.14s/it]                                                            2%|▏         | 2065/100000 [1:08:18<31:00:37,  1.14s/it]  2%|▏         | 2066/100000 [1:08:19<30:46:27,  1.13s/it]                                                            2%|▏         | 2066/100000 [1:08:19<30:46:27,  1.13s/it]  2%|▏         | 2067/100000 [1:08:20<30:33:01,  1.12s/it]                                                            2%|▏         | 2067/100000 [1:08:20<30:33:01,  1.12s/it]  2%|▏         | 2068/100000 [1:08:21<29:54:58,  1.10s/it]                                                            2%|▏         | 2068/100000 [1:08:21<29:54:58,  1.10s/it]  2%|▏         | 2069/100000 [1:08:22<29:52:58,  1.10s/it]                                                            2%|��         | 2069/100000 [1:08:22<29:52:58,  1.10s/it]  2%|▏         | 2070/100000 [1:08:23<29:49:20,  1.10s/it]                                                            2%|▏         | 2070/100000 [1:08:23<29:49:20,  1.10s/it]  2%|▏         | 2071/100000 [1:08:24<29:38:06,  1.09s/it]                                                            2%|▏         | 2071/100000 [1:08:24<29:38:06,  1.09s/it]  2%|▏         | 2072/100000 [1:08:25<29:03:41,  1.07s/it]                                                            2%|▏         | 2072/100000 [1:08:25<29:03:41,  1.07s/it]  2%|▏         | 2073/100000 [1:08:26<28:34:44,  1.05s/it]                                                            2%|▏         | 2073/100000 [1:08:26<28:34:44,  1.05s/it]  2%|▏         | 2074/100000 [1:08:27<27:58:23,  1.03s/it]                                                            2%|▏         | 2074/100000 [1:08:27<27:58:23,  1.03s/it]  2%|▏         | 2075/100000 [1:08:28<27:11:56,  1.00it/s]                                                            2%|▏         | 2075/100000 [1:08:28<27:11:56,  1.00it/s]  2%|▏         | 2076/100000 [1:08:29<25:52:47,  1.05it/s]                                                            2%|▏         | 2076/100000 [1:08:29<25:52:47,  1.05it/s]  2%|▏         | 2077/100000 [1:08:41<118:36:38,  4.36s/it]                                                             2%|▏         | 2077/100000 [1:08:41<118:36:38,  4.36s/it]  2%|▏         | 2078/100000 [1:08:46<124:54:20,  4.59s/it]                                                             2%|▏         | 2078/100000 [1:08:46<124:54:20,  4.59s/it]  2%|▏         | 2079/100000 [1:08:51<124:34:20,  4.58s/it]                                                             2%|▏         | 2079/100000 [1:08:51<124:34:20,  4.58s/it]  2%|▏         | 2080/100000 [1:08:55<120:14:15,  4.42s/it]                                                             2%|▏         | 2080/100000 [1:08:55<120:14:15,  4.42s/it]  2%|▏         | 2081/100000 [1:08:59<114:01:02,  4.19s/it]                                                             2%|▏         | 2081/100000 [1:08:59<114:01:02,  4.19s/it]  2%|▏         | 2082/100000 [1:09:02<107:16:51,  3.94s/it]                                                             2%|▏         | 2082/100000 [1:09:02<107:16:51,  3.94s/it]  2%|▏         | 2083/100000 [1:09:05<100:07:50,  3.68s/it]                                                             2%|▏         | 2083/100000 [1:09:05<100:07:50,  3.68s/it]  2%|▏         | 2084/100000 [1:09:08<91:25:32,  3.36s/it]                                                           {'eval_loss': 0.5228983163833618, 'eval_wer': 0.5397160399079048, 'eval_cer': 0.15273349405085931, 'eval_runtime': 15.933, 'eval_samples_per_second': 19.08, 'eval_steps_per_second': 0.628, 'epoch': 3.69}
+{'loss': 0.1102, 'grad_norm': 1.0816723108291626, 'learning_rate': 5.9940000000000005e-06, 'epoch': 3.69}
+{'loss': 0.1103, 'grad_norm': 1.175575852394104, 'learning_rate': 5.997e-06, 'epoch': 3.69}
+{'loss': 0.1206, 'grad_norm': 1.5876294374465942, 'learning_rate': 6e-06, 'epoch': 3.7}
+{'loss': 0.0987, 'grad_norm': 1.339050054550171, 'learning_rate': 6.003e-06, 'epoch': 3.7}
+{'loss': 0.0947, 'grad_norm': 2.4920217990875244, 'learning_rate': 6.006e-06, 'epoch': 3.7}
+{'loss': 0.1419, 'grad_norm': 1.912536859512329, 'learning_rate': 6.009e-06, 'epoch': 3.7}
+{'loss': 0.1129, 'grad_norm': 1.2025752067565918, 'learning_rate': 6.012e-06, 'epoch': 3.7}
+{'loss': 0.1331, 'grad_norm': 3.4578535556793213, 'learning_rate': 6.015000000000001e-06, 'epoch': 3.71}
+{'loss': 0.1541, 'grad_norm': 1.6533622741699219, 'learning_rate': 6.018e-06, 'epoch': 3.71}
+{'loss': 0.0943, 'grad_norm': 1.2792508602142334, 'learning_rate': 6.021e-06, 'epoch': 3.71}
+{'loss': 0.1202, 'grad_norm': 1.6220040321350098, 'learning_rate': 6.024e-06, 'epoch': 3.71}
+{'loss': 0.1145, 'grad_norm': 1.363448143005371, 'learning_rate': 6.027e-06, 'epoch': 3.71}
+{'loss': 0.083, 'grad_norm': 1.4746122360229492, 'learning_rate': 6.030000000000001e-06, 'epoch': 3.71}
+{'loss': 0.0927, 'grad_norm': 1.3242028951644897, 'learning_rate': 6.0330000000000005e-06, 'epoch': 3.72}
+{'loss': 0.112, 'grad_norm': 1.3828983306884766, 'learning_rate': 6.0359999999999995e-06, 'epoch': 3.72}
+{'loss': 0.1225, 'grad_norm': 1.7886730432510376, 'learning_rate': 6.039e-06, 'epoch': 3.72}
+{'loss': 0.0945, 'grad_norm': 4.497995853424072, 'learning_rate': 6.042e-06, 'epoch': 3.72}
+{'loss': 0.0997, 'grad_norm': 1.2448220252990723, 'learning_rate': 6.0450000000000006e-06, 'epoch': 3.72}
+{'loss': 0.1073, 'grad_norm': 1.299957513809204, 'learning_rate': 6.048e-06, 'epoch': 3.73}
+{'loss': 0.1206, 'grad_norm': 1.221881628036499, 'learning_rate': 6.051e-06, 'epoch': 3.73}
+{'loss': 0.1125, 'grad_norm': 1.9921565055847168, 'learning_rate': 6.054e-06, 'epoch': 3.73}
+{'loss': 0.0999, 'grad_norm': 1.4520527124404907, 'learning_rate': 6.057e-06, 'epoch': 3.73}
+{'loss': 0.1016, 'grad_norm': 1.3707276582717896, 'learning_rate': 6.0600000000000004e-06, 'epoch': 3.73}
+{'loss': 0.1095, 'grad_norm': 1.359123945236206, 'learning_rate': 6.063e-06, 'epoch': 3.73}
+{'loss': 0.143, 'grad_norm': 3.0324485301971436, 'learning_rate': 6.066e-06, 'epoch': 3.74}
+{'loss': 0.1456, 'grad_norm': 2.0628585815429688, 'learning_rate': 6.069000000000001e-06, 'epoch': 3.74}
+{'loss': 0.5264, 'grad_norm': 5.545530319213867, 'learning_rate': 6.072e-06, 'epoch': 3.74}
+{'loss': 0.542, 'grad_norm': 2.2468793392181396, 'learning_rate': 6.075e-06, 'epoch': 3.74}
+{'loss': 0.3783, 'grad_norm': 1.6987916231155396, 'learning_rate': 6.078e-06, 'epoch': 3.74}
+{'loss': 0.426, 'grad_norm': 1.487799882888794, 'learning_rate': 6.081e-06, 'epoch': 3.75}
+{'loss': 0.3765, 'grad_norm': 1.8354527950286865, 'learning_rate': 6.0840000000000005e-06, 'epoch': 3.75}
+{'loss': 0.2697, 'grad_norm': 1.3133721351623535, 'learning_rate': 6.087e-06, 'epoch': 3.75}
+{'loss': 0.4274, 'grad_norm': 1.655531406402588, 'learning_rate': 6.090000000000001e-06, 'epoch': 3.75}
+{'loss': 0.3198, 'grad_norm': 1.0694929361343384, 'learning_rate': 6.093e-06, 'epoch': 3.75}
+{'loss': 0.3143, 'grad_norm': 1.8194829225540161, 'learning_rate': 6.096e-06, 'epoch': 3.76}
+{'loss': 0.2571, 'grad_norm': 1.8747495412826538, 'learning_rate': 6.099e-06, 'epoch': 3.76}
+{'loss': 0.2237, 'grad_norm': 1.4677729606628418, 'learning_rate': 6.102e-06, 'epoch': 3.76}
+{'loss': 0.2766, 'grad_norm': 1.2673132419586182, 'learning_rate': 6.105e-06, 'epoch': 3.76}
+{'loss': 0.3313, 'grad_norm': 2.505880117416382, 'learning_rate': 6.108000000000001e-06, 'epoch': 3.76}
+{'loss': 0.1818, 'grad_norm': 2.244453191757202, 'learning_rate': 6.111e-06, 'epoch': 3.76}
+{'loss': 0.1676, 'grad_norm': 1.4449100494384766, 'learning_rate': 6.114e-06, 'epoch': 3.77}
+{'loss': 0.128, 'grad_norm': 1.4164530038833618, 'learning_rate': 6.117e-06, 'epoch': 3.77}
+{'loss': 0.1526, 'grad_norm': 1.2722538709640503, 'learning_rate': 6.12e-06, 'epoch': 3.77}
+{'loss': 0.1081, 'grad_norm': 1.0496044158935547, 'learning_rate': 6.1230000000000005e-06, 'epoch': 3.77}
+{'loss': 0.1203, 'grad_norm': 0.9792291522026062, 'learning_rate': 6.126e-06, 'epoch': 3.77}
+{'loss': 0.0942, 'grad_norm': 0.8785455822944641, 'learning_rate': 6.129e-06, 'epoch': 3.78}
+{'loss': 0.1138, 'grad_norm': 2.594404935836792, 'learning_rate': 6.132e-06, 'epoch': 3.78}
+{'loss': 0.1122, 'grad_norm': 1.3891233205795288, 'learning_rate': 6.135e-06, 'epoch': 3.78}
+{'loss': 0.1289, 'grad_norm': 1.6807653903961182, 'learning_rate': 6.138e-06, 'epoch': 3.78}
+{'loss': 0.1294, 'grad_norm': 1.5894526243209839, 'learning_rate': 6.141e-06, 'epoch': 3.78}
+{'loss': 0.1347, 'grad_norm': 1.5388537645339966, 'learning_rate': 6.144000000000001e-06, 'epoch': 3.78}
+{'loss': 0.0983, 'grad_norm': 1.0728822946548462, 'learning_rate': 6.147e-06, 'epoch': 3.79}
+{'loss': 0.1288, 'grad_norm': 1.2530133724212646, 'learning_rate': 6.1499999999999996e-06, 'epoch': 3.79}
+{'loss': 0.101, 'grad_norm': 1.2521809339523315, 'learning_rate': 6.153e-06, 'epoch': 3.79}
+{'loss': 0.0842, 'grad_norm': 1.032920002937317, 'learning_rate': 6.156e-06, 'epoch': 3.79}
+{'loss': 0.0904, 'grad_norm': 1.201108694076538, 'learning_rate': 6.159000000000001e-06, 'epoch': 3.79}
+{'loss': 0.0745, 'grad_norm': 1.3609286546707153, 'learning_rate': 6.1620000000000005e-06, 'epoch': 3.8}
+{'loss': 0.1081, 'grad_norm': 1.2280689477920532, 'learning_rate': 6.164999999999999e-06, 'epoch': 3.8}
+{'loss': 0.1182, 'grad_norm': 1.2103352546691895, 'learning_rate': 6.168e-06, 'epoch': 3.8}
+{'loss': 0.1004, 'grad_norm': 1.2055014371871948, 'learning_rate': 6.171e-06, 'epoch': 3.8}
+{'loss': 0.1044, 'grad_norm': 1.1704323291778564, 'learning_rate': 6.1740000000000005e-06, 'epoch': 3.8}
+{'loss': 0.0929, 'grad_norm': 1.461685061454773, 'learning_rate': 6.177e-06, 'epoch': 3.81}
+{'loss': 0.1194, 'grad_norm': 1.297804594039917, 'learning_rate': 6.18e-06, 'epoch': 3.81}
+{'loss': 0.1522, 'grad_norm': 2.321072816848755, 'learning_rate': 6.183e-06, 'epoch': 3.81}
+{'loss': 0.0904, 'grad_norm': 1.7555663585662842, 'learning_rate': 6.186e-06, 'epoch': 3.81}
+{'loss': 0.1416, 'grad_norm': 1.1725404262542725, 'learning_rate': 6.189e-06, 'epoch': 3.81}
+{'loss': 0.1405, 'grad_norm': 1.6720110177993774, 'learning_rate': 6.192e-06, 'epoch': 3.81}
+{'loss': 0.0963, 'grad_norm': 1.382629632949829, 'learning_rate': 6.195e-06, 'epoch': 3.82}
+{'loss': 0.0951, 'grad_norm': 1.3463071584701538, 'learning_rate': 6.198000000000001e-06, 'epoch': 3.82}
+{'loss': 0.0903, 'grad_norm': 1.4168822765350342, 'learning_rate': 6.201e-06, 'epoch': 3.82}
+{'loss': 0.0922, 'grad_norm': 1.5806570053100586, 'learning_rate': 6.204e-06, 'epoch': 3.82}
+{'loss': 0.1037, 'grad_norm': 1.9736270904541016, 'learning_rate': 6.207e-06, 'epoch': 3.82}
+{'loss': 0.0986, 'grad_norm': 1.1318566799163818, 'learning_rate': 6.21e-06, 'epoch': 3.83}
+{'loss': 0.1275, 'grad_norm': 1.464217185974121, 'learning_rate': 6.2130000000000005e-06, 'epoch': 3.83}
+{'loss': 0.132, 'grad_norm': 2.048211097717285, 'learning_rate': 6.216e-06, 'epoch': 3.83}
+{'loss': 0.1212, 'grad_norm': 2.4093711376190186, 'learning_rate': 6.219000000000001e-06, 'epoch': 3.83}
+{'loss': 0.4919, 'grad_norm': 1.6214300394058228, 'learning_rate': 6.222e-06, 'epoch': 3.83}
+{'loss': 0.3767, 'grad_norm': 1.7599939107894897, 'learning_rate': 6.225e-06, 'epoch': 3.83}
+{'loss': 0.4679, 'grad_norm': 3.717496871948242, 'learning_rate': 6.228e-06, 'epoch': 3.84}
+{'loss': 0.4594, 'grad_norm': 1.5492913722991943, 'learning_rate': 6.231e-06, 'epoch': 3.84}
+{'loss': 0.3923, 'grad_norm': 1.411643147468567, 'learning_rate': 6.234000000000001e-06, 'epoch': 3.84}
+{'loss': 0.2718, 'grad_norm': 1.8489406108856201, 'learning_rate': 6.237000000000001e-06, 'epoch': 3.84}
+{'loss': 0.3215, 'grad_norm': 1.3735231161117554, 'learning_rate': 6.2399999999999995e-06, 'epoch': 3.84}
+  2%|▏         | 2084/100000 [1:09:08<91:25:32,  3.36s/it]  2%|▏         | 2085/100000 [1:09:10<85:41:11,  3.15s/it]                                                            2%|▏         | 2085/100000 [1:09:10<85:41:11,  3.15s/it]  2%|▏         | 2086/100000 [1:09:13<79:34:16,  2.93s/it]                                                            2%|▏         | 2086/100000 [1:09:13<79:34:16,  2.93s/it]  2%|▏         | 2087/100000 [1:09:15<74:06:37,  2.72s/it]                                                            2%|▏         | 2087/100000 [1:09:15<74:06:37,  2.72s/it]  2%|▏         | 2088/100000 [1:09:17<69:13:08,  2.55s/it]                                                            2%|▏         | 2088/100000 [1:09:17<69:13:08,  2.55s/it]  2%|▏         | 2089/100000 [1:09:19<64:33:47,  2.37s/it]                                                            2%|▏         | 2089/100000 [1:09:19<64:33:47,  2.37s/it]  2%|▏         | 2090/100000 [1:09:21<60:26:44,  2.22s/it]                                                            2%|▏         | 2090/100000 [1:09:21<60:26:44,  2.22s/it]  2%|▏         | 2091/100000 [1:09:23<56:43:19,  2.09s/it]                                                            2%|▏         | 2091/100000 [1:09:23<56:43:19,  2.09s/it]  2%|▏         | 2092/100000 [1:09:25<53:31:18,  1.97s/it]                                                            2%|▏         | 2092/100000 [1:09:25<53:31:18,  1.97s/it]  2%|▏         | 2093/100000 [1:09:26<50:28:47,  1.86s/it]                                                            2%|▏         | 2093/100000 [1:09:26<50:28:47,  1.86s/it]  2%|▏         | 2094/100000 [1:09:28<48:39:04,  1.79s/it]                                                            2%|▏         | 2094/100000 [1:09:28<48:39:04,  1.79s/it]  2%|▏         | 2095/100000 [1:09:29<46:23:30,  1.71s/it]                                                            2%|▏         | 2095/100000 [1:09:29<46:23:30,  1.71s/it]  2%|▏         | 2096/100000 [1:09:31<44:50:43,  1.65s/it]                                                            2%|▏         | 2096/100000 [1:09:31<44:50:43,  1.65s/it]  2%|▏         | 2097/100000 [1:09:32<43:24:13,  1.60s/it]                                                            2%|▏         | 2097/100000 [1:09:32<43:24:13,  1.60s/it]  2%|▏         | 2098/100000 [1:09:34<41:55:45,  1.54s/it]                                                            2%|▏         | 2098/100000 [1:09:34<41:55:45,  1.54s/it]  2%|▏         | 2099/100000 [1:09:35<40:58:36,  1.51s/it]                                                            2%|▏         | 2099/100000 [1:09:35<40:58:36,  1.51s/it]  2%|▏         | 2100/100000 [1:09:36<39:52:31,  1.47s/it]                                                            2%|▏         | 2100/100000 [1:09:36<39:52:31,  1.47s/it]  2%|▏         | 2101/100000 [1:09:38<39:06:04,  1.44s/it]                                                            2%|▏         | 2101/100000 [1:09:38<39:06:04,  1.44s/it]  2%|▏         | 2102/100000 [1:09:39<38:00:08,  1.40s/it]                                                            2%|▏         | 2102/100000 [1:09:39<38:00:08,  1.40s/it]  2%|▏         | 2103/100000 [1:09:40<37:27:47,  1.38s/it]                                                            2%|▏         | 2103/100000 [1:09:40<37:27:47,  1.38s/it]  2%|▏         | 2104/100000 [1:09:42<36:50:34,  1.35s/it]                                                            2%|▏         | 2104/100000 [1:09:42<36:50:34,  1.35s/it]  2%|▏         | 2105/100000 [1:09:43<36:35:32,  1.35s/it]                                                            2%|▏         | 2105/100000 [1:09:43<36:35:32,  1.35s/it]  2%|▏         | 2106/100000 [1:09:44<36:04:19,  1.33s/it]                                                            2%|▏         | 2106/100000 [1:09:44<36:04:19,  1.33s/it]  2%|▏         | 2107/100000 [1:09:46<35:17:38,  1.30s/it]                                                            2%|▏         | 2107/100000 [1:09:46<35:17:38,  1.30s/it]  2%|▏         | 2108/100000 [1:09:47<34:26:46,  1.27s/it]                                                            2%|▏         | 2108/100000 [1:09:47<34:26:46,  1.27s/it]  2%|▏         | 2109/100000 [1:09:48<34:05:45,  1.25s/it]                                                            2%|▏         | 2109/100000 [1:09:48<34:05:45,  1.25s/it]  2%|▏         | 2110/100000 [1:09:49<33:33:35,  1.23s/it]                                                            2%|▏         | 2110/100000 [1:09:49<33:33:35,  1.23s/it]  2%|▏         | 2111/100000 [1:09:50<33:04:58,  1.22s/it]                                                            2%|▏         | 2111/100000 [1:09:50<33:04:58,  1.22s/it]  2%|▏         | 2112/100000 [1:09:52<32:35:55,  1.20s/it]                                                            2%|▏         | 2112/100000 [1:09:52<32:35:55,  1.20s/it]  2%|▏         | 2113/100000 [1:09:53<32:04:12,  1.18s/it]                                                            2%|▏         | 2113/100000 [1:09:53<32:04:12,  1.18s/it]  2%|▏         | 2114/100000 [1:09:54<31:42:26,  1.17s/it]                                                            2%|▏         | 2114/100000 [1:09:54<31:42:26,  1.17s/it]  2%|▏         | 2115/100000 [1:09:55<31:15:25,  1.15s/it]                                                            2%|▏         | 2115/100000 [1:09:55<31:15:25,  1.15s/it]  2%|▏         | 2116/100000 [1:09:56<30:54:04,  1.14s/it]                                                            2%|▏         | 2116/100000 [1:09:56<30:54:04,  1.14s/it]  2%|▏         | 2117/100000 [1:09:57<30:32:36,  1.12s/it]                                                            2%|▏         | 2117/100000 [1:09:57<30:32:36,  1.12s/it]  2%|▏         | 2118/100000 [1:09:58<30:03:42,  1.11s/it]                                                            2%|▏         | 2118/100000 [1:09:58<30:03:42,  1.11s/it]  2%|▏         | 2119/100000 [1:09:59<29:28:38,  1.08s/it]                                                            2%|▏         | 2119/100000 [1:09:59<29:28:38,  1.08s/it]  2%|▏         | 2120/100000 [1:10:00<29:01:32,  1.07s/it]                                                            2%|▏         | 2120/100000 [1:10:00<29:01:32,  1.07s/it]  2%|▏         | 2121/100000 [1:10:01<28:07:50,  1.03s/it]                                                            2%|▏         | 2121/100000 [1:10:01<28:07:50,  1.03s/it]  2%|▏         | 2122/100000 [1:10:02<27:26:57,  1.01s/it]                                                            2%|▏         | 2122/100000 [1:10:02<27:26:57,  1.01s/it]  2%|▏         | 2123/100000 [1:10:03<27:07:14,  1.00it/s]                                                            2%|▏         | 2123/100000 [1:10:03<27:07:14,  1.00it/s]  2%|▏         | 2124/100000 [1:10:04<26:43:51,  1.02it/s]                                                            2%|▏         | 2124/100000 [1:10:04<26:43:51,  1.02it/s]  2%|▏         | 2125/100000 [1:10:05<26:07:33,  1.04it/s]                                                            2%|▏         | 2125/100000 [1:10:05<26:07:33,  1.04it/s]  2%|▏         | 2126/100000 [1:10:06<25:15:00,  1.08it/s]                                                            2%|▏         | 2126/100000 [1:10:06<25:15:00,  1.08it/s]  2%|▏         | 2127/100000 [1:10:16<98:14:38,  3.61s/it]                                                            2%|▏         | 2127/100000 [1:10:16<98:14:38,  3.61s/it]  2%|▏         | 2128/100000 [1:10:21<112:09:57,  4.13s/it]                                                             2%|▏         | 2128/100000 [1:10:21<112:09:57,  4.13s/it]  2%|▏         | 2129/100000 [1:10:26<116:12:35,  4.27s/it]                                                             2%|▏         | 2129/100000 [1:10:26<116:12:35,  4.27s/it]  2%|▏         | 2130/100000 [1:10:30<113:07:32,  4.16s/it]                                                             2%|▏         | 2130/100000 [1:10:30<113:07:32,  4.16s/it]  2%|▏         | 2131/100000 [1:10:33<106:20:51,  3.91s/it]                                                             2%|▏         | 2131/100000 [1:10:33<106:20:51,  3.91s/it]  2%|▏         | 2132/100000 [1:10:36<99:42:55,  3.67s/it]                                                             2%|▏         | 2132/100000 [1:10:36<99:42:55,  3.67s/it]  2%|▏         | 2133/100000 [1:10:39<92:22:52,  3.40s/it]                                                            2%|▏         | 2133/100000 [1:10:39<92:22:52,  3.40s/it]  2%|▏         | 2134/100000 [1:10:41<84:42:07,  3.12s/it]                                                            2%|▏         | 2134/100000 [1:10:41<84:42:07,  3.12s/it]  2%|▏         | 2135/100000 [1:10:44<78:21:41,  2.88s/it]                                                            2%|▏         | 2135/100000 [1:10:44<78:21:41,  2.88s/it]  2%|▏         | 2136/100000 [1:10:46<71:09:19,  2.62s/it]                                                            2%|▏         | 2136/100000 [1:10:46<71:09:19,  2.62s/it]  2%|▏         | 2137/100000 [1:10:47<65:11:22,  2.40s/it]                                                            2%|▏         | 2137/100000 [1:10:47<65:11:22,  2.40s/it]  2%|▏         | 2138/100000 [1:10:49<60:33:25,  2.23s/it]                                                            2%|▏         | 2138/100000 [1:10:49<60:33:25,  2.23s/it]  2%|▏         | 2139/100000 [1:10:51<55:57:55,  2.06s/it]                                                            2%|▏         | 2139/100000 [1:10:51<55:57:55,  2.06s/it]  2%|▏         | 2140/100000 [1:10:53<52:11:02,  1.92s/it]                                                            2%|▏         | 2140/100000 [1:10:53<52:11:02,  1.92s/it]  2%|▏         | 2141/100000 [1:10:54<49:40:38,  1.83s/it]                                                            2%|▏         | 2141/100000 [1:10:54<49:40:38,  1.83s/it]  2%|▏         | 2142/100000 [1:10:56<46:51:20,  1.72s/it]                                                            2%|▏         | 2142/100000 [1:10:56<46:51:20,  1.72s/it]  2%|▏         | 2143/100000 [1:10:57<44:17:32,  1.63s/it]                                                            2%|▏         | 2143/100000 [1:10:57<44:17:32,  1.63s/it]  2%|▏         | 2144/100000 [1:10:58<43:04:38,  1.58s/it]                                                            2%|▏         | 2144/100000 [1:10:58<43:04:38,  1.58s/it]  2%|▏         | 2145/100000 [1:11:00<41:47:30,  1.54s/it]                                                            2%|▏         | 2145/100000 [1:11:00<41:47:30,  1.54s/it]  2%|▏         | 2146/100000 [1:11:01<40:22:14,  1.49s/it]                                                            2%|▏         | 2146/100000 [1:11:01<40:22:14,  1.49s/it]  2%|▏         | 2147/100000 [1:11:03<39:11:03,  1.44s/it]                                                            2%|▏         | 2147/100000 [1:11:03<39:11:03,  1.44s/it]  2%|▏         | 2148/100000 [1:11:04<38:27:17,  1.41s/it]                                                            2%|▏         | 2148/100000 [1:11:04<38:27:17,  1.41s/it]  2%|▏         | 2149/100000 [1:11:05<37:26:36,  1.38s/it]                                                            2%|▏         | 2149/100000 [1:11:05<37:26:36,  1.38s/it]  2%|▏         | 2150/100000 [1:11:07<36:51:10,  1.36s/it]                                                            2%|▏         | 2150/100000 [1:11:07<36:51:10,  1.36s/it]  2%|▏         | 2151/100000 [1:11:08<36:11:12,  1.33s/it]                                                            2%|▏         | 2151/100000 [1:11:08<36:11:12,  1.33s/it]  2%|▏         | 2152/100000 [1:11:09<35:16:59,  1.30s/it]                                                            2%|▏         | 2152/100000 [1:11:09<35:16:59,  1.30s/it]  2%|▏         | 2153/100000 [1:11:10<34:46:29,  1.28s/it]                                                            2%|▏         | 2153/100000 [1:11:10<34:46:29,  1.28s/it]  2%|▏         | 2154/100000 [1:11:12<34:05:18,  1.25s/it]                                                            2%|▏         | 2154/100000 [1:11:12<34:05:18,  1.25s/it]  2%|▏         | 2155/100000 [1:11:13<33:25:37,  1.23s/it]                                                            2%|▏         | 2155/100000 [1:11:13<33:25:37,  1.23s/it]  2%|▏         | 2156/100000 [1:11:14<32:50:52,  1.21s/it]                                                            2%|▏         | 2156/100000 [1:11:14<32:50:52,  1.21s/it]  2%|▏         | 2157/100000 [1:11:15<32:16:04,  1.19s/it]                                                            2%|▏         | 2157/100000 [1:11:15<32:16:04,  1.19s/it]  2%|▏         | 2158/100000 [1:11:16<31:41:23,  1.17s/it]                                                            2%|▏         | 2158/100000 [1:11:16<31:41:23,  1.17s/it]  2%|▏         | 2159/100000 [1:11:17<31:07:38,  1.15s/it]                                                            2%|▏         | 2159/100000 [1:11:17<31:07:38,  1.15s/it]  2%|▏         | 2160/100000 [1:11:18<30:40:21,  1.13s/it]                                                            2%|▏         | 2160/100000 [1:11:18<30:40:21,  1.13s/it]  2%|▏         | 2161/100000 [1:11:19<30:12:36,  1.11s/it]                                                            2%|▏         | 2161/100000 [1:11:19<30:12:36,  1.11s/it]  2%|▏         | 2162/100000 [1:11:20<29:27:30,  1.08s/it]                                                            2%|▏         | 2162/100000 [1:11:20<29:27:30,  1.08s/it]  2%|▏         | 2163/100000 [1:11:21<28:41:40,  1.06s/it]                                                            2%|▏         | 2163/100000 [1:11:21<28:41:40,  1.06s/it]  2%|▏         | 2164/100000 [1:11:22<28:10:42,  1.04s/it]                                                            2%|▏         | 2164/100000 [1:11:22<28:10:42,  1.04s/it]  2%|▏         | 2165/100000 [1:11:23<27:34:55,  1.01s/it]                                                            2%|▏         | 2165/100000 [1:11:23<27:34:55,  1.01s/it]  2%|▏         | 2166/100000 [1:11:24<27:00:56,  1.01it/s]                                                            2%|▏         | 2166/100000 [1:11:24<27:00:56,  1.01it/s]  2%|▏         | 2167/100000 [1:11:25<26:07:36,  1.04it/s]                                                            2%|▏         | 2167/100000 [1:11:25<26:07:36,  1.04it/s]  2%|▏         | 2168/100000 [1:11:26<24:05:03,  1.13it/s]                                                            2%|▏         | 2168/100000 [1:11:26<24:05:03,  1.13it/s]{'loss': 0.2696, 'grad_norm': 1.6795915365219116, 'learning_rate': 6.243e-06, 'epoch': 3.85}
+{'loss': 0.3077, 'grad_norm': 1.3095409870147705, 'learning_rate': 6.246e-06, 'epoch': 3.85}
+{'loss': 0.2491, 'grad_norm': 1.792952537536621, 'learning_rate': 6.249000000000001e-06, 'epoch': 3.85}
+{'loss': 0.2769, 'grad_norm': 1.0679808855056763, 'learning_rate': 6.2520000000000004e-06, 'epoch': 3.85}
+{'loss': 0.2073, 'grad_norm': 1.1066974401474, 'learning_rate': 6.255e-06, 'epoch': 3.85}
+{'loss': 0.3588, 'grad_norm': 2.68408465385437, 'learning_rate': 6.258e-06, 'epoch': 3.86}
+{'loss': 0.2474, 'grad_norm': 5.881558895111084, 'learning_rate': 6.261e-06, 'epoch': 3.86}
+{'loss': 0.1647, 'grad_norm': 1.1949398517608643, 'learning_rate': 6.2640000000000005e-06, 'epoch': 3.86}
+{'loss': 0.1624, 'grad_norm': 2.1825714111328125, 'learning_rate': 6.267e-06, 'epoch': 3.86}
+{'loss': 0.1243, 'grad_norm': 4.6003546714782715, 'learning_rate': 6.27e-06, 'epoch': 3.86}
+{'loss': 0.1175, 'grad_norm': 1.0134408473968506, 'learning_rate': 6.273000000000001e-06, 'epoch': 3.86}
+{'loss': 0.0978, 'grad_norm': 1.549644112586975, 'learning_rate': 6.276e-06, 'epoch': 3.87}
+{'loss': 0.1493, 'grad_norm': 1.3444812297821045, 'learning_rate': 6.279e-06, 'epoch': 3.87}
+{'loss': 0.1069, 'grad_norm': 1.0612382888793945, 'learning_rate': 6.282e-06, 'epoch': 3.87}
+{'loss': 0.1083, 'grad_norm': 1.1147220134735107, 'learning_rate': 6.285e-06, 'epoch': 3.87}
+{'loss': 0.0893, 'grad_norm': 1.3620564937591553, 'learning_rate': 6.288000000000001e-06, 'epoch': 3.87}
+{'loss': 0.1036, 'grad_norm': 3.2398104667663574, 'learning_rate': 6.291e-06, 'epoch': 3.88}
+{'loss': 0.1057, 'grad_norm': 1.14120614528656, 'learning_rate': 6.293999999999999e-06, 'epoch': 3.88}
+{'loss': 0.1245, 'grad_norm': 1.2740801572799683, 'learning_rate': 6.297e-06, 'epoch': 3.88}
+{'loss': 0.1275, 'grad_norm': 1.1721112728118896, 'learning_rate': 6.3e-06, 'epoch': 3.88}
+{'loss': 0.2154, 'grad_norm': 1.4239356517791748, 'learning_rate': 6.3030000000000005e-06, 'epoch': 3.88}
+{'loss': 0.0966, 'grad_norm': 1.0123012065887451, 'learning_rate': 6.306e-06, 'epoch': 3.88}
+{'loss': 0.1693, 'grad_norm': 1.8538200855255127, 'learning_rate': 6.309e-06, 'epoch': 3.89}
+{'loss': 0.0891, 'grad_norm': 0.9299476742744446, 'learning_rate': 6.312e-06, 'epoch': 3.89}
+{'loss': 0.1548, 'grad_norm': 1.3803143501281738, 'learning_rate': 6.315e-06, 'epoch': 3.89}
+{'loss': 0.072, 'grad_norm': 1.0537395477294922, 'learning_rate': 6.318e-06, 'epoch': 3.89}
+{'loss': 0.0819, 'grad_norm': 1.2850028276443481, 'learning_rate': 6.321e-06, 'epoch': 3.89}
+{'loss': 0.1024, 'grad_norm': 1.0578045845031738, 'learning_rate': 6.324e-06, 'epoch': 3.9}
+{'loss': 0.0915, 'grad_norm': 1.1398320198059082, 'learning_rate': 6.327000000000001e-06, 'epoch': 3.9}
+{'loss': 0.14, 'grad_norm': 1.2906196117401123, 'learning_rate': 6.3299999999999995e-06, 'epoch': 3.9}
+{'loss': 0.0972, 'grad_norm': 1.2287468910217285, 'learning_rate': 6.333e-06, 'epoch': 3.9}
+{'loss': 0.0845, 'grad_norm': 1.1388696432113647, 'learning_rate': 6.336e-06, 'epoch': 3.9}
+{'loss': 0.0994, 'grad_norm': 1.6295071840286255, 'learning_rate': 6.339e-06, 'epoch': 3.9}
+{'loss': 0.094, 'grad_norm': 1.361403226852417, 'learning_rate': 6.3420000000000004e-06, 'epoch': 3.91}
+{'loss': 0.1288, 'grad_norm': 1.7775616645812988, 'learning_rate': 6.345e-06, 'epoch': 3.91}
+{'loss': 0.1267, 'grad_norm': 1.6608407497406006, 'learning_rate': 6.348000000000001e-06, 'epoch': 3.91}
+{'loss': 0.1085, 'grad_norm': 2.0776705741882324, 'learning_rate': 6.351e-06, 'epoch': 3.91}
+{'loss': 0.114, 'grad_norm': 1.467939853668213, 'learning_rate': 6.354e-06, 'epoch': 3.91}
+{'loss': 0.1166, 'grad_norm': 1.66560697555542, 'learning_rate': 6.357e-06, 'epoch': 3.92}
+{'loss': 0.2089, 'grad_norm': 2.018527030944824, 'learning_rate': 6.36e-06, 'epoch': 3.92}
+{'loss': 0.0896, 'grad_norm': 1.6574705839157104, 'learning_rate': 6.363000000000001e-06, 'epoch': 3.92}
+{'loss': 0.1261, 'grad_norm': 1.3335787057876587, 'learning_rate': 6.3660000000000005e-06, 'epoch': 3.92}
+{'loss': 0.1744, 'grad_norm': 1.821389079093933, 'learning_rate': 6.3689999999999995e-06, 'epoch': 3.92}
+{'loss': 0.5456, 'grad_norm': 3.1028544902801514, 'learning_rate': 6.372e-06, 'epoch': 3.93}
+{'loss': 0.4202, 'grad_norm': 1.4182378053665161, 'learning_rate': 6.375e-06, 'epoch': 3.93}
+{'loss': 0.3366, 'grad_norm': 1.26549232006073, 'learning_rate': 6.378000000000001e-06, 'epoch': 3.93}
+{'loss': 0.3467, 'grad_norm': 1.560637354850769, 'learning_rate': 6.381e-06, 'epoch': 3.93}
+{'loss': 0.4014, 'grad_norm': 2.5093820095062256, 'learning_rate': 6.384e-06, 'epoch': 3.93}
+{'loss': 0.2948, 'grad_norm': 1.0541409254074097, 'learning_rate': 6.387e-06, 'epoch': 3.93}
+{'loss': 0.2711, 'grad_norm': 1.5808500051498413, 'learning_rate': 6.39e-06, 'epoch': 3.94}
+{'loss': 0.2422, 'grad_norm': 1.3126081228256226, 'learning_rate': 6.3930000000000005e-06, 'epoch': 3.94}
+{'loss': 0.1848, 'grad_norm': 1.0315762758255005, 'learning_rate': 6.396e-06, 'epoch': 3.94}
+{'loss': 0.1908, 'grad_norm': 1.1984046697616577, 'learning_rate': 6.399e-06, 'epoch': 3.94}
+{'loss': 0.1425, 'grad_norm': 0.9420778155326843, 'learning_rate': 6.402000000000001e-06, 'epoch': 3.94}
+{'loss': 0.1209, 'grad_norm': 1.1212126016616821, 'learning_rate': 6.405e-06, 'epoch': 3.95}
+{'loss': 0.1815, 'grad_norm': 0.931004524230957, 'learning_rate': 6.408e-06, 'epoch': 3.95}
+{'loss': 0.0673, 'grad_norm': 0.990565836429596, 'learning_rate': 6.411e-06, 'epoch': 3.95}
+{'loss': 0.1226, 'grad_norm': 1.6753158569335938, 'learning_rate': 6.414e-06, 'epoch': 3.95}
+{'loss': 0.1283, 'grad_norm': 1.456681251525879, 'learning_rate': 6.4170000000000006e-06, 'epoch': 3.95}
+{'loss': 0.1209, 'grad_norm': 1.3051668405532837, 'learning_rate': 6.42e-06, 'epoch': 3.95}
+{'loss': 0.0885, 'grad_norm': 1.251253604888916, 'learning_rate': 6.423e-06, 'epoch': 3.96}
+{'loss': 0.1096, 'grad_norm': 1.232637882232666, 'learning_rate': 6.426e-06, 'epoch': 3.96}
+{'loss': 0.0987, 'grad_norm': 1.351613163948059, 'learning_rate': 6.429e-06, 'epoch': 3.96}
+{'loss': 0.0946, 'grad_norm': 1.1840687990188599, 'learning_rate': 6.432e-06, 'epoch': 3.96}
+{'loss': 0.1247, 'grad_norm': 1.0928349494934082, 'learning_rate': 6.435e-06, 'epoch': 3.96}
+{'loss': 0.1022, 'grad_norm': 1.0318615436553955, 'learning_rate': 6.438000000000001e-06, 'epoch': 3.97}
+{'loss': 0.0947, 'grad_norm': 0.8724531531333923, 'learning_rate': 6.441e-06, 'epoch': 3.97}
+{'loss': 0.0858, 'grad_norm': 1.2489190101623535, 'learning_rate': 6.444e-06, 'epoch': 3.97}
+{'loss': 0.0902, 'grad_norm': 1.392446517944336, 'learning_rate': 6.447e-06, 'epoch': 3.97}
+{'loss': 0.0871, 'grad_norm': 1.2182376384735107, 'learning_rate': 6.45e-06, 'epoch': 3.97}
+{'loss': 0.1234, 'grad_norm': 1.9293391704559326, 'learning_rate': 6.453000000000001e-06, 'epoch': 3.98}
+{'loss': 0.1224, 'grad_norm': 1.5359190702438354, 'learning_rate': 6.4560000000000005e-06, 'epoch': 3.98}
+{'loss': 0.1664, 'grad_norm': 1.3025881052017212, 'learning_rate': 6.4589999999999995e-06, 'epoch': 3.98}
+{'loss': 0.0904, 'grad_norm': 1.6642571687698364, 'learning_rate': 6.462e-06, 'epoch': 3.98}
+{'loss': 0.1102, 'grad_norm': 1.8174163103103638, 'learning_rate': 6.465e-06, 'epoch': 3.98}
+{'loss': 0.1019, 'grad_norm': 2.3735907077789307, 'learning_rate': 6.468000000000001e-06, 'epoch': 3.98}
+{'loss': 0.0737, 'grad_norm': 1.7283834218978882, 'learning_rate': 6.471e-06, 'epoch': 3.99}
+{'loss': 0.105, 'grad_norm': 5.035957336425781, 'learning_rate': 6.474e-06, 'epoch': 3.99}
+{'loss': 0.0946, 'grad_norm': 1.3808785676956177, 'learning_rate': 6.477000000000001e-06, 'epoch': 3.99}
+{'loss': 0.1027, 'grad_norm': 1.2071834802627563, 'learning_rate': 6.48e-06, 'epoch': 3.99}
+{'loss': 0.0779, 'grad_norm': 1.04526948928833, 'learning_rate': 6.483e-06, 'epoch': 3.99}
+{'loss': 0.1289, 'grad_norm': 1.663916826248169, 'learning_rate': 6.486e-06, 'epoch': 4.0}
+{'loss': 0.0969, 'grad_norm': 1.2232156991958618, 'learning_rate': 6.489e-06, 'epoch': 4.0}
+{'loss': 0.1221, 'grad_norm': 1.5424480438232422, 'learning_rate': 6.492000000000001e-06, 'epoch': 4.0}
+{'loss': 0.0528, 'grad_norm': 2.185368299484253, 'learning_rate': 6.4950000000000005e-06, 'epoch': 4.0}
+  2%|▏         | 2169/100000 [1:11:44<167:42:48,  6.17s/it]                                                             2%|▏         | 2169/100000 [1:11:44<167:42:48,  6.17s/it]  2%|▏         | 2170/100000 [1:11:50<166:05:04,  6.11s/it]                                                             2%|▏         | 2170/100000 [1:11:50<166:05:04,  6.11s/it]  2%|▏         | 2171/100000 [1:11:55<154:49:54,  5.70s/it]                                                             2%|▏         | 2171/100000 [1:11:55<154:49:54,  5.70s/it]  2%|▏         | 2172/100000 [1:11:59<140:44:34,  5.18s/it]                                                             2%|▏         | 2172/100000 [1:11:59<140:44:34,  5.18s/it]  2%|▏         | 2173/100000 [1:12:03<126:54:44,  4.67s/it]                                                             2%|▏         | 2173/100000 [1:12:03<126:54:44,  4.67s/it]  2%|▏         | 2174/100000 [1:12:06<114:28:07,  4.21s/it]                                                             2%|▏         | 2174/100000 [1:12:06<114:28:07,  4.21s/it]  2%|▏         | 2175/100000 [1:12:09<104:59:18,  3.86s/it]                                                             2%|▏         | 2175/100000 [1:12:09<104:59:18,  3.86s/it]  2%|▏         | 2176/100000 [1:12:11<95:24:04,  3.51s/it]                                                             2%|▏         | 2176/100000 [1:12:11<95:24:04,  3.51s/it]  2%|▏         | 2177/100000 [1:12:14<87:04:57,  3.20s/it]                                                            2%|▏         | 2177/100000 [1:12:14<87:04:57,  3.20s/it]  2%|▏         | 2178/100000 [1:12:16<80:17:54,  2.96s/it]                                                            2%|▏         | 2178/100000 [1:12:16<80:17:54,  2.96s/it]  2%|▏         | 2179/100000 [1:12:18<74:11:29,  2.73s/it]                                                            2%|▏         | 2179/100000 [1:12:18<74:11:29,  2.73s/it]  2%|▏         | 2180/100000 [1:12:21<69:19:01,  2.55s/it]                                                            2%|▏         | 2180/100000 [1:12:21<69:19:01,  2.55s/it]  2%|▏         | 2181/100000 [1:12:23<65:01:36,  2.39s/it]                                                            2%|▏         | 2181/100000 [1:12:23<65:01:36,  2.39s/it]  2%|▏         | 2182/100000 [1:12:25<60:52:35,  2.24s/it]                                                            2%|▏         | 2182/100000 [1:12:25<60:52:35,  2.24s/it]  2%|▏         | 2183/100000 [1:12:26<57:09:28,  2.10s/it]                                                            2%|▏         | 2183/100000 [1:12:26<57:09:28,  2.10s/it]  2%|▏         | 2184/100000 [1:12:28<53:35:45,  1.97s/it]                                                            2%|▏         | 2184/100000 [1:12:28<53:35:45,  1.97s/it]  2%|▏         | 2185/100000 [1:12:30<50:57:56,  1.88s/it]                                                            2%|▏         | 2185/100000 [1:12:30<50:57:56,  1.88s/it]  2%|▏         | 2186/100000 [1:12:31<48:32:43,  1.79s/it]                                                            2%|▏         | 2186/100000 [1:12:31<48:32:43,  1.79s/it]  2%|▏         | 2187/100000 [1:12:33<46:47:15,  1.72s/it]                                                            2%|▏         | 2187/100000 [1:12:33<46:47:15,  1.72s/it]  2%|▏         | 2188/100000 [1:12:34<44:56:34,  1.65s/it]                                                            2%|▏         | 2188/100000 [1:12:34<44:56:34,  1.65s/it]  2%|▏         | 2189/100000 [1:12:36<43:21:03,  1.60s/it]                                                            2%|▏         | 2189/100000 [1:12:36<43:21:03,  1.60s/it]  2%|▏         | 2190/100000 [1:12:37<41:50:30,  1.54s/it]                                                            2%|▏         | 2190/100000 [1:12:37<41:50:30,  1.54s/it]  2%|▏         | 2191/100000 [1:12:39<40:57:44,  1.51s/it]                                                            2%|▏         | 2191/100000 [1:12:39<40:57:44,  1.51s/it]  2%|▏         | 2192/100000 [1:12:40<39:54:34,  1.47s/it]                                                            2%|▏         | 2192/100000 [1:12:40<39:54:34,  1.47s/it]  2%|▏         | 2193/100000 [1:12:41<38:50:07,  1.43s/it]                                                            2%|▏         | 2193/100000 [1:12:41<38:50:07,  1.43s/it]  2%|▏         | 2194/100000 [1:12:43<38:15:15,  1.41s/it]                                                            2%|▏         | 2194/100000 [1:12:43<38:15:15,  1.41s/it]  2%|▏         | 2195/100000 [1:12:44<37:21:02,  1.37s/it]                                                            2%|▏         | 2195/100000 [1:12:44<37:21:02,  1.37s/it]  2%|▏         | 2196/100000 [1:12:45<36:41:23,  1.35s/it]                                                            2%|▏         | 2196/100000 [1:12:45<36:41:23,  1.35s/it]  2%|▏         | 2197/100000 [1:12:46<36:01:27,  1.33s/it]                                                            2%|▏         | 2197/100000 [1:12:46<36:01:27,  1.33s/it]  2%|▏         | 2198/100000 [1:12:48<35:43:54,  1.32s/it]                                                            2%|▏         | 2198/100000 [1:12:48<35:43:54,  1.32s/it]  2%|▏         | 2199/100000 [1:12:49<35:17:10,  1.30s/it]                                                            2%|▏         | 2199/100000 [1:12:49<35:17:10,  1.30s/it]  2%|▏         | 2200/100000 [1:12:50<34:29:34,  1.27s/it]                                                            2%|▏         | 2200/100000 [1:12:50<34:29:34,  1.27s/it]  2%|▏         | 2201/100000 [1:12:51<34:12:36,  1.26s/it]                                                            2%|▏         | 2201/100000 [1:12:51<34:12:36,  1.26s/it]  2%|▏         | 2202/100000 [1:12:53<33:34:29,  1.24s/it]                                                            2%|▏         | 2202/100000 [1:12:53<33:34:29,  1.24s/it]  2%|▏         | 2203/100000 [1:12:54<33:05:04,  1.22s/it]                                                            2%|▏         | 2203/100000 [1:12:54<33:05:04,  1.22s/it]  2%|▏         | 2204/100000 [1:12:55<32:13:25,  1.19s/it]                                                            2%|▏         | 2204/100000 [1:12:55<32:13:25,  1.19s/it]  2%|▏         | 2205/100000 [1:12:56<32:03:25,  1.18s/it]                                                            2%|▏         | 2205/100000 [1:12:56<32:03:25,  1.18s/it]  2%|▏         | 2206/100000 [1:12:57<31:29:43,  1.16s/it]                                                            2%|▏         | 2206/100000 [1:12:57<31:29:43,  1.16s/it]  2%|▏         | 2207/100000 [1:12:58<31:04:17,  1.14s/it]                                                            2%|▏         | 2207/100000 [1:12:58<31:04:17,  1.14s/it]  2%|▏         | 2208/100000 [1:12:59<30:33:31,  1.12s/it]                                                            2%|▏         | 2208/100000 [1:12:59<30:33:31,  1.12s/it]  2%|▏         | 2209/100000 [1:13:00<29:57:16,  1.10s/it]                                                            2%|▏         | 2209/100000 [1:13:00<29:57:16,  1.10s/it]  2%|▏         | 2210/100000 [1:13:02<29:33:52,  1.09s/it]                                                            2%|▏         | 2210/100000 [1:13:02<29:33:52,  1.09s/it]  2%|▏         | 2211/100000 [1:13:03<29:04:44,  1.07s/it]                                                            2%|▏         | 2211/100000 [1:13:03<29:04:44,  1.07s/it]  2%|▏         | 2212/100000 [1:13:04<28:30:26,  1.05s/it]                                                            2%|▏         | 2212/100000 [1:13:04<28:30:26,  1.05s/it]  2%|▏         | 2213/100000 [1:13:05<28:24:34,  1.05s/it]                                                            2%|▏         | 2213/100000 [1:13:05<28:24:34,  1.05s/it]  2%|▏         | 2214/100000 [1:13:06<27:51:37,  1.03s/it]                                                            2%|▏         | 2214/100000 [1:13:06<27:51:37,  1.03s/it]  2%|▏         | 2215/100000 [1:13:07<27:39:14,  1.02s/it]                                                            2%|▏         | 2215/100000 [1:13:07<27:39:14,  1.02s/it]  2%|▏         | 2216/100000 [1:13:08<27:14:37,  1.00s/it]                                                            2%|▏         | 2216/100000 [1:13:08<27:14:37,  1.00s/it]  2%|▏         | 2217/100000 [1:13:08<26:38:37,  1.02it/s]                                                            2%|▏         | 2217/100000 [1:13:08<26:38:37,  1.02it/s]  2%|▏         | 2218/100000 [1:13:09<26:09:31,  1.04it/s]                                                            2%|▏         | 2218/100000 [1:13:09<26:09:31,  1.04it/s]  2%|▏         | 2219/100000 [1:13:21<112:16:01,  4.13s/it]                                                             2%|▏         | 2219/100000 [1:13:21<112:16:01,  4.13s/it]  2%|▏         | 2220/100000 [1:13:27<125:59:40,  4.64s/it]                                                             2%|▏         | 2220/100000 [1:13:27<125:59:40,  4.64s/it]  2%|▏         | 2221/100000 [1:13:31<126:13:34,  4.65s/it]                                                             2%|▏         | 2221/100000 [1:13:31<126:13:34,  4.65s/it]  2%|▏         | 2222/100000 [1:13:36<122:11:28,  4.50s/it]                                                             2%|▏         | 2222/100000 [1:13:36<122:11:28,  4.50s/it]  2%|▏         | 2223/100000 [1:13:39<115:26:06,  4.25s/it]                                                             2%|▏         | 2223/100000 [1:13:39<115:26:06,  4.25s/it]  2%|▏         | 2224/100000 [1:13:43<107:50:26,  3.97s/it]                                                             2%|▏         | 2224/100000 [1:13:43<107:50:26,  3.97s/it]  2%|▏         | 2225/100000 [1:13:46<100:02:13,  3.68s/it]                                                             2%|▏         | 2225/100000 [1:13:46<100:02:13,  3.68s/it]  2%|▏         | 2226/100000 [1:13:48<93:04:01,  3.43s/it]                                                             2%|▏         | 2226/100000 [1:13:48<93:04:01,  3.43s/it]  2%|▏         | 2227/100000 [1:13:51<85:52:52,  3.16s/it]                                                            2%|▏         | 2227/100000 [1:13:51<85:52:52,  3.16s/it]  2%|▏         | 2228/100000 [1:13:53<79:24:44,  2.92s/it]                                                            2%|▏         | 2228/100000 [1:13:53<79:24:44,  2.92s/it]  2%|▏         | 2229/100000 [1:13:55<73:08:37,  2.69s/it]                                                            2%|▏         | 2229/100000 [1:13:55<73:08:37,  2.69s/it]  2%|▏         | 2230/100000 [1:13:57<67:52:48,  2.50s/it]                                                            2%|▏         | 2230/100000 [1:13:58<67:52:48,  2.50s/it]  2%|▏         | 2231/100000 [1:13:59<63:36:06,  2.34s/it]                                                            2%|��         | 2231/100000 [1:13:59<63:36:06,  2.34s/it]  2%|▏         | 2232/100000 [1:14:01<59:48:48,  2.20s/it]                                                            2%|▏         | 2232/100000 [1:14:01<59:48:48,  2.20s/it]  2%|▏         | 2233/100000 [1:14:03<55:46:58,  2.05s/it]                                                            2%|▏         | 2233/100000 [1:14:03<55:46:58,  2.05s/it]  2%|▏         | 2234/100000 [1:14:05<52:52:10,  1.95s/it]                                                            2%|▏         | 2234/100000 [1:14:05<52:52:10,  1.95s/it]  2%|▏         | 2235/100000 [1:14:06<50:29:45,  1.86s/it]                                                            2%|▏         | 2235/100000 [1:14:06<50:29:45,  1.86s/it]  2%|▏         | 2236/100000 [1:14:08<48:24:41,  1.78s/it]                                                            2%|▏         | 2236/100000 [1:14:08<48:24:41,  1.78s/it]  2%|▏         | 2237/100000 [1:14:10<46:32:54,  1.71s/it]                                                            2%|▏         | 2237/100000 [1:14:10<46:32:54,  1.71s/it]  2%|▏         | 2238/100000 [1:14:11<44:44:15,  1.65s/it]                                                            2%|▏         | 2238/100000 [1:14:11<44:44:15,  1.65s/it]  2%|▏         | 2239/100000 [1:14:12<42:56:29,  1.58s/it]                                                            2%|▏         | 2239/100000 [1:14:12<42:56:29,  1.58s/it]  2%|▏         | 2240/100000 [1:14:14<41:30:37,  1.53s/it]                                                            2%|▏         | 2240/100000 [1:14:14<41:30:37,  1.53s/it]  2%|▏         | 2241/100000 [1:14:15<40:39:43,  1.50s/it]                                                            2%|▏         | 2241/100000 [1:14:15<40:39:43,  1.50s/it]  2%|▏         | 2242/100000 [1:14:17<39:55:52,  1.47s/it]                                                            2%|▏         | 2242/100000 [1:14:17<39:55:52,  1.47s/it]  2%|▏         | 2243/100000 [1:14:18<39:12:56,  1.44s/it]                                                            2%|▏         | 2243/100000 [1:14:18<39:12:56,  1.44s/it]  2%|▏         | 2244/100000 [1:14:19<38:13:38,  1.41s/it]                                                            2%|▏         | 2244/100000 [1:14:19<38:13:38,  1.41s/it]  2%|▏         | 2245/100000 [1:14:21<37:44:48,  1.39s/it]                                                            2%|▏         | 2245/100000 [1:14:21<37:44:48,  1.39s/it]  2%|▏         | 2246/100000 [1:14:22<36:56:09,  1.36s/it]                                                            2%|▏         | 2246/100000 [1:14:22<36:56:09,  1.36s/it]  2%|▏         | 2247/100000 [1:14:23<36:32:59,  1.35s/it]                                                            2%|▏         | 2247/100000 [1:14:23<36:32:59,  1.35s/it]  2%|▏         | 2248/100000 [1:14:25<35:55:18,  1.32s/it]                                                            2%|▏         | 2248/100000 [1:14:25<35:55:18,  1.32s/it]  2%|▏         | 2249/100000 [1:14:26<35:24:57,  1.30s/it]                                                            2%|▏         | 2249/100000 [1:14:26<35:24:57,  1.30s/it]  2%|▏         | 2250/100000 [1:14:27<34:44:40,  1.28s/it]                                                            2%|▏         | 2250/100000 [1:14:27<34:44:40,  1.28s/it]  2%|▏         | 2251/100000 [1:14:28<34:10:44,  1.26s/it]                                                            2%|▏         | 2251/100000 [1:14:28<34:10:44,  1.26s/it]  2%|▏         | 2252/100000 [1:14:30<33:47:18,  1.24s/it]                                                            2%|▏         | 2252/100000 [1:14:30<33:47:18,  1.24s/it]  2%|▏         | 2253/100000 [1:14:31<33:02:10,  1.22s/it]                                                            2%|▏         | 2253/100000 [1:14:31<33:02:10,  1.22s/it]  2%|▏         | 2254/100000 [1:14:32<32:44:29,  1.21s/it]                                                          {'loss': 0.5474, 'grad_norm': 1.911673665046692, 'learning_rate': 6.4979999999999994e-06, 'epoch': 4.0}
+{'loss': 0.4573, 'grad_norm': 1.5852998495101929, 'learning_rate': 6.501e-06, 'epoch': 4.0}
+{'loss': 0.3894, 'grad_norm': 2.0277857780456543, 'learning_rate': 6.504e-06, 'epoch': 4.01}
+{'loss': 0.454, 'grad_norm': 2.6222214698791504, 'learning_rate': 6.5070000000000005e-06, 'epoch': 4.01}
+{'loss': 0.3785, 'grad_norm': 1.520296573638916, 'learning_rate': 6.51e-06, 'epoch': 4.01}
+{'loss': 0.3233, 'grad_norm': 1.2729988098144531, 'learning_rate': 6.513e-06, 'epoch': 4.01}
+{'loss': 0.2551, 'grad_norm': 1.6835660934448242, 'learning_rate': 6.516e-06, 'epoch': 4.01}
+{'loss': 0.2445, 'grad_norm': 1.376844048500061, 'learning_rate': 6.519e-06, 'epoch': 4.01}
+{'loss': 0.336, 'grad_norm': 1.2151410579681396, 'learning_rate': 6.522e-06, 'epoch': 4.02}
+{'loss': 0.3283, 'grad_norm': 1.3106422424316406, 'learning_rate': 6.525e-06, 'epoch': 4.02}
+{'loss': 0.2019, 'grad_norm': 1.0718411207199097, 'learning_rate': 6.528e-06, 'epoch': 4.02}
+{'loss': 0.1917, 'grad_norm': 1.2590523958206177, 'learning_rate': 6.531000000000001e-06, 'epoch': 4.02}
+{'loss': 0.2292, 'grad_norm': 1.6002975702285767, 'learning_rate': 6.534e-06, 'epoch': 4.02}
+{'loss': 0.1327, 'grad_norm': 0.8854488730430603, 'learning_rate': 6.537e-06, 'epoch': 4.03}
+{'loss': 0.1739, 'grad_norm': 1.2897201776504517, 'learning_rate': 6.54e-06, 'epoch': 4.03}
+{'loss': 0.1351, 'grad_norm': 1.1138757467269897, 'learning_rate': 6.543e-06, 'epoch': 4.03}
+{'loss': 0.1039, 'grad_norm': 1.1339983940124512, 'learning_rate': 6.5460000000000005e-06, 'epoch': 4.03}
+{'loss': 0.1187, 'grad_norm': 0.9088255167007446, 'learning_rate': 6.549e-06, 'epoch': 4.03}
+{'loss': 0.08, 'grad_norm': 1.0308983325958252, 'learning_rate': 6.552e-06, 'epoch': 4.04}
+{'loss': 0.106, 'grad_norm': 2.115433692932129, 'learning_rate': 6.555e-06, 'epoch': 4.04}
+{'loss': 0.1008, 'grad_norm': 1.531274437904358, 'learning_rate': 6.558e-06, 'epoch': 4.04}
+{'loss': 0.0928, 'grad_norm': 1.2350906133651733, 'learning_rate': 6.561e-06, 'epoch': 4.04}
+{'loss': 0.0777, 'grad_norm': 0.9239581227302551, 'learning_rate': 6.564e-06, 'epoch': 4.04}
+{'loss': 0.0563, 'grad_norm': 0.9720399975776672, 'learning_rate': 6.567000000000001e-06, 'epoch': 4.04}
+{'loss': 0.0581, 'grad_norm': 0.8621312379837036, 'learning_rate': 6.57e-06, 'epoch': 4.05}
+{'loss': 0.0927, 'grad_norm': 3.7505435943603516, 'learning_rate': 6.573e-06, 'epoch': 4.05}
+{'loss': 0.0902, 'grad_norm': 1.2696458101272583, 'learning_rate': 6.576e-06, 'epoch': 4.05}
+{'loss': 0.1256, 'grad_norm': 2.1792521476745605, 'learning_rate': 6.579e-06, 'epoch': 4.05}
+{'loss': 0.1057, 'grad_norm': 1.2086941003799438, 'learning_rate': 6.582000000000001e-06, 'epoch': 4.05}
+{'loss': 0.0875, 'grad_norm': 1.3100030422210693, 'learning_rate': 6.5850000000000005e-06, 'epoch': 4.06}
+{'loss': 0.1275, 'grad_norm': 1.3629885911941528, 'learning_rate': 6.5879999999999994e-06, 'epoch': 4.06}
+{'loss': 0.0776, 'grad_norm': 4.132709980010986, 'learning_rate': 6.591e-06, 'epoch': 4.06}
+{'loss': 0.0939, 'grad_norm': 1.144539475440979, 'learning_rate': 6.594e-06, 'epoch': 4.06}
+{'loss': 0.0804, 'grad_norm': 1.3136900663375854, 'learning_rate': 6.5970000000000005e-06, 'epoch': 4.06}
+{'loss': 0.0888, 'grad_norm': 1.6249648332595825, 'learning_rate': 6.6e-06, 'epoch': 4.06}
+{'loss': 0.0901, 'grad_norm': 1.2383456230163574, 'learning_rate': 6.603e-06, 'epoch': 4.07}
+{'loss': 0.1368, 'grad_norm': 1.428479552268982, 'learning_rate': 6.606000000000001e-06, 'epoch': 4.07}
+{'loss': 0.0862, 'grad_norm': 1.5173728466033936, 'learning_rate': 6.609e-06, 'epoch': 4.07}
+{'loss': 0.0681, 'grad_norm': 1.3671185970306396, 'learning_rate': 6.612e-06, 'epoch': 4.07}
+{'loss': 0.0832, 'grad_norm': 1.0532758235931396, 'learning_rate': 6.615e-06, 'epoch': 4.07}
+{'loss': 0.0798, 'grad_norm': 1.199684977531433, 'learning_rate': 6.618e-06, 'epoch': 4.08}
+{'loss': 0.1533, 'grad_norm': 2.115050792694092, 'learning_rate': 6.621000000000001e-06, 'epoch': 4.08}
+{'loss': 0.0706, 'grad_norm': 1.1212481260299683, 'learning_rate': 6.6240000000000004e-06, 'epoch': 4.08}
+{'loss': 0.0979, 'grad_norm': 1.539804458618164, 'learning_rate': 6.627e-06, 'epoch': 4.08}
+{'loss': 0.1041, 'grad_norm': 1.9622479677200317, 'learning_rate': 6.63e-06, 'epoch': 4.08}
+{'loss': 0.0762, 'grad_norm': 1.1550004482269287, 'learning_rate': 6.633e-06, 'epoch': 4.08}
+{'loss': 0.1235, 'grad_norm': 1.2409030199050903, 'learning_rate': 6.6360000000000005e-06, 'epoch': 4.09}
+{'loss': 0.0847, 'grad_norm': 1.394726276397705, 'learning_rate': 6.639e-06, 'epoch': 4.09}
+{'loss': 0.1489, 'grad_norm': 1.7710202932357788, 'learning_rate': 6.642000000000001e-06, 'epoch': 4.09}
+{'loss': 0.1583, 'grad_norm': 1.8116905689239502, 'learning_rate': 6.645e-06, 'epoch': 4.09}
+{'loss': 0.4672, 'grad_norm': 2.0445168018341064, 'learning_rate': 6.648e-06, 'epoch': 4.09}
+{'loss': 0.3575, 'grad_norm': 1.6109222173690796, 'learning_rate': 6.651e-06, 'epoch': 4.1}
+{'loss': 0.3371, 'grad_norm': 1.006513237953186, 'learning_rate': 6.654e-06, 'epoch': 4.1}
+{'loss': 0.4369, 'grad_norm': 1.294262409210205, 'learning_rate': 6.657e-06, 'epoch': 4.1}
+{'loss': 0.3756, 'grad_norm': 2.5763139724731445, 'learning_rate': 6.660000000000001e-06, 'epoch': 4.1}
+{'loss': 0.3584, 'grad_norm': 1.9553343057632446, 'learning_rate': 6.6629999999999996e-06, 'epoch': 4.1}
+{'loss': 0.2867, 'grad_norm': 1.4016964435577393, 'learning_rate': 6.666e-06, 'epoch': 4.11}
+{'loss': 0.2086, 'grad_norm': 0.8154698610305786, 'learning_rate': 6.669e-06, 'epoch': 4.11}
+{'loss': 0.2631, 'grad_norm': 1.5167957544326782, 'learning_rate': 6.672e-06, 'epoch': 4.11}
+{'loss': 0.3025, 'grad_norm': 1.1658596992492676, 'learning_rate': 6.6750000000000005e-06, 'epoch': 4.11}
+{'loss': 0.2013, 'grad_norm': 1.6568107604980469, 'learning_rate': 6.678e-06, 'epoch': 4.11}
+{'loss': 0.2295, 'grad_norm': 1.6511210203170776, 'learning_rate': 6.681e-06, 'epoch': 4.11}
+{'loss': 0.1298, 'grad_norm': 0.9506266713142395, 'learning_rate': 6.684e-06, 'epoch': 4.12}
+{'loss': 0.1572, 'grad_norm': 1.0544261932373047, 'learning_rate': 6.687e-06, 'epoch': 4.12}
+{'loss': 0.1093, 'grad_norm': 1.4018826484680176, 'learning_rate': 6.69e-06, 'epoch': 4.12}
+{'loss': 0.112, 'grad_norm': 0.9542692303657532, 'learning_rate': 6.693e-06, 'epoch': 4.12}
+{'loss': 0.0899, 'grad_norm': 1.1946085691452026, 'learning_rate': 6.696000000000001e-06, 'epoch': 4.12}
+{'loss': 0.0872, 'grad_norm': 0.9538592100143433, 'learning_rate': 6.699e-06, 'epoch': 4.13}
+{'loss': 0.0991, 'grad_norm': 1.4511198997497559, 'learning_rate': 6.7019999999999995e-06, 'epoch': 4.13}
+{'loss': 0.1096, 'grad_norm': 1.070308804512024, 'learning_rate': 6.705e-06, 'epoch': 4.13}
+{'loss': 0.0773, 'grad_norm': 0.942848265171051, 'learning_rate': 6.708e-06, 'epoch': 4.13}
+{'loss': 0.1019, 'grad_norm': 1.3079289197921753, 'learning_rate': 6.711000000000001e-06, 'epoch': 4.13}
+{'loss': 0.1144, 'grad_norm': 1.2125372886657715, 'learning_rate': 6.7140000000000004e-06, 'epoch': 4.13}
+{'loss': 0.088, 'grad_norm': 1.0549064874649048, 'learning_rate': 6.716999999999999e-06, 'epoch': 4.14}
+{'loss': 0.1125, 'grad_norm': 1.2122917175292969, 'learning_rate': 6.72e-06, 'epoch': 4.14}
+{'loss': 0.0933, 'grad_norm': 0.9945119619369507, 'learning_rate': 6.723e-06, 'epoch': 4.14}
+{'loss': 0.1095, 'grad_norm': 1.1362215280532837, 'learning_rate': 6.7260000000000005e-06, 'epoch': 4.14}
+{'loss': 0.1808, 'grad_norm': 1.3205327987670898, 'learning_rate': 6.729e-06, 'epoch': 4.14}
+{'loss': 0.1172, 'grad_norm': 1.3926762342453003, 'learning_rate': 6.732e-06, 'epoch': 4.15}
+{'loss': 0.0861, 'grad_norm': 1.0345947742462158, 'learning_rate': 6.735000000000001e-06, 'epoch': 4.15}
+{'loss': 0.127, 'grad_norm': 1.600387692451477, 'learning_rate': 6.738e-06, 'epoch': 4.15}
+{'loss': 0.1019, 'grad_norm': 1.2428592443466187, 'learning_rate': 6.741e-06, 'epoch': 4.15}
+{'loss': 0.0856, 'grad_norm': 1.1123014688491821, 'learning_rate': 6.744e-06, 'epoch': 4.15}
+{'loss': 0.1091, 'grad_norm': 1.348739504814148, 'learning_rate': 6.747e-06, 'epoch': 4.16}
+{'loss': 0.0778, 'grad_norm': 1.0651084184646606, 'learning_rate': 6.750000000000001e-06, 'epoch': 4.16}
+  2%|▏         | 2254/100000 [1:14:32<32:44:29,  1.21s/it]  2%|▏         | 2255/100000 [1:14:33<32:12:11,  1.19s/it]                                                            2%|▏         | 2255/100000 [1:14:33<32:12:11,  1.19s/it]  2%|▏         | 2256/100000 [1:14:34<31:39:17,  1.17s/it]                                                            2%|▏         | 2256/100000 [1:14:34<31:39:17,  1.17s/it]  2%|▏         | 2257/100000 [1:14:35<30:57:34,  1.14s/it]                                                            2%|▏         | 2257/100000 [1:14:35<30:57:34,  1.14s/it]  2%|▏         | 2258/100000 [1:14:36<30:45:56,  1.13s/it]                                                            2%|▏         | 2258/100000 [1:14:36<30:45:56,  1.13s/it]  2%|▏         | 2259/100000 [1:14:37<30:31:40,  1.12s/it]                                                            2%|▏         | 2259/100000 [1:14:37<30:31:40,  1.12s/it]  2%|▏         | 2260/100000 [1:14:39<29:59:41,  1.10s/it]                                                            2%|▏         | 2260/100000 [1:14:39<29:59:41,  1.10s/it]  2%|▏         | 2261/100000 [1:14:40<29:33:34,  1.09s/it]                                                            2%|▏         | 2261/100000 [1:14:40<29:33:34,  1.09s/it]  2%|▏         | 2262/100000 [1:14:41<28:54:08,  1.06s/it]                                                            2%|▏         | 2262/100000 [1:14:41<28:54:08,  1.06s/it]  2%|▏         | 2263/100000 [1:14:42<28:15:34,  1.04s/it]                                                            2%|▏         | 2263/100000 [1:14:42<28:15:34,  1.04s/it]  2%|▏         | 2264/100000 [1:14:43<27:44:36,  1.02s/it]                                                            2%|▏         | 2264/100000 [1:14:43<27:44:36,  1.02s/it]  2%|▏         | 2265/100000 [1:14:44<27:27:01,  1.01s/it]                                                            2%|▏         | 2265/100000 [1:14:44<27:27:01,  1.01s/it]  2%|▏         | 2266/100000 [1:14:44<27:05:32,  1.00it/s]                                                            2%|▏         | 2266/100000 [1:14:44<27:05:32,  1.00it/s]  2%|▏         | 2267/100000 [1:14:45<26:34:10,  1.02it/s]                                                            2%|▏         | 2267/100000 [1:14:45<26:34:10,  1.02it/s]  2%|▏         | 2268/100000 [1:14:46<25:46:05,  1.05it/s]                                                            2%|▏         | 2268/100000 [1:14:46<25:46:05,  1.05it/s]  2%|▏         | 2269/100000 [1:14:57<109:05:01,  4.02s/it]                                                             2%|▏         | 2269/100000 [1:14:57<109:05:01,  4.02s/it]  2%|▏         | 2270/100000 [1:15:03<124:49:36,  4.60s/it]                                                             2%|▏         | 2270/100000 [1:15:03<124:49:36,  4.60s/it]  2%|▏         | 2271/100000 [1:15:08<126:30:30,  4.66s/it]                                                             2%|▏         | 2271/100000 [1:15:08<126:30:30,  4.66s/it]  2%|▏         | 2272/100000 [1:15:12<121:45:14,  4.49s/it]                                                             2%|▏         | 2272/100000 [1:15:12<121:45:14,  4.49s/it]  2%|▏         | 2273/100000 [1:15:16<115:18:03,  4.25s/it]                                                             2%|▏         | 2273/100000 [1:15:16<115:18:03,  4.25s/it]  2%|▏         | 2274/100000 [1:15:19<108:10:02,  3.98s/it]                                                             2%|▏         | 2274/100000 [1:15:19<108:10:02,  3.98s/it]  2%|▏         | 2275/100000 [1:15:22<100:34:58,  3.71s/it]                                                             2%|▏         | 2275/100000 [1:15:22<100:34:58,  3.71s/it]  2%|▏         | 2276/100000 [1:15:25<91:54:34,  3.39s/it]                                                             2%|▏         | 2276/100000 [1:15:25<91:54:34,  3.39s/it]  2%|▏         | 2277/100000 [1:15:28<85:40:41,  3.16s/it]                                                            2%|▏         | 2277/100000 [1:15:28<85:40:41,  3.16s/it]  2%|▏         | 2278/100000 [1:15:30<79:36:03,  2.93s/it]                                                            2%|▏         | 2278/100000 [1:15:30<79:36:03,  2.93s/it]  2%|▏         | 2279/100000 [1:15:32<74:15:18,  2.74s/it]                                                            2%|▏         | 2279/100000 [1:15:32<74:15:18,  2.74s/it]  2%|▏         | 2280/100000 [1:15:34<69:18:13,  2.55s/it]                                                            2%|▏         | 2280/100000 [1:15:35<69:18:13,  2.55s/it]  2%|▏         | 2281/100000 [1:15:37<65:01:46,  2.40s/it]                                                            2%|▏         | 2281/100000 [1:15:37<65:01:46,  2.40s/it]  2%|▏         | 2282/100000 [1:15:38<60:28:42,  2.23s/it]                                                            2%|▏         | 2282/100000 [1:15:38<60:28:42,  2.23s/it]  2%|▏         | 2283/100000 [1:15:40<56:50:50,  2.09s/it]                                                            2%|▏         | 2283/100000 [1:15:40<56:50:50,  2.09s/it]  2%|▏         | 2284/100000 [1:15:42<53:51:38,  1.98s/it]                                                            2%|▏         | 2284/100000 [1:15:42<53:51:38,  1.98s/it]  2%|▏         | 2285/100000 [1:15:44<51:05:47,  1.88s/it]                                                            2%|▏         | 2285/100000 [1:15:44<51:05:47,  1.88s/it]  2%|▏         | 2286/100000 [1:15:45<48:35:00,  1.79s/it]                                                            2%|▏         | 2286/100000 [1:15:45<48:35:00,  1.79s/it]  2%|▏         | 2287/100000 [1:15:47<47:03:10,  1.73s/it]                                                            2%|▏         | 2287/100000 [1:15:47<47:03:10,  1.73s/it]  2%|▏         | 2288/100000 [1:15:48<45:16:17,  1.67s/it]                                                            2%|▏         | 2288/100000 [1:15:48<45:16:17,  1.67s/it]  2%|▏         | 2289/100000 [1:15:50<43:42:05,  1.61s/it]                                                            2%|▏         | 2289/100000 [1:15:50<43:42:05,  1.61s/it]  2%|▏         | 2290/100000 [1:15:51<42:22:13,  1.56s/it]                                                            2%|▏         | 2290/100000 [1:15:51<42:22:13,  1.56s/it]  2%|▏         | 2291/100000 [1:15:53<41:14:58,  1.52s/it]                                                            2%|▏         | 2291/100000 [1:15:53<41:14:58,  1.52s/it]  2%|▏         | 2292/100000 [1:15:54<40:19:12,  1.49s/it]                                                            2%|▏         | 2292/100000 [1:15:54<40:19:12,  1.49s/it]  2%|▏         | 2293/100000 [1:15:55<40:12:54,  1.48s/it]                                                            2%|▏         | 2293/100000 [1:15:55<40:12:54,  1.48s/it]  2%|▏         | 2294/100000 [1:15:57<39:12:23,  1.44s/it]                                                            2%|▏         | 2294/100000 [1:15:57<39:12:23,  1.44s/it]  2%|▏         | 2295/100000 [1:15:58<38:23:47,  1.41s/it]                                                            2%|▏         | 2295/100000 [1:15:58<38:23:47,  1.41s/it]  2%|▏         | 2296/100000 [1:15:59<37:37:02,  1.39s/it]                                                            2%|▏         | 2296/100000 [1:15:59<37:37:02,  1.39s/it]  2%|▏         | 2297/100000 [1:16:01<36:56:43,  1.36s/it]                                                            2%|▏         | 2297/100000 [1:16:01<36:56:43,  1.36s/it]  2%|▏         | 2298/100000 [1:16:02<36:08:27,  1.33s/it]                                                            2%|▏         | 2298/100000 [1:16:02<36:08:27,  1.33s/it]  2%|▏         | 2299/100000 [1:16:03<35:41:30,  1.32s/it]                                                            2%|▏         | 2299/100000 [1:16:03<35:41:30,  1.32s/it]  2%|▏         | 2300/100000 [1:16:05<35:10:19,  1.30s/it]                                                            2%|▏         | 2300/100000 [1:16:05<35:10:19,  1.30s/it]  2%|▏         | 2301/100000 [1:16:06<34:37:09,  1.28s/it]                                                            2%|▏         | 2301/100000 [1:16:06<34:37:09,  1.28s/it]  2%|▏         | 2302/100000 [1:16:07<33:49:41,  1.25s/it]                                                            2%|▏         | 2302/100000 [1:16:07<33:49:41,  1.25s/it]  2%|▏         | 2303/100000 [1:16:08<33:16:33,  1.23s/it]                                                            2%|▏         | 2303/100000 [1:16:08<33:16:33,  1.23s/it]  2%|▏         | 2304/100000 [1:16:09<32:48:53,  1.21s/it]                                                            2%|▏         | 2304/100000 [1:16:09<32:48:53,  1.21s/it]  2%|▏         | 2305/100000 [1:16:10<32:11:44,  1.19s/it]                                                            2%|▏         | 2305/100000 [1:16:10<32:11:44,  1.19s/it]  2%|▏         | 2306/100000 [1:16:12<31:35:20,  1.16s/it]                                                            2%|▏         | 2306/100000 [1:16:12<31:35:20,  1.16s/it]  2%|▏         | 2307/100000 [1:16:13<31:05:42,  1.15s/it]                                                            2%|▏         | 2307/100000 [1:16:13<31:05:42,  1.15s/it]  2%|▏         | 2308/100000 [1:16:14<30:43:16,  1.13s/it]                                                            2%|▏         | 2308/100000 [1:16:14<30:43:16,  1.13s/it]  2%|▏         | 2309/100000 [1:16:15<30:32:21,  1.13s/it]                                                            2%|▏         | 2309/100000 [1:16:15<30:32:21,  1.13s/it]  2%|▏         | 2310/100000 [1:16:16<30:14:37,  1.11s/it]                                                            2%|▏         | 2310/100000 [1:16:16<30:14:37,  1.11s/it]  2%|▏         | 2311/100000 [1:16:17<29:52:15,  1.10s/it]                                                            2%|▏         | 2311/100000 [1:16:17<29:52:15,  1.10s/it]  2%|▏         | 2312/100000 [1:16:18<29:26:24,  1.08s/it]                                                            2%|▏         | 2312/100000 [1:16:18<29:26:24,  1.08s/it]  2%|▏         | 2313/100000 [1:16:19<28:58:09,  1.07s/it]                                                            2%|▏         | 2313/100000 [1:16:19<28:58:09,  1.07s/it]  2%|▏         | 2314/100000 [1:16:20<28:27:29,  1.05s/it]                                                            2%|▏         | 2314/100000 [1:16:20<28:27:29,  1.05s/it]  2%|▏         | 2315/100000 [1:16:21<27:55:22,  1.03s/it]                                                            2%|▏         | 2315/100000 [1:16:21<27:55:22,  1.03s/it]  2%|▏         | 2316/100000 [1:16:22<27:20:43,  1.01s/it]                                                            2%|▏         | 2316/100000 [1:16:22<27:20:43,  1.01s/it]  2%|▏         | 2317/100000 [1:16:23<26:43:23,  1.02it/s]                                                            2%|▏         | 2317/100000 [1:16:23<26:43:23,  1.02it/s]  2%|▏         | 2318/100000 [1:16:24<25:55:09,  1.05it/s]                                                            2%|▏         | 2318/100000 [1:16:24<25:55:09,  1.05it/s]  2%|▏         | 2319/100000 [1:16:36<117:32:45,  4.33s/it]                                                             2%|▏         | 2319/100000 [1:16:36<117:32:45,  4.33s/it]  2%|▏         | 2320/100000 [1:16:42<131:11:04,  4.83s/it]                                                             2%|▏         | 2320/100000 [1:16:42<131:11:04,  4.83s/it]  2%|▏         | 2321/100000 [1:16:47<131:24:23,  4.84s/it]                                                             2%|▏         | 2321/100000 [1:16:47<131:24:23,  4.84s/it]  2%|▏         | 2322/100000 [1:16:51<124:11:17,  4.58s/it]                                                             2%|▏         | 2322/100000 [1:16:51<124:11:17,  4.58s/it]  2%|▏         | 2323/100000 [1:16:55<117:03:41,  4.31s/it]                                                             2%|▏         | 2323/100000 [1:16:55<117:03:41,  4.31s/it]  2%|▏         | 2324/100000 [1:16:58<108:06:28,  3.98s/it]                                                             2%|▏         | 2324/100000 [1:16:58<108:06:28,  3.98s/it]  2%|▏         | 2325/100000 [1:17:01<100:28:19,  3.70s/it]                                                             2%|▏         | 2325/100000 [1:17:01<100:28:19,  3.70s/it]  2%|▏         | 2326/100000 [1:17:04<92:49:06,  3.42s/it]                                                             2%|▏         | 2326/100000 [1:17:04<92:49:06,  3.42s/it]  2%|▏         | 2327/100000 [1:17:06<85:54:28,  3.17s/it]                                                            2%|▏         | 2327/100000 [1:17:06<85:54:28,  3.17s/it]  2%|▏         | 2328/100000 [1:17:09<78:55:42,  2.91s/it]                                                            2%|▏         | 2328/100000 [1:17:09<78:55:42,  2.91s/it]  2%|▏         | 2329/100000 [1:17:11<73:15:44,  2.70s/it]                                                            2%|▏         | 2329/100000 [1:17:11<73:15:44,  2.70s/it]  2%|▏         | 2330/100000 [1:17:13<67:46:22,  2.50s/it]                                                            2%|▏         | 2330/100000 [1:17:13<67:46:22,  2.50s/it]  2%|▏         | 2331/100000 [1:17:15<63:10:32,  2.33s/it]                                                            2%|▏         | 2331/100000 [1:17:15<63:10:32,  2.33s/it]  2%|▏         | 2332/100000 [1:17:17<59:42:31,  2.20s/it]                                                            2%|▏         | 2332/100000 [1:17:17<59:42:31,  2.20s/it]  2%|▏         | 2333/100000 [1:17:18<56:28:32,  2.08s/it]                                                            2%|▏         | 2333/100000 [1:17:18<56:28:32,  2.08s/it]  2%|▏         | 2334/100000 [1:17:20<53:35:25,  1.98s/it]                                                            2%|▏         | 2334/100000 [1:17:20<53:35:25,  1.98s/it]  2%|▏         | 2335/100000 [1:17:22<50:42:03,  1.87s/it]                                                            2%|▏         | 2335/100000 [1:17:22<50:42:03,  1.87s/it]  2%|▏         | 2336/100000 [1:17:23<48:39:27,  1.79s/it]                                                            2%|▏         | 2336/100000 [1:17:23<48:39:27,  1.79s/it]  2%|▏         | 2337/100000 [1:17:25<46:36:17,  1.72s/it]                                                            2%|▏         | 2337/100000 [1:17:25<46:36:17,  1.72s/it]  2%|▏         | 2338/100000 [1:17:26<44:49:34,  1.65s/it]                                                            2%|▏         | 2338/100000 [1:17:26<44:49:34,  1.65s/it]  2%|▏         | 2339/100000 [1:17:28<43:18:01,  1.60s/it]                                                          {'loss': 0.078, 'grad_norm': 1.460421085357666, 'learning_rate': 6.753e-06, 'epoch': 4.16}
+{'loss': 0.0792, 'grad_norm': 0.9551540017127991, 'learning_rate': 6.756e-06, 'epoch': 4.16}
+{'loss': 0.068, 'grad_norm': 1.3960237503051758, 'learning_rate': 6.759e-06, 'epoch': 4.16}
+{'loss': 0.0848, 'grad_norm': 1.785151481628418, 'learning_rate': 6.762e-06, 'epoch': 4.16}
+{'loss': 0.0919, 'grad_norm': 1.0868968963623047, 'learning_rate': 6.7650000000000005e-06, 'epoch': 4.17}
+{'loss': 0.1152, 'grad_norm': 1.7152469158172607, 'learning_rate': 6.768e-06, 'epoch': 4.17}
+{'loss': 0.1094, 'grad_norm': 1.454818606376648, 'learning_rate': 6.771000000000001e-06, 'epoch': 4.17}
+{'loss': 0.1006, 'grad_norm': 1.5478395223617554, 'learning_rate': 6.774e-06, 'epoch': 4.17}
+{'loss': 0.1003, 'grad_norm': 1.4219355583190918, 'learning_rate': 6.777e-06, 'epoch': 4.17}
+{'loss': 0.0945, 'grad_norm': 1.2621865272521973, 'learning_rate': 6.78e-06, 'epoch': 4.18}
+{'loss': 0.07, 'grad_norm': 1.3872356414794922, 'learning_rate': 6.783e-06, 'epoch': 4.18}
+{'loss': 0.0851, 'grad_norm': 1.5787618160247803, 'learning_rate': 6.786000000000001e-06, 'epoch': 4.18}
+{'loss': 0.11, 'grad_norm': 1.548042893409729, 'learning_rate': 6.7890000000000006e-06, 'epoch': 4.18}
+{'loss': 0.097, 'grad_norm': 1.557713270187378, 'learning_rate': 6.7919999999999995e-06, 'epoch': 4.18}
+{'loss': 0.1412, 'grad_norm': 1.7162854671478271, 'learning_rate': 6.795e-06, 'epoch': 4.18}
+{'loss': 0.4405, 'grad_norm': 4.086080551147461, 'learning_rate': 6.798e-06, 'epoch': 4.19}
+{'loss': 0.438, 'grad_norm': 3.8445074558258057, 'learning_rate': 6.801000000000001e-06, 'epoch': 4.19}
+{'loss': 0.415, 'grad_norm': 2.2936015129089355, 'learning_rate': 6.804e-06, 'epoch': 4.19}
+{'loss': 0.3014, 'grad_norm': 1.6141554117202759, 'learning_rate': 6.807e-06, 'epoch': 4.19}
+{'loss': 0.347, 'grad_norm': 2.340399742126465, 'learning_rate': 6.81e-06, 'epoch': 4.19}
+{'loss': 0.3336, 'grad_norm': 2.091618299484253, 'learning_rate': 6.813e-06, 'epoch': 4.2}
+{'loss': 0.2575, 'grad_norm': 1.398072361946106, 'learning_rate': 6.8160000000000005e-06, 'epoch': 4.2}
+{'loss': 0.358, 'grad_norm': 1.7019211053848267, 'learning_rate': 6.819e-06, 'epoch': 4.2}
+{'loss': 0.3326, 'grad_norm': 2.1351137161254883, 'learning_rate': 6.822e-06, 'epoch': 4.2}
+{'loss': 0.2067, 'grad_norm': 0.9898922443389893, 'learning_rate': 6.825000000000001e-06, 'epoch': 4.2}
+{'loss': 0.213, 'grad_norm': 1.372165560722351, 'learning_rate': 6.828e-06, 'epoch': 4.2}
+{'loss': 0.2519, 'grad_norm': 1.582594633102417, 'learning_rate': 6.831e-06, 'epoch': 4.21}
+{'loss': 0.2676, 'grad_norm': 1.4090359210968018, 'learning_rate': 6.834e-06, 'epoch': 4.21}
+{'loss': 0.1274, 'grad_norm': 1.1971672773361206, 'learning_rate': 6.837e-06, 'epoch': 4.21}
+{'loss': 0.1727, 'grad_norm': 1.5907059907913208, 'learning_rate': 6.840000000000001e-06, 'epoch': 4.21}
+{'loss': 0.1094, 'grad_norm': 1.0141587257385254, 'learning_rate': 6.843e-06, 'epoch': 4.21}
+{'loss': 0.1339, 'grad_norm': 1.7501100301742554, 'learning_rate': 6.845999999999999e-06, 'epoch': 4.22}
+{'loss': 0.1022, 'grad_norm': 1.2493884563446045, 'learning_rate': 6.849e-06, 'epoch': 4.22}
+{'loss': 0.0944, 'grad_norm': 1.592990517616272, 'learning_rate': 6.852e-06, 'epoch': 4.22}
+{'loss': 0.0782, 'grad_norm': 1.0477226972579956, 'learning_rate': 6.8550000000000004e-06, 'epoch': 4.22}
+{'loss': 0.1491, 'grad_norm': 1.2984161376953125, 'learning_rate': 6.858e-06, 'epoch': 4.22}
+{'loss': 0.1148, 'grad_norm': 1.1166598796844482, 'learning_rate': 6.861e-06, 'epoch': 4.23}
+{'loss': 0.0927, 'grad_norm': 1.163062572479248, 'learning_rate': 6.864000000000001e-06, 'epoch': 4.23}
+{'loss': 0.0874, 'grad_norm': 0.9511471390724182, 'learning_rate': 6.867e-06, 'epoch': 4.23}
+{'loss': 0.0665, 'grad_norm': 1.0879565477371216, 'learning_rate': 6.87e-06, 'epoch': 4.23}
+{'loss': 0.0981, 'grad_norm': 1.0754992961883545, 'learning_rate': 6.873e-06, 'epoch': 4.23}
+{'loss': 0.0671, 'grad_norm': 1.0654864311218262, 'learning_rate': 6.876e-06, 'epoch': 4.23}
+{'loss': 0.084, 'grad_norm': 1.311405897140503, 'learning_rate': 6.8790000000000005e-06, 'epoch': 4.24}
+{'loss': 0.0855, 'grad_norm': 1.3197026252746582, 'learning_rate': 6.882e-06, 'epoch': 4.24}
+{'loss': 0.1308, 'grad_norm': 1.2920937538146973, 'learning_rate': 6.885e-06, 'epoch': 4.24}
+{'loss': 0.0839, 'grad_norm': 1.233723759651184, 'learning_rate': 6.888e-06, 'epoch': 4.24}
+{'loss': 0.0765, 'grad_norm': 1.194996953010559, 'learning_rate': 6.891e-06, 'epoch': 4.24}
+{'loss': 0.0886, 'grad_norm': 1.2588831186294556, 'learning_rate': 6.894e-06, 'epoch': 4.25}
+{'loss': 0.0516, 'grad_norm': 0.7167526483535767, 'learning_rate': 6.897e-06, 'epoch': 4.25}
+{'loss': 0.0712, 'grad_norm': 0.928087055683136, 'learning_rate': 6.900000000000001e-06, 'epoch': 4.25}
+{'loss': 0.1029, 'grad_norm': 1.2723053693771362, 'learning_rate': 6.903e-06, 'epoch': 4.25}
+{'loss': 0.0929, 'grad_norm': 1.5679049491882324, 'learning_rate': 6.906e-06, 'epoch': 4.25}
+{'loss': 0.0773, 'grad_norm': 1.2212111949920654, 'learning_rate': 6.909e-06, 'epoch': 4.25}
+{'loss': 0.085, 'grad_norm': 0.8988540768623352, 'learning_rate': 6.912e-06, 'epoch': 4.26}
+{'loss': 0.1045, 'grad_norm': 1.235801100730896, 'learning_rate': 6.915000000000001e-06, 'epoch': 4.26}
+{'loss': 0.0806, 'grad_norm': 1.007037878036499, 'learning_rate': 6.9180000000000005e-06, 'epoch': 4.26}
+{'loss': 0.0723, 'grad_norm': 1.2111518383026123, 'learning_rate': 6.9209999999999995e-06, 'epoch': 4.26}
+{'loss': 0.1017, 'grad_norm': 1.328084945678711, 'learning_rate': 6.924e-06, 'epoch': 4.26}
+{'loss': 0.0943, 'grad_norm': 1.5174875259399414, 'learning_rate': 6.927e-06, 'epoch': 4.27}
+{'loss': 0.0932, 'grad_norm': 1.4504024982452393, 'learning_rate': 6.9300000000000006e-06, 'epoch': 4.27}
+{'loss': 0.1036, 'grad_norm': 1.2458757162094116, 'learning_rate': 6.933e-06, 'epoch': 4.27}
+{'loss': 0.1401, 'grad_norm': 1.3173937797546387, 'learning_rate': 6.936e-06, 'epoch': 4.27}
+{'loss': 0.1783, 'grad_norm': 1.7283494472503662, 'learning_rate': 6.939e-06, 'epoch': 4.27}
+{'loss': 0.0841, 'grad_norm': 2.916658639907837, 'learning_rate': 6.942e-06, 'epoch': 4.28}
+{'loss': 0.1205, 'grad_norm': 1.529240608215332, 'learning_rate': 6.945e-06, 'epoch': 4.28}
+{'loss': 0.5173, 'grad_norm': 2.7654285430908203, 'learning_rate': 6.948e-06, 'epoch': 4.28}
+{'loss': 0.4608, 'grad_norm': 1.5961171388626099, 'learning_rate': 6.951e-06, 'epoch': 4.28}
+{'loss': 0.3426, 'grad_norm': 1.9149647951126099, 'learning_rate': 6.954000000000001e-06, 'epoch': 4.28}
+{'loss': 0.3897, 'grad_norm': 1.4873987436294556, 'learning_rate': 6.957e-06, 'epoch': 4.28}
+{'loss': 0.338, 'grad_norm': 1.1254777908325195, 'learning_rate': 6.96e-06, 'epoch': 4.29}
+{'loss': 0.4296, 'grad_norm': 1.5503439903259277, 'learning_rate': 6.963e-06, 'epoch': 4.29}
+{'loss': 0.2739, 'grad_norm': 1.42909574508667, 'learning_rate': 6.966e-06, 'epoch': 4.29}
+{'loss': 0.2861, 'grad_norm': 1.3683276176452637, 'learning_rate': 6.9690000000000005e-06, 'epoch': 4.29}
+{'loss': 0.1559, 'grad_norm': 1.140487790107727, 'learning_rate': 6.972e-06, 'epoch': 4.29}
+{'loss': 0.2232, 'grad_norm': 1.4923127889633179, 'learning_rate': 6.975e-06, 'epoch': 4.3}
+{'loss': 0.2329, 'grad_norm': 1.2142882347106934, 'learning_rate': 6.978e-06, 'epoch': 4.3}
+{'loss': 0.238, 'grad_norm': 1.9966238737106323, 'learning_rate': 6.981e-06, 'epoch': 4.3}
+{'loss': 0.2103, 'grad_norm': 2.1601319313049316, 'learning_rate': 6.984e-06, 'epoch': 4.3}
+{'loss': 0.1036, 'grad_norm': 1.0669894218444824, 'learning_rate': 6.987e-06, 'epoch': 4.3}
+{'loss': 0.1374, 'grad_norm': 1.0218197107315063, 'learning_rate': 6.990000000000001e-06, 'epoch': 4.3}
+{'loss': 0.1168, 'grad_norm': 0.9428393244743347, 'learning_rate': 6.993000000000001e-06, 'epoch': 4.31}
+{'loss': 0.0822, 'grad_norm': 0.9400322437286377, 'learning_rate': 6.996e-06, 'epoch': 4.31}
+{'loss': 0.1182, 'grad_norm': 1.2620066404342651, 'learning_rate': 6.999e-06, 'epoch': 4.31}
+{'loss': 0.0916, 'grad_norm': 0.9195238351821899, 'learning_rate': 7.002e-06, 'epoch': 4.31}
+{'loss': 0.1864, 'grad_norm': 1.087558388710022, 'learning_rate': 7.005000000000001e-06, 'epoch': 4.31}
+  2%|▏         | 2339/100000 [1:17:28<43:18:01,  1.60s/it]  2%|▏         | 2340/100000 [1:17:29<41:29:25,  1.53s/it]                                                            2%|▏         | 2340/100000 [1:17:29<41:29:25,  1.53s/it]  2%|▏         | 2341/100000 [1:17:31<40:43:05,  1.50s/it]                                                            2%|▏         | 2341/100000 [1:17:31<40:43:05,  1.50s/it]  2%|▏         | 2342/100000 [1:17:32<39:55:38,  1.47s/it]                                                            2%|▏         | 2342/100000 [1:17:32<39:55:38,  1.47s/it]  2%|▏         | 2343/100000 [1:17:33<39:10:04,  1.44s/it]                                                            2%|▏         | 2343/100000 [1:17:33<39:10:04,  1.44s/it]  2%|▏         | 2344/100000 [1:17:35<38:04:48,  1.40s/it]                                                            2%|▏         | 2344/100000 [1:17:35<38:04:48,  1.40s/it]  2%|▏         | 2345/100000 [1:17:36<37:35:18,  1.39s/it]                                                            2%|▏         | 2345/100000 [1:17:36<37:35:18,  1.39s/it]  2%|▏         | 2346/100000 [1:17:37<36:45:14,  1.35s/it]                                                            2%|▏         | 2346/100000 [1:17:37<36:45:14,  1.35s/it]  2%|▏         | 2347/100000 [1:17:39<36:03:48,  1.33s/it]                                                            2%|▏         | 2347/100000 [1:17:39<36:03:48,  1.33s/it]  2%|▏         | 2348/100000 [1:17:40<35:33:10,  1.31s/it]                                                            2%|▏         | 2348/100000 [1:17:40<35:33:10,  1.31s/it]  2%|▏         | 2349/100000 [1:17:41<35:01:10,  1.29s/it]                                                            2%|▏         | 2349/100000 [1:17:41<35:01:10,  1.29s/it]  2%|▏         | 2350/100000 [1:17:42<34:39:34,  1.28s/it]                                                            2%|▏         | 2350/100000 [1:17:42<34:39:34,  1.28s/it]  2%|▏         | 2351/100000 [1:17:44<34:22:13,  1.27s/it]                                                            2%|▏         | 2351/100000 [1:17:44<34:22:13,  1.27s/it]  2%|▏         | 2352/100000 [1:17:45<34:02:58,  1.26s/it]                                                            2%|▏         | 2352/100000 [1:17:45<34:02:58,  1.26s/it]  2%|▏         | 2353/100000 [1:17:46<33:15:04,  1.23s/it]                                                            2%|▏         | 2353/100000 [1:17:46<33:15:04,  1.23s/it]  2%|▏         | 2354/100000 [1:17:47<32:52:38,  1.21s/it]                                                            2%|▏         | 2354/100000 [1:17:47<32:52:38,  1.21s/it]  2%|▏         | 2355/100000 [1:17:48<32:25:26,  1.20s/it]                                                            2%|▏         | 2355/100000 [1:17:48<32:25:26,  1.20s/it]  2%|▏         | 2356/100000 [1:17:50<32:01:47,  1.18s/it]                                                            2%|▏         | 2356/100000 [1:17:50<32:01:47,  1.18s/it]  2%|▏         | 2357/100000 [1:17:51<31:23:30,  1.16s/it]                                                            2%|▏         | 2357/100000 [1:17:51<31:23:30,  1.16s/it]  2%|▏         | 2358/100000 [1:17:52<31:06:05,  1.15s/it]                                                            2%|▏         | 2358/100000 [1:17:52<31:06:05,  1.15s/it]  2%|▏         | 2359/100000 [1:17:53<30:36:53,  1.13s/it]                                                            2%|▏         | 2359/100000 [1:17:53<30:36:53,  1.13s/it]  2%|▏         | 2360/100000 [1:17:54<30:16:31,  1.12s/it]                                                            2%|▏         | 2360/100000 [1:17:54<30:16:31,  1.12s/it]  2%|▏         | 2361/100000 [1:17:55<29:54:46,  1.10s/it]                                                            2%|▏         | 2361/100000 [1:17:55<29:54:46,  1.10s/it]  2%|▏         | 2362/100000 [1:17:56<29:27:48,  1.09s/it]                                                            2%|▏         | 2362/100000 [1:17:56<29:27:48,  1.09s/it]  2%|▏         | 2363/100000 [1:17:57<28:52:05,  1.06s/it]                                                            2%|▏         | 2363/100000 [1:17:57<28:52:05,  1.06s/it]  2%|▏         | 2364/100000 [1:17:58<28:18:38,  1.04s/it]                                                            2%|▏         | 2364/100000 [1:17:58<28:18:38,  1.04s/it]  2%|▏         | 2365/100000 [1:17:59<27:43:27,  1.02s/it]                                                            2%|▏         | 2365/100000 [1:17:59<27:43:27,  1.02s/it]  2%|▏         | 2366/100000 [1:18:00<27:06:29,  1.00it/s]                                                            2%|▏         | 2366/100000 [1:18:00<27:06:29,  1.00it/s]  2%|▏         | 2367/100000 [1:18:01<26:30:17,  1.02it/s]                                                            2%|▏         | 2367/100000 [1:18:01<26:30:17,  1.02it/s]  2%|▏         | 2368/100000 [1:18:02<25:54:02,  1.05it/s]                                                            2%|▏         | 2368/100000 [1:18:02<25:54:02,  1.05it/s]  2%|▏         | 2369/100000 [1:18:14<118:03:21,  4.35s/it]                                                             2%|▏         | 2369/100000 [1:18:14<118:03:21,  4.35s/it]  2%|▏         | 2370/100000 [1:18:20<130:06:47,  4.80s/it]                                                             2%|▏         | 2370/100000 [1:18:20<130:06:47,  4.80s/it]  2%|▏         | 2371/100000 [1:18:25<130:06:32,  4.80s/it]                                                             2%|▏         | 2371/100000 [1:18:25<130:06:32,  4.80s/it]  2%|▏         | 2372/100000 [1:18:29<122:50:57,  4.53s/it]                                                             2%|▏         | 2372/100000 [1:18:29<122:50:57,  4.53s/it]  2%|▏         | 2373/100000 [1:18:32<116:10:33,  4.28s/it]                                                             2%|▏         | 2373/100000 [1:18:32<116:10:33,  4.28s/it]  2%|▏         | 2374/100000 [1:18:36<108:10:52,  3.99s/it]                                                             2%|▏         | 2374/100000 [1:18:36<108:10:52,  3.99s/it]  2%|▏         | 2375/100000 [1:18:39<100:13:37,  3.70s/it]                                                             2%|▏         | 2375/100000 [1:18:39<100:13:37,  3.70s/it]  2%|▏         | 2376/100000 [1:18:41<90:37:12,  3.34s/it]                                                             2%|▏         | 2376/100000 [1:18:41<90:37:12,  3.34s/it]  2%|▏         | 2377/100000 [1:18:44<83:11:18,  3.07s/it]                                                            2%|▏         | 2377/100000 [1:18:44<83:11:18,  3.07s/it]  2%|▏         | 2378/100000 [1:18:46<75:32:57,  2.79s/it]                                                            2%|▏         | 2378/100000 [1:18:46<75:32:57,  2.79s/it]  2%|▏         | 2379/100000 [1:18:48<70:23:44,  2.60s/it]                                                            2%|▏         | 2379/100000 [1:18:48<70:23:44,  2.60s/it]  2%|▏         | 2380/100000 [1:18:50<65:17:13,  2.41s/it]                                                            2%|▏         | 2380/100000 [1:18:50<65:17:13,  2.41s/it]  2%|▏         | 2381/100000 [1:18:52<61:20:32,  2.26s/it]                                                            2%|▏         | 2381/100000 [1:18:52<61:20:32,  2.26s/it]  2%|▏         | 2382/100000 [1:18:54<57:44:44,  2.13s/it]                                                            2%|▏         | 2382/100000 [1:18:54<57:44:44,  2.13s/it]  2%|▏         | 2383/100000 [1:18:55<54:32:33,  2.01s/it]                                                            2%|▏         | 2383/100000 [1:18:55<54:32:33,  2.01s/it]  2%|▏         | 2384/100000 [1:18:57<51:49:25,  1.91s/it]                                                            2%|▏         | 2384/100000 [1:18:57<51:49:25,  1.91s/it]  2%|▏         | 2385/100000 [1:18:59<49:32:47,  1.83s/it]                                                            2%|▏         | 2385/100000 [1:18:59<49:32:47,  1.83s/it]  2%|▏         | 2386/100000 [1:19:00<47:09:31,  1.74s/it]                                                            2%|▏         | 2386/100000 [1:19:00<47:09:31,  1.74s/it]  2%|▏         | 2387/100000 [1:19:02<44:58:17,  1.66s/it]                                                            2%|▏         | 2387/100000 [1:19:02<44:58:17,  1.66s/it]  2%|▏         | 2388/100000 [1:19:03<43:40:11,  1.61s/it]                                                            2%|▏         | 2388/100000 [1:19:03<43:40:11,  1.61s/it]  2%|▏         | 2389/100000 [1:19:05<42:23:38,  1.56s/it]                                                            2%|▏         | 2389/100000 [1:19:05<42:23:38,  1.56s/it]  2%|▏         | 2390/100000 [1:19:06<40:42:46,  1.50s/it]                                                            2%|▏         | 2390/100000 [1:19:06<40:42:46,  1.50s/it]  2%|▏         | 2391/100000 [1:19:07<40:12:30,  1.48s/it]                                                            2%|▏         | 2391/100000 [1:19:07<40:12:30,  1.48s/it]  2%|▏         | 2392/100000 [1:19:09<39:32:49,  1.46s/it]                                                            2%|▏         | 2392/100000 [1:19:09<39:32:49,  1.46s/it]  2%|▏         | 2393/100000 [1:19:10<38:36:34,  1.42s/it]                                                            2%|▏         | 2393/100000 [1:19:10<38:36:34,  1.42s/it]  2%|▏         | 2394/100000 [1:19:11<37:51:44,  1.40s/it]                                                            2%|▏         | 2394/100000 [1:19:11<37:51:44,  1.40s/it]  2%|▏         | 2395/100000 [1:19:13<37:31:02,  1.38s/it]                                                            2%|▏         | 2395/100000 [1:19:13<37:31:02,  1.38s/it]  2%|▏         | 2396/100000 [1:19:14<36:44:51,  1.36s/it]                                                            2%|▏         | 2396/100000 [1:19:14<36:44:51,  1.36s/it]  2%|▏         | 2397/100000 [1:19:15<36:25:52,  1.34s/it]                                                            2%|▏         | 2397/100000 [1:19:15<36:25:52,  1.34s/it]  2%|▏         | 2398/100000 [1:19:17<35:47:27,  1.32s/it]                                                            2%|▏         | 2398/100000 [1:19:17<35:47:27,  1.32s/it]  2%|▏         | 2399/100000 [1:19:18<35:07:04,  1.30s/it]                                                            2%|▏         | 2399/100000 [1:19:18<35:07:04,  1.30s/it]  2%|▏         | 2400/100000 [1:19:19<34:51:24,  1.29s/it]                                                            2%|▏         | 2400/100000 [1:19:19<34:51:24,  1.29s/it]  2%|▏         | 2401/100000 [1:19:20<34:26:54,  1.27s/it]                                                            2%|▏         | 2401/100000 [1:19:20<34:26:54,  1.27s/it]  2%|▏         | 2402/100000 [1:19:22<34:04:52,  1.26s/it]                                                            2%|▏         | 2402/100000 [1:19:22<34:04:52,  1.26s/it]  2%|▏         | 2403/100000 [1:19:23<33:27:52,  1.23s/it]                                                            2%|▏         | 2403/100000 [1:19:23<33:27:52,  1.23s/it]  2%|▏         | 2404/100000 [1:19:24<32:56:07,  1.21s/it]                                                            2%|▏         | 2404/100000 [1:19:24<32:56:07,  1.21s/it]  2%|▏         | 2405/100000 [1:19:25<32:27:43,  1.20s/it]                                                            2%|▏         | 2405/100000 [1:19:25<32:27:43,  1.20s/it]  2%|▏         | 2406/100000 [1:19:26<31:59:27,  1.18s/it]                                                            2%|▏         | 2406/100000 [1:19:26<31:59:27,  1.18s/it]  2%|▏         | 2407/100000 [1:19:27<31:23:26,  1.16s/it]                                                            2%|▏         | 2407/100000 [1:19:27<31:23:26,  1.16s/it]  2%|▏         | 2408/100000 [1:19:28<31:00:49,  1.14s/it]                                                            2%|▏         | 2408/100000 [1:19:29<31:00:49,  1.14s/it]  2%|▏         | 2409/100000 [1:19:30<30:31:00,  1.13s/it]                                                            2%|▏         | 2409/100000 [1:19:30<30:31:00,  1.13s/it]  2%|▏         | 2410/100000 [1:19:31<30:11:30,  1.11s/it]                                                            2%|▏         | 2410/100000 [1:19:31<30:11:30,  1.11s/it]  2%|▏         | 2411/100000 [1:19:32<29:39:04,  1.09s/it]                                                            2%|▏         | 2411/100000 [1:19:32<29:39:04,  1.09s/it]  2%|▏         | 2412/100000 [1:19:33<29:16:11,  1.08s/it]                                                            2%|▏         | 2412/100000 [1:19:33<29:16:11,  1.08s/it]  2%|▏         | 2413/100000 [1:19:34<28:42:35,  1.06s/it]                                                            2%|▏         | 2413/100000 [1:19:34<28:42:35,  1.06s/it]  2%|▏         | 2414/100000 [1:19:35<28:12:52,  1.04s/it]                                                            2%|▏         | 2414/100000 [1:19:35<28:12:52,  1.04s/it]  2%|▏         | 2415/100000 [1:19:36<27:46:43,  1.02s/it]                                                            2%|▏         | 2415/100000 [1:19:36<27:46:43,  1.02s/it]  2%|▏         | 2416/100000 [1:19:37<27:06:21,  1.00it/s]                                                            2%|▏         | 2416/100000 [1:19:37<27:06:21,  1.00it/s]  2%|▏         | 2417/100000 [1:19:38<26:26:03,  1.03it/s]                                                            2%|▏         | 2417/100000 [1:19:38<26:26:03,  1.03it/s]  2%|▏         | 2418/100000 [1:19:39<25:45:03,  1.05it/s]                                                            2%|▏         | 2418/100000 [1:19:39<25:45:03,  1.05it/s]  2%|▏         | 2419/100000 [1:19:49<102:55:27,  3.80s/it]                                                             2%|▏         | 2419/100000 [1:19:49<102:55:27,  3.80s/it]  2%|▏         | 2420/100000 [1:19:55<117:26:03,  4.33s/it]                                                             2%|▏         | 2420/100000 [1:19:55<117:26:03,  4.33s/it]  2%|▏         | 2421/100000 [1:19:59<120:02:25,  4.43s/it]                                                             2%|▏         | 2421/100000 [1:19:59<120:02:25,  4.43s/it]  2%|▏         | 2422/100000 [1:20:03<116:48:26,  4.31s/it]                                                             2%|▏         | 2422/100000 [1:20:03<116:48:26,  4.31s/it]  2%|▏         | 2423/100000 [1:20:07<111:06:55,  4.10s/it]                                                           {'loss': 0.0721, 'grad_norm': 1.180001974105835, 'learning_rate': 7.0080000000000005e-06, 'epoch': 4.32}
+{'loss': 0.1138, 'grad_norm': 1.4501054286956787, 'learning_rate': 7.011e-06, 'epoch': 4.32}
+{'loss': 0.0771, 'grad_norm': 0.8645310401916504, 'learning_rate': 7.014e-06, 'epoch': 4.32}
+{'loss': 0.0759, 'grad_norm': 0.9253374338150024, 'learning_rate': 7.017e-06, 'epoch': 4.32}
+{'loss': 0.0791, 'grad_norm': 0.88505619764328, 'learning_rate': 7.0200000000000006e-06, 'epoch': 4.32}
+{'loss': 0.1053, 'grad_norm': 1.6287795305252075, 'learning_rate': 7.023e-06, 'epoch': 4.33}
+{'loss': 0.0667, 'grad_norm': 0.9386304616928101, 'learning_rate': 7.026e-06, 'epoch': 4.33}
+{'loss': 0.0814, 'grad_norm': 0.9785365462303162, 'learning_rate': 7.029000000000001e-06, 'epoch': 4.33}
+{'loss': 0.0959, 'grad_norm': 1.2905381917953491, 'learning_rate': 7.032e-06, 'epoch': 4.33}
+{'loss': 0.0682, 'grad_norm': 1.4337656497955322, 'learning_rate': 7.0349999999999996e-06, 'epoch': 4.33}
+{'loss': 0.069, 'grad_norm': 0.8870456218719482, 'learning_rate': 7.038e-06, 'epoch': 4.33}
+{'loss': 0.0877, 'grad_norm': 1.0684574842453003, 'learning_rate': 7.041e-06, 'epoch': 4.34}
+{'loss': 0.0994, 'grad_norm': 1.24235999584198, 'learning_rate': 7.044000000000001e-06, 'epoch': 4.34}
+{'loss': 0.0899, 'grad_norm': 1.1478756666183472, 'learning_rate': 7.0470000000000005e-06, 'epoch': 4.34}
+{'loss': 0.0829, 'grad_norm': 0.9353871941566467, 'learning_rate': 7.049999999999999e-06, 'epoch': 4.34}
+{'loss': 0.1088, 'grad_norm': 1.3551195859909058, 'learning_rate': 7.053e-06, 'epoch': 4.34}
+{'loss': 0.1109, 'grad_norm': 1.18695068359375, 'learning_rate': 7.056e-06, 'epoch': 4.35}
+{'loss': 0.0998, 'grad_norm': 1.437421202659607, 'learning_rate': 7.0590000000000005e-06, 'epoch': 4.35}
+{'loss': 0.0864, 'grad_norm': 0.967350959777832, 'learning_rate': 7.062e-06, 'epoch': 4.35}
+{'loss': 0.1081, 'grad_norm': 1.421446442604065, 'learning_rate': 7.065e-06, 'epoch': 4.35}
+{'loss': 0.0771, 'grad_norm': 1.1982686519622803, 'learning_rate': 7.068e-06, 'epoch': 4.35}
+{'loss': 0.0861, 'grad_norm': 1.0983085632324219, 'learning_rate': 7.071e-06, 'epoch': 4.35}
+{'loss': 0.1023, 'grad_norm': 2.7813031673431396, 'learning_rate': 7.074e-06, 'epoch': 4.36}
+{'loss': 0.082, 'grad_norm': 1.3879581689834595, 'learning_rate': 7.077e-06, 'epoch': 4.36}
+{'loss': 0.0811, 'grad_norm': 1.6462188959121704, 'learning_rate': 7.08e-06, 'epoch': 4.36}
+{'loss': 0.083, 'grad_norm': 1.314080834388733, 'learning_rate': 7.083000000000001e-06, 'epoch': 4.36}
+{'loss': 0.0778, 'grad_norm': 1.1373904943466187, 'learning_rate': 7.086e-06, 'epoch': 4.36}
+{'loss': 0.0757, 'grad_norm': 1.0565918684005737, 'learning_rate': 7.089e-06, 'epoch': 4.37}
+{'loss': 0.0895, 'grad_norm': 1.1691209077835083, 'learning_rate': 7.092e-06, 'epoch': 4.37}
+{'loss': 0.1602, 'grad_norm': 1.9542254209518433, 'learning_rate': 7.095e-06, 'epoch': 4.37}
+{'loss': 0.419, 'grad_norm': 4.830984115600586, 'learning_rate': 7.0980000000000005e-06, 'epoch': 4.37}
+{'loss': 0.4215, 'grad_norm': 2.0716261863708496, 'learning_rate': 7.101e-06, 'epoch': 4.37}
+{'loss': 0.3627, 'grad_norm': 1.3052515983581543, 'learning_rate': 7.104e-06, 'epoch': 4.37}
+{'loss': 0.3632, 'grad_norm': 1.3134573698043823, 'learning_rate': 7.107e-06, 'epoch': 4.38}
+{'loss': 0.3344, 'grad_norm': 2.2939159870147705, 'learning_rate': 7.11e-06, 'epoch': 4.38}
+{'loss': 0.2472, 'grad_norm': 1.4574236869812012, 'learning_rate': 7.113e-06, 'epoch': 4.38}
+{'loss': 0.298, 'grad_norm': 1.3681788444519043, 'learning_rate': 7.116e-06, 'epoch': 4.38}
+{'loss': 0.2606, 'grad_norm': 1.1303521394729614, 'learning_rate': 7.119000000000001e-06, 'epoch': 4.38}
+{'loss': 0.3622, 'grad_norm': 1.774362325668335, 'learning_rate': 7.122000000000001e-06, 'epoch': 4.39}
+{'loss': 0.2323, 'grad_norm': 1.030994176864624, 'learning_rate': 7.1249999999999995e-06, 'epoch': 4.39}
+{'loss': 0.2153, 'grad_norm': 1.397836446762085, 'learning_rate': 7.128e-06, 'epoch': 4.39}
+{'loss': 0.1679, 'grad_norm': 0.9883468151092529, 'learning_rate': 7.131e-06, 'epoch': 4.39}
+{'loss': 0.233, 'grad_norm': 1.6239488124847412, 'learning_rate': 7.134000000000001e-06, 'epoch': 4.39}
+{'loss': 0.1932, 'grad_norm': 1.3051291704177856, 'learning_rate': 7.1370000000000004e-06, 'epoch': 4.4}
+{'loss': 0.1189, 'grad_norm': 1.332719326019287, 'learning_rate': 7.14e-06, 'epoch': 4.4}
+{'loss': 0.1665, 'grad_norm': 1.0142273902893066, 'learning_rate': 7.143e-06, 'epoch': 4.4}
+{'loss': 0.0814, 'grad_norm': 0.8044421076774597, 'learning_rate': 7.146e-06, 'epoch': 4.4}
+{'loss': 0.1247, 'grad_norm': 1.1707408428192139, 'learning_rate': 7.1490000000000005e-06, 'epoch': 4.4}
+{'loss': 0.0814, 'grad_norm': 1.0917186737060547, 'learning_rate': 7.152e-06, 'epoch': 4.4}
+{'loss': 0.0785, 'grad_norm': 1.094245433807373, 'learning_rate': 7.155e-06, 'epoch': 4.41}
+{'loss': 0.0984, 'grad_norm': 1.2464826107025146, 'learning_rate': 7.158000000000001e-06, 'epoch': 4.41}
+{'loss': 0.0717, 'grad_norm': 1.0168637037277222, 'learning_rate': 7.161e-06, 'epoch': 4.41}
+{'loss': 0.0797, 'grad_norm': 1.3358882665634155, 'learning_rate': 7.164e-06, 'epoch': 4.41}
+{'loss': 0.1148, 'grad_norm': 1.3539047241210938, 'learning_rate': 7.167e-06, 'epoch': 4.41}
+{'loss': 0.0852, 'grad_norm': 1.1813031435012817, 'learning_rate': 7.17e-06, 'epoch': 4.42}
+{'loss': 0.1041, 'grad_norm': 1.0633906126022339, 'learning_rate': 7.173000000000001e-06, 'epoch': 4.42}
+{'loss': 0.0974, 'grad_norm': 1.2666691541671753, 'learning_rate': 7.176e-06, 'epoch': 4.42}
+{'loss': 0.0798, 'grad_norm': 0.8168101906776428, 'learning_rate': 7.179e-06, 'epoch': 4.42}
+{'loss': 0.0763, 'grad_norm': 1.5207481384277344, 'learning_rate': 7.182e-06, 'epoch': 4.42}
+{'loss': 0.1024, 'grad_norm': 1.416662335395813, 'learning_rate': 7.185e-06, 'epoch': 4.42}
+{'loss': 0.0812, 'grad_norm': 1.1562248468399048, 'learning_rate': 7.1880000000000005e-06, 'epoch': 4.43}
+{'loss': 0.0604, 'grad_norm': 1.0115388631820679, 'learning_rate': 7.191e-06, 'epoch': 4.43}
+{'loss': 0.0885, 'grad_norm': 1.4185620546340942, 'learning_rate': 7.194000000000001e-06, 'epoch': 4.43}
+{'loss': 0.0708, 'grad_norm': 1.5242897272109985, 'learning_rate': 7.197e-06, 'epoch': 4.43}
+{'loss': 0.108, 'grad_norm': 1.4109538793563843, 'learning_rate': 7.2e-06, 'epoch': 4.43}
+{'loss': 0.0723, 'grad_norm': 0.8287237882614136, 'learning_rate': 7.203e-06, 'epoch': 4.44}
+{'loss': 0.0702, 'grad_norm': 0.9260662198066711, 'learning_rate': 7.206e-06, 'epoch': 4.44}
+{'loss': 0.1022, 'grad_norm': 1.1125154495239258, 'learning_rate': 7.209000000000001e-06, 'epoch': 4.44}
+{'loss': 0.0964, 'grad_norm': 1.1801170110702515, 'learning_rate': 7.2120000000000006e-06, 'epoch': 4.44}
+{'loss': 0.0881, 'grad_norm': 1.0909982919692993, 'learning_rate': 7.2149999999999995e-06, 'epoch': 4.44}
+{'loss': 0.0888, 'grad_norm': 1.1723145246505737, 'learning_rate': 7.218e-06, 'epoch': 4.45}
+{'loss': 0.0733, 'grad_norm': 1.0578376054763794, 'learning_rate': 7.221e-06, 'epoch': 4.45}
+{'loss': 0.083, 'grad_norm': 1.6445304155349731, 'learning_rate': 7.224e-06, 'epoch': 4.45}
+{'loss': 0.0677, 'grad_norm': 1.5911602973937988, 'learning_rate': 7.2270000000000004e-06, 'epoch': 4.45}
+{'loss': 0.0882, 'grad_norm': 1.4749010801315308, 'learning_rate': 7.23e-06, 'epoch': 4.45}
+{'loss': 0.0699, 'grad_norm': 1.1367706060409546, 'learning_rate': 7.233e-06, 'epoch': 4.45}
+{'loss': 0.0888, 'grad_norm': 1.34004545211792, 'learning_rate': 7.236e-06, 'epoch': 4.46}
+{'loss': 0.0837, 'grad_norm': 1.772800087928772, 'learning_rate': 7.239e-06, 'epoch': 4.46}
+{'loss': 0.1246, 'grad_norm': 2.071884870529175, 'learning_rate': 7.242e-06, 'epoch': 4.46}
+{'loss': 0.1084, 'grad_norm': 3.1921818256378174, 'learning_rate': 7.245e-06, 'epoch': 4.46}
+{'loss': 0.4917, 'grad_norm': 1.80342435836792, 'learning_rate': 7.248000000000001e-06, 'epoch': 4.46}
+{'loss': 0.3945, 'grad_norm': 1.9937363862991333, 'learning_rate': 7.2510000000000005e-06, 'epoch': 4.47}
+{'loss': 0.3882, 'grad_norm': 1.4467228651046753, 'learning_rate': 7.2539999999999995e-06, 'epoch': 4.47}
+{'loss': 0.3186, 'grad_norm': 1.2707688808441162, 'learning_rate': 7.257e-06, 'epoch': 4.47}
+  2%|▏         | 2423/100000 [1:20:07<111:06:55,  4.10s/it]  2%|▏         | 2424/100000 [1:20:10<105:10:09,  3.88s/it]                                                             2%|▏         | 2424/100000 [1:20:10<105:10:09,  3.88s/it]  2%|▏         | 2425/100000 [1:20:13<98:28:04,  3.63s/it]                                                             2%|▏         | 2425/100000 [1:20:13<98:28:04,  3.63s/it]  2%|▏         | 2426/100000 [1:20:16<91:50:57,  3.39s/it]                                                            2%|▏         | 2426/100000 [1:20:16<91:50:57,  3.39s/it]  2%|▏         | 2427/100000 [1:20:19<85:11:20,  3.14s/it]                                                            2%|▏         | 2427/100000 [1:20:19<85:11:20,  3.14s/it]  2%|▏         | 2428/100000 [1:20:21<78:47:49,  2.91s/it]                                                            2%|▏         | 2428/100000 [1:20:21<78:47:49,  2.91s/it]  2%|▏         | 2429/100000 [1:20:23<73:04:38,  2.70s/it]                                                            2%|▏         | 2429/100000 [1:20:23<73:04:38,  2.70s/it]  2%|▏         | 2430/100000 [1:20:25<67:47:52,  2.50s/it]                                                            2%|▏         | 2430/100000 [1:20:25<67:47:52,  2.50s/it]  2%|▏         | 2431/100000 [1:20:27<63:28:37,  2.34s/it]                                                            2%|▏         | 2431/100000 [1:20:27<63:28:37,  2.34s/it]  2%|▏         | 2432/100000 [1:20:29<59:16:05,  2.19s/it]                                                            2%|▏         | 2432/100000 [1:20:29<59:16:05,  2.19s/it]  2%|▏         | 2433/100000 [1:20:31<55:36:11,  2.05s/it]                                                            2%|▏         | 2433/100000 [1:20:31<55:36:11,  2.05s/it]  2%|▏         | 2434/100000 [1:20:32<52:36:59,  1.94s/it]                                                            2%|▏         | 2434/100000 [1:20:32<52:36:59,  1.94s/it]  2%|▏         | 2435/100000 [1:20:34<50:03:13,  1.85s/it]                                                            2%|▏         | 2435/100000 [1:20:34<50:03:13,  1.85s/it]  2%|▏         | 2436/100000 [1:20:36<47:33:56,  1.76s/it]                                                            2%|▏         | 2436/100000 [1:20:36<47:33:56,  1.76s/it]  2%|▏         | 2437/100000 [1:20:37<45:54:24,  1.69s/it]                                                            2%|▏         | 2437/100000 [1:20:37<45:54:24,  1.69s/it]  2%|▏         | 2438/100000 [1:20:39<44:15:25,  1.63s/it]                                                            2%|▏         | 2438/100000 [1:20:39<44:15:25,  1.63s/it]  2%|▏         | 2439/100000 [1:20:40<42:50:14,  1.58s/it]                                                            2%|▏         | 2439/100000 [1:20:40<42:50:14,  1.58s/it]  2%|▏         | 2440/100000 [1:20:42<41:34:35,  1.53s/it]                                                            2%|▏         | 2440/100000 [1:20:42<41:34:35,  1.53s/it]  2%|▏         | 2441/100000 [1:20:43<40:20:36,  1.49s/it]                                                            2%|▏         | 2441/100000 [1:20:43<40:20:36,  1.49s/it]  2%|▏         | 2442/100000 [1:20:44<39:27:51,  1.46s/it]                                                            2%|▏         | 2442/100000 [1:20:44<39:27:51,  1.46s/it]  2%|▏         | 2443/100000 [1:20:46<38:55:03,  1.44s/it]                                                            2%|▏         | 2443/100000 [1:20:46<38:55:03,  1.44s/it]  2%|▏         | 2444/100000 [1:20:47<38:15:46,  1.41s/it]                                                            2%|▏         | 2444/100000 [1:20:47<38:15:46,  1.41s/it]  2%|▏         | 2445/100000 [1:20:48<37:38:26,  1.39s/it]                                                            2%|▏         | 2445/100000 [1:20:48<37:38:26,  1.39s/it]  2%|▏         | 2446/100000 [1:20:50<37:03:26,  1.37s/it]                                                            2%|▏         | 2446/100000 [1:20:50<37:03:26,  1.37s/it]  2%|▏         | 2447/100000 [1:20:51<36:14:11,  1.34s/it]                                                            2%|▏         | 2447/100000 [1:20:51<36:14:11,  1.34s/it]  2%|▏         | 2448/100000 [1:20:52<35:48:32,  1.32s/it]                                                            2%|▏         | 2448/100000 [1:20:52<35:48:32,  1.32s/it]  2%|▏         | 2449/100000 [1:20:54<35:24:12,  1.31s/it]                                                            2%|▏         | 2449/100000 [1:20:54<35:24:12,  1.31s/it]  2%|▏         | 2450/100000 [1:20:55<34:41:54,  1.28s/it]                                                            2%|▏         | 2450/100000 [1:20:55<34:41:54,  1.28s/it]  2%|▏         | 2451/100000 [1:20:56<34:19:58,  1.27s/it]                                                            2%|▏         | 2451/100000 [1:20:56<34:19:58,  1.27s/it]  2%|▏         | 2452/100000 [1:20:57<33:30:35,  1.24s/it]                                                            2%|▏         | 2452/100000 [1:20:57<33:30:35,  1.24s/it]  2%|▏         | 2453/100000 [1:20:58<33:04:15,  1.22s/it]                                                            2%|▏         | 2453/100000 [1:20:58<33:04:15,  1.22s/it]  2%|▏         | 2454/100000 [1:20:59<32:31:56,  1.20s/it]                                                            2%|▏         | 2454/100000 [1:21:00<32:31:56,  1.20s/it]  2%|▏         | 2455/100000 [1:21:01<32:08:05,  1.19s/it]                                                            2%|▏         | 2455/100000 [1:21:01<32:08:05,  1.19s/it]  2%|▏         | 2456/100000 [1:21:02<31:43:31,  1.17s/it]                                                            2%|▏         | 2456/100000 [1:21:02<31:43:31,  1.17s/it]  2%|▏         | 2457/100000 [1:21:03<31:19:32,  1.16s/it]                                                            2%|▏         | 2457/100000 [1:21:03<31:19:32,  1.16s/it]  2%|▏         | 2458/100000 [1:21:04<30:59:20,  1.14s/it]                                                            2%|▏         | 2458/100000 [1:21:04<30:59:20,  1.14s/it]  2%|▏         | 2459/100000 [1:21:05<30:19:08,  1.12s/it]                                                            2%|▏         | 2459/100000 [1:21:05<30:19:08,  1.12s/it]  2%|▏         | 2460/100000 [1:21:06<30:35:58,  1.13s/it]                                                            2%|▏         | 2460/100000 [1:21:06<30:35:58,  1.13s/it]  2%|▏         | 2461/100000 [1:21:07<30:02:34,  1.11s/it]                                                            2%|▏         | 2461/100000 [1:21:07<30:02:34,  1.11s/it]  2%|▏         | 2462/100000 [1:21:08<29:16:23,  1.08s/it]                                                            2%|▏         | 2462/100000 [1:21:08<29:16:23,  1.08s/it]  2%|▏         | 2463/100000 [1:21:09<28:29:17,  1.05s/it]                                                            2%|▏         | 2463/100000 [1:21:09<28:29:17,  1.05s/it]  2%|▏         | 2464/100000 [1:21:10<27:58:39,  1.03s/it]                                                            2%|▏         | 2464/100000 [1:21:10<27:58:39,  1.03s/it]  2%|▏         | 2465/100000 [1:21:11<27:32:22,  1.02s/it]                                                            2%|▏         | 2465/100000 [1:21:11<27:32:22,  1.02s/it]  2%|▏         | 2466/100000 [1:21:12<26:47:26,  1.01it/s]                                                            2%|▏         | 2466/100000 [1:21:12<26:47:26,  1.01it/s]  2%|▏         | 2467/100000 [1:21:13<25:38:13,  1.06it/s]                                                            2%|▏         | 2467/100000 [1:21:13<25:38:13,  1.06it/s]  2%|▏         | 2468/100000 [1:21:14<25:01:18,  1.08it/s]                                                            2%|▏         | 2468/100000 [1:21:14<25:01:18,  1.08it/s]  2%|▏         | 2469/100000 [1:21:25<103:54:54,  3.84s/it]                                                             2%|▏         | 2469/100000 [1:21:25<103:54:54,  3.84s/it]  2%|▏         | 2470/100000 [1:21:30<120:12:22,  4.44s/it]                                                             2%|▏         | 2470/100000 [1:21:30<120:12:22,  4.44s/it]  2%|▏         | 2471/100000 [1:21:35<122:16:04,  4.51s/it]                                                             2%|▏         | 2471/100000 [1:21:35<122:16:04,  4.51s/it]  2%|▏         | 2472/100000 [1:21:39<118:01:58,  4.36s/it]                                                             2%|▏         | 2472/100000 [1:21:39<118:01:58,  4.36s/it]  2%|▏         | 2473/100000 [1:21:42<109:54:01,  4.06s/it]                                                             2%|▏         | 2473/100000 [1:21:42<109:54:01,  4.06s/it]  2%|▏         | 2474/100000 [1:21:46<102:43:38,  3.79s/it]                                                             2%|▏         | 2474/100000 [1:21:46<102:43:38,  3.79s/it]  2%|▏         | 2475/100000 [1:21:48<95:33:07,  3.53s/it]                                                             2%|▏         | 2475/100000 [1:21:49<95:33:07,  3.53s/it]  2%|▏         | 2476/100000 [1:21:51<88:36:35,  3.27s/it]                                                            2%|▏         | 2476/100000 [1:21:51<88:36:35,  3.27s/it]  2%|▏         | 2477/100000 [1:21:54<81:07:31,  2.99s/it]                                                            2%|▏         | 2477/100000 [1:21:54<81:07:31,  2.99s/it]  2%|▏         | 2478/100000 [1:21:56<75:18:51,  2.78s/it]                                                            2%|▏         | 2478/100000 [1:21:56<75:18:51,  2.78s/it]  2%|▏         | 2479/100000 [1:21:58<69:58:14,  2.58s/it]                                                            2%|▏         | 2479/100000 [1:21:58<69:58:14,  2.58s/it]  2%|▏         | 2480/100000 [1:22:00<65:14:27,  2.41s/it]                                                            2%|▏         | 2480/100000 [1:22:00<65:14:27,  2.41s/it]  2%|▏         | 2481/100000 [1:22:02<61:27:06,  2.27s/it]                                                            2%|▏         | 2481/100000 [1:22:02<61:27:06,  2.27s/it]  2%|▏         | 2482/100000 [1:22:04<57:49:37,  2.13s/it]                                                            2%|▏         | 2482/100000 [1:22:04<57:49:37,  2.13s/it]  2%|▏         | 2483/100000 [1:22:05<54:42:07,  2.02s/it]                                                            2%|▏         | 2483/100000 [1:22:05<54:42:07,  2.02s/it]  2%|▏         | 2484/100000 [1:22:07<51:34:44,  1.90s/it]                                                            2%|▏         | 2484/100000 [1:22:07<51:34:44,  1.90s/it]  2%|▏         | 2485/100000 [1:22:09<49:25:18,  1.82s/it]                                                            2%|▏         | 2485/100000 [1:22:09<49:25:18,  1.82s/it]  2%|▏         | 2486/100000 [1:22:10<47:30:53,  1.75s/it]                                                            2%|▏         | 2486/100000 [1:22:10<47:30:53,  1.75s/it]  2%|▏         | 2487/100000 [1:22:12<45:32:04,  1.68s/it]                                                            2%|▏         | 2487/100000 [1:22:12<45:32:04,  1.68s/it]  2%|▏         | 2488/100000 [1:22:13<44:03:21,  1.63s/it]                                                            2%|▏         | 2488/100000 [1:22:13<44:03:21,  1.63s/it]  2%|▏         | 2489/100000 [1:22:15<42:46:44,  1.58s/it]                                                            2%|▏         | 2489/100000 [1:22:15<42:46:44,  1.58s/it]  2%|▏         | 2490/100000 [1:22:16<41:26:24,  1.53s/it]                                                            2%|▏         | 2490/100000 [1:22:16<41:26:24,  1.53s/it]  2%|▏         | 2491/100000 [1:22:18<40:23:45,  1.49s/it]                                                            2%|▏         | 2491/100000 [1:22:18<40:23:45,  1.49s/it]  2%|▏         | 2492/100000 [1:22:19<39:40:58,  1.47s/it]                                                            2%|▏         | 2492/100000 [1:22:19<39:40:58,  1.47s/it]  2%|▏         | 2493/100000 [1:22:20<38:42:00,  1.43s/it]                                                            2%|▏         | 2493/100000 [1:22:20<38:42:00,  1.43s/it]  2%|▏         | 2494/100000 [1:22:22<37:57:23,  1.40s/it]                                                            2%|▏         | 2494/100000 [1:22:22<37:57:23,  1.40s/it]  2%|▏         | 2495/100000 [1:22:23<37:47:36,  1.40s/it]                                                            2%|▏         | 2495/100000 [1:22:23<37:47:36,  1.40s/it]  2%|▏         | 2496/100000 [1:22:24<37:03:22,  1.37s/it]                                                            2%|▏         | 2496/100000 [1:22:24<37:03:22,  1.37s/it]  2%|▏         | 2497/100000 [1:22:26<36:43:12,  1.36s/it]                                                            2%|▏         | 2497/100000 [1:22:26<36:43:12,  1.36s/it]  2%|▏         | 2498/100000 [1:22:27<36:01:44,  1.33s/it]                                                            2%|▏         | 2498/100000 [1:22:27<36:01:44,  1.33s/it]  2%|▏         | 2499/100000 [1:22:28<35:37:28,  1.32s/it]                                                            2%|▏         | 2499/100000 [1:22:28<35:37:28,  1.32s/it]  2%|▎         | 2500/100000 [1:22:29<34:53:36,  1.29s/it]                                                            2%|▎         | 2500/100000 [1:22:29<34:53:36,  1.29s/it]  3%|▎         | 2501/100000 [1:22:31<34:28:21,  1.27s/it]                                                            3%|▎         | 2501/100000 [1:22:31<34:28:21,  1.27s/it]  3%|▎         | 2502/100000 [1:22:32<33:56:36,  1.25s/it]                                                            3%|▎         | 2502/100000 [1:22:32<33:56:36,  1.25s/it]  3%|▎         | 2503/100000 [1:22:33<33:08:04,  1.22s/it]                                                            3%|▎         | 2503/100000 [1:22:33<33:08:04,  1.22s/it]  3%|▎         | 2504/100000 [1:22:34<32:38:07,  1.21s/it]                                                            3%|▎         | 2504/100000 [1:22:34<32:38:07,  1.21s/it]  3%|▎         | 2505/100000 [1:22:35<32:00:23,  1.18s/it]                                                            3%|▎         | 2505/100000 [1:22:35<32:00:23,  1.18s/it]  3%|▎         | 2506/100000 [1:22:37<31:43:05,  1.17s/it]                                                            3%|▎         | 2506/100000 [1:22:37<31:43:05,  1.17s/it]  3%|▎         | 2507/100000 [1:22:38<31:09:46,  1.15s/it]                                                            3%|▎         | 2507/100000 [1:22:38<31:09:46,  1.15s/it]  3%|▎         | 2508/100000 [1:22:39<30:44:28,  1.14s/it]                                                          {'loss': 0.3115, 'grad_norm': 1.1893327236175537, 'learning_rate': 7.26e-06, 'epoch': 4.47}
+{'loss': 0.2778, 'grad_norm': 1.9630070924758911, 'learning_rate': 7.263000000000001e-06, 'epoch': 4.47}
+{'loss': 0.2441, 'grad_norm': 1.1939640045166016, 'learning_rate': 7.266e-06, 'epoch': 4.47}
+{'loss': 0.2923, 'grad_norm': 1.2537411451339722, 'learning_rate': 7.269e-06, 'epoch': 4.48}
+{'loss': 0.2752, 'grad_norm': 1.9572612047195435, 'learning_rate': 7.272e-06, 'epoch': 4.48}
+{'loss': 0.2391, 'grad_norm': 1.1313151121139526, 'learning_rate': 7.275e-06, 'epoch': 4.48}
+{'loss': 0.2191, 'grad_norm': 1.2185724973678589, 'learning_rate': 7.2780000000000005e-06, 'epoch': 4.48}
+{'loss': 0.1636, 'grad_norm': 1.0316160917282104, 'learning_rate': 7.281e-06, 'epoch': 4.48}
+{'loss': 0.1291, 'grad_norm': 0.8509050607681274, 'learning_rate': 7.284e-06, 'epoch': 4.49}
+{'loss': 0.0756, 'grad_norm': 1.032467246055603, 'learning_rate': 7.287000000000001e-06, 'epoch': 4.49}
+{'loss': 0.1552, 'grad_norm': 1.5208518505096436, 'learning_rate': 7.29e-06, 'epoch': 4.49}
+{'loss': 0.1275, 'grad_norm': 1.3500417470932007, 'learning_rate': 7.293e-06, 'epoch': 4.49}
+{'loss': 0.0998, 'grad_norm': 0.8810822367668152, 'learning_rate': 7.296e-06, 'epoch': 4.49}
+{'loss': 0.1161, 'grad_norm': 0.7776767611503601, 'learning_rate': 7.299e-06, 'epoch': 4.49}
+{'loss': 0.0988, 'grad_norm': 1.5567034482955933, 'learning_rate': 7.3020000000000006e-06, 'epoch': 4.5}
+{'loss': 0.0954, 'grad_norm': 1.1697642803192139, 'learning_rate': 7.305e-06, 'epoch': 4.5}
+{'loss': 0.0634, 'grad_norm': 0.9913340210914612, 'learning_rate': 7.308e-06, 'epoch': 4.5}
+{'loss': 0.0615, 'grad_norm': 1.37468421459198, 'learning_rate': 7.311e-06, 'epoch': 4.5}
+{'loss': 0.1341, 'grad_norm': 1.6015678644180298, 'learning_rate': 7.314e-06, 'epoch': 4.5}
+{'loss': 0.0822, 'grad_norm': 1.031510591506958, 'learning_rate': 7.317e-06, 'epoch': 4.51}
+{'loss': 0.0852, 'grad_norm': 1.2176783084869385, 'learning_rate': 7.32e-06, 'epoch': 4.51}
+{'loss': 0.159, 'grad_norm': 1.1300382614135742, 'learning_rate': 7.323000000000001e-06, 'epoch': 4.51}
+{'loss': 0.0848, 'grad_norm': 1.0426396131515503, 'learning_rate': 7.326e-06, 'epoch': 4.51}
+{'loss': 0.0891, 'grad_norm': 1.8430628776550293, 'learning_rate': 7.329e-06, 'epoch': 4.51}
+{'loss': 0.065, 'grad_norm': 1.6290236711502075, 'learning_rate': 7.332e-06, 'epoch': 4.52}
+{'loss': 0.0682, 'grad_norm': 0.8595914840698242, 'learning_rate': 7.335e-06, 'epoch': 4.52}
+{'loss': 0.069, 'grad_norm': 0.9311236143112183, 'learning_rate': 7.338000000000001e-06, 'epoch': 4.52}
+{'loss': 0.0656, 'grad_norm': 0.777802050113678, 'learning_rate': 7.3410000000000005e-06, 'epoch': 4.52}
+{'loss': 0.0717, 'grad_norm': 1.0638920068740845, 'learning_rate': 7.3439999999999995e-06, 'epoch': 4.52}
+{'loss': 0.0818, 'grad_norm': 1.1997246742248535, 'learning_rate': 7.347e-06, 'epoch': 4.52}
+{'loss': 0.0821, 'grad_norm': 1.017382025718689, 'learning_rate': 7.35e-06, 'epoch': 4.53}
+{'loss': 0.0609, 'grad_norm': 1.1677801609039307, 'learning_rate': 7.353000000000001e-06, 'epoch': 4.53}
+{'loss': 0.0954, 'grad_norm': 1.519492506980896, 'learning_rate': 7.356e-06, 'epoch': 4.53}
+{'loss': 0.1009, 'grad_norm': 1.160491704940796, 'learning_rate': 7.359e-06, 'epoch': 4.53}
+{'loss': 0.0919, 'grad_norm': 0.9831103086471558, 'learning_rate': 7.362e-06, 'epoch': 4.53}
+{'loss': 0.0827, 'grad_norm': 1.2899953126907349, 'learning_rate': 7.365e-06, 'epoch': 4.54}
+{'loss': 0.0721, 'grad_norm': 1.563739538192749, 'learning_rate': 7.3680000000000004e-06, 'epoch': 4.54}
+{'loss': 0.0823, 'grad_norm': 1.4064379930496216, 'learning_rate': 7.371e-06, 'epoch': 4.54}
+{'loss': 0.0935, 'grad_norm': 1.5630841255187988, 'learning_rate': 7.374e-06, 'epoch': 4.54}
+{'loss': 0.1116, 'grad_norm': 2.0699667930603027, 'learning_rate': 7.377000000000001e-06, 'epoch': 4.54}
+{'loss': 0.0637, 'grad_norm': 1.2968478202819824, 'learning_rate': 7.3800000000000005e-06, 'epoch': 4.54}
+{'loss': 0.0797, 'grad_norm': 1.3118655681610107, 'learning_rate': 7.383e-06, 'epoch': 4.55}
+{'loss': 0.102, 'grad_norm': 3.162208318710327, 'learning_rate': 7.386e-06, 'epoch': 4.55}
+{'loss': 0.11, 'grad_norm': 2.0861332416534424, 'learning_rate': 7.389e-06, 'epoch': 4.55}
+{'loss': 0.1025, 'grad_norm': 1.3612501621246338, 'learning_rate': 7.3920000000000005e-06, 'epoch': 4.55}
+{'loss': 0.1311, 'grad_norm': 1.6249091625213623, 'learning_rate': 7.395e-06, 'epoch': 4.55}
+{'loss': 0.3888, 'grad_norm': 2.665177345275879, 'learning_rate': 7.398000000000001e-06, 'epoch': 4.56}
+{'loss': 0.3954, 'grad_norm': 2.436779260635376, 'learning_rate': 7.401e-06, 'epoch': 4.56}
+{'loss': 0.34, 'grad_norm': 1.1689409017562866, 'learning_rate': 7.404e-06, 'epoch': 4.56}
+{'loss': 0.3183, 'grad_norm': 1.4799636602401733, 'learning_rate': 7.407e-06, 'epoch': 4.56}
+{'loss': 0.2514, 'grad_norm': 2.0600669384002686, 'learning_rate': 7.41e-06, 'epoch': 4.56}
+{'loss': 0.2809, 'grad_norm': 1.1407296657562256, 'learning_rate': 7.413e-06, 'epoch': 4.57}
+{'loss': 0.2511, 'grad_norm': 1.2882170677185059, 'learning_rate': 7.416000000000001e-06, 'epoch': 4.57}
+{'loss': 0.2621, 'grad_norm': 1.4791680574417114, 'learning_rate': 7.419e-06, 'epoch': 4.57}
+{'loss': 0.2375, 'grad_norm': 1.2269575595855713, 'learning_rate': 7.422e-06, 'epoch': 4.57}
+{'loss': 0.2019, 'grad_norm': 1.0275866985321045, 'learning_rate': 7.425e-06, 'epoch': 4.57}
+{'loss': 0.2382, 'grad_norm': 2.3359060287475586, 'learning_rate': 7.428e-06, 'epoch': 4.57}
+{'loss': 0.1561, 'grad_norm': 0.9369570016860962, 'learning_rate': 7.4310000000000005e-06, 'epoch': 4.58}
+{'loss': 0.184, 'grad_norm': 1.2175058126449585, 'learning_rate': 7.434e-06, 'epoch': 4.58}
+{'loss': 0.2426, 'grad_norm': 2.063988447189331, 'learning_rate': 7.437e-06, 'epoch': 4.58}
+{'loss': 0.1359, 'grad_norm': 1.105177640914917, 'learning_rate': 7.44e-06, 'epoch': 4.58}
+{'loss': 0.1228, 'grad_norm': 1.8581008911132812, 'learning_rate': 7.443e-06, 'epoch': 4.58}
+{'loss': 0.1086, 'grad_norm': 0.8880102634429932, 'learning_rate': 7.446e-06, 'epoch': 4.59}
+{'loss': 0.0594, 'grad_norm': 0.9845847487449646, 'learning_rate': 7.449e-06, 'epoch': 4.59}
+{'loss': 0.0764, 'grad_norm': 0.7028189897537231, 'learning_rate': 7.452000000000001e-06, 'epoch': 4.59}
+{'loss': 0.0814, 'grad_norm': 1.0322048664093018, 'learning_rate': 7.455e-06, 'epoch': 4.59}
+{'loss': 0.08, 'grad_norm': 1.1624642610549927, 'learning_rate': 7.4579999999999996e-06, 'epoch': 4.59}
+{'loss': 0.0655, 'grad_norm': 0.8388569951057434, 'learning_rate': 7.461e-06, 'epoch': 4.59}
+{'loss': 0.0857, 'grad_norm': 0.7668055295944214, 'learning_rate': 7.464e-06, 'epoch': 4.6}
+{'loss': 0.07, 'grad_norm': 1.1497136354446411, 'learning_rate': 7.467000000000001e-06, 'epoch': 4.6}
+{'loss': 0.0676, 'grad_norm': 2.340991497039795, 'learning_rate': 7.4700000000000005e-06, 'epoch': 4.6}
+{'loss': 0.0703, 'grad_norm': 0.8587968349456787, 'learning_rate': 7.4729999999999994e-06, 'epoch': 4.6}
+{'loss': 0.0863, 'grad_norm': 2.3311848640441895, 'learning_rate': 7.476e-06, 'epoch': 4.6}
+{'loss': 0.0512, 'grad_norm': 0.7522993683815002, 'learning_rate': 7.479e-06, 'epoch': 4.61}
+{'loss': 0.0746, 'grad_norm': 0.8542543053627014, 'learning_rate': 7.4820000000000005e-06, 'epoch': 4.61}
+{'loss': 0.0673, 'grad_norm': 1.0095270872116089, 'learning_rate': 7.485e-06, 'epoch': 4.61}
+{'loss': 0.1941, 'grad_norm': 1.6802910566329956, 'learning_rate': 7.488e-06, 'epoch': 4.61}
+{'loss': 0.0946, 'grad_norm': 1.132878065109253, 'learning_rate': 7.491e-06, 'epoch': 4.61}
+{'loss': 0.0651, 'grad_norm': 0.8775937557220459, 'learning_rate': 7.494e-06, 'epoch': 4.61}
+{'loss': 0.0837, 'grad_norm': 1.0279693603515625, 'learning_rate': 7.497e-06, 'epoch': 4.62}
+{'loss': 0.0532, 'grad_norm': 1.2879340648651123, 'learning_rate': 7.5e-06, 'epoch': 4.62}
+{'loss': 0.0604, 'grad_norm': 1.112121820449829, 'learning_rate': 7.503e-06, 'epoch': 4.62}
+{'loss': 0.067, 'grad_norm': 1.0696443319320679, 'learning_rate': 7.506e-06, 'epoch': 4.62}
+{'loss': 0.0728, 'grad_norm': 0.9257684350013733, 'learning_rate': 7.5090000000000004e-06, 'epoch': 4.62}
+{'loss': 0.0926, 'grad_norm': 1.5705357789993286, 'learning_rate': 7.512e-06, 'epoch': 4.63}
+  3%|▎         | 2508/100000 [1:22:39<30:44:28,  1.14s/it]  3%|▎         | 2509/100000 [1:22:40<30:27:46,  1.12s/it]                                                            3%|▎         | 2509/100000 [1:22:40<30:27:46,  1.12s/it]  3%|▎         | 2510/100000 [1:22:41<29:54:24,  1.10s/it]                                                            3%|▎         | 2510/100000 [1:22:41<29:54:24,  1.10s/it]  3%|▎         | 2511/100000 [1:22:42<29:42:10,  1.10s/it]                                                            3%|▎         | 2511/100000 [1:22:42<29:42:10,  1.10s/it]  3%|▎         | 2512/100000 [1:22:43<29:06:35,  1.07s/it]                                                            3%|▎         | 2512/100000 [1:22:43<29:06:35,  1.07s/it]  3%|▎         | 2513/100000 [1:22:44<28:30:36,  1.05s/it]                                                            3%|▎         | 2513/100000 [1:22:44<28:30:36,  1.05s/it]  3%|▎         | 2514/100000 [1:22:45<28:01:47,  1.04s/it]                                                            3%|▎         | 2514/100000 [1:22:45<28:01:47,  1.04s/it]  3%|▎         | 2515/100000 [1:22:46<27:15:52,  1.01s/it]                                                            3%|▎         | 2515/100000 [1:22:46<27:15:52,  1.01s/it]  3%|▎         | 2516/100000 [1:22:47<26:41:18,  1.01it/s]                                                            3%|▎         | 2516/100000 [1:22:47<26:41:18,  1.01it/s]  3%|▎         | 2517/100000 [1:22:48<26:10:23,  1.03it/s]                                                            3%|▎         | 2517/100000 [1:22:48<26:10:23,  1.03it/s]  3%|▎         | 2518/100000 [1:22:49<25:29:48,  1.06it/s]                                                            3%|▎         | 2518/100000 [1:22:49<25:29:48,  1.06it/s]  3%|▎         | 2519/100000 [1:22:59<98:44:08,  3.65s/it]                                                            3%|▎         | 2519/100000 [1:22:59<98:44:08,  3.65s/it]  3%|▎         | 2520/100000 [1:23:04<113:01:16,  4.17s/it]                                                             3%|▎         | 2520/100000 [1:23:04<113:01:16,  4.17s/it]  3%|▎         | 2521/100000 [1:23:09<116:44:35,  4.31s/it]                                                             3%|▎         | 2521/100000 [1:23:09<116:44:35,  4.31s/it]  3%|▎         | 2522/100000 [1:23:13<114:42:02,  4.24s/it]                                                             3%|▎         | 2522/100000 [1:23:13<114:42:02,  4.24s/it]  3%|▎         | 2523/100000 [1:23:16<109:48:44,  4.06s/it]                                                             3%|▎         | 2523/100000 [1:23:16<109:48:44,  4.06s/it]  3%|▎         | 2524/100000 [1:23:20<103:47:01,  3.83s/it]                                                             3%|▎         | 2524/100000 [1:23:20<103:47:01,  3.83s/it]  3%|▎         | 2525/100000 [1:23:23<96:57:16,  3.58s/it]                                                             3%|▎         | 2525/100000 [1:23:23<96:57:16,  3.58s/it]  3%|▎         | 2526/100000 [1:23:25<89:44:38,  3.31s/it]                                                            3%|▎         | 2526/100000 [1:23:25<89:44:38,  3.31s/it]  3%|▎         | 2527/100000 [1:23:28<83:08:53,  3.07s/it]                                                            3%|▎         | 2527/100000 [1:23:28<83:08:53,  3.07s/it]  3%|▎         | 2528/100000 [1:23:30<78:02:11,  2.88s/it]                                                            3%|▎         | 2528/100000 [1:23:30<78:02:11,  2.88s/it]  3%|▎         | 2529/100000 [1:23:33<73:01:21,  2.70s/it]                                                            3%|▎         | 2529/100000 [1:23:33<73:01:21,  2.70s/it]  3%|▎         | 2530/100000 [1:23:35<67:32:50,  2.49s/it]                                                            3%|▎         | 2530/100000 [1:23:35<67:32:50,  2.49s/it]  3%|▎         | 2531/100000 [1:23:36<62:36:00,  2.31s/it]                                                            3%|▎         | 2531/100000 [1:23:36<62:36:00,  2.31s/it]  3%|▎         | 2532/100000 [1:23:38<58:47:24,  2.17s/it]                                                            3%|▎         | 2532/100000 [1:23:38<58:47:24,  2.17s/it]  3%|▎         | 2533/100000 [1:23:40<55:32:02,  2.05s/it]                                                            3%|▎         | 2533/100000 [1:23:40<55:32:02,  2.05s/it]  3%|▎         | 2534/100000 [1:23:42<52:44:15,  1.95s/it]                                                            3%|▎         | 2534/100000 [1:23:42<52:44:15,  1.95s/it]  3%|▎         | 2535/100000 [1:23:43<49:47:42,  1.84s/it]                                                            3%|▎         | 2535/100000 [1:23:43<49:47:42,  1.84s/it]  3%|▎         | 2536/100000 [1:23:45<47:51:11,  1.77s/it]                                                            3%|▎         | 2536/100000 [1:23:45<47:51:11,  1.77s/it]  3%|▎         | 2537/100000 [1:23:47<46:13:04,  1.71s/it]                                                            3%|▎         | 2537/100000 [1:23:47<46:13:04,  1.71s/it]  3%|▎         | 2538/100000 [1:23:48<44:05:31,  1.63s/it]                                                            3%|▎         | 2538/100000 [1:23:48<44:05:31,  1.63s/it]  3%|▎         | 2539/100000 [1:23:49<42:48:22,  1.58s/it]                                                            3%|▎         | 2539/100000 [1:23:49<42:48:22,  1.58s/it]  3%|▎         | 2540/100000 [1:23:51<41:43:58,  1.54s/it]                                                            3%|▎         | 2540/100000 [1:23:51<41:43:58,  1.54s/it]  3%|▎         | 2541/100000 [1:23:52<40:43:37,  1.50s/it]                                                            3%|▎         | 2541/100000 [1:23:52<40:43:37,  1.50s/it]  3%|▎         | 2542/100000 [1:23:54<39:59:02,  1.48s/it]                                                            3%|▎         | 2542/100000 [1:23:54<39:59:02,  1.48s/it]  3%|▎         | 2543/100000 [1:23:55<38:59:27,  1.44s/it]                                                            3%|▎         | 2543/100000 [1:23:55<38:59:27,  1.44s/it]  3%|▎         | 2544/100000 [1:23:56<38:01:09,  1.40s/it]                                                            3%|▎         | 2544/100000 [1:23:56<38:01:09,  1.40s/it]  3%|▎         | 2545/100000 [1:23:58<37:31:28,  1.39s/it]                                                            3%|▎         | 2545/100000 [1:23:58<37:31:28,  1.39s/it]  3%|▎         | 2546/100000 [1:23:59<36:52:52,  1.36s/it]                                                            3%|▎         | 2546/100000 [1:23:59<36:52:52,  1.36s/it]  3%|▎         | 2547/100000 [1:24:00<35:58:54,  1.33s/it]                                                            3%|▎         | 2547/100000 [1:24:00<35:58:54,  1.33s/it]  3%|▎         | 2548/100000 [1:24:02<35:39:34,  1.32s/it]                                                            3%|▎         | 2548/100000 [1:24:02<35:39:34,  1.32s/it]  3%|▎         | 2549/100000 [1:24:03<35:08:57,  1.30s/it]                                                            3%|▎         | 2549/100000 [1:24:03<35:08:57,  1.30s/it]  3%|▎         | 2550/100000 [1:24:04<34:45:59,  1.28s/it]                                                            3%|▎         | 2550/100000 [1:24:04<34:45:59,  1.28s/it]  3%|▎         | 2551/100000 [1:24:05<34:13:33,  1.26s/it]                                                            3%|▎         | 2551/100000 [1:24:05<34:13:33,  1.26s/it]  3%|▎         | 2552/100000 [1:24:06<33:33:32,  1.24s/it]                                                            3%|▎         | 2552/100000 [1:24:06<33:33:32,  1.24s/it]  3%|▎         | 2553/100000 [1:24:08<32:59:23,  1.22s/it]                                                            3%|▎         | 2553/100000 [1:24:08<32:59:23,  1.22s/it]  3%|▎         | 2554/100000 [1:24:09<32:26:28,  1.20s/it]                                                            3%|▎         | 2554/100000 [1:24:09<32:26:28,  1.20s/it]  3%|▎         | 2555/100000 [1:24:10<31:51:14,  1.18s/it]                                                            3%|▎         | 2555/100000 [1:24:10<31:51:14,  1.18s/it]  3%|▎         | 2556/100000 [1:24:11<31:20:51,  1.16s/it]                                                            3%|▎         | 2556/100000 [1:24:11<31:20:51,  1.16s/it]  3%|▎         | 2557/100000 [1:24:12<30:57:46,  1.14s/it]                                                            3%|▎         | 2557/100000 [1:24:12<30:57:46,  1.14s/it]  3%|▎         | 2558/100000 [1:24:13<30:26:16,  1.12s/it]                                                            3%|▎         | 2558/100000 [1:24:13<30:26:16,  1.12s/it]  3%|▎         | 2559/100000 [1:24:14<30:07:27,  1.11s/it]                                                            3%|▎         | 2559/100000 [1:24:14<30:07:27,  1.11s/it]  3%|▎         | 2560/100000 [1:24:15<29:42:31,  1.10s/it]                                                            3%|▎         | 2560/100000 [1:24:15<29:42:31,  1.10s/it]  3%|▎         | 2561/100000 [1:24:16<29:27:33,  1.09s/it]                                                            3%|▎         | 2561/100000 [1:24:16<29:27:33,  1.09s/it]  3%|▎         | 2562/100000 [1:24:18<29:10:45,  1.08s/it]                                                            3%|▎         | 2562/100000 [1:24:18<29:10:45,  1.08s/it]  3%|▎         | 2563/100000 [1:24:19<28:33:39,  1.06s/it]                                                            3%|▎         | 2563/100000 [1:24:19<28:33:39,  1.06s/it]  3%|▎         | 2564/100000 [1:24:20<28:02:19,  1.04s/it]                                                            3%|▎         | 2564/100000 [1:24:20<28:02:19,  1.04s/it]  3%|▎         | 2565/100000 [1:24:20<27:32:09,  1.02s/it]                                                            3%|▎         | 2565/100000 [1:24:20<27:32:09,  1.02s/it]  3%|▎         | 2566/100000 [1:24:21<26:52:23,  1.01it/s]                                                            3%|▎         | 2566/100000 [1:24:21<26:52:23,  1.01it/s]  3%|▎         | 2567/100000 [1:24:22<26:06:14,  1.04it/s]                                                            3%|▎         | 2567/100000 [1:24:22<26:06:14,  1.04it/s]  3%|▎         | 2568/100000 [1:24:23<25:05:33,  1.08it/s]                                                            3%|▎         | 2568/100000 [1:24:23<25:05:33,  1.08it/s]  3%|▎         | 2569/100000 [1:24:34<109:23:58,  4.04s/it]                                                             3%|▎         | 2569/100000 [1:24:34<109:23:58,  4.04s/it]  3%|▎         | 2570/100000 [1:24:40<121:16:02,  4.48s/it]                                                             3%|▎         | 2570/100000 [1:24:40<121:16:02,  4.48s/it]  3%|▎         | 2571/100000 [1:24:45<123:20:17,  4.56s/it]                                                             3%|▎         | 2571/100000 [1:24:45<123:20:17,  4.56s/it]  3%|▎         | 2572/100000 [1:24:49<120:32:07,  4.45s/it]                                                             3%|▎         | 2572/100000 [1:24:49<120:32:07,  4.45s/it]  3%|▎         | 2573/100000 [1:24:53<113:37:40,  4.20s/it]                                                             3%|▎         | 2573/100000 [1:24:53<113:37:40,  4.20s/it]  3%|▎         | 2574/100000 [1:24:56<105:54:54,  3.91s/it]                                                             3%|▎         | 2574/100000 [1:24:56<105:54:54,  3.91s/it]  3%|▎         | 2575/100000 [1:24:59<97:19:23,  3.60s/it]                                                             3%|▎         | 2575/100000 [1:24:59<97:19:23,  3.60s/it]  3%|▎         | 2576/100000 [1:25:01<90:41:16,  3.35s/it]                                                            3%|▎         | 2576/100000 [1:25:01<90:41:16,  3.35s/it]  3%|▎         | 2577/100000 [1:25:04<84:01:37,  3.10s/it]                                                            3%|▎         | 2577/100000 [1:25:04<84:01:37,  3.10s/it]  3%|▎         | 2578/100000 [1:25:06<77:44:28,  2.87s/it]                                                            3%|▎         | 2578/100000 [1:25:06<77:44:28,  2.87s/it]  3%|▎         | 2579/100000 [1:25:08<71:49:41,  2.65s/it]                                                            3%|▎         | 2579/100000 [1:25:08<71:49:41,  2.65s/it]  3%|▎         | 2580/100000 [1:25:10<66:45:58,  2.47s/it]                                                            3%|▎         | 2580/100000 [1:25:10<66:45:58,  2.47s/it]  3%|▎         | 2581/100000 [1:25:12<62:25:08,  2.31s/it]                                                            3%|▎         | 2581/100000 [1:25:12<62:25:08,  2.31s/it]  3%|▎         | 2582/100000 [1:25:14<58:24:39,  2.16s/it]                                                            3%|▎         | 2582/100000 [1:25:14<58:24:39,  2.16s/it]  3%|▎         | 2583/100000 [1:25:16<55:09:23,  2.04s/it]                                                            3%|▎         | 2583/100000 [1:25:16<55:09:23,  2.04s/it]  3%|▎         | 2584/100000 [1:25:18<52:18:30,  1.93s/it]                                                            3%|▎         | 2584/100000 [1:25:18<52:18:30,  1.93s/it]  3%|▎         | 2585/100000 [1:25:19<49:57:13,  1.85s/it]                                                            3%|▎         | 2585/100000 [1:25:19<49:57:13,  1.85s/it]  3%|▎         | 2586/100000 [1:25:21<48:02:52,  1.78s/it]                                                            3%|▎         | 2586/100000 [1:25:21<48:02:52,  1.78s/it]  3%|▎         | 2587/100000 [1:25:22<46:17:18,  1.71s/it]                                                            3%|▎         | 2587/100000 [1:25:22<46:17:18,  1.71s/it]  3%|▎         | 2588/100000 [1:25:24<44:45:47,  1.65s/it]                                                            3%|▎         | 2588/100000 [1:25:24<44:45:47,  1.65s/it]  3%|▎         | 2589/100000 [1:25:25<43:04:27,  1.59s/it]                                                            3%|▎         | 2589/100000 [1:25:25<43:04:27,  1.59s/it]  3%|▎         | 2590/100000 [1:25:27<41:49:50,  1.55s/it]                                                            3%|▎         | 2590/100000 [1:25:27<41:49:50,  1.55s/it]  3%|▎         | 2591/100000 [1:25:28<40:24:28,  1.49s/it]                                                          {'loss': 0.0859, 'grad_norm': 1.1221293210983276, 'learning_rate': 7.515e-06, 'epoch': 4.63}
+{'loss': 0.0649, 'grad_norm': 1.043793797492981, 'learning_rate': 7.518e-06, 'epoch': 4.63}
+{'loss': 0.0654, 'grad_norm': 0.9244360327720642, 'learning_rate': 7.521e-06, 'epoch': 4.63}
+{'loss': 0.0901, 'grad_norm': 1.8804733753204346, 'learning_rate': 7.524000000000001e-06, 'epoch': 4.63}
+{'loss': 0.0578, 'grad_norm': 2.1051440238952637, 'learning_rate': 7.527000000000001e-06, 'epoch': 4.64}
+{'loss': 0.1183, 'grad_norm': 1.860549807548523, 'learning_rate': 7.53e-06, 'epoch': 4.64}
+{'loss': 0.0936, 'grad_norm': 1.026725172996521, 'learning_rate': 7.533e-06, 'epoch': 4.64}
+{'loss': 0.0937, 'grad_norm': 1.1471177339553833, 'learning_rate': 7.5359999999999995e-06, 'epoch': 4.64}
+{'loss': 0.1107, 'grad_norm': 1.392022967338562, 'learning_rate': 7.539000000000001e-06, 'epoch': 4.64}
+{'loss': 0.1169, 'grad_norm': 1.7344036102294922, 'learning_rate': 7.542000000000001e-06, 'epoch': 4.64}
+{'loss': 0.1065, 'grad_norm': 1.535583734512329, 'learning_rate': 7.545000000000001e-06, 'epoch': 4.65}
+{'loss': 0.4917, 'grad_norm': 1.7330703735351562, 'learning_rate': 7.5479999999999996e-06, 'epoch': 4.65}
+{'loss': 0.4331, 'grad_norm': 1.3887149095535278, 'learning_rate': 7.550999999999999e-06, 'epoch': 4.65}
+{'loss': 0.3801, 'grad_norm': 1.4955347776412964, 'learning_rate': 7.554000000000001e-06, 'epoch': 4.65}
+{'loss': 0.2607, 'grad_norm': 1.291242241859436, 'learning_rate': 7.557000000000001e-06, 'epoch': 4.65}
+{'loss': 0.3722, 'grad_norm': 1.6524022817611694, 'learning_rate': 7.5600000000000005e-06, 'epoch': 4.66}
+{'loss': 0.2796, 'grad_norm': 1.3549121618270874, 'learning_rate': 7.563e-06, 'epoch': 4.66}
+{'loss': 0.2414, 'grad_norm': 1.261399507522583, 'learning_rate': 7.565999999999999e-06, 'epoch': 4.66}
+{'loss': 0.263, 'grad_norm': 1.4139667749404907, 'learning_rate': 7.569000000000001e-06, 'epoch': 4.66}
+{'loss': 0.2835, 'grad_norm': 1.3193572759628296, 'learning_rate': 7.5720000000000005e-06, 'epoch': 4.66}
+{'loss': 0.1887, 'grad_norm': 1.1930153369903564, 'learning_rate': 7.575e-06, 'epoch': 4.66}
+{'loss': 0.2039, 'grad_norm': 1.1165175437927246, 'learning_rate': 7.578e-06, 'epoch': 4.67}
+{'loss': 0.1993, 'grad_norm': 1.2176852226257324, 'learning_rate': 7.581e-06, 'epoch': 4.67}
+{'loss': 0.3159, 'grad_norm': 1.6196171045303345, 'learning_rate': 7.5840000000000006e-06, 'epoch': 4.67}
+{'loss': 0.1302, 'grad_norm': 1.2227379083633423, 'learning_rate': 7.587e-06, 'epoch': 4.67}
+{'loss': 0.1816, 'grad_norm': 1.3840858936309814, 'learning_rate': 7.59e-06, 'epoch': 4.67}
+{'loss': 0.1301, 'grad_norm': 1.2817070484161377, 'learning_rate': 7.593e-06, 'epoch': 4.68}
+{'loss': 0.1599, 'grad_norm': 1.2893495559692383, 'learning_rate': 7.596e-06, 'epoch': 4.68}
+{'loss': 0.0656, 'grad_norm': 0.8995867967605591, 'learning_rate': 7.599000000000001e-06, 'epoch': 4.68}
+{'loss': 0.0714, 'grad_norm': 1.0696057081222534, 'learning_rate': 7.602e-06, 'epoch': 4.68}
+{'loss': 0.0726, 'grad_norm': 0.9868329167366028, 'learning_rate': 7.605e-06, 'epoch': 4.68}
+{'loss': 0.071, 'grad_norm': 1.6628823280334473, 'learning_rate': 7.608e-06, 'epoch': 4.69}
+{'loss': 0.0726, 'grad_norm': 0.901323676109314, 'learning_rate': 7.611e-06, 'epoch': 4.69}
+{'loss': 0.0818, 'grad_norm': 0.9900251626968384, 'learning_rate': 7.614000000000001e-06, 'epoch': 4.69}
+{'loss': 0.0863, 'grad_norm': 0.9476147890090942, 'learning_rate': 7.617000000000001e-06, 'epoch': 4.69}
+{'loss': 0.1161, 'grad_norm': 1.3561960458755493, 'learning_rate': 7.62e-06, 'epoch': 4.69}
+{'loss': 0.0772, 'grad_norm': 0.802712619304657, 'learning_rate': 7.623e-06, 'epoch': 4.69}
+{'loss': 0.0709, 'grad_norm': 0.976687490940094, 'learning_rate': 7.6259999999999995e-06, 'epoch': 4.7}
+{'loss': 0.0803, 'grad_norm': 1.0002014636993408, 'learning_rate': 7.629000000000001e-06, 'epoch': 4.7}
+{'loss': 0.068, 'grad_norm': 1.0644595623016357, 'learning_rate': 7.632e-06, 'epoch': 4.7}
+{'loss': 0.0655, 'grad_norm': 0.7027485370635986, 'learning_rate': 7.635e-06, 'epoch': 4.7}
+{'loss': 0.0897, 'grad_norm': 1.1962902545928955, 'learning_rate': 7.638e-06, 'epoch': 4.7}
+{'loss': 0.1526, 'grad_norm': 1.5846956968307495, 'learning_rate': 7.641e-06, 'epoch': 4.71}
+{'loss': 0.086, 'grad_norm': 1.1864464282989502, 'learning_rate': 7.644000000000002e-06, 'epoch': 4.71}
+{'loss': 0.079, 'grad_norm': 0.921712338924408, 'learning_rate': 7.647000000000001e-06, 'epoch': 4.71}
+{'loss': 0.0882, 'grad_norm': 1.6384105682373047, 'learning_rate': 7.65e-06, 'epoch': 4.71}
+{'loss': 0.0982, 'grad_norm': 1.165614366531372, 'learning_rate': 7.653e-06, 'epoch': 4.71}
+{'loss': 0.053, 'grad_norm': 0.9998936653137207, 'learning_rate': 7.656e-06, 'epoch': 4.71}
+{'loss': 0.0766, 'grad_norm': 1.1780154705047607, 'learning_rate': 7.659e-06, 'epoch': 4.72}
+{'loss': 0.0739, 'grad_norm': 0.8436416983604431, 'learning_rate': 7.662e-06, 'epoch': 4.72}
+{'loss': 0.0897, 'grad_norm': 0.9713981747627258, 'learning_rate': 7.665e-06, 'epoch': 4.72}
+{'loss': 0.076, 'grad_norm': 0.9224056005477905, 'learning_rate': 7.668e-06, 'epoch': 4.72}
+{'loss': 0.0644, 'grad_norm': 0.9956642389297485, 'learning_rate': 7.671e-06, 'epoch': 4.72}
+{'loss': 0.0849, 'grad_norm': 1.1300500631332397, 'learning_rate': 7.674000000000001e-06, 'epoch': 4.73}
+{'loss': 0.1103, 'grad_norm': 1.3759992122650146, 'learning_rate': 7.677000000000001e-06, 'epoch': 4.73}
+{'loss': 0.0744, 'grad_norm': 1.100203514099121, 'learning_rate': 7.680000000000001e-06, 'epoch': 4.73}
+{'loss': 0.0706, 'grad_norm': 0.9975654482841492, 'learning_rate': 7.683e-06, 'epoch': 4.73}
+{'loss': 0.0995, 'grad_norm': 1.2560099363327026, 'learning_rate': 7.685999999999999e-06, 'epoch': 4.73}
+{'loss': 0.0927, 'grad_norm': 1.2191094160079956, 'learning_rate': 7.688999999999999e-06, 'epoch': 4.73}
+{'loss': 0.1354, 'grad_norm': 1.7450473308563232, 'learning_rate': 7.692e-06, 'epoch': 4.74}
+{'loss': 0.1264, 'grad_norm': 1.9262582063674927, 'learning_rate': 7.695e-06, 'epoch': 4.74}
+{'loss': 0.4965, 'grad_norm': 2.491466999053955, 'learning_rate': 7.698e-06, 'epoch': 4.74}
+{'loss': 0.3776, 'grad_norm': 1.3091697692871094, 'learning_rate': 7.701e-06, 'epoch': 4.74}
+{'loss': 0.3546, 'grad_norm': 1.6606218814849854, 'learning_rate': 7.704e-06, 'epoch': 4.74}
+{'loss': 0.3365, 'grad_norm': 1.1433162689208984, 'learning_rate': 7.707000000000001e-06, 'epoch': 4.75}
+{'loss': 0.2869, 'grad_norm': 1.1602765321731567, 'learning_rate': 7.71e-06, 'epoch': 4.75}
+{'loss': 0.3196, 'grad_norm': 1.4442332983016968, 'learning_rate': 7.713e-06, 'epoch': 4.75}
+{'loss': 0.2504, 'grad_norm': 1.1443811655044556, 'learning_rate': 7.716e-06, 'epoch': 4.75}
+{'loss': 0.2439, 'grad_norm': 1.018218994140625, 'learning_rate': 7.719e-06, 'epoch': 4.75}
+{'loss': 0.2409, 'grad_norm': 1.1695661544799805, 'learning_rate': 7.722e-06, 'epoch': 4.76}
+{'loss': 0.1832, 'grad_norm': 1.1299222707748413, 'learning_rate': 7.725e-06, 'epoch': 4.76}
+{'loss': 0.2338, 'grad_norm': 1.2177181243896484, 'learning_rate': 7.728e-06, 'epoch': 4.76}
+{'loss': 0.1498, 'grad_norm': 1.2508996725082397, 'learning_rate': 7.731e-06, 'epoch': 4.76}
+{'loss': 0.1899, 'grad_norm': 1.3955219984054565, 'learning_rate': 7.733999999999999e-06, 'epoch': 4.76}
+{'loss': 0.1173, 'grad_norm': 1.0323314666748047, 'learning_rate': 7.737e-06, 'epoch': 4.76}
+{'loss': 0.1056, 'grad_norm': 0.8515747785568237, 'learning_rate': 7.74e-06, 'epoch': 4.77}
+{'loss': 0.0839, 'grad_norm': 0.7767705321311951, 'learning_rate': 7.743e-06, 'epoch': 4.77}
+{'loss': 0.0661, 'grad_norm': 0.8640003800392151, 'learning_rate': 7.746e-06, 'epoch': 4.77}
+{'loss': 0.0633, 'grad_norm': 0.7137645483016968, 'learning_rate': 7.749e-06, 'epoch': 4.77}
+{'loss': 0.0957, 'grad_norm': 0.9822434186935425, 'learning_rate': 7.752000000000001e-06, 'epoch': 4.77}
+{'loss': 0.1328, 'grad_norm': 0.9581803679466248, 'learning_rate': 7.755000000000001e-06, 'epoch': 4.78}
+{'loss': 0.0914, 'grad_norm': 1.1790051460266113, 'learning_rate': 7.758000000000001e-06, 'epoch': 4.78}
+{'loss': 0.0594, 'grad_norm': 0.988778829574585, 'learning_rate': 7.760999999999999e-06, 'epoch': 4.78}
+{'loss': 0.0762, 'grad_norm': 0.9305976629257202, 'learning_rate': 7.763999999999999e-06, 'epoch': 4.78}
+  3%|▎         | 2591/100000 [1:25:28<40:24:28,  1.49s/it]  3%|▎         | 2592/100000 [1:25:30<40:01:32,  1.48s/it]                                                            3%|▎         | 2592/100000 [1:25:30<40:01:32,  1.48s/it]  3%|▎         | 2593/100000 [1:25:31<39:09:07,  1.45s/it]                                                            3%|▎         | 2593/100000 [1:25:31<39:09:07,  1.45s/it]  3%|▎         | 2594/100000 [1:25:32<38:22:57,  1.42s/it]                                                            3%|▎         | 2594/100000 [1:25:32<38:22:57,  1.42s/it]  3%|▎         | 2595/100000 [1:25:34<37:43:22,  1.39s/it]                                                            3%|▎         | 2595/100000 [1:25:34<37:43:22,  1.39s/it]  3%|▎         | 2596/100000 [1:25:35<36:56:21,  1.37s/it]                                                            3%|▎         | 2596/100000 [1:25:35<36:56:21,  1.37s/it]  3%|▎         | 2597/100000 [1:25:36<36:17:50,  1.34s/it]                                                            3%|▎         | 2597/100000 [1:25:36<36:17:50,  1.34s/it]  3%|▎         | 2598/100000 [1:25:38<35:37:40,  1.32s/it]                                                            3%|▎         | 2598/100000 [1:25:38<35:37:40,  1.32s/it]  3%|▎         | 2599/100000 [1:25:39<35:18:47,  1.31s/it]                                                            3%|▎         | 2599/100000 [1:25:39<35:18:47,  1.31s/it]  3%|▎         | 2600/100000 [1:25:40<34:36:04,  1.28s/it]                                                            3%|▎         | 2600/100000 [1:25:40<34:36:04,  1.28s/it]  3%|▎         | 2601/100000 [1:25:41<34:05:47,  1.26s/it]                                                            3%|▎         | 2601/100000 [1:25:41<34:05:47,  1.26s/it]  3%|▎         | 2602/100000 [1:25:43<33:42:35,  1.25s/it]                                                            3%|▎         | 2602/100000 [1:25:43<33:42:35,  1.25s/it]  3%|▎         | 2603/100000 [1:25:44<33:04:15,  1.22s/it]                                                            3%|▎         | 2603/100000 [1:25:44<33:04:15,  1.22s/it]  3%|▎         | 2604/100000 [1:25:45<32:33:09,  1.20s/it]                                                            3%|▎         | 2604/100000 [1:25:45<32:33:09,  1.20s/it]  3%|▎         | 2605/100000 [1:25:46<32:02:40,  1.18s/it]                                                            3%|▎         | 2605/100000 [1:25:46<32:02:40,  1.18s/it]  3%|▎         | 2606/100000 [1:25:47<31:36:14,  1.17s/it]                                                            3%|▎         | 2606/100000 [1:25:47<31:36:14,  1.17s/it]  3%|▎         | 2607/100000 [1:25:48<31:06:17,  1.15s/it]                                                            3%|▎         | 2607/100000 [1:25:48<31:06:17,  1.15s/it]  3%|▎         | 2608/100000 [1:25:49<30:26:50,  1.13s/it]                                                            3%|▎         | 2608/100000 [1:25:49<30:26:50,  1.13s/it]  3%|▎         | 2609/100000 [1:25:50<29:46:23,  1.10s/it]                                                            3%|▎         | 2609/100000 [1:25:50<29:46:23,  1.10s/it]  3%|▎         | 2610/100000 [1:25:51<29:35:57,  1.09s/it]                                                            3%|▎         | 2610/100000 [1:25:51<29:35:57,  1.09s/it]  3%|▎         | 2611/100000 [1:25:52<29:04:28,  1.07s/it]                                                            3%|▎         | 2611/100000 [1:25:52<29:04:28,  1.07s/it]  3%|▎         | 2612/100000 [1:25:53<29:00:18,  1.07s/it]                                                            3%|▎         | 2612/100000 [1:25:53<29:00:18,  1.07s/it]  3%|▎         | 2613/100000 [1:25:55<28:39:18,  1.06s/it]                                                            3%|▎         | 2613/100000 [1:25:55<28:39:18,  1.06s/it]  3%|▎         | 2614/100000 [1:25:56<28:08:50,  1.04s/it]                                                            3%|▎         | 2614/100000 [1:25:56<28:08:50,  1.04s/it]  3%|▎         | 2615/100000 [1:25:56<27:38:42,  1.02s/it]                                                            3%|▎         | 2615/100000 [1:25:56<27:38:42,  1.02s/it]  3%|▎         | 2616/100000 [1:25:57<27:15:48,  1.01s/it]                                                            3%|▎         | 2616/100000 [1:25:57<27:15:48,  1.01s/it]  3%|▎         | 2617/100000 [1:25:58<26:40:09,  1.01it/s]                                                            3%|▎         | 2617/100000 [1:25:58<26:40:09,  1.01it/s]  3%|▎         | 2618/100000 [1:25:59<25:34:09,  1.06it/s]                                                            3%|▎         | 2618/100000 [1:25:59<25:34:09,  1.06it/s]  3%|▎         | 2619/100000 [1:26:10<107:37:51,  3.98s/it]                                                             3%|▎         | 2619/100000 [1:26:10<107:37:51,  3.98s/it]  3%|▎         | 2620/100000 [1:26:16<120:58:18,  4.47s/it]                                                             3%|▎         | 2620/100000 [1:26:16<120:58:18,  4.47s/it]  3%|▎         | 2621/100000 [1:26:20<121:41:27,  4.50s/it]                                                             3%|▎         | 2621/100000 [1:26:21<121:41:27,  4.50s/it]  3%|▎         | 2622/100000 [1:26:25<118:23:01,  4.38s/it]                                                             3%|▎         | 2622/100000 [1:26:25<118:23:01,  4.38s/it]  3%|▎         | 2623/100000 [1:26:28<112:04:37,  4.14s/it]                                                             3%|▎         | 2623/100000 [1:26:28<112:04:37,  4.14s/it]  3%|▎         | 2624/100000 [1:26:31<104:39:35,  3.87s/it]                                                             3%|▎         | 2624/100000 [1:26:31<104:39:35,  3.87s/it]  3%|▎         | 2625/100000 [1:26:34<97:28:41,  3.60s/it]                                                             3%|▎         | 2625/100000 [1:26:34<97:28:41,  3.60s/it]  3%|▎         | 2626/100000 [1:26:37<90:14:21,  3.34s/it]                                                            3%|▎         | 2626/100000 [1:26:37<90:14:21,  3.34s/it]  3%|▎         | 2627/100000 [1:26:40<83:37:11,  3.09s/it]                                                            3%|▎         | 2627/100000 [1:26:40<83:37:11,  3.09s/it]  3%|▎         | 2628/100000 [1:26:42<77:22:45,  2.86s/it]                                                            3%|▎         | 2628/100000 [1:26:42<77:22:45,  2.86s/it]  3%|▎         | 2629/100000 [1:26:44<71:35:15,  2.65s/it]                                                            3%|▎         | 2629/100000 [1:26:44<71:35:15,  2.65s/it]  3%|▎         | 2630/100000 [1:26:46<66:28:05,  2.46s/it]                                                            3%|▎         | 2630/100000 [1:26:46<66:28:05,  2.46s/it]  3%|▎         | 2631/100000 [1:26:48<62:06:45,  2.30s/it]                                                            3%|▎         | 2631/100000 [1:26:48<62:06:45,  2.30s/it]  3%|▎         | 2632/100000 [1:26:50<57:35:39,  2.13s/it]                                                            3%|▎         | 2632/100000 [1:26:50<57:35:39,  2.13s/it]  3%|▎         | 2633/100000 [1:26:51<54:13:56,  2.01s/it]                                                            3%|▎         | 2633/100000 [1:26:52<54:13:56,  2.01s/it]  3%|▎         | 2634/100000 [1:26:53<51:25:30,  1.90s/it]                                                            3%|▎         | 2634/100000 [1:26:53<51:25:30,  1.90s/it]  3%|▎         | 2635/100000 [1:26:55<49:07:42,  1.82s/it]                                                            3%|▎         | 2635/100000 [1:26:55<49:07:42,  1.82s/it]  3%|▎         | 2636/100000 [1:26:56<47:33:35,  1.76s/it]                                                            3%|▎         | 2636/100000 [1:26:56<47:33:35,  1.76s/it]  3%|▎         | 2637/100000 [1:26:58<45:56:01,  1.70s/it]                                                            3%|▎         | 2637/100000 [1:26:58<45:56:01,  1.70s/it]  3%|▎         | 2638/100000 [1:26:59<44:18:54,  1.64s/it]                                                            3%|▎         | 2638/100000 [1:26:59<44:18:54,  1.64s/it]  3%|▎         | 2639/100000 [1:27:01<42:32:19,  1.57s/it]                                                            3%|▎         | 2639/100000 [1:27:01<42:32:19,  1.57s/it]  3%|▎         | 2640/100000 [1:27:02<41:18:12,  1.53s/it]                                                            3%|▎         | 2640/100000 [1:27:02<41:18:12,  1.53s/it]  3%|▎         | 2641/100000 [1:27:04<40:31:17,  1.50s/it]                                                            3%|▎         | 2641/100000 [1:27:04<40:31:17,  1.50s/it]  3%|▎         | 2642/100000 [1:27:05<39:42:19,  1.47s/it]                                                            3%|▎         | 2642/100000 [1:27:05<39:42:19,  1.47s/it]  3%|▎         | 2643/100000 [1:27:07<39:05:17,  1.45s/it]                                                            3%|▎         | 2643/100000 [1:27:07<39:05:17,  1.45s/it]  3%|▎         | 2644/100000 [1:27:08<38:20:43,  1.42s/it]                                                            3%|▎         | 2644/100000 [1:27:08<38:20:43,  1.42s/it]  3%|▎         | 2645/100000 [1:27:09<37:26:48,  1.38s/it]                                                            3%|▎         | 2645/100000 [1:27:09<37:26:48,  1.38s/it]  3%|▎         | 2646/100000 [1:27:10<36:47:43,  1.36s/it]                                                            3%|▎         | 2646/100000 [1:27:10<36:47:43,  1.36s/it]  3%|▎         | 2647/100000 [1:27:12<35:57:06,  1.33s/it]                                                            3%|▎         | 2647/100000 [1:27:12<35:57:06,  1.33s/it]  3%|▎         | 2648/100000 [1:27:13<35:26:03,  1.31s/it]                                                            3%|▎         | 2648/100000 [1:27:13<35:26:03,  1.31s/it]  3%|▎         | 2649/100000 [1:27:14<35:04:27,  1.30s/it]                                                            3%|▎         | 2649/100000 [1:27:14<35:04:27,  1.30s/it]  3%|▎         | 2650/100000 [1:27:15<34:29:56,  1.28s/it]                                                            3%|▎         | 2650/100000 [1:27:16<34:29:56,  1.28s/it]  3%|▎         | 2651/100000 [1:27:17<34:02:42,  1.26s/it]                                                            3%|▎         | 2651/100000 [1:27:17<34:02:42,  1.26s/it]  3%|▎         | 2652/100000 [1:27:18<33:14:25,  1.23s/it]                                                            3%|▎         | 2652/100000 [1:27:18<33:14:25,  1.23s/it]  3%|▎         | 2653/100000 [1:27:19<32:39:26,  1.21s/it]                                                            3%|▎         | 2653/100000 [1:27:19<32:39:26,  1.21s/it]  3%|▎         | 2654/100000 [1:27:20<32:04:16,  1.19s/it]                                                            3%|▎         | 2654/100000 [1:27:20<32:04:16,  1.19s/it]  3%|▎         | 2655/100000 [1:27:21<31:43:14,  1.17s/it]                                                            3%|▎         | 2655/100000 [1:27:21<31:43:14,  1.17s/it]  3%|▎         | 2656/100000 [1:27:22<31:14:22,  1.16s/it]                                                            3%|▎         | 2656/100000 [1:27:22<31:14:22,  1.16s/it]  3%|▎         | 2657/100000 [1:27:23<30:34:39,  1.13s/it]                                                            3%|▎         | 2657/100000 [1:27:24<30:34:39,  1.13s/it]  3%|▎         | 2658/100000 [1:27:25<30:06:01,  1.11s/it]                                                            3%|▎         | 2658/100000 [1:27:25<30:06:01,  1.11s/it]  3%|▎         | 2659/100000 [1:27:26<29:36:39,  1.10s/it]                                                            3%|▎         | 2659/100000 [1:27:26<29:36:39,  1.10s/it]  3%|▎         | 2660/100000 [1:27:27<29:17:43,  1.08s/it]                                                            3%|▎         | 2660/100000 [1:27:27<29:17:43,  1.08s/it]  3%|▎         | 2661/100000 [1:27:28<28:33:07,  1.06s/it]                                                            3%|▎         | 2661/100000 [1:27:28<28:33:07,  1.06s/it]  3%|▎         | 2662/100000 [1:27:29<28:24:54,  1.05s/it]                                                            3%|▎         | 2662/100000 [1:27:29<28:24:54,  1.05s/it]  3%|▎         | 2663/100000 [1:27:30<28:02:48,  1.04s/it]                                                            3%|▎         | 2663/100000 [1:27:30<28:02:48,  1.04s/it]  3%|▎         | 2664/100000 [1:27:31<27:39:50,  1.02s/it]                                                            3%|▎         | 2664/100000 [1:27:31<27:39:50,  1.02s/it]  3%|▎         | 2665/100000 [1:27:32<27:12:04,  1.01s/it]                                                            3%|▎         | 2665/100000 [1:27:32<27:12:04,  1.01s/it]  3%|▎         | 2666/100000 [1:27:33<26:46:26,  1.01it/s]                                                            3%|▎         | 2666/100000 [1:27:33<26:46:26,  1.01it/s]  3%|▎         | 2667/100000 [1:27:34<26:00:57,  1.04it/s]                                                            3%|▎         | 2667/100000 [1:27:34<26:00:57,  1.04it/s]  3%|▎         | 2668/100000 [1:27:34<25:03:02,  1.08it/s]                                                            3%|▎         | 2668/100000 [1:27:34<25:03:02,  1.08it/s]  3%|▎         | 2669/100000 [1:27:46<115:15:36,  4.26s/it]                                                             3%|▎         | 2669/100000 [1:27:46<115:15:36,  4.26s/it]  3%|▎         | 2670/100000 [1:27:52<125:13:13,  4.63s/it]                                                             3%|▎         | 2670/100000 [1:27:52<125:13:13,  4.63s/it]  3%|▎         | 2671/100000 [1:27:56<123:07:10,  4.55s/it]                                                             3%|▎         | 2671/100000 [1:27:56<123:07:10,  4.55s/it]  3%|▎         | 2672/100000 [1:28:00<116:12:30,  4.30s/it]                                                             3%|▎         | 2672/100000 [1:28:00<116:12:30,  4.30s/it]  3%|▎         | 2673/100000 [1:28:03<107:37:58,  3.98s/it]                                                             3%|▎         | 2673/100000 [1:28:03<107:37:58,  3.98s/it]  3%|▎         | 2674/100000 [1:28:06<98:34:47,  3.65s/it]                                                             3%|▎         | 2674/100000 [1:28:06<98:34:47,  3.65s/it]  3%|▎         | 2675/100000 [1:28:09<90:00:05,  3.33s/it]                                                            3%|▎         | 2675/100000 [1:28:09<90:00:05,  3.33s/it]  3%|▎         | 2676/100000 [1:28:11<82:41:21,  3.06s/it]                                                            3%|▎         | 2676/100000 [1:28:11<82:41:21,  3.06s/it]  3%|▎         | 2677/100000 [1:28:13<76:15:29,  2.82s/it]                                                          {'loss': 0.0626, 'grad_norm': 0.9188739061355591, 'learning_rate': 7.767e-06, 'epoch': 4.78}
+{'loss': 0.0565, 'grad_norm': 0.8577688336372375, 'learning_rate': 7.77e-06, 'epoch': 4.78}
+{'loss': 0.0855, 'grad_norm': 0.9031362533569336, 'learning_rate': 7.773e-06, 'epoch': 4.79}
+{'loss': 0.0761, 'grad_norm': 0.8325183987617493, 'learning_rate': 7.776e-06, 'epoch': 4.79}
+{'loss': 0.0664, 'grad_norm': 1.1880937814712524, 'learning_rate': 7.779e-06, 'epoch': 4.79}
+{'loss': 0.0855, 'grad_norm': 1.0195281505584717, 'learning_rate': 7.782000000000001e-06, 'epoch': 4.79}
+{'loss': 0.0784, 'grad_norm': 0.9046306014060974, 'learning_rate': 7.785000000000001e-06, 'epoch': 4.79}
+{'loss': 0.0648, 'grad_norm': 0.8892627954483032, 'learning_rate': 7.788e-06, 'epoch': 4.8}
+{'loss': 0.061, 'grad_norm': 1.1928547620773315, 'learning_rate': 7.791e-06, 'epoch': 4.8}
+{'loss': 0.0674, 'grad_norm': 0.8939501047134399, 'learning_rate': 7.794e-06, 'epoch': 4.8}
+{'loss': 0.0752, 'grad_norm': 1.0067095756530762, 'learning_rate': 7.797e-06, 'epoch': 4.8}
+{'loss': 0.0568, 'grad_norm': 0.9221670627593994, 'learning_rate': 7.8e-06, 'epoch': 4.8}
+{'loss': 0.0748, 'grad_norm': 0.8903829455375671, 'learning_rate': 7.803e-06, 'epoch': 4.81}
+{'loss': 0.0936, 'grad_norm': 1.2078776359558105, 'learning_rate': 7.806e-06, 'epoch': 4.81}
+{'loss': 0.0626, 'grad_norm': 1.2025963068008423, 'learning_rate': 7.809e-06, 'epoch': 4.81}
+{'loss': 0.0786, 'grad_norm': 2.6398403644561768, 'learning_rate': 7.812e-06, 'epoch': 4.81}
+{'loss': 0.0955, 'grad_norm': 1.0301458835601807, 'learning_rate': 7.815e-06, 'epoch': 4.81}
+{'loss': 0.0897, 'grad_norm': 1.054529070854187, 'learning_rate': 7.818e-06, 'epoch': 4.81}
+{'loss': 0.0672, 'grad_norm': 0.6876257658004761, 'learning_rate': 7.821e-06, 'epoch': 4.82}
+{'loss': 0.0908, 'grad_norm': 1.0190913677215576, 'learning_rate': 7.824e-06, 'epoch': 4.82}
+{'loss': 0.0886, 'grad_norm': 1.0644663572311401, 'learning_rate': 7.827000000000001e-06, 'epoch': 4.82}
+{'loss': 0.0797, 'grad_norm': 1.4151818752288818, 'learning_rate': 7.830000000000001e-06, 'epoch': 4.82}
+{'loss': 0.079, 'grad_norm': 1.2000187635421753, 'learning_rate': 7.833e-06, 'epoch': 4.82}
+{'loss': 0.0714, 'grad_norm': 0.8478805422782898, 'learning_rate': 7.836e-06, 'epoch': 4.83}
+{'loss': 0.0558, 'grad_norm': 0.9508643746376038, 'learning_rate': 7.838999999999999e-06, 'epoch': 4.83}
+{'loss': 0.1049, 'grad_norm': 1.2372348308563232, 'learning_rate': 7.842e-06, 'epoch': 4.83}
+{'loss': 0.1252, 'grad_norm': 1.6176644563674927, 'learning_rate': 7.845e-06, 'epoch': 4.83}
+{'loss': 0.5302, 'grad_norm': 1.7493839263916016, 'learning_rate': 7.848e-06, 'epoch': 4.83}
+{'loss': 0.4991, 'grad_norm': 1.7353014945983887, 'learning_rate': 7.851e-06, 'epoch': 4.83}
+{'loss': 0.2939, 'grad_norm': 1.6778644323349, 'learning_rate': 7.854e-06, 'epoch': 4.84}
+{'loss': 0.3351, 'grad_norm': 1.1693828105926514, 'learning_rate': 7.857000000000001e-06, 'epoch': 4.84}
+{'loss': 0.3107, 'grad_norm': 1.0527209043502808, 'learning_rate': 7.860000000000001e-06, 'epoch': 4.84}
+{'loss': 0.3261, 'grad_norm': 1.8866925239562988, 'learning_rate': 7.863e-06, 'epoch': 4.84}
+{'loss': 0.2156, 'grad_norm': 1.1227540969848633, 'learning_rate': 7.866e-06, 'epoch': 4.84}
+{'loss': 0.2171, 'grad_norm': 1.33430016040802, 'learning_rate': 7.868999999999999e-06, 'epoch': 4.85}
+{'loss': 0.2086, 'grad_norm': 1.201172113418579, 'learning_rate': 7.872e-06, 'epoch': 4.85}
+{'loss': 0.1949, 'grad_norm': 1.0619585514068604, 'learning_rate': 7.875e-06, 'epoch': 4.85}
+{'loss': 0.1855, 'grad_norm': 1.5394426584243774, 'learning_rate': 7.878e-06, 'epoch': 4.85}
+{'loss': 0.1521, 'grad_norm': 1.0706628561019897, 'learning_rate': 7.881e-06, 'epoch': 4.85}
+{'loss': 0.1697, 'grad_norm': 2.8826377391815186, 'learning_rate': 7.884e-06, 'epoch': 4.86}
+{'loss': 0.1184, 'grad_norm': 1.1852144002914429, 'learning_rate': 7.887000000000001e-06, 'epoch': 4.86}
+{'loss': 0.1214, 'grad_norm': 1.0162383317947388, 'learning_rate': 7.89e-06, 'epoch': 4.86}
+{'loss': 0.095, 'grad_norm': 1.0937857627868652, 'learning_rate': 7.893e-06, 'epoch': 4.86}
+{'loss': 0.1052, 'grad_norm': 0.9450917840003967, 'learning_rate': 7.896e-06, 'epoch': 4.86}
+{'loss': 0.1139, 'grad_norm': 2.6459155082702637, 'learning_rate': 7.899e-06, 'epoch': 4.86}
+{'loss': 0.1326, 'grad_norm': 1.0539472103118896, 'learning_rate': 7.902000000000002e-06, 'epoch': 4.87}
+{'loss': 0.0584, 'grad_norm': 0.7081450819969177, 'learning_rate': 7.905000000000001e-06, 'epoch': 4.87}
+{'loss': 0.0813, 'grad_norm': 1.5462771654129028, 'learning_rate': 7.908e-06, 'epoch': 4.87}
+{'loss': 0.0553, 'grad_norm': 1.0687777996063232, 'learning_rate': 7.911e-06, 'epoch': 4.87}
+{'loss': 0.0657, 'grad_norm': 0.6855216026306152, 'learning_rate': 7.913999999999999e-06, 'epoch': 4.87}
+{'loss': 0.0749, 'grad_norm': 0.9286635518074036, 'learning_rate': 7.917e-06, 'epoch': 4.88}
+{'loss': 0.0824, 'grad_norm': 1.0680339336395264, 'learning_rate': 7.92e-06, 'epoch': 4.88}
+{'loss': 0.0837, 'grad_norm': 1.5928995609283447, 'learning_rate': 7.923e-06, 'epoch': 4.88}
+{'loss': 0.0656, 'grad_norm': 0.8490452170372009, 'learning_rate': 7.926e-06, 'epoch': 4.88}
+{'loss': 0.0564, 'grad_norm': 1.2324718236923218, 'learning_rate': 7.929e-06, 'epoch': 4.88}
+{'loss': 0.0643, 'grad_norm': 1.1055073738098145, 'learning_rate': 7.932000000000001e-06, 'epoch': 4.88}
+{'loss': 0.0695, 'grad_norm': 0.7276487350463867, 'learning_rate': 7.935000000000001e-06, 'epoch': 4.89}
+{'loss': 0.0939, 'grad_norm': 1.3281259536743164, 'learning_rate': 7.938000000000001e-06, 'epoch': 4.89}
+{'loss': 0.0646, 'grad_norm': 0.9045303463935852, 'learning_rate': 7.941e-06, 'epoch': 4.89}
+{'loss': 0.0664, 'grad_norm': 0.9664737582206726, 'learning_rate': 7.943999999999999e-06, 'epoch': 4.89}
+{'loss': 0.0645, 'grad_norm': 0.933375895023346, 'learning_rate': 7.947e-06, 'epoch': 4.89}
+{'loss': 0.077, 'grad_norm': 1.1591026782989502, 'learning_rate': 7.95e-06, 'epoch': 4.9}
+{'loss': 0.1174, 'grad_norm': 1.2264528274536133, 'learning_rate': 7.953e-06, 'epoch': 4.9}
+{'loss': 0.0751, 'grad_norm': 1.124033808708191, 'learning_rate': 7.956e-06, 'epoch': 4.9}
+{'loss': 0.0722, 'grad_norm': 0.8462250232696533, 'learning_rate': 7.959e-06, 'epoch': 4.9}
+{'loss': 0.0808, 'grad_norm': 1.0723295211791992, 'learning_rate': 7.962000000000001e-06, 'epoch': 4.9}
+{'loss': 0.0609, 'grad_norm': 1.098881483078003, 'learning_rate': 7.965e-06, 'epoch': 4.9}
+{'loss': 0.0778, 'grad_norm': 0.9864880442619324, 'learning_rate': 7.968e-06, 'epoch': 4.91}
+{'loss': 0.0657, 'grad_norm': 0.7928457856178284, 'learning_rate': 7.971e-06, 'epoch': 4.91}
+{'loss': 0.0713, 'grad_norm': 1.0289839506149292, 'learning_rate': 7.974e-06, 'epoch': 4.91}
+{'loss': 0.0615, 'grad_norm': 1.0452907085418701, 'learning_rate': 7.977000000000002e-06, 'epoch': 4.91}
+{'loss': 0.0674, 'grad_norm': 0.8897021412849426, 'learning_rate': 7.98e-06, 'epoch': 4.91}
+{'loss': 0.0769, 'grad_norm': 1.2523964643478394, 'learning_rate': 7.983e-06, 'epoch': 4.92}
+{'loss': 0.0674, 'grad_norm': 1.1305283308029175, 'learning_rate': 7.986e-06, 'epoch': 4.92}
+{'loss': 0.0695, 'grad_norm': 1.435927391052246, 'learning_rate': 7.989e-06, 'epoch': 4.92}
+{'loss': 0.0838, 'grad_norm': 1.2424691915512085, 'learning_rate': 7.992e-06, 'epoch': 4.92}
+{'loss': 0.0693, 'grad_norm': 1.2204331159591675, 'learning_rate': 7.995e-06, 'epoch': 4.92}
+{'loss': 0.4751, 'grad_norm': 2.060532331466675, 'learning_rate': 7.998e-06, 'epoch': 4.93}
+{'loss': 0.3697, 'grad_norm': 1.386932611465454, 'learning_rate': 8.001e-06, 'epoch': 4.93}
+{'loss': 0.3438, 'grad_norm': 1.1898244619369507, 'learning_rate': 8.004e-06, 'epoch': 4.93}
+{'loss': 0.3882, 'grad_norm': 10.301701545715332, 'learning_rate': 8.007000000000001e-06, 'epoch': 4.93}
+{'loss': 0.2899, 'grad_norm': 1.6150550842285156, 'learning_rate': 8.010000000000001e-06, 'epoch': 4.93}
+{'loss': 0.2327, 'grad_norm': 1.1645244359970093, 'learning_rate': 8.013000000000001e-06, 'epoch': 4.93}
+{'loss': 0.2859, 'grad_norm': 1.136450171470642, 'learning_rate': 8.016e-06, 'epoch': 4.94}
+{'loss': 0.2183, 'grad_norm': 1.1616744995117188, 'learning_rate': 8.018999999999999e-06, 'epoch': 4.94}
+  3%|▎         | 2677/100000 [1:28:13<76:15:29,  2.82s/it]  3%|▎         | 2678/100000 [1:28:15<69:47:21,  2.58s/it]                                                            3%|▎         | 2678/100000 [1:28:15<69:47:21,  2.58s/it]  3%|▎         | 2679/100000 [1:28:17<64:45:06,  2.40s/it]                                                            3%|▎         | 2679/100000 [1:28:17<64:45:06,  2.40s/it]  3%|▎         | 2680/100000 [1:28:19<59:54:27,  2.22s/it]                                                            3%|▎         | 2680/100000 [1:28:19<59:54:27,  2.22s/it]  3%|▎         | 2681/100000 [1:28:21<55:53:24,  2.07s/it]                                                            3%|▎         | 2681/100000 [1:28:21<55:53:24,  2.07s/it]  3%|▎         | 2682/100000 [1:28:23<52:26:49,  1.94s/it]                                                            3%|▎         | 2682/100000 [1:28:23<52:26:49,  1.94s/it]  3%|▎         | 2683/100000 [1:28:24<49:44:37,  1.84s/it]                                                            3%|▎         | 2683/100000 [1:28:24<49:44:37,  1.84s/it]  3%|▎         | 2684/100000 [1:28:26<46:58:51,  1.74s/it]                                                            3%|▎         | 2684/100000 [1:28:26<46:58:51,  1.74s/it]  3%|▎         | 2685/100000 [1:28:27<44:37:43,  1.65s/it]                                                            3%|▎         | 2685/100000 [1:28:27<44:37:43,  1.65s/it]  3%|▎         | 2686/100000 [1:28:28<42:50:35,  1.58s/it]                                                            3%|▎         | 2686/100000 [1:28:29<42:50:35,  1.58s/it]  3%|▎         | 2687/100000 [1:28:30<41:32:04,  1.54s/it]                                                            3%|▎         | 2687/100000 [1:28:30<41:32:04,  1.54s/it]  3%|▎         | 2688/100000 [1:28:31<40:08:18,  1.48s/it]                                                            3%|▎         | 2688/100000 [1:28:31<40:08:18,  1.48s/it]  3%|▎         | 2689/100000 [1:28:33<38:58:01,  1.44s/it]                                                            3%|▎         | 2689/100000 [1:28:33<38:58:01,  1.44s/it]  3%|▎         | 2690/100000 [1:28:34<38:09:20,  1.41s/it]                                                            3%|▎         | 2690/100000 [1:28:34<38:09:20,  1.41s/it]  3%|▎         | 2691/100000 [1:28:35<37:22:29,  1.38s/it]                                                            3%|▎         | 2691/100000 [1:28:35<37:22:29,  1.38s/it]  3%|▎         | 2692/100000 [1:28:37<36:43:24,  1.36s/it]                                                            3%|▎         | 2692/100000 [1:28:37<36:43:24,  1.36s/it]  3%|▎         | 2693/100000 [1:28:38<35:57:04,  1.33s/it]                                                            3%|▎         | 2693/100000 [1:28:38<35:57:04,  1.33s/it]  3%|▎         | 2694/100000 [1:28:39<34:56:47,  1.29s/it]                                                            3%|▎         | 2694/100000 [1:28:39<34:56:47,  1.29s/it]  3%|▎         | 2695/100000 [1:28:40<34:26:04,  1.27s/it]                                                            3%|▎         | 2695/100000 [1:28:40<34:26:04,  1.27s/it]  3%|▎         | 2696/100000 [1:28:42<34:02:38,  1.26s/it]                                                            3%|▎         | 2696/100000 [1:28:42<34:02:38,  1.26s/it]  3%|▎         | 2697/100000 [1:28:43<33:10:17,  1.23s/it]                                                            3%|▎         | 2697/100000 [1:28:43<33:10:17,  1.23s/it]  3%|▎         | 2698/100000 [1:28:44<32:37:29,  1.21s/it]                                                            3%|▎         | 2698/100000 [1:28:44<32:37:29,  1.21s/it]  3%|▎         | 2699/100000 [1:28:45<31:56:15,  1.18s/it]                                                            3%|▎         | 2699/100000 [1:28:45<31:56:15,  1.18s/it]  3%|▎         | 2700/100000 [1:28:46<30:59:43,  1.15s/it]                                                            3%|▎         | 2700/100000 [1:28:46<30:59:43,  1.15s/it]  3%|▎         | 2701/100000 [1:28:47<30:29:51,  1.13s/it]                                                            3%|▎         | 2701/100000 [1:28:47<30:29:51,  1.13s/it]  3%|▎         | 2702/100000 [1:28:48<29:55:50,  1.11s/it]                                                            3%|▎         | 2702/100000 [1:28:48<29:55:50,  1.11s/it]  3%|▎         | 2703/100000 [1:28:49<29:25:59,  1.09s/it]                                                            3%|▎         | 2703/100000 [1:28:49<29:25:59,  1.09s/it]  3%|▎         | 2704/100000 [1:28:50<28:49:14,  1.07s/it]                                                            3%|▎         | 2704/100000 [1:28:50<28:49:14,  1.07s/it]  3%|▎         | 2705/100000 [1:28:51<28:04:09,  1.04s/it]                                                            3%|▎         | 2705/100000 [1:28:51<28:04:09,  1.04s/it]  3%|▎         | 2706/100000 [1:28:52<27:24:42,  1.01s/it]                                                            3%|▎         | 2706/100000 [1:28:52<27:24:42,  1.01s/it]  3%|▎         | 2707/100000 [1:28:53<26:45:10,  1.01it/s]                                                            3%|▎         | 2707/100000 [1:28:53<26:45:10,  1.01it/s]  3%|▎         | 2708/100000 [1:28:54<26:09:16,  1.03it/s]                                                            3%|▎         | 2708/100000 [1:28:54<26:09:16,  1.03it/s]  3%|▎         | 2709/100000 [1:28:55<25:13:48,  1.07it/s]                                                            3%|▎         | 2709/100000 [1:28:55<25:13:48,  1.07it/s]  3%|▎         | 2710/100000 [1:28:56<24:25:25,  1.11it/s]                                                            3%|▎         | 2710/100000 [1:28:56<24:25:25,  1.11it/s]{'loss': 0.2169, 'grad_norm': 1.301045536994934, 'learning_rate': 8.022e-06, 'epoch': 4.94}
+{'loss': 0.1446, 'grad_norm': 0.9416823983192444, 'learning_rate': 8.025e-06, 'epoch': 4.94}
+{'loss': 0.1712, 'grad_norm': 1.5150599479675293, 'learning_rate': 8.028e-06, 'epoch': 4.94}
+{'loss': 0.096, 'grad_norm': 0.7367508411407471, 'learning_rate': 8.031e-06, 'epoch': 4.95}
+{'loss': 0.0702, 'grad_norm': 0.8093917965888977, 'learning_rate': 8.034e-06, 'epoch': 4.95}
+{'loss': 0.0895, 'grad_norm': 0.9393030405044556, 'learning_rate': 8.037000000000001e-06, 'epoch': 4.95}
+{'loss': 0.0874, 'grad_norm': 0.849078893661499, 'learning_rate': 8.040000000000001e-06, 'epoch': 4.95}
+{'loss': 0.0846, 'grad_norm': 1.019606590270996, 'learning_rate': 8.043e-06, 'epoch': 4.95}
+{'loss': 0.0578, 'grad_norm': 0.8608704805374146, 'learning_rate': 8.046e-06, 'epoch': 4.95}
+{'loss': 0.1218, 'grad_norm': 1.1765228509902954, 'learning_rate': 8.049e-06, 'epoch': 4.96}
+{'loss': 0.0685, 'grad_norm': 0.8517112135887146, 'learning_rate': 8.052000000000002e-06, 'epoch': 4.96}
+{'loss': 0.0558, 'grad_norm': 0.9209573864936829, 'learning_rate': 8.055e-06, 'epoch': 4.96}
+{'loss': 0.0647, 'grad_norm': 0.9230965971946716, 'learning_rate': 8.058e-06, 'epoch': 4.96}
+{'loss': 0.1008, 'grad_norm': 1.2790827751159668, 'learning_rate': 8.061e-06, 'epoch': 4.96}
+{'loss': 0.0827, 'grad_norm': 1.0466139316558838, 'learning_rate': 8.064e-06, 'epoch': 4.97}
+{'loss': 0.0685, 'grad_norm': 1.233939528465271, 'learning_rate': 8.067e-06, 'epoch': 4.97}
+{'loss': 0.055, 'grad_norm': 1.100265622138977, 'learning_rate': 8.07e-06, 'epoch': 4.97}
+{'loss': 0.063, 'grad_norm': 1.711647868156433, 'learning_rate': 8.073e-06, 'epoch': 4.97}
+{'loss': 0.066, 'grad_norm': 0.9649916887283325, 'learning_rate': 8.076e-06, 'epoch': 4.97}
+{'loss': 0.064, 'grad_norm': 1.0252290964126587, 'learning_rate': 8.079e-06, 'epoch': 4.98}
+{'loss': 0.0637, 'grad_norm': 0.9084988236427307, 'learning_rate': 8.082e-06, 'epoch': 4.98}
+{'loss': 0.0437, 'grad_norm': 0.6036769151687622, 'learning_rate': 8.085000000000001e-06, 'epoch': 4.98}
+{'loss': 0.1391, 'grad_norm': 1.1912896633148193, 'learning_rate': 8.088000000000001e-06, 'epoch': 4.98}
+{'loss': 0.0746, 'grad_norm': 1.3569239377975464, 'learning_rate': 8.091e-06, 'epoch': 4.98}
+{'loss': 0.0636, 'grad_norm': 1.2725087404251099, 'learning_rate': 8.093999999999999e-06, 'epoch': 4.98}
+{'loss': 0.0793, 'grad_norm': 2.4054908752441406, 'learning_rate': 8.096999999999999e-06, 'epoch': 4.99}
+{'loss': 0.0836, 'grad_norm': 1.1511203050613403, 'learning_rate': 8.1e-06, 'epoch': 4.99}
+{'loss': 0.0942, 'grad_norm': 1.0939910411834717, 'learning_rate': 8.103e-06, 'epoch': 4.99}
+{'loss': 0.085, 'grad_norm': 1.0632432699203491, 'learning_rate': 8.106e-06, 'epoch': 4.99}
+{'loss': 0.0752, 'grad_norm': 1.101324439048767, 'learning_rate': 8.109e-06, 'epoch': 4.99}
+{'loss': 0.0974, 'grad_norm': 1.3632900714874268, 'learning_rate': 8.112e-06, 'epoch': 5.0}
+{'loss': 0.0876, 'grad_norm': 1.1220369338989258, 'learning_rate': 8.115000000000001e-06, 'epoch': 5.0}
+{'loss': 0.0957, 'grad_norm': 1.160844087600708, 'learning_rate': 8.118000000000001e-06, 'epoch': 5.0}
+{'loss': 0.0444, 'grad_norm': 0.7586629986763, 'learning_rate': 8.121e-06, 'epoch': 5.0}
+  3%|▎         | 2711/100000 [1:29:14<162:08:47,  6.00s/it]                                                             3%|▎         | 2711/100000 [1:29:14<162:08:47,  6.00s/it]  3%|▎         | 2712/100000 [1:29:19<158:21:38,  5.86s/it]                                                             3%|▎         | 2712/100000 [1:29:19<158:21:38,  5.86s/it]  3%|▎         | 2713/100000 [1:29:24<146:38:34,  5.43s/it]                                                             3%|▎         | 2713/100000 [1:29:24<146:38:34,  5.43s/it]  3%|▎         | 2714/100000 [1:29:27<132:06:19,  4.89s/it]                                                             3%|▎         | 2714/100000 [1:29:27<132:06:19,  4.89s/it]  3%|▎         | 2715/100000 [1:29:30<118:31:23,  4.39s/it]                                                             3%|▎         | 2715/100000 [1:29:30<118:31:23,  4.39s/it]  3%|▎         | 2716/100000 [1:29:34<108:25:43,  4.01s/it]                                                             3%|▎         | 2716/100000 [1:29:34<108:25:43,  4.01s/it]  3%|▎         | 2717/100000 [1:29:36<99:18:26,  3.67s/it]                                                             3%|▎         | 2717/100000 [1:29:36<99:18:26,  3.67s/it]  3%|▎         | 2718/100000 [1:29:39<90:49:59,  3.36s/it]                                                            3%|▎         | 2718/100000 [1:29:39<90:49:59,  3.36s/it]  3%|▎         | 2719/100000 [1:29:41<83:28:07,  3.09s/it]                                                            3%|▎         | 2719/100000 [1:29:41<83:28:07,  3.09s/it]  3%|▎         | 2720/100000 [1:29:44<76:02:42,  2.81s/it]                                                            3%|▎         | 2720/100000 [1:29:44<76:02:42,  2.81s/it]  3%|▎         | 2721/100000 [1:29:46<70:49:11,  2.62s/it]                                                            3%|▎         | 2721/100000 [1:29:46<70:49:11,  2.62s/it]  3%|▎         | 2722/100000 [1:29:48<66:17:00,  2.45s/it]                                                            3%|▎         | 2722/100000 [1:29:48<66:17:00,  2.45s/it]  3%|▎         | 2723/100000 [1:29:50<62:16:35,  2.30s/it]                                                            3%|▎         | 2723/100000 [1:29:50<62:16:35,  2.30s/it]  3%|▎         | 2724/100000 [1:29:52<58:05:40,  2.15s/it]                                                            3%|▎         | 2724/100000 [1:29:52<58:05:40,  2.15s/it]  3%|▎         | 2725/100000 [1:29:53<54:50:43,  2.03s/it]                                                            3%|▎         | 2725/100000 [1:29:53<54:50:43,  2.03s/it]  3%|▎         | 2726/100000 [1:29:55<51:57:14,  1.92s/it]                                                            3%|▎         | 2726/100000 [1:29:55<51:57:14,  1.92s/it]  3%|▎         | 2727/100000 [1:29:57<49:36:28,  1.84s/it]                                                            3%|▎         | 2727/100000 [1:29:57<49:36:28,  1.84s/it]  3%|▎         | 2728/100000 [1:29:58<47:47:13,  1.77s/it]                                                            3%|▎         | 2728/100000 [1:29:58<47:47:13,  1.77s/it]  3%|▎         | 2729/100000 [1:30:00<45:42:18,  1.69s/it]                                                            3%|▎         | 2729/100000 [1:30:00<45:42:18,  1.69s/it]  3%|▎         | 2730/100000 [1:30:01<43:52:03,  1.62s/it]                                                            3%|▎         | 2730/100000 [1:30:01<43:52:03,  1.62s/it]  3%|▎         | 2731/100000 [1:30:03<42:21:51,  1.57s/it]                                                            3%|▎         | 2731/100000 [1:30:03<42:21:51,  1.57s/it]  3%|▎         | 2732/100000 [1:30:04<41:24:17,  1.53s/it]                                                            3%|▎         | 2732/100000 [1:30:04<41:24:17,  1.53s/it]  3%|▎         | 2733/100000 [1:30:06<40:34:29,  1.50s/it]                                                            3%|▎         | 2733/100000 [1:30:06<40:34:29,  1.50s/it]  3%|▎         | 2734/100000 [1:30:07<39:32:43,  1.46s/it]                                                            3%|▎         | 2734/100000 [1:30:07<39:32:43,  1.46s/it]  3%|▎         | 2735/100000 [1:30:08<38:58:26,  1.44s/it]                                                            3%|▎         | 2735/100000 [1:30:08<38:58:26,  1.44s/it]  3%|▎         | 2736/100000 [1:30:10<38:06:34,  1.41s/it]                                                            3%|▎         | 2736/100000 [1:30:10<38:06:34,  1.41s/it]  3%|▎         | 2737/100000 [1:30:11<37:41:22,  1.40s/it]                                                            3%|▎         | 2737/100000 [1:30:11<37:41:22,  1.40s/it]  3%|▎         | 2738/100000 [1:30:12<37:08:07,  1.37s/it]                                                            3%|▎         | 2738/100000 [1:30:12<37:08:07,  1.37s/it]  3%|▎         | 2739/100000 [1:30:14<36:40:10,  1.36s/it]                                                            3%|▎         | 2739/100000 [1:30:14<36:40:10,  1.36s/it]  3%|▎         | 2740/100000 [1:30:15<35:55:10,  1.33s/it]                                                            3%|▎         | 2740/100000 [1:30:15<35:55:10,  1.33s/it]  3%|▎         | 2741/100000 [1:30:16<35:27:39,  1.31s/it]                                                            3%|▎         | 2741/100000 [1:30:16<35:27:39,  1.31s/it]  3%|▎         | 2742/100000 [1:30:17<34:44:10,  1.29s/it]                                                            3%|▎         | 2742/100000 [1:30:17<34:44:10,  1.29s/it]  3%|▎         | 2743/100000 [1:30:19<34:14:12,  1.27s/it]                                                            3%|▎         | 2743/100000 [1:30:19<34:14:12,  1.27s/it]  3%|▎         | 2744/100000 [1:30:20<33:34:51,  1.24s/it]                                                            3%|▎         | 2744/100000 [1:30:20<33:34:51,  1.24s/it]  3%|▎         | 2745/100000 [1:30:21<33:04:40,  1.22s/it]                                                            3%|▎         | 2745/100000 [1:30:21<33:04:40,  1.22s/it]  3%|▎         | 2746/100000 [1:30:22<32:38:33,  1.21s/it]                                                            3%|▎         | 2746/100000 [1:30:22<32:38:33,  1.21s/it]  3%|▎         | 2747/100000 [1:30:23<32:02:26,  1.19s/it]                                                            3%|▎         | 2747/100000 [1:30:23<32:02:26,  1.19s/it]  3%|▎         | 2748/100000 [1:30:24<31:38:21,  1.17s/it]                                                            3%|▎         | 2748/100000 [1:30:24<31:38:21,  1.17s/it]  3%|▎         | 2749/100000 [1:30:26<31:06:41,  1.15s/it]                                                            3%|▎         | 2749/100000 [1:30:26<31:06:41,  1.15s/it]  3%|▎         | 2750/100000 [1:30:27<30:51:02,  1.14s/it]                                                            3%|▎         | 2750/100000 [1:30:27<30:51:02,  1.14s/it]  3%|▎         | 2751/100000 [1:30:28<30:20:55,  1.12s/it]                                                            3%|▎         | 2751/100000 [1:30:28<30:20:55,  1.12s/it]  3%|▎         | 2752/100000 [1:30:29<29:59:04,  1.11s/it]                                                            3%|▎         | 2752/100000 [1:30:29<29:59:04,  1.11s/it]  3%|▎         | 2753/100000 [1:30:30<29:30:30,  1.09s/it]                                                            3%|▎         | 2753/100000 [1:30:30<29:30:30,  1.09s/it]  3%|▎         | 2754/100000 [1:30:31<29:08:26,  1.08s/it]                                                            3%|▎         | 2754/100000 [1:30:31<29:08:26,  1.08s/it]  3%|▎         | 2755/100000 [1:30:32<28:36:33,  1.06s/it]                                                            3%|▎         | 2755/100000 [1:30:32<28:36:33,  1.06s/it]  3%|▎         | 2756/100000 [1:30:33<27:53:44,  1.03s/it]                                                            3%|▎         | 2756/100000 [1:30:33<27:53:44,  1.03s/it]  3%|▎         | 2757/100000 [1:30:34<27:20:45,  1.01s/it]                                                            3%|▎         | 2757/100000 [1:30:34<27:20:45,  1.01s/it]  3%|▎         | 2758/100000 [1:30:35<26:39:08,  1.01it/s]                                                            3%|▎         | 2758/100000 [1:30:35<26:39:08,  1.01it/s]  3%|▎         | 2759/100000 [1:30:36<26:05:56,  1.03it/s]                                                            3%|▎         | 2759/100000 [1:30:36<26:05:56,  1.03it/s]  3%|▎         | 2760/100000 [1:30:37<25:30:26,  1.06it/s]                                                            3%|▎         | 2760/100000 [1:30:37<25:30:26,  1.06it/s]  3%|▎         | 2761/100000 [1:30:48<112:03:37,  4.15s/it]                                                             3%|▎         | 2761/100000 [1:30:48<112:03:37,  4.15s/it]  3%|▎         | 2762/100000 [1:30:54<123:01:07,  4.55s/it]                                                             3%|▎         | 2762/100000 [1:30:54<123:01:07,  4.55s/it]  3%|▎         | 2763/100000 [1:30:59<125:03:52,  4.63s/it]                                                             3%|▎         | 2763/100000 [1:30:59<125:03:52,  4.63s/it]  3%|▎         | 2764/100000 [1:31:03<121:27:50,  4.50s/it]                                                             3%|▎         | 2764/100000 [1:31:03<121:27:50,  4.50s/it]  3%|▎         | 2765/100000 [1:31:06<114:58:51,  4.26s/it]                                                             3%|▎         | 2765/100000 [1:31:06<114:58:51,  4.26s/it]  3%|▎         | 2766/100000 [1:31:10<107:36:30,  3.98s/it]                                                             3%|▎         | 2766/100000 [1:31:10<107:36:30,  3.98s/it]  3%|▎         | 2767/100000 [1:31:13<98:52:57,  3.66s/it]                                                             3%|▎         | 2767/100000 [1:31:13<98:52:57,  3.66s/it]  3%|▎         | 2768/100000 [1:31:15<90:24:57,  3.35s/it]                                                            3%|▎         | 2768/100000 [1:31:15<90:24:57,  3.35s/it]  3%|▎         | 2769/100000 [1:31:18<83:40:53,  3.10s/it]                                                            3%|▎         | 2769/100000 [1:31:18<83:40:53,  3.10s/it]  3%|▎         | 2770/100000 [1:31:20<76:58:46,  2.85s/it]                                                            3%|▎         | 2770/100000 [1:31:20<76:58:46,  2.85s/it]  3%|▎         | 2771/100000 [1:31:22<71:27:22,  2.65s/it]                                                            3%|▎         | 2771/100000 [1:31:22<71:27:22,  2.65s/it]  3%|▎         | 2772/100000 [1:31:24<66:40:54,  2.47s/it]                                                            3%|▎         | 2772/100000 [1:31:24<66:40:54,  2.47s/it]  3%|▎         | 2773/100000 [1:31:26<62:29:53,  2.31s/it]                                                            3%|▎         | 2773/100000 [1:31:26<62:29:53,  2.31s/it]  3%|▎         | 2774/100000 [1:31:28<58:27:44,  2.16s/it]                                                            3%|▎         | 2774/100000 [1:31:28<58:27:44,  2.16s/it]  3%|▎         | 2775/100000 [1:31:30<56:14:32,  2.08s/it]                                                            3%|▎         | 2775/100000 [1:31:30<56:14:32,  2.08s/it]  3%|▎         | 2776/100000 [1:31:32<52:33:48,  1.95s/it]                                                            3%|▎         | 2776/100000 [1:31:32<52:33:48,  1.95s/it]  3%|▎         | 2777/100000 [1:31:33<49:56:56,  1.85s/it]                                                            3%|▎         | 2777/100000 [1:31:33<49:56:56,  1.85s/it]  3%|▎         | 2778/100000 [1:31:35<47:54:05,  1.77s/it]                                                            3%|▎         | 2778/100000 [1:31:35<47:54:05,  1.77s/it]  3%|▎         | 2779/100000 [1:31:36<45:36:33,  1.69s/it]                                                            3%|▎         | 2779/100000 [1:31:36<45:36:33,  1.69s/it]  3%|▎         | 2780/100000 [1:31:38<43:46:47,  1.62s/it]                                                            3%|▎         | 2780/100000 [1:31:38<43:46:47,  1.62s/it]  3%|▎         | 2781/100000 [1:31:39<42:21:20,  1.57s/it]                                                            3%|▎         | 2781/100000 [1:31:39<42:21:20,  1.57s/it]  3%|▎         | 2782/100000 [1:31:41<41:23:47,  1.53s/it]                                                            3%|▎         | 2782/100000 [1:31:41<41:23:47,  1.53s/it]  3%|▎         | 2783/100000 [1:31:42<40:32:21,  1.50s/it]                                                            3%|▎         | 2783/100000 [1:31:42<40:32:21,  1.50s/it]  3%|▎         | 2784/100000 [1:31:44<39:40:55,  1.47s/it]                                                            3%|▎         | 2784/100000 [1:31:44<39:40:55,  1.47s/it]  3%|▎         | 2785/100000 [1:31:45<38:47:49,  1.44s/it]                                                            3%|▎         | 2785/100000 [1:31:45<38:47:49,  1.44s/it]  3%|▎         | 2786/100000 [1:31:46<38:07:26,  1.41s/it]                                                            3%|▎         | 2786/100000 [1:31:46<38:07:26,  1.41s/it]  3%|▎         | 2787/100000 [1:31:48<37:37:30,  1.39s/it]                                                            3%|▎         | 2787/100000 [1:31:48<37:37:30,  1.39s/it]  3%|▎         | 2788/100000 [1:31:49<36:48:33,  1.36s/it]                                                            3%|▎         | 2788/100000 [1:31:49<36:48:33,  1.36s/it]  3%|▎         | 2789/100000 [1:31:50<36:15:57,  1.34s/it]                                                            3%|▎         | 2789/100000 [1:31:50<36:15:57,  1.34s/it]  3%|▎         | 2790/100000 [1:31:51<35:37:38,  1.32s/it]                                                            3%|▎         | 2790/100000 [1:31:51<35:37:38,  1.32s/it]  3%|▎         | 2791/100000 [1:31:53<35:20:17,  1.31s/it]                                                            3%|▎         | 2791/100000 [1:31:53<35:20:17,  1.31s/it]  3%|▎         | 2792/100000 [1:31:54<34:43:20,  1.29s/it]                                                            3%|▎         | 2792/100000 [1:31:54<34:43:20,  1.29s/it]  3%|▎         | 2793/100000 [1:31:55<34:06:23,  1.26s/it]                                                            3%|▎         | 2793/100000 [1:31:55<34:06:23,  1.26s/it]  3%|▎         | 2794/100000 [1:31:56<33:54:57,  1.26s/it]                                                            3%|▎         | 2794/100000 [1:31:56<33:54:57,  1.26s/it]  3%|▎         | 2795/100000 [1:31:58<33:03:19,  1.22s/it]                                                            3%|▎         | 2795/100000 [1:31:58<33:03:19,  1.22s/it]  3%|▎         | 2796/100000 [1:31:59<32:26:49,  1.20s/it]                                                          {'loss': 0.5124, 'grad_norm': 3.188286781311035, 'learning_rate': 8.124e-06, 'epoch': 5.0}
+{'loss': 0.3812, 'grad_norm': 1.9085744619369507, 'learning_rate': 8.126999999999999e-06, 'epoch': 5.0}
+{'loss': 0.2909, 'grad_norm': 1.2450673580169678, 'learning_rate': 8.13e-06, 'epoch': 5.01}
+{'loss': 0.3009, 'grad_norm': 2.713906764984131, 'learning_rate': 8.133e-06, 'epoch': 5.01}
+{'loss': 0.2429, 'grad_norm': 1.3698234558105469, 'learning_rate': 8.136e-06, 'epoch': 5.01}
+{'loss': 0.1949, 'grad_norm': 1.40462064743042, 'learning_rate': 8.139e-06, 'epoch': 5.01}
+{'loss': 0.2235, 'grad_norm': 1.9252722263336182, 'learning_rate': 8.142e-06, 'epoch': 5.01}
+{'loss': 0.3593, 'grad_norm': 1.615817666053772, 'learning_rate': 8.145e-06, 'epoch': 5.01}
+{'loss': 0.164, 'grad_norm': 0.8248971104621887, 'learning_rate': 8.148e-06, 'epoch': 5.02}
+{'loss': 0.1736, 'grad_norm': 1.431121826171875, 'learning_rate': 8.151e-06, 'epoch': 5.02}
+{'loss': 0.1873, 'grad_norm': 2.1033153533935547, 'learning_rate': 8.154e-06, 'epoch': 5.02}
+{'loss': 0.1279, 'grad_norm': 0.9570878148078918, 'learning_rate': 8.157e-06, 'epoch': 5.02}
+{'loss': 0.146, 'grad_norm': 0.952393651008606, 'learning_rate': 8.160000000000001e-06, 'epoch': 5.02}
+{'loss': 0.1244, 'grad_norm': 1.0486096143722534, 'learning_rate': 8.163000000000001e-06, 'epoch': 5.03}
+{'loss': 0.1664, 'grad_norm': 0.9891552329063416, 'learning_rate': 8.166e-06, 'epoch': 5.03}
+{'loss': 0.1581, 'grad_norm': 1.0865612030029297, 'learning_rate': 8.169e-06, 'epoch': 5.03}
+{'loss': 0.0739, 'grad_norm': 0.7026161551475525, 'learning_rate': 8.171999999999999e-06, 'epoch': 5.03}
+{'loss': 0.0691, 'grad_norm': 0.732552170753479, 'learning_rate': 8.175e-06, 'epoch': 5.03}
+{'loss': 0.0759, 'grad_norm': 0.8606172204017639, 'learning_rate': 8.178e-06, 'epoch': 5.04}
+{'loss': 0.0805, 'grad_norm': 0.9478769898414612, 'learning_rate': 8.181e-06, 'epoch': 5.04}
+{'loss': 0.0735, 'grad_norm': 1.0164841413497925, 'learning_rate': 8.184e-06, 'epoch': 5.04}
+{'loss': 0.0715, 'grad_norm': 0.8229144811630249, 'learning_rate': 8.187e-06, 'epoch': 5.04}
+{'loss': 0.064, 'grad_norm': 0.8915043473243713, 'learning_rate': 8.190000000000001e-06, 'epoch': 5.04}
+{'loss': 0.0529, 'grad_norm': 0.8569628000259399, 'learning_rate': 8.193000000000001e-06, 'epoch': 5.04}
+{'loss': 0.0498, 'grad_norm': 0.8679004311561584, 'learning_rate': 8.196e-06, 'epoch': 5.05}
+{'loss': 0.0619, 'grad_norm': 0.686722457408905, 'learning_rate': 8.199e-06, 'epoch': 5.05}
+{'loss': 0.0639, 'grad_norm': 0.7008607387542725, 'learning_rate': 8.201999999999999e-06, 'epoch': 5.05}
+{'loss': 0.0553, 'grad_norm': 0.7146738767623901, 'learning_rate': 8.205e-06, 'epoch': 5.05}
+{'loss': 0.0733, 'grad_norm': 1.0253753662109375, 'learning_rate': 8.208e-06, 'epoch': 5.05}
+{'loss': 0.0603, 'grad_norm': 0.7840259671211243, 'learning_rate': 8.211e-06, 'epoch': 5.06}
+{'loss': 0.0807, 'grad_norm': 0.9601883888244629, 'learning_rate': 8.214e-06, 'epoch': 5.06}
+{'loss': 0.0719, 'grad_norm': 1.1228169202804565, 'learning_rate': 8.217e-06, 'epoch': 5.06}
+{'loss': 0.0376, 'grad_norm': 0.6802356243133545, 'learning_rate': 8.220000000000001e-06, 'epoch': 5.06}
+{'loss': 0.0496, 'grad_norm': 0.7134103775024414, 'learning_rate': 8.223e-06, 'epoch': 5.06}
+{'loss': 0.0489, 'grad_norm': 1.4297904968261719, 'learning_rate': 8.226e-06, 'epoch': 5.06}
+{'loss': 0.0549, 'grad_norm': 1.171958088874817, 'learning_rate': 8.229e-06, 'epoch': 5.07}
+{'loss': 0.0595, 'grad_norm': 0.9930132627487183, 'learning_rate': 8.232e-06, 'epoch': 5.07}
+{'loss': 0.0474, 'grad_norm': 0.6678305864334106, 'learning_rate': 8.235000000000002e-06, 'epoch': 5.07}
+{'loss': 0.0738, 'grad_norm': 1.126110315322876, 'learning_rate': 8.238e-06, 'epoch': 5.07}
+{'loss': 0.0755, 'grad_norm': 1.4353430271148682, 'learning_rate': 8.241e-06, 'epoch': 5.07}
+{'loss': 0.0937, 'grad_norm': 1.0827726125717163, 'learning_rate': 8.244e-06, 'epoch': 5.08}
+{'loss': 0.0702, 'grad_norm': 1.1548527479171753, 'learning_rate': 8.246999999999999e-06, 'epoch': 5.08}
+{'loss': 0.0709, 'grad_norm': 1.123356819152832, 'learning_rate': 8.25e-06, 'epoch': 5.08}
+{'loss': 0.0902, 'grad_norm': 1.2064100503921509, 'learning_rate': 8.253e-06, 'epoch': 5.08}
+{'loss': 0.068, 'grad_norm': 1.0698316097259521, 'learning_rate': 8.256e-06, 'epoch': 5.08}
+{'loss': 0.0562, 'grad_norm': 0.9638137817382812, 'learning_rate': 8.259e-06, 'epoch': 5.08}
+{'loss': 0.0577, 'grad_norm': 0.931310772895813, 'learning_rate': 8.262e-06, 'epoch': 5.09}
+{'loss': 0.0998, 'grad_norm': 2.2462685108184814, 'learning_rate': 8.265000000000001e-06, 'epoch': 5.09}
+{'loss': 0.085, 'grad_norm': 1.3807369470596313, 'learning_rate': 8.268000000000001e-06, 'epoch': 5.09}
+{'loss': 0.079, 'grad_norm': 1.427977204322815, 'learning_rate': 8.271000000000001e-06, 'epoch': 5.09}
+{'loss': 0.3582, 'grad_norm': 1.4242230653762817, 'learning_rate': 8.274e-06, 'epoch': 5.09}
+{'loss': 0.3369, 'grad_norm': 1.1141996383666992, 'learning_rate': 8.276999999999999e-06, 'epoch': 5.1}
+{'loss': 0.3146, 'grad_norm': 0.9965702295303345, 'learning_rate': 8.28e-06, 'epoch': 5.1}
+{'loss': 0.3233, 'grad_norm': 1.071621298789978, 'learning_rate': 8.283e-06, 'epoch': 5.1}
+{'loss': 0.2085, 'grad_norm': 0.9454147219657898, 'learning_rate': 8.286e-06, 'epoch': 5.1}
+{'loss': 0.2989, 'grad_norm': 2.2237796783447266, 'learning_rate': 8.289e-06, 'epoch': 5.1}
+{'loss': 0.2079, 'grad_norm': 1.0580756664276123, 'learning_rate': 8.292e-06, 'epoch': 5.11}
+{'loss': 0.2233, 'grad_norm': 0.9704204201698303, 'learning_rate': 8.295000000000001e-06, 'epoch': 5.11}
+{'loss': 0.1835, 'grad_norm': 0.8892659544944763, 'learning_rate': 8.298000000000001e-06, 'epoch': 5.11}
+{'loss': 0.2356, 'grad_norm': 1.0301181077957153, 'learning_rate': 8.301e-06, 'epoch': 5.11}
+{'loss': 0.1523, 'grad_norm': 1.033872127532959, 'learning_rate': 8.304e-06, 'epoch': 5.11}
+{'loss': 0.137, 'grad_norm': 0.9132250547409058, 'learning_rate': 8.307e-06, 'epoch': 5.11}
+{'loss': 0.1323, 'grad_norm': 0.7538077235221863, 'learning_rate': 8.310000000000002e-06, 'epoch': 5.12}
+{'loss': 0.1159, 'grad_norm': 0.8518770933151245, 'learning_rate': 8.313e-06, 'epoch': 5.12}
+{'loss': 0.0928, 'grad_norm': 0.7349260449409485, 'learning_rate': 8.316e-06, 'epoch': 5.12}
+{'loss': 0.1134, 'grad_norm': 0.7747098803520203, 'learning_rate': 8.319e-06, 'epoch': 5.12}
+{'loss': 0.1117, 'grad_norm': 0.9408161640167236, 'learning_rate': 8.322e-06, 'epoch': 5.12}
+{'loss': 0.1154, 'grad_norm': 0.9748533368110657, 'learning_rate': 8.325e-06, 'epoch': 5.13}
+{'loss': 0.0687, 'grad_norm': 0.6912077069282532, 'learning_rate': 8.328e-06, 'epoch': 5.13}
+{'loss': 0.066, 'grad_norm': 0.6826411485671997, 'learning_rate': 8.331e-06, 'epoch': 5.13}
+{'loss': 0.1017, 'grad_norm': 0.971698522567749, 'learning_rate': 8.334e-06, 'epoch': 5.13}
+{'loss': 0.0594, 'grad_norm': 0.8723594546318054, 'learning_rate': 8.337e-06, 'epoch': 5.13}
+{'loss': 0.0874, 'grad_norm': 0.8311214447021484, 'learning_rate': 8.340000000000001e-06, 'epoch': 5.13}
+{'loss': 0.0512, 'grad_norm': 0.7077476978302002, 'learning_rate': 8.343000000000001e-06, 'epoch': 5.14}
+{'loss': 0.0783, 'grad_norm': 0.9080737233161926, 'learning_rate': 8.346000000000001e-06, 'epoch': 5.14}
+{'loss': 0.0563, 'grad_norm': 0.6995786428451538, 'learning_rate': 8.349e-06, 'epoch': 5.14}
+{'loss': 0.0596, 'grad_norm': 0.9258413314819336, 'learning_rate': 8.351999999999999e-06, 'epoch': 5.14}
+{'loss': 0.0477, 'grad_norm': 1.9468938112258911, 'learning_rate': 8.355e-06, 'epoch': 5.14}
+{'loss': 0.0528, 'grad_norm': 0.7890531420707703, 'learning_rate': 8.358e-06, 'epoch': 5.15}
+{'loss': 0.0517, 'grad_norm': 0.7697831988334656, 'learning_rate': 8.361e-06, 'epoch': 5.15}
+{'loss': 0.0489, 'grad_norm': 0.9314472675323486, 'learning_rate': 8.364e-06, 'epoch': 5.15}
+{'loss': 0.0615, 'grad_norm': 0.9839686751365662, 'learning_rate': 8.367e-06, 'epoch': 5.15}
+{'loss': 0.0448, 'grad_norm': 0.616888701915741, 'learning_rate': 8.370000000000001e-06, 'epoch': 5.15}
+{'loss': 0.048, 'grad_norm': 1.0835751295089722, 'learning_rate': 8.373000000000001e-06, 'epoch': 5.16}
+{'loss': 0.0938, 'grad_norm': 1.1965879201889038, 'learning_rate': 8.376e-06, 'epoch': 5.16}
+  3%|▎         | 2796/100000 [1:31:59<32:26:49,  1.20s/it]  3%|▎         | 2797/100000 [1:32:00<32:04:40,  1.19s/it]                                                            3%|▎         | 2797/100000 [1:32:00<32:04:40,  1.19s/it]  3%|▎         | 2798/100000 [1:32:01<31:40:58,  1.17s/it]                                                            3%|▎         | 2798/100000 [1:32:01<31:40:58,  1.17s/it]  3%|▎         | 2799/100000 [1:32:02<31:14:29,  1.16s/it]                                                            3%|▎         | 2799/100000 [1:32:02<31:14:29,  1.16s/it]  3%|▎         | 2800/100000 [1:32:03<30:34:46,  1.13s/it]                                                            3%|▎         | 2800/100000 [1:32:03<30:34:46,  1.13s/it]  3%|▎         | 2801/100000 [1:32:04<30:00:36,  1.11s/it]                                                            3%|▎         | 2801/100000 [1:32:04<30:00:36,  1.11s/it]  3%|▎         | 2802/100000 [1:32:05<29:48:47,  1.10s/it]                                                            3%|▎         | 2802/100000 [1:32:05<29:48:47,  1.10s/it]  3%|▎         | 2803/100000 [1:32:06<29:19:22,  1.09s/it]                                                            3%|▎         | 2803/100000 [1:32:06<29:19:22,  1.09s/it]  3%|▎         | 2804/100000 [1:32:07<28:54:49,  1.07s/it]                                                            3%|▎         | 2804/100000 [1:32:07<28:54:49,  1.07s/it]  3%|▎         | 2805/100000 [1:32:08<28:04:23,  1.04s/it]                                                            3%|▎         | 2805/100000 [1:32:08<28:04:23,  1.04s/it]  3%|▎         | 2806/100000 [1:32:09<27:18:03,  1.01s/it]                                                            3%|▎         | 2806/100000 [1:32:09<27:18:03,  1.01s/it]  3%|▎         | 2807/100000 [1:32:10<26:47:04,  1.01it/s]                                                            3%|▎         | 2807/100000 [1:32:10<26:47:04,  1.01it/s]  3%|▎         | 2808/100000 [1:32:11<26:24:30,  1.02it/s]                                                            3%|▎         | 2808/100000 [1:32:11<26:24:30,  1.02it/s]  3%|▎         | 2809/100000 [1:32:12<26:01:51,  1.04it/s]                                                            3%|▎         | 2809/100000 [1:32:12<26:01:51,  1.04it/s]  3%|▎         | 2810/100000 [1:32:13<25:22:19,  1.06it/s]                                                            3%|▎         | 2810/100000 [1:32:13<25:22:19,  1.06it/s]  3%|▎         | 2811/100000 [1:32:25<114:57:14,  4.26s/it]                                                             3%|▎         | 2811/100000 [1:32:25<114:57:14,  4.26s/it]  3%|▎         | 2812/100000 [1:32:31<125:55:02,  4.66s/it]                                                             3%|▎         | 2812/100000 [1:32:31<125:55:02,  4.66s/it]  3%|▎         | 2813/100000 [1:32:35<126:19:28,  4.68s/it]                                                             3%|▎         | 2813/100000 [1:32:35<126:19:28,  4.68s/it]  3%|▎         | 2814/100000 [1:32:40<121:48:22,  4.51s/it]                                                             3%|▎         | 2814/100000 [1:32:40<121:48:22,  4.51s/it]  3%|▎         | 2815/100000 [1:32:43<115:41:00,  4.29s/it]                                                             3%|▎         | 2815/100000 [1:32:43<115:41:00,  4.29s/it]  3%|▎         | 2816/100000 [1:32:47<107:26:53,  3.98s/it]                                                             3%|▎         | 2816/100000 [1:32:47<107:26:53,  3.98s/it]  3%|▎         | 2817/100000 [1:32:50<100:08:54,  3.71s/it]                                                             3%|▎         | 2817/100000 [1:32:50<100:08:54,  3.71s/it]  3%|▎         | 2818/100000 [1:32:52<92:02:48,  3.41s/it]                                                             3%|▎         | 2818/100000 [1:32:52<92:02:48,  3.41s/it]  3%|▎         | 2819/100000 [1:32:55<85:10:12,  3.16s/it]                                                            3%|▎         | 2819/100000 [1:32:55<85:10:12,  3.16s/it]  3%|▎         | 2820/100000 [1:32:57<78:22:13,  2.90s/it]                                                            3%|▎         | 2820/100000 [1:32:57<78:22:13,  2.90s/it]  3%|▎         | 2821/100000 [1:32:59<73:06:54,  2.71s/it]                                                            3%|▎         | 2821/100000 [1:32:59<73:06:54,  2.71s/it]  3%|▎         | 2822/100000 [1:33:01<67:40:40,  2.51s/it]                                                            3%|▎         | 2822/100000 [1:33:02<67:40:40,  2.51s/it]  3%|▎         | 2823/100000 [1:33:03<63:24:11,  2.35s/it]                                                            3%|▎         | 2823/100000 [1:33:03<63:24:11,  2.35s/it]  3%|▎         | 2824/100000 [1:33:05<59:38:04,  2.21s/it]                                                            3%|▎         | 2824/100000 [1:33:05<59:38:04,  2.21s/it]  3%|▎         | 2825/100000 [1:33:07<56:12:34,  2.08s/it]                                                            3%|▎         | 2825/100000 [1:33:07<56:12:34,  2.08s/it]  3%|▎         | 2826/100000 [1:33:09<52:42:34,  1.95s/it]                                                            3%|▎         | 2826/100000 [1:33:09<52:42:34,  1.95s/it]  3%|▎         | 2827/100000 [1:33:10<50:14:06,  1.86s/it]                                                            3%|▎         | 2827/100000 [1:33:10<50:14:06,  1.86s/it]  3%|▎         | 2828/100000 [1:33:12<48:13:58,  1.79s/it]                                                            3%|▎         | 2828/100000 [1:33:12<48:13:58,  1.79s/it]  3%|▎         | 2829/100000 [1:33:14<46:24:06,  1.72s/it]                                                            3%|▎         | 2829/100000 [1:33:14<46:24:06,  1.72s/it]  3%|▎         | 2830/100000 [1:33:15<44:09:11,  1.64s/it]                                                            3%|▎         | 2830/100000 [1:33:15<44:09:11,  1.64s/it]  3%|▎         | 2831/100000 [1:33:16<42:31:06,  1.58s/it]                                                            3%|▎         | 2831/100000 [1:33:16<42:31:06,  1.58s/it]  3%|▎         | 2832/100000 [1:33:18<41:10:04,  1.53s/it]                                                            3%|▎         | 2832/100000 [1:33:18<41:10:04,  1.53s/it]  3%|▎         | 2833/100000 [1:33:19<40:23:13,  1.50s/it]                                                            3%|▎         | 2833/100000 [1:33:19<40:23:13,  1.50s/it]  3%|▎         | 2834/100000 [1:33:21<39:06:46,  1.45s/it]                                                            3%|▎         | 2834/100000 [1:33:21<39:06:46,  1.45s/it]  3%|▎         | 2835/100000 [1:33:22<38:39:10,  1.43s/it]                                                            3%|▎         | 2835/100000 [1:33:22<38:39:10,  1.43s/it]  3%|▎         | 2836/100000 [1:33:23<37:38:21,  1.39s/it]                                                            3%|▎         | 2836/100000 [1:33:23<37:38:21,  1.39s/it]  3%|▎         | 2837/100000 [1:33:25<37:16:59,  1.38s/it]                                                            3%|▎         | 2837/100000 [1:33:25<37:16:59,  1.38s/it]  3%|▎         | 2838/100000 [1:33:26<36:48:32,  1.36s/it]                                                            3%|▎         | 2838/100000 [1:33:26<36:48:32,  1.36s/it]  3%|▎         | 2839/100000 [1:33:27<36:15:01,  1.34s/it]                                                            3%|▎         | 2839/100000 [1:33:27<36:15:01,  1.34s/it]  3%|▎         | 2840/100000 [1:33:29<35:43:22,  1.32s/it]                                                            3%|▎         | 2840/100000 [1:33:29<35:43:22,  1.32s/it]  3%|▎         | 2841/100000 [1:33:30<35:21:05,  1.31s/it]                                                            3%|▎         | 2841/100000 [1:33:30<35:21:05,  1.31s/it]  3%|▎         | 2842/100000 [1:33:31<34:36:47,  1.28s/it]                                                            3%|▎         | 2842/100000 [1:33:31<34:36:47,  1.28s/it]  3%|▎         | 2843/100000 [1:33:32<34:12:12,  1.27s/it]                                                            3%|▎         | 2843/100000 [1:33:32<34:12:12,  1.27s/it]  3%|▎         | 2844/100000 [1:33:34<33:52:20,  1.26s/it]                                                            3%|▎         | 2844/100000 [1:33:34<33:52:20,  1.26s/it]  3%|▎         | 2845/100000 [1:33:35<33:15:33,  1.23s/it]                                                            3%|▎         | 2845/100000 [1:33:35<33:15:33,  1.23s/it]  3%|▎         | 2846/100000 [1:33:36<32:36:16,  1.21s/it]                                                            3%|▎         | 2846/100000 [1:33:36<32:36:16,  1.21s/it]  3%|▎         | 2847/100000 [1:33:37<31:54:42,  1.18s/it]                                                            3%|▎         | 2847/100000 [1:33:37<31:54:42,  1.18s/it]  3%|▎         | 2848/100000 [1:33:38<31:32:52,  1.17s/it]                                                            3%|▎         | 2848/100000 [1:33:38<31:32:52,  1.17s/it]  3%|▎         | 2849/100000 [1:33:39<31:10:55,  1.16s/it]                                                            3%|▎         | 2849/100000 [1:33:39<31:10:55,  1.16s/it]  3%|▎         | 2850/100000 [1:33:40<30:41:58,  1.14s/it]                                                            3%|▎         | 2850/100000 [1:33:40<30:41:58,  1.14s/it]  3%|▎         | 2851/100000 [1:33:41<30:08:34,  1.12s/it]                                                            3%|▎         | 2851/100000 [1:33:41<30:08:34,  1.12s/it]  3%|▎         | 2852/100000 [1:33:43<29:50:52,  1.11s/it]                                                            3%|▎         | 2852/100000 [1:33:43<29:50:52,  1.11s/it]  3%|▎         | 2853/100000 [1:33:44<29:29:03,  1.09s/it]                                                            3%|▎         | 2853/100000 [1:33:44<29:29:03,  1.09s/it]  3%|▎         | 2854/100000 [1:33:45<29:08:09,  1.08s/it]                                                            3%|▎         | 2854/100000 [1:33:45<29:08:09,  1.08s/it]  3%|▎         | 2855/100000 [1:33:46<28:37:51,  1.06s/it]                                                            3%|▎         | 2855/100000 [1:33:46<28:37:51,  1.06s/it]  3%|▎         | 2856/100000 [1:33:47<28:07:56,  1.04s/it]                                                            3%|▎         | 2856/100000 [1:33:47<28:07:56,  1.04s/it]  3%|▎         | 2857/100000 [1:33:48<27:25:27,  1.02s/it]                                                            3%|▎         | 2857/100000 [1:33:48<27:25:27,  1.02s/it]  3%|▎         | 2858/100000 [1:33:49<27:03:27,  1.00s/it]                                                            3%|▎         | 2858/100000 [1:33:49<27:03:27,  1.00s/it]  3%|▎         | 2859/100000 [1:33:49<26:05:17,  1.03it/s]                                                            3%|▎         | 2859/100000 [1:33:49<26:05:17,  1.03it/s]  3%|▎         | 2860/100000 [1:33:50<24:58:53,  1.08it/s]                                                            3%|▎         | 2860/100000 [1:33:50<24:58:53,  1.08it/s]  3%|▎         | 2861/100000 [1:34:03<117:26:38,  4.35s/it]                                                             3%|▎         | 2861/100000 [1:34:03<117:26:38,  4.35s/it]  3%|▎         | 2862/100000 [1:34:09<129:39:32,  4.81s/it]                                                             3%|▎         | 2862/100000 [1:34:09<129:39:32,  4.81s/it]  3%|▎         | 2863/100000 [1:34:13<130:06:01,  4.82s/it]                                                             3%|▎         | 2863/100000 [1:34:13<130:06:01,  4.82s/it]  3%|▎         | 2864/100000 [1:34:17<124:29:02,  4.61s/it]                                                             3%|▎         | 2864/100000 [1:34:18<124:29:02,  4.61s/it]  3%|▎         | 2865/100000 [1:34:21<115:51:26,  4.29s/it]                                                             3%|▎         | 2865/100000 [1:34:21<115:51:26,  4.29s/it]  3%|▎         | 2866/100000 [1:34:24<107:53:18,  4.00s/it]                                                             3%|▎         | 2866/100000 [1:34:24<107:53:18,  4.00s/it]  3%|▎         | 2867/100000 [1:34:27<100:25:02,  3.72s/it]                                                             3%|▎         | 2867/100000 [1:34:27<100:25:02,  3.72s/it]  3%|▎         | 2868/100000 [1:34:30<93:04:18,  3.45s/it]                                                             3%|▎         | 2868/100000 [1:34:30<93:04:18,  3.45s/it]  3%|▎         | 2869/100000 [1:34:33<85:54:40,  3.18s/it]                                                            3%|▎         | 2869/100000 [1:34:33<85:54:40,  3.18s/it]  3%|▎         | 2870/100000 [1:34:35<79:09:57,  2.93s/it]                                                            3%|▎         | 2870/100000 [1:34:35<79:09:57,  2.93s/it]  3%|▎         | 2871/100000 [1:34:37<72:49:47,  2.70s/it]                                                            3%|▎         | 2871/100000 [1:34:37<72:49:47,  2.70s/it]  3%|▎         | 2872/100000 [1:34:39<67:19:40,  2.50s/it]                                                            3%|▎         | 2872/100000 [1:34:39<67:19:40,  2.50s/it]  3%|▎         | 2873/100000 [1:34:41<62:36:28,  2.32s/it]                                                            3%|▎         | 2873/100000 [1:34:41<62:36:28,  2.32s/it]  3%|▎         | 2874/100000 [1:34:43<57:51:55,  2.14s/it]                                                            3%|▎         | 2874/100000 [1:34:43<57:51:55,  2.14s/it]  3%|▎         | 2875/100000 [1:34:45<54:36:24,  2.02s/it]                                                            3%|▎         | 2875/100000 [1:34:45<54:36:24,  2.02s/it]  3%|▎         | 2876/100000 [1:34:46<51:21:44,  1.90s/it]                                                            3%|▎         | 2876/100000 [1:34:46<51:21:44,  1.90s/it]  3%|▎         | 2877/100000 [1:34:48<49:08:08,  1.82s/it]                                                            3%|▎         | 2877/100000 [1:34:48<49:08:08,  1.82s/it]  3%|▎         | 2878/100000 [1:34:50<47:17:53,  1.75s/it]                                                            3%|▎         | 2878/100000 [1:34:50<47:17:53,  1.75s/it]  3%|▎         | 2879/100000 [1:34:51<45:10:30,  1.67s/it]                                                            3%|▎         | 2879/100000 [1:34:51<45:10:30,  1.67s/it]  3%|▎         | 2880/100000 [1:34:53<43:37:14,  1.62s/it]                                                            3%|▎         | 2880/100000 [1:34:53<43:37:14,  1.62s/it]  3%|▎         | 2881/100000 [1:34:54<42:02:09,  1.56s/it]                                                          {'loss': 0.0645, 'grad_norm': 0.7703157663345337, 'learning_rate': 8.379e-06, 'epoch': 5.16}
+{'loss': 0.0523, 'grad_norm': 0.8498938679695129, 'learning_rate': 8.382e-06, 'epoch': 5.16}
+{'loss': 0.0513, 'grad_norm': 0.8971265554428101, 'learning_rate': 8.385e-06, 'epoch': 5.16}
+{'loss': 0.0518, 'grad_norm': 0.8701927661895752, 'learning_rate': 8.388e-06, 'epoch': 5.16}
+{'loss': 0.0429, 'grad_norm': 0.7444379329681396, 'learning_rate': 8.391e-06, 'epoch': 5.17}
+{'loss': 0.0661, 'grad_norm': 1.0041154623031616, 'learning_rate': 8.394e-06, 'epoch': 5.17}
+{'loss': 0.0752, 'grad_norm': 0.8491671681404114, 'learning_rate': 8.397e-06, 'epoch': 5.17}
+{'loss': 0.0624, 'grad_norm': 0.8518207669258118, 'learning_rate': 8.400000000000001e-06, 'epoch': 5.17}
+{'loss': 0.0538, 'grad_norm': 0.9227288961410522, 'learning_rate': 8.403e-06, 'epoch': 5.17}
+{'loss': 0.0474, 'grad_norm': 0.8876579999923706, 'learning_rate': 8.406e-06, 'epoch': 5.18}
+{'loss': 0.0456, 'grad_norm': 2.571634531021118, 'learning_rate': 8.409e-06, 'epoch': 5.18}
+{'loss': 0.0517, 'grad_norm': 0.7877750396728516, 'learning_rate': 8.412e-06, 'epoch': 5.18}
+{'loss': 0.109, 'grad_norm': 1.27826988697052, 'learning_rate': 8.415000000000002e-06, 'epoch': 5.18}
+{'loss': 0.0814, 'grad_norm': 1.2227567434310913, 'learning_rate': 8.418000000000001e-06, 'epoch': 5.18}
+{'loss': 0.0789, 'grad_norm': 1.4295302629470825, 'learning_rate': 8.421000000000001e-06, 'epoch': 5.18}
+{'loss': 0.3895, 'grad_norm': 2.2919962406158447, 'learning_rate': 8.424e-06, 'epoch': 5.19}
+{'loss': 0.3742, 'grad_norm': 1.3867071866989136, 'learning_rate': 8.426999999999999e-06, 'epoch': 5.19}
+{'loss': 0.4138, 'grad_norm': 1.6625173091888428, 'learning_rate': 8.43e-06, 'epoch': 5.19}
+{'loss': 0.3137, 'grad_norm': 1.237267255783081, 'learning_rate': 8.433e-06, 'epoch': 5.19}
+{'loss': 0.3284, 'grad_norm': 1.9351158142089844, 'learning_rate': 8.436e-06, 'epoch': 5.19}
+{'loss': 0.249, 'grad_norm': 0.9686079621315002, 'learning_rate': 8.439e-06, 'epoch': 5.2}
+{'loss': 0.2494, 'grad_norm': 0.9176819324493408, 'learning_rate': 8.442e-06, 'epoch': 5.2}
+{'loss': 0.2237, 'grad_norm': 1.0931744575500488, 'learning_rate': 8.445e-06, 'epoch': 5.2}
+{'loss': 0.2043, 'grad_norm': 1.0970206260681152, 'learning_rate': 8.448000000000001e-06, 'epoch': 5.2}
+{'loss': 0.2139, 'grad_norm': 1.022572636604309, 'learning_rate': 8.451000000000001e-06, 'epoch': 5.2}
+{'loss': 0.1792, 'grad_norm': 1.361502766609192, 'learning_rate': 8.454e-06, 'epoch': 5.2}
+{'loss': 0.2567, 'grad_norm': 1.2826979160308838, 'learning_rate': 8.457e-06, 'epoch': 5.21}
+{'loss': 0.1461, 'grad_norm': 1.0315555334091187, 'learning_rate': 8.459999999999999e-06, 'epoch': 5.21}
+{'loss': 0.1435, 'grad_norm': 1.2108699083328247, 'learning_rate': 8.463e-06, 'epoch': 5.21}
+{'loss': 0.1251, 'grad_norm': 1.0025715827941895, 'learning_rate': 8.466e-06, 'epoch': 5.21}
+{'loss': 0.1303, 'grad_norm': 0.7117714881896973, 'learning_rate': 8.469e-06, 'epoch': 5.21}
+{'loss': 0.0406, 'grad_norm': 0.5328357219696045, 'learning_rate': 8.472e-06, 'epoch': 5.22}
+{'loss': 0.1048, 'grad_norm': 1.2464380264282227, 'learning_rate': 8.475e-06, 'epoch': 5.22}
+{'loss': 0.1046, 'grad_norm': 0.9050692915916443, 'learning_rate': 8.478e-06, 'epoch': 5.22}
+{'loss': 0.0854, 'grad_norm': 0.7401684522628784, 'learning_rate': 8.481e-06, 'epoch': 5.22}
+{'loss': 0.0457, 'grad_norm': 0.5116982460021973, 'learning_rate': 8.484e-06, 'epoch': 5.22}
+{'loss': 0.0564, 'grad_norm': 0.7157394886016846, 'learning_rate': 8.487e-06, 'epoch': 5.23}
+{'loss': 0.0675, 'grad_norm': 1.1383388042449951, 'learning_rate': 8.49e-06, 'epoch': 5.23}
+{'loss': 0.0565, 'grad_norm': 0.8179400563240051, 'learning_rate': 8.493000000000002e-06, 'epoch': 5.23}
+{'loss': 0.0617, 'grad_norm': 0.9336811304092407, 'learning_rate': 8.496e-06, 'epoch': 5.23}
+{'loss': 0.039, 'grad_norm': 0.8065788745880127, 'learning_rate': 8.499e-06, 'epoch': 5.23}
+{'loss': 0.0662, 'grad_norm': 0.8431143760681152, 'learning_rate': 8.502e-06, 'epoch': 5.23}
+{'loss': 0.056, 'grad_norm': 0.9685320854187012, 'learning_rate': 8.504999999999999e-06, 'epoch': 5.24}
+{'loss': 0.0725, 'grad_norm': 1.681692123413086, 'learning_rate': 8.508e-06, 'epoch': 5.24}
+{'loss': 0.0623, 'grad_norm': 0.757462739944458, 'learning_rate': 8.511e-06, 'epoch': 5.24}
+{'loss': 0.0556, 'grad_norm': 1.066636323928833, 'learning_rate': 8.514e-06, 'epoch': 5.24}
+{'loss': 0.0405, 'grad_norm': 0.7465166449546814, 'learning_rate': 8.517e-06, 'epoch': 5.24}
+{'loss': 0.0518, 'grad_norm': 0.8556094765663147, 'learning_rate': 8.52e-06, 'epoch': 5.25}
+{'loss': 0.0534, 'grad_norm': 0.8630668520927429, 'learning_rate': 8.523000000000001e-06, 'epoch': 5.25}
+{'loss': 0.0472, 'grad_norm': 0.9147830605506897, 'learning_rate': 8.526000000000001e-06, 'epoch': 5.25}
+{'loss': 0.0474, 'grad_norm': 0.936911404132843, 'learning_rate': 8.529e-06, 'epoch': 5.25}
+{'loss': 0.0652, 'grad_norm': 0.8163319230079651, 'learning_rate': 8.532e-06, 'epoch': 5.25}
+{'loss': 0.0633, 'grad_norm': 0.9939672946929932, 'learning_rate': 8.534999999999999e-06, 'epoch': 5.25}
+{'loss': 0.0553, 'grad_norm': 1.0096458196640015, 'learning_rate': 8.538e-06, 'epoch': 5.26}
+{'loss': 0.0983, 'grad_norm': 1.5377824306488037, 'learning_rate': 8.541e-06, 'epoch': 5.26}
+{'loss': 0.0647, 'grad_norm': 0.9376013875007629, 'learning_rate': 8.544e-06, 'epoch': 5.26}
+{'loss': 0.1096, 'grad_norm': 1.0527558326721191, 'learning_rate': 8.547e-06, 'epoch': 5.26}
+{'loss': 0.0608, 'grad_norm': 0.8554616570472717, 'learning_rate': 8.55e-06, 'epoch': 5.26}
+{'loss': 0.0812, 'grad_norm': 0.9472962021827698, 'learning_rate': 8.553000000000001e-06, 'epoch': 5.27}
+{'loss': 0.0601, 'grad_norm': 0.8088082075119019, 'learning_rate': 8.556e-06, 'epoch': 5.27}
+{'loss': 0.0693, 'grad_norm': 0.9127931594848633, 'learning_rate': 8.559e-06, 'epoch': 5.27}
+{'loss': 0.0515, 'grad_norm': 0.7901133894920349, 'learning_rate': 8.562e-06, 'epoch': 5.27}
+{'loss': 0.0728, 'grad_norm': 1.4003362655639648, 'learning_rate': 8.565e-06, 'epoch': 5.27}
+{'loss': 0.0749, 'grad_norm': 1.0627663135528564, 'learning_rate': 8.568000000000002e-06, 'epoch': 5.28}
+{'loss': 0.0995, 'grad_norm': 2.196826457977295, 'learning_rate': 8.571e-06, 'epoch': 5.28}
+{'loss': 0.3984, 'grad_norm': 1.8018981218338013, 'learning_rate': 8.574e-06, 'epoch': 5.28}
+{'loss': 0.4234, 'grad_norm': 1.298303246498108, 'learning_rate': 8.577e-06, 'epoch': 5.28}
+{'loss': 0.3235, 'grad_norm': 1.3109056949615479, 'learning_rate': 8.58e-06, 'epoch': 5.28}
+{'loss': 0.282, 'grad_norm': 1.5986768007278442, 'learning_rate': 8.583e-06, 'epoch': 5.28}
+{'loss': 0.2529, 'grad_norm': 1.181259274482727, 'learning_rate': 8.586e-06, 'epoch': 5.29}
+{'loss': 0.2063, 'grad_norm': 0.8804054260253906, 'learning_rate': 8.589e-06, 'epoch': 5.29}
+{'loss': 0.2953, 'grad_norm': 1.4291982650756836, 'learning_rate': 8.592e-06, 'epoch': 5.29}
+{'loss': 0.2368, 'grad_norm': 1.3200314044952393, 'learning_rate': 8.595e-06, 'epoch': 5.29}
+{'loss': 0.2103, 'grad_norm': 1.1014959812164307, 'learning_rate': 8.598000000000001e-06, 'epoch': 5.29}
+{'loss': 0.1908, 'grad_norm': 0.9992939233779907, 'learning_rate': 8.601000000000001e-06, 'epoch': 5.3}
+{'loss': 0.1221, 'grad_norm': 0.9212896227836609, 'learning_rate': 8.604000000000001e-06, 'epoch': 5.3}
+{'loss': 0.1182, 'grad_norm': 0.8088216185569763, 'learning_rate': 8.606999999999999e-06, 'epoch': 5.3}
+{'loss': 0.1241, 'grad_norm': 0.789671778678894, 'learning_rate': 8.609999999999999e-06, 'epoch': 5.3}
+{'loss': 0.0944, 'grad_norm': 1.0368704795837402, 'learning_rate': 8.613e-06, 'epoch': 5.3}
+{'loss': 0.1023, 'grad_norm': 1.2252488136291504, 'learning_rate': 8.616e-06, 'epoch': 5.3}
+{'loss': 0.0693, 'grad_norm': 1.0052070617675781, 'learning_rate': 8.619e-06, 'epoch': 5.31}
+{'loss': 0.0674, 'grad_norm': 0.6709212064743042, 'learning_rate': 8.622e-06, 'epoch': 5.31}
+{'loss': 0.0614, 'grad_norm': 0.5491957664489746, 'learning_rate': 8.625e-06, 'epoch': 5.31}
+{'loss': 0.0663, 'grad_norm': 0.8416413068771362, 'learning_rate': 8.628000000000001e-06, 'epoch': 5.31}
+{'loss': 0.0751, 'grad_norm': 0.8481470346450806, 'learning_rate': 8.631000000000001e-06, 'epoch': 5.31}
+  3%|▎         | 2881/100000 [1:34:54<42:02:09,  1.56s/it]  3%|▎         | 2882/100000 [1:34:55<41:01:57,  1.52s/it]                                                            3%|▎         | 2882/100000 [1:34:55<41:01:57,  1.52s/it]  3%|▎         | 2883/100000 [1:34:57<40:15:15,  1.49s/it]                                                            3%|▎         | 2883/100000 [1:34:57<40:15:15,  1.49s/it]  3%|▎         | 2884/100000 [1:34:58<39:12:33,  1.45s/it]                                                            3%|▎         | 2884/100000 [1:34:58<39:12:33,  1.45s/it]  3%|▎         | 2885/100000 [1:35:00<38:42:30,  1.43s/it]                                                            3%|▎         | 2885/100000 [1:35:00<38:42:30,  1.43s/it]  3%|▎         | 2886/100000 [1:35:01<38:09:30,  1.41s/it]                                                            3%|▎         | 2886/100000 [1:35:01<38:09:30,  1.41s/it]  3%|▎         | 2887/100000 [1:35:02<37:17:03,  1.38s/it]                                                            3%|▎         | 2887/100000 [1:35:02<37:17:03,  1.38s/it]  3%|▎         | 2888/100000 [1:35:04<36:46:21,  1.36s/it]                                                            3%|▎         | 2888/100000 [1:35:04<36:46:21,  1.36s/it]  3%|▎         | 2889/100000 [1:35:05<36:18:56,  1.35s/it]                                                            3%|▎         | 2889/100000 [1:35:05<36:18:56,  1.35s/it]  3%|▎         | 2890/100000 [1:35:06<35:46:04,  1.33s/it]                                                            3%|▎         | 2890/100000 [1:35:06<35:46:04,  1.33s/it]  3%|▎         | 2891/100000 [1:35:07<35:13:04,  1.31s/it]                                                            3%|▎         | 2891/100000 [1:35:07<35:13:04,  1.31s/it]  3%|▎         | 2892/100000 [1:35:09<34:29:08,  1.28s/it]                                                            3%|▎         | 2892/100000 [1:35:09<34:29:08,  1.28s/it]  3%|▎         | 2893/100000 [1:35:10<34:07:43,  1.27s/it]                                                            3%|▎         | 2893/100000 [1:35:10<34:07:43,  1.27s/it]  3%|▎         | 2894/100000 [1:35:11<33:34:58,  1.25s/it]                                                            3%|▎         | 2894/100000 [1:35:11<33:34:58,  1.25s/it]  3%|▎         | 2895/100000 [1:35:12<33:02:44,  1.23s/it]                                                            3%|▎         | 2895/100000 [1:35:12<33:02:44,  1.23s/it]  3%|▎         | 2896/100000 [1:35:13<32:19:56,  1.20s/it]                                                            3%|▎         | 2896/100000 [1:35:13<32:19:56,  1.20s/it]  3%|▎         | 2897/100000 [1:35:15<31:56:39,  1.18s/it]                                                            3%|▎         | 2897/100000 [1:35:15<31:56:39,  1.18s/it]  3%|▎         | 2898/100000 [1:35:16<31:32:37,  1.17s/it]                                                            3%|▎         | 2898/100000 [1:35:16<31:32:37,  1.17s/it]  3%|▎         | 2899/100000 [1:35:17<30:58:52,  1.15s/it]                                                            3%|▎         | 2899/100000 [1:35:17<30:58:52,  1.15s/it]  3%|▎         | 2900/100000 [1:35:18<30:34:59,  1.13s/it]                                                            3%|▎         | 2900/100000 [1:35:18<30:34:59,  1.13s/it]  3%|▎         | 2901/100000 [1:35:19<30:05:56,  1.12s/it]                                                            3%|▎         | 2901/100000 [1:35:19<30:05:56,  1.12s/it]  3%|▎         | 2902/100000 [1:35:20<29:50:50,  1.11s/it]                                                            3%|▎         | 2902/100000 [1:35:20<29:50:50,  1.11s/it]  3%|▎         | 2903/100000 [1:35:21<29:33:58,  1.10s/it]                                                            3%|▎         | 2903/100000 [1:35:21<29:33:58,  1.10s/it]  3%|▎         | 2904/100000 [1:35:22<29:11:04,  1.08s/it]                                                            3%|▎         | 2904/100000 [1:35:22<29:11:04,  1.08s/it]  3%|▎         | 2905/100000 [1:35:23<28:36:33,  1.06s/it]                                                            3%|▎         | 2905/100000 [1:35:23<28:36:33,  1.06s/it]  3%|▎         | 2906/100000 [1:35:24<28:07:12,  1.04s/it]                                                            3%|▎         | 2906/100000 [1:35:24<28:07:12,  1.04s/it]  3%|▎         | 2907/100000 [1:35:25<27:28:22,  1.02s/it]                                                            3%|▎         | 2907/100000 [1:35:25<27:28:22,  1.02s/it]  3%|▎         | 2908/100000 [1:35:26<27:03:15,  1.00s/it]                                                            3%|▎         | 2908/100000 [1:35:26<27:03:15,  1.00s/it]  3%|▎         | 2909/100000 [1:35:27<26:34:41,  1.01it/s]                                                            3%|▎         | 2909/100000 [1:35:27<26:34:41,  1.01it/s]  3%|▎         | 2910/100000 [1:35:28<25:51:59,  1.04it/s]                                                            3%|▎         | 2910/100000 [1:35:28<25:51:59,  1.04it/s]  3%|▎         | 2911/100000 [1:35:40<112:43:31,  4.18s/it]                                                             3%|▎         | 2911/100000 [1:35:40<112:43:31,  4.18s/it]  3%|▎         | 2912/100000 [1:35:45<125:28:26,  4.65s/it]                                                             3%|▎         | 2912/100000 [1:35:45<125:28:26,  4.65s/it]  3%|▎         | 2913/100000 [1:35:50<123:35:57,  4.58s/it]                                                             3%|▎         | 2913/100000 [1:35:50<123:35:57,  4.58s/it]  3%|▎         | 2914/100000 [1:35:54<119:18:26,  4.42s/it]                                                             3%|▎         | 2914/100000 [1:35:54<119:18:26,  4.42s/it]  3%|▎         | 2915/100000 [1:35:58<113:06:34,  4.19s/it]                                                             3%|▎         | 2915/100000 [1:35:58<113:06:34,  4.19s/it]  3%|▎         | 2916/100000 [1:36:01<106:46:14,  3.96s/it]                                                             3%|▎         | 2916/100000 [1:36:01<106:46:14,  3.96s/it]  3%|▎         | 2917/100000 [1:36:04<99:39:38,  3.70s/it]                                                             3%|▎         | 2917/100000 [1:36:04<99:39:38,  3.70s/it]  3%|▎         | 2918/100000 [1:36:07<91:53:30,  3.41s/it]                                                            3%|▎         | 2918/100000 [1:36:07<91:53:30,  3.41s/it]  3%|▎         | 2919/100000 [1:36:09<85:56:15,  3.19s/it]                                                            3%|▎         | 2919/100000 [1:36:09<85:56:15,  3.19s/it]  3%|▎         | 2920/100000 [1:36:12<79:48:01,  2.96s/it]                                                            3%|▎         | 2920/100000 [1:36:12<79:48:01,  2.96s/it]  3%|▎         | 2921/100000 [1:36:14<73:25:58,  2.72s/it]                                                            3%|▎         | 2921/100000 [1:36:14<73:25:58,  2.72s/it]  3%|▎         | 2922/100000 [1:36:16<68:34:48,  2.54s/it]                                                            3%|▎         | 2922/100000 [1:36:16<68:34:48,  2.54s/it]  3%|▎         | 2923/100000 [1:36:18<64:10:55,  2.38s/it]                                                            3%|▎         | 2923/100000 [1:36:18<64:10:55,  2.38s/it]  3%|▎         | 2924/100000 [1:36:20<59:59:36,  2.22s/it]                                                            3%|▎         | 2924/100000 [1:36:20<59:59:36,  2.22s/it]  3%|▎         | 2925/100000 [1:36:22<56:17:08,  2.09s/it]                                                            3%|▎         | 2925/100000 [1:36:22<56:17:08,  2.09s/it]  3%|▎         | 2926/100000 [1:36:23<53:26:28,  1.98s/it]                                                            3%|▎         | 2926/100000 [1:36:24<53:26:28,  1.98s/it]  3%|▎         | 2927/100000 [1:36:25<50:36:42,  1.88s/it]                                                            3%|▎         | 2927/100000 [1:36:25<50:36:42,  1.88s/it]  3%|▎         | 2928/100000 [1:36:27<48:37:58,  1.80s/it]                                                            3%|▎         | 2928/100000 [1:36:27<48:37:58,  1.80s/it]  3%|▎         | 2929/100000 [1:36:28<46:45:11,  1.73s/it]                                                            3%|▎         | 2929/100000 [1:36:28<46:45:11,  1.73s/it]  3%|▎         | 2930/100000 [1:36:30<44:53:38,  1.66s/it]                                                            3%|▎         | 2930/100000 [1:36:30<44:53:38,  1.66s/it]  3%|▎         | 2931/100000 [1:36:31<43:06:39,  1.60s/it]                                                            3%|▎         | 2931/100000 [1:36:31<43:06:39,  1.60s/it]  3%|▎         | 2932/100000 [1:36:33<41:57:38,  1.56s/it]                                                            3%|▎         | 2932/100000 [1:36:33<41:57:38,  1.56s/it]  3%|▎         | 2933/100000 [1:36:34<40:37:41,  1.51s/it]                                                            3%|▎         | 2933/100000 [1:36:34<40:37:41,  1.51s/it]  3%|▎         | 2934/100000 [1:36:36<39:36:14,  1.47s/it]                                                            3%|▎         | 2934/100000 [1:36:36<39:36:14,  1.47s/it]  3%|▎         | 2935/100000 [1:36:37<39:00:33,  1.45s/it]                                                            3%|▎         | 2935/100000 [1:36:37<39:00:33,  1.45s/it]  3%|▎         | 2936/100000 [1:36:38<38:27:28,  1.43s/it]                                                            3%|▎         | 2936/100000 [1:36:38<38:27:28,  1.43s/it]  3%|▎         | 2937/100000 [1:36:40<38:30:12,  1.43s/it]                                                            3%|▎         | 2937/100000 [1:36:40<38:30:12,  1.43s/it]  3%|▎         | 2938/100000 [1:36:41<37:28:15,  1.39s/it]                                                            3%|▎         | 2938/100000 [1:36:41<37:28:15,  1.39s/it]  3%|▎         | 2939/100000 [1:36:42<36:47:44,  1.36s/it]                                                            3%|▎         | 2939/100000 [1:36:42<36:47:44,  1.36s/it]  3%|▎         | 2940/100000 [1:36:44<35:57:33,  1.33s/it]                                                            3%|▎         | 2940/100000 [1:36:44<35:57:33,  1.33s/it]  3%|▎         | 2941/100000 [1:36:45<35:29:40,  1.32s/it]                                                            3%|▎         | 2941/100000 [1:36:45<35:29:40,  1.32s/it]  3%|▎         | 2942/100000 [1:36:46<34:46:53,  1.29s/it]                                                            3%|▎         | 2942/100000 [1:36:46<34:46:53,  1.29s/it]  3%|▎         | 2943/100000 [1:36:47<34:22:54,  1.28s/it]                                                            3%|▎         | 2943/100000 [1:36:47<34:22:54,  1.28s/it]  3%|▎         | 2944/100000 [1:36:49<34:01:05,  1.26s/it]                                                            3%|▎         | 2944/100000 [1:36:49<34:01:05,  1.26s/it]  3%|▎         | 2945/100000 [1:36:50<33:08:00,  1.23s/it]                                                            3%|▎         | 2945/100000 [1:36:50<33:08:00,  1.23s/it]  3%|▎         | 2946/100000 [1:36:51<32:42:11,  1.21s/it]                                                            3%|▎         | 2946/100000 [1:36:51<32:42:11,  1.21s/it]  3%|▎         | 2947/100000 [1:36:52<32:07:05,  1.19s/it]                                                            3%|▎         | 2947/100000 [1:36:52<32:07:05,  1.19s/it]  3%|▎         | 2948/100000 [1:36:53<31:38:28,  1.17s/it]                                                            3%|▎         | 2948/100000 [1:36:53<31:38:28,  1.17s/it]  3%|▎         | 2949/100000 [1:36:54<31:11:42,  1.16s/it]                                                            3%|▎         | 2949/100000 [1:36:54<31:11:42,  1.16s/it]  3%|▎         | 2950/100000 [1:36:55<30:54:59,  1.15s/it]                                                            3%|▎         | 2950/100000 [1:36:55<30:54:59,  1.15s/it]  3%|▎         | 2951/100000 [1:36:56<30:16:35,  1.12s/it]                                                            3%|▎         | 2951/100000 [1:36:56<30:16:35,  1.12s/it]  3%|▎         | 2952/100000 [1:36:58<29:51:58,  1.11s/it]                                                            3%|▎         | 2952/100000 [1:36:58<29:51:58,  1.11s/it]  3%|▎         | 2953/100000 [1:36:59<29:26:58,  1.09s/it]                                                            3%|▎         | 2953/100000 [1:36:59<29:26:58,  1.09s/it]  3%|▎         | 2954/100000 [1:37:00<29:06:23,  1.08s/it]                                                            3%|▎         | 2954/100000 [1:37:00<29:06:23,  1.08s/it]  3%|▎         | 2955/100000 [1:37:01<28:18:10,  1.05s/it]                                                            3%|▎         | 2955/100000 [1:37:01<28:18:10,  1.05s/it]  3%|▎         | 2956/100000 [1:37:02<27:28:05,  1.02s/it]                                                            3%|▎         | 2956/100000 [1:37:02<27:28:05,  1.02s/it]  3%|▎         | 2957/100000 [1:37:03<26:51:22,  1.00it/s]                                                            3%|▎         | 2957/100000 [1:37:03<26:51:22,  1.00it/s]  3%|▎         | 2958/100000 [1:37:03<26:15:52,  1.03it/s]                                                            3%|▎         | 2958/100000 [1:37:03<26:15:52,  1.03it/s]  3%|▎         | 2959/100000 [1:37:04<25:31:45,  1.06it/s]                                                            3%|▎         | 2959/100000 [1:37:04<25:31:45,  1.06it/s]  3%|▎         | 2960/100000 [1:37:05<25:09:16,  1.07it/s]                                                            3%|▎         | 2960/100000 [1:37:05<25:09:16,  1.07it/s]  3%|▎         | 2961/100000 [1:37:17<115:39:01,  4.29s/it]                                                             3%|▎         | 2961/100000 [1:37:17<115:39:01,  4.29s/it]  3%|▎         | 2962/100000 [1:37:23<128:06:12,  4.75s/it]                                                             3%|▎         | 2962/100000 [1:37:23<128:06:12,  4.75s/it]  3%|▎         | 2963/100000 [1:37:28<127:53:47,  4.74s/it]                                                             3%|▎         | 2963/100000 [1:37:28<127:53:47,  4.74s/it]  3%|▎         | 2964/100000 [1:37:32<122:31:19,  4.55s/it]                                                             3%|▎         | 2964/100000 [1:37:32<122:31:19,  4.55s/it]  3%|▎         | 2965/100000 [1:37:36<115:25:55,  4.28s/it]                                                             3%|▎         | 2965/100000 [1:37:36<115:25:55,  4.28s/it]  3%|▎         | 2966/100000 [1:37:39<107:53:30,  4.00s/it]                                                           {'loss': 0.0693, 'grad_norm': 1.0984277725219727, 'learning_rate': 8.634e-06, 'epoch': 5.32}
+{'loss': 0.0926, 'grad_norm': 0.9302229285240173, 'learning_rate': 8.637e-06, 'epoch': 5.32}
+{'loss': 0.0357, 'grad_norm': 0.49322235584259033, 'learning_rate': 8.64e-06, 'epoch': 5.32}
+{'loss': 0.0418, 'grad_norm': 0.730798602104187, 'learning_rate': 8.643e-06, 'epoch': 5.32}
+{'loss': 0.069, 'grad_norm': 0.689988374710083, 'learning_rate': 8.646e-06, 'epoch': 5.32}
+{'loss': 0.0699, 'grad_norm': 0.9584289789199829, 'learning_rate': 8.649e-06, 'epoch': 5.33}
+{'loss': 0.0638, 'grad_norm': 0.8632835745811462, 'learning_rate': 8.652e-06, 'epoch': 5.33}
+{'loss': 0.0458, 'grad_norm': 1.3212529420852661, 'learning_rate': 8.655e-06, 'epoch': 5.33}
+{'loss': 0.0644, 'grad_norm': 0.7729990482330322, 'learning_rate': 8.658e-06, 'epoch': 5.33}
+{'loss': 0.1455, 'grad_norm': 1.917777180671692, 'learning_rate': 8.661e-06, 'epoch': 5.33}
+{'loss': 0.0824, 'grad_norm': 1.0701407194137573, 'learning_rate': 8.664e-06, 'epoch': 5.33}
+{'loss': 0.0592, 'grad_norm': 0.8621686697006226, 'learning_rate': 8.667e-06, 'epoch': 5.34}
+{'loss': 0.0749, 'grad_norm': 0.9155268669128418, 'learning_rate': 8.67e-06, 'epoch': 5.34}
+{'loss': 0.0484, 'grad_norm': 0.8312194347381592, 'learning_rate': 8.673000000000001e-06, 'epoch': 5.34}
+{'loss': 0.0683, 'grad_norm': 1.4102102518081665, 'learning_rate': 8.676000000000001e-06, 'epoch': 5.34}
+{'loss': 0.0677, 'grad_norm': 1.0904110670089722, 'learning_rate': 8.679000000000001e-06, 'epoch': 5.34}
+{'loss': 0.0669, 'grad_norm': 0.8273285627365112, 'learning_rate': 8.682e-06, 'epoch': 5.35}
+{'loss': 0.0727, 'grad_norm': 1.3562661409378052, 'learning_rate': 8.684999999999999e-06, 'epoch': 5.35}
+{'loss': 0.065, 'grad_norm': 1.7254983186721802, 'learning_rate': 8.688e-06, 'epoch': 5.35}
+{'loss': 0.0575, 'grad_norm': 0.9011834859848022, 'learning_rate': 8.691e-06, 'epoch': 5.35}
+{'loss': 0.0535, 'grad_norm': 0.9402887225151062, 'learning_rate': 8.694e-06, 'epoch': 5.35}
+{'loss': 0.0476, 'grad_norm': 0.9309573769569397, 'learning_rate': 8.697e-06, 'epoch': 5.35}
+{'loss': 0.0502, 'grad_norm': 0.9273201823234558, 'learning_rate': 8.7e-06, 'epoch': 5.36}
+{'loss': 0.0678, 'grad_norm': 0.978259265422821, 'learning_rate': 8.703000000000001e-06, 'epoch': 5.36}
+{'loss': 0.0551, 'grad_norm': 0.7556988000869751, 'learning_rate': 8.706000000000001e-06, 'epoch': 5.36}
+{'loss': 0.0589, 'grad_norm': 0.8013013601303101, 'learning_rate': 8.709e-06, 'epoch': 5.36}
+{'loss': 0.0761, 'grad_norm': 0.9943859577178955, 'learning_rate': 8.712e-06, 'epoch': 5.36}
+{'loss': 0.0771, 'grad_norm': 1.665634036064148, 'learning_rate': 8.715e-06, 'epoch': 5.37}
+{'loss': 0.0794, 'grad_norm': 1.0174927711486816, 'learning_rate': 8.718e-06, 'epoch': 5.37}
+{'loss': 0.0642, 'grad_norm': 0.9980137944221497, 'learning_rate': 8.721e-06, 'epoch': 5.37}
+{'loss': 0.4153, 'grad_norm': 1.8771740198135376, 'learning_rate': 8.724e-06, 'epoch': 5.37}
+{'loss': 0.4126, 'grad_norm': 2.773858070373535, 'learning_rate': 8.727e-06, 'epoch': 5.37}
+{'loss': 0.286, 'grad_norm': 1.1791237592697144, 'learning_rate': 8.73e-06, 'epoch': 5.37}
+{'loss': 0.2737, 'grad_norm': 1.0450700521469116, 'learning_rate': 8.733000000000001e-06, 'epoch': 5.38}
+{'loss': 0.3204, 'grad_norm': 0.9821802973747253, 'learning_rate': 8.736e-06, 'epoch': 5.38}
+{'loss': 0.3898, 'grad_norm': 2.578831911087036, 'learning_rate': 8.739e-06, 'epoch': 5.38}
+{'loss': 0.2362, 'grad_norm': 1.2257970571517944, 'learning_rate': 8.742e-06, 'epoch': 5.38}
+{'loss': 0.1894, 'grad_norm': 1.0278574228286743, 'learning_rate': 8.745e-06, 'epoch': 5.38}
+{'loss': 0.2346, 'grad_norm': 1.2053768634796143, 'learning_rate': 8.748000000000002e-06, 'epoch': 5.39}
+{'loss': 0.2011, 'grad_norm': 1.3017722368240356, 'learning_rate': 8.751000000000001e-06, 'epoch': 5.39}
+{'loss': 0.1469, 'grad_norm': 0.7116005420684814, 'learning_rate': 8.754e-06, 'epoch': 5.39}
+{'loss': 0.1881, 'grad_norm': 2.64703106880188, 'learning_rate': 8.757e-06, 'epoch': 5.39}
+{'loss': 0.1773, 'grad_norm': 1.7918483018875122, 'learning_rate': 8.759999999999999e-06, 'epoch': 5.39}
+{'loss': 0.0867, 'grad_norm': 0.6470117568969727, 'learning_rate': 8.763e-06, 'epoch': 5.4}
+{'loss': 0.193, 'grad_norm': 2.316588878631592, 'learning_rate': 8.766e-06, 'epoch': 5.4}
+{'loss': 0.102, 'grad_norm': 1.2009514570236206, 'learning_rate': 8.769e-06, 'epoch': 5.4}
+{'loss': 0.0831, 'grad_norm': 1.333717703819275, 'learning_rate': 8.772e-06, 'epoch': 5.4}
+{'loss': 0.075, 'grad_norm': 1.4752955436706543, 'learning_rate': 8.775e-06, 'epoch': 5.4}
+{'loss': 0.0757, 'grad_norm': 0.9960635900497437, 'learning_rate': 8.778000000000001e-06, 'epoch': 5.4}
+{'loss': 0.0787, 'grad_norm': 0.7506101131439209, 'learning_rate': 8.781000000000001e-06, 'epoch': 5.41}
+{'loss': 0.0586, 'grad_norm': 0.7151127457618713, 'learning_rate': 8.784000000000001e-06, 'epoch': 5.41}
+{'loss': 0.072, 'grad_norm': 0.9094399213790894, 'learning_rate': 8.787e-06, 'epoch': 5.41}
+{'loss': 0.0861, 'grad_norm': 0.6951301097869873, 'learning_rate': 8.79e-06, 'epoch': 5.41}
+{'loss': 0.0524, 'grad_norm': 0.6631410717964172, 'learning_rate': 8.793e-06, 'epoch': 5.41}
+{'loss': 0.0517, 'grad_norm': 0.6533665060997009, 'learning_rate': 8.796e-06, 'epoch': 5.42}
+{'loss': 0.0591, 'grad_norm': 0.8334203362464905, 'learning_rate': 8.799e-06, 'epoch': 5.42}
+{'loss': 0.061, 'grad_norm': 0.786499559879303, 'learning_rate': 8.802e-06, 'epoch': 5.42}
+{'loss': 0.076, 'grad_norm': 0.8949714303016663, 'learning_rate': 8.805e-06, 'epoch': 5.42}
+{'loss': 0.0617, 'grad_norm': 0.8435794711112976, 'learning_rate': 8.808000000000001e-06, 'epoch': 5.42}
+{'loss': 0.0463, 'grad_norm': 0.7329889535903931, 'learning_rate': 8.811000000000001e-06, 'epoch': 5.42}
+{'loss': 0.0467, 'grad_norm': 0.694934070110321, 'learning_rate': 8.814e-06, 'epoch': 5.43}
+{'loss': 0.0664, 'grad_norm': 0.8145605325698853, 'learning_rate': 8.817e-06, 'epoch': 5.43}
+{'loss': 0.0718, 'grad_norm': 0.9637972712516785, 'learning_rate': 8.82e-06, 'epoch': 5.43}
+{'loss': 0.0524, 'grad_norm': 0.6921423673629761, 'learning_rate': 8.823e-06, 'epoch': 5.43}
+{'loss': 0.0479, 'grad_norm': 0.7768904566764832, 'learning_rate': 8.826000000000002e-06, 'epoch': 5.43}
+{'loss': 0.0358, 'grad_norm': 0.941554069519043, 'learning_rate': 8.829e-06, 'epoch': 5.44}
+{'loss': 0.0757, 'grad_norm': 1.102005124092102, 'learning_rate': 8.832e-06, 'epoch': 5.44}
+{'loss': 0.0408, 'grad_norm': 1.0594245195388794, 'learning_rate': 8.835e-06, 'epoch': 5.44}
+{'loss': 0.0511, 'grad_norm': 0.686547577381134, 'learning_rate': 8.837999999999999e-06, 'epoch': 5.44}
+{'loss': 0.0484, 'grad_norm': 0.8735717535018921, 'learning_rate': 8.841e-06, 'epoch': 5.44}
+{'loss': 0.0892, 'grad_norm': 0.9363495707511902, 'learning_rate': 8.844e-06, 'epoch': 5.45}
+{'loss': 0.0466, 'grad_norm': 0.9038994908332825, 'learning_rate': 8.847e-06, 'epoch': 5.45}
+{'loss': 0.0843, 'grad_norm': 1.1139678955078125, 'learning_rate': 8.85e-06, 'epoch': 5.45}
+{'loss': 0.0634, 'grad_norm': 1.3504257202148438, 'learning_rate': 8.853e-06, 'epoch': 5.45}
+{'loss': 0.0557, 'grad_norm': 0.7875360250473022, 'learning_rate': 8.856000000000001e-06, 'epoch': 5.45}
+{'loss': 0.0516, 'grad_norm': 1.0293179750442505, 'learning_rate': 8.859000000000001e-06, 'epoch': 5.45}
+{'loss': 0.0404, 'grad_norm': 1.1746110916137695, 'learning_rate': 8.862000000000001e-06, 'epoch': 5.46}
+{'loss': 0.0412, 'grad_norm': 0.681563138961792, 'learning_rate': 8.864999999999999e-06, 'epoch': 5.46}
+{'loss': 0.0845, 'grad_norm': 1.1411263942718506, 'learning_rate': 8.867999999999999e-06, 'epoch': 5.46}
+{'loss': 0.1214, 'grad_norm': 1.3232712745666504, 'learning_rate': 8.871e-06, 'epoch': 5.46}
+{'loss': 0.4566, 'grad_norm': 1.824684739112854, 'learning_rate': 8.874e-06, 'epoch': 5.46}
+{'loss': 0.4121, 'grad_norm': 1.305968165397644, 'learning_rate': 8.877e-06, 'epoch': 5.47}
+{'loss': 0.252, 'grad_norm': 1.9621754884719849, 'learning_rate': 8.88e-06, 'epoch': 5.47}
+{'loss': 0.306, 'grad_norm': 1.6577662229537964, 'learning_rate': 8.883e-06, 'epoch': 5.47}
+{'loss': 0.2434, 'grad_norm': 1.061056137084961, 'learning_rate': 8.886000000000001e-06, 'epoch': 5.47}
+  3%|▎         | 2966/100000 [1:37:39<107:53:30,  4.00s/it]  3%|▎         | 2967/100000 [1:37:42<100:14:30,  3.72s/it]                                                             3%|▎         | 2967/100000 [1:37:42<100:14:30,  3.72s/it]  3%|▎         | 2968/100000 [1:37:45<92:45:11,  3.44s/it]                                                             3%|▎         | 2968/100000 [1:37:45<92:45:11,  3.44s/it]  3%|▎         | 2969/100000 [1:37:47<85:51:56,  3.19s/it]                                                            3%|▎         | 2969/100000 [1:37:47<85:51:56,  3.19s/it]  3%|▎         | 2970/100000 [1:37:50<79:36:19,  2.95s/it]                                                            3%|▎         | 2970/100000 [1:37:50<79:36:19,  2.95s/it]  3%|▎         | 2971/100000 [1:37:52<73:55:37,  2.74s/it]                                                            3%|▎         | 2971/100000 [1:37:52<73:55:37,  2.74s/it]  3%|▎         | 2972/100000 [1:37:54<68:38:31,  2.55s/it]                                                            3%|▎         | 2972/100000 [1:37:54<68:38:31,  2.55s/it]  3%|▎         | 2973/100000 [1:37:56<63:43:28,  2.36s/it]                                                            3%|▎         | 2973/100000 [1:37:56<63:43:28,  2.36s/it]  3%|▎         | 2974/100000 [1:37:58<59:12:24,  2.20s/it]                                                            3%|▎         | 2974/100000 [1:37:58<59:12:24,  2.20s/it]  3%|▎         | 2975/100000 [1:38:00<55:30:50,  2.06s/it]                                                            3%|▎         | 2975/100000 [1:38:00<55:30:50,  2.06s/it]  3%|▎         | 2976/100000 [1:38:01<52:00:59,  1.93s/it]                                                            3%|▎         | 2976/100000 [1:38:01<52:00:59,  1.93s/it]  3%|▎         | 2977/100000 [1:38:03<49:31:42,  1.84s/it]                                                            3%|▎         | 2977/100000 [1:38:03<49:31:42,  1.84s/it]  3%|▎         | 2978/100000 [1:38:05<47:26:57,  1.76s/it]                                                            3%|▎         | 2978/100000 [1:38:05<47:26:57,  1.76s/it]  3%|▎         | 2979/100000 [1:38:06<45:55:32,  1.70s/it]                                                            3%|▎         | 2979/100000 [1:38:06<45:55:32,  1.70s/it]  3%|▎         | 2980/100000 [1:38:08<43:47:37,  1.63s/it]                                                            3%|▎         | 2980/100000 [1:38:08<43:47:37,  1.63s/it]  3%|▎         | 2981/100000 [1:38:09<42:00:13,  1.56s/it]                                                            3%|▎         | 2981/100000 [1:38:09<42:00:13,  1.56s/it]  3%|▎         | 2982/100000 [1:38:10<40:58:49,  1.52s/it]                                                            3%|▎         | 2982/100000 [1:38:10<40:58:49,  1.52s/it]  3%|▎         | 2983/100000 [1:38:12<40:05:35,  1.49s/it]                                                            3%|▎         | 2983/100000 [1:38:12<40:05:35,  1.49s/it]  3%|▎         | 2984/100000 [1:38:13<39:08:46,  1.45s/it]                                                            3%|▎         | 2984/100000 [1:38:13<39:08:46,  1.45s/it]  3%|▎         | 2985/100000 [1:38:14<38:21:00,  1.42s/it]                                                            3%|▎         | 2985/100000 [1:38:15<38:21:00,  1.42s/it]  3%|▎         | 2986/100000 [1:38:16<37:39:28,  1.40s/it]                                                            3%|▎         | 2986/100000 [1:38:16<37:39:28,  1.40s/it]  3%|▎         | 2987/100000 [1:38:17<37:18:14,  1.38s/it]                                                            3%|▎         | 2987/100000 [1:38:17<37:18:14,  1.38s/it]  3%|▎         | 2988/100000 [1:38:18<36:17:56,  1.35s/it]                                                            3%|▎         | 2988/100000 [1:38:18<36:17:56,  1.35s/it]  3%|▎         | 2989/100000 [1:38:20<35:46:35,  1.33s/it]                                                            3%|▎         | 2989/100000 [1:38:20<35:46:35,  1.33s/it]  3%|▎         | 2990/100000 [1:38:21<35:03:45,  1.30s/it]                                                            3%|▎         | 2990/100000 [1:38:21<35:03:45,  1.30s/it]  3%|▎         | 2991/100000 [1:38:22<34:41:26,  1.29s/it]                                                            3%|▎         | 2991/100000 [1:38:22<34:41:26,  1.29s/it]  3%|▎         | 2992/100000 [1:38:23<34:25:59,  1.28s/it]                                                            3%|▎         | 2992/100000 [1:38:23<34:25:59,  1.28s/it]  3%|▎         | 2993/100000 [1:38:25<34:05:00,  1.26s/it]                                                            3%|▎         | 2993/100000 [1:38:25<34:05:00,  1.26s/it]  3%|▎         | 2994/100000 [1:38:26<33:04:57,  1.23s/it]                                                            3%|▎         | 2994/100000 [1:38:26<33:04:57,  1.23s/it]  3%|▎         | 2995/100000 [1:38:27<32:36:42,  1.21s/it]                                                            3%|▎         | 2995/100000 [1:38:27<32:36:42,  1.21s/it]  3%|▎         | 2996/100000 [1:38:28<32:09:32,  1.19s/it]                                                            3%|▎         | 2996/100000 [1:38:28<32:09:32,  1.19s/it]  3%|▎         | 2997/100000 [1:38:29<31:39:11,  1.17s/it]                                                            3%|▎         | 2997/100000 [1:38:29<31:39:11,  1.17s/it]  3%|▎         | 2998/100000 [1:38:30<31:13:37,  1.16s/it]                                                            3%|▎         | 2998/100000 [1:38:30<31:13:37,  1.16s/it]  3%|▎         | 2999/100000 [1:38:32<30:37:14,  1.14s/it]                                                            3%|▎         | 2999/100000 [1:38:32<30:37:14,  1.14s/it]  3%|▎         | 3000/100000 [1:38:33<30:10:02,  1.12s/it]                                                            3%|▎         | 3000/100000 [1:38:33<30:10:02,  1.12s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.2658, 'grad_norm': 1.2487244606018066, 'learning_rate': 8.889e-06, 'epoch': 5.47}
+{'loss': 0.2689, 'grad_norm': 1.0350834131240845, 'learning_rate': 8.892e-06, 'epoch': 5.47}
+{'loss': 0.1559, 'grad_norm': 0.811021089553833, 'learning_rate': 8.895e-06, 'epoch': 5.48}
+{'loss': 0.3147, 'grad_norm': 0.9796880483627319, 'learning_rate': 8.898e-06, 'epoch': 5.48}
+{'loss': 0.1979, 'grad_norm': 1.0987402200698853, 'learning_rate': 8.901e-06, 'epoch': 5.48}
+{'loss': 0.1935, 'grad_norm': 1.0269370079040527, 'learning_rate': 8.904e-06, 'epoch': 5.48}
+{'loss': 0.1526, 'grad_norm': 0.9793119430541992, 'learning_rate': 8.907e-06, 'epoch': 5.48}
+{'loss': 0.1513, 'grad_norm': 0.7819326519966125, 'learning_rate': 8.91e-06, 'epoch': 5.49}
+{'loss': 0.1285, 'grad_norm': 0.9465290307998657, 'learning_rate': 8.913e-06, 'epoch': 5.49}
+{'loss': 0.1069, 'grad_norm': 0.9836941957473755, 'learning_rate': 8.916e-06, 'epoch': 5.49}
+{'loss': 0.1254, 'grad_norm': 0.9329361915588379, 'learning_rate': 8.919e-06, 'epoch': 5.49}
+{'loss': 0.107, 'grad_norm': 1.0424612760543823, 'learning_rate': 8.922e-06, 'epoch': 5.49}
+{'loss': 0.0687, 'grad_norm': 1.5464701652526855, 'learning_rate': 8.925e-06, 'epoch': 5.49}
+{'loss': 0.0608, 'grad_norm': 0.681675136089325, 'learning_rate': 8.928e-06, 'epoch': 5.5}
+{'loss': 0.1181, 'grad_norm': 1.3586539030075073, 'learning_rate': 8.931000000000001e-06, 'epoch': 5.5}
+{'loss': 0.0602, 'grad_norm': 1.1351392269134521, 'learning_rate': 8.934000000000001e-06, 'epoch': 5.5}
+{'loss': 0.098, 'grad_norm': 0.9219081401824951, 'learning_rate': 8.937000000000001e-06, 'epoch': 5.5}
+{'loss': 0.0701, 'grad_norm': 1.2950011491775513, 'learning_rate': 8.939999999999999e-06, 'epoch': 5.5}
+{'loss': 0.0474, 'grad_norm': 0.7642313838005066, 'learning_rate': 8.942999999999999e-06, 'epoch': 5.51}
+{'loss': 0.0863, 'grad_norm': 1.5005654096603394, 'learning_rate': 8.946e-06, 'epoch': 5.51}
+{'loss': 0.0736, 'grad_norm': 0.8310704231262207, 'learning_rate': 8.949e-06, 'epoch': 5.51}
+{'loss': 0.0833, 'grad_norm': 0.8422238826751709, 'learning_rate': 8.952e-06, 'epoch': 5.51}
+{'loss': 0.0531, 'grad_norm': 0.650684654712677, 'learning_rate': 8.955e-06, 'epoch': 5.51}
+{'loss': 0.0594, 'grad_norm': 0.9870924949645996, 'learning_rate': 8.958e-06, 'epoch': 5.52}
+{'loss': 0.0559, 'grad_norm': 1.1698861122131348, 'learning_rate': 8.961000000000001e-06, 'epoch': 5.52}
+{'loss': 0.0697, 'grad_norm': 0.7865745425224304, 'learning_rate': 8.964000000000001e-06, 'epoch': 5.52}
+{'loss': 0.0656, 'grad_norm': 1.2937891483306885, 'learning_rate': 8.967e-06, 'epoch': 5.52}
+{'loss': 0.063, 'grad_norm': 1.5481828451156616, 'learning_rate': 8.97e-06, 'epoch': 5.52}
+{'loss': 0.0693, 'grad_norm': 1.1445446014404297, 'learning_rate': 8.973e-06, 'epoch': 5.52}
+{'loss': 0.0556, 'grad_norm': 1.5518786907196045, 'learning_rate': 8.976e-06, 'epoch': 5.53}
+{'loss': 0.0341, 'grad_norm': 0.5828351974487305, 'learning_rate': 8.979e-06, 'epoch': 5.53}
+{'loss': 0.0552, 'grad_norm': 0.7857339978218079, 'learning_rate': 8.982e-06, 'epoch': 5.53}
+{'loss': 0.0654, 'grad_norm': 0.8015343546867371, 'learning_rate': 8.985e-06, 'epoch': 5.53}
+{'loss': 0.0526, 'grad_norm': 1.580649495124817, 'learning_rate': 8.988e-06, 'epoch': 5.53}
+{'loss': 0.0604, 'grad_norm': 1.2285726070404053, 'learning_rate': 8.991e-06, 'epoch': 5.54}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.77it/s][A
+ 30%|███       | 3/10 [00:02<00:05,  1.30it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.48it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.13s/it][A
+ 60%|██████    | 6/10 [00:05<00:03,  1.08it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.08s/it][A
+ 80%|████████  | 8/10 [00:06<00:01,  1.11it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.21s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.03it/s][A                                                          
+                                               [A  3%|▎         | 3000/100000 [1:39:06<30:10:02,  1.12s/it]
+100%|██████████| 10/10 [00:10<00:00,  1.03it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-3000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-3000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-3000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-3000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-3000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-3000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-3000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-1000] due to args.save_total_limit
+  3%|▎         | 3001/100000 [1:39:21<409:07:44, 15.18s/it]                                                             3%|▎         | 3001/100000 [1:39:21<409:07:44, 15.18s/it]  3%|▎         | 3002/100000 [1:39:22<295:08:35, 10.95s/it]                                                             3%|▎         | 3002/100000 [1:39:22<295:08:35, 10.95s/it]  3%|▎         | 3003/100000 [1:39:23<215:07:27,  7.98s/it]                                                             3%|▎         | 3003/100000 [1:39:23<215:07:27,  7.98s/it]  3%|▎         | 3004/100000 [1:39:24<159:19:35,  5.91s/it]                                                             3%|▎         | 3004/100000 [1:39:24<159:19:35,  5.91s/it]  3%|▎         | 3005/100000 [1:39:25<119:48:50,  4.45s/it]                                                             3%|▎         | 3005/100000 [1:39:25<119:48:50,  4.45s/it]  3%|▎         | 3006/100000 [1:39:26<91:57:09,  3.41s/it]                                                             3%|▎         | 3006/100000 [1:39:26<91:57:09,  3.41s/it]  3%|▎         | 3007/100000 [1:39:27<72:01:06,  2.67s/it]                                                            3%|▎         | 3007/100000 [1:39:27<72:01:06,  2.67s/it]  3%|▎         | 3008/100000 [1:39:28<57:43:44,  2.14s/it]                                                            3%|▎         | 3008/100000 [1:39:28<57:43:44,  2.14s/it]  3%|▎         | 3009/100000 [1:39:29<47:17:59,  1.76s/it]                                                            3%|▎         | 3009/100000 [1:39:29<47:17:59,  1.76s/it]  3%|▎         | 3010/100000 [1:39:29<39:58:44,  1.48s/it]                                                            3%|▎         | 3010/100000 [1:39:29<39:58:44,  1.48s/it]  3%|▎         | 3011/100000 [1:39:41<125:02:35,  4.64s/it]                                                             3%|▎         | 3011/100000 [1:39:41<125:02:35,  4.64s/it]  3%|▎         | 3012/100000 [1:39:47<134:30:29,  4.99s/it]                                                             3%|▎         | 3012/100000 [1:39:47<134:30:29,  4.99s/it]  3%|▎         | 3013/100000 [1:39:52<132:25:03,  4.92s/it]                                                             3%|▎         | 3013/100000 [1:39:52<132:25:03,  4.92s/it]  3%|▎         | 3014/100000 [1:39:56<125:33:14,  4.66s/it]                                                             3%|▎         | 3014/100000 [1:39:56<125:33:14,  4.66s/it]  3%|▎         | 3015/100000 [1:40:00<117:03:25,  4.35s/it]                                                             3%|▎         | 3015/100000 [1:40:00<117:03:25,  4.35s/it]  3%|▎         | 3016/100000 [1:40:03<107:44:09,  4.00s/it]                                                             3%|▎         | 3016/100000 [1:40:03<107:44:09,  4.00s/it]  3%|▎         | 3017/100000 [1:40:06<98:28:23,  3.66s/it]                                                             3%|▎         | 3017/100000 [1:40:06<98:28:23,  3.66s/it]  3%|▎         | 3018/100000 [1:40:08<90:39:36,  3.37s/it]                                                            3%|▎         | 3018/100000 [1:40:08<90:39:36,  3.37s/it]  3%|▎         | 3019/100000 [1:40:11<83:53:12,  3.11s/it]                                                            3%|▎         | 3019/100000 [1:40:11<83:53:12,  3.11s/it]  3%|▎         | 3020/100000 [1:40:13<77:58:59,  2.89s/it]                                                            3%|▎         | 3020/100000 [1:40:13<77:58:59,  2.89s/it]  3%|▎         | 3021/100000 [1:40:15<72:18:00,  2.68s/it]                                                            3%|▎         | 3021/100000 [1:40:15<72:18:00,  2.68s/it]  3%|▎         | 3022/100000 [1:40:17<66:45:18,  2.48s/it]                                                            3%|▎         | 3022/100000 [1:40:17<66:45:18,  2.48s/it]  3%|▎         | 3023/100000 [1:40:19<62:03:37,  2.30s/it]                                                            3%|▎         | 3023/100000 [1:40:19<62:03:37,  2.30s/it]  3%|▎         | 3024/100000 [1:40:21<58:25:46,  2.17s/it]                                                            3%|▎         | 3024/100000 [1:40:21<58:25:46,  2.17s/it]  3%|▎         | 3025/100000 [1:40:23<54:21:25,  2.02s/it]                                                            3%|▎         | 3025/100000 [1:40:23<54:21:25,  2.02s/it]  3%|▎         | 3026/100000 [1:40:24<50:57:47,  1.89s/it]                                                            3%|▎         | 3026/100000 [1:40:24<50:57:47,  1.89s/it]  3%|▎         | 3027/100000 [1:40:26<48:34:35,  1.80s/it]                                                            3%|▎         | 3027/100000 [1:40:26<48:34:35,  1.80s/it]  3%|▎         | 3028/100000 [1:40:28<46:50:09,  1.74s/it]                                                            3%|▎         | 3028/100000 [1:40:28<46:50:09,  1.74s/it]  3%|▎         | 3029/100000 [1:40:29<44:42:52,  1.66s/it]                                                            3%|▎         | 3029/100000 [1:40:29<44:42:52,  1.66s/it]  3%|▎         | 3030/100000 [1:40:31<43:10:38,  1.60s/it]                                                            3%|▎         | 3030/100000 [1:40:31<43:10:38,  1.60s/it]  3%|▎         | 3031/100000 [1:40:32<41:56:53,  1.56s/it]                                                            3%|▎         | 3031/100000 [1:40:32<41:56:53,  1.56s/it]  3%|▎         | 3032/100000 [1:40:33<40:52:30,  1.52s/it]                                                            3%|▎         | 3032/100000 [1:40:33<40:52:30,  1.52s/it]  3%|▎         | 3033/100000 [1:40:35<39:43:58,  1.48s/it]                                                            3%|▎         | 3033/100000 [1:40:35<39:43:58,  1.48s/it]  3%|▎         | 3034/100000 [1:40:36<39:04:54,  1.45s/it]                                                            3%|▎         | 3034/100000 [1:40:36<39:04:54,  1.45s/it]  3%|▎         | 3035/100000 [1:40:38<38:10:54,  1.42s/it]                                                            3%|▎         | 3035/100000 [1:40:38<38:10:54,  1.42s/it]  3%|▎         | 3036/100000 [1:40:39<37:34:35,  1.40s/it]                                                            3%|▎         | 3036/100000 [1:40:39<37:34:35,  1.40s/it]  3%|▎         | 3037/100000 [1:40:40<36:53:14,  1.37s/it]                                                            3%|▎         | 3037/100000 [1:40:40<36:53:14,  1.37s/it]  3%|▎         | 3038/100000 [1:40:42<36:24:24,  1.35s/it]                                                            3%|▎         | 3038/100000 [1:40:42<36:24:24,  1.35s/it]  3%|▎         | 3039/100000 [1:40:43<35:32:15,  1.32s/it]                                                            3%|▎         | 3039/100000 [1:40:43<35:32:15,  1.32s/it]  3%|▎         | 3040/100000 [1:40:44<35:06:56,  1.30s/it]                                                            3%|▎         | 3040/100000 [1:40:44<35:06:56,  1.30s/it]  3%|▎         | 3041/100000 [1:40:45<34:46:47,  1.29s/it]                                                            3%|▎         | 3041/100000 [1:40:45<34:46:47,  1.29s/it]  3%|▎         | 3042/100000 [1:40:47<34:15:54,  1.27s/it]                                                            3%|▎         | 3042/100000 [1:40:47<34:15:54,  1.27s/it]  3%|▎         | 3043/100000 [1:40:48<33:59:36,  1.26s/it]                                                            3%|▎         | 3043/100000 [1:40:48<33:59:36,  1.26s/it]  3%|▎         | 3044/100000 [1:40:49<33:20:10,  1.24s/it]                                                            3%|▎         | 3044/100000 [1:40:49<33:20:10,  1.24s/it]  3%|▎         | 3045/100000 [1:40:50<32:52:18,  1.22s/it]                                                            3%|▎         | 3045/100000 [1:40:50<32:52:18,  1.22s/it]  3%|▎         | 3046/100000 [1:40:51<32:23:04,  1.20s/it]                                                            3%|▎         | 3046/100000 [1:40:51<32:23:04,  1.20s/it]  3%|▎         | 3047/100000 [1:40:52<31:48:32,  1.18s/it]                                                            3%|▎         | 3047/100000 [1:40:52<31:48:32,  1.18s/it]  3%|▎         | 3048/100000 [1:40:54<31:37:30,  1.17s/it]                                                            3%|▎         | 3048/100000 [1:40:54<31:37:30,  1.17s/it]  3%|▎         | 3049/100000 [1:40:55<31:11:35,  1.16s/it]                                                            3%|▎         | 3049/100000 [1:40:55<31:11:35,  1.16s/it]  3%|▎         | 3050/100000 [1:40:56<30:47:19,  1.14s/it]                                                            3%|▎         | 3050/100000 [1:40:56<30:47:19,  1.14s/it]  3%|▎         | 3051/100000 [1:40:57<31:38:47,  1.18s/it]                                                            3%|▎         | 3051/100000 [1:40:57<31:38:47,  1.18s/it]  3%|▎         | 3052/100000 [1:40:58<30:39:52,  1.14s/it]                                                            3%|▎         | 3052/100000 [1:40:58<30:39:52,  1.14s/it]  3%|▎         | 3053/100000 [1:40:59<29:45:01,  1.10s/it]                                                            3%|▎         | 3053/100000 [1:40:59<29:45:01,  1.10s/it]  3%|▎         | 3054/100000 [1:41:00<29:03:53,  1.08s/it]                                                            3%|▎         | 3054/100000 [1:41:00<29:03:53,  1.08s/it]  3%|▎         | 3055/100000 [1:41:01<28:06:00,  1.04s/it]                                                            3%|▎         | 3055/100000 [1:41:01<28:06:00,  1.04s/it]  3%|▎         | 3056/100000 [1:41:02<27:27:01,  1.02s/it]                                                            3%|▎         | 3056/100000 [1:41:02<27:27:01,  1.02s/it]  3%|▎         | 3057/100000 [1:41:03<26:48:00,  1.00it/s]                                                            3%|▎         | 3057/100000 [1:41:03<26:48:00,  1.00it/s]  3%|▎         | 3058/100000 [1:41:04<26:28:21,  1.02it/s]                                                            3%|▎         | 3058/100000 [1:41:04<26:28:21,  1.02it/s]  3%|▎         | 3059/100000 [1:41:05<26:35:57,  1.01it/s]                                                            3%|▎         | 3059/100000 [1:41:05<26:35:57,  1.01it/s]  3%|▎         | 3060/100000 [1:41:06<25:44:17,  1.05it/s]                                                            3%|▎         | 3060/100000 [1:41:06<25:44:17,  1.05it/s]  3%|▎         | 3061/100000 [1:41:16<101:14:54,  3.76s/it]                                                             3%|▎         | 3061/100000 [1:41:16<101:14:54,  3.76s/it]  3%|▎         | 3062/100000 [1:41:22<114:27:22,  4.25s/it]                                                             3%|▎         | 3062/100000 [1:41:22<114:27:22,  4.25s/it]  3%|▎         | 3063/100000 [1:41:26<117:38:29,  4.37s/it]                                                             3%|▎         | 3063/100000 [1:41:26<117:38:29,  4.37s/it]  3%|▎         | 3064/100000 [1:41:30<114:16:53,  4.24s/it]                                                             3%|▎         | 3064/100000 [1:41:30<114:16:53,  4.24s/it]  3%|▎         | 3065/100000 [1:41:34<108:23:11,  4.03s/it]                                                             3%|▎         | 3065/100000 [1:41:34<108:23:11,  4.03s/it]  3%|▎         | 3066/100000 [1:41:37<101:54:13,  3.78s/it]                                                             3%|���         | 3066/100000 [1:41:37<101:54:13,  3.78s/it]  3%|▎         | 3067/100000 [1:41:40<95:55:43,  3.56s/it]                                                             3%|▎         | 3067/100000 [1:41:40<95:55:43,  3.56s/it]  3%|▎         | 3068/100000 [1:41:43<88:54:31,  3.30s/it]                                                            3%|▎         | 3068/100000 [1:41:43<88:54:31,  3.30s/it]  3%|▎         | 3069/100000 [1:41:45<82:59:53,  3.08s/it]                                                            3%|▎         | 3069/100000 [1:41:45<82:59:53,  3.08s/it]  3%|▎         | 3070/100000 [1:41:48<77:22:40,  2.87s/it]                                                            3%|▎         | 3070/100000 [1:41:48<77:22:40,  2.87s/it]  3%|▎         | 3071/100000 [1:41:50<71:56:06,  2.67s/it]                                                            3%|▎         | 3071/100000 [1:41:50<71:56:06,  2.67s/it]  3%|▎         | 3072/100000 [1:41:52<68:19:38,  2.54s/it]                                                            3%|▎         | 3072/100000 [1:41:52<68:19:38,  2.54s/it]  3%|▎         | 3073/100000 [1:41:54<63:44:27,  2.37s/it]                                                            3%|▎         | 3073/100000 [1:41:54<63:44:27,  2.37s/it]  3%|▎         | 3074/100000 [1:41:56<59:23:52,  2.21s/it]                                                            3%|▎         | 3074/100000 [1:41:56<59:23:52,  2.21s/it]  3%|▎         | 3075/100000 [1:41:58<55:11:14,  2.05s/it]                                                            3%|▎         | 3075/100000 [1:41:58<55:11:14,  2.05s/it]  3%|▎         | 3076/100000 [1:41:59<52:11:48,  1.94s/it]                                                            3%|▎         | 3076/100000 [1:41:59<52:11:48,  1.94s/it]  3%|▎         | 3077/100000 [1:42:01<49:55:23,  1.85s/it]                                                            3%|▎         | 3077/100000 [1:42:01<49:55:23,  1.85s/it]  3%|▎         | 3078/100000 [1:42:02<47:51:13,  1.78s/it]                                                            3%|▎         | 3078/100000 [1:42:02<47:51:13,  1.78s/it]  3%|▎         | 3079/100000 [1:42:04<46:05:06,  1.71s/it]                                                            3%|▎         | 3079/100000 [1:42:04<46:05:06,  1.71s/it]  3%|▎         | 3080/100000 [1:42:06<44:17:59,  1.65s/it]                                                            3%|▎         | 3080/100000 [1:42:06<44:17:59,  1.65s/it]  3%|▎         | 3081/100000 [1:42:07<42:47:51,  1.59s/it]                                                            3%|▎         | 3081/100000 [1:42:07<42:47:51,  1.59s/it]  3%|▎         | 3082/100000 [1:42:08<41:34:50,  1.54s/it]                                                            3%|▎         | 3082/100000 [1:42:08<41:34:50,  1.54s/it]  3%|▎         | 3083/100000 [1:42:10<40:34:22,  1.51s/it]                                                            3%|▎         | 3083/100000 [1:42:10<40:34:22,  1.51s/it]  3%|▎         | 3084/100000 [1:42:11<39:33:09,  1.47s/it]                                                          {'eval_loss': 0.42114710807800293, 'eval_wer': 0.4785111281657713, 'eval_cer': 0.13466573346812868, 'eval_runtime': 16.2471, 'eval_samples_per_second': 18.711, 'eval_steps_per_second': 0.615, 'epoch': 5.54}
+{'loss': 0.0483, 'grad_norm': 2.3396427631378174, 'learning_rate': 8.994e-06, 'epoch': 5.54}
+{'loss': 0.0643, 'grad_norm': 1.1838312149047852, 'learning_rate': 8.997e-06, 'epoch': 5.54}
+{'loss': 0.0414, 'grad_norm': 1.489532470703125, 'learning_rate': 9e-06, 'epoch': 5.54}
+{'loss': 0.056, 'grad_norm': 0.9960378408432007, 'learning_rate': 9.003e-06, 'epoch': 5.54}
+{'loss': 0.0585, 'grad_norm': 1.023935079574585, 'learning_rate': 9.006000000000002e-06, 'epoch': 5.54}
+{'loss': 0.0695, 'grad_norm': 1.3380311727523804, 'learning_rate': 9.009000000000001e-06, 'epoch': 5.55}
+{'loss': 0.0856, 'grad_norm': 1.2113758325576782, 'learning_rate': 9.012e-06, 'epoch': 5.55}
+{'loss': 0.0752, 'grad_norm': 1.1438714265823364, 'learning_rate': 9.015e-06, 'epoch': 5.55}
+{'loss': 0.0974, 'grad_norm': 1.388740062713623, 'learning_rate': 9.017999999999999e-06, 'epoch': 5.55}
+{'loss': 0.1307, 'grad_norm': 1.1810368299484253, 'learning_rate': 9.021e-06, 'epoch': 5.55}
+{'loss': 0.5096, 'grad_norm': 3.170240640640259, 'learning_rate': 9.024e-06, 'epoch': 5.56}
+{'loss': 0.3023, 'grad_norm': 1.2501941919326782, 'learning_rate': 9.027e-06, 'epoch': 5.56}
+{'loss': 0.3017, 'grad_norm': 1.2062792778015137, 'learning_rate': 9.03e-06, 'epoch': 5.56}
+{'loss': 0.2733, 'grad_norm': 0.9803247451782227, 'learning_rate': 9.033e-06, 'epoch': 5.56}
+{'loss': 0.2386, 'grad_norm': 0.9785440564155579, 'learning_rate': 9.036000000000001e-06, 'epoch': 5.56}
+{'loss': 0.2437, 'grad_norm': 2.5354113578796387, 'learning_rate': 9.039000000000001e-06, 'epoch': 5.57}
+{'loss': 0.2878, 'grad_norm': 1.2615872621536255, 'learning_rate': 9.042e-06, 'epoch': 5.57}
+{'loss': 0.1853, 'grad_norm': 0.8574416637420654, 'learning_rate': 9.045e-06, 'epoch': 5.57}
+{'loss': 0.2943, 'grad_norm': 1.2679378986358643, 'learning_rate': 9.048e-06, 'epoch': 5.57}
+{'loss': 0.2309, 'grad_norm': 1.3468197584152222, 'learning_rate': 9.051e-06, 'epoch': 5.57}
+{'loss': 0.1631, 'grad_norm': 0.8612178564071655, 'learning_rate': 9.054e-06, 'epoch': 5.57}
+{'loss': 0.2011, 'grad_norm': 5.9170989990234375, 'learning_rate': 9.057e-06, 'epoch': 5.58}
+{'loss': 0.2202, 'grad_norm': 1.277970552444458, 'learning_rate': 9.06e-06, 'epoch': 5.58}
+{'loss': 0.069, 'grad_norm': 0.7107061147689819, 'learning_rate': 9.063e-06, 'epoch': 5.58}
+{'loss': 0.0869, 'grad_norm': 0.9380223751068115, 'learning_rate': 9.066000000000001e-06, 'epoch': 5.58}
+{'loss': 0.0685, 'grad_norm': 1.3844622373580933, 'learning_rate': 9.069e-06, 'epoch': 5.58}
+{'loss': 0.056, 'grad_norm': 0.7406550645828247, 'learning_rate': 9.072e-06, 'epoch': 5.59}
+{'loss': 0.1099, 'grad_norm': 1.171863317489624, 'learning_rate': 9.075e-06, 'epoch': 5.59}
+{'loss': 0.0639, 'grad_norm': 0.9505486488342285, 'learning_rate': 9.078e-06, 'epoch': 5.59}
+{'loss': 0.1375, 'grad_norm': 0.8913169503211975, 'learning_rate': 9.081000000000002e-06, 'epoch': 5.59}
+{'loss': 0.0891, 'grad_norm': 1.2923994064331055, 'learning_rate': 9.084000000000001e-06, 'epoch': 5.59}
+{'loss': 0.0706, 'grad_norm': 1.3994338512420654, 'learning_rate': 9.087e-06, 'epoch': 5.59}
+{'loss': 0.0825, 'grad_norm': 0.9740058779716492, 'learning_rate': 9.09e-06, 'epoch': 5.6}
+{'loss': 0.0527, 'grad_norm': 0.6192094683647156, 'learning_rate': 9.093e-06, 'epoch': 5.6}
+{'loss': 0.059, 'grad_norm': 0.9898630976676941, 'learning_rate': 9.096e-06, 'epoch': 5.6}
+{'loss': 0.0926, 'grad_norm': 0.9869064688682556, 'learning_rate': 9.099e-06, 'epoch': 5.6}
+{'loss': 0.0603, 'grad_norm': 0.775285542011261, 'learning_rate': 9.102e-06, 'epoch': 5.6}
+{'loss': 0.0603, 'grad_norm': 1.0720051527023315, 'learning_rate': 9.105e-06, 'epoch': 5.61}
+{'loss': 0.0702, 'grad_norm': 2.360222101211548, 'learning_rate': 9.108e-06, 'epoch': 5.61}
+{'loss': 0.0443, 'grad_norm': 0.9469456672668457, 'learning_rate': 9.111000000000001e-06, 'epoch': 5.61}
+{'loss': 0.1102, 'grad_norm': 1.5419272184371948, 'learning_rate': 9.114000000000001e-06, 'epoch': 5.61}
+{'loss': 0.0591, 'grad_norm': 0.6679257154464722, 'learning_rate': 9.117000000000001e-06, 'epoch': 5.61}
+{'loss': 0.0735, 'grad_norm': 0.9657368063926697, 'learning_rate': 9.12e-06, 'epoch': 5.61}
+{'loss': 0.0496, 'grad_norm': 0.9724937677383423, 'learning_rate': 9.122999999999999e-06, 'epoch': 5.62}
+{'loss': 0.0722, 'grad_norm': 1.4401867389678955, 'learning_rate': 9.126e-06, 'epoch': 5.62}
+{'loss': 0.0656, 'grad_norm': 1.0665438175201416, 'learning_rate': 9.129e-06, 'epoch': 5.62}
+{'loss': 0.0366, 'grad_norm': 0.6612203121185303, 'learning_rate': 9.132e-06, 'epoch': 5.62}
+{'loss': 0.0824, 'grad_norm': 1.3835797309875488, 'learning_rate': 9.135e-06, 'epoch': 5.62}
+{'loss': 0.0671, 'grad_norm': 0.8385351896286011, 'learning_rate': 9.138e-06, 'epoch': 5.63}
+{'loss': 0.0547, 'grad_norm': 0.7732231020927429, 'learning_rate': 9.141000000000001e-06, 'epoch': 5.63}
+{'loss': 0.04, 'grad_norm': 0.8967553973197937, 'learning_rate': 9.144000000000001e-06, 'epoch': 5.63}
+{'loss': 0.0607, 'grad_norm': 0.8584074378013611, 'learning_rate': 9.147e-06, 'epoch': 5.63}
+{'loss': 0.052, 'grad_norm': 0.8602099418640137, 'learning_rate': 9.15e-06, 'epoch': 5.63}
+{'loss': 0.0616, 'grad_norm': 1.226857304573059, 'learning_rate': 9.153e-06, 'epoch': 5.64}
+{'loss': 0.0821, 'grad_norm': 1.038644552230835, 'learning_rate': 9.156000000000002e-06, 'epoch': 5.64}
+{'loss': 0.0758, 'grad_norm': 1.0842891931533813, 'learning_rate': 9.159e-06, 'epoch': 5.64}
+{'loss': 0.0582, 'grad_norm': 0.8205846548080444, 'learning_rate': 9.162e-06, 'epoch': 5.64}
+{'loss': 0.0614, 'grad_norm': 1.210604190826416, 'learning_rate': 9.165e-06, 'epoch': 5.64}
+{'loss': 0.0662, 'grad_norm': 0.8624764084815979, 'learning_rate': 9.168e-06, 'epoch': 5.64}
+{'loss': 0.1065, 'grad_norm': 1.716399073600769, 'learning_rate': 9.171e-06, 'epoch': 5.65}
+{'loss': 0.3817, 'grad_norm': 1.7060513496398926, 'learning_rate': 9.174e-06, 'epoch': 5.65}
+{'loss': 0.3893, 'grad_norm': 1.4844878911972046, 'learning_rate': 9.177e-06, 'epoch': 5.65}
+{'loss': 0.2969, 'grad_norm': 1.199528694152832, 'learning_rate': 9.18e-06, 'epoch': 5.65}
+{'loss': 0.2899, 'grad_norm': 1.4310998916625977, 'learning_rate': 9.183e-06, 'epoch': 5.65}
+{'loss': 0.363, 'grad_norm': 1.5166258811950684, 'learning_rate': 9.186000000000001e-06, 'epoch': 5.66}
+{'loss': 0.2383, 'grad_norm': 1.2674273252487183, 'learning_rate': 9.189000000000001e-06, 'epoch': 5.66}
+{'loss': 0.177, 'grad_norm': 1.0732433795928955, 'learning_rate': 9.192000000000001e-06, 'epoch': 5.66}
+{'loss': 0.254, 'grad_norm': 1.4909396171569824, 'learning_rate': 9.195000000000001e-06, 'epoch': 5.66}
+{'loss': 0.1878, 'grad_norm': 0.8169516324996948, 'learning_rate': 9.197999999999999e-06, 'epoch': 5.66}
+{'loss': 0.1467, 'grad_norm': 0.9201124310493469, 'learning_rate': 9.200999999999999e-06, 'epoch': 5.66}
+{'loss': 0.1529, 'grad_norm': 2.299650192260742, 'learning_rate': 9.204e-06, 'epoch': 5.67}
+{'loss': 0.1673, 'grad_norm': 1.8124525547027588, 'learning_rate': 9.207e-06, 'epoch': 5.67}
+{'loss': 0.2229, 'grad_norm': 1.476135015487671, 'learning_rate': 9.21e-06, 'epoch': 5.67}
+{'loss': 0.0952, 'grad_norm': 0.6514289379119873, 'learning_rate': 9.213e-06, 'epoch': 5.67}
+{'loss': 0.0813, 'grad_norm': 0.6251052618026733, 'learning_rate': 9.216e-06, 'epoch': 5.67}
+{'loss': 0.0616, 'grad_norm': 0.7795804738998413, 'learning_rate': 9.219000000000001e-06, 'epoch': 5.68}
+{'loss': 0.0755, 'grad_norm': 0.8727070093154907, 'learning_rate': 9.222e-06, 'epoch': 5.68}
+{'loss': 0.0533, 'grad_norm': 0.6587457656860352, 'learning_rate': 9.225e-06, 'epoch': 5.68}
+{'loss': 0.0547, 'grad_norm': 0.7225388288497925, 'learning_rate': 9.228e-06, 'epoch': 5.68}
+{'loss': 0.0504, 'grad_norm': 2.320605516433716, 'learning_rate': 9.231e-06, 'epoch': 5.68}
+{'loss': 0.0463, 'grad_norm': 1.1022893190383911, 'learning_rate': 9.234e-06, 'epoch': 5.69}
+{'loss': 0.0478, 'grad_norm': 0.8792228102684021, 'learning_rate': 9.237e-06, 'epoch': 5.69}
+{'loss': 0.0382, 'grad_norm': 0.5602882504463196, 'learning_rate': 9.24e-06, 'epoch': 5.69}
+  3%|▎         | 3084/100000 [1:42:11<39:33:09,  1.47s/it]  3%|▎         | 3085/100000 [1:42:13<38:33:13,  1.43s/it]                                                            3%|▎         | 3085/100000 [1:42:13<38:33:13,  1.43s/it]  3%|▎         | 3086/100000 [1:42:14<37:49:06,  1.40s/it]                                                            3%|▎         | 3086/100000 [1:42:14<37:49:06,  1.40s/it]  3%|▎         | 3087/100000 [1:42:15<37:17:50,  1.39s/it]                                                            3%|▎         | 3087/100000 [1:42:15<37:17:50,  1.39s/it]  3%|▎         | 3088/100000 [1:42:17<36:35:08,  1.36s/it]                                                            3%|▎         | 3088/100000 [1:42:17<36:35:08,  1.36s/it]  3%|▎         | 3089/100000 [1:42:18<36:10:21,  1.34s/it]                                                            3%|▎         | 3089/100000 [1:42:18<36:10:21,  1.34s/it]  3%|▎         | 3090/100000 [1:42:19<35:40:53,  1.33s/it]                                                            3%|▎         | 3090/100000 [1:42:19<35:40:53,  1.33s/it]  3%|▎         | 3091/100000 [1:42:20<35:10:56,  1.31s/it]                                                            3%|▎         | 3091/100000 [1:42:20<35:10:56,  1.31s/it]  3%|▎         | 3092/100000 [1:42:22<34:25:29,  1.28s/it]                                                            3%|▎         | 3092/100000 [1:42:22<34:25:29,  1.28s/it]  3%|▎         | 3093/100000 [1:42:23<34:06:17,  1.27s/it]                                                            3%|▎         | 3093/100000 [1:42:23<34:06:17,  1.27s/it]  3%|▎         | 3094/100000 [1:42:24<33:36:31,  1.25s/it]                                                            3%|▎         | 3094/100000 [1:42:24<33:36:31,  1.25s/it]  3%|▎         | 3095/100000 [1:42:25<33:02:21,  1.23s/it]                                                            3%|▎         | 3095/100000 [1:42:25<33:02:21,  1.23s/it]  3%|▎         | 3096/100000 [1:42:26<32:41:29,  1.21s/it]                                                            3%|▎         | 3096/100000 [1:42:26<32:41:29,  1.21s/it]  3%|▎         | 3097/100000 [1:42:28<31:56:52,  1.19s/it]                                                            3%|▎         | 3097/100000 [1:42:28<31:56:52,  1.19s/it]  3%|▎         | 3098/100000 [1:42:29<31:43:16,  1.18s/it]                                                            3%|▎         | 3098/100000 [1:42:29<31:43:16,  1.18s/it]  3%|▎         | 3099/100000 [1:42:30<31:13:47,  1.16s/it]                                                            3%|▎         | 3099/100000 [1:42:30<31:13:47,  1.16s/it]  3%|▎         | 3100/100000 [1:42:31<30:56:47,  1.15s/it]                                                            3%|▎         | 3100/100000 [1:42:31<30:56:47,  1.15s/it]  3%|▎         | 3101/100000 [1:42:32<30:18:46,  1.13s/it]                                                            3%|▎         | 3101/100000 [1:42:32<30:18:46,  1.13s/it]  3%|▎         | 3102/100000 [1:42:33<29:47:38,  1.11s/it]                                                            3%|▎         | 3102/100000 [1:42:33<29:47:38,  1.11s/it]  3%|▎         | 3103/100000 [1:42:34<29:04:20,  1.08s/it]                                                            3%|▎         | 3103/100000 [1:42:34<29:04:20,  1.08s/it]  3%|▎         | 3104/100000 [1:42:35<29:03:10,  1.08s/it]                                                            3%|▎         | 3104/100000 [1:42:35<29:03:10,  1.08s/it]  3%|▎         | 3105/100000 [1:42:36<28:15:55,  1.05s/it]                                                            3%|▎         | 3105/100000 [1:42:36<28:15:55,  1.05s/it]  3%|▎         | 3106/100000 [1:42:37<27:35:02,  1.02s/it]                                                            3%|▎         | 3106/100000 [1:42:37<27:35:02,  1.02s/it]  3%|▎         | 3107/100000 [1:42:38<26:59:25,  1.00s/it]                                                            3%|▎         | 3107/100000 [1:42:38<26:59:25,  1.00s/it]  3%|▎         | 3108/100000 [1:42:39<26:24:58,  1.02it/s]                                                            3%|▎         | 3108/100000 [1:42:39<26:24:58,  1.02it/s]  3%|▎         | 3109/100000 [1:42:40<25:53:38,  1.04it/s]                                                            3%|▎         | 3109/100000 [1:42:40<25:53:38,  1.04it/s]  3%|▎         | 3110/100000 [1:42:41<25:06:21,  1.07it/s]                                                            3%|▎         | 3110/100000 [1:42:41<25:06:21,  1.07it/s]  3%|▎         | 3111/100000 [1:42:53<116:42:06,  4.34s/it]                                                             3%|▎         | 3111/100000 [1:42:53<116:42:06,  4.34s/it]  3%|▎         | 3112/100000 [1:42:59<131:14:47,  4.88s/it]                                                             3%|▎         | 3112/100000 [1:42:59<131:14:47,  4.88s/it]  3%|▎         | 3113/100000 [1:43:04<131:34:35,  4.89s/it]                                                             3%|▎         | 3113/100000 [1:43:04<131:34:35,  4.89s/it]  3%|▎         | 3114/100000 [1:43:08<123:46:56,  4.60s/it]                                                             3%|▎         | 3114/100000 [1:43:08<123:46:56,  4.60s/it]  3%|▎         | 3115/100000 [1:43:12<116:28:24,  4.33s/it]                                                             3%|▎         | 3115/100000 [1:43:12<116:28:24,  4.33s/it]  3%|▎         | 3116/100000 [1:43:15<108:47:01,  4.04s/it]                                                             3%|▎         | 3116/100000 [1:43:15<108:47:01,  4.04s/it]  3%|▎         | 3117/100000 [1:43:18<99:37:42,  3.70s/it]                                                             3%|▎         | 3117/100000 [1:43:18<99:37:42,  3.70s/it]  3%|▎         | 3118/100000 [1:43:21<91:38:26,  3.41s/it]                                                            3%|▎         | 3118/100000 [1:43:21<91:38:26,  3.41s/it]  3%|▎         | 3119/100000 [1:43:23<85:22:31,  3.17s/it]                                                            3%|▎         | 3119/100000 [1:43:23<85:22:31,  3.17s/it]  3%|▎         | 3120/100000 [1:43:26<79:11:20,  2.94s/it]                                                            3%|▎         | 3120/100000 [1:43:26<79:11:20,  2.94s/it]  3%|▎         | 3121/100000 [1:43:28<73:14:44,  2.72s/it]                                                            3%|▎         | 3121/100000 [1:43:28<73:14:44,  2.72s/it]  3%|▎         | 3122/100000 [1:43:30<67:54:21,  2.52s/it]                                                            3%|▎         | 3122/100000 [1:43:30<67:54:21,  2.52s/it]  3%|▎         | 3123/100000 [1:43:32<63:21:38,  2.35s/it]                                                            3%|▎         | 3123/100000 [1:43:32<63:21:38,  2.35s/it]  3%|▎         | 3124/100000 [1:43:34<58:57:09,  2.19s/it]                                                            3%|▎         | 3124/100000 [1:43:34<58:57:09,  2.19s/it]  3%|▎         | 3125/100000 [1:43:36<55:25:53,  2.06s/it]                                                            3%|▎         | 3125/100000 [1:43:36<55:25:53,  2.06s/it]  3%|▎         | 3126/100000 [1:43:37<52:13:06,  1.94s/it]                                                            3%|▎         | 3126/100000 [1:43:37<52:13:06,  1.94s/it]  3%|▎         | 3127/100000 [1:43:39<49:51:08,  1.85s/it]                                                            3%|▎         | 3127/100000 [1:43:39<49:51:08,  1.85s/it]  3%|▎         | 3128/100000 [1:43:40<47:49:43,  1.78s/it]                                                            3%|▎         | 3128/100000 [1:43:40<47:49:43,  1.78s/it]  3%|▎         | 3129/100000 [1:43:42<46:02:42,  1.71s/it]                                                            3%|▎         | 3129/100000 [1:43:42<46:02:42,  1.71s/it]  3%|▎         | 3130/100000 [1:43:44<44:16:02,  1.65s/it]                                                            3%|▎         | 3130/100000 [1:43:44<44:16:02,  1.65s/it]  3%|▎         | 3131/100000 [1:43:45<42:32:05,  1.58s/it]                                                            3%|▎         | 3131/100000 [1:43:45<42:32:05,  1.58s/it]  3%|▎         | 3132/100000 [1:43:46<41:25:55,  1.54s/it]                                                            3%|▎         | 3132/100000 [1:43:46<41:25:55,  1.54s/it]  3%|▎         | 3133/100000 [1:43:48<40:29:11,  1.50s/it]                                                            3%|▎         | 3133/100000 [1:43:48<40:29:11,  1.50s/it]  3%|▎         | 3134/100000 [1:43:49<39:22:20,  1.46s/it]                                                            3%|▎         | 3134/100000 [1:43:49<39:22:20,  1.46s/it]  3%|▎         | 3135/100000 [1:43:51<38:44:12,  1.44s/it]                                                            3%|▎         | 3135/100000 [1:43:51<38:44:12,  1.44s/it]  3%|▎         | 3136/100000 [1:43:52<37:54:02,  1.41s/it]                                                            3%|▎         | 3136/100000 [1:43:52<37:54:02,  1.41s/it]  3%|▎         | 3137/100000 [1:43:53<37:14:23,  1.38s/it]                                                            3%|▎         | 3137/100000 [1:43:53<37:14:23,  1.38s/it]  3%|▎         | 3138/100000 [1:43:55<36:48:13,  1.37s/it]                                                            3%|▎         | 3138/100000 [1:43:55<36:48:13,  1.37s/it]  3%|▎         | 3139/100000 [1:43:56<36:03:45,  1.34s/it]                                                            3%|▎         | 3139/100000 [1:43:56<36:03:45,  1.34s/it]  3%|▎         | 3140/100000 [1:43:57<35:44:09,  1.33s/it]                                                            3%|▎         | 3140/100000 [1:43:57<35:44:09,  1.33s/it]  3%|▎         | 3141/100000 [1:43:58<35:12:30,  1.31s/it]                                                            3%|▎         | 3141/100000 [1:43:58<35:12:30,  1.31s/it]  3%|▎         | 3142/100000 [1:44:00<34:25:35,  1.28s/it]                                                            3%|▎         | 3142/100000 [1:44:00<34:25:35,  1.28s/it]  3%|▎         | 3143/100000 [1:44:01<34:04:56,  1.27s/it]                                                            3%|▎         | 3143/100000 [1:44:01<34:04:56,  1.27s/it]  3%|▎         | 3144/100000 [1:44:02<33:22:41,  1.24s/it]                                                            3%|▎         | 3144/100000 [1:44:02<33:22:41,  1.24s/it]  3%|▎         | 3145/100000 [1:44:03<32:42:10,  1.22s/it]                                                            3%|▎         | 3145/100000 [1:44:03<32:42:10,  1.22s/it]  3%|▎         | 3146/100000 [1:44:04<32:11:03,  1.20s/it]                                                            3%|▎         | 3146/100000 [1:44:04<32:11:03,  1.20s/it]  3%|▎         | 3147/100000 [1:44:05<31:43:25,  1.18s/it]                                                            3%|▎         | 3147/100000 [1:44:05<31:43:25,  1.18s/it]  3%|▎         | 3148/100000 [1:44:07<31:17:07,  1.16s/it]                                                            3%|▎         | 3148/100000 [1:44:07<31:17:07,  1.16s/it]  3%|▎         | 3149/100000 [1:44:08<30:50:42,  1.15s/it]                                                            3%|▎         | 3149/100000 [1:44:08<30:50:42,  1.15s/it]  3%|▎         | 3150/100000 [1:44:09<30:16:16,  1.13s/it]                                                            3%|▎         | 3150/100000 [1:44:09<30:16:16,  1.13s/it]  3%|▎         | 3151/100000 [1:44:10<29:50:31,  1.11s/it]                                                            3%|▎         | 3151/100000 [1:44:10<29:50:31,  1.11s/it]  3%|▎         | 3152/100000 [1:44:11<29:25:13,  1.09s/it]                                                            3%|▎         | 3152/100000 [1:44:11<29:25:13,  1.09s/it]  3%|▎         | 3153/100000 [1:44:12<28:56:33,  1.08s/it]                                                            3%|▎         | 3153/100000 [1:44:12<28:56:33,  1.08s/it]  3%|▎         | 3154/100000 [1:44:13<28:25:13,  1.06s/it]                                                            3%|▎         | 3154/100000 [1:44:13<28:25:13,  1.06s/it]  3%|▎         | 3155/100000 [1:44:14<27:43:21,  1.03s/it]                                                            3%|▎         | 3155/100000 [1:44:14<27:43:21,  1.03s/it]  3%|▎         | 3156/100000 [1:44:15<27:22:22,  1.02s/it]                                                            3%|▎         | 3156/100000 [1:44:15<27:22:22,  1.02s/it]  3%|▎         | 3157/100000 [1:44:16<26:58:41,  1.00s/it]                                                            3%|▎         | 3157/100000 [1:44:16<26:58:41,  1.00s/it]  3%|▎         | 3158/100000 [1:44:17<26:01:48,  1.03it/s]                                                            3%|▎         | 3158/100000 [1:44:17<26:01:48,  1.03it/s]  3%|▎         | 3159/100000 [1:44:18<25:34:35,  1.05it/s]                                                            3%|▎         | 3159/100000 [1:44:18<25:34:35,  1.05it/s]  3%|▎         | 3160/100000 [1:44:18<24:32:14,  1.10it/s]                                                            3%|▎         | 3160/100000 [1:44:19<24:32:14,  1.10it/s]  3%|▎         | 3161/100000 [1:44:29<100:46:24,  3.75s/it]                                                             3%|▎         | 3161/100000 [1:44:29<100:46:24,  3.75s/it]  3%|▎         | 3162/100000 [1:44:34<111:47:16,  4.16s/it]                                                             3%|▎         | 3162/100000 [1:44:34<111:47:16,  4.16s/it]  3%|▎         | 3163/100000 [1:44:39<115:56:51,  4.31s/it]                                                             3%|▎         | 3163/100000 [1:44:39<115:56:51,  4.31s/it]  3%|▎         | 3164/100000 [1:44:43<113:34:18,  4.22s/it]                                                             3%|▎         | 3164/100000 [1:44:43<113:34:18,  4.22s/it]  3%|▎         | 3165/100000 [1:44:46<109:09:53,  4.06s/it]                                                             3%|▎         | 3165/100000 [1:44:46<109:09:53,  4.06s/it]  3%|▎         | 3166/100000 [1:44:50<103:04:34,  3.83s/it]                                                             3%|▎         | 3166/100000 [1:44:50<103:04:34,  3.83s/it]  3%|▎         | 3167/100000 [1:44:53<95:55:48,  3.57s/it]                                                             3%|▎         | 3167/100000 [1:44:53<95:55:48,  3.57s/it]  3%|▎         | 3168/100000 [1:44:55<89:05:04,  3.31s/it]                                                            3%|▎         | 3168/100000 [1:44:55<89:05:04,  3.31s/it]  3%|▎         | 3169/100000 [1:44:58<81:45:17,  3.04s/it]                                                          {'loss': 0.0518, 'grad_norm': 0.7190514206886292, 'learning_rate': 9.243e-06, 'epoch': 5.69}
+{'loss': 0.0827, 'grad_norm': 0.8902875185012817, 'learning_rate': 9.246e-06, 'epoch': 5.69}
+{'loss': 0.06, 'grad_norm': 0.8684836626052856, 'learning_rate': 9.249e-06, 'epoch': 5.69}
+{'loss': 0.0586, 'grad_norm': 1.0752253532409668, 'learning_rate': 9.252e-06, 'epoch': 5.7}
+{'loss': 0.132, 'grad_norm': 1.1792585849761963, 'learning_rate': 9.255e-06, 'epoch': 5.7}
+{'loss': 0.1063, 'grad_norm': 1.2840609550476074, 'learning_rate': 9.258e-06, 'epoch': 5.7}
+{'loss': 0.0474, 'grad_norm': 0.7193743586540222, 'learning_rate': 9.261e-06, 'epoch': 5.7}
+{'loss': 0.0869, 'grad_norm': 0.9113737344741821, 'learning_rate': 9.264000000000001e-06, 'epoch': 5.7}
+{'loss': 0.0489, 'grad_norm': 0.9547917246818542, 'learning_rate': 9.267000000000001e-06, 'epoch': 5.71}
+{'loss': 0.0482, 'grad_norm': 3.226956605911255, 'learning_rate': 9.27e-06, 'epoch': 5.71}
+{'loss': 0.0475, 'grad_norm': 0.8785438537597656, 'learning_rate': 9.272999999999999e-06, 'epoch': 5.71}
+{'loss': 0.057, 'grad_norm': 0.9990173578262329, 'learning_rate': 9.275999999999999e-06, 'epoch': 5.71}
+{'loss': 0.0549, 'grad_norm': 0.8454262018203735, 'learning_rate': 9.279e-06, 'epoch': 5.71}
+{'loss': 0.0599, 'grad_norm': 1.1370716094970703, 'learning_rate': 9.282e-06, 'epoch': 5.71}
+{'loss': 0.0587, 'grad_norm': 1.1761515140533447, 'learning_rate': 9.285e-06, 'epoch': 5.72}
+{'loss': 0.0788, 'grad_norm': 1.1789077520370483, 'learning_rate': 9.288e-06, 'epoch': 5.72}
+{'loss': 0.0766, 'grad_norm': 3.341630458831787, 'learning_rate': 9.291e-06, 'epoch': 5.72}
+{'loss': 0.0727, 'grad_norm': 1.213159441947937, 'learning_rate': 9.294000000000001e-06, 'epoch': 5.72}
+{'loss': 0.0622, 'grad_norm': 0.9439771175384521, 'learning_rate': 9.297000000000001e-06, 'epoch': 5.72}
+{'loss': 0.0484, 'grad_norm': 0.8545637726783752, 'learning_rate': 9.3e-06, 'epoch': 5.73}
+{'loss': 0.0614, 'grad_norm': 0.8875400424003601, 'learning_rate': 9.303e-06, 'epoch': 5.73}
+{'loss': 0.0628, 'grad_norm': 1.552079439163208, 'learning_rate': 9.306e-06, 'epoch': 5.73}
+{'loss': 0.0628, 'grad_norm': 1.0208044052124023, 'learning_rate': 9.309e-06, 'epoch': 5.73}
+{'loss': 0.0511, 'grad_norm': 1.533717155456543, 'learning_rate': 9.312e-06, 'epoch': 5.73}
+{'loss': 0.0588, 'grad_norm': 1.1809885501861572, 'learning_rate': 9.315e-06, 'epoch': 5.73}
+{'loss': 0.0603, 'grad_norm': 0.9960464239120483, 'learning_rate': 9.318e-06, 'epoch': 5.74}
+{'loss': 0.063, 'grad_norm': 0.9623493552207947, 'learning_rate': 9.321e-06, 'epoch': 5.74}
+{'loss': 0.4545, 'grad_norm': 4.995608329772949, 'learning_rate': 9.324000000000001e-06, 'epoch': 5.74}
+{'loss': 0.3614, 'grad_norm': 1.443178415298462, 'learning_rate': 9.327e-06, 'epoch': 5.74}
+{'loss': 0.3435, 'grad_norm': 3.596264362335205, 'learning_rate': 9.33e-06, 'epoch': 5.74}
+{'loss': 0.4267, 'grad_norm': 2.392505168914795, 'learning_rate': 9.333e-06, 'epoch': 5.75}
+{'loss': 0.3021, 'grad_norm': 1.9041658639907837, 'learning_rate': 9.336e-06, 'epoch': 5.75}
+{'loss': 0.3205, 'grad_norm': 1.9096932411193848, 'learning_rate': 9.339000000000002e-06, 'epoch': 5.75}
+{'loss': 0.2452, 'grad_norm': 3.222970485687256, 'learning_rate': 9.342000000000001e-06, 'epoch': 5.75}
+{'loss': 0.2122, 'grad_norm': 1.1893322467803955, 'learning_rate': 9.345e-06, 'epoch': 5.75}
+{'loss': 0.2251, 'grad_norm': 1.0547327995300293, 'learning_rate': 9.348e-06, 'epoch': 5.76}
+{'loss': 0.1535, 'grad_norm': 0.8825430274009705, 'learning_rate': 9.350999999999999e-06, 'epoch': 5.76}
+{'loss': 0.1839, 'grad_norm': 0.8509583473205566, 'learning_rate': 9.354e-06, 'epoch': 5.76}
+{'loss': 0.1476, 'grad_norm': 0.9790893793106079, 'learning_rate': 9.357e-06, 'epoch': 5.76}
+{'loss': 0.1617, 'grad_norm': 0.9421710968017578, 'learning_rate': 9.36e-06, 'epoch': 5.76}
+{'loss': 0.1796, 'grad_norm': 0.9089346528053284, 'learning_rate': 9.363e-06, 'epoch': 5.76}
+{'loss': 0.0917, 'grad_norm': 1.144519567489624, 'learning_rate': 9.366e-06, 'epoch': 5.77}
+{'loss': 0.0894, 'grad_norm': 0.8784078359603882, 'learning_rate': 9.369000000000001e-06, 'epoch': 5.77}
+{'loss': 0.0808, 'grad_norm': 1.1179689168930054, 'learning_rate': 9.372000000000001e-06, 'epoch': 5.77}
+{'loss': 0.0506, 'grad_norm': 0.7009519338607788, 'learning_rate': 9.375000000000001e-06, 'epoch': 5.77}
+{'loss': 0.0589, 'grad_norm': 0.6712589263916016, 'learning_rate': 9.378e-06, 'epoch': 5.77}
+{'loss': 0.0581, 'grad_norm': 0.6814177632331848, 'learning_rate': 9.380999999999999e-06, 'epoch': 5.78}
+{'loss': 0.0508, 'grad_norm': 0.7124582529067993, 'learning_rate': 9.384e-06, 'epoch': 5.78}
+{'loss': 0.0597, 'grad_norm': 0.8895642161369324, 'learning_rate': 9.387e-06, 'epoch': 5.78}
+{'loss': 0.0638, 'grad_norm': 0.9447484016418457, 'learning_rate': 9.39e-06, 'epoch': 5.78}
+{'loss': 0.0559, 'grad_norm': 0.7462688684463501, 'learning_rate': 9.393e-06, 'epoch': 5.78}
+{'loss': 0.0563, 'grad_norm': 0.95284503698349, 'learning_rate': 9.396e-06, 'epoch': 5.78}
+{'loss': 0.0669, 'grad_norm': 0.926132321357727, 'learning_rate': 9.399000000000001e-06, 'epoch': 5.79}
+{'loss': 0.0613, 'grad_norm': 1.1923774480819702, 'learning_rate': 9.402e-06, 'epoch': 5.79}
+{'loss': 0.0487, 'grad_norm': 0.9798671007156372, 'learning_rate': 9.405e-06, 'epoch': 5.79}
+{'loss': 0.0465, 'grad_norm': 0.7260217666625977, 'learning_rate': 9.408e-06, 'epoch': 5.79}
+{'loss': 0.0556, 'grad_norm': 0.6956988573074341, 'learning_rate': 9.411e-06, 'epoch': 5.79}
+{'loss': 0.05, 'grad_norm': 0.7585822939872742, 'learning_rate': 9.414000000000002e-06, 'epoch': 5.8}
+{'loss': 0.067, 'grad_norm': 0.8594281077384949, 'learning_rate': 9.417e-06, 'epoch': 5.8}
+{'loss': 0.0506, 'grad_norm': 0.8605832457542419, 'learning_rate': 9.42e-06, 'epoch': 5.8}
+{'loss': 0.0428, 'grad_norm': 0.8311311602592468, 'learning_rate': 9.423e-06, 'epoch': 5.8}
+{'loss': 0.0493, 'grad_norm': 0.9315934181213379, 'learning_rate': 9.426e-06, 'epoch': 5.8}
+{'loss': 0.0762, 'grad_norm': 1.0022386312484741, 'learning_rate': 9.429e-06, 'epoch': 5.81}
+{'loss': 0.0718, 'grad_norm': 0.9364701509475708, 'learning_rate': 9.432e-06, 'epoch': 5.81}
+{'loss': 0.0597, 'grad_norm': 1.5895075798034668, 'learning_rate': 9.435e-06, 'epoch': 5.81}
+{'loss': 0.0628, 'grad_norm': 0.939860999584198, 'learning_rate': 9.438e-06, 'epoch': 5.81}
+{'loss': 0.0701, 'grad_norm': 1.6381874084472656, 'learning_rate': 9.441e-06, 'epoch': 5.81}
+{'loss': 0.0668, 'grad_norm': 1.853114128112793, 'learning_rate': 9.444000000000001e-06, 'epoch': 5.81}
+{'loss': 0.0642, 'grad_norm': 1.0566539764404297, 'learning_rate': 9.447000000000001e-06, 'epoch': 5.82}
+{'loss': 0.0559, 'grad_norm': 0.9682995676994324, 'learning_rate': 9.450000000000001e-06, 'epoch': 5.82}
+{'loss': 0.0639, 'grad_norm': 0.8305920362472534, 'learning_rate': 9.453e-06, 'epoch': 5.82}
+{'loss': 0.0377, 'grad_norm': 0.718386173248291, 'learning_rate': 9.455999999999999e-06, 'epoch': 5.82}
+{'loss': 0.0737, 'grad_norm': 0.9657241702079773, 'learning_rate': 9.459e-06, 'epoch': 5.82}
+{'loss': 0.0526, 'grad_norm': 0.8440473079681396, 'learning_rate': 9.462e-06, 'epoch': 5.83}
+{'loss': 0.0827, 'grad_norm': 1.2559155225753784, 'learning_rate': 9.465e-06, 'epoch': 5.83}
+{'loss': 0.076, 'grad_norm': 1.968029499053955, 'learning_rate': 9.468e-06, 'epoch': 5.83}
+{'loss': 0.087, 'grad_norm': 1.369443655014038, 'learning_rate': 9.471e-06, 'epoch': 5.83}
+{'loss': 0.4043, 'grad_norm': 2.196585178375244, 'learning_rate': 9.474000000000001e-06, 'epoch': 5.83}
+{'loss': 0.3129, 'grad_norm': 1.450124740600586, 'learning_rate': 9.477000000000001e-06, 'epoch': 5.83}
+{'loss': 0.3256, 'grad_norm': 1.131670594215393, 'learning_rate': 9.48e-06, 'epoch': 5.84}
+{'loss': 0.2832, 'grad_norm': 1.5835055112838745, 'learning_rate': 9.483e-06, 'epoch': 5.84}
+{'loss': 0.2298, 'grad_norm': 1.0356972217559814, 'learning_rate': 9.486e-06, 'epoch': 5.84}
+{'loss': 0.3123, 'grad_norm': 1.202141523361206, 'learning_rate': 9.489000000000002e-06, 'epoch': 5.84}
+{'loss': 0.2334, 'grad_norm': 1.4132212400436401, 'learning_rate': 9.492e-06, 'epoch': 5.84}
+{'loss': 0.1989, 'grad_norm': 1.1922186613082886, 'learning_rate': 9.495e-06, 'epoch': 5.85}
+  3%|▎         | 3169/100000 [1:44:58<81:45:17,  3.04s/it]  3%|▎         | 3170/100000 [1:45:00<75:12:38,  2.80s/it]                                                            3%|▎         | 3170/100000 [1:45:00<75:12:38,  2.80s/it]  3%|▎         | 3171/100000 [1:45:02<70:00:28,  2.60s/it]                                                            3%|▎         | 3171/100000 [1:45:02<70:00:28,  2.60s/it]  3%|▎         | 3172/100000 [1:45:04<65:27:38,  2.43s/it]                                                            3%|▎         | 3172/100000 [1:45:04<65:27:38,  2.43s/it]  3%|��         | 3173/100000 [1:45:06<61:18:08,  2.28s/it]                                                            3%|▎         | 3173/100000 [1:45:06<61:18:08,  2.28s/it]  3%|▎         | 3174/100000 [1:45:08<57:22:35,  2.13s/it]                                                            3%|▎         | 3174/100000 [1:45:08<57:22:35,  2.13s/it]  3%|▎         | 3175/100000 [1:45:10<54:18:51,  2.02s/it]                                                            3%|▎         | 3175/100000 [1:45:10<54:18:51,  2.02s/it]  3%|▎         | 3176/100000 [1:45:11<51:39:31,  1.92s/it]                                                            3%|▎         | 3176/100000 [1:45:11<51:39:31,  1.92s/it]  3%|▎         | 3177/100000 [1:45:13<49:11:01,  1.83s/it]                                                            3%|▎         | 3177/100000 [1:45:13<49:11:01,  1.83s/it]  3%|▎         | 3178/100000 [1:45:14<47:19:08,  1.76s/it]                                                            3%|▎         | 3178/100000 [1:45:14<47:19:08,  1.76s/it]  3%|▎         | 3179/100000 [1:45:16<45:30:30,  1.69s/it]                                                            3%|▎         | 3179/100000 [1:45:16<45:30:30,  1.69s/it]  3%|▎         | 3180/100000 [1:45:18<43:54:40,  1.63s/it]                                                            3%|▎         | 3180/100000 [1:45:18<43:54:40,  1.63s/it]  3%|▎         | 3181/100000 [1:45:19<42:10:29,  1.57s/it]                                                            3%|▎         | 3181/100000 [1:45:19<42:10:29,  1.57s/it]  3%|▎         | 3182/100000 [1:45:20<40:52:13,  1.52s/it]                                                            3%|▎         | 3182/100000 [1:45:20<40:52:13,  1.52s/it]  3%|▎         | 3183/100000 [1:45:22<39:56:42,  1.49s/it]                                                            3%|▎         | 3183/100000 [1:45:22<39:56:42,  1.49s/it]  3%|▎         | 3184/100000 [1:45:23<39:22:01,  1.46s/it]                                                            3%|▎         | 3184/100000 [1:45:23<39:22:01,  1.46s/it]  3%|▎         | 3185/100000 [1:45:25<38:36:59,  1.44s/it]                                                            3%|▎         | 3185/100000 [1:45:25<38:36:59,  1.44s/it]  3%|▎         | 3186/100000 [1:45:26<37:36:42,  1.40s/it]                                                            3%|▎         | 3186/100000 [1:45:26<37:36:42,  1.40s/it]  3%|▎         | 3187/100000 [1:45:27<37:07:21,  1.38s/it]                                                            3%|▎         | 3187/100000 [1:45:27<37:07:21,  1.38s/it]  3%|▎         | 3188/100000 [1:45:28<36:39:23,  1.36s/it]                                                            3%|▎         | 3188/100000 [1:45:28<36:39:23,  1.36s/it]  3%|▎         | 3189/100000 [1:45:30<36:09:12,  1.34s/it]                                                            3%|▎         | 3189/100000 [1:45:30<36:09:12,  1.34s/it]  3%|▎         | 3190/100000 [1:45:31<35:21:57,  1.32s/it]                                                            3%|▎         | 3190/100000 [1:45:31<35:21:57,  1.32s/it]  3%|▎         | 3191/100000 [1:45:32<35:06:50,  1.31s/it]                                                            3%|▎         | 3191/100000 [1:45:32<35:06:50,  1.31s/it]  3%|▎         | 3192/100000 [1:45:34<34:25:40,  1.28s/it]                                                            3%|▎         | 3192/100000 [1:45:34<34:25:40,  1.28s/it]  3%|▎         | 3193/100000 [1:45:35<34:07:21,  1.27s/it]                                                            3%|▎         | 3193/100000 [1:45:35<34:07:21,  1.27s/it]  3%|▎         | 3194/100000 [1:45:36<33:38:30,  1.25s/it]                                                            3%|▎         | 3194/100000 [1:45:36<33:38:30,  1.25s/it]  3%|▎         | 3195/100000 [1:45:37<32:50:24,  1.22s/it]                                                            3%|▎         | 3195/100000 [1:45:37<32:50:24,  1.22s/it]  3%|▎         | 3196/100000 [1:45:38<32:21:48,  1.20s/it]                                                            3%|▎         | 3196/100000 [1:45:38<32:21:48,  1.20s/it]  3%|▎         | 3197/100000 [1:45:39<31:43:03,  1.18s/it]                                                            3%|▎         | 3197/100000 [1:45:39<31:43:03,  1.18s/it]  3%|▎         | 3198/100000 [1:45:41<31:26:01,  1.17s/it]                                                            3%|▎         | 3198/100000 [1:45:41<31:26:01,  1.17s/it]  3%|▎         | 3199/100000 [1:45:42<30:50:27,  1.15s/it]                                                            3%|▎         | 3199/100000 [1:45:42<30:50:27,  1.15s/it]  3%|▎         | 3200/100000 [1:45:43<30:14:37,  1.12s/it]                                                            3%|▎         | 3200/100000 [1:45:43<30:14:37,  1.12s/it]  3%|▎         | 3201/100000 [1:45:44<29:53:06,  1.11s/it]                                                            3%|▎         | 3201/100000 [1:45:44<29:53:06,  1.11s/it]  3%|▎         | 3202/100000 [1:45:45<29:28:24,  1.10s/it]                                                            3%|▎         | 3202/100000 [1:45:45<29:28:24,  1.10s/it]  3%|▎         | 3203/100000 [1:45:46<28:59:38,  1.08s/it]                                                            3%|▎         | 3203/100000 [1:45:46<28:59:38,  1.08s/it]  3%|▎         | 3204/100000 [1:45:47<28:29:59,  1.06s/it]                                                            3%|▎         | 3204/100000 [1:45:47<28:29:59,  1.06s/it]  3%|▎         | 3205/100000 [1:45:48<28:06:50,  1.05s/it]                                                            3%|▎         | 3205/100000 [1:45:48<28:06:50,  1.05s/it]  3%|▎         | 3206/100000 [1:45:49<27:31:41,  1.02s/it]                                                            3%|▎         | 3206/100000 [1:45:49<27:31:41,  1.02s/it]  3%|▎         | 3207/100000 [1:45:50<26:58:37,  1.00s/it]                                                            3%|▎         | 3207/100000 [1:45:50<26:58:37,  1.00s/it]  3%|▎         | 3208/100000 [1:45:51<26:40:16,  1.01it/s]                                                            3%|▎         | 3208/100000 [1:45:51<26:40:16,  1.01it/s]  3%|▎         | 3209/100000 [1:45:52<25:44:09,  1.04it/s]                                                            3%|▎         | 3209/100000 [1:45:52<25:44:09,  1.04it/s]  3%|▎         | 3210/100000 [1:45:53<24:46:06,  1.09it/s]                                                            3%|▎         | 3210/100000 [1:45:53<24:46:06,  1.09it/s]  3%|▎         | 3211/100000 [1:46:04<106:07:51,  3.95s/it]                                                             3%|▎         | 3211/100000 [1:46:04<106:07:51,  3.95s/it]  3%|▎         | 3212/100000 [1:46:09<120:08:43,  4.47s/it]                                                             3%|▎         | 3212/100000 [1:46:09<120:08:43,  4.47s/it]  3%|▎         | 3213/100000 [1:46:14<119:36:25,  4.45s/it]                                                             3%|▎         | 3213/100000 [1:46:14<119:36:25,  4.45s/it]  3%|▎         | 3214/100000 [1:46:17<113:54:44,  4.24s/it]                                                             3%|▎         | 3214/100000 [1:46:17<113:54:44,  4.24s/it]  3%|▎         | 3215/100000 [1:46:21<106:45:19,  3.97s/it]                                                             3%|▎         | 3215/100000 [1:46:21<106:45:19,  3.97s/it]  3%|▎         | 3216/100000 [1:46:24<98:56:21,  3.68s/it]                                                             3%|▎         | 3216/100000 [1:46:24<98:56:21,  3.68s/it]  3%|▎         | 3217/100000 [1:46:26<90:24:37,  3.36s/it]                                                            3%|▎         | 3217/100000 [1:46:26<90:24:37,  3.36s/it]  3%|▎         | 3218/100000 [1:46:29<82:43:52,  3.08s/it]                                                            3%|▎         | 3218/100000 [1:46:29<82:43:52,  3.08s/it]  3%|▎         | 3219/100000 [1:46:31<75:46:43,  2.82s/it]                                                            3%|▎         | 3219/100000 [1:46:31<75:46:43,  2.82s/it]  3%|▎         | 3220/100000 [1:46:33<69:45:05,  2.59s/it]                                                            3%|▎         | 3220/100000 [1:46:33<69:45:05,  2.59s/it]  3%|▎         | 3221/100000 [1:46:35<64:26:39,  2.40s/it]                                                            3%|▎         | 3221/100000 [1:46:35<64:26:39,  2.40s/it]  3%|▎         | 3222/100000 [1:46:37<59:41:13,  2.22s/it]                                                            3%|▎         | 3222/100000 [1:46:37<59:41:13,  2.22s/it]  3%|▎         | 3223/100000 [1:46:39<55:42:48,  2.07s/it]                                                            3%|▎         | 3223/100000 [1:46:39<55:42:48,  2.07s/it]  3%|▎         | 3224/100000 [1:46:40<52:19:20,  1.95s/it]                                                            3%|▎         | 3224/100000 [1:46:40<52:19:20,  1.95s/it]  3%|▎         | 3225/100000 [1:46:42<49:43:31,  1.85s/it]                                                            3%|▎         | 3225/100000 [1:46:42<49:43:31,  1.85s/it]  3%|▎         | 3226/100000 [1:46:43<47:25:00,  1.76s/it]                                                            3%|▎         | 3226/100000 [1:46:43<47:25:00,  1.76s/it]  3%|▎         | 3227/100000 [1:46:45<45:14:49,  1.68s/it]                                                            3%|▎         | 3227/100000 [1:46:45<45:14:49,  1.68s/it]  3%|▎         | 3228/100000 [1:46:46<43:10:29,  1.61s/it]                                                            3%|▎         | 3228/100000 [1:46:46<43:10:29,  1.61s/it]  3%|▎         | 3229/100000 [1:46:48<41:44:07,  1.55s/it]                                                            3%|▎         | 3229/100000 [1:46:48<41:44:07,  1.55s/it]  3%|▎         | 3230/100000 [1:46:49<40:12:12,  1.50s/it]                                                            3%|▎         | 3230/100000 [1:46:49<40:12:12,  1.50s/it]  3%|▎         | 3231/100000 [1:46:50<39:10:39,  1.46s/it]                                                            3%|▎         | 3231/100000 [1:46:50<39:10:39,  1.46s/it]  3%|▎         | 3232/100000 [1:46:52<38:11:00,  1.42s/it]                                                            3%|▎         | 3232/100000 [1:46:52<38:11:00,  1.42s/it]  3%|▎         | 3233/100000 [1:46:53<37:04:50,  1.38s/it]                                                            3%|▎         | 3233/100000 [1:46:53<37:04:50,  1.38s/it]  3%|▎         | 3234/100000 [1:46:54<36:27:40,  1.36s/it]                                                            3%|▎         | 3234/100000 [1:46:54<36:27:40,  1.36s/it]  3%|▎         | 3235/100000 [1:46:56<35:39:10,  1.33s/it]                                                            3%|▎         | 3235/100000 [1:46:56<35:39:10,  1.33s/it]  3%|▎         | 3236/100000 [1:46:57<35:03:29,  1.30s/it]                                                            3%|▎         | 3236/100000 [1:46:57<35:03:29,  1.30s/it]  3%|▎         | 3237/100000 [1:46:58<34:08:11,  1.27s/it]                                                            3%|▎         | 3237/100000 [1:46:58<34:08:11,  1.27s/it]  3%|▎         | 3238/100000 [1:46:59<33:42:43,  1.25s/it]                                                            3%|▎         | 3238/100000 [1:46:59<33:42:43,  1.25s/it]  3%|▎         | 3239/100000 [1:47:00<32:58:18,  1.23s/it]                                                            3%|▎         | 3239/100000 [1:47:00<32:58:18,  1.23s/it]  3%|▎         | 3240/100000 [1:47:02<32:17:38,  1.20s/it]                                                            3%|▎         | 3240/100000 [1:47:02<32:17:38,  1.20s/it]  3%|▎         | 3241/100000 [1:47:03<32:41:22,  1.22s/it]                                                            3%|▎         | 3241/100000 [1:47:03<32:41:22,  1.22s/it]  3%|▎         | 3242/100000 [1:47:04<31:58:02,  1.19s/it]                                                            3%|▎         | 3242/100000 [1:47:04<31:58:02,  1.19s/it]  3%|▎         | 3243/100000 [1:47:05<31:00:45,  1.15s/it]                                                            3%|▎         | 3243/100000 [1:47:05<31:00:45,  1.15s/it]  3%|▎         | 3244/100000 [1:47:06<30:19:54,  1.13s/it]                                                            3%|▎         | 3244/100000 [1:47:06<30:19:54,  1.13s/it]  3%|▎         | 3245/100000 [1:47:07<29:38:06,  1.10s/it]                                                            3%|▎         | 3245/100000 [1:47:07<29:38:06,  1.10s/it]  3%|▎         | 3246/100000 [1:47:08<28:51:54,  1.07s/it]                                                            3%|▎         | 3246/100000 [1:47:08<28:51:54,  1.07s/it]  3%|▎         | 3247/100000 [1:47:09<28:08:32,  1.05s/it]                                                            3%|▎         | 3247/100000 [1:47:09<28:08:32,  1.05s/it]  3%|▎         | 3248/100000 [1:47:10<27:19:49,  1.02s/it]                                                            3%|▎         | 3248/100000 [1:47:10<27:19:49,  1.02s/it]  3%|▎         | 3249/100000 [1:47:11<26:36:43,  1.01it/s]                                                            3%|▎         | 3249/100000 [1:47:11<26:36:43,  1.01it/s]  3%|▎         | 3250/100000 [1:47:12<26:06:24,  1.03it/s]                                                            3%|▎         | 3250/100000 [1:47:12<26:06:24,  1.03it/s]  3%|▎         | 3251/100000 [1:47:13<25:10:02,  1.07it/s]                                                            3%|▎         | 3251/100000 [1:47:13<25:10:02,  1.07it/s]  3%|▎         | 3252/100000 [1:47:14<23:18:07,  1.15it/s]                                                            3%|▎         | 3252/100000 [1:47:14<23:18:07,  1.15it/s]{'loss': 0.1859, 'grad_norm': 1.1139531135559082, 'learning_rate': 9.498e-06, 'epoch': 5.85}
+{'loss': 0.1994, 'grad_norm': 1.1097437143325806, 'learning_rate': 9.501e-06, 'epoch': 5.85}
+{'loss': 0.2172, 'grad_norm': 1.480333685874939, 'learning_rate': 9.504e-06, 'epoch': 5.85}
+{'loss': 0.1161, 'grad_norm': 1.7595967054367065, 'learning_rate': 9.507e-06, 'epoch': 5.85}
+{'loss': 0.1698, 'grad_norm': 0.9520134329795837, 'learning_rate': 9.51e-06, 'epoch': 5.86}
+{'loss': 0.1021, 'grad_norm': 0.9602885246276855, 'learning_rate': 9.513e-06, 'epoch': 5.86}
+{'loss': 0.11, 'grad_norm': 1.421912670135498, 'learning_rate': 9.516e-06, 'epoch': 5.86}
+{'loss': 0.0552, 'grad_norm': 0.5686153769493103, 'learning_rate': 9.519000000000002e-06, 'epoch': 5.86}
+{'loss': 0.0772, 'grad_norm': 0.7969242334365845, 'learning_rate': 9.522000000000001e-06, 'epoch': 5.86}
+{'loss': 0.055, 'grad_norm': 0.5964579582214355, 'learning_rate': 9.525000000000001e-06, 'epoch': 5.86}
+{'loss': 0.079, 'grad_norm': 1.263533353805542, 'learning_rate': 9.528e-06, 'epoch': 5.87}
+{'loss': 0.0612, 'grad_norm': 1.914730191230774, 'learning_rate': 9.530999999999999e-06, 'epoch': 5.87}
+{'loss': 0.051, 'grad_norm': 0.6636876463890076, 'learning_rate': 9.534e-06, 'epoch': 5.87}
+{'loss': 0.0555, 'grad_norm': 1.0478947162628174, 'learning_rate': 9.537e-06, 'epoch': 5.87}
+{'loss': 0.0431, 'grad_norm': 0.65780109167099, 'learning_rate': 9.54e-06, 'epoch': 5.87}
+{'loss': 0.0671, 'grad_norm': 0.979624330997467, 'learning_rate': 9.543e-06, 'epoch': 5.88}
+{'loss': 0.0714, 'grad_norm': 0.8512119054794312, 'learning_rate': 9.546e-06, 'epoch': 5.88}
+{'loss': 0.0641, 'grad_norm': 0.7912101745605469, 'learning_rate': 9.549000000000001e-06, 'epoch': 5.88}
+{'loss': 0.0504, 'grad_norm': 0.670253574848175, 'learning_rate': 9.552000000000001e-06, 'epoch': 5.88}
+{'loss': 0.0643, 'grad_norm': 0.7148275971412659, 'learning_rate': 9.555e-06, 'epoch': 5.88}
+{'loss': 0.0554, 'grad_norm': 0.9922288060188293, 'learning_rate': 9.558e-06, 'epoch': 5.88}
+{'loss': 0.0611, 'grad_norm': 0.6634912490844727, 'learning_rate': 9.561e-06, 'epoch': 5.89}
+{'loss': 0.0503, 'grad_norm': 1.007731556892395, 'learning_rate': 9.564e-06, 'epoch': 5.89}
+{'loss': 0.0423, 'grad_norm': 0.8372678160667419, 'learning_rate': 9.567e-06, 'epoch': 5.89}
+{'loss': 0.0487, 'grad_norm': 0.6674429774284363, 'learning_rate': 9.57e-06, 'epoch': 5.89}
+{'loss': 0.0496, 'grad_norm': 0.8218016624450684, 'learning_rate': 9.573e-06, 'epoch': 5.89}
+{'loss': 0.0436, 'grad_norm': 0.6602591872215271, 'learning_rate': 9.576e-06, 'epoch': 5.9}
+{'loss': 0.0731, 'grad_norm': 0.7583157420158386, 'learning_rate': 9.579e-06, 'epoch': 5.9}
+{'loss': 0.0645, 'grad_norm': 0.7678322792053223, 'learning_rate': 9.582e-06, 'epoch': 5.9}
+{'loss': 0.0662, 'grad_norm': 1.025427222251892, 'learning_rate': 9.585e-06, 'epoch': 5.9}
+{'loss': 0.0684, 'grad_norm': 0.934942901134491, 'learning_rate': 9.588e-06, 'epoch': 5.9}
+{'loss': 0.0433, 'grad_norm': 1.957726001739502, 'learning_rate': 9.591e-06, 'epoch': 5.9}
+{'loss': 0.0569, 'grad_norm': 0.7961621880531311, 'learning_rate': 9.594e-06, 'epoch': 5.91}
+{'loss': 0.0738, 'grad_norm': 1.2947304248809814, 'learning_rate': 9.597000000000001e-06, 'epoch': 5.91}
+{'loss': 0.0679, 'grad_norm': 1.006197214126587, 'learning_rate': 9.600000000000001e-06, 'epoch': 5.91}
+{'loss': 0.0399, 'grad_norm': 0.720492422580719, 'learning_rate': 9.603e-06, 'epoch': 5.91}
+{'loss': 0.0717, 'grad_norm': 0.9666870832443237, 'learning_rate': 9.606e-06, 'epoch': 5.91}
+{'loss': 0.0657, 'grad_norm': 1.069618821144104, 'learning_rate': 9.608999999999999e-06, 'epoch': 5.92}
+{'loss': 0.0436, 'grad_norm': 0.7088072299957275, 'learning_rate': 9.612e-06, 'epoch': 5.92}
+{'loss': 0.0622, 'grad_norm': 0.7209672331809998, 'learning_rate': 9.615e-06, 'epoch': 5.92}
+{'loss': 0.0417, 'grad_norm': 1.0887486934661865, 'learning_rate': 9.618e-06, 'epoch': 5.92}
+{'loss': 0.1023, 'grad_norm': 1.448907494544983, 'learning_rate': 9.621e-06, 'epoch': 5.92}
+{'loss': 0.3862, 'grad_norm': 2.245453119277954, 'learning_rate': 9.624e-06, 'epoch': 5.93}
+{'loss': 0.3284, 'grad_norm': 1.4048337936401367, 'learning_rate': 9.627000000000001e-06, 'epoch': 5.93}
+{'loss': 0.2569, 'grad_norm': 1.3502554893493652, 'learning_rate': 9.630000000000001e-06, 'epoch': 5.93}
+{'loss': 0.3036, 'grad_norm': 1.6020257472991943, 'learning_rate': 9.633e-06, 'epoch': 5.93}
+{'loss': 0.2589, 'grad_norm': 1.1737459897994995, 'learning_rate': 9.636e-06, 'epoch': 5.93}
+{'loss': 0.1982, 'grad_norm': 1.5264931917190552, 'learning_rate': 9.638999999999999e-06, 'epoch': 5.93}
+{'loss': 0.241, 'grad_norm': 1.0091787576675415, 'learning_rate': 9.642e-06, 'epoch': 5.94}
+{'loss': 0.2123, 'grad_norm': 1.1220636367797852, 'learning_rate': 9.645e-06, 'epoch': 5.94}
+{'loss': 0.155, 'grad_norm': 1.072777271270752, 'learning_rate': 9.648e-06, 'epoch': 5.94}
+{'loss': 0.2424, 'grad_norm': 1.2503160238265991, 'learning_rate': 9.651e-06, 'epoch': 5.94}
+{'loss': 0.1637, 'grad_norm': 2.789108991622925, 'learning_rate': 9.654e-06, 'epoch': 5.94}
+{'loss': 0.1563, 'grad_norm': 0.9609374403953552, 'learning_rate': 9.657000000000001e-06, 'epoch': 5.95}
+{'loss': 0.0993, 'grad_norm': 3.0387258529663086, 'learning_rate': 9.66e-06, 'epoch': 5.95}
+{'loss': 0.0646, 'grad_norm': 0.9588826298713684, 'learning_rate': 9.663e-06, 'epoch': 5.95}
+{'loss': 0.073, 'grad_norm': 1.6367828845977783, 'learning_rate': 9.666e-06, 'epoch': 5.95}
+{'loss': 0.0714, 'grad_norm': 0.6142951250076294, 'learning_rate': 9.669e-06, 'epoch': 5.95}
+{'loss': 0.11, 'grad_norm': 1.2287521362304688, 'learning_rate': 9.672000000000002e-06, 'epoch': 5.95}
+{'loss': 0.0484, 'grad_norm': 1.094412088394165, 'learning_rate': 9.675e-06, 'epoch': 5.96}
+{'loss': 0.0596, 'grad_norm': 0.4351859986782074, 'learning_rate': 9.678e-06, 'epoch': 5.96}
+{'loss': 0.0579, 'grad_norm': 0.7879501581192017, 'learning_rate': 9.681e-06, 'epoch': 5.96}
+{'loss': 0.0707, 'grad_norm': 0.7965291142463684, 'learning_rate': 9.683999999999999e-06, 'epoch': 5.96}
+{'loss': 0.0547, 'grad_norm': 0.8367858529090881, 'learning_rate': 9.687e-06, 'epoch': 5.96}
+{'loss': 0.0538, 'grad_norm': 0.7109565138816833, 'learning_rate': 9.69e-06, 'epoch': 5.97}
+{'loss': 0.0403, 'grad_norm': 0.7826809287071228, 'learning_rate': 9.693e-06, 'epoch': 5.97}
+{'loss': 0.1065, 'grad_norm': 0.9229626655578613, 'learning_rate': 9.696e-06, 'epoch': 5.97}
+{'loss': 0.0458, 'grad_norm': 0.7484771013259888, 'learning_rate': 9.699e-06, 'epoch': 5.97}
+{'loss': 0.0373, 'grad_norm': 0.6975681781768799, 'learning_rate': 9.702000000000001e-06, 'epoch': 5.97}
+{'loss': 0.0515, 'grad_norm': 0.6109060645103455, 'learning_rate': 9.705000000000001e-06, 'epoch': 5.98}
+{'loss': 0.0931, 'grad_norm': 1.058773159980774, 'learning_rate': 9.708000000000001e-06, 'epoch': 5.98}
+{'loss': 0.0656, 'grad_norm': 1.0566517114639282, 'learning_rate': 9.711e-06, 'epoch': 5.98}
+{'loss': 0.1314, 'grad_norm': 1.0419882535934448, 'learning_rate': 9.713999999999999e-06, 'epoch': 5.98}
+{'loss': 0.0758, 'grad_norm': 1.0443799495697021, 'learning_rate': 9.717e-06, 'epoch': 5.98}
+{'loss': 0.061, 'grad_norm': 0.9809887409210205, 'learning_rate': 9.72e-06, 'epoch': 5.98}
+{'loss': 0.0615, 'grad_norm': 0.9536335468292236, 'learning_rate': 9.723e-06, 'epoch': 5.99}
+{'loss': 0.0542, 'grad_norm': 1.8318169116973877, 'learning_rate': 9.726e-06, 'epoch': 5.99}
+{'loss': 0.0761, 'grad_norm': 1.001519799232483, 'learning_rate': 9.729e-06, 'epoch': 5.99}
+{'loss': 0.0454, 'grad_norm': 0.8341793417930603, 'learning_rate': 9.732000000000001e-06, 'epoch': 5.99}
+{'loss': 0.0554, 'grad_norm': 1.3690731525421143, 'learning_rate': 9.735e-06, 'epoch': 5.99}
+{'loss': 0.1149, 'grad_norm': 1.326370120048523, 'learning_rate': 9.738e-06, 'epoch': 6.0}
+{'loss': 0.1143, 'grad_norm': 1.7953455448150635, 'learning_rate': 9.741e-06, 'epoch': 6.0}
+{'loss': 0.0628, 'grad_norm': 1.6124578714370728, 'learning_rate': 9.744e-06, 'epoch': 6.0}
+{'loss': 0.0372, 'grad_norm': 0.8392724394798279, 'learning_rate': 9.747000000000002e-06, 'epoch': 6.0}
+  3%|▎         | 3253/100000 [1:47:32<162:38:13,  6.05s/it]                                                             3%|▎         | 3253/100000 [1:47:32<162:38:13,  6.05s/it]  3%|▎         | 3254/100000 [1:47:37<160:41:30,  5.98s/it]                                                             3%|▎         | 3254/100000 [1:47:37<160:41:30,  5.98s/it]  3%|▎         | 3255/100000 [1:47:42<150:19:23,  5.59s/it]                                                             3%|▎         | 3255/100000 [1:47:42<150:19:23,  5.59s/it]  3%|▎         | 3256/100000 [1:47:46<138:11:45,  5.14s/it]                                                             3%|▎         | 3256/100000 [1:47:46<138:11:45,  5.14s/it]  3%|▎         | 3257/100000 [1:47:50<124:36:24,  4.64s/it]                                                             3%|▎         | 3257/100000 [1:47:50<124:36:24,  4.64s/it]  3%|▎         | 3258/100000 [1:47:53<113:38:05,  4.23s/it]                                                             3%|▎         | 3258/100000 [1:47:53<113:38:05,  4.23s/it]  3%|▎         | 3259/100000 [1:47:56<104:08:05,  3.88s/it]                                                             3%|▎         | 3259/100000 [1:47:56<104:08:05,  3.88s/it]  3%|▎         | 3260/100000 [1:47:59<95:21:11,  3.55s/it]                                                             3%|▎         | 3260/100000 [1:47:59<95:21:11,  3.55s/it]  3%|▎         | 3261/100000 [1:48:01<87:06:09,  3.24s/it]                                                            3%|▎         | 3261/100000 [1:48:01<87:06:09,  3.24s/it]  3%|▎         | 3262/100000 [1:48:04<79:54:41,  2.97s/it]                                                            3%|▎         | 3262/100000 [1:48:04<79:54:41,  2.97s/it]  3%|▎         | 3263/100000 [1:48:06<73:34:57,  2.74s/it]                                                            3%|▎         | 3263/100000 [1:48:06<73:34:57,  2.74s/it]  3%|▎         | 3264/100000 [1:48:08<68:05:45,  2.53s/it]                                                            3%|▎         | 3264/100000 [1:48:08<68:05:45,  2.53s/it]  3%|▎         | 3265/100000 [1:48:10<63:17:10,  2.36s/it]                                                            3%|▎         | 3265/100000 [1:48:10<63:17:10,  2.36s/it]  3%|▎         | 3266/100000 [1:48:12<58:44:35,  2.19s/it]                                                            3%|▎         | 3266/100000 [1:48:12<58:44:35,  2.19s/it]  3%|▎         | 3267/100000 [1:48:13<54:58:35,  2.05s/it]                                                            3%|▎         | 3267/100000 [1:48:13<54:58:35,  2.05s/it]  3%|▎         | 3268/100000 [1:48:15<51:43:20,  1.92s/it]                                                            3%|▎         | 3268/100000 [1:48:15<51:43:20,  1.92s/it]  3%|▎         | 3269/100000 [1:48:17<49:16:36,  1.83s/it]                                                            3%|▎         | 3269/100000 [1:48:17<49:16:36,  1.83s/it]  3%|▎         | 3270/100000 [1:48:18<47:18:52,  1.76s/it]                                                            3%|▎         | 3270/100000 [1:48:18<47:18:52,  1.76s/it]  3%|▎         | 3271/100000 [1:48:20<45:31:23,  1.69s/it]                                                            3%|▎         | 3271/100000 [1:48:20<45:31:23,  1.69s/it]  3%|▎         | 3272/100000 [1:48:21<43:57:17,  1.64s/it]                                                            3%|▎         | 3272/100000 [1:48:21<43:57:17,  1.64s/it]  3%|▎         | 3273/100000 [1:48:23<42:38:55,  1.59s/it]                                                            3%|▎         | 3273/100000 [1:48:23<42:38:55,  1.59s/it]  3%|▎         | 3274/100000 [1:48:24<41:13:36,  1.53s/it]                                                            3%|▎         | 3274/100000 [1:48:24<41:13:36,  1.53s/it]  3%|▎         | 3275/100000 [1:48:26<40:02:14,  1.49s/it]                                                            3%|▎         | 3275/100000 [1:48:26<40:02:14,  1.49s/it]  3%|▎         | 3276/100000 [1:48:27<39:16:55,  1.46s/it]                                                            3%|▎         | 3276/100000 [1:48:27<39:16:55,  1.46s/it]  3%|▎         | 3277/100000 [1:48:28<38:45:47,  1.44s/it]                                                            3%|▎         | 3277/100000 [1:48:28<38:45:47,  1.44s/it]  3%|▎         | 3278/100000 [1:48:30<37:30:26,  1.40s/it]                                                            3%|▎         | 3278/100000 [1:48:30<37:30:26,  1.40s/it]  3%|▎         | 3279/100000 [1:48:31<37:13:00,  1.39s/it]                                                            3%|▎         | 3279/100000 [1:48:31<37:13:00,  1.39s/it]  3%|▎         | 3280/100000 [1:48:32<36:41:41,  1.37s/it]                                                            3%|▎         | 3280/100000 [1:48:32<36:41:41,  1.37s/it]  3%|▎         | 3281/100000 [1:48:34<36:13:32,  1.35s/it]                                                            3%|▎         | 3281/100000 [1:48:34<36:13:32,  1.35s/it]  3%|▎         | 3282/100000 [1:48:35<35:32:09,  1.32s/it]                                                            3%|▎         | 3282/100000 [1:48:35<35:32:09,  1.32s/it]  3%|▎         | 3283/100000 [1:48:36<35:09:02,  1.31s/it]                                                            3%|▎         | 3283/100000 [1:48:36<35:09:02,  1.31s/it]  3%|▎         | 3284/100000 [1:48:37<34:27:44,  1.28s/it]                                                            3%|▎         | 3284/100000 [1:48:37<34:27:44,  1.28s/it]  3%|▎         | 3285/100000 [1:48:39<34:06:50,  1.27s/it]                                                            3%|▎         | 3285/100000 [1:48:39<34:06:50,  1.27s/it]  3%|▎         | 3286/100000 [1:48:40<33:33:07,  1.25s/it]                                                            3%|▎         | 3286/100000 [1:48:40<33:33:07,  1.25s/it]  3%|▎         | 3287/100000 [1:48:41<32:42:10,  1.22s/it]                                                            3%|▎         | 3287/100000 [1:48:41<32:42:10,  1.22s/it]  3%|▎         | 3288/100000 [1:48:42<32:19:00,  1.20s/it]                                                            3%|▎         | 3288/100000 [1:48:42<32:19:00,  1.20s/it]  3%|▎         | 3289/100000 [1:48:43<31:49:29,  1.18s/it]                                                            3%|▎         | 3289/100000 [1:48:43<31:49:29,  1.18s/it]  3%|▎         | 3290/100000 [1:48:44<31:21:32,  1.17s/it]                                                            3%|▎         | 3290/100000 [1:48:44<31:21:32,  1.17s/it]  3%|▎         | 3291/100000 [1:48:46<30:44:35,  1.14s/it]                                                            3%|▎         | 3291/100000 [1:48:46<30:44:35,  1.14s/it]  3%|▎         | 3292/100000 [1:48:47<30:27:47,  1.13s/it]                                                            3%|▎         | 3292/100000 [1:48:47<30:27:47,  1.13s/it]  3%|▎         | 3293/100000 [1:48:48<29:57:08,  1.12s/it]                                                            3%|▎         | 3293/100000 [1:48:48<29:57:08,  1.12s/it]  3%|▎         | 3294/100000 [1:48:49<29:46:48,  1.11s/it]                                                            3%|▎         | 3294/100000 [1:48:49<29:46:48,  1.11s/it]  3%|▎         | 3295/100000 [1:48:50<29:23:31,  1.09s/it]                                                            3%|▎         | 3295/100000 [1:48:50<29:23:31,  1.09s/it]  3%|▎         | 3296/100000 [1:48:51<29:01:33,  1.08s/it]                                                            3%|▎         | 3296/100000 [1:48:51<29:01:33,  1.08s/it]  3%|▎         | 3297/100000 [1:48:52<28:44:27,  1.07s/it]                                                            3%|▎         | 3297/100000 [1:48:52<28:44:27,  1.07s/it]  3%|▎         | 3298/100000 [1:48:53<28:00:38,  1.04s/it]                                                            3%|▎         | 3298/100000 [1:48:53<28:00:38,  1.04s/it]  3%|▎         | 3299/100000 [1:48:54<27:11:18,  1.01s/it]                                                            3%|▎         | 3299/100000 [1:48:54<27:11:18,  1.01s/it]  3%|▎         | 3300/100000 [1:48:55<26:51:06,  1.00it/s]                                                            3%|▎         | 3300/100000 [1:48:55<26:51:06,  1.00it/s]  3%|▎         | 3301/100000 [1:48:56<26:18:26,  1.02it/s]                                                            3%|▎         | 3301/100000 [1:48:56<26:18:26,  1.02it/s]  3%|▎         | 3302/100000 [1:48:57<25:10:50,  1.07it/s]                                                            3%|▎         | 3302/100000 [1:48:57<25:10:50,  1.07it/s]  3%|▎         | 3303/100000 [1:49:07<101:25:21,  3.78s/it]                                                             3%|▎         | 3303/100000 [1:49:07<101:25:21,  3.78s/it]  3%|▎         | 3304/100000 [1:49:12<113:54:26,  4.24s/it]                                                             3%|▎         | 3304/100000 [1:49:12<113:54:26,  4.24s/it]  3%|▎         | 3305/100000 [1:49:17<116:50:04,  4.35s/it]                                                             3%|▎         | 3305/100000 [1:49:17<116:50:04,  4.35s/it]  3%|▎         | 3306/100000 [1:49:21<113:25:35,  4.22s/it]                                                             3%|▎         | 3306/100000 [1:49:21<113:25:35,  4.22s/it]  3%|▎         | 3307/100000 [1:49:24<106:26:48,  3.96s/it]                                                             3%|▎         | 3307/100000 [1:49:24<106:26:48,  3.96s/it]  3%|▎         | 3308/100000 [1:49:27<100:43:07,  3.75s/it]                                                             3%|▎         | 3308/100000 [1:49:27<100:43:07,  3.75s/it]  3%|▎         | 3309/100000 [1:49:30<94:18:30,  3.51s/it]                                                             3%|▎         | 3309/100000 [1:49:30<94:18:30,  3.51s/it]  3%|▎         | 3310/100000 [1:49:33<87:30:17,  3.26s/it]                                                            3%|▎         | 3310/100000 [1:49:33<87:30:17,  3.26s/it]  3%|▎         | 3311/100000 [1:49:35<80:14:48,  2.99s/it]                                                            3%|▎         | 3311/100000 [1:49:35<80:14:48,  2.99s/it]  3%|▎         | 3312/100000 [1:49:38<73:45:40,  2.75s/it]                                                            3%|▎         | 3312/100000 [1:49:38<73:45:40,  2.75s/it]  3%|▎         | 3313/100000 [1:49:40<68:32:58,  2.55s/it]                                                            3%|▎         | 3313/100000 [1:49:40<68:32:58,  2.55s/it]  3%|▎         | 3314/100000 [1:49:42<63:59:44,  2.38s/it]                                                            3%|▎         | 3314/100000 [1:49:42<63:59:44,  2.38s/it]  3%|▎         | 3315/100000 [1:49:44<59:53:39,  2.23s/it]                                                            3%|▎         | 3315/100000 [1:49:44<59:53:39,  2.23s/it]  3%|▎         | 3316/100000 [1:49:45<56:14:33,  2.09s/it]                                                            3%|▎         | 3316/100000 [1:49:45<56:14:33,  2.09s/it]  3%|▎         | 3317/100000 [1:49:47<52:47:14,  1.97s/it]                                                            3%|▎         | 3317/100000 [1:49:47<52:47:14,  1.97s/it]  3%|▎         | 3318/100000 [1:49:49<50:04:52,  1.86s/it]                                                            3%|▎         | 3318/100000 [1:49:49<50:04:52,  1.86s/it]  3%|▎         | 3319/100000 [1:49:50<48:08:59,  1.79s/it]                                                            3%|▎         | 3319/100000 [1:49:50<48:08:59,  1.79s/it]  3%|▎         | 3320/100000 [1:49:52<46:27:58,  1.73s/it]                                                            3%|▎         | 3320/100000 [1:49:52<46:27:58,  1.73s/it]  3%|▎         | 3321/100000 [1:49:53<44:33:44,  1.66s/it]                                                            3%|▎         | 3321/100000 [1:49:53<44:33:44,  1.66s/it]  3%|▎         | 3322/100000 [1:49:55<42:38:28,  1.59s/it]                                                            3%|▎         | 3322/100000 [1:49:55<42:38:28,  1.59s/it]  3%|▎         | 3323/100000 [1:49:56<41:34:54,  1.55s/it]                                                            3%|▎         | 3323/100000 [1:49:56<41:34:54,  1.55s/it]  3%|▎         | 3324/100000 [1:49:58<40:26:09,  1.51s/it]                                                            3%|▎         | 3324/100000 [1:49:58<40:26:09,  1.51s/it]  3%|▎         | 3325/100000 [1:49:59<39:33:11,  1.47s/it]                                                            3%|▎         | 3325/100000 [1:49:59<39:33:11,  1.47s/it]  3%|▎         | 3326/100000 [1:50:00<38:58:25,  1.45s/it]                                                            3%|▎         | 3326/100000 [1:50:00<38:58:25,  1.45s/it]  3%|▎         | 3327/100000 [1:50:02<37:46:02,  1.41s/it]                                                            3%|▎         | 3327/100000 [1:50:02<37:46:02,  1.41s/it]  3%|▎         | 3328/100000 [1:50:03<37:08:56,  1.38s/it]                                                            3%|▎         | 3328/100000 [1:50:03<37:08:56,  1.38s/it]  3%|▎         | 3329/100000 [1:50:04<36:21:19,  1.35s/it]                                                            3%|▎         | 3329/100000 [1:50:04<36:21:19,  1.35s/it]  3%|▎         | 3330/100000 [1:50:06<35:58:05,  1.34s/it]                                                            3%|▎         | 3330/100000 [1:50:06<35:58:05,  1.34s/it]  3%|▎         | 3331/100000 [1:50:07<35:24:38,  1.32s/it]                                                            3%|▎         | 3331/100000 [1:50:07<35:24:38,  1.32s/it]  3%|▎         | 3332/100000 [1:50:08<35:09:33,  1.31s/it]                                                            3%|▎         | 3332/100000 [1:50:08<35:09:33,  1.31s/it]  3%|▎         | 3333/100000 [1:50:09<34:39:06,  1.29s/it]                                                            3%|▎         | 3333/100000 [1:50:09<34:39:06,  1.29s/it]  3%|▎         | 3334/100000 [1:50:11<34:04:15,  1.27s/it]                                                            3%|▎         | 3334/100000 [1:50:11<34:04:15,  1.27s/it]  3%|▎         | 3335/100000 [1:50:12<33:44:02,  1.26s/it]                                                            3%|▎         | 3335/100000 [1:50:12<33:44:02,  1.26s/it]  3%|▎         | 3336/100000 [1:50:13<32:51:10,  1.22s/it]                                                            3%|▎         | 3336/100000 [1:50:13<32:51:10,  1.22s/it]  3%|▎         | 3337/100000 [1:50:14<32:15:15,  1.20s/it]                                                            3%|▎         | 3337/100000 [1:50:14<32:15:15,  1.20s/it]  3%|▎         | 3338/100000 [1:50:15<31:52:15,  1.19s/it]                                                          {'loss': 0.4651, 'grad_norm': 4.04020881652832, 'learning_rate': 9.75e-06, 'epoch': 6.0}
+{'loss': 0.309, 'grad_norm': 1.0397669076919556, 'learning_rate': 9.753e-06, 'epoch': 6.0}
+{'loss': 0.2448, 'grad_norm': 0.9423261284828186, 'learning_rate': 9.756e-06, 'epoch': 6.01}
+{'loss': 0.2676, 'grad_norm': 1.156479001045227, 'learning_rate': 9.759e-06, 'epoch': 6.01}
+{'loss': 0.2602, 'grad_norm': 1.2824240922927856, 'learning_rate': 9.762e-06, 'epoch': 6.01}
+{'loss': 0.2751, 'grad_norm': 1.766750693321228, 'learning_rate': 9.765e-06, 'epoch': 6.01}
+{'loss': 0.2036, 'grad_norm': 1.0178364515304565, 'learning_rate': 9.768e-06, 'epoch': 6.01}
+{'loss': 0.2316, 'grad_norm': 1.1608028411865234, 'learning_rate': 9.771e-06, 'epoch': 6.01}
+{'loss': 0.1741, 'grad_norm': 0.907696545124054, 'learning_rate': 9.774e-06, 'epoch': 6.02}
+{'loss': 0.1648, 'grad_norm': 0.8990158438682556, 'learning_rate': 9.777000000000001e-06, 'epoch': 6.02}
+{'loss': 0.1243, 'grad_norm': 3.445403575897217, 'learning_rate': 9.780000000000001e-06, 'epoch': 6.02}
+{'loss': 0.1855, 'grad_norm': 1.2290663719177246, 'learning_rate': 9.783000000000001e-06, 'epoch': 6.02}
+{'loss': 0.1791, 'grad_norm': 1.3456010818481445, 'learning_rate': 9.785999999999999e-06, 'epoch': 6.02}
+{'loss': 0.07, 'grad_norm': 0.5856161713600159, 'learning_rate': 9.788999999999999e-06, 'epoch': 6.03}
+{'loss': 0.0652, 'grad_norm': 1.00753915309906, 'learning_rate': 9.792e-06, 'epoch': 6.03}
+{'loss': 0.1259, 'grad_norm': 2.3274526596069336, 'learning_rate': 9.795e-06, 'epoch': 6.03}
+{'loss': 0.0732, 'grad_norm': 0.6562830209732056, 'learning_rate': 9.798e-06, 'epoch': 6.03}
+{'loss': 0.0442, 'grad_norm': 0.6230347156524658, 'learning_rate': 9.801e-06, 'epoch': 6.03}
+{'loss': 0.0849, 'grad_norm': 1.4482897520065308, 'learning_rate': 9.804e-06, 'epoch': 6.04}
+{'loss': 0.1102, 'grad_norm': 0.9868390560150146, 'learning_rate': 9.807000000000001e-06, 'epoch': 6.04}
+{'loss': 0.0647, 'grad_norm': 0.7521336078643799, 'learning_rate': 9.810000000000001e-06, 'epoch': 6.04}
+{'loss': 0.0647, 'grad_norm': 0.8148708343505859, 'learning_rate': 9.813e-06, 'epoch': 6.04}
+{'loss': 0.0503, 'grad_norm': 0.6797977089881897, 'learning_rate': 9.816e-06, 'epoch': 6.04}
+{'loss': 0.0674, 'grad_norm': 0.947433352470398, 'learning_rate': 9.819e-06, 'epoch': 6.04}
+{'loss': 0.0542, 'grad_norm': 0.7319151163101196, 'learning_rate': 9.822e-06, 'epoch': 6.05}
+{'loss': 0.0562, 'grad_norm': 0.9400285482406616, 'learning_rate': 9.825e-06, 'epoch': 6.05}
+{'loss': 0.0659, 'grad_norm': 0.8096341490745544, 'learning_rate': 9.828e-06, 'epoch': 6.05}
+{'loss': 0.0398, 'grad_norm': 0.7864410877227783, 'learning_rate': 9.831e-06, 'epoch': 6.05}
+{'loss': 0.032, 'grad_norm': 0.5510549545288086, 'learning_rate': 9.834e-06, 'epoch': 6.05}
+{'loss': 0.0455, 'grad_norm': 0.7736632823944092, 'learning_rate': 9.837000000000001e-06, 'epoch': 6.06}
+{'loss': 0.0418, 'grad_norm': 0.6081624031066895, 'learning_rate': 9.84e-06, 'epoch': 6.06}
+{'loss': 0.0372, 'grad_norm': 0.4802582263946533, 'learning_rate': 9.843e-06, 'epoch': 6.06}
+{'loss': 0.0533, 'grad_norm': 0.7252798080444336, 'learning_rate': 9.846e-06, 'epoch': 6.06}
+{'loss': 0.0556, 'grad_norm': 1.2600115537643433, 'learning_rate': 9.849e-06, 'epoch': 6.06}
+{'loss': 0.0525, 'grad_norm': 0.8759087324142456, 'learning_rate': 9.852000000000002e-06, 'epoch': 6.06}
+{'loss': 0.0419, 'grad_norm': 0.804162323474884, 'learning_rate': 9.855000000000001e-06, 'epoch': 6.07}
+{'loss': 0.0605, 'grad_norm': 1.3809750080108643, 'learning_rate': 9.858000000000001e-06, 'epoch': 6.07}
+{'loss': 0.0287, 'grad_norm': 0.7179027199745178, 'learning_rate': 9.861e-06, 'epoch': 6.07}
+{'loss': 0.0409, 'grad_norm': 0.9235922694206238, 'learning_rate': 9.863999999999999e-06, 'epoch': 6.07}
+{'loss': 0.0469, 'grad_norm': 0.9280220866203308, 'learning_rate': 9.867e-06, 'epoch': 6.07}
+{'loss': 0.0495, 'grad_norm': 0.7803265452384949, 'learning_rate': 9.87e-06, 'epoch': 6.08}
+{'loss': 0.0719, 'grad_norm': 1.1641448736190796, 'learning_rate': 9.873e-06, 'epoch': 6.08}
+{'loss': 0.0526, 'grad_norm': 1.104889988899231, 'learning_rate': 9.876e-06, 'epoch': 6.08}
+{'loss': 0.0464, 'grad_norm': 0.7316168546676636, 'learning_rate': 9.879e-06, 'epoch': 6.08}
+{'loss': 0.0445, 'grad_norm': 0.9376199841499329, 'learning_rate': 9.882000000000001e-06, 'epoch': 6.08}
+{'loss': 0.0469, 'grad_norm': 1.3941532373428345, 'learning_rate': 9.885000000000001e-06, 'epoch': 6.08}
+{'loss': 0.0497, 'grad_norm': 1.170428991317749, 'learning_rate': 9.888000000000001e-06, 'epoch': 6.09}
+{'loss': 0.0568, 'grad_norm': 1.5209548473358154, 'learning_rate': 9.891e-06, 'epoch': 6.09}
+{'loss': 0.0565, 'grad_norm': 1.155193567276001, 'learning_rate': 9.894e-06, 'epoch': 6.09}
+{'loss': 0.0667, 'grad_norm': 2.590714454650879, 'learning_rate': 9.897e-06, 'epoch': 6.09}
+{'loss': 0.3806, 'grad_norm': 3.278620719909668, 'learning_rate': 9.9e-06, 'epoch': 6.09}
+{'loss': 0.2242, 'grad_norm': 1.313486933708191, 'learning_rate': 9.903e-06, 'epoch': 6.1}
+{'loss': 0.2646, 'grad_norm': 1.0118507146835327, 'learning_rate': 9.906e-06, 'epoch': 6.1}
+{'loss': 0.2251, 'grad_norm': 1.1909503936767578, 'learning_rate': 9.909e-06, 'epoch': 6.1}
+{'loss': 0.3316, 'grad_norm': 0.9937542080879211, 'learning_rate': 9.912000000000001e-06, 'epoch': 6.1}
+{'loss': 0.2589, 'grad_norm': 1.0816807746887207, 'learning_rate': 9.915e-06, 'epoch': 6.1}
+{'loss': 0.1592, 'grad_norm': 1.0621750354766846, 'learning_rate': 9.918e-06, 'epoch': 6.11}
+{'loss': 0.1717, 'grad_norm': 1.1883070468902588, 'learning_rate': 9.921e-06, 'epoch': 6.11}
+{'loss': 0.1371, 'grad_norm': 0.8285554051399231, 'learning_rate': 9.924e-06, 'epoch': 6.11}
+{'loss': 0.1727, 'grad_norm': 0.8814343810081482, 'learning_rate': 9.927000000000002e-06, 'epoch': 6.11}
+{'loss': 0.1265, 'grad_norm': 1.0420233011245728, 'learning_rate': 9.930000000000001e-06, 'epoch': 6.11}
+{'loss': 0.1131, 'grad_norm': 2.53212833404541, 'learning_rate': 9.933e-06, 'epoch': 6.11}
+{'loss': 0.116, 'grad_norm': 1.1509301662445068, 'learning_rate': 9.936e-06, 'epoch': 6.12}
+{'loss': 0.1217, 'grad_norm': 1.1868430376052856, 'learning_rate': 9.939e-06, 'epoch': 6.12}
+{'loss': 0.0611, 'grad_norm': 0.652368426322937, 'learning_rate': 9.941999999999999e-06, 'epoch': 6.12}
+{'loss': 0.0494, 'grad_norm': 0.6359832882881165, 'learning_rate': 9.945e-06, 'epoch': 6.12}
+{'loss': 0.0672, 'grad_norm': 0.8224269151687622, 'learning_rate': 9.948e-06, 'epoch': 6.12}
+{'loss': 0.0513, 'grad_norm': 0.6548646092414856, 'learning_rate': 9.951e-06, 'epoch': 6.13}
+{'loss': 0.0395, 'grad_norm': 0.6966165900230408, 'learning_rate': 9.954e-06, 'epoch': 6.13}
+{'loss': 0.0374, 'grad_norm': 0.4571305513381958, 'learning_rate': 9.957e-06, 'epoch': 6.13}
+{'loss': 0.0372, 'grad_norm': 0.6777710318565369, 'learning_rate': 9.960000000000001e-06, 'epoch': 6.13}
+{'loss': 0.0537, 'grad_norm': 0.8258435726165771, 'learning_rate': 9.963000000000001e-06, 'epoch': 6.13}
+{'loss': 0.0385, 'grad_norm': 0.6122437715530396, 'learning_rate': 9.966e-06, 'epoch': 6.13}
+{'loss': 0.0367, 'grad_norm': 0.7694428563117981, 'learning_rate': 9.969e-06, 'epoch': 6.14}
+{'loss': 0.0426, 'grad_norm': 0.7247572541236877, 'learning_rate': 9.971999999999999e-06, 'epoch': 6.14}
+{'loss': 0.0513, 'grad_norm': 0.7571830153465271, 'learning_rate': 9.975e-06, 'epoch': 6.14}
+{'loss': 0.0392, 'grad_norm': 0.9954696893692017, 'learning_rate': 9.978e-06, 'epoch': 6.14}
+{'loss': 0.0635, 'grad_norm': 1.1376701593399048, 'learning_rate': 9.981e-06, 'epoch': 6.14}
+{'loss': 0.0433, 'grad_norm': 0.7513870000839233, 'learning_rate': 9.984e-06, 'epoch': 6.15}
+{'loss': 0.0551, 'grad_norm': 1.4481124877929688, 'learning_rate': 9.987e-06, 'epoch': 6.15}
+{'loss': 0.0488, 'grad_norm': 0.7296556830406189, 'learning_rate': 9.990000000000001e-06, 'epoch': 6.15}
+{'loss': 0.0348, 'grad_norm': 0.6062530279159546, 'learning_rate': 9.993e-06, 'epoch': 6.15}
+{'loss': 0.0416, 'grad_norm': 0.5732892751693726, 'learning_rate': 9.996e-06, 'epoch': 6.15}
+{'loss': 0.0382, 'grad_norm': 0.7242116332054138, 'learning_rate': 9.999e-06, 'epoch': 6.16}
+{'loss': 0.0386, 'grad_norm': 0.647824764251709, 'learning_rate': 1.0002e-05, 'epoch': 6.16}
+  3%|▎         | 3338/100000 [1:50:15<31:52:15,  1.19s/it]  3%|▎         | 3339/100000 [1:50:16<31:23:03,  1.17s/it]                                                            3%|▎         | 3339/100000 [1:50:17<31:23:03,  1.17s/it]  3%|▎         | 3340/100000 [1:50:18<30:50:32,  1.15s/it]                                                            3%|▎         | 3340/100000 [1:50:18<30:50:32,  1.15s/it]  3%|▎         | 3341/100000 [1:50:19<30:26:33,  1.13s/it]                                                            3%|▎         | 3341/100000 [1:50:19<30:26:33,  1.13s/it]  3%|▎         | 3342/100000 [1:50:20<29:54:42,  1.11s/it]                                                            3%|▎         | 3342/100000 [1:50:20<29:54:42,  1.11s/it]  3%|▎         | 3343/100000 [1:50:21<29:45:22,  1.11s/it]                                                            3%|▎         | 3343/100000 [1:50:21<29:45:22,  1.11s/it]  3%|▎         | 3344/100000 [1:50:22<29:27:39,  1.10s/it]                                                            3%|▎         | 3344/100000 [1:50:22<29:27:39,  1.10s/it]  3%|▎         | 3345/100000 [1:50:23<29:01:35,  1.08s/it]                                                            3%|▎         | 3345/100000 [1:50:23<29:01:35,  1.08s/it]  3%|▎         | 3346/100000 [1:50:24<28:31:55,  1.06s/it]                                                            3%|▎         | 3346/100000 [1:50:24<28:31:55,  1.06s/it]  3%|▎         | 3347/100000 [1:50:25<27:56:49,  1.04s/it]                                                            3%|▎         | 3347/100000 [1:50:25<27:56:49,  1.04s/it]  3%|▎         | 3348/100000 [1:50:26<27:19:04,  1.02s/it]                                                            3%|▎         | 3348/100000 [1:50:26<27:19:04,  1.02s/it]  3%|▎         | 3349/100000 [1:50:27<26:39:03,  1.01it/s]                                                            3%|▎         | 3349/100000 [1:50:27<26:39:03,  1.01it/s]  3%|▎         | 3350/100000 [1:50:28<25:58:32,  1.03it/s]                                                            3%|▎         | 3350/100000 [1:50:28<25:58:32,  1.03it/s]  3%|▎         | 3351/100000 [1:50:29<25:24:13,  1.06it/s]                                                            3%|▎         | 3351/100000 [1:50:29<25:24:13,  1.06it/s]  3%|▎         | 3352/100000 [1:50:30<25:08:51,  1.07it/s]                                                            3%|▎         | 3352/100000 [1:50:30<25:08:51,  1.07it/s]  3%|▎         | 3353/100000 [1:50:42<114:44:20,  4.27s/it]                                                             3%|▎         | 3353/100000 [1:50:42<114:44:20,  4.27s/it]  3%|▎         | 3354/100000 [1:50:47<125:23:04,  4.67s/it]                                                             3%|▎         | 3354/100000 [1:50:47<125:23:04,  4.67s/it]  3%|▎         | 3355/100000 [1:50:52<125:42:52,  4.68s/it]                                                             3%|▎         | 3355/100000 [1:50:52<125:42:52,  4.68s/it]  3%|▎         | 3356/100000 [1:50:56<120:21:58,  4.48s/it]                                                             3%|▎         | 3356/100000 [1:50:56<120:21:58,  4.48s/it]  3%|▎         | 3357/100000 [1:51:00<113:38:58,  4.23s/it]                                                             3%|▎         | 3357/100000 [1:51:00<113:38:58,  4.23s/it]  3%|▎         | 3358/100000 [1:51:03<105:53:13,  3.94s/it]                                                             3%|▎         | 3358/100000 [1:51:03<105:53:13,  3.94s/it]  3%|▎         | 3359/100000 [1:51:06<98:32:22,  3.67s/it]                                                             3%|▎         | 3359/100000 [1:51:06<98:32:22,  3.67s/it]  3%|▎         | 3360/100000 [1:51:09<91:46:35,  3.42s/it]                                                            3%|▎         | 3360/100000 [1:51:09<91:46:35,  3.42s/it]  3%|▎         | 3361/100000 [1:51:11<84:32:08,  3.15s/it]                                                            3%|▎         | 3361/100000 [1:51:11<84:32:08,  3.15s/it]  3%|▎         | 3362/100000 [1:51:14<78:06:28,  2.91s/it]                                                            3%|▎         | 3362/100000 [1:51:14<78:06:28,  2.91s/it]  3%|▎         | 3363/100000 [1:51:16<72:02:46,  2.68s/it]                                                            3%|▎         | 3363/100000 [1:51:16<72:02:46,  2.68s/it]  3%|▎         | 3364/100000 [1:51:18<66:24:09,  2.47s/it]                                                            3%|▎         | 3364/100000 [1:51:18<66:24:09,  2.47s/it]  3%|▎         | 3365/100000 [1:51:20<61:07:17,  2.28s/it]                                                            3%|▎         | 3365/100000 [1:51:20<61:07:17,  2.28s/it]  3%|▎         | 3366/100000 [1:51:21<57:00:57,  2.12s/it]                                                            3%|▎         | 3366/100000 [1:51:21<57:00:57,  2.12s/it]  3%|▎         | 3367/100000 [1:51:23<53:29:48,  1.99s/it]                                                            3%|▎         | 3367/100000 [1:51:23<53:29:48,  1.99s/it]  3%|▎         | 3368/100000 [1:51:25<50:37:29,  1.89s/it]                                                            3%|▎         | 3368/100000 [1:51:25<50:37:29,  1.89s/it]  3%|▎         | 3369/100000 [1:51:26<48:20:45,  1.80s/it]                                                            3%|▎         | 3369/100000 [1:51:26<48:20:45,  1.80s/it]  3%|▎         | 3370/100000 [1:51:28<46:04:42,  1.72s/it]                                                            3%|▎         | 3370/100000 [1:51:28<46:04:42,  1.72s/it]  3%|▎         | 3371/100000 [1:51:29<43:51:56,  1.63s/it]                                                            3%|▎         | 3371/100000 [1:51:29<43:51:56,  1.63s/it]  3%|▎         | 3372/100000 [1:51:31<42:25:35,  1.58s/it]                                                            3%|▎         | 3372/100000 [1:51:31<42:25:35,  1.58s/it]  3%|▎         | 3373/100000 [1:51:32<40:59:05,  1.53s/it]                                                            3%|▎         | 3373/100000 [1:51:32<40:59:05,  1.53s/it]  3%|▎         | 3374/100000 [1:51:34<40:00:43,  1.49s/it]                                                            3%|▎         | 3374/100000 [1:51:34<40:00:43,  1.49s/it]  3%|▎         | 3375/100000 [1:51:35<38:52:00,  1.45s/it]                                                            3%|▎         | 3375/100000 [1:51:35<38:52:00,  1.45s/it]  3%|▎         | 3376/100000 [1:51:36<38:16:05,  1.43s/it]                                                            3%|▎         | 3376/100000 [1:51:36<38:16:05,  1.43s/it]  3%|▎         | 3377/100000 [1:51:38<37:38:18,  1.40s/it]                                                            3%|▎         | 3377/100000 [1:51:38<37:38:18,  1.40s/it]  3%|▎         | 3378/100000 [1:51:39<37:09:54,  1.38s/it]                                                            3%|▎         | 3378/100000 [1:51:39<37:09:54,  1.38s/it]  3%|▎         | 3379/100000 [1:51:40<36:25:38,  1.36s/it]                                                            3%|▎         | 3379/100000 [1:51:40<36:25:38,  1.36s/it]  3%|▎         | 3380/100000 [1:51:42<36:00:59,  1.34s/it]                                                            3%|▎         | 3380/100000 [1:51:42<36:00:59,  1.34s/it]  3%|▎         | 3381/100000 [1:51:43<35:28:50,  1.32s/it]                                                            3%|▎         | 3381/100000 [1:51:43<35:28:50,  1.32s/it]  3%|▎         | 3382/100000 [1:51:44<35:08:05,  1.31s/it]                                                            3%|▎         | 3382/100000 [1:51:44<35:08:05,  1.31s/it]  3%|▎         | 3383/100000 [1:51:45<34:41:33,  1.29s/it]                                                            3%|▎         | 3383/100000 [1:51:45<34:41:33,  1.29s/it]  3%|▎         | 3384/100000 [1:51:47<34:18:26,  1.28s/it]                                                            3%|▎         | 3384/100000 [1:51:47<34:18:26,  1.28s/it]  3%|▎         | 3385/100000 [1:51:48<33:46:31,  1.26s/it]                                                            3%|▎         | 3385/100000 [1:51:48<33:46:31,  1.26s/it]  3%|▎         | 3386/100000 [1:51:49<32:55:20,  1.23s/it]                                                            3%|▎         | 3386/100000 [1:51:49<32:55:20,  1.23s/it]  3%|▎         | 3387/100000 [1:51:50<32:21:51,  1.21s/it]                                                            3%|▎         | 3387/100000 [1:51:50<32:21:51,  1.21s/it]  3%|▎         | 3388/100000 [1:51:51<31:39:38,  1.18s/it]                                                            3%|▎         | 3388/100000 [1:51:51<31:39:38,  1.18s/it]  3%|▎         | 3389/100000 [1:51:52<31:16:07,  1.17s/it]                                                            3%|▎         | 3389/100000 [1:51:52<31:16:07,  1.17s/it]  3%|▎         | 3390/100000 [1:51:54<31:09:12,  1.16s/it]                                                            3%|▎         | 3390/100000 [1:51:54<31:09:12,  1.16s/it]  3%|▎         | 3391/100000 [1:51:55<30:38:58,  1.14s/it]                                                            3%|▎         | 3391/100000 [1:51:55<30:38:58,  1.14s/it]  3%|▎         | 3392/100000 [1:51:56<30:13:12,  1.13s/it]                                                            3%|▎         | 3392/100000 [1:51:56<30:13:12,  1.13s/it]  3%|▎         | 3393/100000 [1:51:57<29:39:01,  1.10s/it]                                                            3%|▎         | 3393/100000 [1:51:57<29:39:01,  1.10s/it]  3%|▎         | 3394/100000 [1:51:58<29:30:49,  1.10s/it]                                                            3%|▎         | 3394/100000 [1:51:58<29:30:49,  1.10s/it]  3%|▎         | 3395/100000 [1:51:59<29:08:51,  1.09s/it]                                                            3%|▎         | 3395/100000 [1:51:59<29:08:51,  1.09s/it]  3%|▎         | 3396/100000 [1:52:00<28:53:21,  1.08s/it]                                                            3%|▎         | 3396/100000 [1:52:00<28:53:21,  1.08s/it]  3%|▎         | 3397/100000 [1:52:01<28:31:38,  1.06s/it]                                                            3%|▎         | 3397/100000 [1:52:01<28:31:38,  1.06s/it]  3%|▎         | 3398/100000 [1:52:02<27:50:56,  1.04s/it]                                                            3%|▎         | 3398/100000 [1:52:02<27:50:56,  1.04s/it]  3%|▎         | 3399/100000 [1:52:03<27:31:33,  1.03s/it]                                                            3%|▎         | 3399/100000 [1:52:03<27:31:33,  1.03s/it]  3%|▎         | 3400/100000 [1:52:04<27:15:37,  1.02s/it]                                                            3%|▎         | 3400/100000 [1:52:04<27:15:37,  1.02s/it]  3%|▎         | 3401/100000 [1:52:05<26:39:10,  1.01it/s]                                                            3%|▎         | 3401/100000 [1:52:05<26:39:10,  1.01it/s]  3%|▎         | 3402/100000 [1:52:06<25:40:31,  1.05it/s]                                                            3%|▎         | 3402/100000 [1:52:06<25:40:31,  1.05it/s]  3%|▎         | 3403/100000 [1:52:17<110:44:49,  4.13s/it]                                                             3%|▎         | 3403/100000 [1:52:17<110:44:49,  4.13s/it]  3%|▎         | 3404/100000 [1:52:23<127:13:58,  4.74s/it]                                                             3%|▎         | 3404/100000 [1:52:23<127:13:58,  4.74s/it]  3%|▎         | 3405/100000 [1:52:28<125:43:11,  4.69s/it]                                                             3%|▎         | 3405/100000 [1:52:28<125:43:11,  4.69s/it]  3%|▎         | 3406/100000 [1:52:32<121:15:23,  4.52s/it]                                                             3%|▎         | 3406/100000 [1:52:32<121:15:23,  4.52s/it]  3%|▎         | 3407/100000 [1:52:36<114:01:21,  4.25s/it]                                                             3%|▎         | 3407/100000 [1:52:36<114:01:21,  4.25s/it]  3%|▎         | 3408/100000 [1:52:39<105:54:24,  3.95s/it]                                                             3%|▎         | 3408/100000 [1:52:39<105:54:24,  3.95s/it]  3%|▎         | 3409/100000 [1:52:42<97:42:35,  3.64s/it]                                                             3%|▎         | 3409/100000 [1:52:42<97:42:35,  3.64s/it]  3%|▎         | 3410/100000 [1:52:45<89:30:49,  3.34s/it]                                                            3%|▎         | 3410/100000 [1:52:45<89:30:49,  3.34s/it]  3%|▎         | 3411/100000 [1:52:47<82:44:46,  3.08s/it]                                                            3%|▎         | 3411/100000 [1:52:47<82:44:46,  3.08s/it]  3%|▎         | 3412/100000 [1:52:49<76:38:06,  2.86s/it]                                                            3%|▎         | 3412/100000 [1:52:49<76:38:06,  2.86s/it]  3%|▎         | 3413/100000 [1:52:51<70:26:38,  2.63s/it]                                                            3%|▎         | 3413/100000 [1:52:51<70:26:38,  2.63s/it]  3%|▎         | 3414/100000 [1:52:54<65:39:28,  2.45s/it]                                                            3%|▎         | 3414/100000 [1:52:54<65:39:28,  2.45s/it]  3%|▎         | 3415/100000 [1:52:55<61:33:20,  2.29s/it]                                                            3%|▎         | 3415/100000 [1:52:55<61:33:20,  2.29s/it]  3%|▎         | 3416/100000 [1:52:57<57:37:34,  2.15s/it]                                                            3%|▎         | 3416/100000 [1:52:57<57:37:34,  2.15s/it]  3%|▎         | 3417/100000 [1:52:59<54:23:11,  2.03s/it]                                                            3%|▎         | 3417/100000 [1:52:59<54:23:11,  2.03s/it]  3%|▎         | 3418/100000 [1:53:01<51:07:09,  1.91s/it]                                                            3%|▎         | 3418/100000 [1:53:01<51:07:09,  1.91s/it]  3%|▎         | 3419/100000 [1:53:02<48:35:56,  1.81s/it]                                                            3%|▎         | 3419/100000 [1:53:02<48:35:56,  1.81s/it]  3%|▎         | 3420/100000 [1:53:04<46:34:45,  1.74s/it]                                                            3%|▎         | 3420/100000 [1:53:04<46:34:45,  1.74s/it]  3%|▎         | 3421/100000 [1:53:05<44:39:35,  1.66s/it]                                                            3%|▎         | 3421/100000 [1:53:05<44:39:35,  1.66s/it]  3%|▎         | 3422/100000 [1:53:07<43:00:31,  1.60s/it]                                                          {'loss': 0.0536, 'grad_norm': 0.9212784767150879, 'learning_rate': 1.0005000000000002e-05, 'epoch': 6.16}
+{'loss': 0.0366, 'grad_norm': 0.6482663750648499, 'learning_rate': 1.0008e-05, 'epoch': 6.16}
+{'loss': 0.0496, 'grad_norm': 1.459087610244751, 'learning_rate': 1.0011e-05, 'epoch': 6.16}
+{'loss': 0.0367, 'grad_norm': 0.783748984336853, 'learning_rate': 1.0014e-05, 'epoch': 6.16}
+{'loss': 0.0532, 'grad_norm': 0.9266418814659119, 'learning_rate': 1.0016999999999999e-05, 'epoch': 6.17}
+{'loss': 0.0372, 'grad_norm': 0.7052007913589478, 'learning_rate': 1.002e-05, 'epoch': 6.17}
+{'loss': 0.0545, 'grad_norm': 0.6519185900688171, 'learning_rate': 1.0023e-05, 'epoch': 6.17}
+{'loss': 0.0547, 'grad_norm': 1.20285964012146, 'learning_rate': 1.0026e-05, 'epoch': 6.17}
+{'loss': 0.0724, 'grad_norm': 0.860680341720581, 'learning_rate': 1.0029e-05, 'epoch': 6.17}
+{'loss': 0.0394, 'grad_norm': 1.4246987104415894, 'learning_rate': 1.0032e-05, 'epoch': 6.18}
+{'loss': 0.0629, 'grad_norm': 0.8983826041221619, 'learning_rate': 1.0035000000000001e-05, 'epoch': 6.18}
+{'loss': 0.1254, 'grad_norm': 1.397816777229309, 'learning_rate': 1.0038000000000001e-05, 'epoch': 6.18}
+{'loss': 0.0647, 'grad_norm': 1.3739649057388306, 'learning_rate': 1.0041000000000001e-05, 'epoch': 6.18}
+{'loss': 0.0846, 'grad_norm': 1.1440520286560059, 'learning_rate': 1.0043999999999999e-05, 'epoch': 6.18}
+{'loss': 0.0599, 'grad_norm': 0.9402255415916443, 'learning_rate': 1.0046999999999999e-05, 'epoch': 6.18}
+{'loss': 0.3815, 'grad_norm': 1.4966752529144287, 'learning_rate': 1.005e-05, 'epoch': 6.19}
+{'loss': 0.4318, 'grad_norm': 2.027479410171509, 'learning_rate': 1.0053e-05, 'epoch': 6.19}
+{'loss': 0.2883, 'grad_norm': 1.0403293371200562, 'learning_rate': 1.0056e-05, 'epoch': 6.19}
+{'loss': 0.2647, 'grad_norm': 1.2776825428009033, 'learning_rate': 1.0059e-05, 'epoch': 6.19}
+{'loss': 0.3148, 'grad_norm': 1.1058181524276733, 'learning_rate': 1.0062e-05, 'epoch': 6.19}
+{'loss': 0.2302, 'grad_norm': 1.2859538793563843, 'learning_rate': 1.0065000000000001e-05, 'epoch': 6.2}
+{'loss': 0.1434, 'grad_norm': 0.7337931990623474, 'learning_rate': 1.0068e-05, 'epoch': 6.2}
+{'loss': 0.171, 'grad_norm': 0.8204769492149353, 'learning_rate': 1.0071e-05, 'epoch': 6.2}
+{'loss': 0.1954, 'grad_norm': 1.006606936454773, 'learning_rate': 1.0074e-05, 'epoch': 6.2}
+{'loss': 0.1727, 'grad_norm': 1.0071405172348022, 'learning_rate': 1.0077e-05, 'epoch': 6.2}
+{'loss': 0.1355, 'grad_norm': 1.1923887729644775, 'learning_rate': 1.008e-05, 'epoch': 6.2}
+{'loss': 0.1401, 'grad_norm': 0.8156916499137878, 'learning_rate': 1.0083e-05, 'epoch': 6.21}
+{'loss': 0.1544, 'grad_norm': 0.9403882622718811, 'learning_rate': 1.0086e-05, 'epoch': 6.21}
+{'loss': 0.1383, 'grad_norm': 1.117945909500122, 'learning_rate': 1.0089e-05, 'epoch': 6.21}
+{'loss': 0.0692, 'grad_norm': 0.7493522763252258, 'learning_rate': 1.0092e-05, 'epoch': 6.21}
+{'loss': 0.0472, 'grad_norm': 0.5226987600326538, 'learning_rate': 1.0095e-05, 'epoch': 6.21}
+{'loss': 0.1062, 'grad_norm': 0.7401248812675476, 'learning_rate': 1.0098e-05, 'epoch': 6.22}
+{'loss': 0.0539, 'grad_norm': 1.0519952774047852, 'learning_rate': 1.0101e-05, 'epoch': 6.22}
+{'loss': 0.0369, 'grad_norm': 0.8793032765388489, 'learning_rate': 1.0104e-05, 'epoch': 6.22}
+{'loss': 0.0343, 'grad_norm': 0.48777708411216736, 'learning_rate': 1.0107e-05, 'epoch': 6.22}
+{'loss': 0.0572, 'grad_norm': 0.5694409608840942, 'learning_rate': 1.0110000000000001e-05, 'epoch': 6.22}
+{'loss': 0.0681, 'grad_norm': 0.7707429528236389, 'learning_rate': 1.0113000000000001e-05, 'epoch': 6.23}
+{'loss': 0.0453, 'grad_norm': 0.722528338432312, 'learning_rate': 1.0116000000000001e-05, 'epoch': 6.23}
+{'loss': 0.0526, 'grad_norm': 0.834453821182251, 'learning_rate': 1.0119e-05, 'epoch': 6.23}
+{'loss': 0.0596, 'grad_norm': 0.9907567501068115, 'learning_rate': 1.0121999999999999e-05, 'epoch': 6.23}
+{'loss': 0.029, 'grad_norm': 0.581995964050293, 'learning_rate': 1.0125e-05, 'epoch': 6.23}
+{'loss': 0.0362, 'grad_norm': 0.6852633357048035, 'learning_rate': 1.0128e-05, 'epoch': 6.23}
+{'loss': 0.0437, 'grad_norm': 0.7753766179084778, 'learning_rate': 1.0131e-05, 'epoch': 6.24}
+{'loss': 0.0413, 'grad_norm': 0.6445023417472839, 'learning_rate': 1.0134e-05, 'epoch': 6.24}
+{'loss': 0.0544, 'grad_norm': 0.8584773540496826, 'learning_rate': 1.0137e-05, 'epoch': 6.24}
+{'loss': 0.0642, 'grad_norm': 0.7375549674034119, 'learning_rate': 1.0140000000000001e-05, 'epoch': 6.24}
+{'loss': 0.0714, 'grad_norm': 2.494497299194336, 'learning_rate': 1.0143000000000001e-05, 'epoch': 6.24}
+{'loss': 0.0398, 'grad_norm': 0.6620352864265442, 'learning_rate': 1.0146e-05, 'epoch': 6.25}
+{'loss': 0.0546, 'grad_norm': 0.6307715773582458, 'learning_rate': 1.0149e-05, 'epoch': 6.25}
+{'loss': 0.0494, 'grad_norm': 0.8055571913719177, 'learning_rate': 1.0152e-05, 'epoch': 6.25}
+{'loss': 0.0883, 'grad_norm': 0.9565600156784058, 'learning_rate': 1.0155e-05, 'epoch': 6.25}
+{'loss': 0.0558, 'grad_norm': 0.9024067521095276, 'learning_rate': 1.0158e-05, 'epoch': 6.25}
+{'loss': 0.0572, 'grad_norm': 1.121073603630066, 'learning_rate': 1.0161e-05, 'epoch': 6.25}
+{'loss': 0.0578, 'grad_norm': 0.8038824796676636, 'learning_rate': 1.0164e-05, 'epoch': 6.26}
+{'loss': 0.051, 'grad_norm': 0.7897089719772339, 'learning_rate': 1.0167e-05, 'epoch': 6.26}
+{'loss': 0.0607, 'grad_norm': 0.7924173474311829, 'learning_rate': 1.0170000000000001e-05, 'epoch': 6.26}
+{'loss': 0.0534, 'grad_norm': 0.8015258312225342, 'learning_rate': 1.0173e-05, 'epoch': 6.26}
+{'loss': 0.0355, 'grad_norm': 0.79560387134552, 'learning_rate': 1.0176e-05, 'epoch': 6.26}
+{'loss': 0.0546, 'grad_norm': 0.7222800254821777, 'learning_rate': 1.0179e-05, 'epoch': 6.27}
+{'loss': 0.061, 'grad_norm': 0.8553308248519897, 'learning_rate': 1.0182e-05, 'epoch': 6.27}
+{'loss': 0.0505, 'grad_norm': 1.2343560457229614, 'learning_rate': 1.0185000000000002e-05, 'epoch': 6.27}
+{'loss': 0.0632, 'grad_norm': 0.755364179611206, 'learning_rate': 1.0188000000000001e-05, 'epoch': 6.27}
+{'loss': 0.0499, 'grad_norm': 1.284324288368225, 'learning_rate': 1.0191e-05, 'epoch': 6.27}
+{'loss': 0.0418, 'grad_norm': 0.6206008195877075, 'learning_rate': 1.0194e-05, 'epoch': 6.28}
+{'loss': 0.0765, 'grad_norm': 1.1747897863388062, 'learning_rate': 1.0196999999999999e-05, 'epoch': 6.28}
+{'loss': 0.3388, 'grad_norm': 1.0085206031799316, 'learning_rate': 1.02e-05, 'epoch': 6.28}
+{'loss': 0.3431, 'grad_norm': 1.1853443384170532, 'learning_rate': 1.0203e-05, 'epoch': 6.28}
+{'loss': 0.2456, 'grad_norm': 0.9081771969795227, 'learning_rate': 1.0206e-05, 'epoch': 6.28}
+{'loss': 0.2397, 'grad_norm': 1.0242339372634888, 'learning_rate': 1.0209e-05, 'epoch': 6.28}
+{'loss': 0.2331, 'grad_norm': 0.9105067849159241, 'learning_rate': 1.0212e-05, 'epoch': 6.29}
+{'loss': 0.1877, 'grad_norm': 0.6736548542976379, 'learning_rate': 1.0215000000000001e-05, 'epoch': 6.29}
+{'loss': 0.1593, 'grad_norm': 0.7968747019767761, 'learning_rate': 1.0218000000000001e-05, 'epoch': 6.29}
+{'loss': 0.1985, 'grad_norm': 0.8158178925514221, 'learning_rate': 1.0221000000000001e-05, 'epoch': 6.29}
+{'loss': 0.2134, 'grad_norm': 1.3161625862121582, 'learning_rate': 1.0224e-05, 'epoch': 6.29}
+{'loss': 0.2046, 'grad_norm': 0.9767283797264099, 'learning_rate': 1.0227e-05, 'epoch': 6.3}
+{'loss': 0.1817, 'grad_norm': 1.8502895832061768, 'learning_rate': 1.023e-05, 'epoch': 6.3}
+{'loss': 0.0889, 'grad_norm': 0.7292230129241943, 'learning_rate': 1.0233e-05, 'epoch': 6.3}
+{'loss': 0.1109, 'grad_norm': 0.9305237531661987, 'learning_rate': 1.0236e-05, 'epoch': 6.3}
+{'loss': 0.0741, 'grad_norm': 0.6266627311706543, 'learning_rate': 1.0239e-05, 'epoch': 6.3}
+{'loss': 0.1007, 'grad_norm': 0.7265087962150574, 'learning_rate': 1.0242e-05, 'epoch': 6.3}
+{'loss': 0.0363, 'grad_norm': 0.4341509938240051, 'learning_rate': 1.0245000000000001e-05, 'epoch': 6.31}
+{'loss': 0.0328, 'grad_norm': 0.3478453755378723, 'learning_rate': 1.0248e-05, 'epoch': 6.31}
+{'loss': 0.0809, 'grad_norm': 0.7002639174461365, 'learning_rate': 1.0251e-05, 'epoch': 6.31}
+{'loss': 0.0449, 'grad_norm': 0.5919689536094666, 'learning_rate': 1.0254e-05, 'epoch': 6.31}
+  3%|▎         | 3422/100000 [1:53:07<43:00:31,  1.60s/it]  3%|▎         | 3423/100000 [1:53:08<41:37:05,  1.55s/it]                                                            3%|▎         | 3423/100000 [1:53:08<41:37:05,  1.55s/it]  3%|▎         | 3424/100000 [1:53:10<40:29:14,  1.51s/it]                                                            3%|▎         | 3424/100000 [1:53:10<40:29:14,  1.51s/it]  3%|▎         | 3425/100000 [1:53:11<39:40:03,  1.48s/it]                                                            3%|▎         | 3425/100000 [1:53:11<39:40:03,  1.48s/it]  3%|▎         | 3426/100000 [1:53:12<38:43:55,  1.44s/it]                                                            3%|▎         | 3426/100000 [1:53:12<38:43:55,  1.44s/it]  3%|▎         | 3427/100000 [1:53:14<37:55:26,  1.41s/it]                                                            3%|▎         | 3427/100000 [1:53:14<37:55:26,  1.41s/it]  3%|▎         | 3428/100000 [1:53:15<37:25:44,  1.40s/it]                                                            3%|▎         | 3428/100000 [1:53:15<37:25:44,  1.40s/it]  3%|▎         | 3429/100000 [1:53:16<36:24:14,  1.36s/it]                                                            3%|▎         | 3429/100000 [1:53:16<36:24:14,  1.36s/it]  3%|▎         | 3430/100000 [1:53:18<36:03:15,  1.34s/it]                                                            3%|▎         | 3430/100000 [1:53:18<36:03:15,  1.34s/it]  3%|▎         | 3431/100000 [1:53:19<35:11:50,  1.31s/it]                                                            3%|▎         | 3431/100000 [1:53:19<35:11:50,  1.31s/it]  3%|▎         | 3432/100000 [1:53:20<34:47:00,  1.30s/it]                                                            3%|▎         | 3432/100000 [1:53:20<34:47:00,  1.30s/it]  3%|▎         | 3433/100000 [1:53:21<34:14:32,  1.28s/it]                                                            3%|▎         | 3433/100000 [1:53:21<34:14:32,  1.28s/it]  3%|▎         | 3434/100000 [1:53:23<33:45:19,  1.26s/it]                                                            3%|▎         | 3434/100000 [1:53:23<33:45:19,  1.26s/it]  3%|▎         | 3435/100000 [1:53:24<33:18:12,  1.24s/it]                                                            3%|▎         | 3435/100000 [1:53:24<33:18:12,  1.24s/it]  3%|▎         | 3436/100000 [1:53:25<32:48:44,  1.22s/it]                                                            3%|▎         | 3436/100000 [1:53:25<32:48:44,  1.22s/it]  3%|▎         | 3437/100000 [1:53:26<32:12:27,  1.20s/it]                                                            3%|▎         | 3437/100000 [1:53:26<32:12:27,  1.20s/it]  3%|▎         | 3438/100000 [1:53:27<31:36:12,  1.18s/it]                                                            3%|▎         | 3438/100000 [1:53:27<31:36:12,  1.18s/it]  3%|▎         | 3439/100000 [1:53:28<31:12:29,  1.16s/it]                                                            3%|▎         | 3439/100000 [1:53:28<31:12:29,  1.16s/it]  3%|▎         | 3440/100000 [1:53:29<30:48:41,  1.15s/it]                                                            3%|▎         | 3440/100000 [1:53:29<30:48:41,  1.15s/it]  3%|▎         | 3441/100000 [1:53:31<30:27:20,  1.14s/it]                                                            3%|▎         | 3441/100000 [1:53:31<30:27:20,  1.14s/it]  3%|▎         | 3442/100000 [1:53:32<29:52:09,  1.11s/it]                                                            3%|▎         | 3442/100000 [1:53:32<29:52:09,  1.11s/it]  3%|▎         | 3443/100000 [1:53:33<29:37:36,  1.10s/it]                                                            3%|▎         | 3443/100000 [1:53:33<29:37:36,  1.10s/it]  3%|▎         | 3444/100000 [1:53:34<29:20:26,  1.09s/it]                                                            3%|▎         | 3444/100000 [1:53:34<29:20:26,  1.09s/it]  3%|▎         | 3445/100000 [1:53:35<28:42:46,  1.07s/it]                                                            3%|▎         | 3445/100000 [1:53:35<28:42:46,  1.07s/it]  3%|▎         | 3446/100000 [1:53:36<28:21:22,  1.06s/it]                                                            3%|▎         | 3446/100000 [1:53:36<28:21:22,  1.06s/it]  3%|▎         | 3447/100000 [1:53:37<28:00:32,  1.04s/it]                                                            3%|▎         | 3447/100000 [1:53:37<28:00:32,  1.04s/it]  3%|▎         | 3448/100000 [1:53:38<27:25:40,  1.02s/it]                                                            3%|▎         | 3448/100000 [1:53:38<27:25:40,  1.02s/it]  3%|▎         | 3449/100000 [1:53:39<26:47:58,  1.00it/s]                                                            3%|▎         | 3449/100000 [1:53:39<26:47:58,  1.00it/s]  3%|▎         | 3450/100000 [1:53:40<26:10:21,  1.02it/s]                                                            3%|▎         | 3450/100000 [1:53:40<26:10:21,  1.02it/s]  3%|▎         | 3451/100000 [1:53:41<25:36:30,  1.05it/s]                                                            3%|▎         | 3451/100000 [1:53:41<25:36:30,  1.05it/s]  3%|▎         | 3452/100000 [1:53:41<24:55:41,  1.08it/s]                                                            3%|▎         | 3452/100000 [1:53:41<24:55:41,  1.08it/s]  3%|▎         | 3453/100000 [1:53:52<104:34:24,  3.90s/it]                                                             3%|▎         | 3453/100000 [1:53:52<104:34:24,  3.90s/it]  3%|▎         | 3454/100000 [1:53:58<115:43:21,  4.32s/it]                                                             3%|▎         | 3454/100000 [1:53:58<115:43:21,  4.32s/it]  3%|▎         | 3455/100000 [1:54:02<118:23:44,  4.41s/it]                                                             3%|▎         | 3455/100000 [1:54:02<118:23:44,  4.41s/it]  3%|▎         | 3456/100000 [1:54:06<115:22:49,  4.30s/it]                                                             3%|▎         | 3456/100000 [1:54:06<115:22:49,  4.30s/it]  3%|▎         | 3457/100000 [1:54:10<109:50:41,  4.10s/it]                                                             3%|▎         | 3457/100000 [1:54:10<109:50:41,  4.10s/it]  3%|▎         | 3458/100000 [1:54:13<103:21:02,  3.85s/it]                                                             3%|▎         | 3458/100000 [1:54:13<103:21:02,  3.85s/it]  3%|▎         | 3459/100000 [1:54:16<96:34:37,  3.60s/it]                                                             3%|▎         | 3459/100000 [1:54:16<96:34:37,  3.60s/it]  3%|▎         | 3460/100000 [1:54:19<89:50:18,  3.35s/it]                                                            3%|▎         | 3460/100000 [1:54:19<89:50:18,  3.35s/it]  3%|▎         | 3461/100000 [1:54:21<83:29:27,  3.11s/it]                                                            3%|▎         | 3461/100000 [1:54:22<83:29:27,  3.11s/it]  3%|▎         | 3462/100000 [1:54:24<77:33:35,  2.89s/it]                                                            3%|▎         | 3462/100000 [1:54:24<77:33:35,  2.89s/it]  3%|▎         | 3463/100000 [1:54:26<72:02:41,  2.69s/it]                                                            3%|▎         | 3463/100000 [1:54:26<72:02:41,  2.69s/it]  3%|▎         | 3464/100000 [1:54:28<67:05:04,  2.50s/it]                                                            3%|▎         | 3464/100000 [1:54:28<67:05:04,  2.50s/it]  3%|▎         | 3465/100000 [1:54:30<62:41:47,  2.34s/it]                                                            3%|▎         | 3465/100000 [1:54:30<62:41:47,  2.34s/it]  3%|▎         | 3466/100000 [1:54:32<58:55:44,  2.20s/it]                                                            3%|▎         | 3466/100000 [1:54:32<58:55:44,  2.20s/it]  3%|▎         | 3467/100000 [1:54:34<55:33:19,  2.07s/it]                                                            3%|▎         | 3467/100000 [1:54:34<55:33:19,  2.07s/it]  3%|▎         | 3468/100000 [1:54:35<52:36:43,  1.96s/it]                                                            3%|▎         | 3468/100000 [1:54:35<52:36:43,  1.96s/it]  3%|▎         | 3469/100000 [1:54:37<50:08:55,  1.87s/it]                                                            3%|▎         | 3469/100000 [1:54:37<50:08:55,  1.87s/it]  3%|▎         | 3470/100000 [1:54:39<47:59:34,  1.79s/it]                                                            3%|▎         | 3470/100000 [1:54:39<47:59:34,  1.79s/it]  3%|▎         | 3471/100000 [1:54:40<45:57:26,  1.71s/it]                                                            3%|▎         | 3471/100000 [1:54:40<45:57:26,  1.71s/it]  3%|▎         | 3472/100000 [1:54:42<44:10:11,  1.65s/it]                                                            3%|▎         | 3472/100000 [1:54:42<44:10:11,  1.65s/it]  3%|▎         | 3473/100000 [1:54:43<42:25:06,  1.58s/it]                                                            3%|▎         | 3473/100000 [1:54:43<42:25:06,  1.58s/it]  3%|▎         | 3474/100000 [1:54:45<41:00:29,  1.53s/it]                                                            3%|▎         | 3474/100000 [1:54:45<41:00:29,  1.53s/it]  3%|▎         | 3475/100000 [1:54:46<40:07:56,  1.50s/it]                                                            3%|▎         | 3475/100000 [1:54:46<40:07:56,  1.50s/it]  3%|▎         | 3476/100000 [1:54:47<39:01:49,  1.46s/it]                                                            3%|▎         | 3476/100000 [1:54:47<39:01:49,  1.46s/it]  3%|▎         | 3477/100000 [1:54:49<38:25:17,  1.43s/it]                                                            3%|▎         | 3477/100000 [1:54:49<38:25:17,  1.43s/it]  3%|▎         | 3478/100000 [1:54:50<37:34:25,  1.40s/it]                                                            3%|▎         | 3478/100000 [1:54:50<37:34:25,  1.40s/it]  3%|▎         | 3479/100000 [1:54:51<37:08:08,  1.39s/it]                                                            3%|▎         | 3479/100000 [1:54:51<37:08:08,  1.39s/it]  3%|▎         | 3480/100000 [1:54:53<36:20:49,  1.36s/it]                                                            3%|▎         | 3480/100000 [1:54:53<36:20:49,  1.36s/it]  3%|▎         | 3481/100000 [1:54:54<36:01:22,  1.34s/it]                                                            3%|▎         | 3481/100000 [1:54:54<36:01:22,  1.34s/it]  3%|▎         | 3482/100000 [1:54:55<35:23:37,  1.32s/it]                                                            3%|▎         | 3482/100000 [1:54:55<35:23:37,  1.32s/it]  3%|▎         | 3483/100000 [1:54:57<35:00:17,  1.31s/it]                                                            3%|▎         | 3483/100000 [1:54:57<35:00:17,  1.31s/it]  3%|▎         | 3484/100000 [1:54:58<34:36:10,  1.29s/it]                                                            3%|▎         | 3484/100000 [1:54:58<34:36:10,  1.29s/it]  3%|▎         | 3485/100000 [1:54:59<33:57:49,  1.27s/it]                                                            3%|▎         | 3485/100000 [1:54:59<33:57:49,  1.27s/it]  3%|▎         | 3486/100000 [1:55:00<33:39:26,  1.26s/it]                                                            3%|▎         | 3486/100000 [1:55:00<33:39:26,  1.26s/it]  3%|▎         | 3487/100000 [1:55:01<32:58:14,  1.23s/it]                                                            3%|▎         | 3487/100000 [1:55:01<32:58:14,  1.23s/it]  3%|▎         | 3488/100000 [1:55:03<32:23:04,  1.21s/it]                                                            3%|▎         | 3488/100000 [1:55:03<32:23:04,  1.21s/it]  3%|▎         | 3489/100000 [1:55:04<31:46:40,  1.19s/it]                                                            3%|▎         | 3489/100000 [1:55:04<31:46:40,  1.19s/it]  3%|▎         | 3490/100000 [1:55:05<31:19:28,  1.17s/it]                                                            3%|▎         | 3490/100000 [1:55:05<31:19:28,  1.17s/it]  3%|▎         | 3491/100000 [1:55:06<30:52:33,  1.15s/it]                                                            3%|▎         | 3491/100000 [1:55:06<30:52:33,  1.15s/it]  3%|▎         | 3492/100000 [1:55:07<30:15:43,  1.13s/it]                                                            3%|▎         | 3492/100000 [1:55:07<30:15:43,  1.13s/it]  3%|▎         | 3493/100000 [1:55:08<29:52:17,  1.11s/it]                                                            3%|▎         | 3493/100000 [1:55:08<29:52:17,  1.11s/it]  3%|▎         | 3494/100000 [1:55:09<29:34:35,  1.10s/it]                                                            3%|▎         | 3494/100000 [1:55:09<29:34:35,  1.10s/it]  3%|▎         | 3495/100000 [1:55:10<28:53:38,  1.08s/it]                                                            3%|▎         | 3495/100000 [1:55:10<28:53:38,  1.08s/it]  3%|▎         | 3496/100000 [1:55:11<28:43:10,  1.07s/it]                                                            3%|▎         | 3496/100000 [1:55:11<28:43:10,  1.07s/it]  3%|▎         | 3497/100000 [1:55:12<28:00:41,  1.04s/it]                                                            3%|▎         | 3497/100000 [1:55:12<28:00:41,  1.04s/it]  3%|▎         | 3498/100000 [1:55:13<27:26:10,  1.02s/it]                                                            3%|▎         | 3498/100000 [1:55:13<27:26:10,  1.02s/it]  3%|▎         | 3499/100000 [1:55:14<27:01:43,  1.01s/it]                                                            3%|▎         | 3499/100000 [1:55:14<27:01:43,  1.01s/it]  4%|▎         | 3500/100000 [1:55:15<26:39:27,  1.01it/s]                                                            4%|▎         | 3500/100000 [1:55:15<26:39:27,  1.01it/s]  4%|▎         | 3501/100000 [1:55:16<26:10:01,  1.02it/s]                                                            4%|▎         | 3501/100000 [1:55:16<26:10:01,  1.02it/s]  4%|▎         | 3502/100000 [1:55:17<26:00:35,  1.03it/s]                                                            4%|▎         | 3502/100000 [1:55:17<26:00:35,  1.03it/s]  4%|▎         | 3503/100000 [1:55:29<113:52:00,  4.25s/it]                                                             4%|▎         | 3503/100000 [1:55:29<113:52:00,  4.25s/it]  4%|▎         | 3504/100000 [1:55:35<126:46:36,  4.73s/it]                                                             4%|▎         | 3504/100000 [1:55:35<126:46:36,  4.73s/it]  4%|▎         | 3505/100000 [1:55:40<127:19:19,  4.75s/it]                                                             4%|▎         | 3505/100000 [1:55:40<127:19:19,  4.75s/it]  4%|▎         | 3506/100000 [1:55:44<122:17:52,  4.56s/it]                                                           {'loss': 0.0483, 'grad_norm': 0.6110935211181641, 'learning_rate': 1.0257e-05, 'epoch': 6.31}
+{'loss': 0.0377, 'grad_norm': 0.699510395526886, 'learning_rate': 1.0260000000000002e-05, 'epoch': 6.32}
+{'loss': 0.048, 'grad_norm': 0.6981428861618042, 'learning_rate': 1.0263000000000002e-05, 'epoch': 6.32}
+{'loss': 0.0736, 'grad_norm': 1.3745615482330322, 'learning_rate': 1.0266e-05, 'epoch': 6.32}
+{'loss': 0.0494, 'grad_norm': 0.9349688291549683, 'learning_rate': 1.0269e-05, 'epoch': 6.32}
+{'loss': 0.078, 'grad_norm': 1.4682650566101074, 'learning_rate': 1.0272e-05, 'epoch': 6.32}
+{'loss': 0.0775, 'grad_norm': 0.8241517543792725, 'learning_rate': 1.0275e-05, 'epoch': 6.33}
+{'loss': 0.1381, 'grad_norm': 1.6067695617675781, 'learning_rate': 1.0278e-05, 'epoch': 6.33}
+{'loss': 0.0527, 'grad_norm': 0.7926170229911804, 'learning_rate': 1.0281e-05, 'epoch': 6.33}
+{'loss': 0.0394, 'grad_norm': 1.9036262035369873, 'learning_rate': 1.0284e-05, 'epoch': 6.33}
+{'loss': 0.0793, 'grad_norm': 0.6403128504753113, 'learning_rate': 1.0287e-05, 'epoch': 6.33}
+{'loss': 0.049, 'grad_norm': 0.6075448989868164, 'learning_rate': 1.0290000000000001e-05, 'epoch': 6.33}
+{'loss': 0.0559, 'grad_norm': 0.9043646454811096, 'learning_rate': 1.0293000000000001e-05, 'epoch': 6.34}
+{'loss': 0.0372, 'grad_norm': 0.9564310908317566, 'learning_rate': 1.0296000000000001e-05, 'epoch': 6.34}
+{'loss': 0.0328, 'grad_norm': 0.5282099843025208, 'learning_rate': 1.0299e-05, 'epoch': 6.34}
+{'loss': 0.0548, 'grad_norm': 1.1436553001403809, 'learning_rate': 1.0301999999999999e-05, 'epoch': 6.34}
+{'loss': 0.0488, 'grad_norm': 0.8616344928741455, 'learning_rate': 1.0305e-05, 'epoch': 6.34}
+{'loss': 0.0562, 'grad_norm': 1.3523774147033691, 'learning_rate': 1.0308e-05, 'epoch': 6.35}
+{'loss': 0.0426, 'grad_norm': 0.6882216334342957, 'learning_rate': 1.0311e-05, 'epoch': 6.35}
+{'loss': 0.0582, 'grad_norm': 1.0950908660888672, 'learning_rate': 1.0314e-05, 'epoch': 6.35}
+{'loss': 0.0602, 'grad_norm': 1.109289526939392, 'learning_rate': 1.0317e-05, 'epoch': 6.35}
+{'loss': 0.0466, 'grad_norm': 0.8034445643424988, 'learning_rate': 1.032e-05, 'epoch': 6.35}
+{'loss': 0.0351, 'grad_norm': 0.7607554197311401, 'learning_rate': 1.0323000000000001e-05, 'epoch': 6.35}
+{'loss': 0.0422, 'grad_norm': 0.9530297517776489, 'learning_rate': 1.0326e-05, 'epoch': 6.36}
+{'loss': 0.0728, 'grad_norm': 1.066715955734253, 'learning_rate': 1.0329e-05, 'epoch': 6.36}
+{'loss': 0.0558, 'grad_norm': 0.8962160348892212, 'learning_rate': 1.0332e-05, 'epoch': 6.36}
+{'loss': 0.0362, 'grad_norm': 0.6709640026092529, 'learning_rate': 1.0335e-05, 'epoch': 6.36}
+{'loss': 0.0479, 'grad_norm': 1.028660774230957, 'learning_rate': 1.0338e-05, 'epoch': 6.36}
+{'loss': 0.0515, 'grad_norm': 0.7419813275337219, 'learning_rate': 1.0341e-05, 'epoch': 6.37}
+{'loss': 0.0608, 'grad_norm': 1.3043344020843506, 'learning_rate': 1.0344e-05, 'epoch': 6.37}
+{'loss': 0.0471, 'grad_norm': 0.9880107641220093, 'learning_rate': 1.0347e-05, 'epoch': 6.37}
+{'loss': 0.3272, 'grad_norm': 1.2809970378875732, 'learning_rate': 1.035e-05, 'epoch': 6.37}
+{'loss': 0.3555, 'grad_norm': 1.0759568214416504, 'learning_rate': 1.0353e-05, 'epoch': 6.37}
+{'loss': 0.3155, 'grad_norm': 1.1627869606018066, 'learning_rate': 1.0356e-05, 'epoch': 6.37}
+{'loss': 0.2746, 'grad_norm': 1.6699895858764648, 'learning_rate': 1.0359e-05, 'epoch': 6.38}
+{'loss': 0.2381, 'grad_norm': 0.8494102358818054, 'learning_rate': 1.0362e-05, 'epoch': 6.38}
+{'loss': 0.2455, 'grad_norm': 0.9873664975166321, 'learning_rate': 1.0365e-05, 'epoch': 6.38}
+{'loss': 0.2281, 'grad_norm': 1.3834065198898315, 'learning_rate': 1.0368000000000001e-05, 'epoch': 6.38}
+{'loss': 0.1776, 'grad_norm': 0.9461009502410889, 'learning_rate': 1.0371000000000001e-05, 'epoch': 6.38}
+{'loss': 0.2644, 'grad_norm': 1.184063196182251, 'learning_rate': 1.0374000000000001e-05, 'epoch': 6.39}
+{'loss': 0.2075, 'grad_norm': 1.0690431594848633, 'learning_rate': 1.0376999999999999e-05, 'epoch': 6.39}
+{'loss': 0.1208, 'grad_norm': 0.8396578431129456, 'learning_rate': 1.0379999999999999e-05, 'epoch': 6.39}
+{'loss': 0.188, 'grad_norm': 1.136763095855713, 'learning_rate': 1.0383e-05, 'epoch': 6.39}
+{'loss': 0.0897, 'grad_norm': 0.6293352246284485, 'learning_rate': 1.0386e-05, 'epoch': 6.39}
+{'loss': 0.0854, 'grad_norm': 0.8428406715393066, 'learning_rate': 1.0389e-05, 'epoch': 6.4}
+{'loss': 0.1188, 'grad_norm': 1.0550479888916016, 'learning_rate': 1.0392e-05, 'epoch': 6.4}
+{'loss': 0.0845, 'grad_norm': 0.7489149570465088, 'learning_rate': 1.0395e-05, 'epoch': 6.4}
+{'loss': 0.0488, 'grad_norm': 0.5197301506996155, 'learning_rate': 1.0398000000000001e-05, 'epoch': 6.4}
+{'loss': 0.0613, 'grad_norm': 1.0635749101638794, 'learning_rate': 1.0401000000000001e-05, 'epoch': 6.4}
+{'loss': 0.0741, 'grad_norm': 0.8245949149131775, 'learning_rate': 1.0404e-05, 'epoch': 6.4}
+{'loss': 0.1082, 'grad_norm': 1.0676509141921997, 'learning_rate': 1.0407e-05, 'epoch': 6.41}
+{'loss': 0.1308, 'grad_norm': 1.1991374492645264, 'learning_rate': 1.041e-05, 'epoch': 6.41}
+{'loss': 0.0451, 'grad_norm': 0.5810908675193787, 'learning_rate': 1.0413e-05, 'epoch': 6.41}
+{'loss': 0.0317, 'grad_norm': 0.5625260472297668, 'learning_rate': 1.0416e-05, 'epoch': 6.41}
+{'loss': 0.0504, 'grad_norm': 0.7243143916130066, 'learning_rate': 1.0419e-05, 'epoch': 6.41}
+{'loss': 0.0411, 'grad_norm': 0.5748608708381653, 'learning_rate': 1.0422e-05, 'epoch': 6.42}
+{'loss': 0.0504, 'grad_norm': 0.8418190479278564, 'learning_rate': 1.0425e-05, 'epoch': 6.42}
+{'loss': 0.0473, 'grad_norm': 0.5589009523391724, 'learning_rate': 1.0428e-05, 'epoch': 6.42}
+{'loss': 0.0211, 'grad_norm': 0.3747293949127197, 'learning_rate': 1.0431e-05, 'epoch': 6.42}
+{'loss': 0.0567, 'grad_norm': 0.9748400449752808, 'learning_rate': 1.0434e-05, 'epoch': 6.42}
+{'loss': 0.0307, 'grad_norm': 0.5059589743614197, 'learning_rate': 1.0437e-05, 'epoch': 6.42}
+{'loss': 0.0454, 'grad_norm': 0.6502093076705933, 'learning_rate': 1.044e-05, 'epoch': 6.43}
+{'loss': 0.0495, 'grad_norm': 0.994144082069397, 'learning_rate': 1.0443000000000001e-05, 'epoch': 6.43}
+{'loss': 0.0471, 'grad_norm': 0.9719415903091431, 'learning_rate': 1.0446000000000001e-05, 'epoch': 6.43}
+{'loss': 0.0358, 'grad_norm': 0.5761688351631165, 'learning_rate': 1.0449e-05, 'epoch': 6.43}
+{'loss': 0.0368, 'grad_norm': 0.8566411137580872, 'learning_rate': 1.0452e-05, 'epoch': 6.43}
+{'loss': 0.0525, 'grad_norm': 1.0438909530639648, 'learning_rate': 1.0454999999999999e-05, 'epoch': 6.44}
+{'loss': 0.0307, 'grad_norm': 0.691596508026123, 'learning_rate': 1.0458e-05, 'epoch': 6.44}
+{'loss': 0.0433, 'grad_norm': 1.0400809049606323, 'learning_rate': 1.0461e-05, 'epoch': 6.44}
+{'loss': 0.0412, 'grad_norm': 1.1551169157028198, 'learning_rate': 1.0464e-05, 'epoch': 6.44}
+{'loss': 0.0476, 'grad_norm': 1.3905787467956543, 'learning_rate': 1.0467e-05, 'epoch': 6.44}
+{'loss': 0.0689, 'grad_norm': 0.8146647810935974, 'learning_rate': 1.047e-05, 'epoch': 6.45}
+{'loss': 0.0461, 'grad_norm': 0.9274573922157288, 'learning_rate': 1.0473000000000001e-05, 'epoch': 6.45}
+{'loss': 0.0625, 'grad_norm': 0.9964638352394104, 'learning_rate': 1.0476000000000001e-05, 'epoch': 6.45}
+{'loss': 0.0425, 'grad_norm': 0.6893898248672485, 'learning_rate': 1.0479e-05, 'epoch': 6.45}
+{'loss': 0.0476, 'grad_norm': 0.627974808216095, 'learning_rate': 1.0482e-05, 'epoch': 6.45}
+{'loss': 0.0471, 'grad_norm': 0.8051822185516357, 'learning_rate': 1.0485e-05, 'epoch': 6.45}
+{'loss': 0.0481, 'grad_norm': 0.8309305906295776, 'learning_rate': 1.0488e-05, 'epoch': 6.46}
+{'loss': 0.0397, 'grad_norm': 0.6573142409324646, 'learning_rate': 1.0491e-05, 'epoch': 6.46}
+{'loss': 0.061, 'grad_norm': 2.428025960922241, 'learning_rate': 1.0494e-05, 'epoch': 6.46}
+{'loss': 0.0639, 'grad_norm': 1.2131538391113281, 'learning_rate': 1.0497e-05, 'epoch': 6.46}
+{'loss': 0.3862, 'grad_norm': 1.5500845909118652, 'learning_rate': 1.05e-05, 'epoch': 6.46}
+{'loss': 0.3148, 'grad_norm': 1.091170072555542, 'learning_rate': 1.0503000000000001e-05, 'epoch': 6.47}
+{'loss': 0.3232, 'grad_norm': 1.0645906925201416, 'learning_rate': 1.0506e-05, 'epoch': 6.47}
+  4%|▎         | 3506/100000 [1:55:44<122:17:52,  4.56s/it]  4%|▎         | 3507/100000 [1:55:47<115:07:49,  4.30s/it]                                                             4%|▎         | 3507/100000 [1:55:47<115:07:49,  4.30s/it]  4%|▎         | 3508/100000 [1:55:51<107:06:14,  4.00s/it]                                                             4%|▎         | 3508/100000 [1:55:51<107:06:14,  4.00s/it]  4%|▎         | 3509/100000 [1:55:54<99:45:53,  3.72s/it]                                                             4%|▎         | 3509/100000 [1:55:54<99:45:53,  3.72s/it]  4%|▎         | 3510/100000 [1:55:57<93:07:12,  3.47s/it]                                                            4%|▎         | 3510/100000 [1:55:57<93:07:12,  3.47s/it]  4%|▎         | 3511/100000 [1:55:59<86:33:43,  3.23s/it]                                                            4%|▎         | 3511/100000 [1:55:59<86:33:43,  3.23s/it]  4%|▎         | 3512/100000 [1:56:02<79:33:30,  2.97s/it]                                                            4%|▎         | 3512/100000 [1:56:02<79:33:30,  2.97s/it]  4%|▎         | 3513/100000 [1:56:04<73:57:54,  2.76s/it]                                                            4%|▎         | 3513/100000 [1:56:04<73:57:54,  2.76s/it]  4%|▎         | 3514/100000 [1:56:06<68:53:10,  2.57s/it]                                                            4%|▎         | 3514/100000 [1:56:06<68:53:10,  2.57s/it]  4%|▎         | 3515/100000 [1:56:08<64:27:27,  2.41s/it]                                                            4%|▎         | 3515/100000 [1:56:08<64:27:27,  2.41s/it]  4%|▎         | 3516/100000 [1:56:10<60:35:10,  2.26s/it]                                                            4%|▎         | 3516/100000 [1:56:10<60:35:10,  2.26s/it]  4%|▎         | 3517/100000 [1:56:12<57:03:05,  2.13s/it]                                                            4%|▎         | 3517/100000 [1:56:12<57:03:05,  2.13s/it]  4%|▎         | 3518/100000 [1:56:14<53:52:14,  2.01s/it]                                                            4%|▎         | 3518/100000 [1:56:14<53:52:14,  2.01s/it]  4%|▎         | 3519/100000 [1:56:15<51:13:37,  1.91s/it]                                                            4%|▎         | 3519/100000 [1:56:15<51:13:37,  1.91s/it]  4%|▎         | 3520/100000 [1:56:17<49:04:37,  1.83s/it]                                                            4%|▎         | 3520/100000 [1:56:17<49:04:37,  1.83s/it]  4%|▎         | 3521/100000 [1:56:18<46:59:25,  1.75s/it]                                                            4%|▎         | 3521/100000 [1:56:18<46:59:25,  1.75s/it]  4%|▎         | 3522/100000 [1:56:20<45:12:52,  1.69s/it]                                                            4%|▎         | 3522/100000 [1:56:20<45:12:52,  1.69s/it]  4%|▎         | 3523/100000 [1:56:21<43:38:00,  1.63s/it]                                                            4%|▎         | 3523/100000 [1:56:21<43:38:00,  1.63s/it]  4%|▎         | 3524/100000 [1:56:23<42:03:50,  1.57s/it]                                                            4%|▎         | 3524/100000 [1:56:23<42:03:50,  1.57s/it]  4%|▎         | 3525/100000 [1:56:24<40:54:44,  1.53s/it]                                                            4%|▎         | 3525/100000 [1:56:24<40:54:44,  1.53s/it]  4%|▎         | 3526/100000 [1:56:26<40:04:27,  1.50s/it]                                                            4%|▎         | 3526/100000 [1:56:26<40:04:27,  1.50s/it]  4%|▎         | 3527/100000 [1:56:27<39:15:54,  1.47s/it]                                                            4%|▎         | 3527/100000 [1:56:27<39:15:54,  1.47s/it]  4%|▎         | 3528/100000 [1:56:29<38:28:45,  1.44s/it]                                                            4%|▎         | 3528/100000 [1:56:29<38:28:45,  1.44s/it]  4%|▎         | 3529/100000 [1:56:30<37:33:28,  1.40s/it]                                                            4%|▎         | 3529/100000 [1:56:30<37:33:28,  1.40s/it]  4%|▎         | 3530/100000 [1:56:31<36:47:09,  1.37s/it]                                                            4%|▎         | 3530/100000 [1:56:31<36:47:09,  1.37s/it]  4%|▎         | 3531/100000 [1:56:32<36:10:56,  1.35s/it]                                                            4%|▎         | 3531/100000 [1:56:32<36:10:56,  1.35s/it]  4%|▎         | 3532/100000 [1:56:34<35:44:54,  1.33s/it]                                                            4%|▎         | 3532/100000 [1:56:34<35:44:54,  1.33s/it]  4%|▎         | 3533/100000 [1:56:35<35:21:15,  1.32s/it]                                                            4%|▎         | 3533/100000 [1:56:35<35:21:15,  1.32s/it]  4%|▎         | 3534/100000 [1:56:36<34:39:25,  1.29s/it]                                                            4%|▎         | 3534/100000 [1:56:36<34:39:25,  1.29s/it]  4%|▎         | 3535/100000 [1:56:37<34:02:22,  1.27s/it]                                                            4%|▎         | 3535/100000 [1:56:37<34:02:22,  1.27s/it]  4%|▎         | 3536/100000 [1:56:39<33:25:36,  1.25s/it]                                                            4%|▎         | 3536/100000 [1:56:39<33:25:36,  1.25s/it]  4%|▎         | 3537/100000 [1:56:40<32:48:48,  1.22s/it]                                                            4%|▎         | 3537/100000 [1:56:40<32:48:48,  1.22s/it]  4%|▎         | 3538/100000 [1:56:41<32:15:36,  1.20s/it]                                                            4%|▎         | 3538/100000 [1:56:41<32:15:36,  1.20s/it]  4%|▎         | 3539/100000 [1:56:42<31:28:16,  1.17s/it]                                                            4%|▎         | 3539/100000 [1:56:42<31:28:16,  1.17s/it]  4%|▎         | 3540/100000 [1:56:43<31:19:07,  1.17s/it]                                                            4%|▎         | 3540/100000 [1:56:43<31:19:07,  1.17s/it]  4%|▎         | 3541/100000 [1:56:44<31:11:04,  1.16s/it]                                                            4%|▎         | 3541/100000 [1:56:44<31:11:04,  1.16s/it]  4%|▎         | 3542/100000 [1:56:46<30:46:22,  1.15s/it]                                                            4%|▎         | 3542/100000 [1:56:46<30:46:22,  1.15s/it]  4%|▎         | 3543/100000 [1:56:47<30:32:42,  1.14s/it]                                                            4%|▎         | 3543/100000 [1:56:47<30:32:42,  1.14s/it]  4%|▎         | 3544/100000 [1:56:48<30:00:57,  1.12s/it]                                                            4%|▎         | 3544/100000 [1:56:48<30:00:57,  1.12s/it]  4%|▎         | 3545/100000 [1:56:49<29:35:48,  1.10s/it]                                                            4%|▎         | 3545/100000 [1:56:49<29:35:48,  1.10s/it]  4%|▎         | 3546/100000 [1:56:50<29:09:43,  1.09s/it]                                                            4%|▎         | 3546/100000 [1:56:50<29:09:43,  1.09s/it]  4%|▎         | 3547/100000 [1:56:51<28:32:10,  1.07s/it]                                                            4%|▎         | 3547/100000 [1:56:51<28:32:10,  1.07s/it]  4%|▎         | 3548/100000 [1:56:52<27:58:56,  1.04s/it]                                                            4%|▎         | 3548/100000 [1:56:52<27:58:56,  1.04s/it]  4%|▎         | 3549/100000 [1:56:53<27:29:29,  1.03s/it]                                                            4%|▎         | 3549/100000 [1:56:53<27:29:29,  1.03s/it]  4%|▎         | 3550/100000 [1:56:54<27:01:19,  1.01s/it]                                                            4%|▎         | 3550/100000 [1:56:54<27:01:19,  1.01s/it]  4%|▎         | 3551/100000 [1:56:55<26:28:52,  1.01it/s]                                                            4%|▎         | 3551/100000 [1:56:55<26:28:52,  1.01it/s]  4%|▎         | 3552/100000 [1:56:56<25:45:57,  1.04it/s]                                                            4%|▎         | 3552/100000 [1:56:56<25:45:57,  1.04it/s]  4%|▎         | 3553/100000 [1:57:05<94:43:36,  3.54s/it]                                                            4%|▎         | 3553/100000 [1:57:05<94:43:36,  3.54s/it]  4%|▎         | 3554/100000 [1:57:11<115:47:42,  4.32s/it]                                                             4%|▎         | 3554/100000 [1:57:11<115:47:42,  4.32s/it]  4%|▎         | 3555/100000 [1:57:16<119:04:47,  4.44s/it]                                                             4%|▎         | 3555/100000 [1:57:16<119:04:47,  4.44s/it]  4%|▎         | 3556/100000 [1:57:20<114:39:40,  4.28s/it]                                                             4%|▎         | 3556/100000 [1:57:20<114:39:40,  4.28s/it]  4%|▎         | 3557/100000 [1:57:24<110:10:37,  4.11s/it]                                                             4%|▎         | 3557/100000 [1:57:24<110:10:37,  4.11s/it]  4%|▎         | 3558/100000 [1:57:27<103:20:28,  3.86s/it]                                                             4%|▎         | 3558/100000 [1:57:27<103:20:28,  3.86s/it]  4%|▎         | 3559/100000 [1:57:30<96:26:23,  3.60s/it]                                                             4%|▎         | 3559/100000 [1:57:30<96:26:23,  3.60s/it]  4%|▎         | 3560/100000 [1:57:33<88:07:04,  3.29s/it]                                                            4%|▎         | 3560/100000 [1:57:33<88:07:04,  3.29s/it]  4%|▎         | 3561/100000 [1:57:35<82:28:03,  3.08s/it]                                                            4%|▎         | 3561/100000 [1:57:35<82:28:03,  3.08s/it]  4%|▎         | 3562/100000 [1:57:38<77:08:49,  2.88s/it]                                                            4%|▎         | 3562/100000 [1:57:38<77:08:49,  2.88s/it]  4%|▎         | 3563/100000 [1:57:40<72:01:01,  2.69s/it]                                                            4%|▎         | 3563/100000 [1:57:40<72:01:01,  2.69s/it]  4%|▎         | 3564/100000 [1:57:42<67:05:01,  2.50s/it]                                                            4%|▎         | 3564/100000 [1:57:42<67:05:01,  2.50s/it]  4%|▎         | 3565/100000 [1:57:44<62:50:12,  2.35s/it]                                                            4%|▎         | 3565/100000 [1:57:44<62:50:12,  2.35s/it]  4%|▎         | 3566/100000 [1:57:46<58:54:50,  2.20s/it]                                                            4%|▎         | 3566/100000 [1:57:46<58:54:50,  2.20s/it]  4%|▎         | 3567/100000 [1:57:47<55:31:45,  2.07s/it]                                                            4%|▎         | 3567/100000 [1:57:47<55:31:45,  2.07s/it]  4%|▎         | 3568/100000 [1:57:49<52:18:42,  1.95s/it]                                                            4%|▎         | 3568/100000 [1:57:49<52:18:42,  1.95s/it]  4%|▎         | 3569/100000 [1:57:51<49:41:20,  1.86s/it]                                                            4%|▎         | 3569/100000 [1:57:51<49:41:20,  1.86s/it]  4%|▎         | 3570/100000 [1:57:52<47:16:07,  1.76s/it]                                                            4%|▎         | 3570/100000 [1:57:52<47:16:07,  1.76s/it]  4%|▎         | 3571/100000 [1:57:54<45:44:24,  1.71s/it]                                                            4%|▎         | 3571/100000 [1:57:54<45:44:24,  1.71s/it]  4%|▎         | 3572/100000 [1:57:55<43:37:00,  1.63s/it]                                                            4%|▎         | 3572/100000 [1:57:55<43:37:00,  1.63s/it]  4%|▎         | 3573/100000 [1:57:57<42:20:14,  1.58s/it]                                                            4%|▎         | 3573/100000 [1:57:57<42:20:14,  1.58s/it]  4%|▎         | 3574/100000 [1:57:58<41:02:33,  1.53s/it]                                                            4%|▎         | 3574/100000 [1:57:58<41:02:33,  1.53s/it]  4%|▎         | 3575/100000 [1:58:00<40:16:29,  1.50s/it]                                                            4%|▎         | 3575/100000 [1:58:00<40:16:29,  1.50s/it]  4%|▎         | 3576/100000 [1:58:01<39:11:48,  1.46s/it]                                                            4%|▎         | 3576/100000 [1:58:01<39:11:48,  1.46s/it]  4%|▎         | 3577/100000 [1:58:02<38:29:22,  1.44s/it]                                                            4%|▎         | 3577/100000 [1:58:02<38:29:22,  1.44s/it]  4%|▎         | 3578/100000 [1:58:04<38:05:12,  1.42s/it]                                                            4%|▎         | 3578/100000 [1:58:04<38:05:12,  1.42s/it]  4%|▎         | 3579/100000 [1:58:05<37:37:21,  1.40s/it]                                                            4%|▎         | 3579/100000 [1:58:05<37:37:21,  1.40s/it]  4%|▎         | 3580/100000 [1:58:06<37:03:46,  1.38s/it]                                                            4%|▎         | 3580/100000 [1:58:06<37:03:46,  1.38s/it]  4%|▎         | 3581/100000 [1:58:08<36:28:52,  1.36s/it]                                                            4%|▎         | 3581/100000 [1:58:08<36:28:52,  1.36s/it]  4%|▎         | 3582/100000 [1:58:09<35:43:05,  1.33s/it]                                                            4%|▎         | 3582/100000 [1:58:09<35:43:05,  1.33s/it]  4%|▎         | 3583/100000 [1:58:10<35:15:57,  1.32s/it]                                                            4%|▎         | 3583/100000 [1:58:10<35:15:57,  1.32s/it]  4%|▎         | 3584/100000 [1:58:12<34:29:38,  1.29s/it]                                                            4%|▎         | 3584/100000 [1:58:12<34:29:38,  1.29s/it]  4%|▎         | 3585/100000 [1:58:13<33:54:51,  1.27s/it]                                                            4%|▎         | 3585/100000 [1:58:13<33:54:51,  1.27s/it]  4%|▎         | 3586/100000 [1:58:14<33:32:52,  1.25s/it]                                                            4%|▎         | 3586/100000 [1:58:14<33:32:52,  1.25s/it]  4%|▎         | 3587/100000 [1:58:15<32:59:54,  1.23s/it]                                                            4%|▎         | 3587/100000 [1:58:15<32:59:54,  1.23s/it]  4%|▎         | 3588/100000 [1:58:16<32:31:06,  1.21s/it]                                                            4%|▎         | 3588/100000 [1:58:16<32:31:06,  1.21s/it]  4%|▎         | 3589/100000 [1:58:18<32:00:24,  1.20s/it]                                                            4%|▎         | 3589/100000 [1:58:18<32:00:24,  1.20s/it]  4%|▎         | 3590/100000 [1:58:19<31:34:29,  1.18s/it]                                                          {'loss': 0.2834, 'grad_norm': 1.3559659719467163, 'learning_rate': 1.0509e-05, 'epoch': 6.47}
+{'loss': 0.2639, 'grad_norm': 1.1737184524536133, 'learning_rate': 1.0512e-05, 'epoch': 6.47}
+{'loss': 0.2529, 'grad_norm': 1.5199416875839233, 'learning_rate': 1.0515e-05, 'epoch': 6.47}
+{'loss': 0.2125, 'grad_norm': 0.9331461191177368, 'learning_rate': 1.0518000000000002e-05, 'epoch': 6.47}
+{'loss': 0.2295, 'grad_norm': 0.8014020919799805, 'learning_rate': 1.0521000000000001e-05, 'epoch': 6.48}
+{'loss': 0.2104, 'grad_norm': 1.2764960527420044, 'learning_rate': 1.0524e-05, 'epoch': 6.48}
+{'loss': 0.1395, 'grad_norm': 0.8344443440437317, 'learning_rate': 1.0527e-05, 'epoch': 6.48}
+{'loss': 0.1398, 'grad_norm': 1.5831360816955566, 'learning_rate': 1.0529999999999999e-05, 'epoch': 6.48}
+{'loss': 0.1731, 'grad_norm': 0.9806162118911743, 'learning_rate': 1.0533e-05, 'epoch': 6.48}
+{'loss': 0.1019, 'grad_norm': 0.7452002763748169, 'learning_rate': 1.0536e-05, 'epoch': 6.49}
+{'loss': 0.0808, 'grad_norm': 0.7927934527397156, 'learning_rate': 1.0539e-05, 'epoch': 6.49}
+{'loss': 0.1983, 'grad_norm': 1.0615880489349365, 'learning_rate': 1.0542e-05, 'epoch': 6.49}
+{'loss': 0.1074, 'grad_norm': 0.9302128553390503, 'learning_rate': 1.0545e-05, 'epoch': 6.49}
+{'loss': 0.0644, 'grad_norm': 0.8489500284194946, 'learning_rate': 1.0548000000000001e-05, 'epoch': 6.49}
+{'loss': 0.0435, 'grad_norm': 0.49855339527130127, 'learning_rate': 1.0551000000000001e-05, 'epoch': 6.49}
+{'loss': 0.0548, 'grad_norm': 0.7827534675598145, 'learning_rate': 1.0554000000000001e-05, 'epoch': 6.5}
+{'loss': 0.0593, 'grad_norm': 2.3017821311950684, 'learning_rate': 1.0557e-05, 'epoch': 6.5}
+{'loss': 0.0539, 'grad_norm': 0.5665956139564514, 'learning_rate': 1.0559999999999999e-05, 'epoch': 6.5}
+{'loss': 0.0515, 'grad_norm': 0.7230385541915894, 'learning_rate': 1.0563e-05, 'epoch': 6.5}
+{'loss': 0.0512, 'grad_norm': 0.799625039100647, 'learning_rate': 1.0566e-05, 'epoch': 6.5}
+{'loss': 0.0479, 'grad_norm': 0.7463293075561523, 'learning_rate': 1.0569e-05, 'epoch': 6.51}
+{'loss': 0.0445, 'grad_norm': 0.9893417358398438, 'learning_rate': 1.0572e-05, 'epoch': 6.51}
+{'loss': 0.0599, 'grad_norm': 0.7986618876457214, 'learning_rate': 1.0575e-05, 'epoch': 6.51}
+{'loss': 0.0416, 'grad_norm': 0.6171774864196777, 'learning_rate': 1.0578000000000001e-05, 'epoch': 6.51}
+{'loss': 0.0321, 'grad_norm': 0.6155923008918762, 'learning_rate': 1.0581e-05, 'epoch': 6.51}
+{'loss': 0.048, 'grad_norm': 0.8731139302253723, 'learning_rate': 1.0584e-05, 'epoch': 6.52}
+{'loss': 0.0373, 'grad_norm': 1.004489541053772, 'learning_rate': 1.0587e-05, 'epoch': 6.52}
+{'loss': 0.0398, 'grad_norm': 0.6643251180648804, 'learning_rate': 1.059e-05, 'epoch': 6.52}
+{'loss': 0.0634, 'grad_norm': 1.0458920001983643, 'learning_rate': 1.0593000000000002e-05, 'epoch': 6.52}
+{'loss': 0.0452, 'grad_norm': 0.7619039416313171, 'learning_rate': 1.0596e-05, 'epoch': 6.52}
+{'loss': 0.0252, 'grad_norm': 0.49429938197135925, 'learning_rate': 1.0599e-05, 'epoch': 6.52}
+{'loss': 0.0532, 'grad_norm': 0.9544243216514587, 'learning_rate': 1.0602e-05, 'epoch': 6.53}
+{'loss': 0.0463, 'grad_norm': 0.6411821246147156, 'learning_rate': 1.0605e-05, 'epoch': 6.53}
+{'loss': 0.0628, 'grad_norm': 0.9624695181846619, 'learning_rate': 1.0608e-05, 'epoch': 6.53}
+{'loss': 0.0786, 'grad_norm': 0.7749090194702148, 'learning_rate': 1.0611e-05, 'epoch': 6.53}
+{'loss': 0.0492, 'grad_norm': 0.8554633259773254, 'learning_rate': 1.0614e-05, 'epoch': 6.53}
+{'loss': 0.0641, 'grad_norm': 0.9086441397666931, 'learning_rate': 1.0617e-05, 'epoch': 6.54}
+{'loss': 0.0503, 'grad_norm': 1.2479761838912964, 'learning_rate': 1.062e-05, 'epoch': 6.54}
+{'loss': 0.0434, 'grad_norm': 0.9384217858314514, 'learning_rate': 1.0623000000000001e-05, 'epoch': 6.54}
+{'loss': 0.0533, 'grad_norm': 0.9494989514350891, 'learning_rate': 1.0626000000000001e-05, 'epoch': 6.54}
+{'loss': 0.0382, 'grad_norm': 0.9067333340644836, 'learning_rate': 1.0629000000000001e-05, 'epoch': 6.54}
+{'loss': 0.0316, 'grad_norm': 0.49929141998291016, 'learning_rate': 1.0632000000000001e-05, 'epoch': 6.54}
+{'loss': 0.0556, 'grad_norm': 0.9056301712989807, 'learning_rate': 1.0634999999999999e-05, 'epoch': 6.55}
+{'loss': 0.0376, 'grad_norm': 0.7503829598426819, 'learning_rate': 1.0638e-05, 'epoch': 6.55}
+{'loss': 0.0437, 'grad_norm': 0.8950915336608887, 'learning_rate': 1.0641e-05, 'epoch': 6.55}
+{'loss': 0.0763, 'grad_norm': 0.932851254940033, 'learning_rate': 1.0644e-05, 'epoch': 6.55}
+{'loss': 0.0564, 'grad_norm': 0.9872285723686218, 'learning_rate': 1.0647e-05, 'epoch': 6.55}
+{'loss': 0.3025, 'grad_norm': 1.4405521154403687, 'learning_rate': 1.065e-05, 'epoch': 6.56}
+{'loss': 0.2998, 'grad_norm': 1.3220841884613037, 'learning_rate': 1.0653000000000001e-05, 'epoch': 6.56}
+{'loss': 0.275, 'grad_norm': 1.004377007484436, 'learning_rate': 1.0656000000000001e-05, 'epoch': 6.56}
+{'loss': 0.2442, 'grad_norm': 1.3007129430770874, 'learning_rate': 1.0659e-05, 'epoch': 6.56}
+{'loss': 0.2277, 'grad_norm': 0.8836926221847534, 'learning_rate': 1.0662e-05, 'epoch': 6.56}
+{'loss': 0.246, 'grad_norm': 1.2006216049194336, 'learning_rate': 1.0665e-05, 'epoch': 6.57}
+{'loss': 0.1581, 'grad_norm': 0.9763594269752502, 'learning_rate': 1.0668000000000002e-05, 'epoch': 6.57}
+{'loss': 0.178, 'grad_norm': 0.7451435327529907, 'learning_rate': 1.0671e-05, 'epoch': 6.57}
+{'loss': 0.1629, 'grad_norm': 0.720901370048523, 'learning_rate': 1.0674e-05, 'epoch': 6.57}
+{'loss': 0.1589, 'grad_norm': 0.8330392241477966, 'learning_rate': 1.0677e-05, 'epoch': 6.57}
+{'loss': 0.1345, 'grad_norm': 0.9879810810089111, 'learning_rate': 1.068e-05, 'epoch': 6.57}
+{'loss': 0.1357, 'grad_norm': 0.8167811632156372, 'learning_rate': 1.0683000000000001e-05, 'epoch': 6.58}
+{'loss': 0.1959, 'grad_norm': 1.456222414970398, 'learning_rate': 1.0686e-05, 'epoch': 6.58}
+{'loss': 0.104, 'grad_norm': 0.9722453951835632, 'learning_rate': 1.0689e-05, 'epoch': 6.58}
+{'loss': 0.1026, 'grad_norm': 0.7950766086578369, 'learning_rate': 1.0692e-05, 'epoch': 6.58}
+{'loss': 0.0835, 'grad_norm': 0.7319908142089844, 'learning_rate': 1.0695e-05, 'epoch': 6.58}
+{'loss': 0.0517, 'grad_norm': 0.4791616201400757, 'learning_rate': 1.0698e-05, 'epoch': 6.59}
+{'loss': 0.0591, 'grad_norm': 0.8066070675849915, 'learning_rate': 1.0701000000000001e-05, 'epoch': 6.59}
+{'loss': 0.0609, 'grad_norm': 0.5366147756576538, 'learning_rate': 1.0704000000000001e-05, 'epoch': 6.59}
+{'loss': 0.067, 'grad_norm': 0.5729362368583679, 'learning_rate': 1.0707e-05, 'epoch': 6.59}
+{'loss': 0.0406, 'grad_norm': 0.8931047320365906, 'learning_rate': 1.0709999999999999e-05, 'epoch': 6.59}
+{'loss': 0.06, 'grad_norm': 0.8464675545692444, 'learning_rate': 1.0712999999999999e-05, 'epoch': 6.59}
+{'loss': 0.0611, 'grad_norm': 0.8957421779632568, 'learning_rate': 1.0716e-05, 'epoch': 6.6}
+{'loss': 0.0469, 'grad_norm': 0.6566211581230164, 'learning_rate': 1.0719e-05, 'epoch': 6.6}
+{'loss': 0.0475, 'grad_norm': 0.6337366104125977, 'learning_rate': 1.0722e-05, 'epoch': 6.6}
+{'loss': 0.0504, 'grad_norm': 0.6649699807167053, 'learning_rate': 1.0725e-05, 'epoch': 6.6}
+{'loss': 0.0717, 'grad_norm': 0.8092751502990723, 'learning_rate': 1.0728e-05, 'epoch': 6.6}
+{'loss': 0.0618, 'grad_norm': 0.6652283668518066, 'learning_rate': 1.0731000000000001e-05, 'epoch': 6.61}
+{'loss': 0.0732, 'grad_norm': 1.0060979127883911, 'learning_rate': 1.0734000000000001e-05, 'epoch': 6.61}
+{'loss': 0.0522, 'grad_norm': 0.5705205798149109, 'learning_rate': 1.0737e-05, 'epoch': 6.61}
+{'loss': 0.0398, 'grad_norm': 0.7541183233261108, 'learning_rate': 1.074e-05, 'epoch': 6.61}
+{'loss': 0.0441, 'grad_norm': 0.9432827830314636, 'learning_rate': 1.0743e-05, 'epoch': 6.61}
+{'loss': 0.0589, 'grad_norm': 0.8581227660179138, 'learning_rate': 1.0746e-05, 'epoch': 6.61}
+{'loss': 0.0627, 'grad_norm': 0.9152125716209412, 'learning_rate': 1.0749e-05, 'epoch': 6.62}
+{'loss': 0.0527, 'grad_norm': 0.9982067346572876, 'learning_rate': 1.0752e-05, 'epoch': 6.62}
+{'loss': 0.0346, 'grad_norm': 0.617465615272522, 'learning_rate': 1.0755e-05, 'epoch': 6.62}
+{'loss': 0.0632, 'grad_norm': 0.9789791703224182, 'learning_rate': 1.0758e-05, 'epoch': 6.62}
+  4%|▎         | 3590/100000 [1:58:19<31:34:29,  1.18s/it]  4%|▎         | 3591/100000 [1:58:20<31:04:24,  1.16s/it]                                                            4%|▎         | 3591/100000 [1:58:20<31:04:24,  1.16s/it]  4%|▎         | 3592/100000 [1:58:21<30:41:40,  1.15s/it]                                                            4%|▎         | 3592/100000 [1:58:21<30:41:40,  1.15s/it]  4%|▎         | 3593/100000 [1:58:22<30:11:04,  1.13s/it]                                                            4%|▎         | 3593/100000 [1:58:22<30:11:04,  1.13s/it]  4%|▎         | 3594/100000 [1:58:23<29:43:16,  1.11s/it]                                                            4%|▎         | 3594/100000 [1:58:23<29:43:16,  1.11s/it]  4%|▎         | 3595/100000 [1:58:24<29:13:05,  1.09s/it]                                                            4%|▎         | 3595/100000 [1:58:24<29:13:05,  1.09s/it]  4%|▎         | 3596/100000 [1:58:25<28:53:31,  1.08s/it]                                                            4%|▎         | 3596/100000 [1:58:25<28:53:31,  1.08s/it]  4%|▎         | 3597/100000 [1:58:26<28:21:48,  1.06s/it]                                                            4%|▎         | 3597/100000 [1:58:26<28:21:48,  1.06s/it]  4%|▎         | 3598/100000 [1:58:27<27:52:28,  1.04s/it]                                                            4%|▎         | 3598/100000 [1:58:27<27:52:28,  1.04s/it]  4%|▎         | 3599/100000 [1:58:28<27:27:46,  1.03s/it]                                                            4%|▎         | 3599/100000 [1:58:28<27:27:46,  1.03s/it]  4%|▎         | 3600/100000 [1:58:29<27:02:31,  1.01s/it]                                                            4%|▎         | 3600/100000 [1:58:29<27:02:31,  1.01s/it]  4%|▎         | 3601/100000 [1:58:30<26:18:21,  1.02it/s]                                                            4%|▎         | 3601/100000 [1:58:30<26:18:21,  1.02it/s]  4%|▎         | 3602/100000 [1:58:31<25:11:25,  1.06it/s]                                                            4%|▎         | 3602/100000 [1:58:31<25:11:25,  1.06it/s]  4%|▎         | 3603/100000 [1:58:43<117:24:21,  4.38s/it]                                                             4%|▎         | 3603/100000 [1:58:43<117:24:21,  4.38s/it]  4%|▎         | 3604/100000 [1:58:49<129:57:58,  4.85s/it]                                                             4%|▎         | 3604/100000 [1:58:49<129:57:58,  4.85s/it]  4%|▎         | 3605/100000 [1:58:54<129:51:45,  4.85s/it]                                                             4%|▎         | 3605/100000 [1:58:54<129:51:45,  4.85s/it]  4%|▎         | 3606/100000 [1:58:58<121:22:54,  4.53s/it]                                                             4%|▎         | 3606/100000 [1:58:58<121:22:54,  4.53s/it]  4%|▎         | 3607/100000 [1:59:01<113:53:32,  4.25s/it]                                                             4%|▎         | 3607/100000 [1:59:01<113:53:32,  4.25s/it]  4%|▎         | 3608/100000 [1:59:05<105:22:24,  3.94s/it]                                                             4%|▎         | 3608/100000 [1:59:05<105:22:24,  3.94s/it]  4%|▎         | 3609/100000 [1:59:08<97:46:18,  3.65s/it]                                                             4%|▎         | 3609/100000 [1:59:08<97:46:18,  3.65s/it]  4%|▎         | 3610/100000 [1:59:10<88:24:40,  3.30s/it]                                                            4%|▎         | 3610/100000 [1:59:10<88:24:40,  3.30s/it]  4%|▎         | 3611/100000 [1:59:13<82:16:56,  3.07s/it]                                                            4%|▎         | 3611/100000 [1:59:13<82:16:56,  3.07s/it]  4%|▎         | 3612/100000 [1:59:15<76:18:11,  2.85s/it]                                                            4%|▎         | 3612/100000 [1:59:15<76:18:11,  2.85s/it]  4%|▎         | 3613/100000 [1:59:17<70:55:10,  2.65s/it]                                                            4%|▎         | 3613/100000 [1:59:17<70:55:10,  2.65s/it]  4%|▎         | 3614/100000 [1:59:19<66:08:20,  2.47s/it]                                                            4%|▎         | 3614/100000 [1:59:19<66:08:20,  2.47s/it]  4%|▎         | 3615/100000 [1:59:21<62:02:05,  2.32s/it]                                                            4%|▎         | 3615/100000 [1:59:21<62:02:05,  2.32s/it]  4%|▎         | 3616/100000 [1:59:23<58:07:03,  2.17s/it]                                                            4%|▎         | 3616/100000 [1:59:23<58:07:03,  2.17s/it]  4%|▎         | 3617/100000 [1:59:25<54:44:47,  2.04s/it]                                                            4%|▎         | 3617/100000 [1:59:25<54:44:47,  2.04s/it]  4%|▎         | 3618/100000 [1:59:26<51:55:37,  1.94s/it]                                                            4%|▎         | 3618/100000 [1:59:26<51:55:37,  1.94s/it]  4%|▎         | 3619/100000 [1:59:28<49:37:55,  1.85s/it]                                                            4%|▎         | 3619/100000 [1:59:28<49:37:55,  1.85s/it]  4%|▎         | 3620/100000 [1:59:30<47:32:17,  1.78s/it]                                                            4%|▎         | 3620/100000 [1:59:30<47:32:17,  1.78s/it]  4%|▎         | 3621/100000 [1:59:31<45:20:16,  1.69s/it]                                                            4%|▎         | 3621/100000 [1:59:31<45:20:16,  1.69s/it]  4%|▎         | 3622/100000 [1:59:33<43:25:34,  1.62s/it]                                                            4%|▎         | 3622/100000 [1:59:33<43:25:34,  1.62s/it]  4%|▎         | 3623/100000 [1:59:34<42:03:50,  1.57s/it]                                                            4%|▎         | 3623/100000 [1:59:34<42:03:50,  1.57s/it]  4%|▎         | 3624/100000 [1:59:36<41:01:10,  1.53s/it]                                                            4%|▎         | 3624/100000 [1:59:36<41:01:10,  1.53s/it]  4%|▎         | 3625/100000 [1:59:37<40:17:54,  1.51s/it]                                                            4%|▎         | 3625/100000 [1:59:37<40:17:54,  1.51s/it]  4%|▎         | 3626/100000 [1:59:38<39:17:08,  1.47s/it]                                                            4%|▎         | 3626/100000 [1:59:38<39:17:08,  1.47s/it]  4%|▎         | 3627/100000 [1:59:40<38:44:16,  1.45s/it]                                                            4%|▎         | 3627/100000 [1:59:40<38:44:16,  1.45s/it]  4%|▎         | 3628/100000 [1:59:41<38:06:51,  1.42s/it]                                                            4%|▎         | 3628/100000 [1:59:41<38:06:51,  1.42s/it]  4%|▎         | 3629/100000 [1:59:43<37:31:14,  1.40s/it]                                                            4%|▎         | 3629/100000 [1:59:43<37:31:14,  1.40s/it]  4%|▎         | 3630/100000 [1:59:44<37:00:46,  1.38s/it]                                                            4%|▎         | 3630/100000 [1:59:44<37:00:46,  1.38s/it]  4%|▎         | 3631/100000 [1:59:45<36:28:18,  1.36s/it]                                                            4%|▎         | 3631/100000 [1:59:45<36:28:18,  1.36s/it]  4%|▎         | 3632/100000 [1:59:46<35:40:42,  1.33s/it]                                                            4%|▎         | 3632/100000 [1:59:46<35:40:42,  1.33s/it]  4%|▎         | 3633/100000 [1:59:48<35:14:45,  1.32s/it]                                                            4%|▎         | 3633/100000 [1:59:48<35:14:45,  1.32s/it]  4%|▎         | 3634/100000 [1:59:49<34:30:47,  1.29s/it]                                                            4%|▎         | 3634/100000 [1:59:49<34:30:47,  1.29s/it]  4%|▎         | 3635/100000 [1:59:50<34:08:58,  1.28s/it]                                                            4%|▎         | 3635/100000 [1:59:50<34:08:58,  1.28s/it]  4%|▎         | 3636/100000 [1:59:51<33:47:41,  1.26s/it]                                                            4%|▎         | 3636/100000 [1:59:51<33:47:41,  1.26s/it]  4%|▎         | 3637/100000 [1:59:53<33:09:51,  1.24s/it]                                                            4%|▎         | 3637/100000 [1:59:53<33:09:51,  1.24s/it]  4%|▎         | 3638/100000 [1:59:54<32:38:46,  1.22s/it]                                                            4%|▎         | 3638/100000 [1:59:54<32:38:46,  1.22s/it]  4%|▎         | 3639/100000 [1:59:55<32:01:11,  1.20s/it]                                                            4%|▎         | 3639/100000 [1:59:55<32:01:11,  1.20s/it]  4%|▎         | 3640/100000 [1:59:56<31:37:15,  1.18s/it]                                                            4%|▎         | 3640/100000 [1:59:56<31:37:15,  1.18s/it]  4%|▎         | 3641/100000 [1:59:57<31:12:41,  1.17s/it]                                                            4%|▎         | 3641/100000 [1:59:57<31:12:41,  1.17s/it]  4%|▎         | 3642/100000 [1:59:58<30:34:08,  1.14s/it]                                                            4%|▎         | 3642/100000 [1:59:58<30:34:08,  1.14s/it]  4%|▎         | 3643/100000 [1:59:59<30:19:06,  1.13s/it]                                                            4%|▎         | 3643/100000 [1:59:59<30:19:06,  1.13s/it]  4%|▎         | 3644/100000 [2:00:00<29:50:40,  1.12s/it]                                                            4%|▎         | 3644/100000 [2:00:00<29:50:40,  1.12s/it]  4%|▎         | 3645/100000 [2:00:02<29:25:48,  1.10s/it]                                                            4%|▎         | 3645/100000 [2:00:02<29:25:48,  1.10s/it]  4%|▎         | 3646/100000 [2:00:03<28:43:17,  1.07s/it]                                                            4%|▎         | 3646/100000 [2:00:03<28:43:17,  1.07s/it]  4%|▎         | 3647/100000 [2:00:04<27:59:32,  1.05s/it]                                                            4%|▎         | 3647/100000 [2:00:04<27:59:32,  1.05s/it]  4%|▎         | 3648/100000 [2:00:05<27:36:34,  1.03s/it]                                                            4%|▎         | 3648/100000 [2:00:05<27:36:34,  1.03s/it]  4%|▎         | 3649/100000 [2:00:05<27:14:49,  1.02s/it]                                                            4%|▎         | 3649/100000 [2:00:06<27:14:49,  1.02s/it]  4%|▎         | 3650/100000 [2:00:06<26:56:10,  1.01s/it]                                                            4%|▎         | 3650/100000 [2:00:06<26:56:10,  1.01s/it]  4%|▎         | 3651/100000 [2:00:07<26:20:35,  1.02it/s]                                                            4%|▎         | 3651/100000 [2:00:07<26:20:35,  1.02it/s]  4%|▎         | 3652/100000 [2:00:08<25:35:36,  1.05it/s]                                                            4%|▎         | 3652/100000 [2:00:08<25:35:36,  1.05it/s]  4%|▎         | 3653/100000 [2:00:18<99:19:42,  3.71s/it]                                                            4%|▎         | 3653/100000 [2:00:18<99:19:42,  3.71s/it]  4%|▎         | 3654/100000 [2:00:24<110:52:29,  4.14s/it]                                                             4%|▎         | 3654/100000 [2:00:24<110:52:29,  4.14s/it]  4%|▎         | 3655/100000 [2:00:28<109:49:55,  4.10s/it]                                                             4%|▎         | 3655/100000 [2:00:28<109:49:55,  4.10s/it]  4%|▎         | 3656/100000 [2:00:32<108:22:23,  4.05s/it]                                                             4%|▎         | 3656/100000 [2:00:32<108:22:23,  4.05s/it]  4%|▎         | 3657/100000 [2:00:35<103:16:59,  3.86s/it]                                                             4%|▎         | 3657/100000 [2:00:35<103:16:59,  3.86s/it]  4%|▎         | 3658/100000 [2:00:38<98:30:31,  3.68s/it]                                                             4%|▎         | 3658/100000 [2:00:38<98:30:31,  3.68s/it]  4%|▎         | 3659/100000 [2:00:41<92:57:55,  3.47s/it]                                                            4%|▎         | 3659/100000 [2:00:41<92:57:55,  3.47s/it]  4%|▎         | 3660/100000 [2:00:44<87:14:23,  3.26s/it]                                                            4%|▎         | 3660/100000 [2:00:44<87:14:23,  3.26s/it]  4%|▎         | 3661/100000 [2:00:47<81:39:31,  3.05s/it]                                                            4%|▎         | 3661/100000 [2:00:47<81:39:31,  3.05s/it]  4%|▎         | 3662/100000 [2:00:49<76:30:05,  2.86s/it]                                                            4%|▎         | 3662/100000 [2:00:49<76:30:05,  2.86s/it]  4%|▎         | 3663/100000 [2:00:51<71:02:36,  2.65s/it]                                                            4%|▎         | 3663/100000 [2:00:51<71:02:36,  2.65s/it]  4%|▎         | 3664/100000 [2:00:53<66:43:08,  2.49s/it]                                                            4%|▎         | 3664/100000 [2:00:53<66:43:08,  2.49s/it]  4%|▎         | 3665/100000 [2:00:55<62:15:08,  2.33s/it]                                                            4%|▎         | 3665/100000 [2:00:55<62:15:08,  2.33s/it]  4%|▎         | 3666/100000 [2:00:57<58:37:00,  2.19s/it]                                                            4%|▎         | 3666/100000 [2:00:57<58:37:00,  2.19s/it]  4%|▎         | 3667/100000 [2:00:59<55:19:58,  2.07s/it]                                                            4%|▎         | 3667/100000 [2:00:59<55:19:58,  2.07s/it]  4%|▎         | 3668/100000 [2:01:00<52:10:10,  1.95s/it]                                                            4%|▎         | 3668/100000 [2:01:00<52:10:10,  1.95s/it]  4%|▎         | 3669/100000 [2:01:02<49:52:49,  1.86s/it]                                                            4%|▎         | 3669/100000 [2:01:02<49:52:49,  1.86s/it]  4%|▎         | 3670/100000 [2:01:04<47:53:39,  1.79s/it]                                                            4%|▎         | 3670/100000 [2:01:04<47:53:39,  1.79s/it]  4%|▎         | 3671/100000 [2:01:05<46:19:26,  1.73s/it]                                                            4%|▎         | 3671/100000 [2:01:05<46:19:26,  1.73s/it]  4%|▎         | 3672/100000 [2:01:07<44:21:23,  1.66s/it]                                                            4%|▎         | 3672/100000 [2:01:07<44:21:23,  1.66s/it]  4%|▎         | 3673/100000 [2:01:08<43:03:25,  1.61s/it]                                                            4%|▎         | 3673/100000 [2:01:08<43:03:25,  1.61s/it]  4%|▎         | 3674/100000 [2:01:10<41:23:41,  1.55s/it]                                                          {'loss': 0.0495, 'grad_norm': 0.8940677046775818, 'learning_rate': 1.0761e-05, 'epoch': 6.62}
+{'loss': 0.0678, 'grad_norm': 1.0663244724273682, 'learning_rate': 1.0764e-05, 'epoch': 6.63}
+{'loss': 0.0659, 'grad_norm': 0.8719698190689087, 'learning_rate': 1.0767e-05, 'epoch': 6.63}
+{'loss': 0.0514, 'grad_norm': 0.6242677569389343, 'learning_rate': 1.077e-05, 'epoch': 6.63}
+{'loss': 0.0539, 'grad_norm': 0.9718525409698486, 'learning_rate': 1.0773e-05, 'epoch': 6.63}
+{'loss': 0.0596, 'grad_norm': 1.2668012380599976, 'learning_rate': 1.0776000000000002e-05, 'epoch': 6.63}
+{'loss': 0.0681, 'grad_norm': 0.9224687814712524, 'learning_rate': 1.0779000000000001e-05, 'epoch': 6.64}
+{'loss': 0.0416, 'grad_norm': 0.7575953602790833, 'learning_rate': 1.0782e-05, 'epoch': 6.64}
+{'loss': 0.0355, 'grad_norm': 0.6865046620368958, 'learning_rate': 1.0785e-05, 'epoch': 6.64}
+{'loss': 0.0513, 'grad_norm': 1.1411089897155762, 'learning_rate': 1.0787999999999999e-05, 'epoch': 6.64}
+{'loss': 0.0561, 'grad_norm': 0.8646680116653442, 'learning_rate': 1.0791e-05, 'epoch': 6.64}
+{'loss': 0.0872, 'grad_norm': 2.013439893722534, 'learning_rate': 1.0794e-05, 'epoch': 6.64}
+{'loss': 0.0669, 'grad_norm': 1.046962857246399, 'learning_rate': 1.0797e-05, 'epoch': 6.65}
+{'loss': 0.4191, 'grad_norm': 2.58697772026062, 'learning_rate': 1.08e-05, 'epoch': 6.65}
+{'loss': 0.3947, 'grad_norm': 1.5602034330368042, 'learning_rate': 1.0803e-05, 'epoch': 6.65}
+{'loss': 0.32, 'grad_norm': 1.0020840167999268, 'learning_rate': 1.0806000000000001e-05, 'epoch': 6.65}
+{'loss': 0.2205, 'grad_norm': 1.0240564346313477, 'learning_rate': 1.0809000000000001e-05, 'epoch': 6.65}
+{'loss': 0.2478, 'grad_norm': 1.3797069787979126, 'learning_rate': 1.0812e-05, 'epoch': 6.66}
+{'loss': 0.2508, 'grad_norm': 1.4267139434814453, 'learning_rate': 1.0815e-05, 'epoch': 6.66}
+{'loss': 0.2054, 'grad_norm': 1.2222124338150024, 'learning_rate': 1.0817999999999999e-05, 'epoch': 6.66}
+{'loss': 0.1975, 'grad_norm': 1.127008318901062, 'learning_rate': 1.0821e-05, 'epoch': 6.66}
+{'loss': 0.1881, 'grad_norm': 0.9890972375869751, 'learning_rate': 1.0824e-05, 'epoch': 6.66}
+{'loss': 0.2332, 'grad_norm': 1.3429679870605469, 'learning_rate': 1.0827e-05, 'epoch': 6.66}
+{'loss': 0.1254, 'grad_norm': 1.3030575513839722, 'learning_rate': 1.083e-05, 'epoch': 6.67}
+{'loss': 0.1191, 'grad_norm': 2.01155948638916, 'learning_rate': 1.0833e-05, 'epoch': 6.67}
+{'loss': 0.122, 'grad_norm': 0.8010526299476624, 'learning_rate': 1.0836000000000001e-05, 'epoch': 6.67}
+{'loss': 0.0684, 'grad_norm': 1.210434913635254, 'learning_rate': 1.0839e-05, 'epoch': 6.67}
+{'loss': 0.0914, 'grad_norm': 0.9653677344322205, 'learning_rate': 1.0842e-05, 'epoch': 6.67}
+{'loss': 0.1486, 'grad_norm': 2.1854913234710693, 'learning_rate': 1.0845e-05, 'epoch': 6.68}
+{'loss': 0.0763, 'grad_norm': 0.8655308485031128, 'learning_rate': 1.0848e-05, 'epoch': 6.68}
+{'loss': 0.0371, 'grad_norm': 0.42856207489967346, 'learning_rate': 1.0851000000000002e-05, 'epoch': 6.68}
+{'loss': 0.0453, 'grad_norm': 0.8060868978500366, 'learning_rate': 1.0854e-05, 'epoch': 6.68}
+{'loss': 0.0821, 'grad_norm': 1.4295423030853271, 'learning_rate': 1.0857e-05, 'epoch': 6.68}
+{'loss': 0.0353, 'grad_norm': 0.5448370575904846, 'learning_rate': 1.086e-05, 'epoch': 6.69}
+{'loss': 0.0528, 'grad_norm': 0.7300196886062622, 'learning_rate': 1.0863e-05, 'epoch': 6.69}
+{'loss': 0.0526, 'grad_norm': 0.6349700093269348, 'learning_rate': 1.0866e-05, 'epoch': 6.69}
+{'loss': 0.023, 'grad_norm': 0.401645690202713, 'learning_rate': 1.0869e-05, 'epoch': 6.69}
+{'loss': 0.0398, 'grad_norm': 0.5231764912605286, 'learning_rate': 1.0872e-05, 'epoch': 6.69}
+{'loss': 0.0471, 'grad_norm': 0.9089896082878113, 'learning_rate': 1.0875e-05, 'epoch': 6.69}
+{'loss': 0.0676, 'grad_norm': 0.9645804166793823, 'learning_rate': 1.0878e-05, 'epoch': 6.7}
+{'loss': 0.0526, 'grad_norm': 0.7476101517677307, 'learning_rate': 1.0881000000000001e-05, 'epoch': 6.7}
+{'loss': 0.0327, 'grad_norm': 0.7427716255187988, 'learning_rate': 1.0884000000000001e-05, 'epoch': 6.7}
+{'loss': 0.0413, 'grad_norm': 0.6101641058921814, 'learning_rate': 1.0887000000000001e-05, 'epoch': 6.7}
+{'loss': 0.0663, 'grad_norm': 0.7341259717941284, 'learning_rate': 1.089e-05, 'epoch': 6.7}
+{'loss': 0.0883, 'grad_norm': 0.7948614954948425, 'learning_rate': 1.0892999999999999e-05, 'epoch': 6.71}
+{'loss': 0.0323, 'grad_norm': 0.7815687656402588, 'learning_rate': 1.0896e-05, 'epoch': 6.71}
+{'loss': 0.037, 'grad_norm': 0.639951765537262, 'learning_rate': 1.0899e-05, 'epoch': 6.71}
+{'loss': 0.0292, 'grad_norm': 0.6436964273452759, 'learning_rate': 1.0902e-05, 'epoch': 6.71}
+{'loss': 0.0442, 'grad_norm': 0.8461018800735474, 'learning_rate': 1.0905e-05, 'epoch': 6.71}
+{'loss': 0.0471, 'grad_norm': 0.724323034286499, 'learning_rate': 1.0908e-05, 'epoch': 6.71}
+{'loss': 0.0465, 'grad_norm': 1.6644361019134521, 'learning_rate': 1.0911000000000001e-05, 'epoch': 6.72}
+{'loss': 0.0478, 'grad_norm': 1.0163922309875488, 'learning_rate': 1.0914000000000001e-05, 'epoch': 6.72}
+{'loss': 0.0705, 'grad_norm': 1.1931281089782715, 'learning_rate': 1.0917e-05, 'epoch': 6.72}
+{'loss': 0.0346, 'grad_norm': 0.6734774112701416, 'learning_rate': 1.092e-05, 'epoch': 6.72}
+{'loss': 0.0406, 'grad_norm': 0.6857860684394836, 'learning_rate': 1.0923e-05, 'epoch': 6.72}
+{'loss': 0.0689, 'grad_norm': 0.9690484404563904, 'learning_rate': 1.0926000000000002e-05, 'epoch': 6.73}
+{'loss': 0.0527, 'grad_norm': 1.1824640035629272, 'learning_rate': 1.0929e-05, 'epoch': 6.73}
+{'loss': 0.0349, 'grad_norm': 0.6219495534896851, 'learning_rate': 1.0932e-05, 'epoch': 6.73}
+{'loss': 0.0481, 'grad_norm': 1.6175211668014526, 'learning_rate': 1.0935e-05, 'epoch': 6.73}
+{'loss': 0.0421, 'grad_norm': 0.951744794845581, 'learning_rate': 1.0938e-05, 'epoch': 6.73}
+{'loss': 0.086, 'grad_norm': 1.0563994646072388, 'learning_rate': 1.0941e-05, 'epoch': 6.73}
+{'loss': 0.0374, 'grad_norm': 1.0864402055740356, 'learning_rate': 1.0944e-05, 'epoch': 6.74}
+{'loss': 0.0508, 'grad_norm': 1.0111253261566162, 'learning_rate': 1.0947e-05, 'epoch': 6.74}
+{'loss': 0.4443, 'grad_norm': 2.369296073913574, 'learning_rate': 1.095e-05, 'epoch': 6.74}
+{'loss': 0.3894, 'grad_norm': 2.0507547855377197, 'learning_rate': 1.0953e-05, 'epoch': 6.74}
+{'loss': 0.3178, 'grad_norm': 1.1392920017242432, 'learning_rate': 1.0956000000000001e-05, 'epoch': 6.74}
+{'loss': 0.2191, 'grad_norm': 0.9975927472114563, 'learning_rate': 1.0959000000000001e-05, 'epoch': 6.75}
+{'loss': 0.2412, 'grad_norm': 1.681461215019226, 'learning_rate': 1.0962000000000001e-05, 'epoch': 6.75}
+{'loss': 0.1996, 'grad_norm': 1.2123366594314575, 'learning_rate': 1.0965e-05, 'epoch': 6.75}
+{'loss': 0.2356, 'grad_norm': 0.9915981292724609, 'learning_rate': 1.0967999999999999e-05, 'epoch': 6.75}
+{'loss': 0.1982, 'grad_norm': 1.0750139951705933, 'learning_rate': 1.0971e-05, 'epoch': 6.75}
+{'loss': 0.2488, 'grad_norm': 1.2357497215270996, 'learning_rate': 1.0974e-05, 'epoch': 6.76}
+{'loss': 0.1695, 'grad_norm': 1.0140907764434814, 'learning_rate': 1.0977e-05, 'epoch': 6.76}
+{'loss': 0.1406, 'grad_norm': 0.7370830774307251, 'learning_rate': 1.098e-05, 'epoch': 6.76}
+{'loss': 0.1273, 'grad_norm': 1.0511841773986816, 'learning_rate': 1.0983e-05, 'epoch': 6.76}
+{'loss': 0.1098, 'grad_norm': 0.872833251953125, 'learning_rate': 1.0986000000000001e-05, 'epoch': 6.76}
+{'loss': 0.0684, 'grad_norm': 0.6190897226333618, 'learning_rate': 1.0989000000000001e-05, 'epoch': 6.76}
+{'loss': 0.0599, 'grad_norm': 0.555406928062439, 'learning_rate': 1.0992e-05, 'epoch': 6.77}
+{'loss': 0.1271, 'grad_norm': 0.817185640335083, 'learning_rate': 1.0995e-05, 'epoch': 6.77}
+{'loss': 0.0455, 'grad_norm': 0.9192994832992554, 'learning_rate': 1.0998e-05, 'epoch': 6.77}
+{'loss': 0.0603, 'grad_norm': 0.5491228103637695, 'learning_rate': 1.1001e-05, 'epoch': 6.77}
+{'loss': 0.0706, 'grad_norm': 0.8587676882743835, 'learning_rate': 1.1004e-05, 'epoch': 6.77}
+{'loss': 0.0618, 'grad_norm': 0.6606636643409729, 'learning_rate': 1.1007e-05, 'epoch': 6.78}
+{'loss': 0.0335, 'grad_norm': 0.4917014539241791, 'learning_rate': 1.101e-05, 'epoch': 6.78}
+  4%|▎         | 3674/100000 [2:01:10<41:23:41,  1.55s/it]  4%|▎         | 3675/100000 [2:01:11<40:05:52,  1.50s/it]                                                            4%|▎         | 3675/100000 [2:01:11<40:05:52,  1.50s/it]  4%|▎         | 3676/100000 [2:01:13<39:34:27,  1.48s/it]                                                            4%|▎         | 3676/100000 [2:01:13<39:34:27,  1.48s/it]  4%|▎         | 3677/100000 [2:01:14<38:54:35,  1.45s/it]                                                            4%|▎         | 3677/100000 [2:01:14<38:54:35,  1.45s/it]  4%|▎         | 3678/100000 [2:01:15<38:00:33,  1.42s/it]                                                            4%|▎         | 3678/100000 [2:01:15<38:00:33,  1.42s/it]  4%|▎         | 3679/100000 [2:01:17<37:27:16,  1.40s/it]                                                            4%|▎         | 3679/100000 [2:01:17<37:27:16,  1.40s/it]  4%|▎         | 3680/100000 [2:01:18<36:36:09,  1.37s/it]                                                            4%|▎         | 3680/100000 [2:01:18<36:36:09,  1.37s/it]  4%|▎         | 3681/100000 [2:01:19<36:11:41,  1.35s/it]                                                            4%|▎         | 3681/100000 [2:01:19<36:11:41,  1.35s/it]  4%|▎         | 3682/100000 [2:01:21<35:46:33,  1.34s/it]                                                            4%|▎         | 3682/100000 [2:01:21<35:46:33,  1.34s/it]  4%|▎         | 3683/100000 [2:01:22<35:17:30,  1.32s/it]                                                            4%|▎         | 3683/100000 [2:01:22<35:17:30,  1.32s/it]  4%|▎         | 3684/100000 [2:01:23<34:33:40,  1.29s/it]                                                            4%|▎         | 3684/100000 [2:01:23<34:33:40,  1.29s/it]  4%|▎         | 3685/100000 [2:01:24<34:13:24,  1.28s/it]                                                            4%|▎         | 3685/100000 [2:01:24<34:13:24,  1.28s/it]  4%|▎         | 3686/100000 [2:01:26<33:46:09,  1.26s/it]                                                            4%|▎         | 3686/100000 [2:01:26<33:46:09,  1.26s/it]  4%|▎         | 3687/100000 [2:01:27<33:05:55,  1.24s/it]                                                            4%|▎         | 3687/100000 [2:01:27<33:05:55,  1.24s/it]  4%|▎         | 3688/100000 [2:01:28<32:35:12,  1.22s/it]                                                            4%|▎         | 3688/100000 [2:01:28<32:35:12,  1.22s/it]  4%|▎         | 3689/100000 [2:01:29<32:05:24,  1.20s/it]                                                            4%|▎         | 3689/100000 [2:01:29<32:05:24,  1.20s/it]  4%|▎         | 3690/100000 [2:01:30<31:38:04,  1.18s/it]                                                            4%|▎         | 3690/100000 [2:01:30<31:38:04,  1.18s/it]  4%|▎         | 3691/100000 [2:01:31<30:58:08,  1.16s/it]                                                            4%|▎         | 3691/100000 [2:01:31<30:58:08,  1.16s/it]  4%|▎         | 3692/100000 [2:01:32<30:27:25,  1.14s/it]                                                            4%|▎         | 3692/100000 [2:01:32<30:27:25,  1.14s/it]  4%|▎         | 3693/100000 [2:01:33<29:52:49,  1.12s/it]                                                            4%|▎         | 3693/100000 [2:01:33<29:52:49,  1.12s/it]  4%|▎         | 3694/100000 [2:01:35<29:47:37,  1.11s/it]                                                            4%|▎         | 3694/100000 [2:01:35<29:47:37,  1.11s/it]  4%|▎         | 3695/100000 [2:01:36<29:13:49,  1.09s/it]                                                            4%|▎         | 3695/100000 [2:01:36<29:13:49,  1.09s/it]  4%|▎         | 3696/100000 [2:01:37<28:54:17,  1.08s/it]                                                            4%|▎         | 3696/100000 [2:01:37<28:54:17,  1.08s/it]  4%|▎         | 3697/100000 [2:01:38<28:24:31,  1.06s/it]                                                            4%|▎         | 3697/100000 [2:01:38<28:24:31,  1.06s/it]  4%|▎         | 3698/100000 [2:01:39<27:41:25,  1.04s/it]                                                            4%|▎         | 3698/100000 [2:01:39<27:41:25,  1.04s/it]  4%|▎         | 3699/100000 [2:01:40<27:00:58,  1.01s/it]                                                            4%|▎         | 3699/100000 [2:01:40<27:00:58,  1.01s/it]  4%|▎         | 3700/100000 [2:01:41<26:36:36,  1.01it/s]                                                            4%|▎         | 3700/100000 [2:01:41<26:36:36,  1.01it/s]  4%|▎         | 3701/100000 [2:01:41<25:47:46,  1.04it/s]                                                            4%|▎         | 3701/100000 [2:01:41<25:47:46,  1.04it/s]  4%|▎         | 3702/100000 [2:01:42<25:08:02,  1.06it/s]                                                            4%|▎         | 3702/100000 [2:01:42<25:08:02,  1.06it/s]  4%|▎         | 3703/100000 [2:01:54<114:08:29,  4.27s/it]                                                             4%|▎         | 3703/100000 [2:01:54<114:08:29,  4.27s/it]  4%|▎         | 3704/100000 [2:02:00<123:59:27,  4.64s/it]                                                             4%|▎         | 3704/100000 [2:02:00<123:59:27,  4.64s/it]  4%|▎         | 3705/100000 [2:02:04<120:58:43,  4.52s/it]                                                             4%|▎         | 3705/100000 [2:02:04<120:58:43,  4.52s/it]  4%|▎         | 3706/100000 [2:02:08<116:09:53,  4.34s/it]                                                             4%|▎         | 3706/100000 [2:02:08<116:09:53,  4.34s/it]  4%|▎         | 3707/100000 [2:02:11<108:38:29,  4.06s/it]                                                             4%|▎         | 3707/100000 [2:02:11<108:38:29,  4.06s/it]  4%|▎         | 3708/100000 [2:02:15<100:50:13,  3.77s/it]                                                             4%|▎         | 3708/100000 [2:02:15<100:50:13,  3.77s/it]  4%|▎         | 3709/100000 [2:02:17<93:16:48,  3.49s/it]                                                             4%|▎         | 3709/100000 [2:02:17<93:16:48,  3.49s/it]  4%|▎         | 3710/100000 [2:02:20<87:23:05,  3.27s/it]                                                            4%|▎         | 3710/100000 [2:02:20<87:23:05,  3.27s/it]  4%|▎         | 3711/100000 [2:02:23<81:15:33,  3.04s/it]                                                            4%|▎         | 3711/100000 [2:02:23<81:15:33,  3.04s/it]  4%|▎         | 3712/100000 [2:02:25<75:29:23,  2.82s/it]                                                            4%|▎         | 3712/100000 [2:02:25<75:29:23,  2.82s/it]  4%|▎         | 3713/100000 [2:02:27<70:10:37,  2.62s/it]                                                            4%|▎         | 3713/100000 [2:02:27<70:10:37,  2.62s/it]  4%|▎         | 3714/100000 [2:02:29<64:28:16,  2.41s/it]                                                            4%|▎         | 3714/100000 [2:02:29<64:28:16,  2.41s/it]  4%|▎         | 3715/100000 [2:02:31<60:46:07,  2.27s/it]                                                            4%|▎         | 3715/100000 [2:02:31<60:46:07,  2.27s/it]  4%|▎         | 3716/100000 [2:02:33<57:07:40,  2.14s/it]                                                            4%|▎         | 3716/100000 [2:02:33<57:07:40,  2.14s/it]  4%|▎         | 3717/100000 [2:02:35<53:58:53,  2.02s/it]                                                            4%|▎         | 3717/100000 [2:02:35<53:58:53,  2.02s/it]  4%|▎         | 3718/100000 [2:02:36<52:01:32,  1.95s/it]                                                            4%|▎         | 3718/100000 [2:02:36<52:01:32,  1.95s/it]  4%|▎         | 3719/100000 [2:02:38<49:29:05,  1.85s/it]                                                            4%|▎         | 3719/100000 [2:02:38<49:29:05,  1.85s/it]  4%|▎         | 3720/100000 [2:02:40<47:10:45,  1.76s/it]                                                            4%|▎         | 3720/100000 [2:02:40<47:10:45,  1.76s/it]  4%|▎         | 3721/100000 [2:02:41<44:56:49,  1.68s/it]                                                            4%|▎         | 3721/100000 [2:02:41<44:56:49,  1.68s/it]  4%|▎         | 3722/100000 [2:02:42<43:07:00,  1.61s/it]                                                            4%|▎         | 3722/100000 [2:02:42<43:07:00,  1.61s/it]  4%|▎         | 3723/100000 [2:02:44<41:52:33,  1.57s/it]                                                            4%|▎         | 3723/100000 [2:02:44<41:52:33,  1.57s/it]  4%|▎         | 3724/100000 [2:02:45<40:11:22,  1.50s/it]                                                            4%|▎         | 3724/100000 [2:02:45<40:11:22,  1.50s/it]  4%|▎         | 3725/100000 [2:02:47<39:13:15,  1.47s/it]                                                            4%|▎         | 3725/100000 [2:02:47<39:13:15,  1.47s/it]  4%|▎         | 3726/100000 [2:02:48<38:30:44,  1.44s/it]                                                            4%|▎         | 3726/100000 [2:02:48<38:30:44,  1.44s/it]  4%|▎         | 3727/100000 [2:02:49<37:27:58,  1.40s/it]                                                            4%|▎         | 3727/100000 [2:02:49<37:27:58,  1.40s/it]  4%|▎         | 3728/100000 [2:02:51<37:13:58,  1.39s/it]                                                            4%|▎         | 3728/100000 [2:02:51<37:13:58,  1.39s/it]  4%|▎         | 3729/100000 [2:02:52<36:39:09,  1.37s/it]                                                            4%|▎         | 3729/100000 [2:02:52<36:39:09,  1.37s/it]  4%|▎         | 3730/100000 [2:02:53<36:08:10,  1.35s/it]                                                            4%|▎         | 3730/100000 [2:02:53<36:08:10,  1.35s/it]  4%|▎         | 3731/100000 [2:02:55<35:47:01,  1.34s/it]                                                            4%|▎         | 3731/100000 [2:02:55<35:47:01,  1.34s/it]  4%|▎         | 3732/100000 [2:02:56<35:17:19,  1.32s/it]                                                            4%|▎         | 3732/100000 [2:02:56<35:17:19,  1.32s/it]  4%|▎         | 3733/100000 [2:02:57<34:48:58,  1.30s/it]                                                            4%|▎         | 3733/100000 [2:02:57<34:48:58,  1.30s/it]  4%|▎         | 3734/100000 [2:02:58<34:20:59,  1.28s/it]                                                            4%|▎         | 3734/100000 [2:02:58<34:20:59,  1.28s/it]  4%|▎         | 3735/100000 [2:03:00<33:56:15,  1.27s/it]                                                            4%|▎         | 3735/100000 [2:03:00<33:56:15,  1.27s/it]  4%|▎         | 3736/100000 [2:03:01<33:04:18,  1.24s/it]                                                            4%|▎         | 3736/100000 [2:03:01<33:04:18,  1.24s/it]  4%|▎         | 3737/100000 [2:03:02<33:36:54,  1.26s/it]                                                            4%|▎         | 3737/100000 [2:03:02<33:36:54,  1.26s/it]  4%|▎         | 3738/100000 [2:03:03<32:30:34,  1.22s/it]                                                            4%|▎         | 3738/100000 [2:03:03<32:30:34,  1.22s/it]  4%|▎         | 3739/100000 [2:03:04<31:48:51,  1.19s/it]                                                            4%|▎         | 3739/100000 [2:03:04<31:48:51,  1.19s/it]  4%|▎         | 3740/100000 [2:03:05<31:19:55,  1.17s/it]                                                            4%|▎         | 3740/100000 [2:03:05<31:19:55,  1.17s/it]  4%|▎         | 3741/100000 [2:03:07<30:51:22,  1.15s/it]                                                            4%|▎         | 3741/100000 [2:03:07<30:51:22,  1.15s/it]  4%|▎         | 3742/100000 [2:03:08<30:08:02,  1.13s/it]                                                            4%|▎         | 3742/100000 [2:03:08<30:08:02,  1.13s/it]  4%|▎         | 3743/100000 [2:03:09<29:57:20,  1.12s/it]                                                            4%|▎         | 3743/100000 [2:03:09<29:57:20,  1.12s/it]  4%|▎         | 3744/100000 [2:03:10<29:36:00,  1.11s/it]                                                            4%|▎         | 3744/100000 [2:03:10<29:36:00,  1.11s/it]  4%|▎         | 3745/100000 [2:03:11<29:06:23,  1.09s/it]                                                            4%|▎         | 3745/100000 [2:03:11<29:06:23,  1.09s/it]  4%|▎         | 3746/100000 [2:03:12<28:45:55,  1.08s/it]                                                            4%|▎         | 3746/100000 [2:03:12<28:45:55,  1.08s/it]  4%|▎         | 3747/100000 [2:03:13<28:21:31,  1.06s/it]                                                            4%|▎         | 3747/100000 [2:03:13<28:21:31,  1.06s/it]  4%|▎         | 3748/100000 [2:03:14<27:52:11,  1.04s/it]                                                            4%|▎         | 3748/100000 [2:03:14<27:52:11,  1.04s/it]  4%|▎         | 3749/100000 [2:03:15<27:24:01,  1.02s/it]                                                            4%|▎         | 3749/100000 [2:03:15<27:24:01,  1.02s/it]  4%|▍         | 3750/100000 [2:03:16<26:56:26,  1.01s/it]                                                            4%|▍         | 3750/100000 [2:03:16<26:56:26,  1.01s/it]  4%|▍         | 3751/100000 [2:03:17<26:15:16,  1.02it/s]                                                            4%|▍         | 3751/100000 [2:03:17<26:15:16,  1.02it/s]  4%|▍         | 3752/100000 [2:03:18<25:23:38,  1.05it/s]                                                            4%|▍         | 3752/100000 [2:03:18<25:23:38,  1.05it/s]  4%|▍         | 3753/100000 [2:03:29<107:32:26,  4.02s/it]                                                             4%|▍         | 3753/100000 [2:03:29<107:32:26,  4.02s/it]  4%|▍         | 3754/100000 [2:03:34<117:47:11,  4.41s/it]                                                             4%|▍         | 3754/100000 [2:03:34<117:47:11,  4.41s/it]  4%|▍         | 3755/100000 [2:03:39<119:27:05,  4.47s/it]                                                             4%|▍         | 3755/100000 [2:03:39<119:27:05,  4.47s/it]  4%|▍         | 3756/100000 [2:03:43<115:17:49,  4.31s/it]                                                             4%|▍         | 3756/100000 [2:03:43<115:17:49,  4.31s/it]  4%|▍         | 3757/100000 [2:03:46<108:34:43,  4.06s/it]                                                             4%|▍         | 3757/100000 [2:03:46<108:34:43,  4.06s/it]  4%|▍         | 3758/100000 [2:03:49<100:28:15,  3.76s/it]                                                           {'loss': 0.0368, 'grad_norm': 0.627388060092926, 'learning_rate': 1.1013e-05, 'epoch': 6.78}
+{'loss': 0.0857, 'grad_norm': 0.827018141746521, 'learning_rate': 1.1016000000000001e-05, 'epoch': 6.78}
+{'loss': 0.0322, 'grad_norm': 0.538213312625885, 'learning_rate': 1.1019e-05, 'epoch': 6.78}
+{'loss': 0.042, 'grad_norm': 0.504508376121521, 'learning_rate': 1.1022e-05, 'epoch': 6.78}
+{'loss': 0.0388, 'grad_norm': 0.72398841381073, 'learning_rate': 1.1025e-05, 'epoch': 6.79}
+{'loss': 0.0386, 'grad_norm': 0.9289087653160095, 'learning_rate': 1.1028e-05, 'epoch': 6.79}
+{'loss': 0.0418, 'grad_norm': 0.6446580290794373, 'learning_rate': 1.1031000000000002e-05, 'epoch': 6.79}
+{'loss': 0.0596, 'grad_norm': 0.7011333107948303, 'learning_rate': 1.1034000000000001e-05, 'epoch': 6.79}
+{'loss': 0.0462, 'grad_norm': 0.6451525092124939, 'learning_rate': 1.1037000000000001e-05, 'epoch': 6.79}
+{'loss': 0.0433, 'grad_norm': 0.9175089001655579, 'learning_rate': 1.104e-05, 'epoch': 6.8}
+{'loss': 0.048, 'grad_norm': 0.9872082471847534, 'learning_rate': 1.1042999999999999e-05, 'epoch': 6.8}
+{'loss': 0.0568, 'grad_norm': 0.7646401524543762, 'learning_rate': 1.1046e-05, 'epoch': 6.8}
+{'loss': 0.0415, 'grad_norm': 0.5979199409484863, 'learning_rate': 1.1049e-05, 'epoch': 6.8}
+{'loss': 0.0618, 'grad_norm': 0.816354513168335, 'learning_rate': 1.1052e-05, 'epoch': 6.8}
+{'loss': 0.038, 'grad_norm': 1.424713373184204, 'learning_rate': 1.1055e-05, 'epoch': 6.81}
+{'loss': 0.0324, 'grad_norm': 0.6271553635597229, 'learning_rate': 1.1058e-05, 'epoch': 6.81}
+{'loss': 0.1012, 'grad_norm': 0.9549874663352966, 'learning_rate': 1.1061000000000001e-05, 'epoch': 6.81}
+{'loss': 0.0662, 'grad_norm': 0.8129993677139282, 'learning_rate': 1.1064000000000001e-05, 'epoch': 6.81}
+{'loss': 0.0565, 'grad_norm': 2.0147483348846436, 'learning_rate': 1.1067000000000001e-05, 'epoch': 6.81}
+{'loss': 0.0402, 'grad_norm': 1.7509359121322632, 'learning_rate': 1.107e-05, 'epoch': 6.81}
+{'loss': 0.0488, 'grad_norm': 0.9780064225196838, 'learning_rate': 1.1073e-05, 'epoch': 6.82}
+{'loss': 0.0635, 'grad_norm': 0.8157630562782288, 'learning_rate': 1.1075999999999999e-05, 'epoch': 6.82}
+{'loss': 0.0589, 'grad_norm': 0.9507924318313599, 'learning_rate': 1.1079e-05, 'epoch': 6.82}
+{'loss': 0.0434, 'grad_norm': 0.7969843149185181, 'learning_rate': 1.1082e-05, 'epoch': 6.82}
+{'loss': 0.0229, 'grad_norm': 10.65235424041748, 'learning_rate': 1.1085e-05, 'epoch': 6.82}
+{'loss': 0.0812, 'grad_norm': 0.8875689506530762, 'learning_rate': 1.1088e-05, 'epoch': 6.83}
+{'loss': 0.0502, 'grad_norm': 0.5887988805770874, 'learning_rate': 1.1091e-05, 'epoch': 6.83}
+{'loss': 0.0771, 'grad_norm': 1.0622601509094238, 'learning_rate': 1.1094e-05, 'epoch': 6.83}
+{'loss': 0.0844, 'grad_norm': 1.051266074180603, 'learning_rate': 1.1097e-05, 'epoch': 6.83}
+{'loss': 0.4615, 'grad_norm': 2.6369080543518066, 'learning_rate': 1.11e-05, 'epoch': 6.83}
+{'loss': 0.2638, 'grad_norm': 1.35551118850708, 'learning_rate': 1.1103e-05, 'epoch': 6.83}
+{'loss': 0.3182, 'grad_norm': 1.556361198425293, 'learning_rate': 1.1106e-05, 'epoch': 6.84}
+{'loss': 0.3061, 'grad_norm': 1.2559797763824463, 'learning_rate': 1.1109000000000002e-05, 'epoch': 6.84}
+{'loss': 0.297, 'grad_norm': 1.3399794101715088, 'learning_rate': 1.1112e-05, 'epoch': 6.84}
+{'loss': 0.2254, 'grad_norm': 1.2586995363235474, 'learning_rate': 1.1115e-05, 'epoch': 6.84}
+{'loss': 0.2483, 'grad_norm': 1.0613036155700684, 'learning_rate': 1.1118e-05, 'epoch': 6.84}
+{'loss': 0.2313, 'grad_norm': 1.3740078210830688, 'learning_rate': 1.1120999999999999e-05, 'epoch': 6.85}
+{'loss': 0.1593, 'grad_norm': 0.8254731297492981, 'learning_rate': 1.1124e-05, 'epoch': 6.85}
+{'loss': 0.1293, 'grad_norm': 0.7780969142913818, 'learning_rate': 1.1127e-05, 'epoch': 6.85}
+{'loss': 0.1721, 'grad_norm': 0.97072833776474, 'learning_rate': 1.113e-05, 'epoch': 6.85}
+{'loss': 0.1715, 'grad_norm': 0.9659312963485718, 'learning_rate': 1.1133e-05, 'epoch': 6.85}
+{'loss': 0.2042, 'grad_norm': 1.041581630706787, 'learning_rate': 1.1136e-05, 'epoch': 6.86}
+{'loss': 0.0725, 'grad_norm': 0.5041184425354004, 'learning_rate': 1.1139000000000001e-05, 'epoch': 6.86}
+{'loss': 0.0548, 'grad_norm': 0.4641791880130768, 'learning_rate': 1.1142000000000001e-05, 'epoch': 6.86}
+{'loss': 0.0657, 'grad_norm': 0.6150814294815063, 'learning_rate': 1.1145000000000001e-05, 'epoch': 6.86}
+{'loss': 0.0709, 'grad_norm': 0.9226855039596558, 'learning_rate': 1.1148e-05, 'epoch': 6.86}
+{'loss': 0.0448, 'grad_norm': 0.5464257001876831, 'learning_rate': 1.1150999999999999e-05, 'epoch': 6.86}
+{'loss': 0.0544, 'grad_norm': 0.9268885850906372, 'learning_rate': 1.1154e-05, 'epoch': 6.87}
+{'loss': 0.0437, 'grad_norm': 0.6879826784133911, 'learning_rate': 1.1157e-05, 'epoch': 6.87}
+{'loss': 0.0527, 'grad_norm': 0.6709389686584473, 'learning_rate': 1.116e-05, 'epoch': 6.87}
+{'loss': 0.0256, 'grad_norm': 0.3872710168361664, 'learning_rate': 1.1163e-05, 'epoch': 6.87}
+{'loss': 0.0489, 'grad_norm': 0.6115924715995789, 'learning_rate': 1.1166e-05, 'epoch': 6.87}
+{'loss': 0.0577, 'grad_norm': 0.6553891897201538, 'learning_rate': 1.1169000000000001e-05, 'epoch': 6.88}
+{'loss': 0.0787, 'grad_norm': 1.1549395322799683, 'learning_rate': 1.1172e-05, 'epoch': 6.88}
+{'loss': 0.0511, 'grad_norm': 0.7184242606163025, 'learning_rate': 1.1175e-05, 'epoch': 6.88}
+{'loss': 0.0506, 'grad_norm': 0.7228502035140991, 'learning_rate': 1.1178e-05, 'epoch': 6.88}
+{'loss': 0.0562, 'grad_norm': 1.02662193775177, 'learning_rate': 1.1181e-05, 'epoch': 6.88}
+{'loss': 0.0522, 'grad_norm': 0.9584940075874329, 'learning_rate': 1.1184000000000002e-05, 'epoch': 6.88}
+{'loss': 0.075, 'grad_norm': 0.7661015391349792, 'learning_rate': 1.1187e-05, 'epoch': 6.89}
+{'loss': 0.0482, 'grad_norm': 0.6086714267730713, 'learning_rate': 1.119e-05, 'epoch': 6.89}
+{'loss': 0.0461, 'grad_norm': 0.8402490019798279, 'learning_rate': 1.1193e-05, 'epoch': 6.89}
+{'loss': 0.0348, 'grad_norm': 0.9646185040473938, 'learning_rate': 1.1196e-05, 'epoch': 6.89}
+{'loss': 0.0701, 'grad_norm': 0.8491271734237671, 'learning_rate': 1.1199e-05, 'epoch': 6.89}
+{'loss': 0.0643, 'grad_norm': 1.3548365831375122, 'learning_rate': 1.1202e-05, 'epoch': 6.9}
+{'loss': 0.0643, 'grad_norm': 1.1035486459732056, 'learning_rate': 1.1205e-05, 'epoch': 6.9}
+{'loss': 0.0401, 'grad_norm': 0.5701906085014343, 'learning_rate': 1.1208e-05, 'epoch': 6.9}
+{'loss': 0.0554, 'grad_norm': 0.7111980319023132, 'learning_rate': 1.1211e-05, 'epoch': 6.9}
+{'loss': 0.0409, 'grad_norm': 0.6047128438949585, 'learning_rate': 1.1214000000000001e-05, 'epoch': 6.9}
+{'loss': 0.0716, 'grad_norm': 1.317233681678772, 'learning_rate': 1.1217000000000001e-05, 'epoch': 6.9}
+{'loss': 0.0484, 'grad_norm': 0.8000737428665161, 'learning_rate': 1.1220000000000001e-05, 'epoch': 6.91}
+{'loss': 0.0612, 'grad_norm': 0.9985203146934509, 'learning_rate': 1.1222999999999999e-05, 'epoch': 6.91}
+{'loss': 0.0494, 'grad_norm': 0.8063696026802063, 'learning_rate': 1.1225999999999999e-05, 'epoch': 6.91}
+{'loss': 0.0465, 'grad_norm': 0.9671680331230164, 'learning_rate': 1.1229e-05, 'epoch': 6.91}
+{'loss': 0.0603, 'grad_norm': 0.8081934452056885, 'learning_rate': 1.1232e-05, 'epoch': 6.91}
+{'loss': 0.0494, 'grad_norm': 0.6315751671791077, 'learning_rate': 1.1235e-05, 'epoch': 6.92}
+{'loss': 0.0743, 'grad_norm': 1.0424327850341797, 'learning_rate': 1.1238e-05, 'epoch': 6.92}
+{'loss': 0.086, 'grad_norm': 0.9841300249099731, 'learning_rate': 1.1241e-05, 'epoch': 6.92}
+{'loss': 0.045, 'grad_norm': 0.7991226315498352, 'learning_rate': 1.1244000000000001e-05, 'epoch': 6.92}
+{'loss': 0.0686, 'grad_norm': 1.1342779397964478, 'learning_rate': 1.1247000000000001e-05, 'epoch': 6.92}
+{'loss': 0.2982, 'grad_norm': 1.4662410020828247, 'learning_rate': 1.125e-05, 'epoch': 6.93}
+{'loss': 0.3563, 'grad_norm': 1.1601957082748413, 'learning_rate': 1.1253e-05, 'epoch': 6.93}
+{'loss': 0.2017, 'grad_norm': 0.7693567872047424, 'learning_rate': 1.1256e-05, 'epoch': 6.93}
+{'loss': 0.2333, 'grad_norm': 1.183059573173523, 'learning_rate': 1.1259e-05, 'epoch': 6.93}
+{'loss': 0.2091, 'grad_norm': 0.8615180850028992, 'learning_rate': 1.1262e-05, 'epoch': 6.93}
+  4%|▍         | 3758/100000 [2:03:49<100:28:15,  3.76s/it]  4%|▍         | 3759/100000 [2:03:52<92:37:19,  3.46s/it]                                                             4%|▍         | 3759/100000 [2:03:52<92:37:19,  3.46s/it]  4%|▍         | 3760/100000 [2:03:55<84:56:49,  3.18s/it]                                                            4%|▍         | 3760/100000 [2:03:55<84:56:49,  3.18s/it]  4%|▍         | 3761/100000 [2:03:57<77:55:54,  2.92s/it]                                                            4%|▍         | 3761/100000 [2:03:57<77:55:54,  2.92s/it]  4%|▍         | 3762/100000 [2:03:59<71:27:40,  2.67s/it]                                                            4%|▍         | 3762/100000 [2:03:59<71:27:40,  2.67s/it]  4%|▍         | 3763/100000 [2:04:01<65:44:01,  2.46s/it]                                                            4%|▍         | 3763/100000 [2:04:01<65:44:01,  2.46s/it]  4%|▍         | 3764/100000 [2:04:03<60:50:20,  2.28s/it]                                                            4%|▍         | 3764/100000 [2:04:03<60:50:20,  2.28s/it]  4%|▍         | 3765/100000 [2:04:05<56:34:31,  2.12s/it]                                                            4%|▍         | 3765/100000 [2:04:05<56:34:31,  2.12s/it]  4%|▍         | 3766/100000 [2:04:06<52:33:45,  1.97s/it]                                                            4%|▍         | 3766/100000 [2:04:06<52:33:45,  1.97s/it]  4%|▍         | 3767/100000 [2:04:08<48:35:22,  1.82s/it]                                                            4%|▍         | 3767/100000 [2:04:08<48:35:22,  1.82s/it]  4%|▍         | 3768/100000 [2:04:09<46:01:55,  1.72s/it]                                                            4%|▍         | 3768/100000 [2:04:09<46:01:55,  1.72s/it]  4%|▍         | 3769/100000 [2:04:11<44:10:30,  1.65s/it]                                                            4%|▍         | 3769/100000 [2:04:11<44:10:30,  1.65s/it]  4%|▍         | 3770/100000 [2:04:12<42:17:33,  1.58s/it]                                                            4%|▍         | 3770/100000 [2:04:12<42:17:33,  1.58s/it]  4%|▍         | 3771/100000 [2:04:13<41:02:18,  1.54s/it]                                                            4%|▍         | 3771/100000 [2:04:13<41:02:18,  1.54s/it]  4%|▍         | 3772/100000 [2:04:15<39:52:57,  1.49s/it]                                                            4%|▍         | 3772/100000 [2:04:15<39:52:57,  1.49s/it]  4%|▍         | 3773/100000 [2:04:16<38:36:17,  1.44s/it]                                                            4%|▍         | 3773/100000 [2:04:16<38:36:17,  1.44s/it]  4%|▍         | 3774/100000 [2:04:17<37:31:44,  1.40s/it]                                                            4%|▍         | 3774/100000 [2:04:18<37:31:44,  1.40s/it]  4%|▍         | 3775/100000 [2:04:19<36:56:48,  1.38s/it]                                                            4%|▍         | 3775/100000 [2:04:19<36:56:48,  1.38s/it]  4%|▍         | 3776/100000 [2:04:20<36:11:00,  1.35s/it]                                                            4%|▍         | 3776/100000 [2:04:20<36:11:00,  1.35s/it]  4%|▍         | 3777/100000 [2:04:21<35:18:19,  1.32s/it]                                                            4%|▍         | 3777/100000 [2:04:21<35:18:19,  1.32s/it]  4%|▍         | 3778/100000 [2:04:23<34:44:32,  1.30s/it]                                                            4%|▍         | 3778/100000 [2:04:23<34:44:32,  1.30s/it]  4%|▍         | 3779/100000 [2:04:24<33:57:33,  1.27s/it]                                                            4%|▍         | 3779/100000 [2:04:24<33:57:33,  1.27s/it]  4%|▍         | 3780/100000 [2:04:25<33:23:18,  1.25s/it]                                                            4%|▍         | 3780/100000 [2:04:25<33:23:18,  1.25s/it]  4%|▍         | 3781/100000 [2:04:26<32:24:25,  1.21s/it]                                                            4%|▍         | 3781/100000 [2:04:26<32:24:25,  1.21s/it]  4%|▍         | 3782/100000 [2:04:27<31:48:02,  1.19s/it]                                                            4%|▍         | 3782/100000 [2:04:27<31:48:02,  1.19s/it]  4%|▍         | 3783/100000 [2:04:28<31:16:53,  1.17s/it]                                                            4%|▍         | 3783/100000 [2:04:28<31:16:53,  1.17s/it]  4%|▍         | 3784/100000 [2:04:29<30:27:52,  1.14s/it]                                                            4%|▍         | 3784/100000 [2:04:29<30:27:52,  1.14s/it]  4%|▍         | 3785/100000 [2:04:31<30:10:58,  1.13s/it]                                                            4%|▍         | 3785/100000 [2:04:31<30:10:58,  1.13s/it]  4%|▍         | 3786/100000 [2:04:32<29:30:44,  1.10s/it]                                                            4%|▍         | 3786/100000 [2:04:32<29:30:44,  1.10s/it]  4%|▍         | 3787/100000 [2:04:33<29:10:41,  1.09s/it]                                                            4%|▍         | 3787/100000 [2:04:33<29:10:41,  1.09s/it]  4%|▍         | 3788/100000 [2:04:34<28:33:30,  1.07s/it]                                                            4%|▍         | 3788/100000 [2:04:34<28:33:30,  1.07s/it]  4%|▍         | 3789/100000 [2:04:35<28:04:39,  1.05s/it]                                                            4%|▍         | 3789/100000 [2:04:35<28:04:39,  1.05s/it]  4%|▍         | 3790/100000 [2:04:36<27:14:28,  1.02s/it]                                                            4%|▍         | 3790/100000 [2:04:36<27:14:28,  1.02s/it]  4%|▍         | 3791/100000 [2:04:37<26:45:14,  1.00s/it]                                                            4%|▍         | 3791/100000 [2:04:37<26:45:14,  1.00s/it]  4%|▍         | 3792/100000 [2:04:38<26:05:21,  1.02it/s]                                                            4%|▍         | 3792/100000 [2:04:38<26:05:21,  1.02it/s]  4%|▍         | 3793/100000 [2:04:38<25:28:11,  1.05it/s]                                                            4%|▍         | 3793/100000 [2:04:38<25:28:11,  1.05it/s]  4%|▍         | 3794/100000 [2:04:39<24:26:25,  1.09it/s]                                                            4%|▍         | 3794/100000 [2:04:39<24:26:25,  1.09it/s]{'loss': 0.177, 'grad_norm': 0.9820761680603027, 'learning_rate': 1.1265e-05, 'epoch': 6.93}
+{'loss': 0.2127, 'grad_norm': 1.0718605518341064, 'learning_rate': 1.1268e-05, 'epoch': 6.94}
+{'loss': 0.1607, 'grad_norm': 0.8176330327987671, 'learning_rate': 1.1271e-05, 'epoch': 6.94}
+{'loss': 0.1712, 'grad_norm': 0.8427945375442505, 'learning_rate': 1.1274e-05, 'epoch': 6.94}
+{'loss': 0.1341, 'grad_norm': 0.6818265318870544, 'learning_rate': 1.1277e-05, 'epoch': 6.94}
+{'loss': 0.1158, 'grad_norm': 0.7700383067131042, 'learning_rate': 1.128e-05, 'epoch': 6.94}
+{'loss': 0.0953, 'grad_norm': 0.5608851313591003, 'learning_rate': 1.1283e-05, 'epoch': 6.95}
+{'loss': 0.0873, 'grad_norm': 0.6973187923431396, 'learning_rate': 1.1286e-05, 'epoch': 6.95}
+{'loss': 0.1105, 'grad_norm': 0.7664932608604431, 'learning_rate': 1.1289000000000002e-05, 'epoch': 6.95}
+{'loss': 0.1101, 'grad_norm': 0.8267348408699036, 'learning_rate': 1.1292000000000001e-05, 'epoch': 6.95}
+{'loss': 0.0683, 'grad_norm': 0.5690252184867859, 'learning_rate': 1.1295000000000001e-05, 'epoch': 6.95}
+{'loss': 0.0459, 'grad_norm': 0.5724848508834839, 'learning_rate': 1.1298e-05, 'epoch': 6.95}
+{'loss': 0.0703, 'grad_norm': 0.646037220954895, 'learning_rate': 1.1300999999999999e-05, 'epoch': 6.96}
+{'loss': 0.0535, 'grad_norm': 0.6106911301612854, 'learning_rate': 1.1304e-05, 'epoch': 6.96}
+{'loss': 0.0474, 'grad_norm': 0.5185670852661133, 'learning_rate': 1.1307e-05, 'epoch': 6.96}
+{'loss': 0.0386, 'grad_norm': 0.9679078459739685, 'learning_rate': 1.131e-05, 'epoch': 6.96}
+{'loss': 0.0564, 'grad_norm': 0.6940216422080994, 'learning_rate': 1.1313e-05, 'epoch': 6.96}
+{'loss': 0.0392, 'grad_norm': 0.6831811666488647, 'learning_rate': 1.1316e-05, 'epoch': 6.97}
+{'loss': 0.0409, 'grad_norm': 0.7709175944328308, 'learning_rate': 1.1319000000000001e-05, 'epoch': 6.97}
+{'loss': 0.0447, 'grad_norm': 0.7472397685050964, 'learning_rate': 1.1322000000000001e-05, 'epoch': 6.97}
+{'loss': 0.0454, 'grad_norm': 0.7726459503173828, 'learning_rate': 1.1325e-05, 'epoch': 6.97}
+{'loss': 0.0392, 'grad_norm': 0.6965910792350769, 'learning_rate': 1.1328e-05, 'epoch': 6.97}
+{'loss': 0.0251, 'grad_norm': 0.45253920555114746, 'learning_rate': 1.1331e-05, 'epoch': 6.98}
+{'loss': 0.0474, 'grad_norm': 0.9065711498260498, 'learning_rate': 1.1334e-05, 'epoch': 6.98}
+{'loss': 0.0252, 'grad_norm': 0.5685831308364868, 'learning_rate': 1.1337e-05, 'epoch': 6.98}
+{'loss': 0.0251, 'grad_norm': 0.6188499927520752, 'learning_rate': 1.134e-05, 'epoch': 6.98}
+{'loss': 0.0445, 'grad_norm': 0.655066967010498, 'learning_rate': 1.1343e-05, 'epoch': 6.98}
+{'loss': 0.0377, 'grad_norm': 0.9167073369026184, 'learning_rate': 1.1346e-05, 'epoch': 6.98}
+{'loss': 0.0368, 'grad_norm': 0.6690863966941833, 'learning_rate': 1.1349000000000001e-05, 'epoch': 6.99}
+{'loss': 0.0262, 'grad_norm': 0.4566117525100708, 'learning_rate': 1.1352e-05, 'epoch': 6.99}
+{'loss': 0.0529, 'grad_norm': 0.8612862825393677, 'learning_rate': 1.1355e-05, 'epoch': 6.99}
+{'loss': 0.055, 'grad_norm': 0.8186120986938477, 'learning_rate': 1.1358e-05, 'epoch': 6.99}
+{'loss': 0.059, 'grad_norm': 1.036474347114563, 'learning_rate': 1.1361e-05, 'epoch': 6.99}
+{'loss': 0.0572, 'grad_norm': 0.9849673509597778, 'learning_rate': 1.1364000000000002e-05, 'epoch': 7.0}
+{'loss': 0.0437, 'grad_norm': 0.7555782198905945, 'learning_rate': 1.1367000000000001e-05, 'epoch': 7.0}
+{'loss': 0.084, 'grad_norm': 1.5732660293579102, 'learning_rate': 1.137e-05, 'epoch': 7.0}
+{'loss': 0.0706, 'grad_norm': 1.2220367193222046, 'learning_rate': 1.1373e-05, 'epoch': 7.0}
+  4%|▍         | 3795/100000 [2:04:56<153:23:45,  5.74s/it]                                                             4%|▍         | 3795/100000 [2:04:56<153:23:45,  5.74s/it]  4%|▍         | 3796/100000 [2:05:02<154:40:55,  5.79s/it]                                                             4%|▍         | 3796/100000 [2:05:02<154:40:55,  5.79s/it]  4%|▍         | 3797/100000 [2:05:07<144:14:23,  5.40s/it]                                                             4%|▍         | 3797/100000 [2:05:07<144:14:23,  5.40s/it]  4%|▍         | 3798/100000 [2:05:11<133:56:09,  5.01s/it]                                                             4%|▍         | 3798/100000 [2:05:11<133:56:09,  5.01s/it]  4%|▍         | 3799/100000 [2:05:14<121:41:11,  4.55s/it]                                                             4%|▍         | 3799/100000 [2:05:14<121:41:11,  4.55s/it]  4%|▍         | 3800/100000 [2:05:18<111:32:58,  4.17s/it]                                                             4%|▍         | 3800/100000 [2:05:18<111:32:58,  4.17s/it]  4%|▍         | 3801/100000 [2:05:21<102:20:08,  3.83s/it]                                                             4%|▍         | 3801/100000 [2:05:21<102:20:08,  3.83s/it]  4%|▍         | 3802/100000 [2:05:23<94:02:44,  3.52s/it]                                                             4%|▍         | 3802/100000 [2:05:23<94:02:44,  3.52s/it]  4%|▍         | 3803/100000 [2:05:26<86:12:34,  3.23s/it]                                                            4%|▍         | 3803/100000 [2:05:26<86:12:34,  3.23s/it]  4%|▍         | 3804/100000 [2:05:28<79:09:37,  2.96s/it]                                                            4%|▍         | 3804/100000 [2:05:28<79:09:37,  2.96s/it]  4%|▍         | 3805/100000 [2:05:30<72:39:22,  2.72s/it]                                                            4%|▍         | 3805/100000 [2:05:30<72:39:22,  2.72s/it]  4%|▍         | 3806/100000 [2:05:32<67:22:09,  2.52s/it]                                                            4%|▍         | 3806/100000 [2:05:32<67:22:09,  2.52s/it]  4%|▍         | 3807/100000 [2:05:34<62:50:38,  2.35s/it]                                                            4%|▍         | 3807/100000 [2:05:34<62:50:38,  2.35s/it]  4%|▍         | 3808/100000 [2:05:36<58:18:59,  2.18s/it]                                                            4%|▍         | 3808/100000 [2:05:36<58:18:59,  2.18s/it]  4%|▍         | 3809/100000 [2:05:38<54:50:45,  2.05s/it]                                                            4%|▍         | 3809/100000 [2:05:38<54:50:45,  2.05s/it]  4%|▍         | 3810/100000 [2:05:40<51:58:11,  1.95s/it]                                                            4%|▍         | 3810/100000 [2:05:40<51:58:11,  1.95s/it]  4%|▍         | 3811/100000 [2:05:41<49:26:34,  1.85s/it]                                                            4%|▍         | 3811/100000 [2:05:41<49:26:34,  1.85s/it]  4%|▍         | 3812/100000 [2:05:43<47:18:15,  1.77s/it]                                                            4%|▍         | 3812/100000 [2:05:43<47:18:15,  1.77s/it]  4%|▍         | 3813/100000 [2:05:44<45:25:15,  1.70s/it]                                                            4%|▍         | 3813/100000 [2:05:44<45:25:15,  1.70s/it]  4%|▍         | 3814/100000 [2:05:46<43:06:39,  1.61s/it]                                                            4%|▍         | 3814/100000 [2:05:46<43:06:39,  1.61s/it]  4%|▍         | 3815/100000 [2:05:47<41:25:14,  1.55s/it]                                                            4%|▍         | 3815/100000 [2:05:47<41:25:14,  1.55s/it]  4%|▍         | 3816/100000 [2:05:49<40:37:42,  1.52s/it]                                                            4%|▍         | 3816/100000 [2:05:49<40:37:42,  1.52s/it]  4%|▍         | 3817/100000 [2:05:50<39:48:07,  1.49s/it]                                                            4%|▍         | 3817/100000 [2:05:50<39:48:07,  1.49s/it]  4%|▍         | 3818/100000 [2:05:51<38:44:45,  1.45s/it]                                                            4%|▍         | 3818/100000 [2:05:51<38:44:45,  1.45s/it]  4%|▍         | 3819/100000 [2:05:53<38:11:27,  1.43s/it]                                                            4%|▍         | 3819/100000 [2:05:53<38:11:27,  1.43s/it]  4%|▍         | 3820/100000 [2:05:54<37:13:27,  1.39s/it]                                                            4%|▍         | 3820/100000 [2:05:54<37:13:27,  1.39s/it]  4%|▍         | 3821/100000 [2:05:55<36:44:34,  1.38s/it]                                                            4%|▍         | 3821/100000 [2:05:55<36:44:34,  1.38s/it]  4%|▍         | 3822/100000 [2:05:57<36:13:03,  1.36s/it]                                                            4%|▍         | 3822/100000 [2:05:57<36:13:03,  1.36s/it]  4%|▍         | 3823/100000 [2:05:58<35:41:07,  1.34s/it]                                                            4%|▍         | 3823/100000 [2:05:58<35:41:07,  1.34s/it]  4%|▍         | 3824/100000 [2:05:59<35:01:12,  1.31s/it]                                                            4%|▍         | 3824/100000 [2:05:59<35:01:12,  1.31s/it]  4%|▍         | 3825/100000 [2:06:01<34:36:00,  1.30s/it]                                                            4%|▍         | 3825/100000 [2:06:01<34:36:00,  1.30s/it]  4%|▍         | 3826/100000 [2:06:02<33:42:13,  1.26s/it]                                                            4%|▍         | 3826/100000 [2:06:02<33:42:13,  1.26s/it]  4%|▍         | 3827/100000 [2:06:03<33:12:15,  1.24s/it]                                                            4%|▍         | 3827/100000 [2:06:03<33:12:15,  1.24s/it]  4%|▍         | 3828/100000 [2:06:04<32:37:25,  1.22s/it]                                                            4%|▍         | 3828/100000 [2:06:04<32:37:25,  1.22s/it]  4%|▍         | 3829/100000 [2:06:05<31:55:08,  1.19s/it]                                                            4%|▍         | 3829/100000 [2:06:05<31:55:08,  1.19s/it]  4%|▍         | 3830/100000 [2:06:06<31:23:22,  1.18s/it]                                                            4%|▍         | 3830/100000 [2:06:06<31:23:22,  1.18s/it]  4%|▍         | 3831/100000 [2:06:07<30:46:24,  1.15s/it]                                                            4%|▍         | 3831/100000 [2:06:07<30:46:24,  1.15s/it]  4%|▍         | 3832/100000 [2:06:09<30:34:43,  1.14s/it]                                                            4%|▍         | 3832/100000 [2:06:09<30:34:43,  1.14s/it]  4%|▍         | 3833/100000 [2:06:10<30:06:30,  1.13s/it]                                                            4%|▍         | 3833/100000 [2:06:10<30:06:30,  1.13s/it]  4%|▍         | 3834/100000 [2:06:11<29:48:16,  1.12s/it]                                                            4%|▍         | 3834/100000 [2:06:11<29:48:16,  1.12s/it]  4%|▍         | 3835/100000 [2:06:12<29:27:41,  1.10s/it]                                                            4%|▍         | 3835/100000 [2:06:12<29:27:41,  1.10s/it]  4%|▍         | 3836/100000 [2:06:13<28:57:55,  1.08s/it]                                                            4%|▍         | 3836/100000 [2:06:13<28:57:55,  1.08s/it]  4%|▍         | 3837/100000 [2:06:14<28:39:12,  1.07s/it]                                                            4%|▍         | 3837/100000 [2:06:14<28:39:12,  1.07s/it]  4%|▍         | 3838/100000 [2:06:15<28:18:20,  1.06s/it]                                                            4%|▍         | 3838/100000 [2:06:15<28:18:20,  1.06s/it]  4%|▍         | 3839/100000 [2:06:16<27:46:32,  1.04s/it]                                                            4%|▍         | 3839/100000 [2:06:16<27:46:32,  1.04s/it]  4%|▍         | 3840/100000 [2:06:17<27:14:41,  1.02s/it]                                                            4%|▍         | 3840/100000 [2:06:17<27:14:41,  1.02s/it]  4%|▍         | 3841/100000 [2:06:18<26:36:58,  1.00it/s]                                                            4%|▍         | 3841/100000 [2:06:18<26:36:58,  1.00it/s]  4%|▍         | 3842/100000 [2:06:19<25:49:08,  1.03it/s]                                                            4%|▍         | 3842/100000 [2:06:19<25:49:08,  1.03it/s]  4%|▍         | 3843/100000 [2:06:20<24:56:10,  1.07it/s]                                                            4%|▍         | 3843/100000 [2:06:20<24:56:10,  1.07it/s]  4%|▍         | 3844/100000 [2:06:20<24:22:34,  1.10it/s]                                                            4%|▍         | 3844/100000 [2:06:20<24:22:34,  1.10it/s]  4%|▍         | 3845/100000 [2:06:33<113:29:19,  4.25s/it]                                                             4%|▍         | 3845/100000 [2:06:33<113:29:19,  4.25s/it]  4%|▍         | 3846/100000 [2:06:39<127:46:31,  4.78s/it]                                                             4%|▍         | 3846/100000 [2:06:39<127:46:31,  4.78s/it]  4%|▍         | 3847/100000 [2:06:43<127:08:30,  4.76s/it]                                                             4%|▍         | 3847/100000 [2:06:43<127:08:30,  4.76s/it]  4%|▍         | 3848/100000 [2:06:47<122:50:56,  4.60s/it]                                                             4%|▍         | 3848/100000 [2:06:47<122:50:56,  4.60s/it]  4%|▍         | 3849/100000 [2:06:51<115:57:05,  4.34s/it]                                                             4%|▍         | 3849/100000 [2:06:51<115:57:05,  4.34s/it]  4%|▍         | 3850/100000 [2:06:54<106:50:01,  4.00s/it]                                                             4%|▍         | 3850/100000 [2:06:54<106:50:01,  4.00s/it]  4%|▍         | 3851/100000 [2:06:57<99:24:19,  3.72s/it]                                                             4%|▍         | 3851/100000 [2:06:58<99:24:19,  3.72s/it]  4%|▍         | 3852/100000 [2:07:00<91:25:57,  3.42s/it]                                                            4%|▍         | 3852/100000 [2:07:00<91:25:57,  3.42s/it]  4%|▍         | 3853/100000 [2:07:03<84:16:03,  3.16s/it]                                                            4%|▍         | 3853/100000 [2:07:03<84:16:03,  3.16s/it]  4%|▍         | 3854/100000 [2:07:05<78:06:22,  2.92s/it]                                                            4%|▍         | 3854/100000 [2:07:05<78:06:22,  2.92s/it]  4%|▍         | 3855/100000 [2:07:07<72:22:20,  2.71s/it]                                                            4%|▍         | 3855/100000 [2:07:07<72:22:20,  2.71s/it]  4%|▍         | 3856/100000 [2:07:09<67:07:29,  2.51s/it]                                                            4%|▍         | 3856/100000 [2:07:09<67:07:29,  2.51s/it]  4%|▍         | 3857/100000 [2:07:11<62:46:14,  2.35s/it]                                                            4%|▍         | 3857/100000 [2:07:11<62:46:14,  2.35s/it]  4%|▍         | 3858/100000 [2:07:13<58:33:53,  2.19s/it]                                                            4%|▍         | 3858/100000 [2:07:13<58:33:53,  2.19s/it]  4%|▍         | 3859/100000 [2:07:15<54:43:35,  2.05s/it]                                                            4%|▍         | 3859/100000 [2:07:15<54:43:35,  2.05s/it]  4%|▍         | 3860/100000 [2:07:17<51:32:42,  1.93s/it]                                                            4%|▍         | 3860/100000 [2:07:17<51:32:42,  1.93s/it]  4%|▍         | 3861/100000 [2:07:18<49:06:32,  1.84s/it]                                                            4%|▍         | 3861/100000 [2:07:18<49:06:32,  1.84s/it]  4%|▍         | 3862/100000 [2:07:20<47:08:58,  1.77s/it]                                                            4%|▍         | 3862/100000 [2:07:20<47:08:58,  1.77s/it]  4%|▍         | 3863/100000 [2:07:21<44:51:43,  1.68s/it]                                                            4%|▍         | 3863/100000 [2:07:21<44:51:43,  1.68s/it]  4%|▍         | 3864/100000 [2:07:23<43:18:06,  1.62s/it]                                                            4%|▍         | 3864/100000 [2:07:23<43:18:06,  1.62s/it]  4%|▍         | 3865/100000 [2:07:24<42:00:38,  1.57s/it]                                                            4%|▍         | 3865/100000 [2:07:24<42:00:38,  1.57s/it]  4%|▍         | 3866/100000 [2:07:26<40:53:53,  1.53s/it]                                                            4%|▍         | 3866/100000 [2:07:26<40:53:53,  1.53s/it]  4%|▍         | 3867/100000 [2:07:27<39:54:49,  1.49s/it]                                                            4%|▍         | 3867/100000 [2:07:27<39:54:49,  1.49s/it]  4%|▍         | 3868/100000 [2:07:28<39:05:47,  1.46s/it]                                                            4%|▍         | 3868/100000 [2:07:28<39:05:47,  1.46s/it]  4%|▍         | 3869/100000 [2:07:30<38:23:38,  1.44s/it]                                                            4%|▍         | 3869/100000 [2:07:30<38:23:38,  1.44s/it]  4%|▍         | 3870/100000 [2:07:31<37:23:36,  1.40s/it]                                                            4%|▍         | 3870/100000 [2:07:31<37:23:36,  1.40s/it]  4%|▍         | 3871/100000 [2:07:32<36:49:48,  1.38s/it]                                                            4%|▍         | 3871/100000 [2:07:32<36:49:48,  1.38s/it]  4%|▍         | 3872/100000 [2:07:34<35:43:26,  1.34s/it]                                                            4%|▍         | 3872/100000 [2:07:34<35:43:26,  1.34s/it]  4%|▍         | 3873/100000 [2:07:35<35:20:10,  1.32s/it]                                                            4%|▍         | 3873/100000 [2:07:35<35:20:10,  1.32s/it]  4%|▍         | 3874/100000 [2:07:36<34:41:07,  1.30s/it]                                                            4%|▍         | 3874/100000 [2:07:36<34:41:07,  1.30s/it]  4%|▍         | 3875/100000 [2:07:38<34:23:48,  1.29s/it]                                                            4%|▍         | 3875/100000 [2:07:38<34:23:48,  1.29s/it]  4%|▍         | 3876/100000 [2:07:39<34:03:23,  1.28s/it]                                                            4%|▍         | 3876/100000 [2:07:39<34:03:23,  1.28s/it]  4%|▍         | 3877/100000 [2:07:40<33:41:38,  1.26s/it]                                                            4%|▍         | 3877/100000 [2:07:40<33:41:38,  1.26s/it]  4%|▍         | 3878/100000 [2:07:41<33:11:30,  1.24s/it]                                                            4%|▍         | 3878/100000 [2:07:41<33:11:30,  1.24s/it]  4%|▍         | 3879/100000 [2:07:42<32:45:14,  1.23s/it]                                                          {'loss': 0.3325, 'grad_norm': 1.5011942386627197, 'learning_rate': 1.1376e-05, 'epoch': 7.0}
+{'loss': 0.3102, 'grad_norm': 1.134968876838684, 'learning_rate': 1.1379e-05, 'epoch': 7.0}
+{'loss': 0.289, 'grad_norm': 1.1414200067520142, 'learning_rate': 1.1382e-05, 'epoch': 7.01}
+{'loss': 0.311, 'grad_norm': 1.4115161895751953, 'learning_rate': 1.1385e-05, 'epoch': 7.01}
+{'loss': 0.2275, 'grad_norm': 1.1737440824508667, 'learning_rate': 1.1388e-05, 'epoch': 7.01}
+{'loss': 0.2252, 'grad_norm': 0.9778410196304321, 'learning_rate': 1.1391e-05, 'epoch': 7.01}
+{'loss': 0.2059, 'grad_norm': 1.2007774114608765, 'learning_rate': 1.1394000000000001e-05, 'epoch': 7.01}
+{'loss': 0.1763, 'grad_norm': 0.9967468976974487, 'learning_rate': 1.1397000000000001e-05, 'epoch': 7.01}
+{'loss': 0.1688, 'grad_norm': 0.8212352395057678, 'learning_rate': 1.1400000000000001e-05, 'epoch': 7.02}
+{'loss': 0.1367, 'grad_norm': 0.7178338170051575, 'learning_rate': 1.1403e-05, 'epoch': 7.02}
+{'loss': 0.1519, 'grad_norm': 0.8649212121963501, 'learning_rate': 1.1406e-05, 'epoch': 7.02}
+{'loss': 0.1076, 'grad_norm': 0.7651941776275635, 'learning_rate': 1.1409e-05, 'epoch': 7.02}
+{'loss': 0.0653, 'grad_norm': 0.6185657978057861, 'learning_rate': 1.1412e-05, 'epoch': 7.02}
+{'loss': 0.0571, 'grad_norm': 0.6425574421882629, 'learning_rate': 1.1415e-05, 'epoch': 7.03}
+{'loss': 0.0715, 'grad_norm': 0.7995126247406006, 'learning_rate': 1.1418e-05, 'epoch': 7.03}
+{'loss': 0.0417, 'grad_norm': 0.525067925453186, 'learning_rate': 1.1421e-05, 'epoch': 7.03}
+{'loss': 0.054, 'grad_norm': 0.8681696057319641, 'learning_rate': 1.1424000000000001e-05, 'epoch': 7.03}
+{'loss': 0.0404, 'grad_norm': 0.5476704239845276, 'learning_rate': 1.1427000000000001e-05, 'epoch': 7.03}
+{'loss': 0.0505, 'grad_norm': 0.5106635689735413, 'learning_rate': 1.143e-05, 'epoch': 7.04}
+{'loss': 0.0446, 'grad_norm': 0.837536096572876, 'learning_rate': 1.1433e-05, 'epoch': 7.04}
+{'loss': 0.0343, 'grad_norm': 0.47881874442100525, 'learning_rate': 1.1436e-05, 'epoch': 7.04}
+{'loss': 0.0292, 'grad_norm': 1.3114343881607056, 'learning_rate': 1.1439e-05, 'epoch': 7.04}
+{'loss': 0.051, 'grad_norm': 0.8697632551193237, 'learning_rate': 1.1442000000000002e-05, 'epoch': 7.04}
+{'loss': 0.0379, 'grad_norm': 0.7076679468154907, 'learning_rate': 1.1445e-05, 'epoch': 7.04}
+{'loss': 0.049, 'grad_norm': 0.933702826499939, 'learning_rate': 1.1448e-05, 'epoch': 7.05}
+{'loss': 0.0374, 'grad_norm': 0.5204328298568726, 'learning_rate': 1.1451e-05, 'epoch': 7.05}
+{'loss': 0.0464, 'grad_norm': 0.8326895236968994, 'learning_rate': 1.1453999999999999e-05, 'epoch': 7.05}
+{'loss': 0.0297, 'grad_norm': 1.0531866550445557, 'learning_rate': 1.1457e-05, 'epoch': 7.05}
+{'loss': 0.0404, 'grad_norm': 0.4825021028518677, 'learning_rate': 1.146e-05, 'epoch': 7.05}
+{'loss': 0.0398, 'grad_norm': 0.8723925352096558, 'learning_rate': 1.1463e-05, 'epoch': 7.06}
+{'loss': 0.0409, 'grad_norm': 0.787763237953186, 'learning_rate': 1.1466e-05, 'epoch': 7.06}
+{'loss': 0.063, 'grad_norm': 1.250771164894104, 'learning_rate': 1.1469e-05, 'epoch': 7.06}
+{'loss': 0.0315, 'grad_norm': 1.2153242826461792, 'learning_rate': 1.1472000000000001e-05, 'epoch': 7.06}
+{'loss': 0.0348, 'grad_norm': 0.47222232818603516, 'learning_rate': 1.1475000000000001e-05, 'epoch': 7.06}
+{'loss': 0.0351, 'grad_norm': 1.2347041368484497, 'learning_rate': 1.1478000000000001e-05, 'epoch': 7.06}
+{'loss': 0.0392, 'grad_norm': 0.6874457597732544, 'learning_rate': 1.1480999999999999e-05, 'epoch': 7.07}
+{'loss': 0.048, 'grad_norm': 0.6906430125236511, 'learning_rate': 1.1483999999999999e-05, 'epoch': 7.07}
+{'loss': 0.0296, 'grad_norm': 0.5939635038375854, 'learning_rate': 1.1487e-05, 'epoch': 7.07}
+{'loss': 0.0344, 'grad_norm': 0.6054182052612305, 'learning_rate': 1.149e-05, 'epoch': 7.07}
+{'loss': 0.0575, 'grad_norm': 1.7528551816940308, 'learning_rate': 1.1493e-05, 'epoch': 7.07}
+{'loss': 0.0416, 'grad_norm': 1.990154504776001, 'learning_rate': 1.1496e-05, 'epoch': 7.08}
+{'loss': 0.0413, 'grad_norm': 0.8029806613922119, 'learning_rate': 1.1499e-05, 'epoch': 7.08}
+{'loss': 0.0336, 'grad_norm': 0.7306238412857056, 'learning_rate': 1.1502000000000001e-05, 'epoch': 7.08}
+{'loss': 0.0253, 'grad_norm': 0.5533416867256165, 'learning_rate': 1.1505e-05, 'epoch': 7.08}
+{'loss': 0.0271, 'grad_norm': 1.076889991760254, 'learning_rate': 1.1508e-05, 'epoch': 7.08}
+{'loss': 0.0578, 'grad_norm': 0.8983293175697327, 'learning_rate': 1.1511e-05, 'epoch': 7.08}
+{'loss': 0.0386, 'grad_norm': 0.756494402885437, 'learning_rate': 1.1514e-05, 'epoch': 7.09}
+{'loss': 0.0378, 'grad_norm': 0.9268624186515808, 'learning_rate': 1.1517e-05, 'epoch': 7.09}
+{'loss': 0.0555, 'grad_norm': 0.760355532169342, 'learning_rate': 1.152e-05, 'epoch': 7.09}
+{'loss': 0.0419, 'grad_norm': 0.9901613593101501, 'learning_rate': 1.1523e-05, 'epoch': 7.09}
+{'loss': 0.2719, 'grad_norm': 0.8592517971992493, 'learning_rate': 1.1526e-05, 'epoch': 7.09}
+{'loss': 0.3161, 'grad_norm': 1.2683329582214355, 'learning_rate': 1.1529e-05, 'epoch': 7.1}
+{'loss': 0.2672, 'grad_norm': 1.0169157981872559, 'learning_rate': 1.1532e-05, 'epoch': 7.1}
+{'loss': 0.2085, 'grad_norm': 0.9672853350639343, 'learning_rate': 1.1535e-05, 'epoch': 7.1}
+{'loss': 0.221, 'grad_norm': 1.0237081050872803, 'learning_rate': 1.1538e-05, 'epoch': 7.1}
+{'loss': 0.1727, 'grad_norm': 0.6840682625770569, 'learning_rate': 1.1541e-05, 'epoch': 7.1}
+{'loss': 0.1953, 'grad_norm': 0.8392327427864075, 'learning_rate': 1.1544e-05, 'epoch': 7.11}
+{'loss': 0.1848, 'grad_norm': 1.0461645126342773, 'learning_rate': 1.1547000000000001e-05, 'epoch': 7.11}
+{'loss': 0.1761, 'grad_norm': 0.9008057117462158, 'learning_rate': 1.1550000000000001e-05, 'epoch': 7.11}
+{'loss': 0.1228, 'grad_norm': 0.653768002986908, 'learning_rate': 1.1553000000000001e-05, 'epoch': 7.11}
+{'loss': 0.119, 'grad_norm': 0.8528527021408081, 'learning_rate': 1.1555999999999999e-05, 'epoch': 7.11}
+{'loss': 0.1272, 'grad_norm': 0.7448746562004089, 'learning_rate': 1.1558999999999999e-05, 'epoch': 7.11}
+{'loss': 0.0873, 'grad_norm': 0.7983085513114929, 'learning_rate': 1.1562e-05, 'epoch': 7.12}
+{'loss': 0.0652, 'grad_norm': 0.6713128089904785, 'learning_rate': 1.1565e-05, 'epoch': 7.12}
+{'loss': 0.1061, 'grad_norm': 1.0396053791046143, 'learning_rate': 1.1568e-05, 'epoch': 7.12}
+{'loss': 0.0647, 'grad_norm': 1.0687631368637085, 'learning_rate': 1.1571e-05, 'epoch': 7.12}
+{'loss': 0.0363, 'grad_norm': 0.4817259907722473, 'learning_rate': 1.1574e-05, 'epoch': 7.12}
+{'loss': 0.0456, 'grad_norm': 0.6856535077095032, 'learning_rate': 1.1577000000000001e-05, 'epoch': 7.13}
+{'loss': 0.0571, 'grad_norm': 0.5848652720451355, 'learning_rate': 1.1580000000000001e-05, 'epoch': 7.13}
+{'loss': 0.095, 'grad_norm': 0.8321937322616577, 'learning_rate': 1.1583e-05, 'epoch': 7.13}
+{'loss': 0.051, 'grad_norm': 0.6058899164199829, 'learning_rate': 1.1586e-05, 'epoch': 7.13}
+{'loss': 0.0349, 'grad_norm': 0.4666897654533386, 'learning_rate': 1.1589e-05, 'epoch': 7.13}
+{'loss': 0.045, 'grad_norm': 1.0036622285842896, 'learning_rate': 1.1592e-05, 'epoch': 7.13}
+{'loss': 0.033, 'grad_norm': 0.48680198192596436, 'learning_rate': 1.1595e-05, 'epoch': 7.14}
+{'loss': 0.0455, 'grad_norm': 1.0338425636291504, 'learning_rate': 1.1598e-05, 'epoch': 7.14}
+{'loss': 0.066, 'grad_norm': 0.6906830668449402, 'learning_rate': 1.1601e-05, 'epoch': 7.14}
+{'loss': 0.0264, 'grad_norm': 0.5115965008735657, 'learning_rate': 1.1604e-05, 'epoch': 7.14}
+{'loss': 0.0313, 'grad_norm': 0.62877357006073, 'learning_rate': 1.1607000000000001e-05, 'epoch': 7.14}
+{'loss': 0.0365, 'grad_norm': 0.562495231628418, 'learning_rate': 1.161e-05, 'epoch': 7.15}
+{'loss': 0.044, 'grad_norm': 1.0443249940872192, 'learning_rate': 1.1613e-05, 'epoch': 7.15}
+{'loss': 0.0383, 'grad_norm': 0.8314567804336548, 'learning_rate': 1.1616e-05, 'epoch': 7.15}
+{'loss': 0.0465, 'grad_norm': 0.8624547719955444, 'learning_rate': 1.1619e-05, 'epoch': 7.15}
+{'loss': 0.0258, 'grad_norm': 0.43689149618148804, 'learning_rate': 1.1622000000000002e-05, 'epoch': 7.15}
+{'loss': 0.0221, 'grad_norm': 0.5368509888648987, 'learning_rate': 1.1625000000000001e-05, 'epoch': 7.16}
+  4%|▍         | 3879/100000 [2:07:42<32:45:14,  1.23s/it]  4%|▍         | 3880/100000 [2:07:44<32:08:16,  1.20s/it]                                                            4%|▍         | 3880/100000 [2:07:44<32:08:16,  1.20s/it]  4%|▍         | 3881/100000 [2:07:45<31:45:35,  1.19s/it]                                                            4%|▍         | 3881/100000 [2:07:45<31:45:35,  1.19s/it]  4%|▍         | 3882/100000 [2:07:46<31:27:45,  1.18s/it]                                                            4%|▍         | 3882/100000 [2:07:46<31:27:45,  1.18s/it]  4%|▍         | 3883/100000 [2:07:47<30:52:05,  1.16s/it]                                                            4%|▍         | 3883/100000 [2:07:47<30:52:05,  1.16s/it]  4%|▍         | 3884/100000 [2:07:48<31:56:29,  1.20s/it]                                                            4%|▍         | 3884/100000 [2:07:48<31:56:29,  1.20s/it]  4%|▍         | 3885/100000 [2:07:49<30:52:49,  1.16s/it]                                                            4%|▍         | 3885/100000 [2:07:49<30:52:49,  1.16s/it]  4%|▍         | 3886/100000 [2:07:50<29:56:50,  1.12s/it]                                                            4%|▍         | 3886/100000 [2:07:50<29:56:50,  1.12s/it]  4%|▍         | 3887/100000 [2:07:51<29:13:22,  1.09s/it]                                                            4%|▍         | 3887/100000 [2:07:51<29:13:22,  1.09s/it]  4%|▍         | 3888/100000 [2:07:52<28:45:17,  1.08s/it]                                                            4%|▍         | 3888/100000 [2:07:52<28:45:17,  1.08s/it]  4%|▍         | 3889/100000 [2:07:53<28:11:31,  1.06s/it]                                                            4%|▍         | 3889/100000 [2:07:53<28:11:31,  1.06s/it]  4%|▍         | 3890/100000 [2:07:54<27:34:54,  1.03s/it]                                                            4%|▍         | 3890/100000 [2:07:54<27:34:54,  1.03s/it]  4%|▍         | 3891/100000 [2:07:55<27:09:44,  1.02s/it]                                                            4%|▍         | 3891/100000 [2:07:55<27:09:44,  1.02s/it]  4%|▍         | 3892/100000 [2:07:56<26:41:16,  1.00it/s]                                                            4%|▍         | 3892/100000 [2:07:56<26:41:16,  1.00it/s]  4%|▍         | 3893/100000 [2:07:57<26:09:28,  1.02it/s]                                                            4%|▍         | 3893/100000 [2:07:57<26:09:28,  1.02it/s]  4%|▍         | 3894/100000 [2:07:58<25:41:11,  1.04it/s]                                                            4%|▍         | 3894/100000 [2:07:58<25:41:11,  1.04it/s]  4%|▍         | 3895/100000 [2:08:09<105:54:56,  3.97s/it]                                                             4%|▍         | 3895/100000 [2:08:09<105:54:56,  3.97s/it]  4%|▍         | 3896/100000 [2:08:15<118:22:35,  4.43s/it]                                                             4%|▍         | 3896/100000 [2:08:15<118:22:35,  4.43s/it]  4%|▍         | 3897/100000 [2:08:19<120:27:26,  4.51s/it]                                                             4%|▍         | 3897/100000 [2:08:19<120:27:26,  4.51s/it]  4%|▍         | 3898/100000 [2:08:23<114:54:12,  4.30s/it]                                                             4%|▍         | 3898/100000 [2:08:23<114:54:12,  4.30s/it]  4%|▍         | 3899/100000 [2:08:27<107:07:41,  4.01s/it]                                                             4%|▍         | 3899/100000 [2:08:27<107:07:41,  4.01s/it]  4%|▍         | 3900/100000 [2:08:30<100:37:27,  3.77s/it]                                                             4%|▍         | 3900/100000 [2:08:30<100:37:27,  3.77s/it]  4%|▍         | 3901/100000 [2:08:33<93:44:09,  3.51s/it]                                                             4%|▍         | 3901/100000 [2:08:33<93:44:09,  3.51s/it]  4%|▍         | 3902/100000 [2:08:35<87:04:11,  3.26s/it]                                                            4%|▍         | 3902/100000 [2:08:35<87:04:11,  3.26s/it]  4%|▍         | 3903/100000 [2:08:38<80:29:24,  3.02s/it]                                                            4%|▍         | 3903/100000 [2:08:38<80:29:24,  3.02s/it]  4%|▍         | 3904/100000 [2:08:40<74:03:45,  2.77s/it]                                                            4%|▍         | 3904/100000 [2:08:40<74:03:45,  2.77s/it]  4%|▍         | 3905/100000 [2:08:42<68:43:18,  2.57s/it]                                                            4%|▍         | 3905/100000 [2:08:42<68:43:18,  2.57s/it]  4%|▍         | 3906/100000 [2:08:44<64:00:40,  2.40s/it]                                                            4%|▍         | 3906/100000 [2:08:44<64:00:40,  2.40s/it]  4%|▍         | 3907/100000 [2:08:46<59:23:29,  2.23s/it]                                                            4%|▍         | 3907/100000 [2:08:46<59:23:29,  2.23s/it]  4%|▍         | 3908/100000 [2:08:48<55:22:09,  2.07s/it]                                                            4%|▍         | 3908/100000 [2:08:48<55:22:09,  2.07s/it]  4%|▍         | 3909/100000 [2:08:49<52:00:46,  1.95s/it]                                                            4%|▍         | 3909/100000 [2:08:49<52:00:46,  1.95s/it]  4%|▍         | 3910/100000 [2:08:51<49:29:01,  1.85s/it]                                                            4%|▍         | 3910/100000 [2:08:51<49:29:01,  1.85s/it]  4%|▍         | 3911/100000 [2:08:52<47:27:03,  1.78s/it]                                                            4%|▍         | 3911/100000 [2:08:52<47:27:03,  1.78s/it]  4%|▍         | 3912/100000 [2:08:54<45:35:21,  1.71s/it]                                                            4%|▍         | 3912/100000 [2:08:54<45:35:21,  1.71s/it]  4%|▍         | 3913/100000 [2:08:55<43:13:56,  1.62s/it]                                                            4%|▍         | 3913/100000 [2:08:55<43:13:56,  1.62s/it]  4%|▍         | 3914/100000 [2:08:57<42:06:14,  1.58s/it]                                                            4%|▍         | 3914/100000 [2:08:57<42:06:14,  1.58s/it]  4%|▍         | 3915/100000 [2:08:58<40:43:41,  1.53s/it]                                                            4%|▍         | 3915/100000 [2:08:58<40:43:41,  1.53s/it]  4%|▍         | 3916/100000 [2:09:00<39:37:38,  1.48s/it]                                                            4%|▍         | 3916/100000 [2:09:00<39:37:38,  1.48s/it]  4%|▍         | 3917/100000 [2:09:01<38:40:28,  1.45s/it]                                                            4%|▍         | 3917/100000 [2:09:01<38:40:28,  1.45s/it]  4%|▍         | 3918/100000 [2:09:02<37:50:53,  1.42s/it]                                                            4%|▍         | 3918/100000 [2:09:02<37:50:53,  1.42s/it]  4%|▍         | 3919/100000 [2:09:04<36:50:03,  1.38s/it]                                                            4%|▍         | 3919/100000 [2:09:04<36:50:03,  1.38s/it]  4%|▍         | 3920/100000 [2:09:05<36:35:17,  1.37s/it]                                                            4%|▍         | 3920/100000 [2:09:05<36:35:17,  1.37s/it]  4%|▍         | 3921/100000 [2:09:06<35:43:20,  1.34s/it]                                                            4%|▍         | 3921/100000 [2:09:06<35:43:20,  1.34s/it]  4%|▍         | 3922/100000 [2:09:08<35:12:37,  1.32s/it]                                                            4%|▍         | 3922/100000 [2:09:08<35:12:37,  1.32s/it]  4%|▍         | 3923/100000 [2:09:09<34:28:59,  1.29s/it]                                                            4%|▍         | 3923/100000 [2:09:09<34:28:59,  1.29s/it]  4%|▍         | 3924/100000 [2:09:10<34:11:56,  1.28s/it]                                                            4%|▍         | 3924/100000 [2:09:10<34:11:56,  1.28s/it]  4%|▍         | 3925/100000 [2:09:11<33:41:20,  1.26s/it]                                                            4%|▍         | 3925/100000 [2:09:11<33:41:20,  1.26s/it]  4%|▍         | 3926/100000 [2:09:13<33:26:33,  1.25s/it]                                                            4%|▍         | 3926/100000 [2:09:13<33:26:33,  1.25s/it]  4%|▍         | 3927/100000 [2:09:14<32:57:37,  1.24s/it]                                                            4%|▍         | 3927/100000 [2:09:14<32:57:37,  1.24s/it]  4%|▍         | 3928/100000 [2:09:15<32:17:06,  1.21s/it]                                                            4%|▍         | 3928/100000 [2:09:15<32:17:06,  1.21s/it]  4%|▍         | 3929/100000 [2:09:16<31:54:41,  1.20s/it]                                                            4%|▍         | 3929/100000 [2:09:16<31:54:41,  1.20s/it]  4%|▍         | 3930/100000 [2:09:17<31:19:41,  1.17s/it]                                                            4%|▍         | 3930/100000 [2:09:17<31:19:41,  1.17s/it]  4%|▍         | 3931/100000 [2:09:18<31:08:07,  1.17s/it]                                                            4%|▍         | 3931/100000 [2:09:18<31:08:07,  1.17s/it]  4%|▍         | 3932/100000 [2:09:19<30:45:49,  1.15s/it]                                                            4%|▍         | 3932/100000 [2:09:19<30:45:49,  1.15s/it]  4%|▍         | 3933/100000 [2:09:21<30:04:10,  1.13s/it]                                                            4%|▍         | 3933/100000 [2:09:21<30:04:10,  1.13s/it]  4%|▍         | 3934/100000 [2:09:22<29:48:05,  1.12s/it]                                                            4%|▍         | 3934/100000 [2:09:22<29:48:05,  1.12s/it]  4%|▍         | 3935/100000 [2:09:23<29:06:45,  1.09s/it]                                                            4%|▍         | 3935/100000 [2:09:23<29:06:45,  1.09s/it]  4%|▍         | 3936/100000 [2:09:24<28:38:58,  1.07s/it]                                                            4%|▍         | 3936/100000 [2:09:24<28:38:58,  1.07s/it]  4%|▍         | 3937/100000 [2:09:25<28:02:57,  1.05s/it]                                                            4%|▍         | 3937/100000 [2:09:25<28:02:57,  1.05s/it]  4%|▍         | 3938/100000 [2:09:26<27:34:27,  1.03s/it]                                                            4%|▍         | 3938/100000 [2:09:26<27:34:27,  1.03s/it]  4%|▍         | 3939/100000 [2:09:27<27:03:25,  1.01s/it]                                                            4%|▍         | 3939/100000 [2:09:27<27:03:25,  1.01s/it]  4%|▍         | 3940/100000 [2:09:28<26:30:16,  1.01it/s]                                                            4%|▍         | 3940/100000 [2:09:28<26:30:16,  1.01it/s]  4%|▍         | 3941/100000 [2:09:29<26:14:53,  1.02it/s]                                                            4%|▍         | 3941/100000 [2:09:29<26:14:53,  1.02it/s]  4%|▍         | 3942/100000 [2:09:29<25:46:39,  1.04it/s]                                                            4%|▍         | 3942/100000 [2:09:29<25:46:39,  1.04it/s]  4%|▍         | 3943/100000 [2:09:30<24:55:44,  1.07it/s]                                                            4%|▍         | 3943/100000 [2:09:30<24:55:44,  1.07it/s]  4%|▍         | 3944/100000 [2:09:31<24:04:56,  1.11it/s]                                                            4%|▍         | 3944/100000 [2:09:31<24:04:56,  1.11it/s]  4%|▍         | 3945/100000 [2:09:43<112:42:24,  4.22s/it]                                                             4%|▍         | 3945/100000 [2:09:43<112:42:24,  4.22s/it]  4%|▍         | 3946/100000 [2:09:49<122:53:50,  4.61s/it]                                                             4%|▍         | 3946/100000 [2:09:49<122:53:50,  4.61s/it]  4%|▍         | 3947/100000 [2:09:53<122:48:26,  4.60s/it]                                                             4%|▍         | 3947/100000 [2:09:53<122:48:26,  4.60s/it]  4%|▍         | 3948/100000 [2:09:57<116:36:11,  4.37s/it]                                                             4%|▍         | 3948/100000 [2:09:57<116:36:11,  4.37s/it]  4%|▍         | 3949/100000 [2:10:00<109:02:27,  4.09s/it]                                                             4%|▍         | 3949/100000 [2:10:00<109:02:27,  4.09s/it]  4%|▍         | 3950/100000 [2:10:04<101:05:59,  3.79s/it]                                                             4%|▍         | 3950/100000 [2:10:04<101:05:59,  3.79s/it]  4%|▍         | 3951/100000 [2:10:06<93:25:16,  3.50s/it]                                                             4%|▍         | 3951/100000 [2:10:06<93:25:16,  3.50s/it]  4%|▍         | 3952/100000 [2:10:09<86:31:57,  3.24s/it]                                                            4%|▍         | 3952/100000 [2:10:09<86:31:57,  3.24s/it]  4%|▍         | 3953/100000 [2:10:11<80:09:45,  3.00s/it]                                                            4%|▍         | 3953/100000 [2:10:12<80:09:45,  3.00s/it]  4%|▍         | 3954/100000 [2:10:14<74:16:21,  2.78s/it]                                                            4%|▍         | 3954/100000 [2:10:14<74:16:21,  2.78s/it]  4%|▍         | 3955/100000 [2:10:16<67:58:49,  2.55s/it]                                                            4%|▍         | 3955/100000 [2:10:16<67:58:49,  2.55s/it]  4%|▍         | 3956/100000 [2:10:18<63:26:55,  2.38s/it]                                                            4%|▍         | 3956/100000 [2:10:18<63:26:55,  2.38s/it]  4%|▍         | 3957/100000 [2:10:20<59:04:56,  2.21s/it]                                                            4%|▍         | 3957/100000 [2:10:20<59:04:56,  2.21s/it]  4%|▍         | 3958/100000 [2:10:21<55:32:06,  2.08s/it]                                                            4%|▍         | 3958/100000 [2:10:21<55:32:06,  2.08s/it]  4%|▍         | 3959/100000 [2:10:23<52:02:07,  1.95s/it]                                                            4%|▍         | 3959/100000 [2:10:23<52:02:07,  1.95s/it]  4%|▍         | 3960/100000 [2:10:25<49:30:10,  1.86s/it]                                                            4%|▍         | 3960/100000 [2:10:25<49:30:10,  1.86s/it]  4%|▍         | 3961/100000 [2:10:26<47:30:58,  1.78s/it]                                                            4%|▍         | 3961/100000 [2:10:26<47:30:58,  1.78s/it]  4%|▍         | 3962/100000 [2:10:28<45:56:17,  1.72s/it]                                                            4%|▍         | 3962/100000 [2:10:28<45:56:17,  1.72s/it]  4%|▍         | 3963/100000 [2:10:29<44:13:34,  1.66s/it]                                                          {'loss': 0.0264, 'grad_norm': 0.41164904832839966, 'learning_rate': 1.1628e-05, 'epoch': 7.16}
+{'loss': 0.0417, 'grad_norm': 0.7307270169258118, 'learning_rate': 1.1631e-05, 'epoch': 7.16}
+{'loss': 0.036, 'grad_norm': 0.9499558806419373, 'learning_rate': 1.1633999999999999e-05, 'epoch': 7.16}
+{'loss': 0.031, 'grad_norm': 0.8061280250549316, 'learning_rate': 1.1637e-05, 'epoch': 7.16}
+{'loss': 0.0456, 'grad_norm': 0.5703011155128479, 'learning_rate': 1.164e-05, 'epoch': 7.16}
+{'loss': 0.0279, 'grad_norm': 0.7621678113937378, 'learning_rate': 1.1643e-05, 'epoch': 7.17}
+{'loss': 0.0405, 'grad_norm': 0.5694484710693359, 'learning_rate': 1.1646e-05, 'epoch': 7.17}
+{'loss': 0.0246, 'grad_norm': 0.5033777952194214, 'learning_rate': 1.1649e-05, 'epoch': 7.17}
+{'loss': 0.0375, 'grad_norm': 0.6190872192382812, 'learning_rate': 1.1652000000000001e-05, 'epoch': 7.17}
+{'loss': 0.0288, 'grad_norm': 0.5975775718688965, 'learning_rate': 1.1655000000000001e-05, 'epoch': 7.17}
+{'loss': 0.0409, 'grad_norm': 0.7166990041732788, 'learning_rate': 1.1658000000000001e-05, 'epoch': 7.18}
+{'loss': 0.0482, 'grad_norm': 0.9195456504821777, 'learning_rate': 1.1661e-05, 'epoch': 7.18}
+{'loss': 0.0508, 'grad_norm': 1.0429009199142456, 'learning_rate': 1.1664e-05, 'epoch': 7.18}
+{'loss': 0.0636, 'grad_norm': 0.8649551868438721, 'learning_rate': 1.1667e-05, 'epoch': 7.18}
+{'loss': 0.0393, 'grad_norm': 0.7114192247390747, 'learning_rate': 1.167e-05, 'epoch': 7.18}
+{'loss': 0.0507, 'grad_norm': 1.0726664066314697, 'learning_rate': 1.1673e-05, 'epoch': 7.18}
+{'loss': 0.3612, 'grad_norm': 2.35176944732666, 'learning_rate': 1.1676e-05, 'epoch': 7.19}
+{'loss': 0.3027, 'grad_norm': 1.3197213411331177, 'learning_rate': 1.1679e-05, 'epoch': 7.19}
+{'loss': 0.3242, 'grad_norm': 1.1717162132263184, 'learning_rate': 1.1682000000000001e-05, 'epoch': 7.19}
+{'loss': 0.2406, 'grad_norm': 1.3300485610961914, 'learning_rate': 1.1685e-05, 'epoch': 7.19}
+{'loss': 0.18, 'grad_norm': 0.8447170853614807, 'learning_rate': 1.1688e-05, 'epoch': 7.19}
+{'loss': 0.1968, 'grad_norm': 0.9538955092430115, 'learning_rate': 1.1691e-05, 'epoch': 7.2}
+{'loss': 0.1535, 'grad_norm': 0.7060114145278931, 'learning_rate': 1.1694e-05, 'epoch': 7.2}
+{'loss': 0.2951, 'grad_norm': 1.2481669187545776, 'learning_rate': 1.1697000000000002e-05, 'epoch': 7.2}
+{'loss': 0.1675, 'grad_norm': 0.7738790512084961, 'learning_rate': 1.1700000000000001e-05, 'epoch': 7.2}
+{'loss': 0.1223, 'grad_norm': 1.215665578842163, 'learning_rate': 1.1703e-05, 'epoch': 7.2}
+{'loss': 0.1018, 'grad_norm': 0.5640180706977844, 'learning_rate': 1.1706e-05, 'epoch': 7.2}
+{'loss': 0.0955, 'grad_norm': 0.6813676953315735, 'learning_rate': 1.1709e-05, 'epoch': 7.21}
+{'loss': 0.1367, 'grad_norm': 0.8873261213302612, 'learning_rate': 1.1712e-05, 'epoch': 7.21}
+{'loss': 0.1125, 'grad_norm': 0.8507635593414307, 'learning_rate': 1.1715e-05, 'epoch': 7.21}
+{'loss': 0.0964, 'grad_norm': 0.5705675482749939, 'learning_rate': 1.1718e-05, 'epoch': 7.21}
+{'loss': 0.0511, 'grad_norm': 0.47501277923583984, 'learning_rate': 1.1721e-05, 'epoch': 7.21}
+{'loss': 0.0397, 'grad_norm': 0.48651376366615295, 'learning_rate': 1.1724e-05, 'epoch': 7.22}
+{'loss': 0.0319, 'grad_norm': 0.4294663667678833, 'learning_rate': 1.1727000000000001e-05, 'epoch': 7.22}
+{'loss': 0.0353, 'grad_norm': 0.500373125076294, 'learning_rate': 1.1730000000000001e-05, 'epoch': 7.22}
+{'loss': 0.0328, 'grad_norm': 0.4776148498058319, 'learning_rate': 1.1733000000000001e-05, 'epoch': 7.22}
+{'loss': 0.0373, 'grad_norm': 0.45514485239982605, 'learning_rate': 1.1736e-05, 'epoch': 7.22}
+{'loss': 0.0241, 'grad_norm': 0.39044058322906494, 'learning_rate': 1.1738999999999999e-05, 'epoch': 7.23}
+{'loss': 0.042, 'grad_norm': 1.1295156478881836, 'learning_rate': 1.1742e-05, 'epoch': 7.23}
+{'loss': 0.0614, 'grad_norm': 0.6388261318206787, 'learning_rate': 1.1745e-05, 'epoch': 7.23}
+{'loss': 0.0182, 'grad_norm': 0.4165383279323578, 'learning_rate': 1.1748e-05, 'epoch': 7.23}
+{'loss': 0.0342, 'grad_norm': 0.6110149025917053, 'learning_rate': 1.1751e-05, 'epoch': 7.23}
+{'loss': 0.0954, 'grad_norm': 1.3807674646377563, 'learning_rate': 1.1754e-05, 'epoch': 7.23}
+{'loss': 0.0347, 'grad_norm': 1.6706429719924927, 'learning_rate': 1.1757000000000001e-05, 'epoch': 7.24}
+{'loss': 0.0276, 'grad_norm': 0.49312475323677063, 'learning_rate': 1.1760000000000001e-05, 'epoch': 7.24}
+{'loss': 0.0343, 'grad_norm': 0.6351246237754822, 'learning_rate': 1.1763e-05, 'epoch': 7.24}
+{'loss': 0.0379, 'grad_norm': 0.7758086323738098, 'learning_rate': 1.1766e-05, 'epoch': 7.24}
+{'loss': 0.0458, 'grad_norm': 1.6319568157196045, 'learning_rate': 1.1769e-05, 'epoch': 7.24}
+{'loss': 0.0333, 'grad_norm': 0.5458925366401672, 'learning_rate': 1.1772000000000002e-05, 'epoch': 7.25}
+{'loss': 0.0626, 'grad_norm': 0.924403190612793, 'learning_rate': 1.1775000000000002e-05, 'epoch': 7.25}
+{'loss': 0.0589, 'grad_norm': 1.2806562185287476, 'learning_rate': 1.1778e-05, 'epoch': 7.25}
+{'loss': 0.0417, 'grad_norm': 0.6534441113471985, 'learning_rate': 1.1781e-05, 'epoch': 7.25}
+{'loss': 0.0352, 'grad_norm': 0.7234696745872498, 'learning_rate': 1.1784e-05, 'epoch': 7.25}
+{'loss': 0.0338, 'grad_norm': 0.5123321413993835, 'learning_rate': 1.1787e-05, 'epoch': 7.25}
+{'loss': 0.0425, 'grad_norm': 0.5848380327224731, 'learning_rate': 1.179e-05, 'epoch': 7.26}
+{'loss': 0.0392, 'grad_norm': 0.6774309873580933, 'learning_rate': 1.1793e-05, 'epoch': 7.26}
+{'loss': 0.0424, 'grad_norm': 0.8812325596809387, 'learning_rate': 1.1796e-05, 'epoch': 7.26}
+{'loss': 0.046, 'grad_norm': 0.8823750019073486, 'learning_rate': 1.1799e-05, 'epoch': 7.26}
+{'loss': 0.0358, 'grad_norm': 0.8765324950218201, 'learning_rate': 1.1802000000000002e-05, 'epoch': 7.26}
+{'loss': 0.0271, 'grad_norm': 0.4929245114326477, 'learning_rate': 1.1805000000000001e-05, 'epoch': 7.27}
+{'loss': 0.0404, 'grad_norm': 0.555218517780304, 'learning_rate': 1.1808000000000001e-05, 'epoch': 7.27}
+{'loss': 0.0488, 'grad_norm': 0.9540738463401794, 'learning_rate': 1.1811000000000001e-05, 'epoch': 7.27}
+{'loss': 0.0509, 'grad_norm': 0.7682968378067017, 'learning_rate': 1.1813999999999999e-05, 'epoch': 7.27}
+{'loss': 0.0606, 'grad_norm': 1.5334378480911255, 'learning_rate': 1.1816999999999999e-05, 'epoch': 7.27}
+{'loss': 0.0483, 'grad_norm': 0.9216906428337097, 'learning_rate': 1.182e-05, 'epoch': 7.28}
+{'loss': 0.0442, 'grad_norm': 0.915949821472168, 'learning_rate': 1.1823e-05, 'epoch': 7.28}
+{'loss': 0.2944, 'grad_norm': 1.0504190921783447, 'learning_rate': 1.1826e-05, 'epoch': 7.28}
+{'loss': 0.3035, 'grad_norm': 0.9758450388908386, 'learning_rate': 1.1829e-05, 'epoch': 7.28}
+{'loss': 0.2148, 'grad_norm': 0.9999068379402161, 'learning_rate': 1.1832e-05, 'epoch': 7.28}
+{'loss': 0.2184, 'grad_norm': 2.185529947280884, 'learning_rate': 1.1835000000000001e-05, 'epoch': 7.28}
+{'loss': 0.1772, 'grad_norm': 0.9298887252807617, 'learning_rate': 1.1838e-05, 'epoch': 7.29}
+{'loss': 0.2368, 'grad_norm': 1.4344820976257324, 'learning_rate': 1.1841e-05, 'epoch': 7.29}
+{'loss': 0.1624, 'grad_norm': 1.246220350265503, 'learning_rate': 1.1844e-05, 'epoch': 7.29}
+{'loss': 0.1859, 'grad_norm': 0.7392306923866272, 'learning_rate': 1.1847e-05, 'epoch': 7.29}
+{'loss': 0.1944, 'grad_norm': 0.8688386678695679, 'learning_rate': 1.185e-05, 'epoch': 7.29}
+{'loss': 0.1005, 'grad_norm': 0.7431932687759399, 'learning_rate': 1.1853e-05, 'epoch': 7.3}
+{'loss': 0.1232, 'grad_norm': 0.9904128909111023, 'learning_rate': 1.1856e-05, 'epoch': 7.3}
+{'loss': 0.079, 'grad_norm': 0.7489523887634277, 'learning_rate': 1.1859e-05, 'epoch': 7.3}
+{'loss': 0.0734, 'grad_norm': 2.4830214977264404, 'learning_rate': 1.1862e-05, 'epoch': 7.3}
+{'loss': 0.0462, 'grad_norm': 0.47750627994537354, 'learning_rate': 1.1865e-05, 'epoch': 7.3}
+{'loss': 0.0975, 'grad_norm': 0.5852447748184204, 'learning_rate': 1.1868e-05, 'epoch': 7.3}
+{'loss': 0.0861, 'grad_norm': 0.586001455783844, 'learning_rate': 1.1871e-05, 'epoch': 7.31}
+{'loss': 0.0558, 'grad_norm': 0.6134559512138367, 'learning_rate': 1.1874e-05, 'epoch': 7.31}
+{'loss': 0.0457, 'grad_norm': 1.9210140705108643, 'learning_rate': 1.1877e-05, 'epoch': 7.31}
+  4%|▍         | 3963/100000 [2:10:29<44:13:34,  1.66s/it]  4%|▍         | 3964/100000 [2:10:31<42:20:48,  1.59s/it]                                                            4%|▍         | 3964/100000 [2:10:31<42:20:48,  1.59s/it]  4%|▍         | 3965/100000 [2:10:32<41:08:34,  1.54s/it]                                                            4%|▍         | 3965/100000 [2:10:32<41:08:34,  1.54s/it]  4%|▍         | 3966/100000 [2:10:34<40:03:38,  1.50s/it]                                                            4%|▍         | 3966/100000 [2:10:34<40:03:38,  1.50s/it]  4%|▍         | 3967/100000 [2:10:35<39:18:11,  1.47s/it]                                                            4%|▍         | 3967/100000 [2:10:35<39:18:11,  1.47s/it]  4%|▍         | 3968/100000 [2:10:36<38:31:33,  1.44s/it]                                                            4%|▍         | 3968/100000 [2:10:36<38:31:33,  1.44s/it]  4%|▍         | 3969/100000 [2:10:38<37:33:51,  1.41s/it]                                                            4%|▍         | 3969/100000 [2:10:38<37:33:51,  1.41s/it]  4%|▍         | 3970/100000 [2:10:39<37:00:31,  1.39s/it]                                                            4%|▍         | 3970/100000 [2:10:39<37:00:31,  1.39s/it]  4%|▍         | 3971/100000 [2:10:40<36:12:25,  1.36s/it]                                                            4%|▍         | 3971/100000 [2:10:40<36:12:25,  1.36s/it]  4%|▍         | 3972/100000 [2:10:42<35:36:53,  1.34s/it]                                                            4%|▍         | 3972/100000 [2:10:42<35:36:53,  1.34s/it]  4%|▍         | 3973/100000 [2:10:43<34:57:31,  1.31s/it]                                                            4%|▍         | 3973/100000 [2:10:43<34:57:31,  1.31s/it]  4%|▍         | 3974/100000 [2:10:44<34:50:34,  1.31s/it]                                                            4%|▍         | 3974/100000 [2:10:44<34:50:34,  1.31s/it]  4%|▍         | 3975/100000 [2:10:45<34:20:33,  1.29s/it]                                                            4%|▍         | 3975/100000 [2:10:45<34:20:33,  1.29s/it]  4%|▍         | 3976/100000 [2:10:47<33:39:23,  1.26s/it]                                                            4%|▍         | 3976/100000 [2:10:47<33:39:23,  1.26s/it]  4%|▍         | 3977/100000 [2:10:48<33:11:07,  1.24s/it]                                                            4%|▍         | 3977/100000 [2:10:48<33:11:07,  1.24s/it]  4%|▍         | 3978/100000 [2:10:49<32:38:27,  1.22s/it]                                                            4%|▍         | 3978/100000 [2:10:49<32:38:27,  1.22s/it]  4%|▍         | 3979/100000 [2:10:50<31:56:22,  1.20s/it]                                                            4%|▍         | 3979/100000 [2:10:50<31:56:22,  1.20s/it]  4%|▍         | 3980/100000 [2:10:51<31:22:34,  1.18s/it]                                                            4%|▍         | 3980/100000 [2:10:51<31:22:34,  1.18s/it]  4%|▍         | 3981/100000 [2:10:52<30:50:12,  1.16s/it]                                                            4%|▍         | 3981/100000 [2:10:52<30:50:12,  1.16s/it]  4%|▍         | 3982/100000 [2:10:53<30:28:21,  1.14s/it]                                                            4%|▍         | 3982/100000 [2:10:53<30:28:21,  1.14s/it]  4%|▍         | 3983/100000 [2:10:55<29:55:55,  1.12s/it]                                                            4%|▍         | 3983/100000 [2:10:55<29:55:55,  1.12s/it]  4%|▍         | 3984/100000 [2:10:56<29:25:43,  1.10s/it]                                                            4%|▍         | 3984/100000 [2:10:56<29:25:43,  1.10s/it]  4%|▍         | 3985/100000 [2:10:57<29:02:53,  1.09s/it]                                                            4%|▍         | 3985/100000 [2:10:57<29:02:53,  1.09s/it]  4%|▍         | 3986/100000 [2:10:58<28:34:15,  1.07s/it]                                                            4%|▍         | 3986/100000 [2:10:58<28:34:15,  1.07s/it]  4%|▍         | 3987/100000 [2:10:59<28:24:06,  1.06s/it]                                                            4%|▍         | 3987/100000 [2:10:59<28:24:06,  1.06s/it]  4%|▍         | 3988/100000 [2:11:00<28:09:31,  1.06s/it]                                                            4%|▍         | 3988/100000 [2:11:00<28:09:31,  1.06s/it]  4%|▍         | 3989/100000 [2:11:01<27:35:58,  1.03s/it]                                                            4%|▍         | 3989/100000 [2:11:01<27:35:58,  1.03s/it]  4%|▍         | 3990/100000 [2:11:02<26:44:16,  1.00s/it]                                                            4%|▍         | 3990/100000 [2:11:02<26:44:16,  1.00s/it]  4%|▍         | 3991/100000 [2:11:03<26:08:26,  1.02it/s]                                                            4%|▍         | 3991/100000 [2:11:03<26:08:26,  1.02it/s]  4%|▍         | 3992/100000 [2:11:04<25:40:14,  1.04it/s]                                                            4%|▍         | 3992/100000 [2:11:04<25:40:14,  1.04it/s]  4%|▍         | 3993/100000 [2:11:04<25:18:09,  1.05it/s]                                                            4%|▍         | 3993/100000 [2:11:04<25:18:09,  1.05it/s]  4%|▍         | 3994/100000 [2:11:05<24:21:54,  1.09it/s]                                                            4%|▍         | 3994/100000 [2:11:05<24:21:54,  1.09it/s]  4%|▍         | 3995/100000 [2:11:17<114:49:45,  4.31s/it]                                                             4%|▍         | 3995/100000 [2:11:18<114:49:45,  4.31s/it]  4%|▍         | 3996/100000 [2:11:23<126:49:23,  4.76s/it]                                                             4%|▍         | 3996/100000 [2:11:23<126:49:23,  4.76s/it]  4%|▍         | 3997/100000 [2:11:28<127:13:26,  4.77s/it]                                                             4%|▍         | 3997/100000 [2:11:28<127:13:26,  4.77s/it]  4%|▍         | 3998/100000 [2:11:32<121:48:21,  4.57s/it]                                                             4%|▍         | 3998/100000 [2:11:32<121:48:21,  4.57s/it]  4%|▍         | 3999/100000 [2:11:36<113:26:12,  4.25s/it]                                                             4%|▍         | 3999/100000 [2:11:36<113:26:12,  4.25s/it]  4%|▍         | 4000/100000 [2:11:39<106:19:43,  3.99s/it]                                                             4%|▍         | 4000/100000 [2:11:39<106:19:43,  3.99s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0987, 'grad_norm': 1.0939297676086426, 'learning_rate': 1.1880000000000001e-05, 'epoch': 7.31}
+{'loss': 0.1067, 'grad_norm': 0.9990463256835938, 'learning_rate': 1.1883000000000001e-05, 'epoch': 7.31}
+{'loss': 0.0613, 'grad_norm': 0.7564393877983093, 'learning_rate': 1.1886e-05, 'epoch': 7.32}
+{'loss': 0.0392, 'grad_norm': 0.4570484459400177, 'learning_rate': 1.1889e-05, 'epoch': 7.32}
+{'loss': 0.0469, 'grad_norm': 0.593252420425415, 'learning_rate': 1.1891999999999999e-05, 'epoch': 7.32}
+{'loss': 0.0436, 'grad_norm': 0.7046050429344177, 'learning_rate': 1.1895e-05, 'epoch': 7.32}
+{'loss': 0.041, 'grad_norm': 0.647758424282074, 'learning_rate': 1.1898e-05, 'epoch': 7.32}
+{'loss': 0.0623, 'grad_norm': 0.7471902370452881, 'learning_rate': 1.1901e-05, 'epoch': 7.33}
+{'loss': 0.0369, 'grad_norm': 0.6938056945800781, 'learning_rate': 1.1904e-05, 'epoch': 7.33}
+{'loss': 0.0309, 'grad_norm': 0.6024402976036072, 'learning_rate': 1.1907e-05, 'epoch': 7.33}
+{'loss': 0.0313, 'grad_norm': 0.9108567833900452, 'learning_rate': 1.1910000000000001e-05, 'epoch': 7.33}
+{'loss': 0.05, 'grad_norm': 0.8201056718826294, 'learning_rate': 1.1913000000000001e-05, 'epoch': 7.33}
+{'loss': 0.0398, 'grad_norm': 0.6461535692214966, 'learning_rate': 1.1916e-05, 'epoch': 7.33}
+{'loss': 0.0392, 'grad_norm': 0.6558883786201477, 'learning_rate': 1.1919e-05, 'epoch': 7.34}
+{'loss': 0.0341, 'grad_norm': 0.6368681192398071, 'learning_rate': 1.1922e-05, 'epoch': 7.34}
+{'loss': 0.0378, 'grad_norm': 0.6736059784889221, 'learning_rate': 1.1925e-05, 'epoch': 7.34}
+{'loss': 0.0513, 'grad_norm': 0.7553744912147522, 'learning_rate': 1.1928e-05, 'epoch': 7.34}
+{'loss': 0.0427, 'grad_norm': 0.7779793739318848, 'learning_rate': 1.1931e-05, 'epoch': 7.34}
+{'loss': 0.0525, 'grad_norm': 0.7781184315681458, 'learning_rate': 1.1934e-05, 'epoch': 7.35}
+{'loss': 0.0327, 'grad_norm': 0.5072903037071228, 'learning_rate': 1.1937e-05, 'epoch': 7.35}
+{'loss': 0.0421, 'grad_norm': 0.7815638780593872, 'learning_rate': 1.1940000000000001e-05, 'epoch': 7.35}
+{'loss': 0.0328, 'grad_norm': 0.5705381035804749, 'learning_rate': 1.1943e-05, 'epoch': 7.35}
+{'loss': 0.0374, 'grad_norm': 0.6040554642677307, 'learning_rate': 1.1946e-05, 'epoch': 7.35}
+{'loss': 0.0333, 'grad_norm': 0.7622888088226318, 'learning_rate': 1.1949e-05, 'epoch': 7.35}
+{'loss': 0.0304, 'grad_norm': 0.615376889705658, 'learning_rate': 1.1952e-05, 'epoch': 7.36}
+{'loss': 0.0381, 'grad_norm': 1.0284879207611084, 'learning_rate': 1.1955000000000002e-05, 'epoch': 7.36}
+{'loss': 0.0413, 'grad_norm': 0.5528692603111267, 'learning_rate': 1.1958000000000001e-05, 'epoch': 7.36}
+{'loss': 0.0353, 'grad_norm': 0.6359366178512573, 'learning_rate': 1.1961e-05, 'epoch': 7.36}
+{'loss': 0.0295, 'grad_norm': 0.5964512825012207, 'learning_rate': 1.1964e-05, 'epoch': 7.36}
+{'loss': 0.0322, 'grad_norm': 0.7896857261657715, 'learning_rate': 1.1966999999999999e-05, 'epoch': 7.37}
+{'loss': 0.0424, 'grad_norm': 0.7088826298713684, 'learning_rate': 1.197e-05, 'epoch': 7.37}
+{'loss': 0.111, 'grad_norm': 1.7857023477554321, 'learning_rate': 1.1973e-05, 'epoch': 7.37}
+{'loss': 0.3479, 'grad_norm': 1.8425383567810059, 'learning_rate': 1.1976e-05, 'epoch': 7.37}
+{'loss': 0.3627, 'grad_norm': 1.8757927417755127, 'learning_rate': 1.1979e-05, 'epoch': 7.37}
+{'loss': 0.2404, 'grad_norm': 1.019248366355896, 'learning_rate': 1.1982e-05, 'epoch': 7.37}
+{'loss': 0.2214, 'grad_norm': 0.9379916787147522, 'learning_rate': 1.1985000000000001e-05, 'epoch': 7.38}
+{'loss': 0.2044, 'grad_norm': 0.9834468364715576, 'learning_rate': 1.1988000000000001e-05, 'epoch': 7.38}
+{'loss': 0.2837, 'grad_norm': 1.1186176538467407, 'learning_rate': 1.1991000000000001e-05, 'epoch': 7.38}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:01,  4.28it/s][A
+ 30%|███       | 3/10 [00:02<00:06,  1.09it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.34it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.02s/it][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.17it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.05s/it][A
+ 80%|████████  | 8/10 [00:06<00:01,  1.13it/s][A
+ 90%|█████████ | 9/10 [00:08<00:00,  1.00it/s][A
+100%|██████████| 10/10 [00:08<00:00,  1.22it/s][A                                                           
+                                               [A  4%|▍         | 4000/100000 [2:12:11<106:19:43,  3.99s/it]
+100%|██████████| 10/10 [00:09<00:00,  1.22it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-4000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-4000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-4000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-4000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-4000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-4000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-4000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-2000] due to args.save_total_limit
+  4%|▍         | 4001/100000 [2:12:28<467:32:54, 17.53s/it]                                                             4%|▍         | 4001/100000 [2:12:28<467:32:54, 17.53s/it]  4%|▍         | 4002/100000 [2:12:31<349:10:53, 13.09s/it]                                                             4%|▍         | 4002/100000 [2:12:31<349:10:53, 13.09s/it]  4%|▍         | 4003/100000 [2:12:33<264:10:41,  9.91s/it]                                                             4%|▍         | 4003/100000 [2:12:33<264:10:41,  9.91s/it]  4%|▍         | 4004/100000 [2:12:36<204:14:02,  7.66s/it]                                                             4%|▍         | 4004/100000 [2:12:36<204:14:02,  7.66s/it]  4%|▍         | 4005/100000 [2:12:38<160:56:22,  6.04s/it]                                                             4%|▍         | 4005/100000 [2:12:38<160:56:22,  6.04s/it]  4%|▍         | 4006/100000 [2:12:40<129:26:10,  4.85s/it]                                                             4%|▍         | 4006/100000 [2:12:40<129:26:10,  4.85s/it]  4%|▍         | 4007/100000 [2:12:42<105:54:57,  3.97s/it]                                                             4%|▍         | 4007/100000 [2:12:42<105:54:57,  3.97s/it]  4%|▍         | 4008/100000 [2:12:44<89:06:56,  3.34s/it]                                                             4%|▍         | 4008/100000 [2:12:44<89:06:56,  3.34s/it]  4%|▍         | 4009/100000 [2:12:46<76:24:16,  2.87s/it]                                                            4%|▍         | 4009/100000 [2:12:46<76:24:16,  2.87s/it]  4%|▍         | 4010/100000 [2:12:47<66:59:30,  2.51s/it]                                                            4%|▍         | 4010/100000 [2:12:47<66:59:30,  2.51s/it]  4%|▍         | 4011/100000 [2:12:49<60:13:12,  2.26s/it]                                                            4%|▍         | 4011/100000 [2:12:49<60:13:12,  2.26s/it]  4%|▍         | 4012/100000 [2:12:51<54:59:52,  2.06s/it]                                                            4%|▍         | 4012/100000 [2:12:51<54:59:52,  2.06s/it]  4%|▍         | 4013/100000 [2:12:52<51:00:36,  1.91s/it]                                                            4%|▍         | 4013/100000 [2:12:52<51:00:36,  1.91s/it]  4%|▍         | 4014/100000 [2:12:54<47:28:02,  1.78s/it]                                                            4%|▍         | 4014/100000 [2:12:54<47:28:02,  1.78s/it]  4%|▍         | 4015/100000 [2:12:55<45:00:53,  1.69s/it]                                                            4%|▍         | 4015/100000 [2:12:55<45:00:53,  1.69s/it]  4%|▍         | 4016/100000 [2:12:57<43:04:05,  1.62s/it]                                                            4%|▍         | 4016/100000 [2:12:57<43:04:05,  1.62s/it]  4%|▍         | 4017/100000 [2:12:58<41:37:05,  1.56s/it]                                                            4%|▍         | 4017/100000 [2:12:58<41:37:05,  1.56s/it]  4%|▍         | 4018/100000 [2:13:00<40:59:19,  1.54s/it]                                                            4%|▍         | 4018/100000 [2:13:00<40:59:19,  1.54s/it]  4%|▍         | 4019/100000 [2:13:01<40:00:52,  1.50s/it]                                                            4%|▍         | 4019/100000 [2:13:01<40:00:52,  1.50s/it]  4%|▍         | 4020/100000 [2:13:02<38:23:23,  1.44s/it]                                                            4%|▍         | 4020/100000 [2:13:02<38:23:23,  1.44s/it]  4%|▍         | 4021/100000 [2:13:04<37:48:53,  1.42s/it]                                                            4%|▍         | 4021/100000 [2:13:04<37:48:53,  1.42s/it]  4%|▍         | 4022/100000 [2:13:05<36:33:11,  1.37s/it]                                                            4%|▍         | 4022/100000 [2:13:05<36:33:11,  1.37s/it]  4%|▍         | 4023/100000 [2:13:06<35:56:03,  1.35s/it]                                                            4%|▍         | 4023/100000 [2:13:06<35:56:03,  1.35s/it]  4%|▍         | 4024/100000 [2:13:07<35:14:09,  1.32s/it]                                                            4%|▍         | 4024/100000 [2:13:07<35:14:09,  1.32s/it]  4%|▍         | 4025/100000 [2:13:09<34:38:53,  1.30s/it]                                                            4%|▍         | 4025/100000 [2:13:09<34:38:53,  1.30s/it]  4%|▍         | 4026/100000 [2:13:10<34:23:00,  1.29s/it]                                                            4%|▍         | 4026/100000 [2:13:10<34:23:00,  1.29s/it]  4%|▍         | 4027/100000 [2:13:11<33:43:18,  1.26s/it]                                                            4%|▍         | 4027/100000 [2:13:11<33:43:18,  1.26s/it]  4%|▍         | 4028/100000 [2:13:12<33:22:25,  1.25s/it]                                                            4%|▍         | 4028/100000 [2:13:12<33:22:25,  1.25s/it]  4%|▍         | 4029/100000 [2:13:14<33:01:21,  1.24s/it]                                                            4%|▍         | 4029/100000 [2:13:14<33:01:21,  1.24s/it]  4%|▍         | 4030/100000 [2:13:15<32:34:49,  1.22s/it]                                                            4%|▍         | 4030/100000 [2:13:15<32:34:49,  1.22s/it]  4%|▍         | 4031/100000 [2:13:16<32:07:59,  1.21s/it]                                                            4%|▍         | 4031/100000 [2:13:16<32:07:59,  1.21s/it]  4%|▍         | 4032/100000 [2:13:17<31:38:35,  1.19s/it]                                                            4%|▍         | 4032/100000 [2:13:17<31:38:35,  1.19s/it]  4%|▍         | 4033/100000 [2:13:18<30:53:23,  1.16s/it]                                                            4%|▍         | 4033/100000 [2:13:18<30:53:23,  1.16s/it]  4%|▍         | 4034/100000 [2:13:19<30:34:03,  1.15s/it]                                                            4%|▍         | 4034/100000 [2:13:19<30:34:03,  1.15s/it]  4%|▍         | 4035/100000 [2:13:20<29:45:01,  1.12s/it]                                                            4%|▍         | 4035/100000 [2:13:20<29:45:01,  1.12s/it]  4%|▍         | 4036/100000 [2:13:21<29:40:43,  1.11s/it]                                                            4%|▍         | 4036/100000 [2:13:21<29:40:43,  1.11s/it]  4%|▍         | 4037/100000 [2:13:22<28:58:36,  1.09s/it]                                                            4%|▍         | 4037/100000 [2:13:22<28:58:36,  1.09s/it]  4%|▍         | 4038/100000 [2:13:24<28:45:27,  1.08s/it]                                                            4%|▍         | 4038/100000 [2:13:24<28:45:27,  1.08s/it]  4%|▍         | 4039/100000 [2:13:25<28:27:42,  1.07s/it]                                                            4%|▍         | 4039/100000 [2:13:25<28:27:42,  1.07s/it]  4%|▍         | 4040/100000 [2:13:26<27:58:41,  1.05s/it]                                                            4%|▍         | 4040/100000 [2:13:26<27:58:41,  1.05s/it]  4%|▍         | 4041/100000 [2:13:27<27:29:12,  1.03s/it]                                                            4%|▍         | 4041/100000 [2:13:27<27:29:12,  1.03s/it]  4%|▍         | 4042/100000 [2:13:28<27:20:15,  1.03s/it]                                                            4%|▍         | 4042/100000 [2:13:28<27:20:15,  1.03s/it]  4%|▍         | 4043/100000 [2:13:29<27:01:03,  1.01s/it]                                                            4%|▍         | 4043/100000 [2:13:29<27:01:03,  1.01s/it]  4%|▍         | 4044/100000 [2:13:30<26:30:58,  1.01it/s]                                                            4%|▍         | 4044/100000 [2:13:30<26:30:58,  1.01it/s]  4%|▍         | 4045/100000 [2:13:40<99:24:48,  3.73s/it]                                                            4%|▍         | 4045/100000 [2:13:40<99:24:48,  3.73s/it]  4%|▍         | 4046/100000 [2:13:45<115:33:32,  4.34s/it]                                                             4%|▍         | 4046/100000 [2:13:45<115:33:32,  4.34s/it]  4%|▍         | 4047/100000 [2:13:50<118:02:59,  4.43s/it]                                                             4%|▍         | 4047/100000 [2:13:50<118:02:59,  4.43s/it]  4%|▍         | 4048/100000 [2:13:54<114:26:50,  4.29s/it]                                                             4%|▍         | 4048/100000 [2:13:54<114:26:50,  4.29s/it]  4%|▍         | 4049/100000 [2:13:58<108:17:37,  4.06s/it]                                                             4%|▍         | 4049/100000 [2:13:58<108:17:37,  4.06s/it]  4%|▍         | 4050/100000 [2:14:01<100:12:39,  3.76s/it]                                                             4%|▍         | 4050/100000 [2:14:01<100:12:39,  3.76s/it]  4%|▍         | 4051/100000 [2:14:04<93:53:55,  3.52s/it]                                                             4%|▍         | 4051/100000 [2:14:04<93:53:55,  3.52s/it]  4%|▍         | 4052/100000 [2:14:06<87:06:44,  3.27s/it]                                                            4%|▍         | 4052/100000 [2:14:06<87:06:44,  3.27s/it]  4%|▍         | 4053/100000 [2:14:09<80:20:17,  3.01s/it]                                                            4%|▍         | 4053/100000 [2:14:09<80:20:17,  3.01s/it]  4%|▍         | 4054/100000 [2:14:11<74:55:51,  2.81s/it]                                                            4%|▍         | 4054/100000 [2:14:11<74:55:51,  2.81s/it]  4%|▍         | 4055/100000 [2:14:13<69:35:33,  2.61s/it]                                                            4%|▍         | 4055/100000 [2:14:13<69:35:33,  2.61s/it]  4%|▍         | 4056/100000 [2:14:15<64:13:19,  2.41s/it]                                                            4%|▍         | 4056/100000 [2:14:15<64:13:19,  2.41s/it]  4%|▍         | 4057/100000 [2:14:17<60:03:49,  2.25s/it]                                                            4%|▍         | 4057/100000 [2:14:17<60:03:49,  2.25s/it]  4%|▍         | 4058/100000 [2:14:19<55:51:37,  2.10s/it]                                                            4%|▍         | 4058/100000 [2:14:19<55:51:37,  2.10s/it]  4%|▍         | 4059/100000 [2:14:20<52:13:54,  1.96s/it]                                                            4%|▍         | 4059/100000 [2:14:20<52:13:54,  1.96s/it]  4%|▍         | 4060/100000 [2:14:22<49:45:09,  1.87s/it]                                                            4%|▍         | 4060/100000 [2:14:22<49:45:09,  1.87s/it]  4%|▍         | 4061/100000 [2:14:24<47:33:18,  1.78s/it]                                                            4%|▍         | 4061/100000 [2:14:24<47:33:18,  1.78s/it]  4%|▍         | 4062/100000 [2:14:25<45:34:55,  1.71s/it]                                                            4%|▍         | 4062/100000 [2:14:25<45:34:55,  1.71s/it]  4%|▍         | 4063/100000 [2:14:27<43:44:07,  1.64s/it]                                                            4%|▍         | 4063/100000 [2:14:27<43:44:07,  1.64s/it]  4%|▍         | 4064/100000 [2:14:28<42:24:28,  1.59s/it]                                                            4%|▍         | 4064/100000 [2:14:28<42:24:28,  1.59s/it]  4%|▍         | 4065/100000 [2:14:30<41:14:13,  1.55s/it]                                                            4%|▍         | 4065/100000 [2:14:30<41:14:13,  1.55s/it]  4%|▍         | 4066/100000 [2:14:31<40:13:46,  1.51s/it]                                                            4%|▍         | 4066/100000 [2:14:31<40:13:46,  1.51s/it]  4%|▍         | 4067/100000 [2:14:32<39:19:02,  1.48s/it]                                                            4%|▍         | 4067/100000 [2:14:32<39:19:02,  1.48s/it]  4%|▍         | 4068/100000 [2:14:34<38:14:41,  1.44s/it]                                                            4%|▍         | 4068/100000 [2:14:34<38:14:41,  1.44s/it]  4%|▍         | 4069/100000 [2:14:35<37:50:37,  1.42s/it]                                                            4%|▍         | 4069/100000 [2:14:35<37:50:37,  1.42s/it]  4%|▍         | 4070/100000 [2:14:36<37:16:39,  1.40s/it]                                                            4%|▍         | 4070/100000 [2:14:36<37:16:39,  1.40s/it]  4%|▍         | 4071/100000 [2:14:38<36:42:27,  1.38s/it]                                                            4%|▍         | 4071/100000 [2:14:38<36:42:27,  1.38s/it]  4%|▍         | 4072/100000 [2:14:39<36:10:09,  1.36s/it]                                                            4%|▍         | 4072/100000 [2:14:39<36:10:09,  1.36s/it]  4%|▍         | 4073/100000 [2:14:40<35:42:18,  1.34s/it]                                                            4%|▍         | 4073/100000 [2:14:40<35:42:18,  1.34s/it]  4%|▍         | 4074/100000 [2:14:42<35:05:31,  1.32s/it]                                                            4%|▍         | 4074/100000 [2:14:42<35:05:31,  1.32s/it]  4%|▍         | 4075/100000 [2:14:43<34:43:16,  1.30s/it]                                                            4%|▍         | 4075/100000 [2:14:43<34:43:16,  1.30s/it]  4%|▍         | 4076/100000 [2:14:44<34:03:51,  1.28s/it]                                                            4%|▍         | 4076/100000 [2:14:44<34:03:51,  1.28s/it]  4%|▍         | 4077/100000 [2:14:45<33:42:40,  1.27s/it]                                                            4%|▍         | 4077/100000 [2:14:45<33:42:40,  1.27s/it]  4%|▍         | 4078/100000 [2:14:47<33:27:13,  1.26s/it]                                                            4%|▍         | 4078/100000 [2:14:47<33:27:13,  1.26s/it]  4%|▍         | 4079/100000 [2:14:48<32:37:15,  1.22s/it]                                                            4%|▍         | 4079/100000 [2:14:48<32:37:15,  1.22s/it]  4%|▍         | 4080/100000 [2:14:49<31:54:50,  1.20s/it]                                                            4%|▍         | 4080/100000 [2:14:49<31:54:50,  1.20s/it]  4%|▍         | 4081/100000 [2:14:50<31:22:35,  1.18s/it]                                                            4%|▍         | 4081/100000 [2:14:50<31:22:35,  1.18s/it]  4%|▍         | 4082/100000 [2:14:51<30:58:45,  1.16s/it]                                                            4%|▍         | 4082/100000 [2:14:51<30:58:45,  1.16s/it]  4%|▍         | 4083/100000 [2:14:52<30:39:16,  1.15s/it]                                                          {'eval_loss': 0.3644801080226898, 'eval_wer': 0.4376438986953185, 'eval_cer': 0.12484122663763382, 'eval_runtime': 15.1759, 'eval_samples_per_second': 20.032, 'eval_steps_per_second': 0.659, 'epoch': 7.38}
+{'loss': 0.1749, 'grad_norm': 1.1192575693130493, 'learning_rate': 1.1994e-05, 'epoch': 7.38}
+{'loss': 0.1652, 'grad_norm': 1.0478407144546509, 'learning_rate': 1.1996999999999999e-05, 'epoch': 7.38}
+{'loss': 0.1445, 'grad_norm': 0.9594413638114929, 'learning_rate': 1.2e-05, 'epoch': 7.39}
+{'loss': 0.1175, 'grad_norm': 0.8693169951438904, 'learning_rate': 1.2003e-05, 'epoch': 7.39}
+{'loss': 0.1551, 'grad_norm': 0.9398826360702515, 'learning_rate': 1.2006e-05, 'epoch': 7.39}
+{'loss': 0.1708, 'grad_norm': 1.0473353862762451, 'learning_rate': 1.2009e-05, 'epoch': 7.39}
+{'loss': 0.0752, 'grad_norm': 0.5337854027748108, 'learning_rate': 1.2012e-05, 'epoch': 7.39}
+{'loss': 0.1319, 'grad_norm': 1.338207483291626, 'learning_rate': 1.2015000000000001e-05, 'epoch': 7.4}
+{'loss': 0.0987, 'grad_norm': 1.462694525718689, 'learning_rate': 1.2018e-05, 'epoch': 7.4}
+{'loss': 0.0762, 'grad_norm': 0.9892147779464722, 'learning_rate': 1.2021e-05, 'epoch': 7.4}
+{'loss': 0.0722, 'grad_norm': 0.6074382066726685, 'learning_rate': 1.2024e-05, 'epoch': 7.4}
+{'loss': 0.0638, 'grad_norm': 0.8629452586174011, 'learning_rate': 1.2027e-05, 'epoch': 7.4}
+{'loss': 0.0608, 'grad_norm': 0.5274789333343506, 'learning_rate': 1.2030000000000002e-05, 'epoch': 7.4}
+{'loss': 0.059, 'grad_norm': 0.6876819729804993, 'learning_rate': 1.2033000000000002e-05, 'epoch': 7.41}
+{'loss': 0.0488, 'grad_norm': 0.5091372728347778, 'learning_rate': 1.2036e-05, 'epoch': 7.41}
+{'loss': 0.0441, 'grad_norm': 0.47496551275253296, 'learning_rate': 1.2039e-05, 'epoch': 7.41}
+{'loss': 0.036, 'grad_norm': 0.5922196507453918, 'learning_rate': 1.2042e-05, 'epoch': 7.41}
+{'loss': 0.0383, 'grad_norm': 0.7583091855049133, 'learning_rate': 1.2045e-05, 'epoch': 7.41}
+{'loss': 0.0419, 'grad_norm': 0.6326509118080139, 'learning_rate': 1.2048e-05, 'epoch': 7.42}
+{'loss': 0.0331, 'grad_norm': 0.5933094024658203, 'learning_rate': 1.2051e-05, 'epoch': 7.42}
+{'loss': 0.0421, 'grad_norm': 0.6546366810798645, 'learning_rate': 1.2054e-05, 'epoch': 7.42}
+{'loss': 0.0411, 'grad_norm': 0.5232709646224976, 'learning_rate': 1.2057e-05, 'epoch': 7.42}
+{'loss': 0.0303, 'grad_norm': 0.48919686675071716, 'learning_rate': 1.2060000000000001e-05, 'epoch': 7.42}
+{'loss': 0.0301, 'grad_norm': 0.6700199842453003, 'learning_rate': 1.2063000000000001e-05, 'epoch': 7.42}
+{'loss': 0.0335, 'grad_norm': 0.749679446220398, 'learning_rate': 1.2066000000000001e-05, 'epoch': 7.43}
+{'loss': 0.0577, 'grad_norm': 0.957880437374115, 'learning_rate': 1.2069e-05, 'epoch': 7.43}
+{'loss': 0.0438, 'grad_norm': 0.9046592116355896, 'learning_rate': 1.2071999999999999e-05, 'epoch': 7.43}
+{'loss': 0.0437, 'grad_norm': 1.0317715406417847, 'learning_rate': 1.2075e-05, 'epoch': 7.43}
+{'loss': 0.036, 'grad_norm': 0.8226898312568665, 'learning_rate': 1.2078e-05, 'epoch': 7.43}
+{'loss': 0.0349, 'grad_norm': 0.6602367758750916, 'learning_rate': 1.2081e-05, 'epoch': 7.44}
+{'loss': 0.0381, 'grad_norm': 0.6261298656463623, 'learning_rate': 1.2084e-05, 'epoch': 7.44}
+{'loss': 0.0469, 'grad_norm': 2.0433335304260254, 'learning_rate': 1.2087e-05, 'epoch': 7.44}
+{'loss': 0.0352, 'grad_norm': 0.7569543123245239, 'learning_rate': 1.2090000000000001e-05, 'epoch': 7.44}
+{'loss': 0.0375, 'grad_norm': 0.6144489049911499, 'learning_rate': 1.2093000000000001e-05, 'epoch': 7.44}
+{'loss': 0.0439, 'grad_norm': 0.8899089694023132, 'learning_rate': 1.2096e-05, 'epoch': 7.45}
+{'loss': 0.0475, 'grad_norm': 0.8068799376487732, 'learning_rate': 1.2099e-05, 'epoch': 7.45}
+{'loss': 0.0353, 'grad_norm': 0.9589241743087769, 'learning_rate': 1.2102e-05, 'epoch': 7.45}
+{'loss': 0.0447, 'grad_norm': 1.7914063930511475, 'learning_rate': 1.2105000000000002e-05, 'epoch': 7.45}
+{'loss': 0.0395, 'grad_norm': 0.6683489084243774, 'learning_rate': 1.2108e-05, 'epoch': 7.45}
+{'loss': 0.0356, 'grad_norm': 1.6444193124771118, 'learning_rate': 1.2111e-05, 'epoch': 7.45}
+{'loss': 0.0649, 'grad_norm': 0.9469858407974243, 'learning_rate': 1.2114e-05, 'epoch': 7.46}
+{'loss': 0.0565, 'grad_norm': 0.9198259115219116, 'learning_rate': 1.2117e-05, 'epoch': 7.46}
+{'loss': 0.0419, 'grad_norm': 1.2903748750686646, 'learning_rate': 1.2120000000000001e-05, 'epoch': 7.46}
+{'loss': 0.0701, 'grad_norm': 1.6258609294891357, 'learning_rate': 1.2123e-05, 'epoch': 7.46}
+{'loss': 0.3336, 'grad_norm': 1.1336464881896973, 'learning_rate': 1.2126e-05, 'epoch': 7.46}
+{'loss': 0.2929, 'grad_norm': 1.0165140628814697, 'learning_rate': 1.2129e-05, 'epoch': 7.47}
+{'loss': 0.27, 'grad_norm': 0.9984672665596008, 'learning_rate': 1.2132e-05, 'epoch': 7.47}
+{'loss': 0.2118, 'grad_norm': 0.8502119779586792, 'learning_rate': 1.2135000000000002e-05, 'epoch': 7.47}
+{'loss': 0.2784, 'grad_norm': 1.1467849016189575, 'learning_rate': 1.2138000000000001e-05, 'epoch': 7.47}
+{'loss': 0.172, 'grad_norm': 1.2587987184524536, 'learning_rate': 1.2141000000000001e-05, 'epoch': 7.47}
+{'loss': 0.2085, 'grad_norm': 1.3149694204330444, 'learning_rate': 1.2144e-05, 'epoch': 7.47}
+{'loss': 0.1349, 'grad_norm': 0.7081968784332275, 'learning_rate': 1.2146999999999999e-05, 'epoch': 7.48}
+{'loss': 0.1923, 'grad_norm': 1.1603951454162598, 'learning_rate': 1.215e-05, 'epoch': 7.48}
+{'loss': 0.2272, 'grad_norm': 1.0851069688796997, 'learning_rate': 1.2153e-05, 'epoch': 7.48}
+{'loss': 0.1324, 'grad_norm': 1.9162254333496094, 'learning_rate': 1.2156e-05, 'epoch': 7.48}
+{'loss': 0.2051, 'grad_norm': 1.0658905506134033, 'learning_rate': 1.2159e-05, 'epoch': 7.48}
+{'loss': 0.1018, 'grad_norm': 0.8997984528541565, 'learning_rate': 1.2162e-05, 'epoch': 7.49}
+{'loss': 0.0812, 'grad_norm': 0.6505519151687622, 'learning_rate': 1.2165000000000001e-05, 'epoch': 7.49}
+{'loss': 0.0747, 'grad_norm': 0.5897863507270813, 'learning_rate': 1.2168000000000001e-05, 'epoch': 7.49}
+{'loss': 0.0568, 'grad_norm': 0.712464451789856, 'learning_rate': 1.2171000000000001e-05, 'epoch': 7.49}
+{'loss': 0.0619, 'grad_norm': 0.5935330986976624, 'learning_rate': 1.2174e-05, 'epoch': 7.49}
+{'loss': 0.0852, 'grad_norm': 0.8959807753562927, 'learning_rate': 1.2177e-05, 'epoch': 7.49}
+{'loss': 0.0434, 'grad_norm': 0.7074034214019775, 'learning_rate': 1.2180000000000002e-05, 'epoch': 7.5}
+{'loss': 0.0431, 'grad_norm': 0.6812528371810913, 'learning_rate': 1.2183e-05, 'epoch': 7.5}
+{'loss': 0.0269, 'grad_norm': 0.4548470675945282, 'learning_rate': 1.2186e-05, 'epoch': 7.5}
+{'loss': 0.0711, 'grad_norm': 0.8323044776916504, 'learning_rate': 1.2189e-05, 'epoch': 7.5}
+{'loss': 0.0321, 'grad_norm': 0.8252567052841187, 'learning_rate': 1.2192e-05, 'epoch': 7.5}
+{'loss': 0.0261, 'grad_norm': 0.6569534540176392, 'learning_rate': 1.2195e-05, 'epoch': 7.51}
+{'loss': 0.0442, 'grad_norm': 0.9114178419113159, 'learning_rate': 1.2198e-05, 'epoch': 7.51}
+{'loss': 0.0278, 'grad_norm': 0.7195739150047302, 'learning_rate': 1.2201e-05, 'epoch': 7.51}
+{'loss': 0.0553, 'grad_norm': 1.6552071571350098, 'learning_rate': 1.2204e-05, 'epoch': 7.51}
+{'loss': 0.0267, 'grad_norm': 0.5468800067901611, 'learning_rate': 1.2207e-05, 'epoch': 7.51}
+{'loss': 0.044, 'grad_norm': 0.7049787044525146, 'learning_rate': 1.221e-05, 'epoch': 7.52}
+{'loss': 0.0176, 'grad_norm': 0.3411400020122528, 'learning_rate': 1.2213000000000001e-05, 'epoch': 7.52}
+{'loss': 0.0541, 'grad_norm': 1.0625396966934204, 'learning_rate': 1.2216000000000001e-05, 'epoch': 7.52}
+{'loss': 0.0417, 'grad_norm': 0.6516671776771545, 'learning_rate': 1.2219e-05, 'epoch': 7.52}
+{'loss': 0.0484, 'grad_norm': 0.6971566677093506, 'learning_rate': 1.2222e-05, 'epoch': 7.52}
+{'loss': 0.0487, 'grad_norm': 0.8688866496086121, 'learning_rate': 1.2224999999999999e-05, 'epoch': 7.52}
+{'loss': 0.0245, 'grad_norm': 0.49682992696762085, 'learning_rate': 1.2228e-05, 'epoch': 7.53}
+{'loss': 0.0438, 'grad_norm': 1.0755348205566406, 'learning_rate': 1.2231e-05, 'epoch': 7.53}
+{'loss': 0.0455, 'grad_norm': 1.0635411739349365, 'learning_rate': 1.2234e-05, 'epoch': 7.53}
+{'loss': 0.0428, 'grad_norm': 0.7985247373580933, 'learning_rate': 1.2237e-05, 'epoch': 7.53}
+  4%|▍         | 4083/100000 [2:14:52<30:39:16,  1.15s/it]  4%|▍         | 4084/100000 [2:14:53<30:00:48,  1.13s/it]                                                            4%|▍         | 4084/100000 [2:14:53<30:00:48,  1.13s/it]  4%|▍         | 4085/100000 [2:14:54<30:02:31,  1.13s/it]                                                            4%|▍         | 4085/100000 [2:14:54<30:02:31,  1.13s/it]  4%|▍         | 4086/100000 [2:14:56<29:51:10,  1.12s/it]                                                            4%|▍         | 4086/100000 [2:14:56<29:51:10,  1.12s/it]  4%|▍         | 4087/100000 [2:14:57<29:28:53,  1.11s/it]                                                            4%|▍         | 4087/100000 [2:14:57<29:28:53,  1.11s/it]  4%|▍         | 4088/100000 [2:14:58<29:14:35,  1.10s/it]                                                            4%|▍         | 4088/100000 [2:14:58<29:14:35,  1.10s/it]  4%|▍         | 4089/100000 [2:14:59<28:46:03,  1.08s/it]                                                            4%|▍         | 4089/100000 [2:14:59<28:46:03,  1.08s/it]  4%|▍         | 4090/100000 [2:15:00<28:26:42,  1.07s/it]                                                            4%|▍         | 4090/100000 [2:15:00<28:26:42,  1.07s/it]  4%|▍         | 4091/100000 [2:15:01<27:49:28,  1.04s/it]                                                            4%|▍         | 4091/100000 [2:15:01<27:49:28,  1.04s/it]  4%|▍         | 4092/100000 [2:15:02<27:30:04,  1.03s/it]                                                            4%|▍         | 4092/100000 [2:15:02<27:30:04,  1.03s/it]  4%|▍         | 4093/100000 [2:15:03<26:40:04,  1.00s/it]                                                            4%|▍         | 4093/100000 [2:15:03<26:40:04,  1.00s/it]  4%|▍         | 4094/100000 [2:15:04<26:08:13,  1.02it/s]                                                            4%|▍         | 4094/100000 [2:15:04<26:08:13,  1.02it/s]  4%|▍         | 4095/100000 [2:15:15<111:32:12,  4.19s/it]                                                             4%|▍         | 4095/100000 [2:15:15<111:32:12,  4.19s/it]  4%|▍         | 4096/100000 [2:15:21<121:17:20,  4.55s/it]                                                             4%|▍         | 4096/100000 [2:15:21<121:17:20,  4.55s/it]  4%|▍         | 4097/100000 [2:15:25<121:14:12,  4.55s/it]                                                             4%|▍         | 4097/100000 [2:15:25<121:14:12,  4.55s/it]  4%|▍         | 4098/100000 [2:15:29<116:23:03,  4.37s/it]                                                             4%|▍         | 4098/100000 [2:15:29<116:23:03,  4.37s/it]  4%|▍         | 4099/100000 [2:15:33<109:58:13,  4.13s/it]                                                             4%|▍         | 4099/100000 [2:15:33<109:58:13,  4.13s/it]  4%|▍         | 4100/100000 [2:15:36<103:33:16,  3.89s/it]                                                             4%|▍         | 4100/100000 [2:15:36<103:33:16,  3.89s/it]  4%|▍         | 4101/100000 [2:15:39<95:23:47,  3.58s/it]                                                             4%|▍         | 4101/100000 [2:15:39<95:23:47,  3.58s/it]  4%|▍         | 4102/100000 [2:15:42<89:04:32,  3.34s/it]                                                            4%|▍         | 4102/100000 [2:15:42<89:04:32,  3.34s/it]  4%|▍         | 4103/100000 [2:15:44<82:38:02,  3.10s/it]                                                            4%|▍         | 4103/100000 [2:15:44<82:38:02,  3.10s/it]  4%|▍         | 4104/100000 [2:15:47<76:34:36,  2.87s/it]                                                            4%|▍         | 4104/100000 [2:15:47<76:34:36,  2.87s/it]  4%|▍         | 4105/100000 [2:15:49<70:29:58,  2.65s/it]                                                            4%|▍         | 4105/100000 [2:15:49<70:29:58,  2.65s/it]  4%|▍         | 4106/100000 [2:15:51<65:10:41,  2.45s/it]                                                            4%|▍         | 4106/100000 [2:15:51<65:10:41,  2.45s/it]  4%|▍         | 4107/100000 [2:15:53<61:03:17,  2.29s/it]                                                            4%|▍         | 4107/100000 [2:15:53<61:03:17,  2.29s/it]  4%|▍         | 4108/100000 [2:15:54<57:11:52,  2.15s/it]                                                            4%|▍         | 4108/100000 [2:15:54<57:11:52,  2.15s/it]  4%|▍         | 4109/100000 [2:15:56<54:02:39,  2.03s/it]                                                            4%|▍         | 4109/100000 [2:15:56<54:02:39,  2.03s/it]  4%|▍         | 4110/100000 [2:15:58<51:28:38,  1.93s/it]                                                            4%|▍         | 4110/100000 [2:15:58<51:28:38,  1.93s/it]  4%|▍         | 4111/100000 [2:16:00<49:16:29,  1.85s/it]                                                            4%|▍         | 4111/100000 [2:16:00<49:16:29,  1.85s/it]  4%|▍         | 4112/100000 [2:16:01<47:10:55,  1.77s/it]                                                            4%|▍         | 4112/100000 [2:16:01<47:10:55,  1.77s/it]  4%|▍         | 4113/100000 [2:16:03<45:17:45,  1.70s/it]                                                            4%|▍         | 4113/100000 [2:16:03<45:17:45,  1.70s/it]  4%|▍         | 4114/100000 [2:16:04<43:40:53,  1.64s/it]                                                            4%|▍         | 4114/100000 [2:16:04<43:40:53,  1.64s/it]  4%|▍         | 4115/100000 [2:16:06<42:08:51,  1.58s/it]                                                            4%|▍         | 4115/100000 [2:16:06<42:08:51,  1.58s/it]  4%|▍         | 4116/100000 [2:16:07<40:52:30,  1.53s/it]                                                            4%|▍         | 4116/100000 [2:16:07<40:52:30,  1.53s/it]  4%|▍         | 4117/100000 [2:16:08<39:44:43,  1.49s/it]                                                            4%|▍         | 4117/100000 [2:16:08<39:44:43,  1.49s/it]  4%|▍         | 4118/100000 [2:16:10<38:37:51,  1.45s/it]                                                            4%|▍         | 4118/100000 [2:16:10<38:37:51,  1.45s/it]  4%|▍         | 4119/100000 [2:16:11<38:01:55,  1.43s/it]                                                            4%|▍         | 4119/100000 [2:16:11<38:01:55,  1.43s/it]  4%|▍         | 4120/100000 [2:16:13<37:05:33,  1.39s/it]                                                            4%|▍         | 4120/100000 [2:16:13<37:05:33,  1.39s/it]  4%|▍         | 4121/100000 [2:16:14<36:15:59,  1.36s/it]                                                            4%|▍         | 4121/100000 [2:16:14<36:15:59,  1.36s/it]  4%|▍         | 4122/100000 [2:16:15<35:48:51,  1.34s/it]                                                            4%|▍         | 4122/100000 [2:16:15<35:48:51,  1.34s/it]  4%|▍         | 4123/100000 [2:16:16<35:07:10,  1.32s/it]                                                            4%|▍         | 4123/100000 [2:16:16<35:07:10,  1.32s/it]  4%|▍         | 4124/100000 [2:16:18<35:01:00,  1.31s/it]                                                            4%|▍         | 4124/100000 [2:16:18<35:01:00,  1.31s/it]  4%|▍         | 4125/100000 [2:16:19<34:24:39,  1.29s/it]                                                            4%|▍         | 4125/100000 [2:16:19<34:24:39,  1.29s/it]  4%|▍         | 4126/100000 [2:16:20<33:43:12,  1.27s/it]                                                            4%|▍         | 4126/100000 [2:16:20<33:43:12,  1.27s/it]  4%|▍         | 4127/100000 [2:16:21<33:01:42,  1.24s/it]                                                            4%|▍         | 4127/100000 [2:16:21<33:01:42,  1.24s/it]  4%|▍         | 4128/100000 [2:16:22<32:14:43,  1.21s/it]                                                            4%|▍         | 4128/100000 [2:16:22<32:14:43,  1.21s/it]  4%|▍         | 4129/100000 [2:16:24<31:50:00,  1.20s/it]                                                            4%|▍         | 4129/100000 [2:16:24<31:50:00,  1.20s/it]  4%|▍         | 4130/100000 [2:16:25<31:02:41,  1.17s/it]                                                            4%|▍         | 4130/100000 [2:16:25<31:02:41,  1.17s/it]  4%|▍         | 4131/100000 [2:16:26<31:02:31,  1.17s/it]                                                            4%|▍         | 4131/100000 [2:16:26<31:02:31,  1.17s/it]  4%|▍         | 4132/100000 [2:16:27<30:31:35,  1.15s/it]                                                            4%|▍         | 4132/100000 [2:16:27<30:31:35,  1.15s/it]  4%|▍         | 4133/100000 [2:16:28<30:08:56,  1.13s/it]                                                            4%|▍         | 4133/100000 [2:16:28<30:08:56,  1.13s/it]  4%|▍         | 4134/100000 [2:16:29<29:45:15,  1.12s/it]                                                            4%|▍         | 4134/100000 [2:16:29<29:45:15,  1.12s/it]  4%|▍         | 4135/100000 [2:16:30<29:31:10,  1.11s/it]                                                            4%|▍         | 4135/100000 [2:16:30<29:31:10,  1.11s/it]  4%|▍         | 4136/100000 [2:16:31<28:55:11,  1.09s/it]                                                            4%|▍         | 4136/100000 [2:16:31<28:55:11,  1.09s/it]  4%|▍         | 4137/100000 [2:16:32<28:31:12,  1.07s/it]                                                            4%|▍         | 4137/100000 [2:16:32<28:31:12,  1.07s/it]  4%|▍         | 4138/100000 [2:16:34<29:34:36,  1.11s/it]                                                            4%|▍         | 4138/100000 [2:16:34<29:34:36,  1.11s/it]  4%|▍         | 4139/100000 [2:16:34<28:31:18,  1.07s/it]                                                            4%|▍         | 4139/100000 [2:16:34<28:31:18,  1.07s/it]  4%|▍         | 4140/100000 [2:16:35<27:45:57,  1.04s/it]                                                            4%|▍         | 4140/100000 [2:16:35<27:45:57,  1.04s/it]  4%|▍         | 4141/100000 [2:16:36<27:16:31,  1.02s/it]                                                            4%|▍         | 4141/100000 [2:16:36<27:16:31,  1.02s/it]  4%|▍         | 4142/100000 [2:16:37<26:47:24,  1.01s/it]                                                            4%|▍         | 4142/100000 [2:16:37<26:47:24,  1.01s/it]  4%|▍         | 4143/100000 [2:16:38<25:57:10,  1.03it/s]                                                            4%|▍         | 4143/100000 [2:16:38<25:57:10,  1.03it/s]  4%|▍         | 4144/100000 [2:16:39<24:35:06,  1.08it/s]                                                            4%|▍         | 4144/100000 [2:16:39<24:35:06,  1.08it/s]  4%|▍         | 4145/100000 [2:16:51<115:09:01,  4.32s/it]                                                             4%|▍         | 4145/100000 [2:16:51<115:09:01,  4.32s/it]  4%|▍         | 4146/100000 [2:16:57<126:34:39,  4.75s/it]                                                             4%|▍         | 4146/100000 [2:16:57<126:34:39,  4.75s/it]  4%|▍         | 4147/100000 [2:17:01<123:18:59,  4.63s/it]                                                             4%|▍         | 4147/100000 [2:17:01<123:18:59,  4.63s/it]  4%|▍         | 4148/100000 [2:17:05<117:04:33,  4.40s/it]                                                             4%|▍         | 4148/100000 [2:17:05<117:04:33,  4.40s/it]  4%|▍         | 4149/100000 [2:17:09<108:56:40,  4.09s/it]                                                             4%|▍         | 4149/100000 [2:17:09<108:56:40,  4.09s/it]  4%|▍         | 4150/100000 [2:17:12<102:06:49,  3.84s/it]                                                             4%|▍         | 4150/100000 [2:17:12<102:06:49,  3.84s/it]  4%|▍         | 4151/100000 [2:17:15<94:10:50,  3.54s/it]                                                             4%|▍         | 4151/100000 [2:17:15<94:10:50,  3.54s/it]  4%|▍         | 4152/100000 [2:17:18<88:04:02,  3.31s/it]                                                            4%|▍         | 4152/100000 [2:17:18<88:04:02,  3.31s/it]  4%|▍         | 4153/100000 [2:17:20<81:35:48,  3.06s/it]                                                            4%|▍         | 4153/100000 [2:17:20<81:35:48,  3.06s/it]  4%|▍         | 4154/100000 [2:17:22<76:01:34,  2.86s/it]                                                            4%|▍         | 4154/100000 [2:17:22<76:01:34,  2.86s/it]  4%|▍         | 4155/100000 [2:17:25<70:34:03,  2.65s/it]                                                            4%|▍         | 4155/100000 [2:17:25<70:34:03,  2.65s/it]  4%|▍         | 4156/100000 [2:17:27<65:52:56,  2.47s/it]                                                            4%|▍         | 4156/100000 [2:17:27<65:52:56,  2.47s/it]  4%|▍         | 4157/100000 [2:17:29<61:35:46,  2.31s/it]                                                            4%|▍         | 4157/100000 [2:17:29<61:35:46,  2.31s/it]  4%|▍         | 4158/100000 [2:17:30<57:41:47,  2.17s/it]                                                            4%|▍         | 4158/100000 [2:17:30<57:41:47,  2.17s/it]  4%|▍         | 4159/100000 [2:17:32<53:22:49,  2.01s/it]                                                            4%|▍         | 4159/100000 [2:17:32<53:22:49,  2.01s/it]  4%|▍         | 4160/100000 [2:17:34<50:49:22,  1.91s/it]                                                            4%|▍         | 4160/100000 [2:17:34<50:49:22,  1.91s/it]  4%|▍         | 4161/100000 [2:17:35<48:20:45,  1.82s/it]                                                            4%|▍         | 4161/100000 [2:17:35<48:20:45,  1.82s/it]  4%|▍         | 4162/100000 [2:17:37<46:12:15,  1.74s/it]                                                            4%|▍         | 4162/100000 [2:17:37<46:12:15,  1.74s/it]  4%|▍         | 4163/100000 [2:17:38<44:26:28,  1.67s/it]                                                            4%|▍         | 4163/100000 [2:17:38<44:26:28,  1.67s/it]  4%|▍         | 4164/100000 [2:17:40<43:03:14,  1.62s/it]                                                            4%|▍         | 4164/100000 [2:17:40<43:03:14,  1.62s/it]  4%|▍         | 4165/100000 [2:17:41<41:47:00,  1.57s/it]                                                            4%|▍         | 4165/100000 [2:17:41<41:47:00,  1.57s/it]  4%|▍         | 4166/100000 [2:17:43<40:40:43,  1.53s/it]                                                            4%|▍         | 4166/100000 [2:17:43<40:40:43,  1.53s/it]  4%|▍         | 4167/100000 [2:17:44<39:45:48,  1.49s/it]                                                          {'loss': 0.0435, 'grad_norm': 0.7823305726051331, 'learning_rate': 1.224e-05, 'epoch': 7.53}
+{'loss': 0.0624, 'grad_norm': 0.9674842953681946, 'learning_rate': 1.2243000000000001e-05, 'epoch': 7.54}
+{'loss': 0.0323, 'grad_norm': 0.6736524105072021, 'learning_rate': 1.2246000000000001e-05, 'epoch': 7.54}
+{'loss': 0.0457, 'grad_norm': 1.1502015590667725, 'learning_rate': 1.2249e-05, 'epoch': 7.54}
+{'loss': 0.0485, 'grad_norm': 0.727032482624054, 'learning_rate': 1.2252e-05, 'epoch': 7.54}
+{'loss': 0.0351, 'grad_norm': 0.7703151702880859, 'learning_rate': 1.2254999999999999e-05, 'epoch': 7.54}
+{'loss': 0.0526, 'grad_norm': 1.0239579677581787, 'learning_rate': 1.2258e-05, 'epoch': 7.54}
+{'loss': 0.0354, 'grad_norm': 0.6008153557777405, 'learning_rate': 1.2261e-05, 'epoch': 7.55}
+{'loss': 0.0396, 'grad_norm': 0.7614055275917053, 'learning_rate': 1.2264e-05, 'epoch': 7.55}
+{'loss': 0.0426, 'grad_norm': 0.5776079297065735, 'learning_rate': 1.2267e-05, 'epoch': 7.55}
+{'loss': 0.0488, 'grad_norm': 0.7658137083053589, 'learning_rate': 1.227e-05, 'epoch': 7.55}
+{'loss': 0.075, 'grad_norm': 1.04031240940094, 'learning_rate': 1.2273000000000001e-05, 'epoch': 7.55}
+{'loss': 0.371, 'grad_norm': 1.6620241403579712, 'learning_rate': 1.2276e-05, 'epoch': 7.56}
+{'loss': 0.2259, 'grad_norm': 0.8936166763305664, 'learning_rate': 1.2279e-05, 'epoch': 7.56}
+{'loss': 0.231, 'grad_norm': 0.7464591264724731, 'learning_rate': 1.2282e-05, 'epoch': 7.56}
+{'loss': 0.2953, 'grad_norm': 1.0560076236724854, 'learning_rate': 1.2285e-05, 'epoch': 7.56}
+{'loss': 0.1647, 'grad_norm': 0.6979200839996338, 'learning_rate': 1.2288000000000002e-05, 'epoch': 7.56}
+{'loss': 0.2385, 'grad_norm': 0.9179125428199768, 'learning_rate': 1.2291000000000001e-05, 'epoch': 7.57}
+{'loss': 0.14, 'grad_norm': 0.7582529783248901, 'learning_rate': 1.2294e-05, 'epoch': 7.57}
+{'loss': 0.1912, 'grad_norm': 1.0879583358764648, 'learning_rate': 1.2297e-05, 'epoch': 7.57}
+{'loss': 0.1804, 'grad_norm': 0.9386312365531921, 'learning_rate': 1.2299999999999999e-05, 'epoch': 7.57}
+{'loss': 0.1823, 'grad_norm': 0.9516357779502869, 'learning_rate': 1.2303e-05, 'epoch': 7.57}
+{'loss': 0.1158, 'grad_norm': 0.9170127511024475, 'learning_rate': 1.2306e-05, 'epoch': 7.57}
+{'loss': 0.1446, 'grad_norm': 0.9759851098060608, 'learning_rate': 1.2309e-05, 'epoch': 7.58}
+{'loss': 0.1097, 'grad_norm': 0.5087369084358215, 'learning_rate': 1.2312e-05, 'epoch': 7.58}
+{'loss': 0.1473, 'grad_norm': 0.6919082999229431, 'learning_rate': 1.2315e-05, 'epoch': 7.58}
+{'loss': 0.0869, 'grad_norm': 0.711525559425354, 'learning_rate': 1.2318000000000001e-05, 'epoch': 7.58}
+{'loss': 0.1035, 'grad_norm': 0.5739111304283142, 'learning_rate': 1.2321000000000001e-05, 'epoch': 7.58}
+{'loss': 0.0523, 'grad_norm': 0.7222297191619873, 'learning_rate': 1.2324000000000001e-05, 'epoch': 7.59}
+{'loss': 0.0441, 'grad_norm': 0.6934823989868164, 'learning_rate': 1.2327e-05, 'epoch': 7.59}
+{'loss': 0.0379, 'grad_norm': 0.6187019348144531, 'learning_rate': 1.2329999999999999e-05, 'epoch': 7.59}
+{'loss': 0.0589, 'grad_norm': 0.5205591320991516, 'learning_rate': 1.2333e-05, 'epoch': 7.59}
+{'loss': 0.0452, 'grad_norm': 0.7255731821060181, 'learning_rate': 1.2336e-05, 'epoch': 7.59}
+{'loss': 0.0625, 'grad_norm': 0.6000263690948486, 'learning_rate': 1.2339e-05, 'epoch': 7.59}
+{'loss': 0.0465, 'grad_norm': 0.6422172784805298, 'learning_rate': 1.2342e-05, 'epoch': 7.6}
+{'loss': 0.0379, 'grad_norm': 0.5606541633605957, 'learning_rate': 1.2345e-05, 'epoch': 7.6}
+{'loss': 0.021, 'grad_norm': 0.3826885521411896, 'learning_rate': 1.2348000000000001e-05, 'epoch': 7.6}
+{'loss': 0.054, 'grad_norm': 0.743736982345581, 'learning_rate': 1.2351e-05, 'epoch': 7.6}
+{'loss': 0.0403, 'grad_norm': 0.5651935935020447, 'learning_rate': 1.2354e-05, 'epoch': 7.6}
+{'loss': 0.0312, 'grad_norm': 0.5326204895973206, 'learning_rate': 1.2357e-05, 'epoch': 7.61}
+{'loss': 0.0365, 'grad_norm': 0.6177520751953125, 'learning_rate': 1.236e-05, 'epoch': 7.61}
+{'loss': 0.099, 'grad_norm': 1.1195601224899292, 'learning_rate': 1.2363000000000002e-05, 'epoch': 7.61}
+{'loss': 0.0362, 'grad_norm': 0.590433657169342, 'learning_rate': 1.2366e-05, 'epoch': 7.61}
+{'loss': 0.0409, 'grad_norm': 0.7750802040100098, 'learning_rate': 1.2369e-05, 'epoch': 7.61}
+{'loss': 0.0392, 'grad_norm': 0.581501841545105, 'learning_rate': 1.2372e-05, 'epoch': 7.61}
+{'loss': 0.0193, 'grad_norm': 0.3566802740097046, 'learning_rate': 1.2375e-05, 'epoch': 7.62}
+{'loss': 0.0352, 'grad_norm': 0.6354184746742249, 'learning_rate': 1.2378e-05, 'epoch': 7.62}
+{'loss': 0.0585, 'grad_norm': 0.6342035531997681, 'learning_rate': 1.2381e-05, 'epoch': 7.62}
+{'loss': 0.0255, 'grad_norm': 0.473110556602478, 'learning_rate': 1.2384e-05, 'epoch': 7.62}
+{'loss': 0.0334, 'grad_norm': 0.5356754064559937, 'learning_rate': 1.2387e-05, 'epoch': 7.62}
+{'loss': 0.0506, 'grad_norm': 0.5536307096481323, 'learning_rate': 1.239e-05, 'epoch': 7.63}
+{'loss': 0.0605, 'grad_norm': 0.7165328860282898, 'learning_rate': 1.2393000000000001e-05, 'epoch': 7.63}
+{'loss': 0.0277, 'grad_norm': 0.48536062240600586, 'learning_rate': 1.2396000000000001e-05, 'epoch': 7.63}
+{'loss': 0.0464, 'grad_norm': 0.6589899063110352, 'learning_rate': 1.2399000000000001e-05, 'epoch': 7.63}
+{'loss': 0.0503, 'grad_norm': 0.8539356589317322, 'learning_rate': 1.2402e-05, 'epoch': 7.63}
+{'loss': 0.0487, 'grad_norm': 0.9269492626190186, 'learning_rate': 1.2404999999999999e-05, 'epoch': 7.64}
+{'loss': 0.0516, 'grad_norm': 0.7299609780311584, 'learning_rate': 1.2408e-05, 'epoch': 7.64}
+{'loss': 0.0255, 'grad_norm': 0.7203462719917297, 'learning_rate': 1.2411e-05, 'epoch': 7.64}
+{'loss': 0.0307, 'grad_norm': 0.5248554348945618, 'learning_rate': 1.2414e-05, 'epoch': 7.64}
+{'loss': 0.0451, 'grad_norm': 0.7557847499847412, 'learning_rate': 1.2417e-05, 'epoch': 7.64}
+{'loss': 0.0482, 'grad_norm': 0.8592972755432129, 'learning_rate': 1.242e-05, 'epoch': 7.64}
+{'loss': 0.0517, 'grad_norm': 0.8314827680587769, 'learning_rate': 1.2423000000000001e-05, 'epoch': 7.65}
+{'loss': 0.3635, 'grad_norm': 1.7957693338394165, 'learning_rate': 1.2426000000000001e-05, 'epoch': 7.65}
+{'loss': 0.297, 'grad_norm': 1.1916546821594238, 'learning_rate': 1.2429e-05, 'epoch': 7.65}
+{'loss': 0.2379, 'grad_norm': 1.383188009262085, 'learning_rate': 1.2432e-05, 'epoch': 7.65}
+{'loss': 0.2576, 'grad_norm': 1.1948586702346802, 'learning_rate': 1.2435e-05, 'epoch': 7.65}
+{'loss': 0.1959, 'grad_norm': 0.7643679976463318, 'learning_rate': 1.2438000000000002e-05, 'epoch': 7.66}
+{'loss': 0.2095, 'grad_norm': 0.8329753875732422, 'learning_rate': 1.2441e-05, 'epoch': 7.66}
+{'loss': 0.169, 'grad_norm': 0.8791571855545044, 'learning_rate': 1.2444e-05, 'epoch': 7.66}
+{'loss': 0.1511, 'grad_norm': 0.766928493976593, 'learning_rate': 1.2447e-05, 'epoch': 7.66}
+{'loss': 0.1512, 'grad_norm': 0.9058430790901184, 'learning_rate': 1.245e-05, 'epoch': 7.66}
+{'loss': 0.1035, 'grad_norm': 0.6345282196998596, 'learning_rate': 1.2453000000000001e-05, 'epoch': 7.66}
+{'loss': 0.1019, 'grad_norm': 2.050560235977173, 'learning_rate': 1.2456e-05, 'epoch': 7.67}
+{'loss': 0.113, 'grad_norm': 0.7613061666488647, 'learning_rate': 1.2459e-05, 'epoch': 7.67}
+{'loss': 0.191, 'grad_norm': 1.1732903718948364, 'learning_rate': 1.2462e-05, 'epoch': 7.67}
+{'loss': 0.0967, 'grad_norm': 0.9498212933540344, 'learning_rate': 1.2465e-05, 'epoch': 7.67}
+{'loss': 0.0451, 'grad_norm': 0.49174702167510986, 'learning_rate': 1.2468000000000002e-05, 'epoch': 7.67}
+{'loss': 0.0774, 'grad_norm': 0.7871057391166687, 'learning_rate': 1.2471000000000001e-05, 'epoch': 7.68}
+{'loss': 0.0401, 'grad_norm': 0.4107961356639862, 'learning_rate': 1.2474000000000001e-05, 'epoch': 7.68}
+{'loss': 0.0526, 'grad_norm': 0.8008513450622559, 'learning_rate': 1.2477e-05, 'epoch': 7.68}
+{'loss': 0.0307, 'grad_norm': 0.46558696031570435, 'learning_rate': 1.2479999999999999e-05, 'epoch': 7.68}
+{'loss': 0.036, 'grad_norm': 0.44487065076828003, 'learning_rate': 1.2483e-05, 'epoch': 7.68}
+{'loss': 0.0441, 'grad_norm': 0.5548285841941833, 'learning_rate': 1.2486e-05, 'epoch': 7.69}
+{'loss': 0.0331, 'grad_norm': 0.5006272196769714, 'learning_rate': 1.2489e-05, 'epoch': 7.69}
+  4%|▍         | 4167/100000 [2:17:44<39:45:48,  1.49s/it]  4%|▍         | 4168/100000 [2:17:46<38:39:37,  1.45s/it]                                                            4%|▍         | 4168/100000 [2:17:46<38:39:37,  1.45s/it]  4%|▍         | 4169/100000 [2:17:47<38:03:42,  1.43s/it]                                                            4%|▍         | 4169/100000 [2:17:47<38:03:42,  1.43s/it]  4%|▍         | 4170/100000 [2:17:48<37:26:39,  1.41s/it]                                                            4%|▍         | 4170/100000 [2:17:48<37:26:39,  1.41s/it]  4%|▍         | 4171/100000 [2:17:50<36:53:03,  1.39s/it]                                                            4%|▍         | 4171/100000 [2:17:50<36:53:03,  1.39s/it]  4%|▍         | 4172/100000 [2:17:51<36:17:56,  1.36s/it]                                                            4%|▍         | 4172/100000 [2:17:51<36:17:56,  1.36s/it]  4%|▍         | 4173/100000 [2:17:52<35:46:42,  1.34s/it]                                                            4%|▍         | 4173/100000 [2:17:52<35:46:42,  1.34s/it]  4%|▍         | 4174/100000 [2:17:53<35:04:07,  1.32s/it]                                                            4%|▍         | 4174/100000 [2:17:53<35:04:07,  1.32s/it]  4%|▍         | 4175/100000 [2:17:55<34:29:47,  1.30s/it]                                                            4%|▍         | 4175/100000 [2:17:55<34:29:47,  1.30s/it]  4%|▍         | 4176/100000 [2:17:56<33:48:11,  1.27s/it]                                                            4%|▍         | 4176/100000 [2:17:56<33:48:11,  1.27s/it]  4%|▍         | 4177/100000 [2:17:57<33:19:24,  1.25s/it]                                                            4%|▍         | 4177/100000 [2:17:57<33:19:24,  1.25s/it]  4%|▍         | 4178/100000 [2:17:58<32:57:18,  1.24s/it]                                                            4%|▍         | 4178/100000 [2:17:58<32:57:18,  1.24s/it]  4%|▍         | 4179/100000 [2:17:59<32:13:46,  1.21s/it]                                                            4%|▍         | 4179/100000 [2:17:59<32:13:46,  1.21s/it]  4%|▍         | 4180/100000 [2:18:01<31:45:43,  1.19s/it]                                                            4%|▍         | 4180/100000 [2:18:01<31:45:43,  1.19s/it]  4%|▍         | 4181/100000 [2:18:02<31:03:48,  1.17s/it]                                                            4%|▍         | 4181/100000 [2:18:02<31:03:48,  1.17s/it]  4%|▍         | 4182/100000 [2:18:03<30:42:58,  1.15s/it]                                                            4%|▍         | 4182/100000 [2:18:03<30:42:58,  1.15s/it]  4%|▍         | 4183/100000 [2:18:04<30:12:34,  1.14s/it]                                                            4%|▍         | 4183/100000 [2:18:04<30:12:34,  1.14s/it]  4%|▍         | 4184/100000 [2:18:05<29:45:22,  1.12s/it]                                                            4%|▍         | 4184/100000 [2:18:05<29:45:22,  1.12s/it]  4%|▍         | 4185/100000 [2:18:06<29:13:05,  1.10s/it]                                                            4%|▍         | 4185/100000 [2:18:06<29:13:05,  1.10s/it]  4%|▍         | 4186/100000 [2:18:07<28:44:18,  1.08s/it]                                                            4%|▍         | 4186/100000 [2:18:07<28:44:18,  1.08s/it]  4%|▍         | 4187/100000 [2:18:08<28:16:39,  1.06s/it]                                                            4%|▍         | 4187/100000 [2:18:08<28:16:39,  1.06s/it]  4%|▍         | 4188/100000 [2:18:09<27:42:48,  1.04s/it]                                                            4%|▍         | 4188/100000 [2:18:09<27:42:48,  1.04s/it]  4%|▍         | 4189/100000 [2:18:10<28:06:07,  1.06s/it]                                                            4%|▍         | 4189/100000 [2:18:10<28:06:07,  1.06s/it]  4%|▍         | 4190/100000 [2:18:11<27:12:52,  1.02s/it]                                                            4%|▍         | 4190/100000 [2:18:11<27:12:52,  1.02s/it]  4%|▍         | 4191/100000 [2:18:12<26:31:50,  1.00it/s]                                                            4%|▍         | 4191/100000 [2:18:12<26:31:50,  1.00it/s]  4%|▍         | 4192/100000 [2:18:13<25:39:42,  1.04it/s]                                                            4%|▍         | 4192/100000 [2:18:13<25:39:42,  1.04it/s]  4%|▍         | 4193/100000 [2:18:14<25:24:57,  1.05it/s]                                                            4%|▍         | 4193/100000 [2:18:14<25:24:57,  1.05it/s]  4%|▍         | 4194/100000 [2:18:15<24:53:11,  1.07it/s]                                                            4%|▍         | 4194/100000 [2:18:15<24:53:11,  1.07it/s]  4%|▍         | 4195/100000 [2:18:26<103:51:15,  3.90s/it]                                                             4%|▍         | 4195/100000 [2:18:26<103:51:15,  3.90s/it]  4%|▍         | 4196/100000 [2:18:31<112:48:54,  4.24s/it]                                                             4%|▍         | 4196/100000 [2:18:31<112:48:54,  4.24s/it]  4%|▍         | 4197/100000 [2:18:35<113:48:54,  4.28s/it]                                                             4%|▍         | 4197/100000 [2:18:35<113:48:54,  4.28s/it]  4%|▍         | 4198/100000 [2:18:39<112:05:38,  4.21s/it]                                                             4%|▍         | 4198/100000 [2:18:39<112:05:38,  4.21s/it]  4%|▍         | 4199/100000 [2:18:43<107:08:00,  4.03s/it]                                                             4%|▍         | 4199/100000 [2:18:43<107:08:00,  4.03s/it]  4%|▍         | 4200/100000 [2:18:46<100:39:56,  3.78s/it]                                                             4%|▍         | 4200/100000 [2:18:46<100:39:56,  3.78s/it]  4%|▍         | 4201/100000 [2:18:49<94:06:40,  3.54s/it]                                                             4%|▍         | 4201/100000 [2:18:49<94:06:40,  3.54s/it]  4%|▍         | 4202/100000 [2:18:52<87:59:27,  3.31s/it]                                                            4%|▍         | 4202/100000 [2:18:52<87:59:27,  3.31s/it]  4%|▍         | 4203/100000 [2:18:54<82:00:48,  3.08s/it]                                                            4%|▍         | 4203/100000 [2:18:54<82:00:48,  3.08s/it]  4%|▍         | 4204/100000 [2:18:57<75:54:19,  2.85s/it]                                                            4%|▍         | 4204/100000 [2:18:57<75:54:19,  2.85s/it]  4%|▍         | 4205/100000 [2:18:59<70:27:36,  2.65s/it]                                                            4%|▍         | 4205/100000 [2:18:59<70:27:36,  2.65s/it]  4%|▍         | 4206/100000 [2:19:01<65:12:27,  2.45s/it]                                                            4%|▍         | 4206/100000 [2:19:01<65:12:27,  2.45s/it]  4%|▍         | 4207/100000 [2:19:03<61:17:48,  2.30s/it]                                                            4%|▍         | 4207/100000 [2:19:03<61:17:48,  2.30s/it]  4%|▍         | 4208/100000 [2:19:04<57:42:20,  2.17s/it]                                                            4%|▍         | 4208/100000 [2:19:05<57:42:20,  2.17s/it]  4%|▍         | 4209/100000 [2:19:06<53:51:03,  2.02s/it]                                                            4%|▍         | 4209/100000 [2:19:06<53:51:03,  2.02s/it]  4%|▍         | 4210/100000 [2:19:08<51:09:53,  1.92s/it]                                                            4%|▍         | 4210/100000 [2:19:08<51:09:53,  1.92s/it]  4%|▍         | 4211/100000 [2:19:10<48:51:04,  1.84s/it]                                                            4%|▍         | 4211/100000 [2:19:10<48:51:04,  1.84s/it]  4%|▍         | 4212/100000 [2:19:11<46:56:05,  1.76s/it]                                                            4%|▍         | 4212/100000 [2:19:11<46:56:05,  1.76s/it]  4%|▍         | 4213/100000 [2:19:13<45:03:29,  1.69s/it]                                                            4%|▍         | 4213/100000 [2:19:13<45:03:29,  1.69s/it]  4%|▍         | 4214/100000 [2:19:14<42:54:51,  1.61s/it]                                                            4%|▍         | 4214/100000 [2:19:14<42:54:51,  1.61s/it]  4%|▍         | 4215/100000 [2:19:15<41:23:48,  1.56s/it]                                                            4%|▍         | 4215/100000 [2:19:15<41:23:48,  1.56s/it]  4%|▍         | 4216/100000 [2:19:17<40:19:00,  1.52s/it]                                                            4%|▍         | 4216/100000 [2:19:17<40:19:00,  1.52s/it]  4%|▍         | 4217/100000 [2:19:18<39:13:16,  1.47s/it]                                                            4%|▍         | 4217/100000 [2:19:18<39:13:16,  1.47s/it]  4%|▍         | 4218/100000 [2:19:20<38:20:54,  1.44s/it]                                                            4%|▍         | 4218/100000 [2:19:20<38:20:54,  1.44s/it]  4%|▍         | 4219/100000 [2:19:21<37:36:14,  1.41s/it]                                                            4%|▍         | 4219/100000 [2:19:21<37:36:14,  1.41s/it]  4%|▍         | 4220/100000 [2:19:22<36:48:36,  1.38s/it]                                                            4%|▍         | 4220/100000 [2:19:22<36:48:36,  1.38s/it]  4%|▍         | 4221/100000 [2:19:24<36:08:36,  1.36s/it]                                                            4%|▍         | 4221/100000 [2:19:24<36:08:36,  1.36s/it]  4%|▍         | 4222/100000 [2:19:25<35:17:20,  1.33s/it]                                                            4%|▍         | 4222/100000 [2:19:25<35:17:20,  1.33s/it]  4%|▍         | 4223/100000 [2:19:26<34:47:10,  1.31s/it]                                                            4%|▍         | 4223/100000 [2:19:26<34:47:10,  1.31s/it]  4%|▍         | 4224/100000 [2:19:27<34:21:05,  1.29s/it]                                                            4%|▍         | 4224/100000 [2:19:27<34:21:05,  1.29s/it]  4%|▍         | 4225/100000 [2:19:29<33:54:55,  1.27s/it]                                                            4%|▍         | 4225/100000 [2:19:29<33:54:55,  1.27s/it]  4%|▍         | 4226/100000 [2:19:30<33:18:02,  1.25s/it]                                                            4%|▍         | 4226/100000 [2:19:30<33:18:02,  1.25s/it]  4%|▍         | 4227/100000 [2:19:31<32:47:41,  1.23s/it]                                                            4%|▍         | 4227/100000 [2:19:31<32:47:41,  1.23s/it]  4%|▍         | 4228/100000 [2:19:32<32:27:21,  1.22s/it]                                                            4%|▍         | 4228/100000 [2:19:32<32:27:21,  1.22s/it]  4%|▍         | 4229/100000 [2:19:33<31:47:37,  1.20s/it]                                                            4%|▍         | 4229/100000 [2:19:33<31:47:37,  1.20s/it]  4%|▍         | 4230/100000 [2:19:34<31:12:44,  1.17s/it]                                                            4%|▍         | 4230/100000 [2:19:34<31:12:44,  1.17s/it]  4%|▍         | 4231/100000 [2:19:36<30:36:45,  1.15s/it]                                                            4%|▍         | 4231/100000 [2:19:36<30:36:45,  1.15s/it]  4%|▍         | 4232/100000 [2:19:37<30:21:53,  1.14s/it]                                                            4%|▍         | 4232/100000 [2:19:37<30:21:53,  1.14s/it]  4%|▍         | 4233/100000 [2:19:38<29:54:51,  1.12s/it]                                                            4%|▍         | 4233/100000 [2:19:38<29:54:51,  1.12s/it]  4%|▍         | 4234/100000 [2:19:39<29:29:29,  1.11s/it]                                                            4%|▍         | 4234/100000 [2:19:39<29:29:29,  1.11s/it]  4%|▍         | 4235/100000 [2:19:40<29:18:52,  1.10s/it]                                                            4%|▍         | 4235/100000 [2:19:40<29:18:52,  1.10s/it]  4%|▍         | 4236/100000 [2:19:41<28:46:11,  1.08s/it]                                                            4%|▍         | 4236/100000 [2:19:41<28:46:11,  1.08s/it]  4%|▍         | 4237/100000 [2:19:42<28:05:41,  1.06s/it]                                                            4%|▍         | 4237/100000 [2:19:42<28:05:41,  1.06s/it]  4%|▍         | 4238/100000 [2:19:43<27:49:31,  1.05s/it]                                                            4%|▍         | 4238/100000 [2:19:43<27:49:31,  1.05s/it]  4%|▍         | 4239/100000 [2:19:44<27:07:08,  1.02s/it]                                                            4%|▍         | 4239/100000 [2:19:44<27:07:08,  1.02s/it]  4%|▍         | 4240/100000 [2:19:45<26:26:57,  1.01it/s]                                                            4%|▍         | 4240/100000 [2:19:45<26:26:57,  1.01it/s]  4%|▍         | 4241/100000 [2:19:46<26:11:43,  1.02it/s]                                                            4%|▍         | 4241/100000 [2:19:46<26:11:43,  1.02it/s]  4%|▍         | 4242/100000 [2:19:47<26:00:40,  1.02it/s]                                                            4%|▍         | 4242/100000 [2:19:47<26:00:40,  1.02it/s]  4%|▍         | 4243/100000 [2:19:48<25:32:57,  1.04it/s]                                                            4%|▍         | 4243/100000 [2:19:48<25:32:57,  1.04it/s]  4%|▍         | 4244/100000 [2:19:49<25:03:52,  1.06it/s]                                                            4%|▍         | 4244/100000 [2:19:49<25:03:52,  1.06it/s]  4%|▍         | 4245/100000 [2:20:01<113:58:55,  4.29s/it]                                                             4%|▍         | 4245/100000 [2:20:01<113:58:55,  4.29s/it]  4%|▍         | 4246/100000 [2:20:06<123:54:57,  4.66s/it]                                                             4%|▍         | 4246/100000 [2:20:06<123:54:57,  4.66s/it]  4%|▍         | 4247/100000 [2:20:11<123:02:53,  4.63s/it]                                                             4%|▍         | 4247/100000 [2:20:11<123:02:53,  4.63s/it]  4%|▍         | 4248/100000 [2:20:15<119:06:58,  4.48s/it]                                                             4%|▍         | 4248/100000 [2:20:15<119:06:58,  4.48s/it]  4%|▍         | 4249/100000 [2:20:18<111:47:27,  4.20s/it]                                                             4%|▍         | 4249/100000 [2:20:18<111:47:27,  4.20s/it]  4%|▍         | 4250/100000 [2:20:22<104:11:02,  3.92s/it]                                                             4%|▍         | 4250/100000 [2:20:22<104:11:02,  3.92s/it]  4%|▍         | 4251/100000 [2:20:25<96:18:33,  3.62s/it]                                                           {'loss': 0.0378, 'grad_norm': 0.3948770761489868, 'learning_rate': 1.2492e-05, 'epoch': 7.69}
+{'loss': 0.0309, 'grad_norm': 0.4485151767730713, 'learning_rate': 1.2495e-05, 'epoch': 7.69}
+{'loss': 0.0414, 'grad_norm': 0.5578030347824097, 'learning_rate': 1.2498000000000001e-05, 'epoch': 7.69}
+{'loss': 0.0289, 'grad_norm': 0.4920484721660614, 'learning_rate': 1.2501000000000001e-05, 'epoch': 7.69}
+{'loss': 0.0612, 'grad_norm': 0.7462189793586731, 'learning_rate': 1.2504000000000001e-05, 'epoch': 7.7}
+{'loss': 0.0297, 'grad_norm': 0.4768451452255249, 'learning_rate': 1.2507e-05, 'epoch': 7.7}
+{'loss': 0.0379, 'grad_norm': 0.4360469877719879, 'learning_rate': 1.251e-05, 'epoch': 7.7}
+{'loss': 0.0379, 'grad_norm': 0.766214907169342, 'learning_rate': 1.2513e-05, 'epoch': 7.7}
+{'loss': 0.078, 'grad_norm': 1.5813432931900024, 'learning_rate': 1.2516e-05, 'epoch': 7.7}
+{'loss': 0.0409, 'grad_norm': 0.6080664396286011, 'learning_rate': 1.2519e-05, 'epoch': 7.71}
+{'loss': 0.0319, 'grad_norm': 1.1184157133102417, 'learning_rate': 1.2522e-05, 'epoch': 7.71}
+{'loss': 0.0299, 'grad_norm': 0.6684539318084717, 'learning_rate': 1.2525e-05, 'epoch': 7.71}
+{'loss': 0.0342, 'grad_norm': 0.6261076331138611, 'learning_rate': 1.2528000000000001e-05, 'epoch': 7.71}
+{'loss': 0.0277, 'grad_norm': 0.5831961631774902, 'learning_rate': 1.2531e-05, 'epoch': 7.71}
+{'loss': 0.0453, 'grad_norm': 0.5599172711372375, 'learning_rate': 1.2534e-05, 'epoch': 7.71}
+{'loss': 0.0219, 'grad_norm': 0.5989073514938354, 'learning_rate': 1.2537e-05, 'epoch': 7.72}
+{'loss': 0.028, 'grad_norm': 0.48640766739845276, 'learning_rate': 1.254e-05, 'epoch': 7.72}
+{'loss': 0.0479, 'grad_norm': 0.7419519424438477, 'learning_rate': 1.2543000000000002e-05, 'epoch': 7.72}
+{'loss': 0.0187, 'grad_norm': 0.4289011061191559, 'learning_rate': 1.2546000000000002e-05, 'epoch': 7.72}
+{'loss': 0.0284, 'grad_norm': 0.9601662158966064, 'learning_rate': 1.2549000000000001e-05, 'epoch': 7.72}
+{'loss': 0.0461, 'grad_norm': 0.7918846607208252, 'learning_rate': 1.2552e-05, 'epoch': 7.73}
+{'loss': 0.0362, 'grad_norm': 0.7785574793815613, 'learning_rate': 1.2555e-05, 'epoch': 7.73}
+{'loss': 0.0385, 'grad_norm': 0.8537510633468628, 'learning_rate': 1.2558e-05, 'epoch': 7.73}
+{'loss': 0.0485, 'grad_norm': 1.2144277095794678, 'learning_rate': 1.2561e-05, 'epoch': 7.73}
+{'loss': 0.038, 'grad_norm': 1.2213268280029297, 'learning_rate': 1.2564e-05, 'epoch': 7.73}
+{'loss': 0.0365, 'grad_norm': 0.6018048524856567, 'learning_rate': 1.2567e-05, 'epoch': 7.73}
+{'loss': 0.0544, 'grad_norm': 0.8807831406593323, 'learning_rate': 1.257e-05, 'epoch': 7.74}
+{'loss': 0.088, 'grad_norm': 0.9523292183876038, 'learning_rate': 1.2573e-05, 'epoch': 7.74}
+{'loss': 0.3798, 'grad_norm': 1.3522166013717651, 'learning_rate': 1.2576000000000001e-05, 'epoch': 7.74}
+{'loss': 0.3224, 'grad_norm': 1.0144202709197998, 'learning_rate': 1.2579000000000001e-05, 'epoch': 7.74}
+{'loss': 0.2713, 'grad_norm': 1.2468231916427612, 'learning_rate': 1.2582e-05, 'epoch': 7.74}
+{'loss': 0.2684, 'grad_norm': 1.5040656328201294, 'learning_rate': 1.2585e-05, 'epoch': 7.75}
+{'loss': 0.2113, 'grad_norm': 1.2979474067687988, 'learning_rate': 1.2587999999999999e-05, 'epoch': 7.75}
+{'loss': 0.2385, 'grad_norm': 1.4345593452453613, 'learning_rate': 1.2591e-05, 'epoch': 7.75}
+{'loss': 0.2577, 'grad_norm': 1.5685144662857056, 'learning_rate': 1.2594e-05, 'epoch': 7.75}
+{'loss': 0.1832, 'grad_norm': 1.26348078250885, 'learning_rate': 1.2597e-05, 'epoch': 7.75}
+{'loss': 0.1213, 'grad_norm': 0.8908654451370239, 'learning_rate': 1.26e-05, 'epoch': 7.76}
+{'loss': 0.1387, 'grad_norm': 0.7878689169883728, 'learning_rate': 1.2603e-05, 'epoch': 7.76}
+{'loss': 0.147, 'grad_norm': 0.7852795720100403, 'learning_rate': 1.2606000000000001e-05, 'epoch': 7.76}
+{'loss': 0.1322, 'grad_norm': 0.8014175295829773, 'learning_rate': 1.2609e-05, 'epoch': 7.76}
+{'loss': 0.1557, 'grad_norm': 0.8985889554023743, 'learning_rate': 1.2612e-05, 'epoch': 7.76}
+{'loss': 0.0711, 'grad_norm': 1.881499171257019, 'learning_rate': 1.2615e-05, 'epoch': 7.76}
+{'loss': 0.0909, 'grad_norm': 0.6447560787200928, 'learning_rate': 1.2618e-05, 'epoch': 7.77}
+{'loss': 0.0681, 'grad_norm': 0.5465224385261536, 'learning_rate': 1.2621000000000002e-05, 'epoch': 7.77}
+{'loss': 0.0669, 'grad_norm': 0.6470277905464172, 'learning_rate': 1.2624e-05, 'epoch': 7.77}
+{'loss': 0.0585, 'grad_norm': 0.58457350730896, 'learning_rate': 1.2627e-05, 'epoch': 7.77}
+{'loss': 0.0395, 'grad_norm': 0.6071618795394897, 'learning_rate': 1.263e-05, 'epoch': 7.77}
+{'loss': 0.0525, 'grad_norm': 0.676609456539154, 'learning_rate': 1.2633e-05, 'epoch': 7.78}
+{'loss': 0.037, 'grad_norm': 0.3999547064304352, 'learning_rate': 1.2636e-05, 'epoch': 7.78}
+{'loss': 0.0371, 'grad_norm': 0.5443705916404724, 'learning_rate': 1.2639e-05, 'epoch': 7.78}
+{'loss': 0.0419, 'grad_norm': 0.9816798567771912, 'learning_rate': 1.2642e-05, 'epoch': 7.78}
+{'loss': 0.0465, 'grad_norm': 0.6923866271972656, 'learning_rate': 1.2645e-05, 'epoch': 7.78}
+{'loss': 0.0343, 'grad_norm': 0.5095269083976746, 'learning_rate': 1.2648e-05, 'epoch': 7.78}
+{'loss': 0.0409, 'grad_norm': 0.6733057498931885, 'learning_rate': 1.2651000000000001e-05, 'epoch': 7.79}
+{'loss': 0.0374, 'grad_norm': 0.8574805855751038, 'learning_rate': 1.2654000000000001e-05, 'epoch': 7.79}
+{'loss': 0.0235, 'grad_norm': 0.6730523109436035, 'learning_rate': 1.2657000000000001e-05, 'epoch': 7.79}
+{'loss': 0.0508, 'grad_norm': 0.6429433226585388, 'learning_rate': 1.2659999999999999e-05, 'epoch': 7.79}
+{'loss': 0.0388, 'grad_norm': 0.6499189138412476, 'learning_rate': 1.2662999999999999e-05, 'epoch': 7.79}
+{'loss': 0.0443, 'grad_norm': 0.8994177579879761, 'learning_rate': 1.2666e-05, 'epoch': 7.8}
+{'loss': 0.0268, 'grad_norm': 0.7503787279129028, 'learning_rate': 1.2669e-05, 'epoch': 7.8}
+{'loss': 0.0382, 'grad_norm': 0.5890717506408691, 'learning_rate': 1.2672e-05, 'epoch': 7.8}
+{'loss': 0.0344, 'grad_norm': 0.5628544092178345, 'learning_rate': 1.2675e-05, 'epoch': 7.8}
+{'loss': 0.0325, 'grad_norm': 0.4928682744503021, 'learning_rate': 1.2678e-05, 'epoch': 7.8}
+{'loss': 0.0362, 'grad_norm': 0.787543535232544, 'learning_rate': 1.2681000000000001e-05, 'epoch': 7.81}
+{'loss': 0.0364, 'grad_norm': 1.0132980346679688, 'learning_rate': 1.2684000000000001e-05, 'epoch': 7.81}
+{'loss': 0.0343, 'grad_norm': 0.5771153569221497, 'learning_rate': 1.2687e-05, 'epoch': 7.81}
+{'loss': 0.0577, 'grad_norm': 0.8791329860687256, 'learning_rate': 1.269e-05, 'epoch': 7.81}
+{'loss': 0.0372, 'grad_norm': 0.7927799820899963, 'learning_rate': 1.2693e-05, 'epoch': 7.81}
+{'loss': 0.0323, 'grad_norm': 0.7587766647338867, 'learning_rate': 1.2696000000000002e-05, 'epoch': 7.81}
+{'loss': 0.0602, 'grad_norm': 1.1068307161331177, 'learning_rate': 1.2699e-05, 'epoch': 7.82}
+{'loss': 0.0458, 'grad_norm': 1.694675326347351, 'learning_rate': 1.2702e-05, 'epoch': 7.82}
+{'loss': 0.0459, 'grad_norm': 0.6220648288726807, 'learning_rate': 1.2705e-05, 'epoch': 7.82}
+{'loss': 0.0373, 'grad_norm': 0.6234679222106934, 'learning_rate': 1.2708e-05, 'epoch': 7.82}
+{'loss': 0.0335, 'grad_norm': 0.6579725742340088, 'learning_rate': 1.2711e-05, 'epoch': 7.82}
+{'loss': 0.0392, 'grad_norm': 0.7174988985061646, 'learning_rate': 1.2714e-05, 'epoch': 7.83}
+{'loss': 0.0305, 'grad_norm': 0.9258104562759399, 'learning_rate': 1.2717e-05, 'epoch': 7.83}
+{'loss': 0.0434, 'grad_norm': 0.7623401284217834, 'learning_rate': 1.272e-05, 'epoch': 7.83}
+{'loss': 0.0507, 'grad_norm': 0.6249094009399414, 'learning_rate': 1.2723e-05, 'epoch': 7.83}
+{'loss': 0.343, 'grad_norm': 1.315299153327942, 'learning_rate': 1.2726000000000001e-05, 'epoch': 7.83}
+{'loss': 0.2324, 'grad_norm': 0.8846774101257324, 'learning_rate': 1.2729000000000001e-05, 'epoch': 7.83}
+{'loss': 0.2017, 'grad_norm': 0.7561314702033997, 'learning_rate': 1.2732000000000001e-05, 'epoch': 7.84}
+{'loss': 0.2314, 'grad_norm': 0.9137879014015198, 'learning_rate': 1.2735e-05, 'epoch': 7.84}
+{'loss': 0.2356, 'grad_norm': 0.7995381355285645, 'learning_rate': 1.2737999999999999e-05, 'epoch': 7.84}
+{'loss': 0.2342, 'grad_norm': 0.9145019054412842, 'learning_rate': 1.2741e-05, 'epoch': 7.84}
+  4%|▍         | 4251/100000 [2:20:25<96:18:33,  3.62s/it]  4%|▍         | 4252/100000 [2:20:27<88:46:46,  3.34s/it]                                                            4%|▍         | 4252/100000 [2:20:27<88:46:46,  3.34s/it]  4%|▍         | 4253/100000 [2:20:30<80:54:03,  3.04s/it]                                                            4%|▍         | 4253/100000 [2:20:30<80:54:03,  3.04s/it]  4%|▍         | 4254/100000 [2:20:32<75:05:27,  2.82s/it]                                                            4%|▍         | 4254/100000 [2:20:32<75:05:27,  2.82s/it]  4%|▍         | 4255/100000 [2:20:34<69:42:06,  2.62s/it]                                                            4%|▍         | 4255/100000 [2:20:34<69:42:06,  2.62s/it]  4%|▍         | 4256/100000 [2:20:36<64:56:22,  2.44s/it]                                                            4%|▍         | 4256/100000 [2:20:36<64:56:22,  2.44s/it]  4%|▍         | 4257/100000 [2:20:38<60:12:34,  2.26s/it]                                                            4%|▍         | 4257/100000 [2:20:38<60:12:34,  2.26s/it]  4%|▍         | 4258/100000 [2:20:40<56:40:06,  2.13s/it]                                                            4%|▍         | 4258/100000 [2:20:40<56:40:06,  2.13s/it]  4%|▍         | 4259/100000 [2:20:42<53:28:40,  2.01s/it]                                                            4%|▍         | 4259/100000 [2:20:42<53:28:40,  2.01s/it]  4%|▍         | 4260/100000 [2:20:43<50:41:33,  1.91s/it]                                                            4%|▍         | 4260/100000 [2:20:43<50:41:33,  1.91s/it]  4%|▍         | 4261/100000 [2:20:45<47:52:40,  1.80s/it]                                                            4%|▍         | 4261/100000 [2:20:45<47:52:40,  1.80s/it]  4%|▍         | 4262/100000 [2:20:46<46:03:39,  1.73s/it]                                                            4%|▍         | 4262/100000 [2:20:46<46:03:39,  1.73s/it]  4%|▍         | 4263/100000 [2:20:48<44:15:34,  1.66s/it]                                                            4%|▍         | 4263/100000 [2:20:48<44:15:34,  1.66s/it]  4%|▍         | 4264/100000 [2:20:49<42:21:23,  1.59s/it]                                                            4%|▍         | 4264/100000 [2:20:49<42:21:23,  1.59s/it]  4%|▍         | 4265/100000 [2:20:51<41:04:38,  1.54s/it]                                                            4%|▍         | 4265/100000 [2:20:51<41:04:38,  1.54s/it]  4%|▍         | 4266/100000 [2:20:52<40:02:17,  1.51s/it]                                                            4%|▍         | 4266/100000 [2:20:52<40:02:17,  1.51s/it]  4%|▍         | 4267/100000 [2:20:54<39:12:28,  1.47s/it]                                                            4%|▍         | 4267/100000 [2:20:54<39:12:28,  1.47s/it]  4%|▍         | 4268/100000 [2:20:55<38:23:06,  1.44s/it]                                                            4%|▍         | 4268/100000 [2:20:55<38:23:06,  1.44s/it]  4%|▍         | 4269/100000 [2:20:56<37:28:17,  1.41s/it]                                                            4%|▍         | 4269/100000 [2:20:56<37:28:17,  1.41s/it]  4%|▍         | 4270/100000 [2:20:58<36:58:36,  1.39s/it]                                                            4%|▍         | 4270/100000 [2:20:58<36:58:36,  1.39s/it]  4%|▍         | 4271/100000 [2:20:59<36:02:23,  1.36s/it]                                                            4%|▍         | 4271/100000 [2:20:59<36:02:23,  1.36s/it]  4%|▍         | 4272/100000 [2:21:00<35:28:26,  1.33s/it]                                                            4%|▍         | 4272/100000 [2:21:00<35:28:26,  1.33s/it]  4%|▍         | 4273/100000 [2:21:01<35:02:55,  1.32s/it]                                                            4%|▍         | 4273/100000 [2:21:01<35:02:55,  1.32s/it]  4%|▍         | 4274/100000 [2:21:03<34:33:50,  1.30s/it]                                                            4%|▍         | 4274/100000 [2:21:03<34:33:50,  1.30s/it]  4%|▍         | 4275/100000 [2:21:04<33:49:22,  1.27s/it]                                                            4%|▍         | 4275/100000 [2:21:04<33:49:22,  1.27s/it]  4%|▍         | 4276/100000 [2:21:05<33:23:38,  1.26s/it]                                                            4%|▍         | 4276/100000 [2:21:05<33:23:38,  1.26s/it]  4%|▍         | 4277/100000 [2:21:06<32:57:00,  1.24s/it]                                                            4%|▍         | 4277/100000 [2:21:06<32:57:00,  1.24s/it]  4%|▍         | 4278/100000 [2:21:07<32:17:31,  1.21s/it]                                                            4%|▍         | 4278/100000 [2:21:07<32:17:31,  1.21s/it]  4%|▍         | 4279/100000 [2:21:09<31:46:40,  1.20s/it]                                                            4%|▍         | 4279/100000 [2:21:09<31:46:40,  1.20s/it]  4%|▍         | 4280/100000 [2:21:10<31:09:51,  1.17s/it]                                                            4%|▍         | 4280/100000 [2:21:10<31:09:51,  1.17s/it]  4%|▍         | 4281/100000 [2:21:11<30:47:17,  1.16s/it]                                                            4%|▍         | 4281/100000 [2:21:11<30:47:17,  1.16s/it]  4%|▍         | 4282/100000 [2:21:12<30:07:01,  1.13s/it]                                                            4%|▍         | 4282/100000 [2:21:12<30:07:01,  1.13s/it]  4%|▍         | 4283/100000 [2:21:13<29:33:28,  1.11s/it]                                                            4%|▍         | 4283/100000 [2:21:13<29:33:28,  1.11s/it]  4%|▍         | 4284/100000 [2:21:14<29:26:16,  1.11s/it]                                                            4%|▍         | 4284/100000 [2:21:14<29:26:16,  1.11s/it]  4%|▍         | 4285/100000 [2:21:15<29:05:25,  1.09s/it]                                                            4%|▍         | 4285/100000 [2:21:15<29:05:25,  1.09s/it]  4%|▍         | 4286/100000 [2:21:16<28:54:48,  1.09s/it]                                                            4%|▍         | 4286/100000 [2:21:16<28:54:48,  1.09s/it]  4%|▍         | 4287/100000 [2:21:17<28:22:57,  1.07s/it]                                                            4%|▍         | 4287/100000 [2:21:17<28:22:57,  1.07s/it]  4%|▍         | 4288/100000 [2:21:18<28:08:57,  1.06s/it]                                                            4%|▍         | 4288/100000 [2:21:18<28:08:57,  1.06s/it]  4%|▍         | 4289/100000 [2:21:19<27:48:59,  1.05s/it]                                                            4%|▍         | 4289/100000 [2:21:19<27:48:59,  1.05s/it]  4%|▍         | 4290/100000 [2:21:20<27:16:41,  1.03s/it]                                                            4%|▍         | 4290/100000 [2:21:20<27:16:41,  1.03s/it]  4%|▍         | 4291/100000 [2:21:21<26:54:53,  1.01s/it]                                                            4%|▍         | 4291/100000 [2:21:21<26:54:53,  1.01s/it]  4%|▍         | 4292/100000 [2:21:22<26:26:00,  1.01it/s]                                                            4%|▍         | 4292/100000 [2:21:22<26:26:00,  1.01it/s]  4%|▍         | 4293/100000 [2:21:23<25:49:48,  1.03it/s]                                                            4%|▍         | 4293/100000 [2:21:23<25:49:48,  1.03it/s]  4%|▍         | 4294/100000 [2:21:24<24:53:20,  1.07it/s]                                                            4%|▍         | 4294/100000 [2:21:24<24:53:20,  1.07it/s]  4%|▍         | 4295/100000 [2:21:35<103:15:54,  3.88s/it]                                                             4%|▍         | 4295/100000 [2:21:35<103:15:54,  3.88s/it]  4%|▍         | 4296/100000 [2:21:40<110:26:28,  4.15s/it]                                                             4%|▍         | 4296/100000 [2:21:40<110:26:28,  4.15s/it]  4%|▍         | 4297/100000 [2:21:44<111:31:36,  4.20s/it]                                                             4%|▍         | 4297/100000 [2:21:44<111:31:36,  4.20s/it]  4%|▍         | 4298/100000 [2:21:48<108:15:16,  4.07s/it]                                                             4%|▍         | 4298/100000 [2:21:48<108:15:16,  4.07s/it]  4%|▍         | 4299/100000 [2:21:51<102:48:36,  3.87s/it]                                                             4%|▍         | 4299/100000 [2:21:51<102:48:36,  3.87s/it]  4%|▍         | 4300/100000 [2:21:54<94:45:35,  3.56s/it]                                                             4%|▍         | 4300/100000 [2:21:54<94:45:35,  3.56s/it]  4%|▍         | 4301/100000 [2:21:56<87:11:19,  3.28s/it]                                                            4%|▍         | 4301/100000 [2:21:56<87:11:19,  3.28s/it]  4%|▍         | 4302/100000 [2:21:59<80:46:40,  3.04s/it]                                                            4%|▍         | 4302/100000 [2:21:59<80:46:40,  3.04s/it]  4%|▍         | 4303/100000 [2:22:01<73:45:24,  2.77s/it]                                                            4%|▍         | 4303/100000 [2:22:01<73:45:24,  2.77s/it]  4%|▍         | 4304/100000 [2:22:03<68:04:34,  2.56s/it]                                                            4%|▍         | 4304/100000 [2:22:03<68:04:34,  2.56s/it]  4%|▍         | 4305/100000 [2:22:05<62:33:11,  2.35s/it]                                                            4%|▍         | 4305/100000 [2:22:05<62:33:11,  2.35s/it]  4%|▍         | 4306/100000 [2:22:07<58:14:41,  2.19s/it]                                                            4%|▍         | 4306/100000 [2:22:07<58:14:41,  2.19s/it]  4%|▍         | 4307/100000 [2:22:09<54:26:23,  2.05s/it]                                                            4%|▍         | 4307/100000 [2:22:09<54:26:23,  2.05s/it]  4%|▍         | 4308/100000 [2:22:10<51:17:42,  1.93s/it]                                                            4%|▍         | 4308/100000 [2:22:10<51:17:42,  1.93s/it]  4%|▍         | 4309/100000 [2:22:12<48:39:49,  1.83s/it]                                                            4%|▍         | 4309/100000 [2:22:12<48:39:49,  1.83s/it]  4%|▍         | 4310/100000 [2:22:13<46:25:41,  1.75s/it]                                                            4%|▍         | 4310/100000 [2:22:13<46:25:41,  1.75s/it]  4%|▍         | 4311/100000 [2:22:15<44:27:15,  1.67s/it]                                                            4%|▍         | 4311/100000 [2:22:15<44:27:15,  1.67s/it]  4%|▍         | 4312/100000 [2:22:16<42:48:06,  1.61s/it]                                                            4%|▍         | 4312/100000 [2:22:16<42:48:06,  1.61s/it]  4%|▍         | 4313/100000 [2:22:18<41:17:06,  1.55s/it]                                                            4%|▍         | 4313/100000 [2:22:18<41:17:06,  1.55s/it]  4%|▍         | 4314/100000 [2:22:19<39:58:52,  1.50s/it]                                                            4%|▍         | 4314/100000 [2:22:19<39:58:52,  1.50s/it]  4%|▍         | 4315/100000 [2:22:20<38:53:55,  1.46s/it]                                                            4%|▍         | 4315/100000 [2:22:20<38:53:55,  1.46s/it]  4%|▍         | 4316/100000 [2:22:22<37:38:48,  1.42s/it]                                                            4%|▍         | 4316/100000 [2:22:22<37:38:48,  1.42s/it]  4%|▍         | 4317/100000 [2:22:23<36:48:58,  1.39s/it]                                                            4%|▍         | 4317/100000 [2:22:23<36:48:58,  1.39s/it]  4%|▍         | 4318/100000 [2:22:24<36:04:41,  1.36s/it]                                                            4%|▍         | 4318/100000 [2:22:24<36:04:41,  1.36s/it]  4%|▍         | 4319/100000 [2:22:26<35:09:13,  1.32s/it]                                                            4%|▍         | 4319/100000 [2:22:26<35:09:13,  1.32s/it]  4%|▍         | 4320/100000 [2:22:27<34:34:46,  1.30s/it]                                                            4%|▍         | 4320/100000 [2:22:27<34:34:46,  1.30s/it]  4%|▍         | 4321/100000 [2:22:28<33:48:27,  1.27s/it]                                                            4%|▍         | 4321/100000 [2:22:28<33:48:27,  1.27s/it]  4%|▍         | 4322/100000 [2:22:29<33:04:40,  1.24s/it]                                                            4%|▍         | 4322/100000 [2:22:29<33:04:40,  1.24s/it]  4%|▍         | 4323/100000 [2:22:30<32:14:17,  1.21s/it]                                                            4%|▍         | 4323/100000 [2:22:30<32:14:17,  1.21s/it]  4%|▍         | 4324/100000 [2:22:32<31:30:41,  1.19s/it]                                                            4%|▍         | 4324/100000 [2:22:32<31:30:41,  1.19s/it]  4%|▍         | 4325/100000 [2:22:33<30:53:54,  1.16s/it]                                                            4%|▍         | 4325/100000 [2:22:33<30:53:54,  1.16s/it]  4%|▍         | 4326/100000 [2:22:34<30:15:51,  1.14s/it]                                                            4%|▍         | 4326/100000 [2:22:34<30:15:51,  1.14s/it]  4%|▍         | 4327/100000 [2:22:35<29:38:25,  1.12s/it]                                                            4%|▍         | 4327/100000 [2:22:35<29:38:25,  1.12s/it]  4%|▍         | 4328/100000 [2:22:36<29:22:07,  1.11s/it]                                                            4%|▍         | 4328/100000 [2:22:36<29:22:07,  1.11s/it]  4%|▍         | 4329/100000 [2:22:37<29:02:48,  1.09s/it]                                                            4%|▍         | 4329/100000 [2:22:37<29:02:48,  1.09s/it]  4%|▍         | 4330/100000 [2:22:38<28:24:23,  1.07s/it]                                                            4%|▍         | 4330/100000 [2:22:38<28:24:23,  1.07s/it]  4%|▍         | 4331/100000 [2:22:39<27:50:32,  1.05s/it]                                                            4%|▍         | 4331/100000 [2:22:39<27:50:32,  1.05s/it]  4%|▍         | 4332/100000 [2:22:40<27:16:45,  1.03s/it]                                                            4%|▍         | 4332/100000 [2:22:40<27:16:45,  1.03s/it]  4%|▍         | 4333/100000 [2:22:41<26:33:06,  1.00it/s]                                                            4%|▍         | 4333/100000 [2:22:41<26:33:06,  1.00it/s]  4%|▍         | 4334/100000 [2:22:42<25:49:48,  1.03it/s]                                                            4%|▍         | 4334/100000 [2:22:42<25:49:48,  1.03it/s]  4%|▍         | 4335/100000 [2:22:43<24:54:00,  1.07it/s]                                                          {'loss': 0.1745, 'grad_norm': 0.6350741982460022, 'learning_rate': 1.2744e-05, 'epoch': 7.84}
+{'loss': 0.1851, 'grad_norm': 1.0012751817703247, 'learning_rate': 1.2747e-05, 'epoch': 7.85}
+{'loss': 0.197, 'grad_norm': 1.0654654502868652, 'learning_rate': 1.275e-05, 'epoch': 7.85}
+{'loss': 0.1307, 'grad_norm': 0.7405928373336792, 'learning_rate': 1.2753e-05, 'epoch': 7.85}
+{'loss': 0.1201, 'grad_norm': 1.0535868406295776, 'learning_rate': 1.2756000000000001e-05, 'epoch': 7.85}
+{'loss': 0.0829, 'grad_norm': 0.6765692234039307, 'learning_rate': 1.2759000000000001e-05, 'epoch': 7.85}
+{'loss': 0.1442, 'grad_norm': 0.9713176488876343, 'learning_rate': 1.2762e-05, 'epoch': 7.86}
+{'loss': 0.0868, 'grad_norm': 0.7366648316383362, 'learning_rate': 1.2765e-05, 'epoch': 7.86}
+{'loss': 0.0614, 'grad_norm': 0.5480320453643799, 'learning_rate': 1.2768e-05, 'epoch': 7.86}
+{'loss': 0.0615, 'grad_norm': 0.5844116806983948, 'learning_rate': 1.2771e-05, 'epoch': 7.86}
+{'loss': 0.0648, 'grad_norm': 0.6884409785270691, 'learning_rate': 1.2774e-05, 'epoch': 7.86}
+{'loss': 0.0585, 'grad_norm': 0.7041671276092529, 'learning_rate': 1.2777e-05, 'epoch': 7.86}
+{'loss': 0.0443, 'grad_norm': 1.6187162399291992, 'learning_rate': 1.278e-05, 'epoch': 7.87}
+{'loss': 0.0413, 'grad_norm': 0.5576724410057068, 'learning_rate': 1.2783e-05, 'epoch': 7.87}
+{'loss': 0.0376, 'grad_norm': 0.644615113735199, 'learning_rate': 1.2786000000000001e-05, 'epoch': 7.87}
+{'loss': 0.0435, 'grad_norm': 0.7323140501976013, 'learning_rate': 1.2789e-05, 'epoch': 7.87}
+{'loss': 0.0359, 'grad_norm': 0.9791684150695801, 'learning_rate': 1.2792e-05, 'epoch': 7.87}
+{'loss': 0.052, 'grad_norm': 1.0607141256332397, 'learning_rate': 1.2795e-05, 'epoch': 7.88}
+{'loss': 0.0328, 'grad_norm': 0.684356153011322, 'learning_rate': 1.2798e-05, 'epoch': 7.88}
+{'loss': 0.0327, 'grad_norm': 0.6425195932388306, 'learning_rate': 1.2801000000000002e-05, 'epoch': 7.88}
+{'loss': 0.0423, 'grad_norm': 0.7910063862800598, 'learning_rate': 1.2804000000000001e-05, 'epoch': 7.88}
+{'loss': 0.061, 'grad_norm': 0.648790180683136, 'learning_rate': 1.2807000000000001e-05, 'epoch': 7.88}
+{'loss': 0.0444, 'grad_norm': 0.8567507266998291, 'learning_rate': 1.281e-05, 'epoch': 7.88}
+{'loss': 0.029, 'grad_norm': 0.44043436646461487, 'learning_rate': 1.2812999999999999e-05, 'epoch': 7.89}
+{'loss': 0.0619, 'grad_norm': 0.7219623923301697, 'learning_rate': 1.2816e-05, 'epoch': 7.89}
+{'loss': 0.0396, 'grad_norm': 0.4809543192386627, 'learning_rate': 1.2819e-05, 'epoch': 7.89}
+{'loss': 0.0316, 'grad_norm': 0.48918649554252625, 'learning_rate': 1.2822e-05, 'epoch': 7.89}
+{'loss': 0.0436, 'grad_norm': 0.7103901505470276, 'learning_rate': 1.2825e-05, 'epoch': 7.89}
+{'loss': 0.042, 'grad_norm': 1.1335327625274658, 'learning_rate': 1.2828e-05, 'epoch': 7.9}
+{'loss': 0.028, 'grad_norm': 0.5287763476371765, 'learning_rate': 1.2831000000000001e-05, 'epoch': 7.9}
+{'loss': 0.0476, 'grad_norm': 0.5864327549934387, 'learning_rate': 1.2834000000000001e-05, 'epoch': 7.9}
+{'loss': 0.0594, 'grad_norm': 0.7537019848823547, 'learning_rate': 1.2837000000000001e-05, 'epoch': 7.9}
+{'loss': 0.0467, 'grad_norm': 0.7733783721923828, 'learning_rate': 1.284e-05, 'epoch': 7.9}
+{'loss': 0.0616, 'grad_norm': 0.9843820929527283, 'learning_rate': 1.2843e-05, 'epoch': 7.9}
+{'loss': 0.0397, 'grad_norm': 0.5933932065963745, 'learning_rate': 1.2846e-05, 'epoch': 7.91}
+{'loss': 0.0563, 'grad_norm': 0.7289738059043884, 'learning_rate': 1.2849e-05, 'epoch': 7.91}
+{'loss': 0.0424, 'grad_norm': 0.6274788975715637, 'learning_rate': 1.2852e-05, 'epoch': 7.91}
+{'loss': 0.0607, 'grad_norm': 0.8971357941627502, 'learning_rate': 1.2855e-05, 'epoch': 7.91}
+{'loss': 0.0335, 'grad_norm': 0.6123123168945312, 'learning_rate': 1.2858e-05, 'epoch': 7.91}
+{'loss': 0.0378, 'grad_norm': 0.6328318119049072, 'learning_rate': 1.2861000000000001e-05, 'epoch': 7.92}
+{'loss': 0.0554, 'grad_norm': 0.6868095993995667, 'learning_rate': 1.2864e-05, 'epoch': 7.92}
+{'loss': 0.0695, 'grad_norm': 0.9725096225738525, 'learning_rate': 1.2867e-05, 'epoch': 7.92}
+{'loss': 0.0351, 'grad_norm': 0.8192182183265686, 'learning_rate': 1.287e-05, 'epoch': 7.92}
+{'loss': 0.0802, 'grad_norm': 0.8341385722160339, 'learning_rate': 1.2873e-05, 'epoch': 7.92}
+{'loss': 0.4823, 'grad_norm': 1.3568755388259888, 'learning_rate': 1.2876000000000002e-05, 'epoch': 7.93}
+{'loss': 0.3611, 'grad_norm': 1.1360949277877808, 'learning_rate': 1.2879000000000002e-05, 'epoch': 7.93}
+{'loss': 0.1874, 'grad_norm': 0.790391743183136, 'learning_rate': 1.2882e-05, 'epoch': 7.93}
+{'loss': 0.172, 'grad_norm': 0.743624746799469, 'learning_rate': 1.2885e-05, 'epoch': 7.93}
+{'loss': 0.1649, 'grad_norm': 0.6538652181625366, 'learning_rate': 1.2888e-05, 'epoch': 7.93}
+{'loss': 0.1684, 'grad_norm': 0.8588427901268005, 'learning_rate': 1.2891e-05, 'epoch': 7.93}
+{'loss': 0.1309, 'grad_norm': 0.6219055652618408, 'learning_rate': 1.2894e-05, 'epoch': 7.94}
+{'loss': 0.1437, 'grad_norm': 0.6097257137298584, 'learning_rate': 1.2897e-05, 'epoch': 7.94}
+{'loss': 0.148, 'grad_norm': 0.6845511794090271, 'learning_rate': 1.29e-05, 'epoch': 7.94}
+{'loss': 0.1539, 'grad_norm': 0.8553453087806702, 'learning_rate': 1.2903e-05, 'epoch': 7.94}
+{'loss': 0.1407, 'grad_norm': 0.8057902455329895, 'learning_rate': 1.2906000000000001e-05, 'epoch': 7.94}
+{'loss': 0.1285, 'grad_norm': 0.7886427640914917, 'learning_rate': 1.2909000000000001e-05, 'epoch': 7.95}
+{'loss': 0.0449, 'grad_norm': 0.5424556732177734, 'learning_rate': 1.2912000000000001e-05, 'epoch': 7.95}
+{'loss': 0.0979, 'grad_norm': 0.8618884086608887, 'learning_rate': 1.2915000000000001e-05, 'epoch': 7.95}
+{'loss': 0.0577, 'grad_norm': 0.5419620275497437, 'learning_rate': 1.2917999999999999e-05, 'epoch': 7.95}
+{'loss': 0.0946, 'grad_norm': 0.9529350996017456, 'learning_rate': 1.2921e-05, 'epoch': 7.95}
+{'loss': 0.055, 'grad_norm': 0.6171501278877258, 'learning_rate': 1.2924e-05, 'epoch': 7.95}
+{'loss': 0.0598, 'grad_norm': 0.7650995850563049, 'learning_rate': 1.2927e-05, 'epoch': 7.96}
+{'loss': 0.0758, 'grad_norm': 0.5648701190948486, 'learning_rate': 1.293e-05, 'epoch': 7.96}
+{'loss': 0.0477, 'grad_norm': 1.0188759565353394, 'learning_rate': 1.2933e-05, 'epoch': 7.96}
+{'loss': 0.0379, 'grad_norm': 0.4948999583721161, 'learning_rate': 1.2936000000000001e-05, 'epoch': 7.96}
+{'loss': 0.0388, 'grad_norm': 0.6018174290657043, 'learning_rate': 1.2939000000000001e-05, 'epoch': 7.96}
+{'loss': 0.0588, 'grad_norm': 1.477062463760376, 'learning_rate': 1.2942e-05, 'epoch': 7.97}
+{'loss': 0.044, 'grad_norm': 0.666613757610321, 'learning_rate': 1.2945e-05, 'epoch': 7.97}
+{'loss': 0.0346, 'grad_norm': 0.6991389989852905, 'learning_rate': 1.2948e-05, 'epoch': 7.97}
+{'loss': 0.0211, 'grad_norm': 0.8860199451446533, 'learning_rate': 1.2951e-05, 'epoch': 7.97}
+{'loss': 0.0375, 'grad_norm': 1.3285048007965088, 'learning_rate': 1.2954000000000002e-05, 'epoch': 7.97}
+{'loss': 0.034, 'grad_norm': 0.5883099436759949, 'learning_rate': 1.2957e-05, 'epoch': 7.98}
+{'loss': 0.0376, 'grad_norm': 0.7883331179618835, 'learning_rate': 1.296e-05, 'epoch': 7.98}
+{'loss': 0.0627, 'grad_norm': 1.2550441026687622, 'learning_rate': 1.2963e-05, 'epoch': 7.98}
+{'loss': 0.0626, 'grad_norm': 0.7064722180366516, 'learning_rate': 1.2966e-05, 'epoch': 7.98}
+{'loss': 0.066, 'grad_norm': 0.9073736071586609, 'learning_rate': 1.2969e-05, 'epoch': 7.98}
+{'loss': 0.0372, 'grad_norm': 0.7056010961532593, 'learning_rate': 1.2972e-05, 'epoch': 7.98}
+{'loss': 0.0393, 'grad_norm': 0.6290423274040222, 'learning_rate': 1.2975e-05, 'epoch': 7.99}
+{'loss': 0.0428, 'grad_norm': 1.1520283222198486, 'learning_rate': 1.2978e-05, 'epoch': 7.99}
+{'loss': 0.0663, 'grad_norm': 0.9760458469390869, 'learning_rate': 1.2981e-05, 'epoch': 7.99}
+{'loss': 0.0335, 'grad_norm': 0.6979522109031677, 'learning_rate': 1.2984000000000001e-05, 'epoch': 7.99}
+{'loss': 0.0329, 'grad_norm': 0.6798151731491089, 'learning_rate': 1.2987000000000001e-05, 'epoch': 7.99}
+{'loss': 0.0393, 'grad_norm': 0.6956556439399719, 'learning_rate': 1.2990000000000001e-05, 'epoch': 8.0}
+{'loss': 0.0387, 'grad_norm': 0.7906112670898438, 'learning_rate': 1.2992999999999999e-05, 'epoch': 8.0}
+  4%|▍         | 4335/100000 [2:22:43<24:54:00,  1.07it/s]  4%|▍         | 4336/100000 [2:22:43<23:24:26,  1.14it/s]                                                            4%|▍         | 4336/100000 [2:22:43<23:24:26,  1.14it/s]{'loss': 0.0529, 'grad_norm': 1.0580320358276367, 'learning_rate': 1.2995999999999999e-05, 'epoch': 8.0}
+{'loss': 0.0076, 'grad_norm': 0.4188879132270813, 'learning_rate': 1.2999e-05, 'epoch': 8.0}
+  4%|▍         | 4337/100000 [2:23:02<166:27:46,  6.26s/it]                                                             4%|▍         | 4337/100000 [2:23:02<166:27:46,  6.26s/it]  4%|▍         | 4338/100000 [2:23:08<166:33:55,  6.27s/it]                                                             4%|▍         | 4338/100000 [2:23:08<166:33:55,  6.27s/it]  4%|▍         | 4339/100000 [2:23:13<155:33:19,  5.85s/it]                                                             4%|▍         | 4339/100000 [2:23:13<155:33:19,  5.85s/it]  4%|▍         | 4340/100000 [2:23:17<140:05:32,  5.27s/it]                                                             4%|▍         | 4340/100000 [2:23:17<140:05:32,  5.27s/it]  4%|▍         | 4341/100000 [2:23:21<127:31:33,  4.80s/it]                                                             4%|▍         | 4341/100000 [2:23:21<127:31:33,  4.80s/it]  4%|▍         | 4342/100000 [2:23:24<115:51:37,  4.36s/it]                                                             4%|▍         | 4342/100000 [2:23:24<115:51:37,  4.36s/it]  4%|▍         | 4343/100000 [2:23:27<105:11:05,  3.96s/it]                                                             4%|▍         | 4343/100000 [2:23:27<105:11:05,  3.96s/it]  4%|▍         | 4344/100000 [2:23:30<95:20:40,  3.59s/it]                                                             4%|▍         | 4344/100000 [2:23:30<95:20:40,  3.59s/it]  4%|▍         | 4345/100000 [2:23:33<87:49:22,  3.31s/it]                                                            4%|▍         | 4345/100000 [2:23:33<87:49:22,  3.31s/it]  4%|▍         | 4346/100000 [2:23:35<80:43:49,  3.04s/it]                                                            4%|▍         | 4346/100000 [2:23:35<80:43:49,  3.04s/it]  4%|▍         | 4347/100000 [2:23:37<74:13:29,  2.79s/it]                                                            4%|▍         | 4347/100000 [2:23:37<74:13:29,  2.79s/it]  4%|▍         | 4348/100000 [2:23:39<68:38:04,  2.58s/it]                                                            4%|▍         | 4348/100000 [2:23:39<68:38:04,  2.58s/it]  4%|▍         | 4349/100000 [2:23:41<63:52:55,  2.40s/it]                                                            4%|▍         | 4349/100000 [2:23:41<63:52:55,  2.40s/it]  4%|▍         | 4350/100000 [2:23:43<59:02:37,  2.22s/it]                                                            4%|▍         | 4350/100000 [2:23:43<59:02:37,  2.22s/it]  4%|▍         | 4351/100000 [2:23:45<55:02:09,  2.07s/it]                                                            4%|▍         | 4351/100000 [2:23:45<55:02:09,  2.07s/it]  4%|▍         | 4352/100000 [2:23:47<52:04:46,  1.96s/it]                                                            4%|▍         | 4352/100000 [2:23:47<52:04:46,  1.96s/it]  4%|▍         | 4353/100000 [2:23:48<49:29:02,  1.86s/it]                                                            4%|▍         | 4353/100000 [2:23:48<49:29:02,  1.86s/it]  4%|▍         | 4354/100000 [2:23:50<47:20:13,  1.78s/it]                                                            4%|▍         | 4354/100000 [2:23:50<47:20:13,  1.78s/it]  4%|▍         | 4355/100000 [2:23:51<45:38:45,  1.72s/it]                                                            4%|▍         | 4355/100000 [2:23:51<45:38:45,  1.72s/it]  4%|▍         | 4356/100000 [2:23:53<43:55:03,  1.65s/it]                                                            4%|▍         | 4356/100000 [2:23:53<43:55:03,  1.65s/it]  4%|▍         | 4357/100000 [2:23:54<42:06:06,  1.58s/it]                                                            4%|▍         | 4357/100000 [2:23:54<42:06:06,  1.58s/it]  4%|▍         | 4358/100000 [2:23:56<40:56:13,  1.54s/it]                                                            4%|▍         | 4358/100000 [2:23:56<40:56:13,  1.54s/it]  4%|▍         | 4359/100000 [2:23:57<39:38:44,  1.49s/it]                                                            4%|▍         | 4359/100000 [2:23:57<39:38:44,  1.49s/it]  4%|▍         | 4360/100000 [2:23:59<38:50:44,  1.46s/it]                                                            4%|▍         | 4360/100000 [2:23:59<38:50:44,  1.46s/it]  4%|▍         | 4361/100000 [2:24:00<38:12:40,  1.44s/it]                                                            4%|▍         | 4361/100000 [2:24:00<38:12:40,  1.44s/it]  4%|▍         | 4362/100000 [2:24:01<37:21:37,  1.41s/it]                                                            4%|▍         | 4362/100000 [2:24:01<37:21:37,  1.41s/it]  4%|▍         | 4363/100000 [2:24:03<36:48:05,  1.39s/it]                                                            4%|▍         | 4363/100000 [2:24:03<36:48:05,  1.39s/it]  4%|▍         | 4364/100000 [2:24:04<36:02:02,  1.36s/it]                                                            4%|▍         | 4364/100000 [2:24:04<36:02:02,  1.36s/it]  4%|▍         | 4365/100000 [2:24:05<35:35:00,  1.34s/it]                                                            4%|▍         | 4365/100000 [2:24:05<35:35:00,  1.34s/it]  4%|▍         | 4366/100000 [2:24:06<34:56:45,  1.32s/it]                                                            4%|▍         | 4366/100000 [2:24:06<34:56:45,  1.32s/it]  4%|▍         | 4367/100000 [2:24:08<34:23:44,  1.29s/it]                                                            4%|▍         | 4367/100000 [2:24:08<34:23:44,  1.29s/it]  4%|▍         | 4368/100000 [2:24:09<33:48:41,  1.27s/it]                                                            4%|▍         | 4368/100000 [2:24:09<33:48:41,  1.27s/it]  4%|▍         | 4369/100000 [2:24:10<33:29:44,  1.26s/it]                                                            4%|▍         | 4369/100000 [2:24:10<33:29:44,  1.26s/it]  4%|▍         | 4370/100000 [2:24:11<33:01:31,  1.24s/it]                                                            4%|▍         | 4370/100000 [2:24:11<33:01:31,  1.24s/it]  4%|▍         | 4371/100000 [2:24:13<32:08:06,  1.21s/it]                                                            4%|▍         | 4371/100000 [2:24:13<32:08:06,  1.21s/it]  4%|▍         | 4372/100000 [2:24:14<31:35:02,  1.19s/it]                                                            4%|▍         | 4372/100000 [2:24:14<31:35:02,  1.19s/it]  4%|▍         | 4373/100000 [2:24:15<31:18:07,  1.18s/it]                                                            4%|▍         | 4373/100000 [2:24:15<31:18:07,  1.18s/it]  4%|▍         | 4374/100000 [2:24:16<30:53:39,  1.16s/it]                                                            4%|▍         | 4374/100000 [2:24:16<30:53:39,  1.16s/it]  4%|▍         | 4375/100000 [2:24:17<30:23:09,  1.14s/it]                                                            4%|▍         | 4375/100000 [2:24:17<30:23:09,  1.14s/it]  4%|▍         | 4376/100000 [2:24:18<30:02:36,  1.13s/it]                                                            4%|▍         | 4376/100000 [2:24:18<30:02:36,  1.13s/it]  4%|▍         | 4377/100000 [2:24:19<29:39:34,  1.12s/it]                                                            4%|▍         | 4377/100000 [2:24:19<29:39:34,  1.12s/it]  4%|▍         | 4378/100000 [2:24:20<28:59:43,  1.09s/it]                                                            4%|▍         | 4378/100000 [2:24:20<28:59:43,  1.09s/it]  4%|▍         | 4379/100000 [2:24:21<28:30:05,  1.07s/it]                                                            4%|▍         | 4379/100000 [2:24:21<28:30:05,  1.07s/it]  4%|▍         | 4380/100000 [2:24:22<27:52:33,  1.05s/it]                                                            4%|▍         | 4380/100000 [2:24:22<27:52:33,  1.05s/it]  4%|▍         | 4381/100000 [2:24:23<27:41:48,  1.04s/it]                                                            4%|▍         | 4381/100000 [2:24:23<27:41:48,  1.04s/it]  4%|▍         | 4382/100000 [2:24:24<27:18:57,  1.03s/it]                                                            4%|▍         | 4382/100000 [2:24:24<27:18:57,  1.03s/it]  4%|▍         | 4383/100000 [2:24:25<26:49:47,  1.01s/it]                                                            4%|▍         | 4383/100000 [2:24:25<26:49:47,  1.01s/it]  4%|▍         | 4384/100000 [2:24:26<26:30:57,  1.00it/s]                                                            4%|▍         | 4384/100000 [2:24:26<26:30:57,  1.00it/s]  4%|▍         | 4385/100000 [2:24:27<26:07:46,  1.02it/s]                                                            4%|▍         | 4385/100000 [2:24:27<26:07:46,  1.02it/s]  4%|▍         | 4386/100000 [2:24:28<25:07:01,  1.06it/s]                                                            4%|▍         | 4386/100000 [2:24:28<25:07:01,  1.06it/s]  4%|▍         | 4387/100000 [2:24:37<91:50:32,  3.46s/it]                                                            4%|▍         | 4387/100000 [2:24:37<91:50:32,  3.46s/it]  4%|▍         | 4388/100000 [2:24:43<107:42:56,  4.06s/it]                                                             4%|▍         | 4388/100000 [2:24:43<107:42:56,  4.06s/it]  4%|▍         | 4389/100000 [2:24:48<114:12:28,  4.30s/it]                                                             4%|▍         | 4389/100000 [2:24:48<114:12:28,  4.30s/it]  4%|▍         | 4390/100000 [2:24:52<112:48:39,  4.25s/it]                                                             4%|▍         | 4390/100000 [2:24:52<112:48:39,  4.25s/it]  4%|▍         | 4391/100000 [2:24:56<108:26:05,  4.08s/it]                                                             4%|▍         | 4391/100000 [2:24:56<108:26:05,  4.08s/it]  4%|▍         | 4392/100000 [2:24:59<102:29:11,  3.86s/it]                                                             4%|▍         | 4392/100000 [2:24:59<102:29:11,  3.86s/it]  4%|▍         | 4393/100000 [2:25:02<95:18:40,  3.59s/it]                                                             4%|▍         | 4393/100000 [2:25:02<95:18:40,  3.59s/it]  4%|▍         | 4394/100000 [2:25:05<88:56:40,  3.35s/it]                                                            4%|▍         | 4394/100000 [2:25:05<88:56:40,  3.35s/it]  4%|▍         | 4395/100000 [2:25:07<83:08:56,  3.13s/it]                                                            4%|▍         | 4395/100000 [2:25:07<83:08:56,  3.13s/it]  4%|▍         | 4396/100000 [2:25:10<77:24:07,  2.91s/it]                                                            4%|▍         | 4396/100000 [2:25:10<77:24:07,  2.91s/it]  4%|▍         | 4397/100000 [2:25:12<71:22:58,  2.69s/it]                                                            4%|▍         | 4397/100000 [2:25:12<71:22:58,  2.69s/it]  4%|▍         | 4398/100000 [2:25:14<66:41:09,  2.51s/it]                                                            4%|▍         | 4398/100000 [2:25:14<66:41:09,  2.51s/it]  4%|▍         | 4399/100000 [2:25:16<62:24:46,  2.35s/it]                                                            4%|▍         | 4399/100000 [2:25:16<62:24:46,  2.35s/it]  4%|▍         | 4400/100000 [2:25:18<58:50:24,  2.22s/it]                                                            4%|▍         | 4400/100000 [2:25:18<58:50:24,  2.22s/it]  4%|▍         | 4401/100000 [2:25:19<55:02:53,  2.07s/it]                                                            4%|▍         | 4401/100000 [2:25:20<55:02:53,  2.07s/it]  4%|▍         | 4402/100000 [2:25:21<52:11:26,  1.97s/it]                                                            4%|▍         | 4402/100000 [2:25:21<52:11:26,  1.97s/it]  4%|▍         | 4403/100000 [2:25:23<49:21:52,  1.86s/it]                                                            4%|▍         | 4403/100000 [2:25:23<49:21:52,  1.86s/it]  4%|▍         | 4404/100000 [2:25:24<47:17:06,  1.78s/it]                                                            4%|▍         | 4404/100000 [2:25:24<47:17:06,  1.78s/it]  4%|▍         | 4405/100000 [2:25:26<44:43:50,  1.68s/it]                                                            4%|▍         | 4405/100000 [2:25:26<44:43:50,  1.68s/it]  4%|▍         | 4406/100000 [2:25:27<43:22:39,  1.63s/it]                                                            4%|▍         | 4406/100000 [2:25:27<43:22:39,  1.63s/it]  4%|▍         | 4407/100000 [2:25:29<41:42:13,  1.57s/it]                                                            4%|▍         | 4407/100000 [2:25:29<41:42:13,  1.57s/it]  4%|▍         | 4408/100000 [2:25:30<40:19:33,  1.52s/it]                                                            4%|▍         | 4408/100000 [2:25:30<40:19:33,  1.52s/it]  4%|▍         | 4409/100000 [2:25:32<39:19:06,  1.48s/it]                                                            4%|▍         | 4409/100000 [2:25:32<39:19:06,  1.48s/it]  4%|▍         | 4410/100000 [2:25:33<38:11:38,  1.44s/it]                                                            4%|▍         | 4410/100000 [2:25:33<38:11:38,  1.44s/it]  4%|▍         | 4411/100000 [2:25:34<37:37:54,  1.42s/it]                                                            4%|▍         | 4411/100000 [2:25:34<37:37:54,  1.42s/it]  4%|▍         | 4412/100000 [2:25:36<36:48:20,  1.39s/it]                                                            4%|▍         | 4412/100000 [2:25:36<36:48:20,  1.39s/it]  4%|▍         | 4413/100000 [2:25:37<36:10:37,  1.36s/it]                                                            4%|▍         | 4413/100000 [2:25:37<36:10:37,  1.36s/it]  4%|▍         | 4414/100000 [2:25:38<35:32:28,  1.34s/it]                                                            4%|▍         | 4414/100000 [2:25:38<35:32:28,  1.34s/it]  4%|▍         | 4415/100000 [2:25:40<35:08:40,  1.32s/it]                                                            4%|▍         | 4415/100000 [2:25:40<35:08:40,  1.32s/it]  4%|▍         | 4416/100000 [2:25:41<34:50:36,  1.31s/it]                                                            4%|▍         | 4416/100000 [2:25:41<34:50:36,  1.31s/it]  4%|▍         | 4417/100000 [2:25:42<34:18:48,  1.29s/it]                                                            4%|▍         | 4417/100000 [2:25:42<34:18:48,  1.29s/it]  4%|▍         | 4418/100000 [2:25:43<33:36:24,  1.27s/it]                                                            4%|▍         | 4418/100000 [2:25:43<33:36:24,  1.27s/it]  4%|▍         | 4419/100000 [2:25:44<33:15:31,  1.25s/it]                                                            4%|▍         | 4419/100000 [2:25:44<33:15:31,  1.25s/it]  4%|▍         | 4420/100000 [2:25:46<32:34:34,  1.23s/it]                                                            4%|▍         | 4420/100000 [2:25:46<32:34:34,  1.23s/it]  4%|▍         | 4421/100000 [2:25:47<31:59:05,  1.20s/it]                                                          {'loss': 0.3817, 'grad_norm': 1.5326043367385864, 'learning_rate': 1.3002e-05, 'epoch': 8.0}
+{'loss': 0.3305, 'grad_norm': 1.1512473821640015, 'learning_rate': 1.3005e-05, 'epoch': 8.0}
+{'loss': 0.26, 'grad_norm': 0.9963605999946594, 'learning_rate': 1.3008e-05, 'epoch': 8.01}
+{'loss': 0.1898, 'grad_norm': 0.8791415691375732, 'learning_rate': 1.3011e-05, 'epoch': 8.01}
+{'loss': 0.2692, 'grad_norm': 1.1535075902938843, 'learning_rate': 1.3014000000000001e-05, 'epoch': 8.01}
+{'loss': 0.2331, 'grad_norm': 0.983793318271637, 'learning_rate': 1.3017000000000001e-05, 'epoch': 8.01}
+{'loss': 0.183, 'grad_norm': 0.7149614095687866, 'learning_rate': 1.302e-05, 'epoch': 8.01}
+{'loss': 0.1293, 'grad_norm': 0.6314206719398499, 'learning_rate': 1.3023e-05, 'epoch': 8.01}
+{'loss': 0.136, 'grad_norm': 0.8021345734596252, 'learning_rate': 1.3026e-05, 'epoch': 8.02}
+{'loss': 0.0968, 'grad_norm': 0.5998855233192444, 'learning_rate': 1.3029e-05, 'epoch': 8.02}
+{'loss': 0.1002, 'grad_norm': 0.6993886232376099, 'learning_rate': 1.3032e-05, 'epoch': 8.02}
+{'loss': 0.1381, 'grad_norm': 0.9774983525276184, 'learning_rate': 1.3035e-05, 'epoch': 8.02}
+{'loss': 0.0921, 'grad_norm': 0.7680040001869202, 'learning_rate': 1.3038e-05, 'epoch': 8.02}
+{'loss': 0.1065, 'grad_norm': 0.9355478882789612, 'learning_rate': 1.3041e-05, 'epoch': 8.03}
+{'loss': 0.0703, 'grad_norm': 0.7027696967124939, 'learning_rate': 1.3044e-05, 'epoch': 8.03}
+{'loss': 0.1136, 'grad_norm': 1.3707549571990967, 'learning_rate': 1.3047e-05, 'epoch': 8.03}
+{'loss': 0.082, 'grad_norm': 0.7237825393676758, 'learning_rate': 1.305e-05, 'epoch': 8.03}
+{'loss': 0.054, 'grad_norm': 0.6745184659957886, 'learning_rate': 1.3053e-05, 'epoch': 8.03}
+{'loss': 0.0645, 'grad_norm': 0.8653813600540161, 'learning_rate': 1.3056e-05, 'epoch': 8.04}
+{'loss': 0.0388, 'grad_norm': 0.7573667764663696, 'learning_rate': 1.3059000000000002e-05, 'epoch': 8.04}
+{'loss': 0.0368, 'grad_norm': 0.4688849151134491, 'learning_rate': 1.3062000000000001e-05, 'epoch': 8.04}
+{'loss': 0.051, 'grad_norm': 0.8460974097251892, 'learning_rate': 1.3065000000000001e-05, 'epoch': 8.04}
+{'loss': 0.0557, 'grad_norm': 0.6380207538604736, 'learning_rate': 1.3068e-05, 'epoch': 8.04}
+{'loss': 0.022, 'grad_norm': 0.3948462903499603, 'learning_rate': 1.3070999999999999e-05, 'epoch': 8.04}
+{'loss': 0.0437, 'grad_norm': 0.6261285543441772, 'learning_rate': 1.3074e-05, 'epoch': 8.05}
+{'loss': 0.0436, 'grad_norm': 0.6887944936752319, 'learning_rate': 1.3077e-05, 'epoch': 8.05}
+{'loss': 0.0348, 'grad_norm': 0.49890008568763733, 'learning_rate': 1.308e-05, 'epoch': 8.05}
+{'loss': 0.0288, 'grad_norm': 0.5046862363815308, 'learning_rate': 1.3083e-05, 'epoch': 8.05}
+{'loss': 0.0362, 'grad_norm': 0.6013908386230469, 'learning_rate': 1.3086e-05, 'epoch': 8.05}
+{'loss': 0.0907, 'grad_norm': 1.3356207609176636, 'learning_rate': 1.3089000000000001e-05, 'epoch': 8.06}
+{'loss': 0.0265, 'grad_norm': 0.937406599521637, 'learning_rate': 1.3092000000000001e-05, 'epoch': 8.06}
+{'loss': 0.0651, 'grad_norm': 0.48784348368644714, 'learning_rate': 1.3095e-05, 'epoch': 8.06}
+{'loss': 0.0523, 'grad_norm': 0.6230420470237732, 'learning_rate': 1.3098e-05, 'epoch': 8.06}
+{'loss': 0.023, 'grad_norm': 0.4827072024345398, 'learning_rate': 1.3101e-05, 'epoch': 8.06}
+{'loss': 0.0281, 'grad_norm': 0.40178000926971436, 'learning_rate': 1.3104e-05, 'epoch': 8.06}
+{'loss': 0.0431, 'grad_norm': 0.5730307102203369, 'learning_rate': 1.3107e-05, 'epoch': 8.07}
+{'loss': 0.0207, 'grad_norm': 0.5679459571838379, 'learning_rate': 1.311e-05, 'epoch': 8.07}
+{'loss': 0.0386, 'grad_norm': 0.4760940372943878, 'learning_rate': 1.3113e-05, 'epoch': 8.07}
+{'loss': 0.0333, 'grad_norm': 0.8767454028129578, 'learning_rate': 1.3116e-05, 'epoch': 8.07}
+{'loss': 0.0701, 'grad_norm': 1.0410170555114746, 'learning_rate': 1.3119000000000001e-05, 'epoch': 8.07}
+{'loss': 0.0537, 'grad_norm': 0.7946456670761108, 'learning_rate': 1.3122e-05, 'epoch': 8.08}
+{'loss': 0.0382, 'grad_norm': 0.7042535543441772, 'learning_rate': 1.3125e-05, 'epoch': 8.08}
+{'loss': 0.0422, 'grad_norm': 0.6931938529014587, 'learning_rate': 1.3128e-05, 'epoch': 8.08}
+{'loss': 0.0203, 'grad_norm': 0.4324564039707184, 'learning_rate': 1.3131e-05, 'epoch': 8.08}
+{'loss': 0.0372, 'grad_norm': 0.7083581686019897, 'learning_rate': 1.3134000000000002e-05, 'epoch': 8.08}
+{'loss': 0.0263, 'grad_norm': 0.7215295433998108, 'learning_rate': 1.3137000000000001e-05, 'epoch': 8.08}
+{'loss': 0.0205, 'grad_norm': 0.36402127146720886, 'learning_rate': 1.314e-05, 'epoch': 8.09}
+{'loss': 0.0366, 'grad_norm': 0.4735167920589447, 'learning_rate': 1.3143e-05, 'epoch': 8.09}
+{'loss': 0.0374, 'grad_norm': 0.7522518038749695, 'learning_rate': 1.3146e-05, 'epoch': 8.09}
+{'loss': 0.0495, 'grad_norm': 2.186006784439087, 'learning_rate': 1.3149e-05, 'epoch': 8.09}
+{'loss': 0.284, 'grad_norm': 1.0902612209320068, 'learning_rate': 1.3152e-05, 'epoch': 8.09}
+{'loss': 0.2475, 'grad_norm': 0.8116087913513184, 'learning_rate': 1.3155e-05, 'epoch': 8.1}
+{'loss': 0.2024, 'grad_norm': 0.6619287133216858, 'learning_rate': 1.3158e-05, 'epoch': 8.1}
+{'loss': 0.1673, 'grad_norm': 0.7266683578491211, 'learning_rate': 1.3161e-05, 'epoch': 8.1}
+{'loss': 0.161, 'grad_norm': 1.3175115585327148, 'learning_rate': 1.3164000000000001e-05, 'epoch': 8.1}
+{'loss': 0.2241, 'grad_norm': 1.0672887563705444, 'learning_rate': 1.3167000000000001e-05, 'epoch': 8.1}
+{'loss': 0.1349, 'grad_norm': 0.9696524143218994, 'learning_rate': 1.3170000000000001e-05, 'epoch': 8.11}
+{'loss': 0.1617, 'grad_norm': 0.6774873733520508, 'learning_rate': 1.3173e-05, 'epoch': 8.11}
+{'loss': 0.2438, 'grad_norm': 1.2551002502441406, 'learning_rate': 1.3175999999999999e-05, 'epoch': 8.11}
+{'loss': 0.136, 'grad_norm': 0.8130558133125305, 'learning_rate': 1.3179e-05, 'epoch': 8.11}
+{'loss': 0.1235, 'grad_norm': 0.7603598833084106, 'learning_rate': 1.3182e-05, 'epoch': 8.11}
+{'loss': 0.1325, 'grad_norm': 0.7122944593429565, 'learning_rate': 1.3185e-05, 'epoch': 8.11}
+{'loss': 0.1338, 'grad_norm': 0.7684652805328369, 'learning_rate': 1.3188e-05, 'epoch': 8.12}
+{'loss': 0.1212, 'grad_norm': 0.7754552960395813, 'learning_rate': 1.3191e-05, 'epoch': 8.12}
+{'loss': 0.0441, 'grad_norm': 0.6043549180030823, 'learning_rate': 1.3194000000000001e-05, 'epoch': 8.12}
+{'loss': 0.0658, 'grad_norm': 0.5200878977775574, 'learning_rate': 1.3197000000000001e-05, 'epoch': 8.12}
+{'loss': 0.0747, 'grad_norm': 0.8166391253471375, 'learning_rate': 1.32e-05, 'epoch': 8.12}
+{'loss': 0.0467, 'grad_norm': 0.5633155107498169, 'learning_rate': 1.3203e-05, 'epoch': 8.13}
+{'loss': 0.0333, 'grad_norm': 0.66031813621521, 'learning_rate': 1.3206e-05, 'epoch': 8.13}
+{'loss': 0.0641, 'grad_norm': 1.0485261678695679, 'learning_rate': 1.3209000000000002e-05, 'epoch': 8.13}
+{'loss': 0.0357, 'grad_norm': 1.0621566772460938, 'learning_rate': 1.3212000000000002e-05, 'epoch': 8.13}
+{'loss': 0.0408, 'grad_norm': 0.6026491522789001, 'learning_rate': 1.3215e-05, 'epoch': 8.13}
+{'loss': 0.0391, 'grad_norm': 0.8135718703269958, 'learning_rate': 1.3218e-05, 'epoch': 8.13}
+{'loss': 0.0317, 'grad_norm': 0.5995201468467712, 'learning_rate': 1.3221e-05, 'epoch': 8.14}
+{'loss': 0.0354, 'grad_norm': 0.5987685322761536, 'learning_rate': 1.3224e-05, 'epoch': 8.14}
+{'loss': 0.0334, 'grad_norm': 0.5825679302215576, 'learning_rate': 1.3227e-05, 'epoch': 8.14}
+{'loss': 0.0384, 'grad_norm': 0.8200697898864746, 'learning_rate': 1.323e-05, 'epoch': 8.14}
+{'loss': 0.0259, 'grad_norm': 0.46164023876190186, 'learning_rate': 1.3233e-05, 'epoch': 8.14}
+{'loss': 0.0422, 'grad_norm': 0.7400566935539246, 'learning_rate': 1.3236e-05, 'epoch': 8.15}
+{'loss': 0.0329, 'grad_norm': 0.600922703742981, 'learning_rate': 1.3239000000000001e-05, 'epoch': 8.15}
+{'loss': 0.0308, 'grad_norm': 0.5295440554618835, 'learning_rate': 1.3242000000000001e-05, 'epoch': 8.15}
+{'loss': 0.0493, 'grad_norm': 0.8074960112571716, 'learning_rate': 1.3245000000000001e-05, 'epoch': 8.15}
+{'loss': 0.0399, 'grad_norm': 0.8136438131332397, 'learning_rate': 1.3248000000000001e-05, 'epoch': 8.15}
+{'loss': 0.031, 'grad_norm': 0.4094987213611603, 'learning_rate': 1.3250999999999999e-05, 'epoch': 8.16}
+  4%|▍         | 4421/100000 [2:25:47<31:59:05,  1.20s/it]  4%|▍         | 4422/100000 [2:25:48<31:35:22,  1.19s/it]                                                            4%|▍         | 4422/100000 [2:25:48<31:35:22,  1.19s/it]  4%|▍         | 4423/100000 [2:25:49<31:06:18,  1.17s/it]                                                            4%|▍         | 4423/100000 [2:25:49<31:06:18,  1.17s/it]  4%|▍         | 4424/100000 [2:25:50<30:37:53,  1.15s/it]                                                            4%|▍         | 4424/100000 [2:25:50<30:37:53,  1.15s/it]  4%|▍         | 4425/100000 [2:25:51<30:00:01,  1.13s/it]                                                            4%|▍         | 4425/100000 [2:25:51<30:00:01,  1.13s/it]  4%|▍         | 4426/100000 [2:25:52<29:27:57,  1.11s/it]                                                            4%|▍         | 4426/100000 [2:25:52<29:27:57,  1.11s/it]  4%|▍         | 4427/100000 [2:25:53<29:02:05,  1.09s/it]                                                            4%|▍         | 4427/100000 [2:25:53<29:02:05,  1.09s/it]  4%|▍         | 4428/100000 [2:25:54<28:47:21,  1.08s/it]                                                            4%|▍         | 4428/100000 [2:25:54<28:47:21,  1.08s/it]  4%|▍         | 4429/100000 [2:25:55<28:20:43,  1.07s/it]                                                            4%|▍         | 4429/100000 [2:25:55<28:20:43,  1.07s/it]  4%|▍         | 4430/100000 [2:25:56<27:45:36,  1.05s/it]                                                            4%|▍         | 4430/100000 [2:25:56<27:45:36,  1.05s/it]  4%|▍         | 4431/100000 [2:25:57<27:11:45,  1.02s/it]                                                            4%|▍         | 4431/100000 [2:25:57<27:11:45,  1.02s/it]  4%|▍         | 4432/100000 [2:25:58<26:47:56,  1.01s/it]                                                            4%|▍         | 4432/100000 [2:25:58<26:47:56,  1.01s/it]  4%|▍         | 4433/100000 [2:25:59<26:07:12,  1.02it/s]                                                            4%|▍         | 4433/100000 [2:25:59<26:07:12,  1.02it/s]  4%|▍         | 4434/100000 [2:26:00<25:26:04,  1.04it/s]                                                            4%|▍         | 4434/100000 [2:26:00<25:26:04,  1.04it/s]  4%|▍         | 4435/100000 [2:26:01<24:51:40,  1.07it/s]                                                            4%|▍         | 4435/100000 [2:26:01<24:51:40,  1.07it/s]  4%|▍         | 4436/100000 [2:26:02<24:14:49,  1.09it/s]                                                            4%|▍         | 4436/100000 [2:26:02<24:14:49,  1.09it/s]  4%|▍         | 4437/100000 [2:26:13<105:19:58,  3.97s/it]                                                             4%|▍         | 4437/100000 [2:26:13<105:19:58,  3.97s/it]  4%|▍         | 4438/100000 [2:26:18<115:42:51,  4.36s/it]                                                             4%|▍         | 4438/100000 [2:26:18<115:42:51,  4.36s/it]  4%|▍         | 4439/100000 [2:26:23<117:07:26,  4.41s/it]                                                             4%|▍         | 4439/100000 [2:26:23<117:07:26,  4.41s/it]  4%|▍         | 4440/100000 [2:26:27<112:51:21,  4.25s/it]                                                             4%|▍         | 4440/100000 [2:26:27<112:51:21,  4.25s/it]  4%|▍         | 4441/100000 [2:26:30<104:02:13,  3.92s/it]                                                             4%|▍         | 4441/100000 [2:26:30<104:02:13,  3.92s/it]  4%|▍         | 4442/100000 [2:26:33<97:46:39,  3.68s/it]                                                             4%|▍         | 4442/100000 [2:26:33<97:46:39,  3.68s/it]  4%|▍         | 4443/100000 [2:26:36<91:12:15,  3.44s/it]                                                            4%|▍         | 4443/100000 [2:26:36<91:12:15,  3.44s/it]  4%|▍         | 4444/100000 [2:26:39<85:52:32,  3.24s/it]                                                            4%|▍         | 4444/100000 [2:26:39<85:52:32,  3.24s/it]  4%|▍         | 4445/100000 [2:26:41<79:34:41,  3.00s/it]                                                            4%|▍         | 4445/100000 [2:26:41<79:34:41,  3.00s/it]  4%|▍         | 4446/100000 [2:26:43<74:38:41,  2.81s/it]                                                            4%|▍         | 4446/100000 [2:26:43<74:38:41,  2.81s/it]  4%|▍         | 4447/100000 [2:26:46<69:51:46,  2.63s/it]                                                            4%|▍         | 4447/100000 [2:26:46<69:51:46,  2.63s/it]  4%|▍         | 4448/100000 [2:26:48<65:04:14,  2.45s/it]                                                            4%|▍         | 4448/100000 [2:26:48<65:04:14,  2.45s/it]  4%|▍         | 4449/100000 [2:26:50<60:58:30,  2.30s/it]                                                            4%|▍         | 4449/100000 [2:26:50<60:58:30,  2.30s/it]  4%|▍         | 4450/100000 [2:26:52<57:21:38,  2.16s/it]                                                            4%|▍         | 4450/100000 [2:26:52<57:21:38,  2.16s/it]  4%|▍         | 4451/100000 [2:26:53<54:15:43,  2.04s/it]                                                            4%|▍         | 4451/100000 [2:26:53<54:15:43,  2.04s/it]  4%|▍         | 4452/100000 [2:26:55<51:06:20,  1.93s/it]                                                            4%|▍         | 4452/100000 [2:26:55<51:06:20,  1.93s/it]  4%|▍         | 4453/100000 [2:26:57<48:55:10,  1.84s/it]                                                            4%|▍         | 4453/100000 [2:26:57<48:55:10,  1.84s/it]  4%|▍         | 4454/100000 [2:26:58<47:03:44,  1.77s/it]                                                            4%|▍         | 4454/100000 [2:26:58<47:03:44,  1.77s/it]  4%|▍         | 4455/100000 [2:27:00<45:17:57,  1.71s/it]                                                            4%|▍         | 4455/100000 [2:27:00<45:17:57,  1.71s/it]  4%|▍         | 4456/100000 [2:27:01<43:28:44,  1.64s/it]                                                            4%|▍         | 4456/100000 [2:27:01<43:28:44,  1.64s/it]  4%|▍         | 4457/100000 [2:27:03<42:06:53,  1.59s/it]                                                            4%|▍         | 4457/100000 [2:27:03<42:06:53,  1.59s/it]  4%|▍         | 4458/100000 [2:27:04<41:01:08,  1.55s/it]                                                            4%|▍         | 4458/100000 [2:27:04<41:01:08,  1.55s/it]  4%|▍         | 4459/100000 [2:27:06<39:48:58,  1.50s/it]                                                            4%|▍         | 4459/100000 [2:27:06<39:48:58,  1.50s/it]  4%|▍         | 4460/100000 [2:27:07<39:09:07,  1.48s/it]                                                            4%|▍         | 4460/100000 [2:27:07<39:09:07,  1.48s/it]  4%|▍         | 4461/100000 [2:27:08<38:13:42,  1.44s/it]                                                            4%|▍         | 4461/100000 [2:27:08<38:13:42,  1.44s/it]  4%|▍         | 4462/100000 [2:27:10<37:30:26,  1.41s/it]                                                            4%|▍         | 4462/100000 [2:27:10<37:30:26,  1.41s/it]  4%|▍         | 4463/100000 [2:27:11<36:54:25,  1.39s/it]                                                            4%|▍         | 4463/100000 [2:27:11<36:54:25,  1.39s/it]  4%|▍         | 4464/100000 [2:27:12<36:11:21,  1.36s/it]                                                            4%|▍         | 4464/100000 [2:27:12<36:11:21,  1.36s/it]  4%|▍         | 4465/100000 [2:27:14<35:43:34,  1.35s/it]                                                            4%|▍         | 4465/100000 [2:27:14<35:43:34,  1.35s/it]  4%|▍         | 4466/100000 [2:27:15<35:11:59,  1.33s/it]                                                            4%|▍         | 4466/100000 [2:27:15<35:11:59,  1.33s/it]  4%|▍         | 4467/100000 [2:27:16<34:37:29,  1.30s/it]                                                            4%|▍         | 4467/100000 [2:27:16<34:37:29,  1.30s/it]  4%|▍         | 4468/100000 [2:27:17<33:56:22,  1.28s/it]                                                            4%|▍         | 4468/100000 [2:27:17<33:56:22,  1.28s/it]  4%|▍         | 4469/100000 [2:27:19<33:35:27,  1.27s/it]                                                            4%|▍         | 4469/100000 [2:27:19<33:35:27,  1.27s/it]  4%|▍         | 4470/100000 [2:27:20<33:02:51,  1.25s/it]                                                            4%|▍         | 4470/100000 [2:27:20<33:02:51,  1.25s/it]  4%|▍         | 4471/100000 [2:27:21<32:17:02,  1.22s/it]                                                            4%|▍         | 4471/100000 [2:27:21<32:17:02,  1.22s/it]  4%|▍         | 4472/100000 [2:27:22<31:43:45,  1.20s/it]                                                            4%|▍         | 4472/100000 [2:27:22<31:43:45,  1.20s/it]  4%|▍         | 4473/100000 [2:27:23<31:23:20,  1.18s/it]                                                            4%|▍         | 4473/100000 [2:27:23<31:23:20,  1.18s/it]  4%|▍         | 4474/100000 [2:27:24<30:59:06,  1.17s/it]                                                            4%|▍         | 4474/100000 [2:27:24<30:59:06,  1.17s/it]  4%|▍         | 4475/100000 [2:27:25<30:06:31,  1.13s/it]                                                            4%|▍         | 4475/100000 [2:27:25<30:06:31,  1.13s/it]  4%|▍         | 4476/100000 [2:27:26<29:36:40,  1.12s/it]                                                            4%|▍         | 4476/100000 [2:27:27<29:36:40,  1.12s/it]  4%|▍         | 4477/100000 [2:27:28<29:05:27,  1.10s/it]                                                            4%|▍         | 4477/100000 [2:27:28<29:05:27,  1.10s/it]  4%|▍         | 4478/100000 [2:27:29<28:54:28,  1.09s/it]                                                            4%|▍         | 4478/100000 [2:27:29<28:54:28,  1.09s/it]  4%|▍         | 4479/100000 [2:27:30<28:09:48,  1.06s/it]                                                            4%|▍         | 4479/100000 [2:27:30<28:09:48,  1.06s/it]  4%|▍         | 4480/100000 [2:27:31<28:04:48,  1.06s/it]                                                            4%|▍         | 4480/100000 [2:27:31<28:04:48,  1.06s/it]  4%|▍         | 4481/100000 [2:27:32<27:45:23,  1.05s/it]                                                            4%|▍         | 4481/100000 [2:27:32<27:45:23,  1.05s/it]  4%|▍         | 4482/100000 [2:27:33<27:14:59,  1.03s/it]                                                            4%|▍         | 4482/100000 [2:27:33<27:14:59,  1.03s/it]  4%|▍         | 4483/100000 [2:27:34<26:26:18,  1.00it/s]                                                            4%|▍         | 4483/100000 [2:27:34<26:26:18,  1.00it/s]  4%|▍         | 4484/100000 [2:27:35<25:54:29,  1.02it/s]                                                            4%|▍         | 4484/100000 [2:27:35<25:54:29,  1.02it/s]  4%|▍         | 4485/100000 [2:27:35<24:59:43,  1.06it/s]                                                            4%|▍         | 4485/100000 [2:27:35<24:59:43,  1.06it/s]  4%|▍         | 4486/100000 [2:27:36<24:09:21,  1.10it/s]                                                            4%|▍         | 4486/100000 [2:27:36<24:09:21,  1.10it/s]  4%|▍         | 4487/100000 [2:27:47<102:11:42,  3.85s/it]                                                             4%|▍         | 4487/100000 [2:27:47<102:11:42,  3.85s/it]  4%|▍         | 4488/100000 [2:27:52<114:32:22,  4.32s/it]                                                             4%|▍         | 4488/100000 [2:27:52<114:32:22,  4.32s/it]  4%|▍         | 4489/100000 [2:27:57<116:52:39,  4.41s/it]                                                             4%|▍         | 4489/100000 [2:27:57<116:52:39,  4.41s/it]  4%|▍         | 4490/100000 [2:28:01<112:04:51,  4.22s/it]                                                             4%|▍         | 4490/100000 [2:28:01<112:04:51,  4.22s/it]  4%|▍         | 4491/100000 [2:28:04<105:50:50,  3.99s/it]                                                             4%|▍         | 4491/100000 [2:28:04<105:50:50,  3.99s/it]  4%|▍         | 4492/100000 [2:28:07<100:05:25,  3.77s/it]                                                             4%|▍         | 4492/100000 [2:28:07<100:05:25,  3.77s/it]  4%|▍         | 4493/100000 [2:28:10<92:45:12,  3.50s/it]                                                             4%|▍         | 4493/100000 [2:28:10<92:45:12,  3.50s/it]  4%|▍         | 4494/100000 [2:28:13<86:14:24,  3.25s/it]                                                            4%|▍         | 4494/100000 [2:28:13<86:14:24,  3.25s/it]  4%|▍         | 4495/100000 [2:28:15<79:52:43,  3.01s/it]                                                            4%|▍         | 4495/100000 [2:28:15<79:52:43,  3.01s/it]  4%|▍         | 4496/100000 [2:28:18<74:09:57,  2.80s/it]                                                            4%|▍         | 4496/100000 [2:28:18<74:09:57,  2.80s/it]  4%|▍         | 4497/100000 [2:28:20<68:58:20,  2.60s/it]                                                            4%|▍         | 4497/100000 [2:28:20<68:58:20,  2.60s/it]  4%|▍         | 4498/100000 [2:28:22<64:12:50,  2.42s/it]                                                            4%|▍         | 4498/100000 [2:28:22<64:12:50,  2.42s/it]  4%|▍         | 4499/100000 [2:28:24<60:09:44,  2.27s/it]                                                            4%|▍         | 4499/100000 [2:28:24<60:09:44,  2.27s/it]  4%|▍         | 4500/100000 [2:28:26<56:17:28,  2.12s/it]                                                            4%|▍         | 4500/100000 [2:28:26<56:17:28,  2.12s/it]  5%|▍         | 4501/100000 [2:28:27<53:13:49,  2.01s/it]                                                            5%|▍         | 4501/100000 [2:28:27<53:13:49,  2.01s/it]  5%|▍         | 4502/100000 [2:28:29<50:00:39,  1.89s/it]                                                            5%|▍         | 4502/100000 [2:28:29<50:00:39,  1.89s/it]  5%|▍         | 4503/100000 [2:28:30<47:34:45,  1.79s/it]                                                            5%|▍         | 4503/100000 [2:28:31<47:34:45,  1.79s/it]  5%|▍         | 4504/100000 [2:28:32<45:56:42,  1.73s/it]                                                            5%|▍         | 4504/100000 [2:28:32<45:56:42,  1.73s/it]  5%|▍         | 4505/100000 [2:28:34<44:55:37,  1.69s/it]                                                          {'loss': 0.0375, 'grad_norm': 0.5699203014373779, 'learning_rate': 1.3254e-05, 'epoch': 8.16}
+{'loss': 0.0254, 'grad_norm': 2.046877861022949, 'learning_rate': 1.3257e-05, 'epoch': 8.16}
+{'loss': 0.0315, 'grad_norm': 0.6146877408027649, 'learning_rate': 1.326e-05, 'epoch': 8.16}
+{'loss': 0.0254, 'grad_norm': 0.7275285124778748, 'learning_rate': 1.3263e-05, 'epoch': 8.16}
+{'loss': 0.0245, 'grad_norm': 0.54784095287323, 'learning_rate': 1.3266e-05, 'epoch': 8.16}
+{'loss': 0.0336, 'grad_norm': 0.7300387024879456, 'learning_rate': 1.3269000000000001e-05, 'epoch': 8.17}
+{'loss': 0.0493, 'grad_norm': 0.9745352864265442, 'learning_rate': 1.3272000000000001e-05, 'epoch': 8.17}
+{'loss': 0.0445, 'grad_norm': 1.2098708152770996, 'learning_rate': 1.3275e-05, 'epoch': 8.17}
+{'loss': 0.0188, 'grad_norm': 0.39160364866256714, 'learning_rate': 1.3278e-05, 'epoch': 8.17}
+{'loss': 0.0272, 'grad_norm': 0.7158820033073425, 'learning_rate': 1.3281e-05, 'epoch': 8.17}
+{'loss': 0.0292, 'grad_norm': 0.6653376817703247, 'learning_rate': 1.3284000000000002e-05, 'epoch': 8.18}
+{'loss': 0.0275, 'grad_norm': 0.5458754301071167, 'learning_rate': 1.3287e-05, 'epoch': 8.18}
+{'loss': 0.0475, 'grad_norm': 1.1866546869277954, 'learning_rate': 1.329e-05, 'epoch': 8.18}
+{'loss': 0.0426, 'grad_norm': 0.9386422634124756, 'learning_rate': 1.3293e-05, 'epoch': 8.18}
+{'loss': 0.0386, 'grad_norm': 1.0976414680480957, 'learning_rate': 1.3296e-05, 'epoch': 8.18}
+{'loss': 0.0349, 'grad_norm': 0.8207219243049622, 'learning_rate': 1.3299000000000001e-05, 'epoch': 8.18}
+{'loss': 0.3254, 'grad_norm': 1.59428870677948, 'learning_rate': 1.3302e-05, 'epoch': 8.19}
+{'loss': 0.2136, 'grad_norm': 1.0320184230804443, 'learning_rate': 1.3305e-05, 'epoch': 8.19}
+{'loss': 0.1964, 'grad_norm': 0.8654654622077942, 'learning_rate': 1.3308e-05, 'epoch': 8.19}
+{'loss': 0.2189, 'grad_norm': 0.7566434741020203, 'learning_rate': 1.3311e-05, 'epoch': 8.19}
+{'loss': 0.269, 'grad_norm': 0.9181260466575623, 'learning_rate': 1.3314e-05, 'epoch': 8.19}
+{'loss': 0.1816, 'grad_norm': 0.7232855558395386, 'learning_rate': 1.3317000000000001e-05, 'epoch': 8.2}
+{'loss': 0.1963, 'grad_norm': 0.8786792159080505, 'learning_rate': 1.3320000000000001e-05, 'epoch': 8.2}
+{'loss': 0.1538, 'grad_norm': 0.8025330901145935, 'learning_rate': 1.3323000000000001e-05, 'epoch': 8.2}
+{'loss': 0.1918, 'grad_norm': 1.081365704536438, 'learning_rate': 1.3325999999999999e-05, 'epoch': 8.2}
+{'loss': 0.0882, 'grad_norm': 0.6874704360961914, 'learning_rate': 1.3328999999999999e-05, 'epoch': 8.2}
+{'loss': 0.1124, 'grad_norm': 0.6587651968002319, 'learning_rate': 1.3332e-05, 'epoch': 8.2}
+{'loss': 0.1039, 'grad_norm': 0.6518075466156006, 'learning_rate': 1.3335e-05, 'epoch': 8.21}
+{'loss': 0.1805, 'grad_norm': 0.8533167243003845, 'learning_rate': 1.3338e-05, 'epoch': 8.21}
+{'loss': 0.0368, 'grad_norm': 0.5440764427185059, 'learning_rate': 1.3341e-05, 'epoch': 8.21}
+{'loss': 0.1022, 'grad_norm': 0.7944900393486023, 'learning_rate': 1.3344e-05, 'epoch': 8.21}
+{'loss': 0.0471, 'grad_norm': 0.55717933177948, 'learning_rate': 1.3347000000000001e-05, 'epoch': 8.21}
+{'loss': 0.0747, 'grad_norm': 0.6322590112686157, 'learning_rate': 1.3350000000000001e-05, 'epoch': 8.22}
+{'loss': 0.0504, 'grad_norm': 0.7431051135063171, 'learning_rate': 1.3353e-05, 'epoch': 8.22}
+{'loss': 0.0277, 'grad_norm': 0.4595365524291992, 'learning_rate': 1.3356e-05, 'epoch': 8.22}
+{'loss': 0.0631, 'grad_norm': 0.5381754040718079, 'learning_rate': 1.3359e-05, 'epoch': 8.22}
+{'loss': 0.0244, 'grad_norm': 0.5509288311004639, 'learning_rate': 1.3362e-05, 'epoch': 8.22}
+{'loss': 0.0437, 'grad_norm': 0.733174204826355, 'learning_rate': 1.3365e-05, 'epoch': 8.23}
+{'loss': 0.0451, 'grad_norm': 0.7149167656898499, 'learning_rate': 1.3368e-05, 'epoch': 8.23}
+{'loss': 0.0375, 'grad_norm': 0.6295753121376038, 'learning_rate': 1.3371e-05, 'epoch': 8.23}
+{'loss': 0.0344, 'grad_norm': 0.4743589460849762, 'learning_rate': 1.3374e-05, 'epoch': 8.23}
+{'loss': 0.0464, 'grad_norm': 0.7781702280044556, 'learning_rate': 1.3377e-05, 'epoch': 8.23}
+{'loss': 0.0272, 'grad_norm': 0.48906221985816956, 'learning_rate': 1.338e-05, 'epoch': 8.23}
+{'loss': 0.0324, 'grad_norm': 0.4372539818286896, 'learning_rate': 1.3383e-05, 'epoch': 8.24}
+{'loss': 0.0229, 'grad_norm': 0.47455981373786926, 'learning_rate': 1.3386e-05, 'epoch': 8.24}
+{'loss': 0.0272, 'grad_norm': 0.5755661725997925, 'learning_rate': 1.3389e-05, 'epoch': 8.24}
+{'loss': 0.0295, 'grad_norm': 0.5248891115188599, 'learning_rate': 1.3392000000000002e-05, 'epoch': 8.24}
+{'loss': 0.0272, 'grad_norm': 0.47399458289146423, 'learning_rate': 1.3395000000000001e-05, 'epoch': 8.24}
+{'loss': 0.0317, 'grad_norm': 0.6420528292655945, 'learning_rate': 1.3398e-05, 'epoch': 8.25}
+{'loss': 0.028, 'grad_norm': 0.5973543524742126, 'learning_rate': 1.3401e-05, 'epoch': 8.25}
+{'loss': 0.04, 'grad_norm': 2.3570241928100586, 'learning_rate': 1.3403999999999999e-05, 'epoch': 8.25}
+{'loss': 0.0303, 'grad_norm': 1.1083556413650513, 'learning_rate': 1.3407e-05, 'epoch': 8.25}
+{'loss': 0.0331, 'grad_norm': 1.0114208459854126, 'learning_rate': 1.341e-05, 'epoch': 8.25}
+{'loss': 0.0149, 'grad_norm': 0.3611949682235718, 'learning_rate': 1.3413e-05, 'epoch': 8.25}
+{'loss': 0.044, 'grad_norm': 0.7732037901878357, 'learning_rate': 1.3416e-05, 'epoch': 8.26}
+{'loss': 0.0373, 'grad_norm': 0.5984740257263184, 'learning_rate': 1.3419e-05, 'epoch': 8.26}
+{'loss': 0.0363, 'grad_norm': 0.6929849982261658, 'learning_rate': 1.3422000000000001e-05, 'epoch': 8.26}
+{'loss': 0.0339, 'grad_norm': 0.8012136816978455, 'learning_rate': 1.3425000000000001e-05, 'epoch': 8.26}
+{'loss': 0.0359, 'grad_norm': 1.2871159315109253, 'learning_rate': 1.3428000000000001e-05, 'epoch': 8.26}
+{'loss': 0.0367, 'grad_norm': 0.7725412845611572, 'learning_rate': 1.3431e-05, 'epoch': 8.27}
+{'loss': 0.0357, 'grad_norm': 0.8588116765022278, 'learning_rate': 1.3433999999999999e-05, 'epoch': 8.27}
+{'loss': 0.0265, 'grad_norm': 0.3712838888168335, 'learning_rate': 1.3437e-05, 'epoch': 8.27}
+{'loss': 0.0434, 'grad_norm': 0.7679174542427063, 'learning_rate': 1.344e-05, 'epoch': 8.27}
+{'loss': 0.0313, 'grad_norm': 0.5691342949867249, 'learning_rate': 1.3443e-05, 'epoch': 8.27}
+{'loss': 0.0326, 'grad_norm': 0.9302529692649841, 'learning_rate': 1.3446e-05, 'epoch': 8.28}
+{'loss': 0.0753, 'grad_norm': 0.6226106286048889, 'learning_rate': 1.3449e-05, 'epoch': 8.28}
+{'loss': 0.3242, 'grad_norm': 1.1870638132095337, 'learning_rate': 1.3452000000000001e-05, 'epoch': 8.28}
+{'loss': 0.3255, 'grad_norm': 1.0860295295715332, 'learning_rate': 1.3455e-05, 'epoch': 8.28}
+{'loss': 0.2718, 'grad_norm': 1.1221368312835693, 'learning_rate': 1.3458e-05, 'epoch': 8.28}
+{'loss': 0.1995, 'grad_norm': 0.7170649170875549, 'learning_rate': 1.3461e-05, 'epoch': 8.28}
+{'loss': 0.2252, 'grad_norm': 0.837647020816803, 'learning_rate': 1.3464e-05, 'epoch': 8.29}
+{'loss': 0.1505, 'grad_norm': 0.7650190591812134, 'learning_rate': 1.3467000000000002e-05, 'epoch': 8.29}
+{'loss': 0.1871, 'grad_norm': 1.1400846242904663, 'learning_rate': 1.3470000000000001e-05, 'epoch': 8.29}
+{'loss': 0.1292, 'grad_norm': 0.7779901623725891, 'learning_rate': 1.3473e-05, 'epoch': 8.29}
+{'loss': 0.1429, 'grad_norm': 0.8995106220245361, 'learning_rate': 1.3476e-05, 'epoch': 8.29}
+{'loss': 0.092, 'grad_norm': 1.1236376762390137, 'learning_rate': 1.3479e-05, 'epoch': 8.3}
+{'loss': 0.1395, 'grad_norm': 1.010858178138733, 'learning_rate': 1.3482e-05, 'epoch': 8.3}
+{'loss': 0.0927, 'grad_norm': 0.7352631092071533, 'learning_rate': 1.3485e-05, 'epoch': 8.3}
+{'loss': 0.0438, 'grad_norm': 0.6601068377494812, 'learning_rate': 1.3488e-05, 'epoch': 8.3}
+{'loss': 0.0904, 'grad_norm': 0.5581169724464417, 'learning_rate': 1.3491e-05, 'epoch': 8.3}
+{'loss': 0.0447, 'grad_norm': 0.9757201671600342, 'learning_rate': 1.3494e-05, 'epoch': 8.3}
+{'loss': 0.0359, 'grad_norm': 0.38367536664009094, 'learning_rate': 1.3497000000000001e-05, 'epoch': 8.31}
+{'loss': 0.0398, 'grad_norm': 0.3730805516242981, 'learning_rate': 1.3500000000000001e-05, 'epoch': 8.31}
+{'loss': 0.0255, 'grad_norm': 0.6186391115188599, 'learning_rate': 1.3503000000000001e-05, 'epoch': 8.31}
+  5%|▍         | 4505/100000 [2:28:34<44:55:37,  1.69s/it]  5%|▍         | 4506/100000 [2:28:35<43:07:16,  1.63s/it]                                                            5%|▍         | 4506/100000 [2:28:35<43:07:16,  1.63s/it]  5%|▍         | 4507/100000 [2:28:37<41:27:43,  1.56s/it]                                                            5%|▍         | 4507/100000 [2:28:37<41:27:43,  1.56s/it]  5%|▍         | 4508/100000 [2:28:38<40:08:14,  1.51s/it]                                                            5%|▍         | 4508/100000 [2:28:38<40:08:14,  1.51s/it]  5%|▍         | 4509/100000 [2:28:39<39:17:00,  1.48s/it]                                                            5%|▍         | 4509/100000 [2:28:39<39:17:00,  1.48s/it]  5%|▍         | 4510/100000 [2:28:41<38:11:48,  1.44s/it]                                                            5%|▍         | 4510/100000 [2:28:41<38:11:48,  1.44s/it]  5%|▍         | 4511/100000 [2:28:42<37:35:27,  1.42s/it]                                                            5%|▍         | 4511/100000 [2:28:42<37:35:27,  1.42s/it]  5%|▍         | 4512/100000 [2:28:43<37:00:16,  1.40s/it]                                                            5%|▍         | 4512/100000 [2:28:43<37:00:16,  1.40s/it]  5%|▍         | 4513/100000 [2:28:45<35:55:51,  1.35s/it]                                                            5%|▍         | 4513/100000 [2:28:45<35:55:51,  1.35s/it]  5%|▍         | 4514/100000 [2:28:46<35:19:00,  1.33s/it]                                                            5%|▍         | 4514/100000 [2:28:46<35:19:00,  1.33s/it]  5%|▍         | 4515/100000 [2:28:47<34:27:28,  1.30s/it]                                                            5%|▍         | 4515/100000 [2:28:47<34:27:28,  1.30s/it]  5%|▍         | 4516/100000 [2:28:48<34:19:33,  1.29s/it]                                                            5%|▍         | 4516/100000 [2:28:48<34:19:33,  1.29s/it]  5%|▍         | 4517/100000 [2:28:50<33:59:55,  1.28s/it]                                                            5%|▍         | 4517/100000 [2:28:50<33:59:55,  1.28s/it]  5%|▍         | 4518/100000 [2:28:51<33:22:02,  1.26s/it]                                                            5%|▍         | 4518/100000 [2:28:51<33:22:02,  1.26s/it]  5%|▍         | 4519/100000 [2:28:52<33:07:18,  1.25s/it]                                                            5%|▍         | 4519/100000 [2:28:52<33:07:18,  1.25s/it]  5%|▍         | 4520/100000 [2:28:53<32:26:10,  1.22s/it]                                                            5%|▍         | 4520/100000 [2:28:53<32:26:10,  1.22s/it]  5%|▍         | 4521/100000 [2:28:54<32:00:11,  1.21s/it]                                                            5%|▍         | 4521/100000 [2:28:54<32:00:11,  1.21s/it]  5%|▍         | 4522/100000 [2:28:56<31:20:22,  1.18s/it]                                                            5%|▍         | 4522/100000 [2:28:56<31:20:22,  1.18s/it]  5%|▍         | 4523/100000 [2:28:57<30:58:09,  1.17s/it]                                                            5%|▍         | 4523/100000 [2:28:57<30:58:09,  1.17s/it]  5%|▍         | 4524/100000 [2:28:58<30:18:03,  1.14s/it]                                                            5%|▍         | 4524/100000 [2:28:58<30:18:03,  1.14s/it]  5%|▍         | 4525/100000 [2:28:59<29:51:52,  1.13s/it]                                                            5%|▍         | 4525/100000 [2:28:59<29:51:52,  1.13s/it]  5%|▍         | 4526/100000 [2:29:00<29:23:48,  1.11s/it]                                                            5%|▍         | 4526/100000 [2:29:00<29:23:48,  1.11s/it]  5%|▍         | 4527/100000 [2:29:01<28:54:47,  1.09s/it]                                                            5%|▍         | 4527/100000 [2:29:01<28:54:47,  1.09s/it]  5%|▍         | 4528/100000 [2:29:02<28:37:17,  1.08s/it]                                                            5%|▍         | 4528/100000 [2:29:02<28:37:17,  1.08s/it]  5%|▍         | 4529/100000 [2:29:03<28:04:54,  1.06s/it]                                                            5%|▍         | 4529/100000 [2:29:03<28:04:54,  1.06s/it]  5%|▍         | 4530/100000 [2:29:04<27:46:55,  1.05s/it]                                                            5%|▍         | 4530/100000 [2:29:04<27:46:55,  1.05s/it]  5%|▍         | 4531/100000 [2:29:05<27:30:21,  1.04s/it]                                                            5%|▍         | 4531/100000 [2:29:05<27:30:21,  1.04s/it]  5%|▍         | 4532/100000 [2:29:06<27:00:39,  1.02s/it]                                                            5%|▍         | 4532/100000 [2:29:06<27:00:39,  1.02s/it]  5%|▍         | 4533/100000 [2:29:07<26:42:10,  1.01s/it]                                                            5%|▍         | 4533/100000 [2:29:07<26:42:10,  1.01s/it]  5%|▍         | 4534/100000 [2:29:08<26:10:31,  1.01it/s]                                                            5%|▍         | 4534/100000 [2:29:08<26:10:31,  1.01it/s]  5%|▍         | 4535/100000 [2:29:09<25:35:50,  1.04it/s]                                                            5%|▍         | 4535/100000 [2:29:09<25:35:50,  1.04it/s]  5%|▍         | 4536/100000 [2:29:10<25:13:00,  1.05it/s]                                                            5%|▍         | 4536/100000 [2:29:10<25:13:00,  1.05it/s]  5%|▍         | 4537/100000 [2:29:22<110:44:10,  4.18s/it]                                                             5%|▍         | 4537/100000 [2:29:22<110:44:10,  4.18s/it]  5%|▍         | 4538/100000 [2:29:27<121:46:35,  4.59s/it]                                                             5%|▍         | 4538/100000 [2:29:27<121:46:35,  4.59s/it]  5%|▍         | 4539/100000 [2:29:32<122:22:50,  4.62s/it]                                                             5%|▍         | 4539/100000 [2:29:32<122:22:50,  4.62s/it]  5%|▍         | 4540/100000 [2:29:36<118:06:09,  4.45s/it]                                                             5%|▍         | 4540/100000 [2:29:36<118:06:09,  4.45s/it]  5%|▍         | 4541/100000 [2:29:40<111:41:19,  4.21s/it]                                                             5%|▍         | 4541/100000 [2:29:40<111:41:19,  4.21s/it]  5%|▍         | 4542/100000 [2:29:43<104:32:28,  3.94s/it]                                                             5%|▍         | 4542/100000 [2:29:43<104:32:28,  3.94s/it]  5%|▍         | 4543/100000 [2:29:46<97:02:17,  3.66s/it]                                                             5%|▍         | 4543/100000 [2:29:46<97:02:17,  3.66s/it]  5%|▍         | 4544/100000 [2:29:49<90:15:02,  3.40s/it]                                                            5%|▍         | 4544/100000 [2:29:49<90:15:02,  3.40s/it]  5%|▍         | 4545/100000 [2:29:51<83:25:00,  3.15s/it]                                                            5%|▍         | 4545/100000 [2:29:51<83:25:00,  3.15s/it]  5%|▍         | 4546/100000 [2:29:53<76:31:12,  2.89s/it]                                                            5%|▍         | 4546/100000 [2:29:53<76:31:12,  2.89s/it]  5%|▍         | 4547/100000 [2:29:56<70:22:10,  2.65s/it]                                                            5%|▍         | 4547/100000 [2:29:56<70:22:10,  2.65s/it]  5%|▍         | 4548/100000 [2:29:58<64:45:01,  2.44s/it]                                                            5%|▍         | 4548/100000 [2:29:58<64:45:01,  2.44s/it]  5%|▍         | 4549/100000 [2:29:59<59:50:37,  2.26s/it]                                                            5%|▍         | 4549/100000 [2:29:59<59:50:37,  2.26s/it]  5%|▍         | 4550/100000 [2:30:01<55:51:24,  2.11s/it]                                                            5%|▍         | 4550/100000 [2:30:01<55:51:24,  2.11s/it]  5%|▍         | 4551/100000 [2:30:03<52:25:48,  1.98s/it]                                                            5%|▍         | 4551/100000 [2:30:03<52:25:48,  1.98s/it]  5%|▍         | 4552/100000 [2:30:04<49:32:13,  1.87s/it]                                                            5%|▍         | 4552/100000 [2:30:04<49:32:13,  1.87s/it]  5%|▍         | 4553/100000 [2:30:06<47:15:06,  1.78s/it]                                                            5%|▍         | 4553/100000 [2:30:06<47:15:06,  1.78s/it]  5%|▍         | 4554/100000 [2:30:08<45:27:17,  1.71s/it]                                                            5%|▍         | 4554/100000 [2:30:08<45:27:17,  1.71s/it]  5%|▍         | 4555/100000 [2:30:09<43:31:11,  1.64s/it]                                                            5%|▍         | 4555/100000 [2:30:09<43:31:11,  1.64s/it]  5%|▍         | 4556/100000 [2:30:10<41:32:14,  1.57s/it]                                                            5%|▍         | 4556/100000 [2:30:10<41:32:14,  1.57s/it]  5%|▍         | 4557/100000 [2:30:12<40:26:17,  1.53s/it]                                                            5%|▍         | 4557/100000 [2:30:12<40:26:17,  1.53s/it]  5%|▍         | 4558/100000 [2:30:13<39:31:45,  1.49s/it]                                                            5%|▍         | 4558/100000 [2:30:13<39:31:45,  1.49s/it]  5%|▍         | 4559/100000 [2:30:15<38:28:04,  1.45s/it]                                                            5%|▍         | 4559/100000 [2:30:15<38:28:04,  1.45s/it]  5%|▍         | 4560/100000 [2:30:16<37:49:26,  1.43s/it]                                                            5%|▍         | 4560/100000 [2:30:16<37:49:26,  1.43s/it]  5%|▍         | 4561/100000 [2:30:17<37:16:11,  1.41s/it]                                                            5%|▍         | 4561/100000 [2:30:17<37:16:11,  1.41s/it]  5%|▍         | 4562/100000 [2:30:19<36:46:27,  1.39s/it]                                                            5%|▍         | 4562/100000 [2:30:19<36:46:27,  1.39s/it]  5%|▍         | 4563/100000 [2:30:20<36:13:17,  1.37s/it]                                                            5%|▍         | 4563/100000 [2:30:20<36:13:17,  1.37s/it]  5%|▍         | 4564/100000 [2:30:21<35:37:46,  1.34s/it]                                                            5%|▍         | 4564/100000 [2:30:21<35:37:46,  1.34s/it]  5%|▍         | 4565/100000 [2:30:23<35:09:38,  1.33s/it]                                                            5%|▍         | 4565/100000 [2:30:23<35:09:38,  1.33s/it]  5%|▍         | 4566/100000 [2:30:24<34:36:57,  1.31s/it]                                                            5%|▍         | 4566/100000 [2:30:24<34:36:57,  1.31s/it]  5%|▍         | 4567/100000 [2:30:25<33:51:57,  1.28s/it]                                                            5%|▍         | 4567/100000 [2:30:25<33:51:57,  1.28s/it]  5%|▍         | 4568/100000 [2:30:26<33:30:24,  1.26s/it]                                                            5%|▍         | 4568/100000 [2:30:26<33:30:24,  1.26s/it]  5%|▍         | 4569/100000 [2:30:27<33:06:32,  1.25s/it]                                                            5%|▍         | 4569/100000 [2:30:27<33:06:32,  1.25s/it]  5%|▍         | 4570/100000 [2:30:29<32:28:04,  1.22s/it]                                                            5%|▍         | 4570/100000 [2:30:29<32:28:04,  1.22s/it]  5%|▍         | 4571/100000 [2:30:30<31:58:41,  1.21s/it]                                                            5%|▍         | 4571/100000 [2:30:30<31:58:41,  1.21s/it]  5%|▍         | 4572/100000 [2:30:31<31:32:10,  1.19s/it]                                                            5%|▍         | 4572/100000 [2:30:31<31:32:10,  1.19s/it]  5%|▍         | 4573/100000 [2:30:32<31:08:40,  1.17s/it]                                                            5%|▍         | 4573/100000 [2:30:32<31:08:40,  1.17s/it]  5%|▍         | 4574/100000 [2:30:33<30:41:12,  1.16s/it]                                                            5%|▍         | 4574/100000 [2:30:33<30:41:12,  1.16s/it]  5%|▍         | 4575/100000 [2:30:34<30:14:46,  1.14s/it]                                                            5%|▍         | 4575/100000 [2:30:34<30:14:46,  1.14s/it]  5%|▍         | 4576/100000 [2:30:35<29:50:12,  1.13s/it]                                                            5%|▍         | 4576/100000 [2:30:35<29:50:12,  1.13s/it]  5%|▍         | 4577/100000 [2:30:36<29:12:17,  1.10s/it]                                                            5%|▍         | 4577/100000 [2:30:36<29:12:17,  1.10s/it]  5%|▍         | 4578/100000 [2:30:37<28:35:04,  1.08s/it]                                                            5%|▍         | 4578/100000 [2:30:37<28:35:04,  1.08s/it]  5%|▍         | 4579/100000 [2:30:39<28:30:21,  1.08s/it]                                                            5%|▍         | 4579/100000 [2:30:39<28:30:21,  1.08s/it]  5%|▍         | 4580/100000 [2:30:40<28:16:19,  1.07s/it]                                                            5%|▍         | 4580/100000 [2:30:40<28:16:19,  1.07s/it]  5%|▍         | 4581/100000 [2:30:41<27:31:25,  1.04s/it]                                                            5%|▍         | 4581/100000 [2:30:41<27:31:25,  1.04s/it]  5%|▍         | 4582/100000 [2:30:42<27:06:26,  1.02s/it]                                                            5%|▍         | 4582/100000 [2:30:42<27:06:26,  1.02s/it]  5%|▍         | 4583/100000 [2:30:43<26:46:49,  1.01s/it]                                                            5%|▍         | 4583/100000 [2:30:43<26:46:49,  1.01s/it]  5%|▍         | 4584/100000 [2:30:43<26:24:51,  1.00it/s]                                                            5%|▍         | 4584/100000 [2:30:43<26:24:51,  1.00it/s]  5%|▍         | 4585/100000 [2:30:44<26:02:21,  1.02it/s]                                                            5%|▍         | 4585/100000 [2:30:44<26:02:21,  1.02it/s]  5%|▍         | 4586/100000 [2:30:45<25:20:07,  1.05it/s]                                                            5%|▍         | 4586/100000 [2:30:45<25:20:07,  1.05it/s]  5%|▍         | 4587/100000 [2:30:57<114:24:28,  4.32s/it]                                                             5%|▍         | 4587/100000 [2:30:58<114:24:28,  4.32s/it]  5%|▍         | 4588/100000 [2:31:03<125:04:24,  4.72s/it]                                                             5%|▍         | 4588/100000 [2:31:03<125:04:24,  4.72s/it]  5%|▍         | 4589/100000 [2:31:08<125:09:18,  4.72s/it]                                                           {'loss': 0.0438, 'grad_norm': 0.5357188582420349, 'learning_rate': 1.3506e-05, 'epoch': 8.31}
+{'loss': 0.0319, 'grad_norm': 0.9559025764465332, 'learning_rate': 1.3508999999999999e-05, 'epoch': 8.31}
+{'loss': 0.087, 'grad_norm': 0.9470544457435608, 'learning_rate': 1.3512e-05, 'epoch': 8.32}
+{'loss': 0.031, 'grad_norm': 0.44523105025291443, 'learning_rate': 1.3515e-05, 'epoch': 8.32}
+{'loss': 0.0325, 'grad_norm': 0.49122002720832825, 'learning_rate': 1.3518e-05, 'epoch': 8.32}
+{'loss': 0.0338, 'grad_norm': 0.5576708316802979, 'learning_rate': 1.3521e-05, 'epoch': 8.32}
+{'loss': 0.0413, 'grad_norm': 0.8101223707199097, 'learning_rate': 1.3524e-05, 'epoch': 8.32}
+{'loss': 0.0344, 'grad_norm': 0.5844168066978455, 'learning_rate': 1.3527000000000001e-05, 'epoch': 8.33}
+{'loss': 0.0314, 'grad_norm': 0.4756903350353241, 'learning_rate': 1.3530000000000001e-05, 'epoch': 8.33}
+{'loss': 0.0369, 'grad_norm': 0.48679304122924805, 'learning_rate': 1.3533e-05, 'epoch': 8.33}
+{'loss': 0.0439, 'grad_norm': 1.2075324058532715, 'learning_rate': 1.3536e-05, 'epoch': 8.33}
+{'loss': 0.0377, 'grad_norm': 1.6481680870056152, 'learning_rate': 1.3539e-05, 'epoch': 8.33}
+{'loss': 0.0359, 'grad_norm': 0.4778039753437042, 'learning_rate': 1.3542000000000002e-05, 'epoch': 8.33}
+{'loss': 0.0168, 'grad_norm': 0.3544483482837677, 'learning_rate': 1.3545e-05, 'epoch': 8.34}
+{'loss': 0.0516, 'grad_norm': 0.9810410141944885, 'learning_rate': 1.3548e-05, 'epoch': 8.34}
+{'loss': 0.0326, 'grad_norm': 0.5142959356307983, 'learning_rate': 1.3551e-05, 'epoch': 8.34}
+{'loss': 0.0432, 'grad_norm': 0.7074347734451294, 'learning_rate': 1.3554e-05, 'epoch': 8.34}
+{'loss': 0.0162, 'grad_norm': 0.4334162473678589, 'learning_rate': 1.3557e-05, 'epoch': 8.34}
+{'loss': 0.0588, 'grad_norm': 0.6149067878723145, 'learning_rate': 1.356e-05, 'epoch': 8.35}
+{'loss': 0.0198, 'grad_norm': 0.4578056037425995, 'learning_rate': 1.3563e-05, 'epoch': 8.35}
+{'loss': 0.035, 'grad_norm': 0.6646698117256165, 'learning_rate': 1.3566e-05, 'epoch': 8.35}
+{'loss': 0.0309, 'grad_norm': 0.9544262886047363, 'learning_rate': 1.3569e-05, 'epoch': 8.35}
+{'loss': 0.0265, 'grad_norm': 0.9538107514381409, 'learning_rate': 1.3572000000000002e-05, 'epoch': 8.35}
+{'loss': 0.0433, 'grad_norm': 0.7917845845222473, 'learning_rate': 1.3575000000000001e-05, 'epoch': 8.35}
+{'loss': 0.0415, 'grad_norm': 0.6048826575279236, 'learning_rate': 1.3578000000000001e-05, 'epoch': 8.36}
+{'loss': 0.0437, 'grad_norm': 0.813008725643158, 'learning_rate': 1.3581000000000001e-05, 'epoch': 8.36}
+{'loss': 0.0411, 'grad_norm': 0.7485079169273376, 'learning_rate': 1.3583999999999999e-05, 'epoch': 8.36}
+{'loss': 0.0285, 'grad_norm': 0.6766875982284546, 'learning_rate': 1.3587e-05, 'epoch': 8.36}
+{'loss': 0.0436, 'grad_norm': 0.8954643607139587, 'learning_rate': 1.359e-05, 'epoch': 8.36}
+{'loss': 0.033, 'grad_norm': 0.9389119148254395, 'learning_rate': 1.3593e-05, 'epoch': 8.37}
+{'loss': 0.0418, 'grad_norm': 1.0599180459976196, 'learning_rate': 1.3596e-05, 'epoch': 8.37}
+{'loss': 0.0693, 'grad_norm': 1.466378092765808, 'learning_rate': 1.3599e-05, 'epoch': 8.37}
+{'loss': 0.2913, 'grad_norm': 1.0018821954727173, 'learning_rate': 1.3602000000000001e-05, 'epoch': 8.37}
+{'loss': 0.275, 'grad_norm': 1.0712130069732666, 'learning_rate': 1.3605000000000001e-05, 'epoch': 8.37}
+{'loss': 0.266, 'grad_norm': 0.7662477493286133, 'learning_rate': 1.3608e-05, 'epoch': 8.37}
+{'loss': 0.232, 'grad_norm': 0.9335657358169556, 'learning_rate': 1.3611e-05, 'epoch': 8.38}
+{'loss': 0.186, 'grad_norm': 0.8165726661682129, 'learning_rate': 1.3614e-05, 'epoch': 8.38}
+{'loss': 0.1721, 'grad_norm': 0.6568682193756104, 'learning_rate': 1.3617000000000002e-05, 'epoch': 8.38}
+{'loss': 0.1871, 'grad_norm': 0.779513955116272, 'learning_rate': 1.362e-05, 'epoch': 8.38}
+{'loss': 0.1078, 'grad_norm': 0.8209591507911682, 'learning_rate': 1.3623e-05, 'epoch': 8.38}
+{'loss': 0.1393, 'grad_norm': 0.8797643184661865, 'learning_rate': 1.3626e-05, 'epoch': 8.39}
+{'loss': 0.1451, 'grad_norm': 0.8661841154098511, 'learning_rate': 1.3629e-05, 'epoch': 8.39}
+{'loss': 0.081, 'grad_norm': 0.5946820974349976, 'learning_rate': 1.3632000000000001e-05, 'epoch': 8.39}
+{'loss': 0.1038, 'grad_norm': 1.008434534072876, 'learning_rate': 1.3635e-05, 'epoch': 8.39}
+{'loss': 0.075, 'grad_norm': 0.6491675972938538, 'learning_rate': 1.3638e-05, 'epoch': 8.39}
+{'loss': 0.0561, 'grad_norm': 0.585092306137085, 'learning_rate': 1.3641e-05, 'epoch': 8.4}
+{'loss': 0.0644, 'grad_norm': 0.5089346170425415, 'learning_rate': 1.3644e-05, 'epoch': 8.4}
+{'loss': 0.0416, 'grad_norm': 0.616301953792572, 'learning_rate': 1.3647000000000002e-05, 'epoch': 8.4}
+{'loss': 0.0344, 'grad_norm': 0.7324120998382568, 'learning_rate': 1.3650000000000001e-05, 'epoch': 8.4}
+{'loss': 0.0295, 'grad_norm': 0.462205171585083, 'learning_rate': 1.3653000000000001e-05, 'epoch': 8.4}
+{'loss': 0.0589, 'grad_norm': 1.396769404411316, 'learning_rate': 1.3656e-05, 'epoch': 8.4}
+{'loss': 0.0327, 'grad_norm': 0.5556825399398804, 'learning_rate': 1.3659e-05, 'epoch': 8.41}
+{'loss': 0.0248, 'grad_norm': 0.4635709226131439, 'learning_rate': 1.3662e-05, 'epoch': 8.41}
+{'loss': 0.0459, 'grad_norm': 0.39975813031196594, 'learning_rate': 1.3665e-05, 'epoch': 8.41}
+{'loss': 0.0371, 'grad_norm': 0.8045360445976257, 'learning_rate': 1.3668e-05, 'epoch': 8.41}
+{'loss': 0.0435, 'grad_norm': 0.6244034767150879, 'learning_rate': 1.3671e-05, 'epoch': 8.41}
+{'loss': 0.0568, 'grad_norm': 0.7523409724235535, 'learning_rate': 1.3674e-05, 'epoch': 8.42}
+{'loss': 0.0473, 'grad_norm': 1.0529162883758545, 'learning_rate': 1.3677000000000001e-05, 'epoch': 8.42}
+{'loss': 0.0243, 'grad_norm': 0.44346120953559875, 'learning_rate': 1.3680000000000001e-05, 'epoch': 8.42}
+{'loss': 0.0116, 'grad_norm': 0.27785372734069824, 'learning_rate': 1.3683000000000001e-05, 'epoch': 8.42}
+{'loss': 0.0312, 'grad_norm': 0.48640650510787964, 'learning_rate': 1.3686e-05, 'epoch': 8.42}
+{'loss': 0.096, 'grad_norm': 0.8661382794380188, 'learning_rate': 1.3689e-05, 'epoch': 8.42}
+{'loss': 0.0402, 'grad_norm': 0.6696983575820923, 'learning_rate': 1.3691999999999999e-05, 'epoch': 8.43}
+{'loss': 0.0309, 'grad_norm': 0.47121769189834595, 'learning_rate': 1.3695e-05, 'epoch': 8.43}
+{'loss': 0.0376, 'grad_norm': 0.5439361929893494, 'learning_rate': 1.3698e-05, 'epoch': 8.43}
+{'loss': 0.0461, 'grad_norm': 1.22900390625, 'learning_rate': 1.3701e-05, 'epoch': 8.43}
+{'loss': 0.0366, 'grad_norm': 0.6019194722175598, 'learning_rate': 1.3704e-05, 'epoch': 8.43}
+{'loss': 0.0447, 'grad_norm': 0.981429398059845, 'learning_rate': 1.3707e-05, 'epoch': 8.44}
+{'loss': 0.0466, 'grad_norm': 0.621160089969635, 'learning_rate': 1.3710000000000001e-05, 'epoch': 8.44}
+{'loss': 0.0297, 'grad_norm': 0.46072280406951904, 'learning_rate': 1.3713e-05, 'epoch': 8.44}
+{'loss': 0.0386, 'grad_norm': 0.8340686559677124, 'learning_rate': 1.3716e-05, 'epoch': 8.44}
+{'loss': 0.0314, 'grad_norm': 0.5266955494880676, 'learning_rate': 1.3719e-05, 'epoch': 8.44}
+{'loss': 0.0282, 'grad_norm': 0.485097199678421, 'learning_rate': 1.3722e-05, 'epoch': 8.45}
+{'loss': 0.0341, 'grad_norm': 0.617648184299469, 'learning_rate': 1.3725000000000002e-05, 'epoch': 8.45}
+{'loss': 0.037, 'grad_norm': 0.7114557027816772, 'learning_rate': 1.3728000000000001e-05, 'epoch': 8.45}
+{'loss': 0.0243, 'grad_norm': 0.8123380541801453, 'learning_rate': 1.3731e-05, 'epoch': 8.45}
+{'loss': 0.0187, 'grad_norm': 0.40049365162849426, 'learning_rate': 1.3734e-05, 'epoch': 8.45}
+{'loss': 0.0387, 'grad_norm': 0.8814468383789062, 'learning_rate': 1.3736999999999999e-05, 'epoch': 8.45}
+{'loss': 0.042, 'grad_norm': 0.885870099067688, 'learning_rate': 1.374e-05, 'epoch': 8.46}
+{'loss': 0.0392, 'grad_norm': 0.9987731575965881, 'learning_rate': 1.3743e-05, 'epoch': 8.46}
+{'loss': 0.037, 'grad_norm': 0.6637702584266663, 'learning_rate': 1.3746e-05, 'epoch': 8.46}
+{'loss': 0.0537, 'grad_norm': 0.9246504306793213, 'learning_rate': 1.3749e-05, 'epoch': 8.46}
+{'loss': 0.274, 'grad_norm': 1.5685744285583496, 'learning_rate': 1.3752e-05, 'epoch': 8.46}
+{'loss': 0.2991, 'grad_norm': 0.9505859017372131, 'learning_rate': 1.3755000000000001e-05, 'epoch': 8.47}
+  5%|▍         | 4589/100000 [2:31:08<125:09:18,  4.72s/it]  5%|▍         | 4590/100000 [2:31:12<118:34:26,  4.47s/it]                                                             5%|▍         | 4590/100000 [2:31:12<118:34:26,  4.47s/it]  5%|▍         | 4591/100000 [2:31:15<111:28:17,  4.21s/it]                                                             5%|▍         | 4591/100000 [2:31:15<111:28:17,  4.21s/it]  5%|▍         | 4592/100000 [2:31:19<103:33:42,  3.91s/it]                                                             5%|▍         | 4592/100000 [2:31:19<103:33:42,  3.91s/it]  5%|▍         | 4593/100000 [2:31:22<97:00:10,  3.66s/it]                                                             5%|▍         | 4593/100000 [2:31:22<97:00:10,  3.66s/it]  5%|▍         | 4594/100000 [2:31:24<90:08:17,  3.40s/it]                                                            5%|▍         | 4594/100000 [2:31:24<90:08:17,  3.40s/it]  5%|▍         | 4595/100000 [2:31:27<83:27:31,  3.15s/it]                                                            5%|▍         | 4595/100000 [2:31:27<83:27:31,  3.15s/it]  5%|▍         | 4596/100000 [2:31:29<76:27:08,  2.88s/it]                                                            5%|▍         | 4596/100000 [2:31:29<76:27:08,  2.88s/it]  5%|▍         | 4597/100000 [2:31:31<71:06:40,  2.68s/it]                                                            5%|▍         | 4597/100000 [2:31:31<71:06:40,  2.68s/it]  5%|▍         | 4598/100000 [2:31:34<66:22:15,  2.50s/it]                                                            5%|▍         | 4598/100000 [2:31:34<66:22:15,  2.50s/it]  5%|▍         | 4599/100000 [2:31:36<62:08:39,  2.35s/it]                                                            5%|▍         | 4599/100000 [2:31:36<62:08:39,  2.35s/it]  5%|▍         | 4600/100000 [2:31:37<58:24:08,  2.20s/it]                                                            5%|▍         | 4600/100000 [2:31:37<58:24:08,  2.20s/it]  5%|▍         | 4601/100000 [2:31:39<54:49:32,  2.07s/it]                                                            5%|▍         | 4601/100000 [2:31:39<54:49:32,  2.07s/it]  5%|▍         | 4602/100000 [2:31:41<51:48:46,  1.96s/it]                                                            5%|▍         | 4602/100000 [2:31:41<51:48:46,  1.96s/it]  5%|▍         | 4603/100000 [2:31:42<49:13:31,  1.86s/it]                                                            5%|▍         | 4603/100000 [2:31:42<49:13:31,  1.86s/it]  5%|▍         | 4604/100000 [2:31:44<47:00:53,  1.77s/it]                                                            5%|▍         | 4604/100000 [2:31:44<47:00:53,  1.77s/it]  5%|▍         | 4605/100000 [2:31:46<45:08:39,  1.70s/it]                                                            5%|▍         | 4605/100000 [2:31:46<45:08:39,  1.70s/it]  5%|▍         | 4606/100000 [2:31:47<43:23:07,  1.64s/it]                                                            5%|▍         | 4606/100000 [2:31:47<43:23:07,  1.64s/it]  5%|▍         | 4607/100000 [2:31:49<41:38:06,  1.57s/it]                                                            5%|▍         | 4607/100000 [2:31:49<41:38:06,  1.57s/it]  5%|▍         | 4608/100000 [2:31:50<40:12:08,  1.52s/it]                                                            5%|▍         | 4608/100000 [2:31:50<40:12:08,  1.52s/it]  5%|▍         | 4609/100000 [2:31:51<39:21:30,  1.49s/it]                                                            5%|▍         | 4609/100000 [2:31:51<39:21:30,  1.49s/it]  5%|▍         | 4610/100000 [2:31:53<38:40:18,  1.46s/it]                                                            5%|▍         | 4610/100000 [2:31:53<38:40:18,  1.46s/it]  5%|▍         | 4611/100000 [2:31:54<37:56:34,  1.43s/it]                                                            5%|▍         | 4611/100000 [2:31:54<37:56:34,  1.43s/it]  5%|▍         | 4612/100000 [2:31:55<37:12:21,  1.40s/it]                                                            5%|▍         | 4612/100000 [2:31:55<37:12:21,  1.40s/it]  5%|▍         | 4613/100000 [2:31:57<36:24:23,  1.37s/it]                                                            5%|▍         | 4613/100000 [2:31:57<36:24:23,  1.37s/it]  5%|▍         | 4614/100000 [2:31:58<35:49:59,  1.35s/it]                                                            5%|▍         | 4614/100000 [2:31:58<35:49:59,  1.35s/it]  5%|▍         | 4615/100000 [2:31:59<35:23:39,  1.34s/it]                                                            5%|▍         | 4615/100000 [2:31:59<35:23:39,  1.34s/it]  5%|▍         | 4616/100000 [2:32:01<34:42:46,  1.31s/it]                                                            5%|▍         | 4616/100000 [2:32:01<34:42:46,  1.31s/it]  5%|▍         | 4617/100000 [2:32:02<34:16:38,  1.29s/it]                                                            5%|▍         | 4617/100000 [2:32:02<34:16:38,  1.29s/it]  5%|▍         | 4618/100000 [2:32:03<33:30:02,  1.26s/it]                                                            5%|▍         | 4618/100000 [2:32:03<33:30:02,  1.26s/it]  5%|▍         | 4619/100000 [2:32:04<32:56:22,  1.24s/it]                                                            5%|▍         | 4619/100000 [2:32:04<32:56:22,  1.24s/it]  5%|▍         | 4620/100000 [2:32:05<32:08:49,  1.21s/it]                                                            5%|▍         | 4620/100000 [2:32:05<32:08:49,  1.21s/it]  5%|▍         | 4621/100000 [2:32:07<31:44:03,  1.20s/it]                                                            5%|▍         | 4621/100000 [2:32:07<31:44:03,  1.20s/it]  5%|▍         | 4622/100000 [2:32:08<31:20:27,  1.18s/it]                                                            5%|▍         | 4622/100000 [2:32:08<31:20:27,  1.18s/it]  5%|▍         | 4623/100000 [2:32:09<31:09:27,  1.18s/it]                                                            5%|▍         | 4623/100000 [2:32:09<31:09:27,  1.18s/it]  5%|▍         | 4624/100000 [2:32:10<30:48:17,  1.16s/it]                                                            5%|▍         | 4624/100000 [2:32:10<30:48:17,  1.16s/it]  5%|▍         | 4625/100000 [2:32:11<30:15:34,  1.14s/it]                                                            5%|▍         | 4625/100000 [2:32:11<30:15:34,  1.14s/it]  5%|▍         | 4626/100000 [2:32:12<29:56:43,  1.13s/it]                                                            5%|▍         | 4626/100000 [2:32:12<29:56:43,  1.13s/it]  5%|▍         | 4627/100000 [2:32:13<29:24:44,  1.11s/it]                                                            5%|▍         | 4627/100000 [2:32:13<29:24:44,  1.11s/it]  5%|▍         | 4628/100000 [2:32:14<29:10:08,  1.10s/it]                                                            5%|▍         | 4628/100000 [2:32:14<29:10:08,  1.10s/it]  5%|▍         | 4629/100000 [2:32:15<28:50:02,  1.09s/it]                                                            5%|▍         | 4629/100000 [2:32:15<28:50:02,  1.09s/it]  5%|▍         | 4630/100000 [2:32:16<28:26:03,  1.07s/it]                                                            5%|▍         | 4630/100000 [2:32:16<28:26:03,  1.07s/it]  5%|▍         | 4631/100000 [2:32:17<27:37:39,  1.04s/it]                                                            5%|▍         | 4631/100000 [2:32:17<27:37:39,  1.04s/it]  5%|▍         | 4632/100000 [2:32:18<26:50:41,  1.01s/it]                                                            5%|▍         | 4632/100000 [2:32:18<26:50:41,  1.01s/it]  5%|▍         | 4633/100000 [2:32:19<26:13:02,  1.01it/s]                                                            5%|▍         | 4633/100000 [2:32:19<26:13:02,  1.01it/s]  5%|▍         | 4634/100000 [2:32:20<25:31:58,  1.04it/s]                                                            5%|▍         | 4634/100000 [2:32:20<25:31:58,  1.04it/s]  5%|▍         | 4635/100000 [2:32:21<25:07:54,  1.05it/s]                                                            5%|▍         | 4635/100000 [2:32:21<25:07:54,  1.05it/s]  5%|▍         | 4636/100000 [2:32:22<24:53:50,  1.06it/s]                                                            5%|▍         | 4636/100000 [2:32:22<24:53:50,  1.06it/s]  5%|▍         | 4637/100000 [2:32:34<112:13:59,  4.24s/it]                                                             5%|▍         | 4637/100000 [2:32:34<112:13:59,  4.24s/it]  5%|▍         | 4638/100000 [2:32:39<122:50:52,  4.64s/it]                                                             5%|▍         | 4638/100000 [2:32:40<122:50:52,  4.64s/it]  5%|▍         | 4639/100000 [2:32:44<124:04:16,  4.68s/it]                                                             5%|▍         | 4639/100000 [2:32:44<124:04:16,  4.68s/it]  5%|▍         | 4640/100000 [2:32:48<118:40:40,  4.48s/it]                                                             5%|▍         | 4640/100000 [2:32:48<118:40:40,  4.48s/it]  5%|▍         | 4641/100000 [2:32:52<112:16:42,  4.24s/it]                                                             5%|▍         | 4641/100000 [2:32:52<112:16:42,  4.24s/it]  5%|▍         | 4642/100000 [2:32:55<104:20:42,  3.94s/it]                                                             5%|▍         | 4642/100000 [2:32:55<104:20:42,  3.94s/it]  5%|▍         | 4643/100000 [2:32:58<97:14:00,  3.67s/it]                                                             5%|▍         | 4643/100000 [2:32:58<97:14:00,  3.67s/it]  5%|▍         | 4644/100000 [2:33:01<90:09:37,  3.40s/it]                                                            5%|▍         | 4644/100000 [2:33:01<90:09:37,  3.40s/it]  5%|▍         | 4645/100000 [2:33:04<83:18:20,  3.15s/it]                                                            5%|▍         | 4645/100000 [2:33:04<83:18:20,  3.15s/it]  5%|▍         | 4646/100000 [2:33:06<77:05:23,  2.91s/it]                                                            5%|▍         | 4646/100000 [2:33:06<77:05:23,  2.91s/it]  5%|▍         | 4647/100000 [2:33:08<71:26:46,  2.70s/it]                                                            5%|▍         | 4647/100000 [2:33:08<71:26:46,  2.70s/it]  5%|▍         | 4648/100000 [2:33:10<66:27:13,  2.51s/it]                                                            5%|▍         | 4648/100000 [2:33:10<66:27:13,  2.51s/it]  5%|▍         | 4649/100000 [2:33:12<62:16:32,  2.35s/it]                                                            5%|▍         | 4649/100000 [2:33:12<62:16:32,  2.35s/it]  5%|▍         | 4650/100000 [2:33:14<58:28:46,  2.21s/it]                                                            5%|▍         | 4650/100000 [2:33:14<58:28:46,  2.21s/it]  5%|▍         | 4651/100000 [2:33:16<54:58:49,  2.08s/it]                                                            5%|▍         | 4651/100000 [2:33:16<54:58:49,  2.08s/it]  5%|▍         | 4652/100000 [2:33:18<52:08:24,  1.97s/it]                                                            5%|▍         | 4652/100000 [2:33:18<52:08:24,  1.97s/it]  5%|▍         | 4653/100000 [2:33:19<49:33:55,  1.87s/it]                                                            5%|▍         | 4653/100000 [2:33:19<49:33:55,  1.87s/it]  5%|▍         | 4654/100000 [2:33:21<47:00:07,  1.77s/it]                                                            5%|▍         | 4654/100000 [2:33:21<47:00:07,  1.77s/it]  5%|▍         | 4655/100000 [2:33:22<45:09:21,  1.70s/it]                                                            5%|▍         | 4655/100000 [2:33:22<45:09:21,  1.70s/it]  5%|▍         | 4656/100000 [2:33:24<43:33:05,  1.64s/it]                                                            5%|▍         | 4656/100000 [2:33:24<43:33:05,  1.64s/it]  5%|▍         | 4657/100000 [2:33:25<41:48:55,  1.58s/it]                                                            5%|▍         | 4657/100000 [2:33:25<41:48:55,  1.58s/it]  5%|▍         | 4658/100000 [2:33:27<40:42:55,  1.54s/it]                                                            5%|▍         | 4658/100000 [2:33:27<40:42:55,  1.54s/it]  5%|▍         | 4659/100000 [2:33:28<39:44:48,  1.50s/it]                                                            5%|▍         | 4659/100000 [2:33:28<39:44:48,  1.50s/it]  5%|▍         | 4660/100000 [2:33:29<38:52:41,  1.47s/it]                                                            5%|▍         | 4660/100000 [2:33:29<38:52:41,  1.47s/it]  5%|▍         | 4661/100000 [2:33:31<38:06:16,  1.44s/it]                                                            5%|▍         | 4661/100000 [2:33:31<38:06:16,  1.44s/it]  5%|▍         | 4662/100000 [2:33:32<37:07:09,  1.40s/it]                                                            5%|▍         | 4662/100000 [2:33:32<37:07:09,  1.40s/it]  5%|▍         | 4663/100000 [2:33:33<36:37:14,  1.38s/it]                                                            5%|▍         | 4663/100000 [2:33:33<36:37:14,  1.38s/it]  5%|▍         | 4664/100000 [2:33:35<36:05:25,  1.36s/it]                                                            5%|▍         | 4664/100000 [2:33:35<36:05:25,  1.36s/it]  5%|▍         | 4665/100000 [2:33:36<35:39:39,  1.35s/it]                                                            5%|▍         | 4665/100000 [2:33:36<35:39:39,  1.35s/it]  5%|▍         | 4666/100000 [2:33:37<34:59:08,  1.32s/it]                                                            5%|▍         | 4666/100000 [2:33:37<34:59:08,  1.32s/it]  5%|▍         | 4667/100000 [2:33:39<34:35:28,  1.31s/it]                                                            5%|▍         | 4667/100000 [2:33:39<34:35:28,  1.31s/it]  5%|▍         | 4668/100000 [2:33:40<34:09:41,  1.29s/it]                                                            5%|▍         | 4668/100000 [2:33:40<34:09:41,  1.29s/it]  5%|▍         | 4669/100000 [2:33:41<33:28:00,  1.26s/it]                                                            5%|▍         | 4669/100000 [2:33:41<33:28:00,  1.26s/it]  5%|▍         | 4670/100000 [2:33:42<33:04:11,  1.25s/it]                                                            5%|▍         | 4670/100000 [2:33:42<33:04:11,  1.25s/it]  5%|▍         | 4671/100000 [2:33:43<32:14:25,  1.22s/it]                                                            5%|▍         | 4671/100000 [2:33:43<32:14:25,  1.22s/it]  5%|▍         | 4672/100000 [2:33:45<31:46:44,  1.20s/it]                                                            5%|▍         | 4672/100000 [2:33:45<31:46:44,  1.20s/it]  5%|▍         | 4673/100000 [2:33:46<32:08:06,  1.21s/it]                                                          {'loss': 0.2452, 'grad_norm': 0.8866581320762634, 'learning_rate': 1.3758000000000001e-05, 'epoch': 8.47}
+{'loss': 0.2359, 'grad_norm': 0.9090424180030823, 'learning_rate': 1.3761000000000001e-05, 'epoch': 8.47}
+{'loss': 0.2069, 'grad_norm': 0.9789994955062866, 'learning_rate': 1.3764e-05, 'epoch': 8.47}
+{'loss': 0.1521, 'grad_norm': 0.6089072227478027, 'learning_rate': 1.3766999999999999e-05, 'epoch': 8.47}
+{'loss': 0.1246, 'grad_norm': 0.5650318264961243, 'learning_rate': 1.377e-05, 'epoch': 8.47}
+{'loss': 0.157, 'grad_norm': 0.7467601895332336, 'learning_rate': 1.3773e-05, 'epoch': 8.48}
+{'loss': 0.1856, 'grad_norm': 1.8868144750595093, 'learning_rate': 1.3776e-05, 'epoch': 8.48}
+{'loss': 0.276, 'grad_norm': 1.5848222970962524, 'learning_rate': 1.3779e-05, 'epoch': 8.48}
+{'loss': 0.0852, 'grad_norm': 1.11818528175354, 'learning_rate': 1.3782e-05, 'epoch': 8.48}
+{'loss': 0.1073, 'grad_norm': 0.7371710538864136, 'learning_rate': 1.3785000000000001e-05, 'epoch': 8.48}
+{'loss': 0.1418, 'grad_norm': 0.9325425624847412, 'learning_rate': 1.3788e-05, 'epoch': 8.49}
+{'loss': 0.0736, 'grad_norm': 0.6657596826553345, 'learning_rate': 1.3791e-05, 'epoch': 8.49}
+{'loss': 0.0964, 'grad_norm': 0.5805692672729492, 'learning_rate': 1.3794e-05, 'epoch': 8.49}
+{'loss': 0.0827, 'grad_norm': 0.7410169243812561, 'learning_rate': 1.3797e-05, 'epoch': 8.49}
+{'loss': 0.042, 'grad_norm': 0.5074139833450317, 'learning_rate': 1.3800000000000002e-05, 'epoch': 8.49}
+{'loss': 0.0373, 'grad_norm': 0.4896104633808136, 'learning_rate': 1.3803e-05, 'epoch': 8.49}
+{'loss': 0.0454, 'grad_norm': 0.4625118374824524, 'learning_rate': 1.3806e-05, 'epoch': 8.5}
+{'loss': 0.0379, 'grad_norm': 0.5676958560943604, 'learning_rate': 1.3809e-05, 'epoch': 8.5}
+{'loss': 0.0202, 'grad_norm': 0.3820827901363373, 'learning_rate': 1.3812e-05, 'epoch': 8.5}
+{'loss': 0.0194, 'grad_norm': 1.2073335647583008, 'learning_rate': 1.3815e-05, 'epoch': 8.5}
+{'loss': 0.0414, 'grad_norm': 0.7418472170829773, 'learning_rate': 1.3818e-05, 'epoch': 8.5}
+{'loss': 0.0418, 'grad_norm': 0.5792127251625061, 'learning_rate': 1.3821e-05, 'epoch': 8.51}
+{'loss': 0.0542, 'grad_norm': 0.5523576736450195, 'learning_rate': 1.3824e-05, 'epoch': 8.51}
+{'loss': 0.0219, 'grad_norm': 0.4889757037162781, 'learning_rate': 1.3827e-05, 'epoch': 8.51}
+{'loss': 0.0342, 'grad_norm': 1.076654314994812, 'learning_rate': 1.3830000000000001e-05, 'epoch': 8.51}
+{'loss': 0.0266, 'grad_norm': 0.5193042755126953, 'learning_rate': 1.3833000000000001e-05, 'epoch': 8.51}
+{'loss': 0.0335, 'grad_norm': 0.437115341424942, 'learning_rate': 1.3836000000000001e-05, 'epoch': 8.52}
+{'loss': 0.0266, 'grad_norm': 0.41590920090675354, 'learning_rate': 1.3839e-05, 'epoch': 8.52}
+{'loss': 0.0204, 'grad_norm': 0.4554344117641449, 'learning_rate': 1.3841999999999999e-05, 'epoch': 8.52}
+{'loss': 0.0224, 'grad_norm': 0.5499839782714844, 'learning_rate': 1.3845e-05, 'epoch': 8.52}
+{'loss': 0.0334, 'grad_norm': 0.9251109957695007, 'learning_rate': 1.3848e-05, 'epoch': 8.52}
+{'loss': 0.0212, 'grad_norm': 0.5408797264099121, 'learning_rate': 1.3851e-05, 'epoch': 8.52}
+{'loss': 0.0365, 'grad_norm': 1.166687250137329, 'learning_rate': 1.3854e-05, 'epoch': 8.53}
+{'loss': 0.0382, 'grad_norm': 0.9165891408920288, 'learning_rate': 1.3857e-05, 'epoch': 8.53}
+{'loss': 0.0513, 'grad_norm': 1.4344496726989746, 'learning_rate': 1.3860000000000001e-05, 'epoch': 8.53}
+{'loss': 0.0363, 'grad_norm': 0.6101006865501404, 'learning_rate': 1.3863000000000001e-05, 'epoch': 8.53}
+{'loss': 0.0316, 'grad_norm': 1.1394438743591309, 'learning_rate': 1.3866e-05, 'epoch': 8.53}
+{'loss': 0.0425, 'grad_norm': 0.918218195438385, 'learning_rate': 1.3869e-05, 'epoch': 8.54}
+{'loss': 0.0463, 'grad_norm': 0.9316399693489075, 'learning_rate': 1.3872e-05, 'epoch': 8.54}
+{'loss': 0.0452, 'grad_norm': 0.7699198722839355, 'learning_rate': 1.3875000000000002e-05, 'epoch': 8.54}
+{'loss': 0.0234, 'grad_norm': 0.7271835803985596, 'learning_rate': 1.3878e-05, 'epoch': 8.54}
+{'loss': 0.0331, 'grad_norm': 0.638312041759491, 'learning_rate': 1.3881e-05, 'epoch': 8.54}
+{'loss': 0.0491, 'grad_norm': 0.8469995856285095, 'learning_rate': 1.3884e-05, 'epoch': 8.54}
+{'loss': 0.0373, 'grad_norm': 0.7678780555725098, 'learning_rate': 1.3887e-05, 'epoch': 8.55}
+{'loss': 0.0336, 'grad_norm': 0.8009999990463257, 'learning_rate': 1.389e-05, 'epoch': 8.55}
+{'loss': 0.0557, 'grad_norm': 0.6101869940757751, 'learning_rate': 1.3893e-05, 'epoch': 8.55}
+{'loss': 0.0477, 'grad_norm': 0.7427794933319092, 'learning_rate': 1.3896e-05, 'epoch': 8.55}
+{'loss': 0.0373, 'grad_norm': 0.9742395281791687, 'learning_rate': 1.3899e-05, 'epoch': 8.55}
+{'loss': 0.2994, 'grad_norm': 1.3674216270446777, 'learning_rate': 1.3902e-05, 'epoch': 8.56}
+{'loss': 0.2497, 'grad_norm': 1.1344772577285767, 'learning_rate': 1.3905000000000002e-05, 'epoch': 8.56}
+{'loss': 0.2529, 'grad_norm': 1.1575214862823486, 'learning_rate': 1.3908000000000001e-05, 'epoch': 8.56}
+{'loss': 0.2333, 'grad_norm': 0.8929944038391113, 'learning_rate': 1.3911000000000001e-05, 'epoch': 8.56}
+{'loss': 0.1999, 'grad_norm': 0.8854674100875854, 'learning_rate': 1.3914e-05, 'epoch': 8.56}
+{'loss': 0.193, 'grad_norm': 0.9652591347694397, 'learning_rate': 1.3916999999999999e-05, 'epoch': 8.57}
+{'loss': 0.1591, 'grad_norm': 0.685058057308197, 'learning_rate': 1.392e-05, 'epoch': 8.57}
+{'loss': 0.1499, 'grad_norm': 0.6758031845092773, 'learning_rate': 1.3923e-05, 'epoch': 8.57}
+{'loss': 0.1686, 'grad_norm': 0.7304430603981018, 'learning_rate': 1.3926e-05, 'epoch': 8.57}
+{'loss': 0.1095, 'grad_norm': 0.6966080069541931, 'learning_rate': 1.3929e-05, 'epoch': 8.57}
+{'loss': 0.1383, 'grad_norm': 0.9024938344955444, 'learning_rate': 1.3932e-05, 'epoch': 8.57}
+{'loss': 0.1028, 'grad_norm': 0.5872875452041626, 'learning_rate': 1.3935000000000001e-05, 'epoch': 8.58}
+{'loss': 0.075, 'grad_norm': 0.976383626461029, 'learning_rate': 1.3938000000000001e-05, 'epoch': 8.58}
+{'loss': 0.1423, 'grad_norm': 0.7842995524406433, 'learning_rate': 1.3941000000000001e-05, 'epoch': 8.58}
+{'loss': 0.0525, 'grad_norm': 0.5742107629776001, 'learning_rate': 1.3944e-05, 'epoch': 8.58}
+{'loss': 0.038, 'grad_norm': 0.430160790681839, 'learning_rate': 1.3947e-05, 'epoch': 8.58}
+{'loss': 0.0432, 'grad_norm': 0.6016567349433899, 'learning_rate': 1.395e-05, 'epoch': 8.59}
+{'loss': 0.053, 'grad_norm': 0.45133915543556213, 'learning_rate': 1.3953e-05, 'epoch': 8.59}
+{'loss': 0.0683, 'grad_norm': 0.6579575538635254, 'learning_rate': 1.3956e-05, 'epoch': 8.59}
+{'loss': 0.0924, 'grad_norm': 0.9302634000778198, 'learning_rate': 1.3959e-05, 'epoch': 8.59}
+{'loss': 0.0325, 'grad_norm': 0.6408567428588867, 'learning_rate': 1.3962e-05, 'epoch': 8.59}
+{'loss': 0.0242, 'grad_norm': 0.5441372394561768, 'learning_rate': 1.3965000000000001e-05, 'epoch': 8.59}
+{'loss': 0.055, 'grad_norm': 0.7796469926834106, 'learning_rate': 1.3968e-05, 'epoch': 8.6}
+{'loss': 0.0349, 'grad_norm': 0.46276140213012695, 'learning_rate': 1.3971e-05, 'epoch': 8.6}
+{'loss': 0.0215, 'grad_norm': 0.4005415439605713, 'learning_rate': 1.3974e-05, 'epoch': 8.6}
+{'loss': 0.0313, 'grad_norm': 0.478162944316864, 'learning_rate': 1.3977e-05, 'epoch': 8.6}
+{'loss': 0.046, 'grad_norm': 0.6175740361213684, 'learning_rate': 1.3980000000000002e-05, 'epoch': 8.6}
+{'loss': 0.0263, 'grad_norm': 0.43752771615982056, 'learning_rate': 1.3983000000000001e-05, 'epoch': 8.61}
+{'loss': 0.064, 'grad_norm': 0.5159079432487488, 'learning_rate': 1.3986000000000001e-05, 'epoch': 8.61}
+{'loss': 0.0253, 'grad_norm': 0.44390735030174255, 'learning_rate': 1.3989e-05, 'epoch': 8.61}
+{'loss': 0.0375, 'grad_norm': 0.9245308637619019, 'learning_rate': 1.3992e-05, 'epoch': 8.61}
+{'loss': 0.0519, 'grad_norm': 0.644258975982666, 'learning_rate': 1.3995e-05, 'epoch': 8.61}
+{'loss': 0.0317, 'grad_norm': 0.6799528002738953, 'learning_rate': 1.3998e-05, 'epoch': 8.61}
+{'loss': 0.0274, 'grad_norm': 0.6856921315193176, 'learning_rate': 1.4001e-05, 'epoch': 8.62}
+{'loss': 0.0345, 'grad_norm': 0.5836756825447083, 'learning_rate': 1.4004e-05, 'epoch': 8.62}
+{'loss': 0.0319, 'grad_norm': 0.94598388671875, 'learning_rate': 1.4007e-05, 'epoch': 8.62}
+  5%|▍         | 4673/100000 [2:33:46<32:08:06,  1.21s/it]  5%|▍         | 4674/100000 [2:33:47<31:30:51,  1.19s/it]                                                            5%|▍         | 4674/100000 [2:33:47<31:30:51,  1.19s/it]  5%|▍         | 4675/100000 [2:33:48<30:47:38,  1.16s/it]                                                            5%|▍         | 4675/100000 [2:33:48<30:47:38,  1.16s/it]  5%|▍         | 4676/100000 [2:33:49<30:14:19,  1.14s/it]                                                            5%|▍         | 4676/100000 [2:33:49<30:14:19,  1.14s/it]  5%|▍         | 4677/100000 [2:33:50<29:40:28,  1.12s/it]                                                            5%|▍         | 4677/100000 [2:33:50<29:40:28,  1.12s/it]  5%|▍         | 4678/100000 [2:33:51<29:15:00,  1.10s/it]                                                            5%|▍         | 4678/100000 [2:33:51<29:15:00,  1.10s/it]  5%|▍         | 4679/100000 [2:33:52<28:32:59,  1.08s/it]                                                            5%|▍         | 4679/100000 [2:33:52<28:32:59,  1.08s/it]  5%|▍         | 4680/100000 [2:33:53<28:24:05,  1.07s/it]                                                            5%|▍         | 4680/100000 [2:33:53<28:24:05,  1.07s/it]  5%|▍         | 4681/100000 [2:33:54<27:48:12,  1.05s/it]                                                            5%|▍         | 4681/100000 [2:33:54<27:48:12,  1.05s/it]  5%|▍         | 4682/100000 [2:33:55<27:20:46,  1.03s/it]                                                            5%|▍         | 4682/100000 [2:33:55<27:20:46,  1.03s/it]  5%|▍         | 4683/100000 [2:33:56<26:38:32,  1.01s/it]                                                            5%|▍         | 4683/100000 [2:33:56<26:38:32,  1.01s/it]  5%|▍         | 4684/100000 [2:33:57<25:44:26,  1.03it/s]                                                            5%|▍         | 4684/100000 [2:33:57<25:44:26,  1.03it/s]  5%|▍         | 4685/100000 [2:33:58<24:56:10,  1.06it/s]                                                            5%|▍         | 4685/100000 [2:33:58<24:56:10,  1.06it/s]  5%|▍         | 4686/100000 [2:33:59<23:41:45,  1.12it/s]                                                            5%|▍         | 4686/100000 [2:33:59<23:41:45,  1.12it/s]  5%|▍         | 4687/100000 [2:34:11<112:44:11,  4.26s/it]                                                             5%|▍         | 4687/100000 [2:34:11<112:44:11,  4.26s/it]  5%|▍         | 4688/100000 [2:34:17<123:57:06,  4.68s/it]                                                             5%|▍         | 4688/100000 [2:34:17<123:57:06,  4.68s/it]  5%|▍         | 4689/100000 [2:34:21<123:26:03,  4.66s/it]                                                             5%|▍         | 4689/100000 [2:34:21<123:26:03,  4.66s/it]  5%|▍         | 4690/100000 [2:34:25<116:35:42,  4.40s/it]                                                             5%|▍         | 4690/100000 [2:34:25<116:35:42,  4.40s/it]  5%|▍         | 4691/100000 [2:34:28<107:35:25,  4.06s/it]                                                             5%|▍         | 4691/100000 [2:34:28<107:35:25,  4.06s/it]  5%|▍         | 4692/100000 [2:34:31<99:41:00,  3.77s/it]                                                             5%|▍         | 4692/100000 [2:34:31<99:41:00,  3.77s/it]  5%|▍         | 4693/100000 [2:34:34<91:52:32,  3.47s/it]                                                            5%|▍         | 4693/100000 [2:34:34<91:52:32,  3.47s/it]  5%|▍         | 4694/100000 [2:34:37<85:23:09,  3.23s/it]                                                            5%|▍         | 4694/100000 [2:34:37<85:23:09,  3.23s/it]  5%|▍         | 4695/100000 [2:34:39<78:54:56,  2.98s/it]                                                            5%|▍         | 4695/100000 [2:34:39<78:54:56,  2.98s/it]  5%|▍         | 4696/100000 [2:34:41<72:34:44,  2.74s/it]                                                            5%|▍         | 4696/100000 [2:34:41<72:34:44,  2.74s/it]  5%|▍         | 4697/100000 [2:34:44<67:40:03,  2.56s/it]                                                            5%|▍         | 4697/100000 [2:34:44<67:40:03,  2.56s/it]  5%|▍         | 4698/100000 [2:34:46<63:07:53,  2.38s/it]                                                            5%|▍         | 4698/100000 [2:34:46<63:07:53,  2.38s/it]  5%|▍         | 4699/100000 [2:34:47<58:59:13,  2.23s/it]                                                            5%|▍         | 4699/100000 [2:34:47<58:59:13,  2.23s/it]  5%|▍         | 4700/100000 [2:34:49<55:02:08,  2.08s/it]                                                            5%|▍         | 4700/100000 [2:34:49<55:02:08,  2.08s/it]  5%|▍         | 4701/100000 [2:34:51<51:55:42,  1.96s/it]                                                            5%|▍         | 4701/100000 [2:34:51<51:55:42,  1.96s/it]  5%|▍         | 4702/100000 [2:34:52<48:53:23,  1.85s/it]                                                            5%|▍         | 4702/100000 [2:34:52<48:53:23,  1.85s/it]  5%|▍         | 4703/100000 [2:34:54<46:54:31,  1.77s/it]                                                            5%|▍         | 4703/100000 [2:34:54<46:54:31,  1.77s/it]  5%|▍         | 4704/100000 [2:34:56<44:50:59,  1.69s/it]                                                            5%|▍         | 4704/100000 [2:34:56<44:50:59,  1.69s/it]  5%|▍         | 4705/100000 [2:34:57<43:18:53,  1.64s/it]                                                            5%|▍         | 4705/100000 [2:34:57<43:18:53,  1.64s/it]  5%|▍         | 4706/100000 [2:34:58<41:59:14,  1.59s/it]                                                            5%|▍         | 4706/100000 [2:34:58<41:59:14,  1.59s/it]  5%|▍         | 4707/100000 [2:35:00<40:51:35,  1.54s/it]                                                            5%|▍         | 4707/100000 [2:35:00<40:51:35,  1.54s/it]  5%|▍         | 4708/100000 [2:35:01<39:20:47,  1.49s/it]                                                            5%|▍         | 4708/100000 [2:35:01<39:20:47,  1.49s/it]  5%|▍         | 4709/100000 [2:35:03<38:46:38,  1.46s/it]                                                            5%|▍         | 4709/100000 [2:35:03<38:46:38,  1.46s/it]  5%|▍         | 4710/100000 [2:35:04<38:04:56,  1.44s/it]                                                            5%|▍         | 4710/100000 [2:35:04<38:04:56,  1.44s/it]  5%|▍         | 4711/100000 [2:35:05<37:11:19,  1.40s/it]                                                            5%|▍         | 4711/100000 [2:35:05<37:11:19,  1.40s/it]  5%|▍         | 4712/100000 [2:35:07<36:46:26,  1.39s/it]                                                            5%|▍         | 4712/100000 [2:35:07<36:46:26,  1.39s/it]  5%|▍         | 4713/100000 [2:35:08<36:16:20,  1.37s/it]                                                            5%|▍         | 4713/100000 [2:35:08<36:16:20,  1.37s/it]  5%|▍         | 4714/100000 [2:35:09<35:29:39,  1.34s/it]                                                            5%|▍         | 4714/100000 [2:35:09<35:29:39,  1.34s/it]  5%|▍         | 4715/100000 [2:35:11<35:00:16,  1.32s/it]                                                            5%|▍         | 4715/100000 [2:35:11<35:00:16,  1.32s/it]  5%|▍         | 4716/100000 [2:35:12<34:39:37,  1.31s/it]                                                            5%|▍         | 4716/100000 [2:35:12<34:39:37,  1.31s/it]  5%|▍         | 4717/100000 [2:35:13<33:55:40,  1.28s/it]                                                            5%|▍         | 4717/100000 [2:35:13<33:55:40,  1.28s/it]  5%|▍         | 4718/100000 [2:35:14<33:14:24,  1.26s/it]                                                            5%|▍         | 4718/100000 [2:35:14<33:14:24,  1.26s/it]  5%|▍         | 4719/100000 [2:35:16<32:47:52,  1.24s/it]                                                            5%|▍         | 4719/100000 [2:35:16<32:47:52,  1.24s/it]  5%|▍         | 4720/100000 [2:35:17<32:29:23,  1.23s/it]                                                            5%|▍         | 4720/100000 [2:35:17<32:29:23,  1.23s/it]  5%|▍         | 4721/100000 [2:35:18<31:57:00,  1.21s/it]                                                            5%|▍         | 4721/100000 [2:35:18<31:57:00,  1.21s/it]  5%|▍         | 4722/100000 [2:35:19<31:02:01,  1.17s/it]                                                            5%|▍         | 4722/100000 [2:35:19<31:02:01,  1.17s/it]  5%|▍         | 4723/100000 [2:35:20<30:48:29,  1.16s/it]                                                            5%|▍         | 4723/100000 [2:35:20<30:48:29,  1.16s/it]  5%|▍         | 4724/100000 [2:35:21<30:25:21,  1.15s/it]                                                            5%|▍         | 4724/100000 [2:35:21<30:25:21,  1.15s/it]  5%|▍         | 4725/100000 [2:35:22<29:49:21,  1.13s/it]                                                            5%|▍         | 4725/100000 [2:35:22<29:49:21,  1.13s/it]  5%|▍         | 4726/100000 [2:35:23<29:20:35,  1.11s/it]                                                            5%|▍         | 4726/100000 [2:35:23<29:20:35,  1.11s/it]  5%|▍         | 4727/100000 [2:35:24<28:51:49,  1.09s/it]                                                            5%|▍         | 4727/100000 [2:35:24<28:51:49,  1.09s/it]  5%|▍         | 4728/100000 [2:35:25<28:40:20,  1.08s/it]                                                            5%|▍         | 4728/100000 [2:35:26<28:40:20,  1.08s/it]  5%|▍         | 4729/100000 [2:35:27<28:01:07,  1.06s/it]                                                            5%|▍         | 4729/100000 [2:35:27<28:01:07,  1.06s/it]  5%|▍         | 4730/100000 [2:35:27<27:25:17,  1.04s/it]                                                            5%|▍         | 4730/100000 [2:35:27<27:25:17,  1.04s/it]  5%|▍         | 4731/100000 [2:35:28<26:59:02,  1.02s/it]                                                            5%|▍         | 4731/100000 [2:35:28<26:59:02,  1.02s/it]  5%|▍         | 4732/100000 [2:35:29<26:35:06,  1.00s/it]                                                            5%|▍         | 4732/100000 [2:35:29<26:35:06,  1.00s/it]  5%|▍         | 4733/100000 [2:35:30<26:30:18,  1.00s/it]                                                            5%|▍         | 4733/100000 [2:35:30<26:30:18,  1.00s/it]  5%|▍         | 4734/100000 [2:35:31<26:00:22,  1.02it/s]                                                            5%|▍         | 4734/100000 [2:35:31<26:00:22,  1.02it/s]  5%|▍         | 4735/100000 [2:35:32<25:13:52,  1.05it/s]                                                            5%|▍         | 4735/100000 [2:35:32<25:13:52,  1.05it/s]  5%|▍         | 4736/100000 [2:35:33<24:02:59,  1.10it/s]                                                            5%|▍         | 4736/100000 [2:35:33<24:02:59,  1.10it/s]  5%|▍         | 4737/100000 [2:35:44<104:26:58,  3.95s/it]                                                             5%|▍         | 4737/100000 [2:35:44<104:26:58,  3.95s/it]  5%|▍         | 4738/100000 [2:35:49<113:13:39,  4.28s/it]                                                             5%|▍         | 4738/100000 [2:35:49<113:13:39,  4.28s/it]  5%|▍         | 4739/100000 [2:35:54<114:43:35,  4.34s/it]                                                             5%|▍         | 4739/100000 [2:35:54<114:43:35,  4.34s/it]  5%|▍         | 4740/100000 [2:35:58<111:20:58,  4.21s/it]                                                             5%|▍         | 4740/100000 [2:35:58<111:20:58,  4.21s/it]  5%|▍         | 4741/100000 [2:36:01<105:14:53,  3.98s/it]                                                             5%|▍         | 4741/100000 [2:36:01<105:14:53,  3.98s/it]  5%|▍         | 4742/100000 [2:36:04<97:31:42,  3.69s/it]                                                             5%|▍         | 4742/100000 [2:36:04<97:31:42,  3.69s/it]  5%|▍         | 4743/100000 [2:36:07<90:24:38,  3.42s/it]                                                            5%|▍         | 4743/100000 [2:36:07<90:24:38,  3.42s/it]  5%|▍         | 4744/100000 [2:36:09<81:47:34,  3.09s/it]                                                            5%|▍         | 4744/100000 [2:36:09<81:47:34,  3.09s/it]  5%|▍         | 4745/100000 [2:36:11<75:42:16,  2.86s/it]                                                            5%|▍         | 4745/100000 [2:36:11<75:42:16,  2.86s/it]  5%|▍         | 4746/100000 [2:36:14<70:23:06,  2.66s/it]                                                            5%|▍         | 4746/100000 [2:36:14<70:23:06,  2.66s/it]  5%|▍         | 4747/100000 [2:36:16<65:27:56,  2.47s/it]                                                            5%|▍         | 4747/100000 [2:36:16<65:27:56,  2.47s/it]  5%|▍         | 4748/100000 [2:36:18<61:05:46,  2.31s/it]                                                            5%|▍         | 4748/100000 [2:36:18<61:05:46,  2.31s/it]  5%|▍         | 4749/100000 [2:36:19<57:06:04,  2.16s/it]                                                            5%|▍         | 4749/100000 [2:36:19<57:06:04,  2.16s/it]  5%|▍         | 4750/100000 [2:36:21<53:42:10,  2.03s/it]                                                            5%|▍         | 4750/100000 [2:36:21<53:42:10,  2.03s/it]  5%|▍         | 4751/100000 [2:36:23<50:45:43,  1.92s/it]                                                            5%|▍         | 4751/100000 [2:36:23<50:45:43,  1.92s/it]  5%|▍         | 4752/100000 [2:36:24<48:24:56,  1.83s/it]                                                            5%|▍         | 4752/100000 [2:36:24<48:24:56,  1.83s/it]  5%|▍         | 4753/100000 [2:36:26<46:04:56,  1.74s/it]                                                            5%|▍         | 4753/100000 [2:36:26<46:04:56,  1.74s/it]  5%|▍         | 4754/100000 [2:36:27<44:19:34,  1.68s/it]                                                            5%|▍         | 4754/100000 [2:36:27<44:19:34,  1.68s/it]  5%|▍         | 4755/100000 [2:36:29<42:44:50,  1.62s/it]                                                            5%|▍         | 4755/100000 [2:36:29<42:44:50,  1.62s/it]  5%|▍         | 4756/100000 [2:36:30<41:07:31,  1.55s/it]                                                            5%|▍         | 4756/100000 [2:36:30<41:07:31,  1.55s/it]  5%|▍         | 4757/100000 [2:36:32<40:11:21,  1.52s/it]                                                          {'loss': 0.0371, 'grad_norm': 0.6048069000244141, 'learning_rate': 1.4010000000000001e-05, 'epoch': 8.62}
+{'loss': 0.0268, 'grad_norm': 0.6870465278625488, 'learning_rate': 1.4013000000000001e-05, 'epoch': 8.62}
+{'loss': 0.032, 'grad_norm': 0.5122883319854736, 'learning_rate': 1.4016000000000001e-05, 'epoch': 8.63}
+{'loss': 0.0393, 'grad_norm': 0.653048038482666, 'learning_rate': 1.4019e-05, 'epoch': 8.63}
+{'loss': 0.0383, 'grad_norm': 0.5902331471443176, 'learning_rate': 1.4022e-05, 'epoch': 8.63}
+{'loss': 0.0329, 'grad_norm': 0.6037182807922363, 'learning_rate': 1.4025e-05, 'epoch': 8.63}
+{'loss': 0.0627, 'grad_norm': 0.9846788644790649, 'learning_rate': 1.4028e-05, 'epoch': 8.63}
+{'loss': 0.0253, 'grad_norm': 0.4753408432006836, 'learning_rate': 1.4031e-05, 'epoch': 8.64}
+{'loss': 0.0326, 'grad_norm': 0.5847453474998474, 'learning_rate': 1.4034e-05, 'epoch': 8.64}
+{'loss': 0.0384, 'grad_norm': 0.6286370158195496, 'learning_rate': 1.4037e-05, 'epoch': 8.64}
+{'loss': 0.042, 'grad_norm': 0.6938286423683167, 'learning_rate': 1.4040000000000001e-05, 'epoch': 8.64}
+{'loss': 0.0444, 'grad_norm': 0.8416529297828674, 'learning_rate': 1.4043000000000001e-05, 'epoch': 8.64}
+{'loss': 0.0261, 'grad_norm': 0.6412912607192993, 'learning_rate': 1.4046e-05, 'epoch': 8.64}
+{'loss': 0.046, 'grad_norm': 0.8336824178695679, 'learning_rate': 1.4049e-05, 'epoch': 8.65}
+{'loss': 0.3239, 'grad_norm': 1.7124323844909668, 'learning_rate': 1.4052e-05, 'epoch': 8.65}
+{'loss': 0.2906, 'grad_norm': 0.948986828327179, 'learning_rate': 1.4055000000000002e-05, 'epoch': 8.65}
+{'loss': 0.2812, 'grad_norm': 1.0201292037963867, 'learning_rate': 1.4058000000000002e-05, 'epoch': 8.65}
+{'loss': 0.2266, 'grad_norm': 0.8282414674758911, 'learning_rate': 1.4061e-05, 'epoch': 8.65}
+{'loss': 0.1907, 'grad_norm': 0.8216656446456909, 'learning_rate': 1.4064e-05, 'epoch': 8.66}
+{'loss': 0.1587, 'grad_norm': 0.783562421798706, 'learning_rate': 1.4067e-05, 'epoch': 8.66}
+{'loss': 0.1776, 'grad_norm': 1.0356827974319458, 'learning_rate': 1.4069999999999999e-05, 'epoch': 8.66}
+{'loss': 0.1448, 'grad_norm': 0.6998425126075745, 'learning_rate': 1.4073e-05, 'epoch': 8.66}
+{'loss': 0.1745, 'grad_norm': 1.0429692268371582, 'learning_rate': 1.4076e-05, 'epoch': 8.66}
+{'loss': 0.1288, 'grad_norm': 1.0342075824737549, 'learning_rate': 1.4079e-05, 'epoch': 8.66}
+{'loss': 0.1283, 'grad_norm': 0.6225987076759338, 'learning_rate': 1.4082e-05, 'epoch': 8.67}
+{'loss': 0.1496, 'grad_norm': 0.8024329543113708, 'learning_rate': 1.4085e-05, 'epoch': 8.67}
+{'loss': 0.1742, 'grad_norm': 1.1623533964157104, 'learning_rate': 1.4088000000000001e-05, 'epoch': 8.67}
+{'loss': 0.0818, 'grad_norm': 0.6703691482543945, 'learning_rate': 1.4091000000000001e-05, 'epoch': 8.67}
+{'loss': 0.0464, 'grad_norm': 0.5389675498008728, 'learning_rate': 1.4094000000000001e-05, 'epoch': 8.67}
+{'loss': 0.039, 'grad_norm': 0.38047945499420166, 'learning_rate': 1.4097e-05, 'epoch': 8.68}
+{'loss': 0.0392, 'grad_norm': 0.5646745562553406, 'learning_rate': 1.4099999999999999e-05, 'epoch': 8.68}
+{'loss': 0.0522, 'grad_norm': 0.8179369568824768, 'learning_rate': 1.4103e-05, 'epoch': 8.68}
+{'loss': 0.0409, 'grad_norm': 0.46813997626304626, 'learning_rate': 1.4106e-05, 'epoch': 8.68}
+{'loss': 0.0412, 'grad_norm': 0.8852002024650574, 'learning_rate': 1.4109e-05, 'epoch': 8.68}
+{'loss': 0.0348, 'grad_norm': 0.3803097605705261, 'learning_rate': 1.4112e-05, 'epoch': 8.69}
+{'loss': 0.0358, 'grad_norm': 0.858212947845459, 'learning_rate': 1.4115e-05, 'epoch': 8.69}
+{'loss': 0.0353, 'grad_norm': 0.5910655856132507, 'learning_rate': 1.4118000000000001e-05, 'epoch': 8.69}
+{'loss': 0.0341, 'grad_norm': 0.4760793149471283, 'learning_rate': 1.4121e-05, 'epoch': 8.69}
+{'loss': 0.0199, 'grad_norm': 0.3494793176651001, 'learning_rate': 1.4124e-05, 'epoch': 8.69}
+{'loss': 0.0303, 'grad_norm': 0.6482746601104736, 'learning_rate': 1.4127e-05, 'epoch': 8.69}
+{'loss': 0.0254, 'grad_norm': 0.547419548034668, 'learning_rate': 1.413e-05, 'epoch': 8.7}
+{'loss': 0.0318, 'grad_norm': 0.493529736995697, 'learning_rate': 1.4133000000000002e-05, 'epoch': 8.7}
+{'loss': 0.0191, 'grad_norm': 0.4994904696941376, 'learning_rate': 1.4136e-05, 'epoch': 8.7}
+{'loss': 0.0182, 'grad_norm': 0.3659327030181885, 'learning_rate': 1.4139e-05, 'epoch': 8.7}
+{'loss': 0.0366, 'grad_norm': 0.5548020601272583, 'learning_rate': 1.4142e-05, 'epoch': 8.7}
+{'loss': 0.0229, 'grad_norm': 0.8539415597915649, 'learning_rate': 1.4145e-05, 'epoch': 8.71}
+{'loss': 0.0378, 'grad_norm': 0.7660424709320068, 'learning_rate': 1.4148e-05, 'epoch': 8.71}
+{'loss': 0.0251, 'grad_norm': 0.6833702325820923, 'learning_rate': 1.4151e-05, 'epoch': 8.71}
+{'loss': 0.0209, 'grad_norm': 0.6271822452545166, 'learning_rate': 1.4154e-05, 'epoch': 8.71}
+{'loss': 0.0169, 'grad_norm': 0.5643937587738037, 'learning_rate': 1.4157e-05, 'epoch': 8.71}
+{'loss': 0.0333, 'grad_norm': 0.5487121939659119, 'learning_rate': 1.416e-05, 'epoch': 8.71}
+{'loss': 0.0316, 'grad_norm': 0.5783451199531555, 'learning_rate': 1.4163000000000001e-05, 'epoch': 8.72}
+{'loss': 0.0305, 'grad_norm': 0.7464359402656555, 'learning_rate': 1.4166000000000001e-05, 'epoch': 8.72}
+{'loss': 0.029, 'grad_norm': 0.9655202627182007, 'learning_rate': 1.4169000000000001e-05, 'epoch': 8.72}
+{'loss': 0.0289, 'grad_norm': 0.885925829410553, 'learning_rate': 1.4172e-05, 'epoch': 8.72}
+{'loss': 0.0319, 'grad_norm': 0.8719249367713928, 'learning_rate': 1.4174999999999999e-05, 'epoch': 8.72}
+{'loss': 0.047, 'grad_norm': 0.9360407590866089, 'learning_rate': 1.4178e-05, 'epoch': 8.73}
+{'loss': 0.051, 'grad_norm': 0.672272264957428, 'learning_rate': 1.4181e-05, 'epoch': 8.73}
+{'loss': 0.0237, 'grad_norm': 0.5661531090736389, 'learning_rate': 1.4184e-05, 'epoch': 8.73}
+{'loss': 0.0275, 'grad_norm': 0.8892865777015686, 'learning_rate': 1.4187e-05, 'epoch': 8.73}
+{'loss': 0.0258, 'grad_norm': 0.5317668318748474, 'learning_rate': 1.419e-05, 'epoch': 8.73}
+{'loss': 0.0391, 'grad_norm': 0.7972832322120667, 'learning_rate': 1.4193000000000001e-05, 'epoch': 8.73}
+{'loss': 0.029, 'grad_norm': 0.6717183589935303, 'learning_rate': 1.4196000000000001e-05, 'epoch': 8.74}
+{'loss': 0.0526, 'grad_norm': 0.8849234580993652, 'learning_rate': 1.4199e-05, 'epoch': 8.74}
+{'loss': 0.3444, 'grad_norm': 1.2492313385009766, 'learning_rate': 1.4202e-05, 'epoch': 8.74}
+{'loss': 0.2953, 'grad_norm': 0.9331575036048889, 'learning_rate': 1.4205e-05, 'epoch': 8.74}
+{'loss': 0.2245, 'grad_norm': 0.8331683278083801, 'learning_rate': 1.4208e-05, 'epoch': 8.74}
+{'loss': 0.1566, 'grad_norm': 0.6677910089492798, 'learning_rate': 1.4211e-05, 'epoch': 8.75}
+{'loss': 0.2517, 'grad_norm': 0.9906908273696899, 'learning_rate': 1.4214e-05, 'epoch': 8.75}
+{'loss': 0.1647, 'grad_norm': 0.6925485730171204, 'learning_rate': 1.4217e-05, 'epoch': 8.75}
+{'loss': 0.1449, 'grad_norm': 0.5896223783493042, 'learning_rate': 1.422e-05, 'epoch': 8.75}
+{'loss': 0.1015, 'grad_norm': 0.5901791453361511, 'learning_rate': 1.4223000000000001e-05, 'epoch': 8.75}
+{'loss': 0.1121, 'grad_norm': 0.6510495543479919, 'learning_rate': 1.4226e-05, 'epoch': 8.76}
+{'loss': 0.105, 'grad_norm': 0.635270893573761, 'learning_rate': 1.4229e-05, 'epoch': 8.76}
+{'loss': 0.0773, 'grad_norm': 0.5553750395774841, 'learning_rate': 1.4232e-05, 'epoch': 8.76}
+{'loss': 0.1125, 'grad_norm': 0.9713811278343201, 'learning_rate': 1.4235e-05, 'epoch': 8.76}
+{'loss': 0.099, 'grad_norm': 0.6695632934570312, 'learning_rate': 1.4238000000000002e-05, 'epoch': 8.76}
+{'loss': 0.0644, 'grad_norm': 0.6211198568344116, 'learning_rate': 1.4241000000000001e-05, 'epoch': 8.76}
+{'loss': 0.0644, 'grad_norm': 0.8161517977714539, 'learning_rate': 1.4244000000000001e-05, 'epoch': 8.77}
+{'loss': 0.0423, 'grad_norm': 0.4428170323371887, 'learning_rate': 1.4247e-05, 'epoch': 8.77}
+{'loss': 0.0437, 'grad_norm': 0.5940005779266357, 'learning_rate': 1.4249999999999999e-05, 'epoch': 8.77}
+{'loss': 0.0327, 'grad_norm': 0.4171900749206543, 'learning_rate': 1.4253e-05, 'epoch': 8.77}
+{'loss': 0.0255, 'grad_norm': 0.3937453627586365, 'learning_rate': 1.4256e-05, 'epoch': 8.77}
+{'loss': 0.0366, 'grad_norm': 0.6645901799201965, 'learning_rate': 1.4259e-05, 'epoch': 8.78}
+  5%|▍         | 4757/100000 [2:36:32<40:11:21,  1.52s/it]  5%|▍         | 4758/100000 [2:36:33<39:02:29,  1.48s/it]                                                            5%|▍         | 4758/100000 [2:36:33<39:02:29,  1.48s/it]  5%|▍         | 4759/100000 [2:36:35<38:16:54,  1.45s/it]                                                            5%|▍         | 4759/100000 [2:36:35<38:16:54,  1.45s/it]  5%|▍         | 4760/100000 [2:36:36<37:51:14,  1.43s/it]                                                            5%|▍         | 4760/100000 [2:36:36<37:51:14,  1.43s/it]  5%|▍         | 4761/100000 [2:36:37<36:59:27,  1.40s/it]                                                            5%|▍         | 4761/100000 [2:36:37<36:59:27,  1.40s/it]  5%|▍         | 4762/100000 [2:36:39<36:31:19,  1.38s/it]                                                            5%|▍         | 4762/100000 [2:36:39<36:31:19,  1.38s/it]  5%|▍         | 4763/100000 [2:36:40<35:59:45,  1.36s/it]                                                            5%|▍         | 4763/100000 [2:36:40<35:59:45,  1.36s/it]  5%|▍         | 4764/100000 [2:36:41<35:24:25,  1.34s/it]                                                            5%|▍         | 4764/100000 [2:36:41<35:24:25,  1.34s/it]  5%|▍         | 4765/100000 [2:36:42<34:47:43,  1.32s/it]                                                            5%|▍         | 4765/100000 [2:36:42<34:47:43,  1.32s/it]  5%|▍         | 4766/100000 [2:36:44<34:26:10,  1.30s/it]                                                            5%|▍         | 4766/100000 [2:36:44<34:26:10,  1.30s/it]  5%|▍         | 4767/100000 [2:36:45<33:58:52,  1.28s/it]                                                            5%|▍         | 4767/100000 [2:36:45<33:58:52,  1.28s/it]  5%|▍         | 4768/100000 [2:36:46<33:18:13,  1.26s/it]                                                            5%|▍         | 4768/100000 [2:36:46<33:18:13,  1.26s/it]  5%|▍         | 4769/100000 [2:36:47<33:01:55,  1.25s/it]                                                            5%|▍         | 4769/100000 [2:36:47<33:01:55,  1.25s/it]  5%|▍         | 4770/100000 [2:36:49<32:43:05,  1.24s/it]                                                            5%|▍         | 4770/100000 [2:36:49<32:43:05,  1.24s/it]  5%|▍         | 4771/100000 [2:36:50<32:13:35,  1.22s/it]                                                            5%|▍         | 4771/100000 [2:36:50<32:13:35,  1.22s/it]  5%|▍         | 4772/100000 [2:36:51<31:41:17,  1.20s/it]                                                            5%|▍         | 4772/100000 [2:36:51<31:41:17,  1.20s/it]  5%|▍         | 4773/100000 [2:36:52<31:03:53,  1.17s/it]                                                            5%|▍         | 4773/100000 [2:36:52<31:03:53,  1.17s/it]  5%|▍         | 4774/100000 [2:36:53<30:41:36,  1.16s/it]                                                            5%|▍         | 4774/100000 [2:36:53<30:41:36,  1.16s/it]  5%|▍         | 4775/100000 [2:36:54<30:19:21,  1.15s/it]                                                            5%|▍         | 4775/100000 [2:36:54<30:19:21,  1.15s/it]  5%|▍         | 4776/100000 [2:36:55<30:01:55,  1.14s/it]                                                            5%|▍         | 4776/100000 [2:36:55<30:01:55,  1.14s/it]  5%|▍         | 4777/100000 [2:36:56<29:27:27,  1.11s/it]                                                            5%|▍         | 4777/100000 [2:36:56<29:27:27,  1.11s/it]  5%|▍         | 4778/100000 [2:36:58<29:09:25,  1.10s/it]                                                            5%|▍         | 4778/100000 [2:36:58<29:09:25,  1.10s/it]  5%|▍         | 4779/100000 [2:36:59<28:38:02,  1.08s/it]                                                            5%|▍         | 4779/100000 [2:36:59<28:38:02,  1.08s/it]  5%|▍         | 4780/100000 [2:37:00<28:21:59,  1.07s/it]                                                            5%|▍         | 4780/100000 [2:37:00<28:21:59,  1.07s/it]  5%|▍         | 4781/100000 [2:37:01<27:56:18,  1.06s/it]                                                            5%|▍         | 4781/100000 [2:37:01<27:56:18,  1.06s/it]  5%|▍         | 4782/100000 [2:37:02<27:35:13,  1.04s/it]                                                            5%|▍         | 4782/100000 [2:37:02<27:35:13,  1.04s/it]  5%|▍         | 4783/100000 [2:37:03<27:06:52,  1.03s/it]                                                            5%|▍         | 4783/100000 [2:37:03<27:06:52,  1.03s/it]  5%|▍         | 4784/100000 [2:37:04<26:36:58,  1.01s/it]                                                            5%|▍         | 4784/100000 [2:37:04<26:36:58,  1.01s/it]  5%|▍         | 4785/100000 [2:37:05<26:05:04,  1.01it/s]                                                            5%|▍         | 4785/100000 [2:37:05<26:05:04,  1.01it/s]  5%|▍         | 4786/100000 [2:37:05<25:14:43,  1.05it/s]                                                            5%|▍         | 4786/100000 [2:37:05<25:14:43,  1.05it/s]  5%|▍         | 4787/100000 [2:37:18<113:49:29,  4.30s/it]                                                             5%|▍         | 4787/100000 [2:37:18<113:49:29,  4.30s/it]  5%|▍         | 4788/100000 [2:37:23<122:53:30,  4.65s/it]                                                             5%|▍         | 4788/100000 [2:37:23<122:53:30,  4.65s/it]  5%|▍         | 4789/100000 [2:37:27<121:49:19,  4.61s/it]                                                             5%|▍         | 4789/100000 [2:37:27<121:49:19,  4.61s/it]  5%|▍         | 4790/100000 [2:37:32<117:57:54,  4.46s/it]                                                             5%|▍         | 4790/100000 [2:37:32<117:57:54,  4.46s/it]  5%|▍         | 4791/100000 [2:37:35<110:51:05,  4.19s/it]                                                             5%|▍         | 4791/100000 [2:37:35<110:51:05,  4.19s/it]  5%|▍         | 4792/100000 [2:37:38<101:46:38,  3.85s/it]                                                             5%|▍         | 4792/100000 [2:37:38<101:46:38,  3.85s/it]  5%|▍         | 4793/100000 [2:37:41<94:58:23,  3.59s/it]                                                             5%|▍         | 4793/100000 [2:37:41<94:58:23,  3.59s/it]  5%|▍         | 4794/100000 [2:37:44<88:21:20,  3.34s/it]                                                            5%|▍         | 4794/100000 [2:37:44<88:21:20,  3.34s/it]  5%|▍         | 4795/100000 [2:37:47<82:33:17,  3.12s/it]                                                            5%|▍         | 4795/100000 [2:37:47<82:33:17,  3.12s/it]  5%|▍         | 4796/100000 [2:37:49<76:15:34,  2.88s/it]                                                            5%|▍         | 4796/100000 [2:37:49<76:15:34,  2.88s/it]  5%|▍         | 4797/100000 [2:37:51<70:27:33,  2.66s/it]                                                            5%|▍         | 4797/100000 [2:37:51<70:27:33,  2.66s/it]  5%|▍         | 4798/100000 [2:37:53<65:53:00,  2.49s/it]                                                            5%|▍         | 4798/100000 [2:37:53<65:53:00,  2.49s/it]  5%|▍         | 4799/100000 [2:37:55<61:33:34,  2.33s/it]                                                            5%|▍         | 4799/100000 [2:37:55<61:33:34,  2.33s/it]  5%|▍         | 4800/100000 [2:37:57<57:45:42,  2.18s/it]                                                            5%|▍         | 4800/100000 [2:37:57<57:45:42,  2.18s/it]  5%|▍         | 4801/100000 [2:37:59<53:39:14,  2.03s/it]                                                            5%|▍         | 4801/100000 [2:37:59<53:39:14,  2.03s/it]  5%|▍         | 4802/100000 [2:38:00<51:06:17,  1.93s/it]                                                            5%|▍         | 4802/100000 [2:38:00<51:06:17,  1.93s/it]  5%|▍         | 4803/100000 [2:38:02<48:54:30,  1.85s/it]                                                            5%|▍         | 4803/100000 [2:38:02<48:54:30,  1.85s/it]  5%|▍         | 4804/100000 [2:38:04<46:35:35,  1.76s/it]                                                            5%|▍         | 4804/100000 [2:38:04<46:35:35,  1.76s/it]  5%|▍         | 4805/100000 [2:38:05<44:58:32,  1.70s/it]                                                            5%|▍         | 4805/100000 [2:38:05<44:58:32,  1.70s/it]  5%|▍         | 4806/100000 [2:38:07<43:48:00,  1.66s/it]                                                            5%|▍         | 4806/100000 [2:38:07<43:48:00,  1.66s/it]  5%|▍         | 4807/100000 [2:38:08<42:21:55,  1.60s/it]                                                            5%|▍         | 4807/100000 [2:38:08<42:21:55,  1.60s/it]  5%|▍         | 4808/100000 [2:38:09<40:35:36,  1.54s/it]                                                            5%|▍         | 4808/100000 [2:38:10<40:35:36,  1.54s/it]  5%|▍         | 4809/100000 [2:38:11<39:50:59,  1.51s/it]                                                            5%|▍         | 4809/100000 [2:38:11<39:50:59,  1.51s/it]  5%|▍         | 4810/100000 [2:38:12<38:45:06,  1.47s/it]                                                            5%|▍         | 4810/100000 [2:38:12<38:45:06,  1.47s/it]  5%|▍         | 4811/100000 [2:38:14<37:53:20,  1.43s/it]                                                            5%|▍         | 4811/100000 [2:38:14<37:53:20,  1.43s/it]  5%|▍         | 4812/100000 [2:38:15<36:56:28,  1.40s/it]                                                            5%|▍         | 4812/100000 [2:38:15<36:56:28,  1.40s/it]  5%|▍         | 4813/100000 [2:38:16<36:32:16,  1.38s/it]                                                            5%|▍         | 4813/100000 [2:38:16<36:32:16,  1.38s/it]  5%|▍         | 4814/100000 [2:38:18<35:50:29,  1.36s/it]                                                            5%|▍         | 4814/100000 [2:38:18<35:50:29,  1.36s/it]  5%|▍         | 4815/100000 [2:38:19<35:26:12,  1.34s/it]                                                            5%|▍         | 4815/100000 [2:38:19<35:26:12,  1.34s/it]  5%|▍         | 4816/100000 [2:38:20<34:46:33,  1.32s/it]                                                            5%|▍         | 4816/100000 [2:38:20<34:46:33,  1.32s/it]  5%|▍         | 4817/100000 [2:38:21<34:27:14,  1.30s/it]                                                            5%|▍         | 4817/100000 [2:38:21<34:27:14,  1.30s/it]  5%|▍         | 4818/100000 [2:38:23<33:43:39,  1.28s/it]                                                            5%|▍         | 4818/100000 [2:38:23<33:43:39,  1.28s/it]  5%|▍         | 4819/100000 [2:38:24<33:21:28,  1.26s/it]                                                            5%|▍         | 4819/100000 [2:38:24<33:21:28,  1.26s/it]  5%|▍         | 4820/100000 [2:38:25<32:50:11,  1.24s/it]                                                            5%|▍         | 4820/100000 [2:38:25<32:50:11,  1.24s/it]  5%|▍         | 4821/100000 [2:38:26<31:50:07,  1.20s/it]                                                            5%|▍         | 4821/100000 [2:38:26<31:50:07,  1.20s/it]  5%|▍         | 4822/100000 [2:38:27<31:23:30,  1.19s/it]                                                            5%|▍         | 4822/100000 [2:38:27<31:23:30,  1.19s/it]  5%|▍         | 4823/100000 [2:38:28<30:39:40,  1.16s/it]                                                            5%|▍         | 4823/100000 [2:38:28<30:39:40,  1.16s/it]  5%|▍         | 4824/100000 [2:38:30<30:19:05,  1.15s/it]                                                            5%|▍         | 4824/100000 [2:38:30<30:19:05,  1.15s/it]  5%|▍         | 4825/100000 [2:38:31<30:10:30,  1.14s/it]                                                            5%|▍         | 4825/100000 [2:38:31<30:10:30,  1.14s/it]  5%|▍         | 4826/100000 [2:38:32<29:48:12,  1.13s/it]                                                            5%|▍         | 4826/100000 [2:38:32<29:48:12,  1.13s/it]  5%|▍         | 4827/100000 [2:38:33<29:28:29,  1.11s/it]                                                            5%|▍         | 4827/100000 [2:38:33<29:28:29,  1.11s/it]  5%|▍         | 4828/100000 [2:38:34<29:04:18,  1.10s/it]                                                            5%|▍         | 4828/100000 [2:38:34<29:04:18,  1.10s/it]  5%|▍         | 4829/100000 [2:38:35<28:51:12,  1.09s/it]                                                            5%|▍         | 4829/100000 [2:38:35<28:51:12,  1.09s/it]  5%|▍         | 4830/100000 [2:38:36<28:20:11,  1.07s/it]                                                            5%|▍         | 4830/100000 [2:38:36<28:20:11,  1.07s/it]  5%|▍         | 4831/100000 [2:38:37<27:49:25,  1.05s/it]                                                            5%|▍         | 4831/100000 [2:38:37<27:49:25,  1.05s/it]  5%|▍         | 4832/100000 [2:38:38<27:23:15,  1.04s/it]                                                            5%|▍         | 4832/100000 [2:38:38<27:23:15,  1.04s/it]  5%|��         | 4833/100000 [2:38:39<26:57:52,  1.02s/it]                                                            5%|▍         | 4833/100000 [2:38:39<26:57:52,  1.02s/it]  5%|▍         | 4834/100000 [2:38:40<26:25:22,  1.00it/s]                                                            5%|▍         | 4834/100000 [2:38:40<26:25:22,  1.00it/s]  5%|▍         | 4835/100000 [2:38:41<25:56:16,  1.02it/s]                                                            5%|▍         | 4835/100000 [2:38:41<25:56:16,  1.02it/s]  5%|▍         | 4836/100000 [2:38:42<25:08:38,  1.05it/s]                                                            5%|▍         | 4836/100000 [2:38:42<25:08:38,  1.05it/s]  5%|▍         | 4837/100000 [2:38:52<100:14:23,  3.79s/it]                                                             5%|▍         | 4837/100000 [2:38:52<100:14:23,  3.79s/it]  5%|▍         | 4838/100000 [2:38:58<113:45:06,  4.30s/it]                                                             5%|▍         | 4838/100000 [2:38:58<113:45:06,  4.30s/it]  5%|▍         | 4839/100000 [2:39:02<114:19:38,  4.33s/it]                                                             5%|▍         | 4839/100000 [2:39:02<114:19:38,  4.33s/it]  5%|▍         | 4840/100000 [2:39:06<108:18:43,  4.10s/it]                                                             5%|▍         | 4840/100000 [2:39:06<108:18:43,  4.10s/it]  5%|▍         | 4841/100000 [2:39:09<102:11:00,  3.87s/it]                                                           {'loss': 0.0391, 'grad_norm': 1.1906750202178955, 'learning_rate': 1.4262e-05, 'epoch': 8.78}
+{'loss': 0.0487, 'grad_norm': 0.592204213142395, 'learning_rate': 1.4265e-05, 'epoch': 8.78}
+{'loss': 0.0395, 'grad_norm': 0.6466925144195557, 'learning_rate': 1.4268000000000001e-05, 'epoch': 8.78}
+{'loss': 0.0301, 'grad_norm': 0.531396210193634, 'learning_rate': 1.4271000000000001e-05, 'epoch': 8.78}
+{'loss': 0.0415, 'grad_norm': 0.8401514887809753, 'learning_rate': 1.4274000000000001e-05, 'epoch': 8.78}
+{'loss': 0.0299, 'grad_norm': 0.6957353353500366, 'learning_rate': 1.4277e-05, 'epoch': 8.79}
+{'loss': 0.0373, 'grad_norm': 0.6141769289970398, 'learning_rate': 1.428e-05, 'epoch': 8.79}
+{'loss': 0.0712, 'grad_norm': 0.6922504901885986, 'learning_rate': 1.4283e-05, 'epoch': 8.79}
+{'loss': 0.025, 'grad_norm': 0.7587156891822815, 'learning_rate': 1.4286e-05, 'epoch': 8.79}
+{'loss': 0.0319, 'grad_norm': 0.4232429265975952, 'learning_rate': 1.4289e-05, 'epoch': 8.79}
+{'loss': 0.0451, 'grad_norm': 0.6227977871894836, 'learning_rate': 1.4292e-05, 'epoch': 8.8}
+{'loss': 0.0369, 'grad_norm': 0.5408965945243835, 'learning_rate': 1.4295e-05, 'epoch': 8.8}
+{'loss': 0.023, 'grad_norm': 0.45448073744773865, 'learning_rate': 1.4298000000000001e-05, 'epoch': 8.8}
+{'loss': 0.0174, 'grad_norm': 0.42481276392936707, 'learning_rate': 1.4301e-05, 'epoch': 8.8}
+{'loss': 0.0232, 'grad_norm': 0.4406210482120514, 'learning_rate': 1.4304e-05, 'epoch': 8.8}
+{'loss': 0.028, 'grad_norm': 0.7529833316802979, 'learning_rate': 1.4307e-05, 'epoch': 8.81}
+{'loss': 0.0386, 'grad_norm': 0.8267642855644226, 'learning_rate': 1.431e-05, 'epoch': 8.81}
+{'loss': 0.0436, 'grad_norm': 0.7792585492134094, 'learning_rate': 1.4313000000000002e-05, 'epoch': 8.81}
+{'loss': 0.0339, 'grad_norm': 0.6700918674468994, 'learning_rate': 1.4316000000000002e-05, 'epoch': 8.81}
+{'loss': 0.0412, 'grad_norm': 0.4729313552379608, 'learning_rate': 1.4319e-05, 'epoch': 8.81}
+{'loss': 0.0492, 'grad_norm': 0.7246980667114258, 'learning_rate': 1.4322e-05, 'epoch': 8.81}
+{'loss': 0.0213, 'grad_norm': 0.5295450091362, 'learning_rate': 1.4325e-05, 'epoch': 8.82}
+{'loss': 0.0266, 'grad_norm': 0.5199748873710632, 'learning_rate': 1.4328e-05, 'epoch': 8.82}
+{'loss': 0.0293, 'grad_norm': 0.5751835703849792, 'learning_rate': 1.4331e-05, 'epoch': 8.82}
+{'loss': 0.04, 'grad_norm': 0.6247977614402771, 'learning_rate': 1.4334e-05, 'epoch': 8.82}
+{'loss': 0.019, 'grad_norm': 0.44509533047676086, 'learning_rate': 1.4337e-05, 'epoch': 8.82}
+{'loss': 0.036, 'grad_norm': 1.0526492595672607, 'learning_rate': 1.434e-05, 'epoch': 8.83}
+{'loss': 0.0313, 'grad_norm': 0.4944753050804138, 'learning_rate': 1.4343000000000001e-05, 'epoch': 8.83}
+{'loss': 0.0512, 'grad_norm': 0.8059141635894775, 'learning_rate': 1.4346000000000001e-05, 'epoch': 8.83}
+{'loss': 0.0417, 'grad_norm': 0.8032324314117432, 'learning_rate': 1.4349000000000001e-05, 'epoch': 8.83}
+{'loss': 0.2946, 'grad_norm': 1.1484620571136475, 'learning_rate': 1.4352e-05, 'epoch': 8.83}
+{'loss': 0.2373, 'grad_norm': 0.8292638063430786, 'learning_rate': 1.4355e-05, 'epoch': 8.83}
+{'loss': 0.2248, 'grad_norm': 0.7926152944564819, 'learning_rate': 1.4358e-05, 'epoch': 8.84}
+{'loss': 0.1743, 'grad_norm': 0.909888744354248, 'learning_rate': 1.4361e-05, 'epoch': 8.84}
+{'loss': 0.2385, 'grad_norm': 1.0106759071350098, 'learning_rate': 1.4364e-05, 'epoch': 8.84}
+{'loss': 0.1138, 'grad_norm': 0.668520450592041, 'learning_rate': 1.4367e-05, 'epoch': 8.84}
+{'loss': 0.1626, 'grad_norm': 0.7502413988113403, 'learning_rate': 1.437e-05, 'epoch': 8.84}
+{'loss': 0.1745, 'grad_norm': 0.8197979927062988, 'learning_rate': 1.4373000000000001e-05, 'epoch': 8.85}
+{'loss': 0.1643, 'grad_norm': 0.7981426119804382, 'learning_rate': 1.4376000000000001e-05, 'epoch': 8.85}
+{'loss': 0.1304, 'grad_norm': 0.7516316175460815, 'learning_rate': 1.4379e-05, 'epoch': 8.85}
+{'loss': 0.1273, 'grad_norm': 0.6946542263031006, 'learning_rate': 1.4382e-05, 'epoch': 8.85}
+{'loss': 0.1079, 'grad_norm': 0.6469597816467285, 'learning_rate': 1.4385e-05, 'epoch': 8.85}
+{'loss': 0.1114, 'grad_norm': 0.7252698540687561, 'learning_rate': 1.4388000000000002e-05, 'epoch': 8.86}
+{'loss': 0.0745, 'grad_norm': 0.569025456905365, 'learning_rate': 1.4391000000000002e-05, 'epoch': 8.86}
+{'loss': 0.078, 'grad_norm': 0.9024773836135864, 'learning_rate': 1.4394e-05, 'epoch': 8.86}
+{'loss': 0.0585, 'grad_norm': 0.5917884111404419, 'learning_rate': 1.4397e-05, 'epoch': 8.86}
+{'loss': 0.0345, 'grad_norm': 0.6219111680984497, 'learning_rate': 1.44e-05, 'epoch': 8.86}
+{'loss': 0.0642, 'grad_norm': 0.46978530287742615, 'learning_rate': 1.4403e-05, 'epoch': 8.86}
+{'loss': 0.0584, 'grad_norm': 0.7603000998497009, 'learning_rate': 1.4406e-05, 'epoch': 8.87}
+{'loss': 0.0394, 'grad_norm': 0.9757034182548523, 'learning_rate': 1.4409e-05, 'epoch': 8.87}
+{'loss': 0.0591, 'grad_norm': 0.5145926475524902, 'learning_rate': 1.4412e-05, 'epoch': 8.87}
+{'loss': 0.0198, 'grad_norm': 0.40463876724243164, 'learning_rate': 1.4415e-05, 'epoch': 8.87}
+{'loss': 0.0331, 'grad_norm': 0.4177763760089874, 'learning_rate': 1.4418000000000002e-05, 'epoch': 8.87}
+{'loss': 0.0333, 'grad_norm': 0.4561941921710968, 'learning_rate': 1.4421000000000001e-05, 'epoch': 8.88}
+{'loss': 0.0231, 'grad_norm': 0.36311978101730347, 'learning_rate': 1.4424000000000001e-05, 'epoch': 8.88}
+{'loss': 0.0263, 'grad_norm': 0.6601563096046448, 'learning_rate': 1.4427000000000001e-05, 'epoch': 8.88}
+{'loss': 0.0271, 'grad_norm': 0.49798139929771423, 'learning_rate': 1.4429999999999999e-05, 'epoch': 8.88}
+{'loss': 0.0381, 'grad_norm': 0.5754868388175964, 'learning_rate': 1.4433e-05, 'epoch': 8.88}
+{'loss': 0.0344, 'grad_norm': 0.6019905209541321, 'learning_rate': 1.4436e-05, 'epoch': 8.88}
+{'loss': 0.0229, 'grad_norm': 0.39315265417099, 'learning_rate': 1.4439e-05, 'epoch': 8.89}
+{'loss': 0.018, 'grad_norm': 0.4014921486377716, 'learning_rate': 1.4442e-05, 'epoch': 8.89}
+{'loss': 0.0272, 'grad_norm': 0.5342328548431396, 'learning_rate': 1.4445e-05, 'epoch': 8.89}
+{'loss': 0.0189, 'grad_norm': 0.5129212141036987, 'learning_rate': 1.4448e-05, 'epoch': 8.89}
+{'loss': 0.0205, 'grad_norm': 0.4567769169807434, 'learning_rate': 1.4451000000000001e-05, 'epoch': 8.89}
+{'loss': 0.0312, 'grad_norm': 0.5290626287460327, 'learning_rate': 1.4454000000000001e-05, 'epoch': 8.9}
+{'loss': 0.0266, 'grad_norm': 0.5846696496009827, 'learning_rate': 1.4457e-05, 'epoch': 8.9}
+{'loss': 0.0623, 'grad_norm': 0.9421910643577576, 'learning_rate': 1.446e-05, 'epoch': 8.9}
+{'loss': 0.0336, 'grad_norm': 0.532992422580719, 'learning_rate': 1.4463e-05, 'epoch': 8.9}
+{'loss': 0.0262, 'grad_norm': 0.4452487826347351, 'learning_rate': 1.4466e-05, 'epoch': 8.9}
+{'loss': 0.0392, 'grad_norm': 0.6956632733345032, 'learning_rate': 1.4469e-05, 'epoch': 8.9}
+{'loss': 0.0369, 'grad_norm': 0.6956707835197449, 'learning_rate': 1.4472e-05, 'epoch': 8.91}
+{'loss': 0.0269, 'grad_norm': 0.5482403635978699, 'learning_rate': 1.4475e-05, 'epoch': 8.91}
+{'loss': 0.0346, 'grad_norm': 0.5756843686103821, 'learning_rate': 1.4478e-05, 'epoch': 8.91}
+{'loss': 0.0266, 'grad_norm': 0.3994274437427521, 'learning_rate': 1.4481e-05, 'epoch': 8.91}
+{'loss': 0.0301, 'grad_norm': 0.5239002108573914, 'learning_rate': 1.4484e-05, 'epoch': 8.91}
+{'loss': 0.0362, 'grad_norm': 0.5991451740264893, 'learning_rate': 1.4487e-05, 'epoch': 8.92}
+{'loss': 0.0286, 'grad_norm': 0.5694364905357361, 'learning_rate': 1.449e-05, 'epoch': 8.92}
+{'loss': 0.0487, 'grad_norm': 0.8278652429580688, 'learning_rate': 1.4493e-05, 'epoch': 8.92}
+{'loss': 0.0332, 'grad_norm': 0.6823614835739136, 'learning_rate': 1.4496000000000001e-05, 'epoch': 8.92}
+{'loss': 0.0489, 'grad_norm': 1.0626842975616455, 'learning_rate': 1.4499000000000001e-05, 'epoch': 8.92}
+{'loss': 0.295, 'grad_norm': 1.330648422241211, 'learning_rate': 1.4502000000000001e-05, 'epoch': 8.93}
+{'loss': 0.2178, 'grad_norm': 0.8124020099639893, 'learning_rate': 1.4505e-05, 'epoch': 8.93}
+{'loss': 0.2638, 'grad_norm': 1.0896893739700317, 'learning_rate': 1.4507999999999999e-05, 'epoch': 8.93}
+{'loss': 0.2023, 'grad_norm': 1.3501861095428467, 'learning_rate': 1.4511e-05, 'epoch': 8.93}
+  5%|▍         | 4841/100000 [2:39:09<102:11:00,  3.87s/it]  5%|▍         | 4842/100000 [2:39:12<95:09:37,  3.60s/it]                                                             5%|▍         | 4842/100000 [2:39:12<95:09:37,  3.60s/it]  5%|▍         | 4843/100000 [2:39:15<88:06:55,  3.33s/it]                                                            5%|▍         | 4843/100000 [2:39:15<88:06:55,  3.33s/it]  5%|▍         | 4844/100000 [2:39:17<80:49:25,  3.06s/it]                                                            5%|▍         | 4844/100000 [2:39:17<80:49:25,  3.06s/it]  5%|▍         | 4845/100000 [2:39:19<74:09:53,  2.81s/it]                                                            5%|▍         | 4845/100000 [2:39:19<74:09:53,  2.81s/it]  5%|▍         | 4846/100000 [2:39:21<67:57:31,  2.57s/it]                                                            5%|▍         | 4846/100000 [2:39:21<67:57:31,  2.57s/it]  5%|▍         | 4847/100000 [2:39:23<62:46:55,  2.38s/it]                                                            5%|▍         | 4847/100000 [2:39:23<62:46:55,  2.38s/it]  5%|▍         | 4848/100000 [2:39:25<57:57:38,  2.19s/it]                                                            5%|▍         | 4848/100000 [2:39:25<57:57:38,  2.19s/it]  5%|▍         | 4849/100000 [2:39:27<54:10:35,  2.05s/it]                                                            5%|▍         | 4849/100000 [2:39:27<54:10:35,  2.05s/it]  5%|▍         | 4850/100000 [2:39:28<50:48:52,  1.92s/it]                                                            5%|▍         | 4850/100000 [2:39:28<50:48:52,  1.92s/it]  5%|▍         | 4851/100000 [2:39:30<48:08:08,  1.82s/it]                                                            5%|▍         | 4851/100000 [2:39:30<48:08:08,  1.82s/it]  5%|▍         | 4852/100000 [2:39:31<45:36:31,  1.73s/it]                                                            5%|▍         | 4852/100000 [2:39:31<45:36:31,  1.73s/it]  5%|▍         | 4853/100000 [2:39:33<43:28:28,  1.64s/it]                                                            5%|▍         | 4853/100000 [2:39:33<43:28:28,  1.64s/it]  5%|▍         | 4854/100000 [2:39:34<41:45:08,  1.58s/it]                                                            5%|▍         | 4854/100000 [2:39:34<41:45:08,  1.58s/it]  5%|▍         | 4855/100000 [2:39:36<40:21:00,  1.53s/it]                                                            5%|▍         | 4855/100000 [2:39:36<40:21:00,  1.53s/it]  5%|▍         | 4856/100000 [2:39:37<39:10:25,  1.48s/it]                                                            5%|▍         | 4856/100000 [2:39:37<39:10:25,  1.48s/it]  5%|▍         | 4857/100000 [2:39:38<38:08:12,  1.44s/it]                                                            5%|▍         | 4857/100000 [2:39:38<38:08:12,  1.44s/it]  5%|▍         | 4858/100000 [2:39:40<37:15:19,  1.41s/it]                                                            5%|▍         | 4858/100000 [2:39:40<37:15:19,  1.41s/it]  5%|▍         | 4859/100000 [2:39:41<36:26:41,  1.38s/it]                                                            5%|▍         | 4859/100000 [2:39:41<36:26:41,  1.38s/it]  5%|▍         | 4860/100000 [2:39:42<35:24:54,  1.34s/it]                                                            5%|▍         | 4860/100000 [2:39:42<35:24:54,  1.34s/it]  5%|▍         | 4861/100000 [2:39:44<34:53:47,  1.32s/it]                                                            5%|▍         | 4861/100000 [2:39:44<34:53:47,  1.32s/it]  5%|▍         | 4862/100000 [2:39:45<34:17:07,  1.30s/it]                                                            5%|▍         | 4862/100000 [2:39:45<34:17:07,  1.30s/it]  5%|▍         | 4863/100000 [2:39:46<33:42:04,  1.28s/it]                                                            5%|▍         | 4863/100000 [2:39:46<33:42:04,  1.28s/it]  5%|▍         | 4864/100000 [2:39:47<32:46:38,  1.24s/it]                                                            5%|▍         | 4864/100000 [2:39:47<32:46:38,  1.24s/it]  5%|▍         | 4865/100000 [2:39:48<32:10:40,  1.22s/it]                                                            5%|▍         | 4865/100000 [2:39:48<32:10:40,  1.22s/it]  5%|▍         | 4866/100000 [2:39:50<31:37:09,  1.20s/it]                                                            5%|▍         | 4866/100000 [2:39:50<31:37:09,  1.20s/it]  5%|▍         | 4867/100000 [2:39:51<31:08:59,  1.18s/it]                                                            5%|▍         | 4867/100000 [2:39:51<31:08:59,  1.18s/it]  5%|▍         | 4868/100000 [2:39:52<30:38:08,  1.16s/it]                                                            5%|▍         | 4868/100000 [2:39:52<30:38:08,  1.16s/it]  5%|▍         | 4869/100000 [2:39:53<29:45:02,  1.13s/it]                                                            5%|▍         | 4869/100000 [2:39:53<29:45:02,  1.13s/it]  5%|▍         | 4870/100000 [2:39:54<29:30:39,  1.12s/it]                                                            5%|▍         | 4870/100000 [2:39:54<29:30:39,  1.12s/it]  5%|▍         | 4871/100000 [2:39:55<29:09:38,  1.10s/it]                                                            5%|▍         | 4871/100000 [2:39:55<29:09:38,  1.10s/it]  5%|▍         | 4872/100000 [2:39:56<28:42:41,  1.09s/it]                                                            5%|▍         | 4872/100000 [2:39:56<28:42:41,  1.09s/it]  5%|▍         | 4873/100000 [2:39:57<28:16:54,  1.07s/it]                                                            5%|▍         | 4873/100000 [2:39:57<28:16:54,  1.07s/it]  5%|▍         | 4874/100000 [2:39:58<27:32:18,  1.04s/it]                                                            5%|▍         | 4874/100000 [2:39:58<27:32:18,  1.04s/it]  5%|▍         | 4875/100000 [2:39:59<26:41:55,  1.01s/it]                                                            5%|▍         | 4875/100000 [2:39:59<26:41:55,  1.01s/it]  5%|▍         | 4876/100000 [2:40:00<26:03:58,  1.01it/s]                                                            5%|▍         | 4876/100000 [2:40:00<26:03:58,  1.01it/s]  5%|▍         | 4877/100000 [2:40:01<24:57:58,  1.06it/s]                                                            5%|▍         | 4877/100000 [2:40:01<24:57:58,  1.06it/s]  5%|▍         | 4878/100000 [2:40:02<24:08:21,  1.09it/s]                                                            5%|▍         | 4878/100000 [2:40:02<24:08:21,  1.09it/s]{'loss': 0.142, 'grad_norm': 0.8362381458282471, 'learning_rate': 1.4514e-05, 'epoch': 8.93}
+{'loss': 0.1191, 'grad_norm': 0.6680560111999512, 'learning_rate': 1.4517e-05, 'epoch': 8.93}
+{'loss': 0.1294, 'grad_norm': 0.6559258103370667, 'learning_rate': 1.452e-05, 'epoch': 8.94}
+{'loss': 0.143, 'grad_norm': 1.0417401790618896, 'learning_rate': 1.4523e-05, 'epoch': 8.94}
+{'loss': 0.1465, 'grad_norm': 1.0837085247039795, 'learning_rate': 1.4526000000000001e-05, 'epoch': 8.94}
+{'loss': 0.0799, 'grad_norm': 0.5968208312988281, 'learning_rate': 1.4529000000000001e-05, 'epoch': 8.94}
+{'loss': 0.0643, 'grad_norm': 0.495822012424469, 'learning_rate': 1.4532e-05, 'epoch': 8.94}
+{'loss': 0.0953, 'grad_norm': 0.7860730886459351, 'learning_rate': 1.4535e-05, 'epoch': 8.95}
+{'loss': 0.0703, 'grad_norm': 0.5441517233848572, 'learning_rate': 1.4538e-05, 'epoch': 8.95}
+{'loss': 0.039, 'grad_norm': 0.5062694549560547, 'learning_rate': 1.4541e-05, 'epoch': 8.95}
+{'loss': 0.0599, 'grad_norm': 0.6828703880310059, 'learning_rate': 1.4544e-05, 'epoch': 8.95}
+{'loss': 0.0811, 'grad_norm': 0.5830159187316895, 'learning_rate': 1.4547e-05, 'epoch': 8.95}
+{'loss': 0.0283, 'grad_norm': 0.44063887000083923, 'learning_rate': 1.455e-05, 'epoch': 8.95}
+{'loss': 0.0335, 'grad_norm': 0.5686138868331909, 'learning_rate': 1.4553e-05, 'epoch': 8.96}
+{'loss': 0.0349, 'grad_norm': 0.6429723501205444, 'learning_rate': 1.4556000000000001e-05, 'epoch': 8.96}
+{'loss': 0.0238, 'grad_norm': 0.43935972452163696, 'learning_rate': 1.4559e-05, 'epoch': 8.96}
+{'loss': 0.029, 'grad_norm': 0.5402309894561768, 'learning_rate': 1.4562e-05, 'epoch': 8.96}
+{'loss': 0.0632, 'grad_norm': 0.7583809494972229, 'learning_rate': 1.4565e-05, 'epoch': 8.96}
+{'loss': 0.0397, 'grad_norm': 0.5806187391281128, 'learning_rate': 1.4568e-05, 'epoch': 8.97}
+{'loss': 0.0358, 'grad_norm': 0.4688240587711334, 'learning_rate': 1.4571000000000002e-05, 'epoch': 8.97}
+{'loss': 0.0313, 'grad_norm': 0.6508371829986572, 'learning_rate': 1.4574000000000001e-05, 'epoch': 8.97}
+{'loss': 0.0347, 'grad_norm': 0.5394099950790405, 'learning_rate': 1.4577e-05, 'epoch': 8.97}
+{'loss': 0.014, 'grad_norm': 0.2626785635948181, 'learning_rate': 1.458e-05, 'epoch': 8.97}
+{'loss': 0.0326, 'grad_norm': 0.7136227488517761, 'learning_rate': 1.4582999999999999e-05, 'epoch': 8.98}
+{'loss': 0.024, 'grad_norm': 0.5395230054855347, 'learning_rate': 1.4586e-05, 'epoch': 8.98}
+{'loss': 0.038, 'grad_norm': 0.5298368334770203, 'learning_rate': 1.4589e-05, 'epoch': 8.98}
+{'loss': 0.0362, 'grad_norm': 0.6000943779945374, 'learning_rate': 1.4592e-05, 'epoch': 8.98}
+{'loss': 0.0466, 'grad_norm': 0.5490943193435669, 'learning_rate': 1.4595e-05, 'epoch': 8.98}
+{'loss': 0.035, 'grad_norm': 0.5911248326301575, 'learning_rate': 1.4598e-05, 'epoch': 8.98}
+{'loss': 0.0173, 'grad_norm': 0.5520859956741333, 'learning_rate': 1.4601000000000001e-05, 'epoch': 8.99}
+{'loss': 0.0276, 'grad_norm': 0.45630595088005066, 'learning_rate': 1.4604000000000001e-05, 'epoch': 8.99}
+{'loss': 0.0223, 'grad_norm': 0.4523727297782898, 'learning_rate': 1.4607000000000001e-05, 'epoch': 8.99}
+{'loss': 0.0301, 'grad_norm': 0.5295506119728088, 'learning_rate': 1.461e-05, 'epoch': 8.99}
+{'loss': 0.0329, 'grad_norm': 0.6663303375244141, 'learning_rate': 1.4613e-05, 'epoch': 8.99}
+{'loss': 0.0316, 'grad_norm': 0.7034157514572144, 'learning_rate': 1.4616e-05, 'epoch': 9.0}
+{'loss': 0.0348, 'grad_norm': 0.5341060161590576, 'learning_rate': 1.4619e-05, 'epoch': 9.0}
+{'loss': 0.0454, 'grad_norm': 0.8159637451171875, 'learning_rate': 1.4622e-05, 'epoch': 9.0}
+{'loss': 0.0281, 'grad_norm': 0.6270403265953064, 'learning_rate': 1.4625e-05, 'epoch': 9.0}
+  5%|▍         | 4879/100000 [2:40:19<156:02:26,  5.91s/it]                                                             5%|▍         | 4879/100000 [2:40:19<156:02:26,  5.91s/it]  5%|▍         | 4880/100000 [2:40:25<152:13:49,  5.76s/it]                                                             5%|▍         | 4880/100000 [2:40:25<152:13:49,  5.76s/it]  5%|▍         | 4881/100000 [2:40:29<141:34:36,  5.36s/it]                                                             5%|▍         | 4881/100000 [2:40:29<141:34:36,  5.36s/it]  5%|▍         | 4882/100000 [2:40:33<131:07:35,  4.96s/it]                                                             5%|▍         | 4882/100000 [2:40:33<131:07:35,  4.96s/it]  5%|▍         | 4883/100000 [2:40:37<119:08:59,  4.51s/it]                                                             5%|▍         | 4883/100000 [2:40:37<119:08:59,  4.51s/it]  5%|▍         | 4884/100000 [2:40:40<108:25:38,  4.10s/it]                                                             5%|▍         | 4884/100000 [2:40:40<108:25:38,  4.10s/it]  5%|▍         | 4885/100000 [2:40:43<99:14:46,  3.76s/it]                                                             5%|▍         | 4885/100000 [2:40:43<99:14:46,  3.76s/it]  5%|▍         | 4886/100000 [2:40:45<91:19:10,  3.46s/it]                                                            5%|▍         | 4886/100000 [2:40:45<91:19:10,  3.46s/it]  5%|▍         | 4887/100000 [2:40:48<83:33:23,  3.16s/it]                                                            5%|▍         | 4887/100000 [2:40:48<83:33:23,  3.16s/it]  5%|▍         | 4888/100000 [2:40:50<77:00:52,  2.92s/it]                                                            5%|▍         | 4888/100000 [2:40:50<77:00:52,  2.92s/it]  5%|▍         | 4889/100000 [2:40:52<70:58:07,  2.69s/it]                                                            5%|▍         | 4889/100000 [2:40:52<70:58:07,  2.69s/it]  5%|▍         | 4890/100000 [2:40:54<65:18:24,  2.47s/it]                                                            5%|▍         | 4890/100000 [2:40:54<65:18:24,  2.47s/it]  5%|▍         | 4891/100000 [2:40:56<60:37:52,  2.29s/it]                                                            5%|▍         | 4891/100000 [2:40:56<60:37:52,  2.29s/it]  5%|▍         | 4892/100000 [2:40:58<56:30:40,  2.14s/it]                                                            5%|▍         | 4892/100000 [2:40:58<56:30:40,  2.14s/it]  5%|▍         | 4893/100000 [2:41:00<53:11:37,  2.01s/it]                                                            5%|▍         | 4893/100000 [2:41:00<53:11:37,  2.01s/it]  5%|▍         | 4894/100000 [2:41:01<50:26:45,  1.91s/it]                                                            5%|▍         | 4894/100000 [2:41:01<50:26:45,  1.91s/it]  5%|▍         | 4895/100000 [2:41:03<47:57:40,  1.82s/it]                                                            5%|▍         | 4895/100000 [2:41:03<47:57:40,  1.82s/it]  5%|▍         | 4896/100000 [2:41:05<46:09:24,  1.75s/it]                                                            5%|▍         | 4896/100000 [2:41:05<46:09:24,  1.75s/it]  5%|▍         | 4897/100000 [2:41:06<44:15:41,  1.68s/it]                                                            5%|▍         | 4897/100000 [2:41:06<44:15:41,  1.68s/it]  5%|▍         | 4898/100000 [2:41:08<42:48:07,  1.62s/it]                                                            5%|▍         | 4898/100000 [2:41:08<42:48:07,  1.62s/it]  5%|▍         | 4899/100000 [2:41:09<41:23:52,  1.57s/it]                                                            5%|▍         | 4899/100000 [2:41:09<41:23:52,  1.57s/it]  5%|▍         | 4900/100000 [2:41:10<40:12:56,  1.52s/it]                                                            5%|▍         | 4900/100000 [2:41:10<40:12:56,  1.52s/it]  5%|▍         | 4901/100000 [2:41:12<39:09:02,  1.48s/it]                                                            5%|▍         | 4901/100000 [2:41:12<39:09:02,  1.48s/it]  5%|▍         | 4902/100000 [2:41:13<38:09:15,  1.44s/it]                                                            5%|▍         | 4902/100000 [2:41:13<38:09:15,  1.44s/it]  5%|▍         | 4903/100000 [2:41:14<37:20:59,  1.41s/it]                                                            5%|▍         | 4903/100000 [2:41:14<37:20:59,  1.41s/it]  5%|▍         | 4904/100000 [2:41:16<36:44:44,  1.39s/it]                                                            5%|▍         | 4904/100000 [2:41:16<36:44:44,  1.39s/it]  5%|▍         | 4905/100000 [2:41:17<36:07:26,  1.37s/it]                                                            5%|▍         | 4905/100000 [2:41:17<36:07:26,  1.37s/it]  5%|▍         | 4906/100000 [2:41:18<35:33:10,  1.35s/it]                                                            5%|▍         | 4906/100000 [2:41:18<35:33:10,  1.35s/it]  5%|▍         | 4907/100000 [2:41:20<34:47:16,  1.32s/it]                                                            5%|▍         | 4907/100000 [2:41:20<34:47:16,  1.32s/it]  5%|▍         | 4908/100000 [2:41:21<34:24:11,  1.30s/it]                                                            5%|▍         | 4908/100000 [2:41:21<34:24:11,  1.30s/it]  5%|▍         | 4909/100000 [2:41:22<33:58:25,  1.29s/it]                                                            5%|▍         | 4909/100000 [2:41:22<33:58:25,  1.29s/it]  5%|▍         | 4910/100000 [2:41:23<33:25:51,  1.27s/it]                                                            5%|▍         | 4910/100000 [2:41:23<33:25:51,  1.27s/it]  5%|▍         | 4911/100000 [2:41:25<33:03:47,  1.25s/it]                                                            5%|▍         | 4911/100000 [2:41:25<33:03:47,  1.25s/it]  5%|▍         | 4912/100000 [2:41:26<32:22:08,  1.23s/it]                                                            5%|▍         | 4912/100000 [2:41:26<32:22:08,  1.23s/it]  5%|▍         | 4913/100000 [2:41:27<31:54:42,  1.21s/it]                                                            5%|▍         | 4913/100000 [2:41:27<31:54:42,  1.21s/it]  5%|▍         | 4914/100000 [2:41:28<31:15:15,  1.18s/it]                                                            5%|▍         | 4914/100000 [2:41:28<31:15:15,  1.18s/it]  5%|▍         | 4915/100000 [2:41:29<30:53:58,  1.17s/it]                                                            5%|▍         | 4915/100000 [2:41:29<30:53:58,  1.17s/it]  5%|▍         | 4916/100000 [2:41:30<30:28:52,  1.15s/it]                                                            5%|▍         | 4916/100000 [2:41:30<30:28:52,  1.15s/it]  5%|▍         | 4917/100000 [2:41:31<29:57:19,  1.13s/it]                                                            5%|▍         | 4917/100000 [2:41:31<29:57:19,  1.13s/it]  5%|▍         | 4918/100000 [2:41:33<29:42:46,  1.12s/it]                                                            5%|▍         | 4918/100000 [2:41:33<29:42:46,  1.12s/it]  5%|▍         | 4919/100000 [2:41:34<29:15:57,  1.11s/it]                                                            5%|▍         | 4919/100000 [2:41:34<29:15:57,  1.11s/it]  5%|▍         | 4920/100000 [2:41:35<29:05:38,  1.10s/it]                                                            5%|▍         | 4920/100000 [2:41:35<29:05:38,  1.10s/it]  5%|▍         | 4921/100000 [2:41:36<28:45:11,  1.09s/it]                                                            5%|▍         | 4921/100000 [2:41:36<28:45:11,  1.09s/it]  5%|▍         | 4922/100000 [2:41:37<28:20:41,  1.07s/it]                                                            5%|▍         | 4922/100000 [2:41:37<28:20:41,  1.07s/it]  5%|▍         | 4923/100000 [2:41:38<27:40:23,  1.05s/it]                                                            5%|▍         | 4923/100000 [2:41:38<27:40:23,  1.05s/it]  5%|▍         | 4924/100000 [2:41:39<27:06:12,  1.03s/it]                                                            5%|▍         | 4924/100000 [2:41:39<27:06:12,  1.03s/it]  5%|▍         | 4925/100000 [2:41:40<26:41:18,  1.01s/it]                                                            5%|▍         | 4925/100000 [2:41:40<26:41:18,  1.01s/it]  5%|▍         | 4926/100000 [2:41:41<26:04:51,  1.01it/s]                                                            5%|▍         | 4926/100000 [2:41:41<26:04:51,  1.01it/s]  5%|▍         | 4927/100000 [2:41:42<25:34:07,  1.03it/s]                                                            5%|▍         | 4927/100000 [2:41:42<25:34:07,  1.03it/s]  5%|▍         | 4928/100000 [2:41:42<24:52:33,  1.06it/s]                                                            5%|▍         | 4928/100000 [2:41:42<24:52:33,  1.06it/s]  5%|▍         | 4929/100000 [2:41:53<103:25:59,  3.92s/it]                                                             5%|▍         | 4929/100000 [2:41:53<103:25:59,  3.92s/it]  5%|▍         | 4930/100000 [2:41:59<118:47:11,  4.50s/it]                                                             5%|▍         | 4930/100000 [2:41:59<118:47:11,  4.50s/it]  5%|▍         | 4931/100000 [2:42:04<121:18:31,  4.59s/it]                                                             5%|▍         | 4931/100000 [2:42:04<121:18:31,  4.59s/it]  5%|▍         | 4932/100000 [2:42:08<116:17:56,  4.40s/it]                                                             5%|▍         | 4932/100000 [2:42:08<116:17:56,  4.40s/it]  5%|▍         | 4933/100000 [2:42:12<109:45:04,  4.16s/it]                                                             5%|▍         | 4933/100000 [2:42:12<109:45:04,  4.16s/it]  5%|▍         | 4934/100000 [2:42:15<102:01:31,  3.86s/it]                                                             5%|▍         | 4934/100000 [2:42:15<102:01:31,  3.86s/it]  5%|▍         | 4935/100000 [2:42:18<94:45:04,  3.59s/it]                                                             5%|▍         | 4935/100000 [2:42:18<94:45:04,  3.59s/it]  5%|▍         | 4936/100000 [2:42:20<87:52:41,  3.33s/it]                                                            5%|▍         | 4936/100000 [2:42:20<87:52:41,  3.33s/it]  5%|▍         | 4937/100000 [2:42:23<81:28:20,  3.09s/it]                                                            5%|▍         | 4937/100000 [2:42:23<81:28:20,  3.09s/it]  5%|▍         | 4938/100000 [2:42:25<75:45:51,  2.87s/it]                                                            5%|▍         | 4938/100000 [2:42:25<75:45:51,  2.87s/it]  5%|▍         | 4939/100000 [2:42:27<70:20:24,  2.66s/it]                                                            5%|▍         | 4939/100000 [2:42:27<70:20:24,  2.66s/it]  5%|▍         | 4940/100000 [2:42:29<65:02:15,  2.46s/it]                                                            5%|▍         | 4940/100000 [2:42:29<65:02:15,  2.46s/it]  5%|▍         | 4941/100000 [2:42:31<60:56:17,  2.31s/it]                                                            5%|▍         | 4941/100000 [2:42:31<60:56:17,  2.31s/it]  5%|▍         | 4942/100000 [2:42:33<57:26:15,  2.18s/it]                                                            5%|▍         | 4942/100000 [2:42:33<57:26:15,  2.18s/it]  5%|▍         | 4943/100000 [2:42:35<54:10:02,  2.05s/it]                                                            5%|▍         | 4943/100000 [2:42:35<54:10:02,  2.05s/it]  5%|▍         | 4944/100000 [2:42:37<51:22:56,  1.95s/it]                                                            5%|▍         | 4944/100000 [2:42:37<51:22:56,  1.95s/it]  5%|▍         | 4945/100000 [2:42:38<48:22:05,  1.83s/it]                                                            5%|▍         | 4945/100000 [2:42:38<48:22:05,  1.83s/it]  5%|▍         | 4946/100000 [2:42:40<46:17:13,  1.75s/it]                                                            5%|▍         | 4946/100000 [2:42:40<46:17:13,  1.75s/it]  5%|▍         | 4947/100000 [2:42:41<44:34:52,  1.69s/it]                                                            5%|▍         | 4947/100000 [2:42:41<44:34:52,  1.69s/it]  5%|▍         | 4948/100000 [2:42:43<42:42:20,  1.62s/it]                                                            5%|▍         | 4948/100000 [2:42:43<42:42:20,  1.62s/it]  5%|▍         | 4949/100000 [2:42:44<41:28:12,  1.57s/it]                                                            5%|▍         | 4949/100000 [2:42:44<41:28:12,  1.57s/it]  5%|▍         | 4950/100000 [2:42:46<40:08:47,  1.52s/it]                                                            5%|▍         | 4950/100000 [2:42:46<40:08:47,  1.52s/it]  5%|▍         | 4951/100000 [2:42:47<39:20:07,  1.49s/it]                                                            5%|▍         | 4951/100000 [2:42:47<39:20:07,  1.49s/it]  5%|▍         | 4952/100000 [2:42:49<38:41:47,  1.47s/it]                                                            5%|▍         | 4952/100000 [2:42:49<38:41:47,  1.47s/it]  5%|▍         | 4953/100000 [2:42:50<37:55:21,  1.44s/it]                                                            5%|▍         | 4953/100000 [2:42:50<37:55:21,  1.44s/it]  5%|▍         | 4954/100000 [2:42:51<37:13:31,  1.41s/it]                                                            5%|▍         | 4954/100000 [2:42:51<37:13:31,  1.41s/it]  5%|▍         | 4955/100000 [2:42:53<36:35:53,  1.39s/it]                                                            5%|▍         | 4955/100000 [2:42:53<36:35:53,  1.39s/it]  5%|▍         | 4956/100000 [2:42:54<36:00:35,  1.36s/it]                                                            5%|▍         | 4956/100000 [2:42:54<36:00:35,  1.36s/it]  5%|▍         | 4957/100000 [2:42:55<35:27:08,  1.34s/it]                                                            5%|▍         | 4957/100000 [2:42:55<35:27:08,  1.34s/it]  5%|▍         | 4958/100000 [2:42:56<34:59:19,  1.33s/it]                                                            5%|▍         | 4958/100000 [2:42:56<34:59:19,  1.33s/it]  5%|▍         | 4959/100000 [2:42:58<34:29:00,  1.31s/it]                                                            5%|▍         | 4959/100000 [2:42:58<34:29:00,  1.31s/it]  5%|▍         | 4960/100000 [2:42:59<33:42:54,  1.28s/it]                                                            5%|▍         | 4960/100000 [2:42:59<33:42:54,  1.28s/it]  5%|▍         | 4961/100000 [2:43:00<33:18:14,  1.26s/it]                                                            5%|▍         | 4961/100000 [2:43:00<33:18:14,  1.26s/it]  5%|▍         | 4962/100000 [2:43:01<32:53:29,  1.25s/it]                                                          {'loss': 0.2474, 'grad_norm': 0.7949193120002747, 'learning_rate': 1.4628e-05, 'epoch': 9.0}
+{'loss': 0.2327, 'grad_norm': 0.7404318451881409, 'learning_rate': 1.4631000000000001e-05, 'epoch': 9.0}
+{'loss': 0.2012, 'grad_norm': 0.704534649848938, 'learning_rate': 1.4634e-05, 'epoch': 9.01}
+{'loss': 0.187, 'grad_norm': 0.7474093437194824, 'learning_rate': 1.4637e-05, 'epoch': 9.01}
+{'loss': 0.2167, 'grad_norm': 0.8021607995033264, 'learning_rate': 1.464e-05, 'epoch': 9.01}
+{'loss': 0.184, 'grad_norm': 0.6698554754257202, 'learning_rate': 1.4643e-05, 'epoch': 9.01}
+{'loss': 0.0935, 'grad_norm': 0.5793368220329285, 'learning_rate': 1.4646000000000002e-05, 'epoch': 9.01}
+{'loss': 0.1459, 'grad_norm': 0.963193416595459, 'learning_rate': 1.4649000000000002e-05, 'epoch': 9.01}
+{'loss': 0.0893, 'grad_norm': 0.5509797930717468, 'learning_rate': 1.4652e-05, 'epoch': 9.02}
+{'loss': 0.1437, 'grad_norm': 0.5855543613433838, 'learning_rate': 1.4655e-05, 'epoch': 9.02}
+{'loss': 0.1161, 'grad_norm': 0.5491319894790649, 'learning_rate': 1.4658e-05, 'epoch': 9.02}
+{'loss': 0.0724, 'grad_norm': 0.6451462507247925, 'learning_rate': 1.4661e-05, 'epoch': 9.02}
+{'loss': 0.0917, 'grad_norm': 0.5323352217674255, 'learning_rate': 1.4664e-05, 'epoch': 9.02}
+{'loss': 0.0553, 'grad_norm': 0.5460320115089417, 'learning_rate': 1.4667e-05, 'epoch': 9.03}
+{'loss': 0.1156, 'grad_norm': 0.6950182914733887, 'learning_rate': 1.467e-05, 'epoch': 9.03}
+{'loss': 0.0439, 'grad_norm': 0.9646598696708679, 'learning_rate': 1.4673e-05, 'epoch': 9.03}
+{'loss': 0.0377, 'grad_norm': 0.4271436929702759, 'learning_rate': 1.4676000000000001e-05, 'epoch': 9.03}
+{'loss': 0.0372, 'grad_norm': 0.6988269686698914, 'learning_rate': 1.4679000000000001e-05, 'epoch': 9.03}
+{'loss': 0.0305, 'grad_norm': 0.4358237683773041, 'learning_rate': 1.4682000000000001e-05, 'epoch': 9.04}
+{'loss': 0.0283, 'grad_norm': 0.47687071561813354, 'learning_rate': 1.4685000000000001e-05, 'epoch': 9.04}
+{'loss': 0.0187, 'grad_norm': 0.589789628982544, 'learning_rate': 1.4687999999999999e-05, 'epoch': 9.04}
+{'loss': 0.05, 'grad_norm': 0.7305690050125122, 'learning_rate': 1.4691e-05, 'epoch': 9.04}
+{'loss': 0.0259, 'grad_norm': 0.3432635962963104, 'learning_rate': 1.4694e-05, 'epoch': 9.04}
+{'loss': 0.03, 'grad_norm': 0.3739214837551117, 'learning_rate': 1.4697e-05, 'epoch': 9.04}
+{'loss': 0.037, 'grad_norm': 0.5927174091339111, 'learning_rate': 1.47e-05, 'epoch': 9.05}
+{'loss': 0.0446, 'grad_norm': 0.7059500813484192, 'learning_rate': 1.4703e-05, 'epoch': 9.05}
+{'loss': 0.0214, 'grad_norm': 0.37194669246673584, 'learning_rate': 1.4706000000000001e-05, 'epoch': 9.05}
+{'loss': 0.056, 'grad_norm': 1.4105937480926514, 'learning_rate': 1.4709000000000001e-05, 'epoch': 9.05}
+{'loss': 0.029, 'grad_norm': 0.6077854037284851, 'learning_rate': 1.4712e-05, 'epoch': 9.05}
+{'loss': 0.0204, 'grad_norm': 0.4426223337650299, 'learning_rate': 1.4715e-05, 'epoch': 9.06}
+{'loss': 0.0545, 'grad_norm': 1.0114620923995972, 'learning_rate': 1.4718e-05, 'epoch': 9.06}
+{'loss': 0.0183, 'grad_norm': 0.5293107032775879, 'learning_rate': 1.4721000000000002e-05, 'epoch': 9.06}
+{'loss': 0.0342, 'grad_norm': 0.7033582329750061, 'learning_rate': 1.4724e-05, 'epoch': 9.06}
+{'loss': 0.0257, 'grad_norm': 0.4826132655143738, 'learning_rate': 1.4727e-05, 'epoch': 9.06}
+{'loss': 0.0249, 'grad_norm': 0.5029767155647278, 'learning_rate': 1.473e-05, 'epoch': 9.06}
+{'loss': 0.0197, 'grad_norm': 0.35271936655044556, 'learning_rate': 1.4733e-05, 'epoch': 9.07}
+{'loss': 0.017, 'grad_norm': 0.6118987202644348, 'learning_rate': 1.4736000000000001e-05, 'epoch': 9.07}
+{'loss': 0.0292, 'grad_norm': 0.4268760681152344, 'learning_rate': 1.4739e-05, 'epoch': 9.07}
+{'loss': 0.037, 'grad_norm': 0.6673272252082825, 'learning_rate': 1.4742e-05, 'epoch': 9.07}
+{'loss': 0.0386, 'grad_norm': 0.5449793934822083, 'learning_rate': 1.4745e-05, 'epoch': 9.07}
+{'loss': 0.0207, 'grad_norm': 0.45347753167152405, 'learning_rate': 1.4748e-05, 'epoch': 9.08}
+{'loss': 0.0185, 'grad_norm': 0.36634916067123413, 'learning_rate': 1.4751000000000002e-05, 'epoch': 9.08}
+{'loss': 0.0508, 'grad_norm': 0.9379186034202576, 'learning_rate': 1.4754000000000001e-05, 'epoch': 9.08}
+{'loss': 0.0271, 'grad_norm': 0.5121855139732361, 'learning_rate': 1.4757000000000001e-05, 'epoch': 9.08}
+{'loss': 0.0269, 'grad_norm': 1.2979964017868042, 'learning_rate': 1.4760000000000001e-05, 'epoch': 9.08}
+{'loss': 0.0234, 'grad_norm': 0.4717375934123993, 'learning_rate': 1.4762999999999999e-05, 'epoch': 9.08}
+{'loss': 0.0359, 'grad_norm': 1.4416847229003906, 'learning_rate': 1.4766e-05, 'epoch': 9.09}
+{'loss': 0.0437, 'grad_norm': 0.8894223570823669, 'learning_rate': 1.4769e-05, 'epoch': 9.09}
+{'loss': 0.0261, 'grad_norm': 0.4688844382762909, 'learning_rate': 1.4772e-05, 'epoch': 9.09}
+{'loss': 0.0194, 'grad_norm': 0.5282978415489197, 'learning_rate': 1.4775e-05, 'epoch': 9.09}
+{'loss': 0.3795, 'grad_norm': 0.9984002113342285, 'learning_rate': 1.4778e-05, 'epoch': 9.09}
+{'loss': 0.2978, 'grad_norm': 0.9583333134651184, 'learning_rate': 1.4781000000000001e-05, 'epoch': 9.1}
+{'loss': 0.2958, 'grad_norm': 0.9209781885147095, 'learning_rate': 1.4784000000000001e-05, 'epoch': 9.1}
+{'loss': 0.1974, 'grad_norm': 0.6429269313812256, 'learning_rate': 1.4787000000000001e-05, 'epoch': 9.1}
+{'loss': 0.2142, 'grad_norm': 0.8534770607948303, 'learning_rate': 1.479e-05, 'epoch': 9.1}
+{'loss': 0.1418, 'grad_norm': 0.6178396344184875, 'learning_rate': 1.4793e-05, 'epoch': 9.1}
+{'loss': 0.0966, 'grad_norm': 0.5363320708274841, 'learning_rate': 1.4796000000000002e-05, 'epoch': 9.11}
+{'loss': 0.1319, 'grad_norm': 0.754754364490509, 'learning_rate': 1.4799e-05, 'epoch': 9.11}
+{'loss': 0.1429, 'grad_norm': 0.7564411759376526, 'learning_rate': 1.4802e-05, 'epoch': 9.11}
+{'loss': 0.1361, 'grad_norm': 1.0024757385253906, 'learning_rate': 1.4805e-05, 'epoch': 9.11}
+{'loss': 0.0977, 'grad_norm': 1.137149691581726, 'learning_rate': 1.4808e-05, 'epoch': 9.11}
+{'loss': 0.104, 'grad_norm': 0.846430242061615, 'learning_rate': 1.4811000000000001e-05, 'epoch': 9.11}
+{'loss': 0.0959, 'grad_norm': 0.9774792194366455, 'learning_rate': 1.4814e-05, 'epoch': 9.12}
+{'loss': 0.0644, 'grad_norm': 0.5531234741210938, 'learning_rate': 1.4817e-05, 'epoch': 9.12}
+{'loss': 0.0717, 'grad_norm': 0.7496355175971985, 'learning_rate': 1.482e-05, 'epoch': 9.12}
+{'loss': 0.0551, 'grad_norm': 0.5128370523452759, 'learning_rate': 1.4823e-05, 'epoch': 9.12}
+{'loss': 0.0504, 'grad_norm': 0.3992457389831543, 'learning_rate': 1.4826e-05, 'epoch': 9.12}
+{'loss': 0.0348, 'grad_norm': 0.5101442337036133, 'learning_rate': 1.4829000000000002e-05, 'epoch': 9.13}
+{'loss': 0.0311, 'grad_norm': 0.439591646194458, 'learning_rate': 1.4832000000000001e-05, 'epoch': 9.13}
+{'loss': 0.0277, 'grad_norm': 0.38307738304138184, 'learning_rate': 1.4835e-05, 'epoch': 9.13}
+{'loss': 0.032, 'grad_norm': 0.49682798981666565, 'learning_rate': 1.4838e-05, 'epoch': 9.13}
+{'loss': 0.0248, 'grad_norm': 0.4077721834182739, 'learning_rate': 1.4840999999999999e-05, 'epoch': 9.13}
+{'loss': 0.039, 'grad_norm': 0.5288215279579163, 'learning_rate': 1.4844e-05, 'epoch': 9.13}
+{'loss': 0.0323, 'grad_norm': 0.49088090658187866, 'learning_rate': 1.4847e-05, 'epoch': 9.14}
+{'loss': 0.0203, 'grad_norm': 0.45848211646080017, 'learning_rate': 1.485e-05, 'epoch': 9.14}
+{'loss': 0.027, 'grad_norm': 0.7101696133613586, 'learning_rate': 1.4853e-05, 'epoch': 9.14}
+{'loss': 0.0163, 'grad_norm': 0.31752264499664307, 'learning_rate': 1.4856e-05, 'epoch': 9.14}
+{'loss': 0.0195, 'grad_norm': 0.41779816150665283, 'learning_rate': 1.4859000000000001e-05, 'epoch': 9.14}
+{'loss': 0.0212, 'grad_norm': 0.36568403244018555, 'learning_rate': 1.4862000000000001e-05, 'epoch': 9.15}
+{'loss': 0.0293, 'grad_norm': 0.7210214734077454, 'learning_rate': 1.4865e-05, 'epoch': 9.15}
+{'loss': 0.0164, 'grad_norm': 0.30898305773735046, 'learning_rate': 1.4868e-05, 'epoch': 9.15}
+{'loss': 0.0285, 'grad_norm': 0.46881088614463806, 'learning_rate': 1.4871e-05, 'epoch': 9.15}
+{'loss': 0.0196, 'grad_norm': 0.4806945025920868, 'learning_rate': 1.4874e-05, 'epoch': 9.15}
+  5%|▍         | 4962/100000 [2:43:01<32:53:29,  1.25s/it]  5%|▍         | 4963/100000 [2:43:03<32:13:56,  1.22s/it]                                                            5%|▍         | 4963/100000 [2:43:03<32:13:56,  1.22s/it]  5%|▍         | 4964/100000 [2:43:04<31:41:21,  1.20s/it]                                                            5%|▍         | 4964/100000 [2:43:04<31:41:21,  1.20s/it]  5%|▍         | 4965/100000 [2:43:05<31:15:26,  1.18s/it]                                                            5%|▍         | 4965/100000 [2:43:05<31:15:26,  1.18s/it]  5%|▍         | 4966/100000 [2:43:06<30:49:40,  1.17s/it]                                                            5%|▍         | 4966/100000 [2:43:06<30:49:40,  1.17s/it]  5%|▍         | 4967/100000 [2:43:07<30:12:43,  1.14s/it]                                                            5%|▍         | 4967/100000 [2:43:07<30:12:43,  1.14s/it]  5%|▍         | 4968/100000 [2:43:08<29:51:19,  1.13s/it]                                                            5%|▍         | 4968/100000 [2:43:08<29:51:19,  1.13s/it]  5%|▍         | 4969/100000 [2:43:09<29:34:22,  1.12s/it]                                                            5%|▍         | 4969/100000 [2:43:09<29:34:22,  1.12s/it]  5%|▍         | 4970/100000 [2:43:10<29:15:18,  1.11s/it]                                                            5%|▍         | 4970/100000 [2:43:10<29:15:18,  1.11s/it]  5%|▍         | 4971/100000 [2:43:11<28:52:22,  1.09s/it]                                                            5%|▍         | 4971/100000 [2:43:11<28:52:22,  1.09s/it]  5%|▍         | 4972/100000 [2:43:12<28:25:51,  1.08s/it]                                                            5%|▍         | 4972/100000 [2:43:12<28:25:51,  1.08s/it]  5%|▍         | 4973/100000 [2:43:13<27:55:03,  1.06s/it]                                                            5%|▍         | 4973/100000 [2:43:13<27:55:03,  1.06s/it]  5%|▍         | 4974/100000 [2:43:14<27:19:59,  1.04s/it]                                                            5%|▍         | 4974/100000 [2:43:14<27:19:59,  1.04s/it]  5%|▍         | 4975/100000 [2:43:15<26:53:16,  1.02s/it]                                                            5%|▍         | 4975/100000 [2:43:15<26:53:16,  1.02s/it]  5%|▍         | 4976/100000 [2:43:16<26:31:44,  1.01s/it]                                                            5%|▍         | 4976/100000 [2:43:16<26:31:44,  1.01s/it]  5%|▍         | 4977/100000 [2:43:17<26:02:56,  1.01it/s]                                                            5%|▍         | 4977/100000 [2:43:17<26:02:56,  1.01it/s]  5%|▍         | 4978/100000 [2:43:18<25:11:37,  1.05it/s]                                                            5%|▍         | 4978/100000 [2:43:18<25:11:37,  1.05it/s]  5%|▍         | 4979/100000 [2:43:28<94:08:12,  3.57s/it]                                                            5%|▍         | 4979/100000 [2:43:28<94:08:12,  3.57s/it]  5%|▍         | 4980/100000 [2:43:33<108:35:03,  4.11s/it]                                                             5%|▍         | 4980/100000 [2:43:33<108:35:03,  4.11s/it]  5%|▍         | 4981/100000 [2:43:38<112:06:50,  4.25s/it]                                                             5%|▍         | 4981/100000 [2:43:38<112:06:50,  4.25s/it]  5%|▍         | 4982/100000 [2:43:42<110:21:39,  4.18s/it]                                                             5%|▍         | 4982/100000 [2:43:42<110:21:39,  4.18s/it]  5%|▍         | 4983/100000 [2:43:46<106:17:10,  4.03s/it]                                                             5%|▍         | 4983/100000 [2:43:46<106:17:10,  4.03s/it]  5%|▍         | 4984/100000 [2:43:49<100:08:46,  3.79s/it]                                                             5%|▍         | 4984/100000 [2:43:49<100:08:46,  3.79s/it]  5%|▍         | 4985/100000 [2:43:52<94:11:00,  3.57s/it]                                                             5%|▍         | 4985/100000 [2:43:52<94:11:00,  3.57s/it]  5%|▍         | 4986/100000 [2:43:54<86:51:46,  3.29s/it]                                                            5%|▍         | 4986/100000 [2:43:54<86:51:46,  3.29s/it]  5%|▍         | 4987/100000 [2:43:57<80:45:35,  3.06s/it]                                                            5%|▍         | 4987/100000 [2:43:57<80:45:35,  3.06s/it]  5%|▍         | 4988/100000 [2:43:59<75:04:24,  2.84s/it]                                                            5%|▍         | 4988/100000 [2:43:59<75:04:24,  2.84s/it]  5%|▍         | 4989/100000 [2:44:01<69:38:48,  2.64s/it]                                                            5%|▍         | 4989/100000 [2:44:01<69:38:48,  2.64s/it]  5%|▍         | 4990/100000 [2:44:04<64:55:26,  2.46s/it]                                                            5%|▍         | 4990/100000 [2:44:04<64:55:26,  2.46s/it]  5%|▍         | 4991/100000 [2:44:05<60:32:40,  2.29s/it]                                                            5%|▍         | 4991/100000 [2:44:05<60:32:40,  2.29s/it]  5%|▍         | 4992/100000 [2:44:07<57:33:25,  2.18s/it]                                                            5%|▍         | 4992/100000 [2:44:07<57:33:25,  2.18s/it]  5%|▍         | 4993/100000 [2:44:09<53:27:18,  2.03s/it]                                                            5%|▍         | 4993/100000 [2:44:09<53:27:18,  2.03s/it]  5%|▍         | 4994/100000 [2:44:11<50:22:32,  1.91s/it]                                                            5%|▍         | 4994/100000 [2:44:11<50:22:32,  1.91s/it]  5%|▍         | 4995/100000 [2:44:12<47:58:39,  1.82s/it]                                                            5%|▍         | 4995/100000 [2:44:12<47:58:39,  1.82s/it]  5%|▍         | 4996/100000 [2:44:14<45:59:09,  1.74s/it]                                                            5%|▍         | 4996/100000 [2:44:14<45:59:09,  1.74s/it]  5%|▍         | 4997/100000 [2:44:15<44:14:07,  1.68s/it]                                                            5%|▍         | 4997/100000 [2:44:15<44:14:07,  1.68s/it]  5%|▍         | 4998/100000 [2:44:17<42:34:37,  1.61s/it]                                                            5%|▍         | 4998/100000 [2:44:17<42:34:37,  1.61s/it]  5%|▍         | 4999/100000 [2:44:18<41:12:24,  1.56s/it]                                                            5%|▍         | 4999/100000 [2:44:18<41:12:24,  1.56s/it]  5%|▌         | 5000/100000 [2:44:20<39:49:09,  1.51s/it]                                                            5%|▌         | 5000/100000 [2:44:20<39:49:09,  1.51s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0395, 'grad_norm': 0.7896641492843628, 'learning_rate': 1.4877e-05, 'epoch': 9.16}
+{'loss': 0.0285, 'grad_norm': 0.4346265196800232, 'learning_rate': 1.488e-05, 'epoch': 9.16}
+{'loss': 0.0194, 'grad_norm': 0.5687569379806519, 'learning_rate': 1.4883e-05, 'epoch': 9.16}
+{'loss': 0.034, 'grad_norm': 0.6780779361724854, 'learning_rate': 1.4886e-05, 'epoch': 9.16}
+{'loss': 0.0194, 'grad_norm': 0.4466516673564911, 'learning_rate': 1.4889000000000001e-05, 'epoch': 9.16}
+{'loss': 0.0461, 'grad_norm': 0.8937951922416687, 'learning_rate': 1.4892e-05, 'epoch': 9.16}
+{'loss': 0.0257, 'grad_norm': 0.43590834736824036, 'learning_rate': 1.4895e-05, 'epoch': 9.17}
+{'loss': 0.0324, 'grad_norm': 0.6083908677101135, 'learning_rate': 1.4898e-05, 'epoch': 9.17}
+{'loss': 0.0204, 'grad_norm': 0.36719781160354614, 'learning_rate': 1.4901e-05, 'epoch': 9.17}
+{'loss': 0.0361, 'grad_norm': 0.6315568089485168, 'learning_rate': 1.4904000000000002e-05, 'epoch': 9.17}
+{'loss': 0.0197, 'grad_norm': 0.48444539308547974, 'learning_rate': 1.4907000000000001e-05, 'epoch': 9.17}
+{'loss': 0.0218, 'grad_norm': 0.7261915802955627, 'learning_rate': 1.491e-05, 'epoch': 9.18}
+{'loss': 0.0241, 'grad_norm': 0.6012871861457825, 'learning_rate': 1.4913e-05, 'epoch': 9.18}
+{'loss': 0.0163, 'grad_norm': 0.42087167501449585, 'learning_rate': 1.4915999999999999e-05, 'epoch': 9.18}
+{'loss': 0.0207, 'grad_norm': 0.5307780504226685, 'learning_rate': 1.4919e-05, 'epoch': 9.18}
+{'loss': 0.0255, 'grad_norm': 0.5719494819641113, 'learning_rate': 1.4922e-05, 'epoch': 9.18}
+{'loss': 0.0259, 'grad_norm': 0.8112320303916931, 'learning_rate': 1.4925e-05, 'epoch': 9.18}
+{'loss': 0.2401, 'grad_norm': 0.9635986685752869, 'learning_rate': 1.4928e-05, 'epoch': 9.19}
+{'loss': 0.247, 'grad_norm': 0.8502519726753235, 'learning_rate': 1.4931e-05, 'epoch': 9.19}
+{'loss': 0.2011, 'grad_norm': 0.8046050667762756, 'learning_rate': 1.4934000000000001e-05, 'epoch': 9.19}
+{'loss': 0.1636, 'grad_norm': 0.6960356831550598, 'learning_rate': 1.4937000000000001e-05, 'epoch': 9.19}
+{'loss': 0.144, 'grad_norm': 0.73581862449646, 'learning_rate': 1.4940000000000001e-05, 'epoch': 9.19}
+{'loss': 0.1418, 'grad_norm': 0.6557340621948242, 'learning_rate': 1.4943e-05, 'epoch': 9.2}
+{'loss': 0.1428, 'grad_norm': 0.6575548648834229, 'learning_rate': 1.4945999999999999e-05, 'epoch': 9.2}
+{'loss': 0.1301, 'grad_norm': 0.5466626882553101, 'learning_rate': 1.4949e-05, 'epoch': 9.2}
+{'loss': 0.112, 'grad_norm': 0.5372762084007263, 'learning_rate': 1.4952e-05, 'epoch': 9.2}
+{'loss': 0.1621, 'grad_norm': 0.9452289938926697, 'learning_rate': 1.4955e-05, 'epoch': 9.2}
+{'loss': 0.0883, 'grad_norm': 0.7675982713699341, 'learning_rate': 1.4958e-05, 'epoch': 9.2}
+{'loss': 0.0768, 'grad_norm': 0.41777050495147705, 'learning_rate': 1.4961e-05, 'epoch': 9.21}
+{'loss': 0.0669, 'grad_norm': 0.6762139797210693, 'learning_rate': 1.4964000000000001e-05, 'epoch': 9.21}
+{'loss': 0.0477, 'grad_norm': 0.6928996443748474, 'learning_rate': 1.4967000000000001e-05, 'epoch': 9.21}
+{'loss': 0.055, 'grad_norm': 0.4634210169315338, 'learning_rate': 1.497e-05, 'epoch': 9.21}
+{'loss': 0.0285, 'grad_norm': 0.3059404492378235, 'learning_rate': 1.4973e-05, 'epoch': 9.21}
+{'loss': 0.052, 'grad_norm': 0.42111411690711975, 'learning_rate': 1.4976e-05, 'epoch': 9.22}
+{'loss': 0.0459, 'grad_norm': 0.8493423461914062, 'learning_rate': 1.4979000000000002e-05, 'epoch': 9.22}
+{'loss': 0.0637, 'grad_norm': 0.6417502164840698, 'learning_rate': 1.4982e-05, 'epoch': 9.22}
+{'loss': 0.0339, 'grad_norm': 0.4340676963329315, 'learning_rate': 1.4985e-05, 'epoch': 9.22}
+{'loss': 0.0307, 'grad_norm': 0.47145336866378784, 'learning_rate': 1.4988e-05, 'epoch': 9.22}
+{'loss': 0.0217, 'grad_norm': 0.5584102869033813, 'learning_rate': 1.4991e-05, 'epoch': 9.23}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.79it/s][A
+ 30%|███       | 3/10 [00:02<00:06,  1.16it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.36it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.16s/it][A
+ 60%|██████    | 6/10 [00:05<00:03,  1.05it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.10s/it][A
+ 80%|████████  | 8/10 [00:07<00:01,  1.10it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.08s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.15it/s][A                                                          
+                                               [A  5%|▌         | 5000/100000 [2:44:53<39:49:09,  1.51s/it]
+100%|██████████| 10/10 [00:09<00:00,  1.15it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-5000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-5000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-5000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-5000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-5000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-5000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-5000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-3000] due to args.save_total_limit
+  5%|▌         | 5001/100000 [2:45:06<396:08:07, 15.01s/it]                                                             5%|▌         | 5001/100000 [2:45:06<396:08:07, 15.01s/it]  5%|▌         | 5002/100000 [2:45:08<288:14:43, 10.92s/it]                                                             5%|▌         | 5002/100000 [2:45:08<288:14:43, 10.92s/it]  5%|▌         | 5003/100000 [2:45:09<212:13:24,  8.04s/it]                                                             5%|▌         | 5003/100000 [2:45:09<212:13:24,  8.04s/it]  5%|▌         | 5004/100000 [2:45:10<159:04:34,  6.03s/it]                                                             5%|▌         | 5004/100000 [2:45:10<159:04:34,  6.03s/it]  5%|▌         | 5005/100000 [2:45:11<121:45:33,  4.61s/it]                                                             5%|▌         | 5005/100000 [2:45:12<121:45:33,  4.61s/it]  5%|▌         | 5006/100000 [2:45:13<95:22:41,  3.61s/it]                                                             5%|▌         | 5006/100000 [2:45:13<95:22:41,  3.61s/it]  5%|▌         | 5007/100000 [2:45:14<76:41:01,  2.91s/it]                                                            5%|▌         | 5007/100000 [2:45:14<76:41:01,  2.91s/it]  5%|▌         | 5008/100000 [2:45:15<63:36:05,  2.41s/it]                                                            5%|▌         | 5008/100000 [2:45:15<63:36:05,  2.41s/it]  5%|▌         | 5009/100000 [2:45:17<54:25:18,  2.06s/it]                                                            5%|▌         | 5009/100000 [2:45:17<54:25:18,  2.06s/it]  5%|▌         | 5010/100000 [2:45:18<47:39:58,  1.81s/it]                                                            5%|▌         | 5010/100000 [2:45:18<47:39:58,  1.81s/it]  5%|▌         | 5011/100000 [2:45:19<43:05:17,  1.63s/it]                                                            5%|▌         | 5011/100000 [2:45:19<43:05:17,  1.63s/it]  5%|▌         | 5012/100000 [2:45:20<39:31:10,  1.50s/it]                                                            5%|▌         | 5012/100000 [2:45:20<39:31:10,  1.50s/it]  5%|▌         | 5013/100000 [2:45:21<37:00:27,  1.40s/it]                                                            5%|▌         | 5013/100000 [2:45:21<37:00:27,  1.40s/it]  5%|▌         | 5014/100000 [2:45:23<35:09:53,  1.33s/it]                                                            5%|▌         | 5014/100000 [2:45:23<35:09:53,  1.33s/it]  5%|▌         | 5015/100000 [2:45:24<33:32:40,  1.27s/it]                                                            5%|▌         | 5015/100000 [2:45:24<33:32:40,  1.27s/it]  5%|▌         | 5016/100000 [2:45:25<32:23:40,  1.23s/it]                                                            5%|▌         | 5016/100000 [2:45:25<32:23:40,  1.23s/it]  5%|▌         | 5017/100000 [2:45:26<31:48:28,  1.21s/it]                                                            5%|▌         | 5017/100000 [2:45:26<31:48:28,  1.21s/it]  5%|▌         | 5018/100000 [2:45:27<30:44:15,  1.17s/it]                                                            5%|▌         | 5018/100000 [2:45:27<30:44:15,  1.17s/it]  5%|▌         | 5019/100000 [2:45:28<30:08:34,  1.14s/it]                                                            5%|▌         | 5019/100000 [2:45:28<30:08:34,  1.14s/it]  5%|▌         | 5020/100000 [2:45:29<29:57:03,  1.14s/it]                                                            5%|▌         | 5020/100000 [2:45:29<29:57:03,  1.14s/it]  5%|▌         | 5021/100000 [2:45:30<29:34:00,  1.12s/it]                                                            5%|▌         | 5021/100000 [2:45:30<29:34:00,  1.12s/it]  5%|▌         | 5022/100000 [2:45:31<29:12:02,  1.11s/it]                                                            5%|▌         | 5022/100000 [2:45:31<29:12:02,  1.11s/it]  5%|▌         | 5023/100000 [2:45:32<28:06:54,  1.07s/it]                                                            5%|▌         | 5023/100000 [2:45:32<28:06:54,  1.07s/it]  5%|▌         | 5024/100000 [2:45:33<27:42:39,  1.05s/it]                                                            5%|▌         | 5024/100000 [2:45:33<27:42:39,  1.05s/it]  5%|▌         | 5025/100000 [2:45:34<27:08:06,  1.03s/it]                                                            5%|▌         | 5025/100000 [2:45:34<27:08:06,  1.03s/it]  5%|▌         | 5026/100000 [2:45:35<26:38:29,  1.01s/it]                                                            5%|▌         | 5026/100000 [2:45:35<26:38:29,  1.01s/it]  5%|▌         | 5027/100000 [2:45:36<26:10:33,  1.01it/s]                                                            5%|▌         | 5027/100000 [2:45:36<26:10:33,  1.01it/s]  5%|▌         | 5028/100000 [2:45:37<25:54:56,  1.02it/s]                                                            5%|▌         | 5028/100000 [2:45:37<25:54:56,  1.02it/s]  5%|▌         | 5029/100000 [2:45:48<103:15:33,  3.91s/it]                                                             5%|▌         | 5029/100000 [2:45:48<103:15:33,  3.91s/it]  5%|▌         | 5030/100000 [2:45:53<115:28:34,  4.38s/it]                                                             5%|▌         | 5030/100000 [2:45:53<115:28:34,  4.38s/it]  5%|▌         | 5031/100000 [2:45:58<115:59:39,  4.40s/it]                                                             5%|▌         | 5031/100000 [2:45:58<115:59:39,  4.40s/it]  5%|▌         | 5032/100000 [2:46:02<112:51:19,  4.28s/it]                                                             5%|▌         | 5032/100000 [2:46:02<112:51:19,  4.28s/it]  5%|▌         | 5033/100000 [2:46:05<107:36:11,  4.08s/it]                                                             5%|▌         | 5033/100000 [2:46:05<107:36:11,  4.08s/it]  5%|▌         | 5034/100000 [2:46:09<101:08:28,  3.83s/it]                                                             5%|▌         | 5034/100000 [2:46:09<101:08:28,  3.83s/it]  5%|▌         | 5035/100000 [2:46:12<94:40:16,  3.59s/it]                                                             5%|▌         | 5035/100000 [2:46:12<94:40:16,  3.59s/it]  5%|▌         | 5036/100000 [2:46:15<88:11:43,  3.34s/it]                                                            5%|▌         | 5036/100000 [2:46:15<88:11:43,  3.34s/it]  5%|▌         | 5037/100000 [2:46:17<80:58:55,  3.07s/it]                                                            5%|▌         | 5037/100000 [2:46:17<80:58:55,  3.07s/it]  5%|▌         | 5038/100000 [2:46:19<75:04:27,  2.85s/it]                                                            5%|▌         | 5038/100000 [2:46:19<75:04:27,  2.85s/it]  5%|▌         | 5039/100000 [2:46:21<69:34:23,  2.64s/it]                                                            5%|▌         | 5039/100000 [2:46:21<69:34:23,  2.64s/it]  5%|▌         | 5040/100000 [2:46:23<64:57:02,  2.46s/it]                                                            5%|▌         | 5040/100000 [2:46:23<64:57:02,  2.46s/it]  5%|▌         | 5041/100000 [2:46:25<60:50:09,  2.31s/it]                                                            5%|▌         | 5041/100000 [2:46:25<60:50:09,  2.31s/it]  5%|▌         | 5042/100000 [2:46:27<56:53:25,  2.16s/it]                                                            5%|▌         | 5042/100000 [2:46:27<56:53:25,  2.16s/it]  5%|▌         | 5043/100000 [2:46:29<53:35:40,  2.03s/it]                                                            5%|▌         | 5043/100000 [2:46:29<53:35:40,  2.03s/it]  5%|▌         | 5044/100000 [2:46:31<50:27:11,  1.91s/it]                                                            5%|▌         | 5044/100000 [2:46:31<50:27:11,  1.91s/it]  5%|▌         | 5045/100000 [2:46:32<47:34:58,  1.80s/it]                                                            5%|▌         | 5045/100000 [2:46:32<47:34:58,  1.80s/it]  5%|▌         | 5046/100000 [2:46:34<45:55:03,  1.74s/it]                                                            5%|▌         | 5046/100000 [2:46:34<45:55:03,  1.74s/it]  5%|▌         | 5047/100000 [2:46:35<44:23:52,  1.68s/it]                                                            5%|▌         | 5047/100000 [2:46:35<44:23:52,  1.68s/it]  5%|▌         | 5048/100000 [2:46:37<42:28:44,  1.61s/it]                                                            5%|▌         | 5048/100000 [2:46:37<42:28:44,  1.61s/it]  5%|▌         | 5049/100000 [2:46:38<41:25:55,  1.57s/it]                                                            5%|▌         | 5049/100000 [2:46:38<41:25:55,  1.57s/it]  5%|▌         | 5050/100000 [2:46:40<40:23:35,  1.53s/it]                                                            5%|▌         | 5050/100000 [2:46:40<40:23:35,  1.53s/it]  5%|▌         | 5051/100000 [2:46:41<39:35:03,  1.50s/it]                                                            5%|▌         | 5051/100000 [2:46:41<39:35:03,  1.50s/it]  5%|▌         | 5052/100000 [2:46:42<38:30:57,  1.46s/it]                                                            5%|▌         | 5052/100000 [2:46:42<38:30:57,  1.46s/it]  5%|▌         | 5053/100000 [2:46:44<37:50:31,  1.43s/it]                                                            5%|▌         | 5053/100000 [2:46:44<37:50:31,  1.43s/it]  5%|▌         | 5054/100000 [2:46:45<37:27:39,  1.42s/it]                                                            5%|▌         | 5054/100000 [2:46:45<37:27:39,  1.42s/it]  5%|▌         | 5055/100000 [2:46:47<36:41:02,  1.39s/it]                                                            5%|▌         | 5055/100000 [2:46:47<36:41:02,  1.39s/it]  5%|▌         | 5056/100000 [2:46:48<36:08:57,  1.37s/it]                                                            5%|▌         | 5056/100000 [2:46:48<36:08:57,  1.37s/it]  5%|▌         | 5057/100000 [2:46:49<35:18:26,  1.34s/it]                                                            5%|▌         | 5057/100000 [2:46:49<35:18:26,  1.34s/it]  5%|▌         | 5058/100000 [2:46:50<35:02:00,  1.33s/it]                                                            5%|▌         | 5058/100000 [2:46:50<35:02:00,  1.33s/it]  5%|▌         | 5059/100000 [2:46:52<34:26:40,  1.31s/it]                                                            5%|▌         | 5059/100000 [2:46:52<34:26:40,  1.31s/it]  5%|▌         | 5060/100000 [2:46:53<33:47:17,  1.28s/it]                                                            5%|▌         | 5060/100000 [2:46:53<33:47:17,  1.28s/it]  5%|▌         | 5061/100000 [2:46:54<33:24:32,  1.27s/it]                                                            5%|▌         | 5061/100000 [2:46:54<33:24:32,  1.27s/it]  5%|▌         | 5062/100000 [2:46:55<32:38:29,  1.24s/it]                                                            5%|▌         | 5062/100000 [2:46:55<32:38:29,  1.24s/it]  5%|▌         | 5063/100000 [2:46:56<32:06:37,  1.22s/it]                                                            5%|▌         | 5063/100000 [2:46:56<32:06:37,  1.22s/it]  5%|▌         | 5064/100000 [2:46:58<31:43:55,  1.20s/it]                                                            5%|▌         | 5064/100000 [2:46:58<31:43:55,  1.20s/it]  5%|▌         | 5065/100000 [2:46:59<31:11:52,  1.18s/it]                                                            5%|▌         | 5065/100000 [2:46:59<31:11:52,  1.18s/it]  5%|▌         | 5066/100000 [2:47:00<30:52:33,  1.17s/it]                                                            5%|▌         | 5066/100000 [2:47:00<30:52:33,  1.17s/it]  5%|▌         | 5067/100000 [2:47:01<30:32:26,  1.16s/it]                                                            5%|▌         | 5067/100000 [2:47:01<30:32:26,  1.16s/it]  5%|▌         | 5068/100000 [2:47:02<30:07:30,  1.14s/it]                                                            5%|▌         | 5068/100000 [2:47:02<30:07:30,  1.14s/it]  5%|▌         | 5069/100000 [2:47:03<30:01:03,  1.14s/it]                                                            5%|▌         | 5069/100000 [2:47:03<30:01:03,  1.14s/it]  5%|▌         | 5070/100000 [2:47:04<29:28:10,  1.12s/it]                                                            5%|▌         | 5070/100000 [2:47:04<29:28:10,  1.12s/it]  5%|▌         | 5071/100000 [2:47:05<29:07:18,  1.10s/it]                                                            5%|▌         | 5071/100000 [2:47:05<29:07:18,  1.10s/it]  5%|▌         | 5072/100000 [2:47:06<28:15:02,  1.07s/it]                                                            5%|▌         | 5072/100000 [2:47:06<28:15:02,  1.07s/it]  5%|▌         | 5073/100000 [2:47:07<27:24:52,  1.04s/it]                                                            5%|▌         | 5073/100000 [2:47:07<27:24:52,  1.04s/it]  5%|▌         | 5074/100000 [2:47:08<26:59:19,  1.02s/it]                                                            5%|▌         | 5074/100000 [2:47:08<26:59:19,  1.02s/it]  5%|▌         | 5075/100000 [2:47:09<26:16:18,  1.00it/s]                                                            5%|▌         | 5075/100000 [2:47:09<26:16:18,  1.00it/s]  5%|▌         | 5076/100000 [2:47:10<25:53:33,  1.02it/s]                                                            5%|▌         | 5076/100000 [2:47:10<25:53:33,  1.02it/s]  5%|▌         | 5077/100000 [2:47:11<25:13:08,  1.05it/s]                                                            5%|▌         | 5077/100000 [2:47:11<25:13:08,  1.05it/s]  5%|▌         | 5078/100000 [2:47:12<24:43:18,  1.07it/s]                                                            5%|▌         | 5078/100000 [2:47:12<24:43:18,  1.07it/s]  5%|▌         | 5079/100000 [2:47:25<116:06:16,  4.40s/it]                                                             5%|▌         | 5079/100000 [2:47:25<116:06:16,  4.40s/it]  5%|▌         | 5080/100000 [2:47:30<127:44:19,  4.84s/it]                                                             5%|▌         | 5080/100000 [2:47:30<127:44:19,  4.84s/it]  5%|▌         | 5081/100000 [2:47:35<129:03:17,  4.89s/it]                                                           {'eval_loss': 0.34040430188179016, 'eval_wer': 0.4468534151957022, 'eval_cer': 0.12315628483293153, 'eval_runtime': 16.1361, 'eval_samples_per_second': 18.84, 'eval_steps_per_second': 0.62, 'epoch': 9.23}
+{'loss': 0.0291, 'grad_norm': 0.4516844153404236, 'learning_rate': 1.4994e-05, 'epoch': 9.23}
+{'loss': 0.0299, 'grad_norm': 0.40577274560928345, 'learning_rate': 1.4997e-05, 'epoch': 9.23}
+{'loss': 0.0643, 'grad_norm': 0.6855767965316772, 'learning_rate': 1.5e-05, 'epoch': 9.23}
+{'loss': 0.0304, 'grad_norm': 0.4035259187221527, 'learning_rate': 1.5003e-05, 'epoch': 9.23}
+{'loss': 0.0247, 'grad_norm': 0.4719028174877167, 'learning_rate': 1.5006e-05, 'epoch': 9.23}
+{'loss': 0.02, 'grad_norm': 0.4207598865032196, 'learning_rate': 1.5009e-05, 'epoch': 9.24}
+{'loss': 0.0279, 'grad_norm': 0.34324145317077637, 'learning_rate': 1.5012e-05, 'epoch': 9.24}
+{'loss': 0.0685, 'grad_norm': 0.6258143782615662, 'learning_rate': 1.5015e-05, 'epoch': 9.24}
+{'loss': 0.0403, 'grad_norm': 0.6973277926445007, 'learning_rate': 1.5018000000000001e-05, 'epoch': 9.24}
+{'loss': 0.0283, 'grad_norm': 0.4057953655719757, 'learning_rate': 1.5021e-05, 'epoch': 9.24}
+{'loss': 0.0214, 'grad_norm': 0.42994633316993713, 'learning_rate': 1.5024e-05, 'epoch': 9.25}
+{'loss': 0.0324, 'grad_norm': 0.5259776711463928, 'learning_rate': 1.5027e-05, 'epoch': 9.25}
+{'loss': 0.0259, 'grad_norm': 0.5950026512145996, 'learning_rate': 1.503e-05, 'epoch': 9.25}
+{'loss': 0.0127, 'grad_norm': 0.3533867597579956, 'learning_rate': 1.5033e-05, 'epoch': 9.25}
+{'loss': 0.025, 'grad_norm': 0.5182950496673584, 'learning_rate': 1.5036e-05, 'epoch': 9.25}
+{'loss': 0.0226, 'grad_norm': 0.9183833599090576, 'learning_rate': 1.5039e-05, 'epoch': 9.25}
+{'loss': 0.0186, 'grad_norm': 0.35641777515411377, 'learning_rate': 1.5042e-05, 'epoch': 9.26}
+{'loss': 0.0291, 'grad_norm': 0.6755897402763367, 'learning_rate': 1.5044999999999999e-05, 'epoch': 9.26}
+{'loss': 0.0334, 'grad_norm': 0.5879606008529663, 'learning_rate': 1.5048000000000002e-05, 'epoch': 9.26}
+{'loss': 0.0323, 'grad_norm': 0.5946062207221985, 'learning_rate': 1.5051000000000002e-05, 'epoch': 9.26}
+{'loss': 0.0325, 'grad_norm': 0.8611308932304382, 'learning_rate': 1.5054000000000002e-05, 'epoch': 9.26}
+{'loss': 0.0278, 'grad_norm': 0.6337459683418274, 'learning_rate': 1.5057e-05, 'epoch': 9.27}
+{'loss': 0.0377, 'grad_norm': 0.7506858706474304, 'learning_rate': 1.506e-05, 'epoch': 9.27}
+{'loss': 0.036, 'grad_norm': 0.7468025088310242, 'learning_rate': 1.5063e-05, 'epoch': 9.27}
+{'loss': 0.0298, 'grad_norm': 0.5505267977714539, 'learning_rate': 1.5066e-05, 'epoch': 9.27}
+{'loss': 0.0177, 'grad_norm': 0.43939507007598877, 'learning_rate': 1.5069e-05, 'epoch': 9.27}
+{'loss': 0.0352, 'grad_norm': 1.4087032079696655, 'learning_rate': 1.5071999999999999e-05, 'epoch': 9.28}
+{'loss': 0.0324, 'grad_norm': 0.6867530345916748, 'learning_rate': 1.5074999999999999e-05, 'epoch': 9.28}
+{'loss': 0.3063, 'grad_norm': 1.1742939949035645, 'learning_rate': 1.5078000000000002e-05, 'epoch': 9.28}
+{'loss': 0.2511, 'grad_norm': 0.9454092979431152, 'learning_rate': 1.5081000000000002e-05, 'epoch': 9.28}
+{'loss': 0.2473, 'grad_norm': 1.0500773191452026, 'learning_rate': 1.5084000000000002e-05, 'epoch': 9.28}
+{'loss': 0.2361, 'grad_norm': 1.6689544916152954, 'learning_rate': 1.5087000000000001e-05, 'epoch': 9.28}
+{'loss': 0.1845, 'grad_norm': 0.8237836360931396, 'learning_rate': 1.5090000000000001e-05, 'epoch': 9.29}
+{'loss': 0.1309, 'grad_norm': 0.7189024686813354, 'learning_rate': 1.5093e-05, 'epoch': 9.29}
+{'loss': 0.1582, 'grad_norm': 0.8112640976905823, 'learning_rate': 1.5095999999999999e-05, 'epoch': 9.29}
+{'loss': 0.1338, 'grad_norm': 0.6921137571334839, 'learning_rate': 1.5098999999999999e-05, 'epoch': 9.29}
+{'loss': 0.148, 'grad_norm': 0.7306265830993652, 'learning_rate': 1.5101999999999999e-05, 'epoch': 9.29}
+{'loss': 0.0967, 'grad_norm': 0.6113399863243103, 'learning_rate': 1.5104999999999999e-05, 'epoch': 9.3}
+{'loss': 0.1014, 'grad_norm': 0.5886443853378296, 'learning_rate': 1.5108000000000002e-05, 'epoch': 9.3}
+{'loss': 0.1227, 'grad_norm': 0.617939293384552, 'learning_rate': 1.5111000000000002e-05, 'epoch': 9.3}
+{'loss': 0.0787, 'grad_norm': 0.7025123238563538, 'learning_rate': 1.5114000000000001e-05, 'epoch': 9.3}
+{'loss': 0.0315, 'grad_norm': 0.34799450635910034, 'learning_rate': 1.5117000000000001e-05, 'epoch': 9.3}
+{'loss': 0.0549, 'grad_norm': 0.5829216241836548, 'learning_rate': 1.5120000000000001e-05, 'epoch': 9.3}
+{'loss': 0.0816, 'grad_norm': 0.630823016166687, 'learning_rate': 1.5123e-05, 'epoch': 9.31}
+{'loss': 0.0489, 'grad_norm': 0.6002022624015808, 'learning_rate': 1.5126e-05, 'epoch': 9.31}
+{'loss': 0.0354, 'grad_norm': 0.6191938519477844, 'learning_rate': 1.5129e-05, 'epoch': 9.31}
+{'loss': 0.039, 'grad_norm': 0.45328018069267273, 'learning_rate': 1.5131999999999998e-05, 'epoch': 9.31}
+{'loss': 0.0366, 'grad_norm': 0.8805258274078369, 'learning_rate': 1.5134999999999998e-05, 'epoch': 9.31}
+{'loss': 0.0715, 'grad_norm': 0.7245248556137085, 'learning_rate': 1.5138000000000001e-05, 'epoch': 9.32}
+{'loss': 0.0369, 'grad_norm': 0.5289453864097595, 'learning_rate': 1.5141000000000001e-05, 'epoch': 9.32}
+{'loss': 0.0288, 'grad_norm': 0.6848105192184448, 'learning_rate': 1.5144000000000001e-05, 'epoch': 9.32}
+{'loss': 0.0156, 'grad_norm': 0.41027796268463135, 'learning_rate': 1.5147e-05, 'epoch': 9.32}
+{'loss': 0.0261, 'grad_norm': 0.36490383744239807, 'learning_rate': 1.515e-05, 'epoch': 9.32}
+{'loss': 0.0243, 'grad_norm': 0.34889253973960876, 'learning_rate': 1.5153e-05, 'epoch': 9.33}
+{'loss': 0.0477, 'grad_norm': 0.6471371054649353, 'learning_rate': 1.5156e-05, 'epoch': 9.33}
+{'loss': 0.0277, 'grad_norm': 0.4622030556201935, 'learning_rate': 1.5159e-05, 'epoch': 9.33}
+{'loss': 0.0272, 'grad_norm': 0.5205875635147095, 'learning_rate': 1.5162e-05, 'epoch': 9.33}
+{'loss': 0.0163, 'grad_norm': 0.35904061794281006, 'learning_rate': 1.5165e-05, 'epoch': 9.33}
+{'loss': 0.0328, 'grad_norm': 0.6207438707351685, 'learning_rate': 1.5168000000000001e-05, 'epoch': 9.33}
+{'loss': 0.0255, 'grad_norm': 0.7448795437812805, 'learning_rate': 1.5171000000000001e-05, 'epoch': 9.34}
+{'loss': 0.0203, 'grad_norm': 0.5210355520248413, 'learning_rate': 1.5174e-05, 'epoch': 9.34}
+{'loss': 0.0191, 'grad_norm': 0.474969744682312, 'learning_rate': 1.5177e-05, 'epoch': 9.34}
+{'loss': 0.0244, 'grad_norm': 0.40252211689949036, 'learning_rate': 1.518e-05, 'epoch': 9.34}
+{'loss': 0.0339, 'grad_norm': 0.7463494539260864, 'learning_rate': 1.5183e-05, 'epoch': 9.34}
+{'loss': 0.0395, 'grad_norm': 0.6289669275283813, 'learning_rate': 1.5186e-05, 'epoch': 9.35}
+{'loss': 0.0272, 'grad_norm': 0.432212769985199, 'learning_rate': 1.5189e-05, 'epoch': 9.35}
+{'loss': 0.0319, 'grad_norm': 0.6764055490493774, 'learning_rate': 1.5192e-05, 'epoch': 9.35}
+{'loss': 0.0491, 'grad_norm': 0.6974257230758667, 'learning_rate': 1.5195e-05, 'epoch': 9.35}
+{'loss': 0.0181, 'grad_norm': 0.46298375725746155, 'learning_rate': 1.5198000000000003e-05, 'epoch': 9.35}
+{'loss': 0.0245, 'grad_norm': 0.5116629004478455, 'learning_rate': 1.5201000000000002e-05, 'epoch': 9.35}
+{'loss': 0.0248, 'grad_norm': 0.6362098455429077, 'learning_rate': 1.5204e-05, 'epoch': 9.36}
+{'loss': 0.0259, 'grad_norm': 0.768278181552887, 'learning_rate': 1.5207e-05, 'epoch': 9.36}
+{'loss': 0.0279, 'grad_norm': 0.42540857195854187, 'learning_rate': 1.521e-05, 'epoch': 9.36}
+{'loss': 0.0318, 'grad_norm': 0.5822314023971558, 'learning_rate': 1.5213e-05, 'epoch': 9.36}
+{'loss': 0.032, 'grad_norm': 0.5463801026344299, 'learning_rate': 1.5216e-05, 'epoch': 9.36}
+{'loss': 0.0346, 'grad_norm': 0.7111003994941711, 'learning_rate': 1.5219e-05, 'epoch': 9.37}
+{'loss': 0.0408, 'grad_norm': 0.8963141441345215, 'learning_rate': 1.5222e-05, 'epoch': 9.37}
+{'loss': 0.0367, 'grad_norm': 1.1584186553955078, 'learning_rate': 1.5224999999999999e-05, 'epoch': 9.37}
+{'loss': 0.3049, 'grad_norm': 1.1298359632492065, 'learning_rate': 1.5228000000000002e-05, 'epoch': 9.37}
+{'loss': 0.3381, 'grad_norm': 1.229810357093811, 'learning_rate': 1.5231000000000002e-05, 'epoch': 9.37}
+  5%|▌         | 5081/100000 [2:47:35<129:03:17,  4.89s/it]  5%|▌         | 5082/100000 [2:47:40<123:56:34,  4.70s/it]                                                             5%|▌         | 5082/100000 [2:47:40<123:56:34,  4.70s/it]  5%|▌         | 5083/100000 [2:47:43<116:27:26,  4.42s/it]                                                             5%|▌         | 5083/100000 [2:47:43<116:27:26,  4.42s/it]  5%|▌         | 5084/100000 [2:47:47<107:41:50,  4.08s/it]                                                             5%|▌         | 5084/100000 [2:47:47<107:41:50,  4.08s/it]  5%|▌         | 5085/100000 [2:47:50<98:22:57,  3.73s/it]                                                             5%|▌         | 5085/100000 [2:47:50<98:22:57,  3.73s/it]  5%|▌         | 5086/100000 [2:47:52<91:20:17,  3.46s/it]                                                            5%|▌         | 5086/100000 [2:47:52<91:20:17,  3.46s/it]  5%|▌         | 5087/100000 [2:47:55<84:12:46,  3.19s/it]                                                            5%|▌         | 5087/100000 [2:47:55<84:12:46,  3.19s/it]  5%|▌         | 5088/100000 [2:47:57<76:49:13,  2.91s/it]                                                            5%|▌         | 5088/100000 [2:47:57<76:49:13,  2.91s/it]  5%|▌         | 5089/100000 [2:47:59<71:04:53,  2.70s/it]                                                            5%|▌         | 5089/100000 [2:47:59<71:04:53,  2.70s/it]  5%|▌         | 5090/100000 [2:48:01<65:22:50,  2.48s/it]                                                            5%|▌         | 5090/100000 [2:48:01<65:22:50,  2.48s/it]  5%|▌         | 5091/100000 [2:48:03<61:11:41,  2.32s/it]                                                            5%|▌         | 5091/100000 [2:48:03<61:11:41,  2.32s/it]  5%|▌         | 5092/100000 [2:48:05<57:11:46,  2.17s/it]                                                            5%|▌         | 5092/100000 [2:48:05<57:11:46,  2.17s/it]  5%|▌         | 5093/100000 [2:48:07<53:20:40,  2.02s/it]                                                            5%|▌         | 5093/100000 [2:48:07<53:20:40,  2.02s/it]  5%|▌         | 5094/100000 [2:48:09<50:09:40,  1.90s/it]                                                            5%|▌         | 5094/100000 [2:48:09<50:09:40,  1.90s/it]  5%|▌         | 5095/100000 [2:48:10<48:21:24,  1.83s/it]                                                            5%|▌         | 5095/100000 [2:48:10<48:21:24,  1.83s/it]  5%|▌         | 5096/100000 [2:48:12<46:33:24,  1.77s/it]                                                            5%|▌         | 5096/100000 [2:48:12<46:33:24,  1.77s/it]  5%|▌         | 5097/100000 [2:48:13<45:01:00,  1.71s/it]                                                            5%|▌         | 5097/100000 [2:48:13<45:01:00,  1.71s/it]  5%|▌         | 5098/100000 [2:48:15<43:32:12,  1.65s/it]                                                            5%|▌         | 5098/100000 [2:48:15<43:32:12,  1.65s/it]  5%|▌         | 5099/100000 [2:48:16<42:05:22,  1.60s/it]                                                            5%|▌         | 5099/100000 [2:48:16<42:05:22,  1.60s/it]  5%|▌         | 5100/100000 [2:48:18<40:37:13,  1.54s/it]                                                            5%|▌         | 5100/100000 [2:48:18<40:37:13,  1.54s/it]  5%|▌         | 5101/100000 [2:48:19<39:40:36,  1.51s/it]                                                            5%|▌         | 5101/100000 [2:48:19<39:40:36,  1.51s/it]  5%|▌         | 5102/100000 [2:48:21<38:42:50,  1.47s/it]                                                            5%|▌         | 5102/100000 [2:48:21<38:42:50,  1.47s/it]  5%|▌         | 5103/100000 [2:48:22<37:39:29,  1.43s/it]                                                            5%|▌         | 5103/100000 [2:48:22<37:39:29,  1.43s/it]  5%|▌         | 5104/100000 [2:48:23<36:45:55,  1.39s/it]                                                            5%|▌         | 5104/100000 [2:48:23<36:45:55,  1.39s/it]  5%|▌         | 5105/100000 [2:48:25<36:27:30,  1.38s/it]                                                            5%|▌         | 5105/100000 [2:48:25<36:27:30,  1.38s/it]  5%|▌         | 5106/100000 [2:48:26<35:38:12,  1.35s/it]                                                            5%|▌         | 5106/100000 [2:48:26<35:38:12,  1.35s/it]  5%|▌         | 5107/100000 [2:48:27<35:00:10,  1.33s/it]                                                            5%|▌         | 5107/100000 [2:48:27<35:00:10,  1.33s/it]  5%|▌         | 5108/100000 [2:48:28<34:23:11,  1.30s/it]                                                            5%|▌         | 5108/100000 [2:48:28<34:23:11,  1.30s/it]  5%|▌         | 5109/100000 [2:48:30<33:55:15,  1.29s/it]                                                            5%|▌         | 5109/100000 [2:48:30<33:55:15,  1.29s/it]  5%|▌         | 5110/100000 [2:48:31<33:06:18,  1.26s/it]                                                            5%|▌         | 5110/100000 [2:48:31<33:06:18,  1.26s/it]  5%|▌         | 5111/100000 [2:48:32<33:04:42,  1.25s/it]                                                            5%|▌         | 5111/100000 [2:48:32<33:04:42,  1.25s/it]  5%|▌         | 5112/100000 [2:48:33<32:28:23,  1.23s/it]                                                            5%|▌         | 5112/100000 [2:48:33<32:28:23,  1.23s/it]  5%|▌         | 5113/100000 [2:48:34<32:01:02,  1.21s/it]                                                            5%|▌         | 5113/100000 [2:48:34<32:01:02,  1.21s/it]  5%|▌         | 5114/100000 [2:48:36<31:33:30,  1.20s/it]                                                            5%|▌         | 5114/100000 [2:48:36<31:33:30,  1.20s/it]  5%|▌         | 5115/100000 [2:48:37<30:59:03,  1.18s/it]                                                            5%|▌         | 5115/100000 [2:48:37<30:59:03,  1.18s/it]  5%|▌         | 5116/100000 [2:48:38<30:34:59,  1.16s/it]                                                            5%|▌         | 5116/100000 [2:48:38<30:34:59,  1.16s/it]  5%|▌         | 5117/100000 [2:48:39<30:17:37,  1.15s/it]                                                            5%|▌         | 5117/100000 [2:48:39<30:17:37,  1.15s/it]  5%|▌         | 5118/100000 [2:48:40<29:58:38,  1.14s/it]                                                            5%|▌         | 5118/100000 [2:48:40<29:58:38,  1.14s/it]  5%|▌         | 5119/100000 [2:48:41<29:11:46,  1.11s/it]                                                            5%|▌         | 5119/100000 [2:48:41<29:11:46,  1.11s/it]  5%|▌         | 5120/100000 [2:48:42<28:57:04,  1.10s/it]                                                            5%|▌         | 5120/100000 [2:48:42<28:57:04,  1.10s/it]  5%|▌         | 5121/100000 [2:48:43<28:25:41,  1.08s/it]                                                            5%|▌         | 5121/100000 [2:48:43<28:25:41,  1.08s/it]  5%|▌         | 5122/100000 [2:48:44<28:19:27,  1.07s/it]                                                            5%|▌         | 5122/100000 [2:48:44<28:19:27,  1.07s/it]  5%|▌         | 5123/100000 [2:48:45<27:58:07,  1.06s/it]                                                            5%|▌         | 5123/100000 [2:48:45<27:58:07,  1.06s/it]  5%|▌         | 5124/100000 [2:48:46<27:40:13,  1.05s/it]                                                            5%|▌         | 5124/100000 [2:48:46<27:40:13,  1.05s/it]  5%|▌         | 5125/100000 [2:48:47<27:00:15,  1.02s/it]                                                            5%|▌         | 5125/100000 [2:48:47<27:00:15,  1.02s/it]  5%|▌         | 5126/100000 [2:48:48<27:02:28,  1.03s/it]                                                            5%|▌         | 5126/100000 [2:48:48<27:02:28,  1.03s/it]  5%|▌         | 5127/100000 [2:48:49<26:31:48,  1.01s/it]                                                            5%|▌         | 5127/100000 [2:48:49<26:31:48,  1.01s/it]  5%|▌         | 5128/100000 [2:48:50<25:47:38,  1.02it/s]                                                            5%|▌         | 5128/100000 [2:48:50<25:47:38,  1.02it/s]  5%|▌         | 5129/100000 [2:49:01<105:33:19,  4.01s/it]                                                             5%|▌         | 5129/100000 [2:49:01<105:33:19,  4.01s/it]  5%|▌         | 5130/100000 [2:49:07<117:12:49,  4.45s/it]                                                             5%|▌         | 5130/100000 [2:49:07<117:12:49,  4.45s/it]  5%|▌         | 5131/100000 [2:49:11<117:37:02,  4.46s/it]                                                             5%|▌         | 5131/100000 [2:49:11<117:37:02,  4.46s/it]  5%|▌         | 5132/100000 [2:49:15<112:33:55,  4.27s/it]                                                             5%|▌         | 5132/100000 [2:49:15<112:33:55,  4.27s/it]  5%|▌         | 5133/100000 [2:49:19<106:04:26,  4.03s/it]                                                             5%|▌         | 5133/100000 [2:49:19<106:04:26,  4.03s/it]  5%|▌         | 5134/100000 [2:49:22<98:55:18,  3.75s/it]                                                             5%|▌         | 5134/100000 [2:49:22<98:55:18,  3.75s/it]  5%|▌         | 5135/100000 [2:49:24<91:38:59,  3.48s/it]                                                            5%|▌         | 5135/100000 [2:49:25<91:38:59,  3.48s/it]  5%|▌         | 5136/100000 [2:49:27<83:24:31,  3.17s/it]                                                            5%|▌         | 5136/100000 [2:49:27<83:24:31,  3.17s/it]  5%|▌         | 5137/100000 [2:49:29<76:50:57,  2.92s/it]                                                            5%|▌         | 5137/100000 [2:49:29<76:50:57,  2.92s/it]  5%|▌         | 5138/100000 [2:49:32<71:28:04,  2.71s/it]                                                            5%|▌         | 5138/100000 [2:49:32<71:28:04,  2.71s/it]  5%|▌         | 5139/100000 [2:49:34<66:31:30,  2.52s/it]                                                            5%|▌         | 5139/100000 [2:49:34<66:31:30,  2.52s/it]  5%|▌         | 5140/100000 [2:49:35<61:39:39,  2.34s/it]                                                            5%|▌         | 5140/100000 [2:49:36<61:39:39,  2.34s/it]  5%|▌         | 5141/100000 [2:49:37<57:55:11,  2.20s/it]                                                            5%|▌         | 5141/100000 [2:49:37<57:55:11,  2.20s/it]  5%|▌         | 5142/100000 [2:49:39<54:16:34,  2.06s/it]                                                            5%|▌         | 5142/100000 [2:49:39<54:16:34,  2.06s/it]  5%|▌         | 5143/100000 [2:49:41<51:20:58,  1.95s/it]                                                            5%|▌         | 5143/100000 [2:49:41<51:20:58,  1.95s/it]  5%|▌         | 5144/100000 [2:49:42<48:51:03,  1.85s/it]                                                            5%|▌         | 5144/100000 [2:49:42<48:51:03,  1.85s/it]  5%|▌         | 5145/100000 [2:49:44<46:52:11,  1.78s/it]                                                            5%|▌         | 5145/100000 [2:49:44<46:52:11,  1.78s/it]  5%|▌         | 5146/100000 [2:49:46<44:56:47,  1.71s/it]                                                            5%|▌         | 5146/100000 [2:49:46<44:56:47,  1.71s/it]  5%|▌         | 5147/100000 [2:49:47<43:04:39,  1.63s/it]                                                            5%|▌         | 5147/100000 [2:49:47<43:04:39,  1.63s/it]  5%|▌         | 5148/100000 [2:49:48<41:38:05,  1.58s/it]                                                            5%|▌         | 5148/100000 [2:49:49<41:38:05,  1.58s/it]  5%|▌         | 5149/100000 [2:49:50<40:22:12,  1.53s/it]                                                            5%|▌         | 5149/100000 [2:49:50<40:22:12,  1.53s/it]  5%|▌         | 5150/100000 [2:49:51<39:02:54,  1.48s/it]                                                            5%|▌         | 5150/100000 [2:49:51<39:02:54,  1.48s/it]  5%|▌         | 5151/100000 [2:49:53<38:06:53,  1.45s/it]                                                            5%|▌         | 5151/100000 [2:49:53<38:06:53,  1.45s/it]  5%|▌         | 5152/100000 [2:49:54<37:32:32,  1.42s/it]                                                            5%|▌         | 5152/100000 [2:49:54<37:32:32,  1.42s/it]  5%|▌         | 5153/100000 [2:49:55<36:56:27,  1.40s/it]                                                            5%|▌         | 5153/100000 [2:49:55<36:56:27,  1.40s/it]  5%|▌         | 5154/100000 [2:49:57<36:23:07,  1.38s/it]                                                            5%|▌         | 5154/100000 [2:49:57<36:23:07,  1.38s/it]  5%|▌         | 5155/100000 [2:49:58<35:33:05,  1.35s/it]                                                            5%|▌         | 5155/100000 [2:49:58<35:33:05,  1.35s/it]  5%|▌         | 5156/100000 [2:49:59<35:07:34,  1.33s/it]                                                            5%|▌         | 5156/100000 [2:49:59<35:07:34,  1.33s/it]  5%|▌         | 5157/100000 [2:50:01<34:42:18,  1.32s/it]                                                            5%|▌         | 5157/100000 [2:50:01<34:42:18,  1.32s/it]  5%|▌         | 5158/100000 [2:50:02<34:11:56,  1.30s/it]                                                            5%|▌         | 5158/100000 [2:50:02<34:11:56,  1.30s/it]  5%|▌         | 5159/100000 [2:50:03<33:40:56,  1.28s/it]                                                            5%|▌         | 5159/100000 [2:50:03<33:40:56,  1.28s/it]  5%|▌         | 5160/100000 [2:50:04<33:12:02,  1.26s/it]                                                            5%|▌         | 5160/100000 [2:50:04<33:12:02,  1.26s/it]  5%|▌         | 5161/100000 [2:50:05<32:46:27,  1.24s/it]                                                            5%|▌         | 5161/100000 [2:50:05<32:46:27,  1.24s/it]  5%|▌         | 5162/100000 [2:50:07<32:09:55,  1.22s/it]                                                            5%|▌         | 5162/100000 [2:50:07<32:09:55,  1.22s/it]  5%|▌         | 5163/100000 [2:50:08<31:31:41,  1.20s/it]                                                            5%|▌         | 5163/100000 [2:50:08<31:31:41,  1.20s/it]  5%|▌         | 5164/100000 [2:50:09<30:42:05,  1.17s/it]                                                            5%|▌         | 5164/100000 [2:50:09<30:42:05,  1.17s/it]  5%|▌         | 5165/100000 [2:50:10<30:18:39,  1.15s/it]                                                          {'loss': 0.1857, 'grad_norm': 0.6872143745422363, 'learning_rate': 1.5234000000000002e-05, 'epoch': 9.37}
+{'loss': 0.1947, 'grad_norm': 0.7117223143577576, 'learning_rate': 1.5237000000000002e-05, 'epoch': 9.38}
+{'loss': 0.1643, 'grad_norm': 0.6277230978012085, 'learning_rate': 1.524e-05, 'epoch': 9.38}
+{'loss': 0.2928, 'grad_norm': 0.951104998588562, 'learning_rate': 1.5243e-05, 'epoch': 9.38}
+{'loss': 0.1422, 'grad_norm': 1.0074466466903687, 'learning_rate': 1.5246e-05, 'epoch': 9.38}
+{'loss': 0.1417, 'grad_norm': 0.9526377320289612, 'learning_rate': 1.5249e-05, 'epoch': 9.38}
+{'loss': 0.1326, 'grad_norm': 0.6263598203659058, 'learning_rate': 1.5251999999999999e-05, 'epoch': 9.39}
+{'loss': 0.152, 'grad_norm': 0.7202224731445312, 'learning_rate': 1.5254999999999999e-05, 'epoch': 9.39}
+{'loss': 0.1059, 'grad_norm': 0.7987571358680725, 'learning_rate': 1.5258000000000002e-05, 'epoch': 9.39}
+{'loss': 0.1033, 'grad_norm': 0.8620315790176392, 'learning_rate': 1.5261000000000002e-05, 'epoch': 9.39}
+{'loss': 0.1379, 'grad_norm': 0.6651105880737305, 'learning_rate': 1.5264e-05, 'epoch': 9.39}
+{'loss': 0.091, 'grad_norm': 0.8910331130027771, 'learning_rate': 1.5267e-05, 'epoch': 9.4}
+{'loss': 0.0956, 'grad_norm': 0.7889306545257568, 'learning_rate': 1.527e-05, 'epoch': 9.4}
+{'loss': 0.0403, 'grad_norm': 0.45242881774902344, 'learning_rate': 1.5273e-05, 'epoch': 9.4}
+{'loss': 0.0407, 'grad_norm': 0.44926634430885315, 'learning_rate': 1.5276e-05, 'epoch': 9.4}
+{'loss': 0.0396, 'grad_norm': 0.5183128118515015, 'learning_rate': 1.5279e-05, 'epoch': 9.4}
+{'loss': 0.0338, 'grad_norm': 0.7148613333702087, 'learning_rate': 1.5282e-05, 'epoch': 9.4}
+{'loss': 0.0405, 'grad_norm': 0.6550760269165039, 'learning_rate': 1.5285e-05, 'epoch': 9.41}
+{'loss': 0.0258, 'grad_norm': 0.7605519890785217, 'learning_rate': 1.5288000000000003e-05, 'epoch': 9.41}
+{'loss': 0.0257, 'grad_norm': 0.6842150092124939, 'learning_rate': 1.5291000000000003e-05, 'epoch': 9.41}
+{'loss': 0.0464, 'grad_norm': 0.653022050857544, 'learning_rate': 1.5294000000000003e-05, 'epoch': 9.41}
+{'loss': 0.0324, 'grad_norm': 0.610390841960907, 'learning_rate': 1.5297e-05, 'epoch': 9.41}
+{'loss': 0.0303, 'grad_norm': 0.4467082619667053, 'learning_rate': 1.53e-05, 'epoch': 9.42}
+{'loss': 0.0335, 'grad_norm': 0.7387998700141907, 'learning_rate': 1.5303e-05, 'epoch': 9.42}
+{'loss': 0.0213, 'grad_norm': 0.4913165271282196, 'learning_rate': 1.5306e-05, 'epoch': 9.42}
+{'loss': 0.0344, 'grad_norm': 0.8983688950538635, 'learning_rate': 1.5309e-05, 'epoch': 9.42}
+{'loss': 0.0212, 'grad_norm': 0.8142847418785095, 'learning_rate': 1.5312e-05, 'epoch': 9.42}
+{'loss': 0.0421, 'grad_norm': 0.7110851407051086, 'learning_rate': 1.5314999999999998e-05, 'epoch': 9.42}
+{'loss': 0.0224, 'grad_norm': 0.5607290267944336, 'learning_rate': 1.5318e-05, 'epoch': 9.43}
+{'loss': 0.0299, 'grad_norm': 0.4886728525161743, 'learning_rate': 1.5321e-05, 'epoch': 9.43}
+{'loss': 0.0333, 'grad_norm': 0.5855394005775452, 'learning_rate': 1.5324e-05, 'epoch': 9.43}
+{'loss': 0.0223, 'grad_norm': 0.7737128138542175, 'learning_rate': 1.5327e-05, 'epoch': 9.43}
+{'loss': 0.0392, 'grad_norm': 0.5125995874404907, 'learning_rate': 1.533e-05, 'epoch': 9.43}
+{'loss': 0.0208, 'grad_norm': 0.42056554555892944, 'learning_rate': 1.5333e-05, 'epoch': 9.44}
+{'loss': 0.0213, 'grad_norm': 0.7700082659721375, 'learning_rate': 1.5336e-05, 'epoch': 9.44}
+{'loss': 0.0304, 'grad_norm': 0.6500101685523987, 'learning_rate': 1.5339e-05, 'epoch': 9.44}
+{'loss': 0.043, 'grad_norm': 0.7322611212730408, 'learning_rate': 1.5342e-05, 'epoch': 9.44}
+{'loss': 0.034, 'grad_norm': 1.0362110137939453, 'learning_rate': 1.5345e-05, 'epoch': 9.44}
+{'loss': 0.0349, 'grad_norm': 0.7446939945220947, 'learning_rate': 1.5348000000000003e-05, 'epoch': 9.45}
+{'loss': 0.0264, 'grad_norm': 0.5886105298995972, 'learning_rate': 1.5351000000000003e-05, 'epoch': 9.45}
+{'loss': 0.0172, 'grad_norm': 0.48578187823295593, 'learning_rate': 1.5354000000000002e-05, 'epoch': 9.45}
+{'loss': 0.0264, 'grad_norm': 0.688308835029602, 'learning_rate': 1.5357000000000002e-05, 'epoch': 9.45}
+{'loss': 0.0138, 'grad_norm': 0.5412452816963196, 'learning_rate': 1.5360000000000002e-05, 'epoch': 9.45}
+{'loss': 0.0227, 'grad_norm': 0.7046781778335571, 'learning_rate': 1.5363000000000002e-05, 'epoch': 9.45}
+{'loss': 0.0427, 'grad_norm': 0.6773200631141663, 'learning_rate': 1.5366e-05, 'epoch': 9.46}
+{'loss': 0.0634, 'grad_norm': 1.3261581659317017, 'learning_rate': 1.5368999999999998e-05, 'epoch': 9.46}
+{'loss': 0.0376, 'grad_norm': 0.5345895886421204, 'learning_rate': 1.5371999999999998e-05, 'epoch': 9.46}
+{'loss': 0.0487, 'grad_norm': 0.697981595993042, 'learning_rate': 1.5374999999999998e-05, 'epoch': 9.46}
+{'loss': 0.2722, 'grad_norm': 0.8647690415382385, 'learning_rate': 1.5377999999999997e-05, 'epoch': 9.46}
+{'loss': 0.1937, 'grad_norm': 0.9083550572395325, 'learning_rate': 1.5381e-05, 'epoch': 9.47}
+{'loss': 0.2162, 'grad_norm': 0.7926074862480164, 'learning_rate': 1.5384e-05, 'epoch': 9.47}
+{'loss': 0.2132, 'grad_norm': 0.7760337591171265, 'learning_rate': 1.5387e-05, 'epoch': 9.47}
+{'loss': 0.1809, 'grad_norm': 0.8853809237480164, 'learning_rate': 1.539e-05, 'epoch': 9.47}
+{'loss': 0.1805, 'grad_norm': 1.001965045928955, 'learning_rate': 1.5393e-05, 'epoch': 9.47}
+{'loss': 0.1188, 'grad_norm': 1.8056459426879883, 'learning_rate': 1.5396e-05, 'epoch': 9.47}
+{'loss': 0.156, 'grad_norm': 1.0790168046951294, 'learning_rate': 1.5399e-05, 'epoch': 9.48}
+{'loss': 0.0947, 'grad_norm': 0.7434194087982178, 'learning_rate': 1.5402e-05, 'epoch': 9.48}
+{'loss': 0.0839, 'grad_norm': 0.6929402351379395, 'learning_rate': 1.5405e-05, 'epoch': 9.48}
+{'loss': 0.1342, 'grad_norm': 0.8843145966529846, 'learning_rate': 1.5408e-05, 'epoch': 9.48}
+{'loss': 0.0424, 'grad_norm': 0.37170612812042236, 'learning_rate': 1.5411000000000002e-05, 'epoch': 9.48}
+{'loss': 0.0548, 'grad_norm': 0.4109022617340088, 'learning_rate': 1.5414000000000002e-05, 'epoch': 9.49}
+{'loss': 0.0587, 'grad_norm': 0.4736909568309784, 'learning_rate': 1.5417e-05, 'epoch': 9.49}
+{'loss': 0.0496, 'grad_norm': 0.49091270565986633, 'learning_rate': 1.542e-05, 'epoch': 9.49}
+{'loss': 0.0316, 'grad_norm': 0.5085435509681702, 'learning_rate': 1.5423e-05, 'epoch': 9.49}
+{'loss': 0.0277, 'grad_norm': 0.350394606590271, 'learning_rate': 1.5426e-05, 'epoch': 9.49}
+{'loss': 0.0322, 'grad_norm': 0.6892826557159424, 'learning_rate': 1.5429e-05, 'epoch': 9.49}
+{'loss': 0.0246, 'grad_norm': 0.6446825861930847, 'learning_rate': 1.5432e-05, 'epoch': 9.5}
+{'loss': 0.0732, 'grad_norm': 0.79939204454422, 'learning_rate': 1.5435e-05, 'epoch': 9.5}
+{'loss': 0.0336, 'grad_norm': 0.6500365734100342, 'learning_rate': 1.5438e-05, 'epoch': 9.5}
+{'loss': 0.0348, 'grad_norm': 0.5178731679916382, 'learning_rate': 1.5441000000000003e-05, 'epoch': 9.5}
+{'loss': 0.018, 'grad_norm': 0.3989321291446686, 'learning_rate': 1.5444e-05, 'epoch': 9.5}
+{'loss': 0.0313, 'grad_norm': 0.9351484775543213, 'learning_rate': 1.5447e-05, 'epoch': 9.51}
+{'loss': 0.0372, 'grad_norm': 0.5877683162689209, 'learning_rate': 1.545e-05, 'epoch': 9.51}
+{'loss': 0.025, 'grad_norm': 0.46480149030685425, 'learning_rate': 1.5453e-05, 'epoch': 9.51}
+{'loss': 0.0375, 'grad_norm': 0.7051569223403931, 'learning_rate': 1.5456e-05, 'epoch': 9.51}
+{'loss': 0.0347, 'grad_norm': 0.5951721668243408, 'learning_rate': 1.5459e-05, 'epoch': 9.51}
+{'loss': 0.0437, 'grad_norm': 0.671683669090271, 'learning_rate': 1.5462e-05, 'epoch': 9.52}
+{'loss': 0.0548, 'grad_norm': 0.6410195231437683, 'learning_rate': 1.5465e-05, 'epoch': 9.52}
+{'loss': 0.0316, 'grad_norm': 0.5157730579376221, 'learning_rate': 1.5467999999999998e-05, 'epoch': 9.52}
+{'loss': 0.0218, 'grad_norm': 0.5009844303131104, 'learning_rate': 1.5471e-05, 'epoch': 9.52}
+{'loss': 0.0157, 'grad_norm': 0.39921513199806213, 'learning_rate': 1.5474e-05, 'epoch': 9.52}
+{'loss': 0.0308, 'grad_norm': 0.5840036273002625, 'learning_rate': 1.5477e-05, 'epoch': 9.52}
+{'loss': 0.0255, 'grad_norm': 0.5300602912902832, 'learning_rate': 1.548e-05, 'epoch': 9.53}
+{'loss': 0.0343, 'grad_norm': 0.5056509971618652, 'learning_rate': 1.5483e-05, 'epoch': 9.53}
+  5%|▌         | 5165/100000 [2:50:10<30:18:39,  1.15s/it]  5%|▌         | 5166/100000 [2:50:11<29:47:20,  1.13s/it]                                                            5%|▌         | 5166/100000 [2:50:11<29:47:20,  1.13s/it]  5%|▌         | 5167/100000 [2:50:12<29:15:14,  1.11s/it]                                                            5%|▌         | 5167/100000 [2:50:12<29:15:14,  1.11s/it]  5%|▌         | 5168/100000 [2:50:13<28:36:07,  1.09s/it]                                                            5%|▌         | 5168/100000 [2:50:13<28:36:07,  1.09s/it]  5%|▌         | 5169/100000 [2:50:14<28:09:57,  1.07s/it]                                                            5%|▌         | 5169/100000 [2:50:14<28:09:57,  1.07s/it]  5%|▌         | 5170/100000 [2:50:15<28:01:09,  1.06s/it]                                                            5%|▌         | 5170/100000 [2:50:15<28:01:09,  1.06s/it]  5%|▌         | 5171/100000 [2:50:16<27:27:18,  1.04s/it]                                                            5%|▌         | 5171/100000 [2:50:16<27:27:18,  1.04s/it]  5%|▌         | 5172/100000 [2:50:17<27:01:41,  1.03s/it]                                                            5%|▌         | 5172/100000 [2:50:17<27:01:41,  1.03s/it]  5%|▌         | 5173/100000 [2:50:18<26:26:50,  1.00s/it]                                                            5%|▌         | 5173/100000 [2:50:18<26:26:50,  1.00s/it]  5%|▌         | 5174/100000 [2:50:19<26:21:55,  1.00s/it]                                                            5%|▌         | 5174/100000 [2:50:19<26:21:55,  1.00s/it]  5%|▌         | 5175/100000 [2:50:20<26:06:44,  1.01it/s]                                                            5%|▌         | 5175/100000 [2:50:20<26:06:44,  1.01it/s]  5%|▌         | 5176/100000 [2:50:21<25:49:52,  1.02it/s]                                                            5%|▌         | 5176/100000 [2:50:21<25:49:52,  1.02it/s]  5%|▌         | 5177/100000 [2:50:22<24:53:30,  1.06it/s]                                                            5%|▌         | 5177/100000 [2:50:22<24:53:30,  1.06it/s]  5%|▌         | 5178/100000 [2:50:23<23:43:30,  1.11it/s]                                                            5%|▌         | 5178/100000 [2:50:23<23:43:30,  1.11it/s]  5%|▌         | 5179/100000 [2:50:35<114:15:40,  4.34s/it]                                                             5%|▌         | 5179/100000 [2:50:35<114:15:40,  4.34s/it]  5%|▌         | 5180/100000 [2:50:41<126:34:09,  4.81s/it]                                                             5%|▌         | 5180/100000 [2:50:41<126:34:09,  4.81s/it]  5%|▌         | 5181/100000 [2:50:45<123:58:13,  4.71s/it]                                                             5%|▌         | 5181/100000 [2:50:45<123:58:13,  4.71s/it]  5%|▌         | 5182/100000 [2:50:50<118:44:12,  4.51s/it]                                                             5%|▌         | 5182/100000 [2:50:50<118:44:12,  4.51s/it]  5%|▌         | 5183/100000 [2:50:53<110:03:49,  4.18s/it]                                                             5%|▌         | 5183/100000 [2:50:53<110:03:49,  4.18s/it]  5%|▌         | 5184/100000 [2:50:56<100:21:38,  3.81s/it]                                                             5%|▌         | 5184/100000 [2:50:56<100:21:38,  3.81s/it]  5%|▌         | 5185/100000 [2:50:59<94:10:17,  3.58s/it]                                                             5%|▌         | 5185/100000 [2:50:59<94:10:17,  3.58s/it]  5%|▌         | 5186/100000 [2:51:02<88:06:08,  3.35s/it]                                                            5%|▌         | 5186/100000 [2:51:02<88:06:08,  3.35s/it]  5%|▌         | 5187/100000 [2:51:04<82:09:32,  3.12s/it]                                                            5%|▌         | 5187/100000 [2:51:04<82:09:32,  3.12s/it]  5%|▌         | 5188/100000 [2:51:07<76:34:15,  2.91s/it]                                                            5%|▌         | 5188/100000 [2:51:07<76:34:15,  2.91s/it]  5%|▌         | 5189/100000 [2:51:09<71:12:59,  2.70s/it]                                                            5%|▌         | 5189/100000 [2:51:09<71:12:59,  2.70s/it]  5%|▌         | 5190/100000 [2:51:11<66:14:49,  2.52s/it]                                                            5%|▌         | 5190/100000 [2:51:11<66:14:49,  2.52s/it]  5%|▌         | 5191/100000 [2:51:13<61:56:38,  2.35s/it]                                                            5%|▌         | 5191/100000 [2:51:13<61:56:38,  2.35s/it]  5%|▌         | 5192/100000 [2:51:15<57:35:21,  2.19s/it]                                                            5%|▌         | 5192/100000 [2:51:15<57:35:21,  2.19s/it]  5%|▌         | 5193/100000 [2:51:17<54:17:47,  2.06s/it]                                                            5%|▌         | 5193/100000 [2:51:17<54:17:47,  2.06s/it]  5%|▌         | 5194/100000 [2:51:18<51:22:04,  1.95s/it]                                                            5%|▌         | 5194/100000 [2:51:18<51:22:04,  1.95s/it]  5%|▌         | 5195/100000 [2:51:20<48:36:14,  1.85s/it]                                                            5%|▌         | 5195/100000 [2:51:20<48:36:14,  1.85s/it]  5%|▌         | 5196/100000 [2:51:21<46:28:22,  1.76s/it]                                                            5%|▌         | 5196/100000 [2:51:21<46:28:22,  1.76s/it]  5%|▌         | 5197/100000 [2:51:23<44:29:12,  1.69s/it]                                                            5%|▌         | 5197/100000 [2:51:23<44:29:12,  1.69s/it]  5%|▌         | 5198/100000 [2:51:24<42:45:48,  1.62s/it]                                                            5%|▌         | 5198/100000 [2:51:24<42:45:48,  1.62s/it]  5%|▌         | 5199/100000 [2:51:26<41:30:38,  1.58s/it]                                                            5%|▌         | 5199/100000 [2:51:26<41:30:38,  1.58s/it]  5%|▌         | 5200/100000 [2:51:27<40:28:57,  1.54s/it]                                                            5%|▌         | 5200/100000 [2:51:27<40:28:57,  1.54s/it]  5%|▌         | 5201/100000 [2:51:29<39:10:12,  1.49s/it]                                                            5%|▌         | 5201/100000 [2:51:29<39:10:12,  1.49s/it]  5%|▌         | 5202/100000 [2:51:30<38:32:05,  1.46s/it]                                                            5%|▌         | 5202/100000 [2:51:30<38:32:05,  1.46s/it]  5%|▌         | 5203/100000 [2:51:31<37:39:15,  1.43s/it]                                                            5%|▌         | 5203/100000 [2:51:31<37:39:15,  1.43s/it]  5%|▌         | 5204/100000 [2:51:33<36:46:40,  1.40s/it]                                                            5%|▌         | 5204/100000 [2:51:33<36:46:40,  1.40s/it]  5%|▌         | 5205/100000 [2:51:34<36:04:25,  1.37s/it]                                                            5%|▌         | 5205/100000 [2:51:34<36:04:25,  1.37s/it]  5%|▌         | 5206/100000 [2:51:35<35:33:02,  1.35s/it]                                                            5%|▌         | 5206/100000 [2:51:35<35:33:02,  1.35s/it]  5%|▌         | 5207/100000 [2:51:37<35:14:17,  1.34s/it]                                                            5%|▌         | 5207/100000 [2:51:37<35:14:17,  1.34s/it]  5%|▌         | 5208/100000 [2:51:38<34:48:50,  1.32s/it]                                                            5%|▌         | 5208/100000 [2:51:38<34:48:50,  1.32s/it]  5%|▌         | 5209/100000 [2:51:39<34:15:07,  1.30s/it]                                                            5%|▌         | 5209/100000 [2:51:39<34:15:07,  1.30s/it]  5%|▌         | 5210/100000 [2:51:40<33:46:02,  1.28s/it]                                                            5%|▌         | 5210/100000 [2:51:40<33:46:02,  1.28s/it]  5%|▌         | 5211/100000 [2:51:42<33:22:35,  1.27s/it]                                                            5%|▌         | 5211/100000 [2:51:42<33:22:35,  1.27s/it]  5%|▌         | 5212/100000 [2:51:43<32:54:02,  1.25s/it]                                                            5%|▌         | 5212/100000 [2:51:43<32:54:02,  1.25s/it]  5%|▌         | 5213/100000 [2:51:44<32:01:24,  1.22s/it]                                                            5%|▌         | 5213/100000 [2:51:44<32:01:24,  1.22s/it]  5%|▌         | 5214/100000 [2:51:45<31:29:44,  1.20s/it]                                                            5%|▌         | 5214/100000 [2:51:45<31:29:44,  1.20s/it]  5%|▌         | 5215/100000 [2:51:46<30:52:52,  1.17s/it]                                                            5%|▌         | 5215/100000 [2:51:46<30:52:52,  1.17s/it]  5%|▌         | 5216/100000 [2:51:47<30:30:35,  1.16s/it]                                                            5%|▌         | 5216/100000 [2:51:47<30:30:35,  1.16s/it]  5%|▌         | 5217/100000 [2:51:49<29:58:51,  1.14s/it]                                                            5%|▌         | 5217/100000 [2:51:49<29:58:51,  1.14s/it]  5%|▌         | 5218/100000 [2:51:50<29:42:40,  1.13s/it]                                                            5%|▌         | 5218/100000 [2:51:50<29:42:40,  1.13s/it]  5%|▌         | 5219/100000 [2:51:51<29:18:33,  1.11s/it]                                                            5%|▌         | 5219/100000 [2:51:51<29:18:33,  1.11s/it]  5%|▌         | 5220/100000 [2:51:52<28:58:29,  1.10s/it]                                                            5%|▌         | 5220/100000 [2:51:52<28:58:29,  1.10s/it]  5%|▌         | 5221/100000 [2:51:53<28:27:35,  1.08s/it]                                                            5%|▌         | 5221/100000 [2:51:53<28:27:35,  1.08s/it]  5%|▌         | 5222/100000 [2:51:54<28:06:00,  1.07s/it]                                                            5%|▌         | 5222/100000 [2:51:54<28:06:00,  1.07s/it]  5%|▌         | 5223/100000 [2:51:55<27:40:49,  1.05s/it]                                                            5%|▌         | 5223/100000 [2:51:55<27:40:49,  1.05s/it]  5%|▌         | 5224/100000 [2:51:56<27:14:12,  1.03s/it]                                                            5%|▌         | 5224/100000 [2:51:56<27:14:12,  1.03s/it]  5%|▌         | 5225/100000 [2:51:57<26:44:41,  1.02s/it]                                                            5%|▌         | 5225/100000 [2:51:57<26:44:41,  1.02s/it]  5%|▌         | 5226/100000 [2:51:58<26:07:12,  1.01it/s]                                                            5%|▌         | 5226/100000 [2:51:58<26:07:12,  1.01it/s]  5%|▌         | 5227/100000 [2:51:59<25:20:45,  1.04it/s]                                                            5%|▌         | 5227/100000 [2:51:59<25:20:45,  1.04it/s]  5%|▌         | 5228/100000 [2:52:00<24:37:32,  1.07it/s]                                                            5%|▌         | 5228/100000 [2:52:00<24:37:32,  1.07it/s]  5%|▌         | 5229/100000 [2:52:10<99:40:44,  3.79s/it]                                                            5%|▌         | 5229/100000 [2:52:10<99:40:44,  3.79s/it]  5%|▌         | 5230/100000 [2:52:16<113:57:20,  4.33s/it]                                                             5%|▌         | 5230/100000 [2:52:16<113:57:20,  4.33s/it]  5%|▌         | 5231/100000 [2:52:20<115:51:19,  4.40s/it]                                                             5%|▌         | 5231/100000 [2:52:20<115:51:19,  4.40s/it]  5%|▌         | 5232/100000 [2:52:24<112:26:12,  4.27s/it]                                                             5%|▌         | 5232/100000 [2:52:24<112:26:12,  4.27s/it]  5%|▌         | 5233/100000 [2:52:28<107:17:20,  4.08s/it]                                                             5%|▌         | 5233/100000 [2:52:28<107:17:20,  4.08s/it]  5%|▌         | 5234/100000 [2:52:31<99:43:50,  3.79s/it]                                                             5%|▌         | 5234/100000 [2:52:31<99:43:50,  3.79s/it]  5%|▌         | 5235/100000 [2:52:34<93:41:58,  3.56s/it]                                                            5%|▌         | 5235/100000 [2:52:34<93:41:58,  3.56s/it]  5%|▌         | 5236/100000 [2:52:37<86:35:39,  3.29s/it]                                                            5%|▌         | 5236/100000 [2:52:37<86:35:39,  3.29s/it]  5%|▌         | 5237/100000 [2:52:39<80:17:10,  3.05s/it]                                                            5%|▌         | 5237/100000 [2:52:39<80:17:10,  3.05s/it]  5%|▌         | 5238/100000 [2:52:41<74:43:17,  2.84s/it]                                                            5%|▌         | 5238/100000 [2:52:41<74:43:17,  2.84s/it]  5%|▌         | 5239/100000 [2:52:44<69:10:01,  2.63s/it]                                                            5%|▌         | 5239/100000 [2:52:44<69:10:01,  2.63s/it]  5%|▌         | 5240/100000 [2:52:46<64:19:40,  2.44s/it]                                                            5%|▌         | 5240/100000 [2:52:46<64:19:40,  2.44s/it]  5%|▌         | 5241/100000 [2:52:47<60:01:02,  2.28s/it]                                                            5%|▌         | 5241/100000 [2:52:47<60:01:02,  2.28s/it]  5%|▌         | 5242/100000 [2:52:49<56:07:40,  2.13s/it]                                                            5%|▌         | 5242/100000 [2:52:49<56:07:40,  2.13s/it]  5%|▌         | 5243/100000 [2:52:51<52:35:31,  2.00s/it]                                                            5%|▌         | 5243/100000 [2:52:51<52:35:31,  2.00s/it]  5%|▌         | 5244/100000 [2:52:53<50:05:46,  1.90s/it]                                                            5%|▌         | 5244/100000 [2:52:53<50:05:46,  1.90s/it]  5%|▌         | 5245/100000 [2:52:54<47:50:19,  1.82s/it]                                                            5%|▌         | 5245/100000 [2:52:54<47:50:19,  1.82s/it]  5%|▌         | 5246/100000 [2:52:56<45:55:16,  1.74s/it]                                                            5%|▌         | 5246/100000 [2:52:56<45:55:16,  1.74s/it]  5%|▌         | 5247/100000 [2:52:57<44:07:10,  1.68s/it]                                                            5%|▌         | 5247/100000 [2:52:57<44:07:10,  1.68s/it]  5%|▌         | 5248/100000 [2:52:59<42:35:22,  1.62s/it]                                                          {'loss': 0.0291, 'grad_norm': 0.4027712941169739, 'learning_rate': 1.5486e-05, 'epoch': 9.53}
+{'loss': 0.0233, 'grad_norm': 0.46333715319633484, 'learning_rate': 1.5489e-05, 'epoch': 9.53}
+{'loss': 0.0306, 'grad_norm': 0.651351273059845, 'learning_rate': 1.5492e-05, 'epoch': 9.53}
+{'loss': 0.023, 'grad_norm': 0.5864402055740356, 'learning_rate': 1.5495e-05, 'epoch': 9.54}
+{'loss': 0.0232, 'grad_norm': 0.5296105742454529, 'learning_rate': 1.5498e-05, 'epoch': 9.54}
+{'loss': 0.0235, 'grad_norm': 0.4870733916759491, 'learning_rate': 1.5501000000000003e-05, 'epoch': 9.54}
+{'loss': 0.0275, 'grad_norm': 0.5141538977622986, 'learning_rate': 1.5504000000000003e-05, 'epoch': 9.54}
+{'loss': 0.0225, 'grad_norm': 0.4707508683204651, 'learning_rate': 1.5507000000000002e-05, 'epoch': 9.54}
+{'loss': 0.0361, 'grad_norm': 0.8089979887008667, 'learning_rate': 1.5510000000000002e-05, 'epoch': 9.54}
+{'loss': 0.0279, 'grad_norm': 0.5475485920906067, 'learning_rate': 1.5513000000000002e-05, 'epoch': 9.55}
+{'loss': 0.0351, 'grad_norm': 2.153735399246216, 'learning_rate': 1.5516000000000002e-05, 'epoch': 9.55}
+{'loss': 0.0216, 'grad_norm': 1.0369545221328735, 'learning_rate': 1.5518999999999998e-05, 'epoch': 9.55}
+{'loss': 0.0243, 'grad_norm': 0.6523640751838684, 'learning_rate': 1.5521999999999998e-05, 'epoch': 9.55}
+{'loss': 0.0567, 'grad_norm': 0.887344479560852, 'learning_rate': 1.5524999999999998e-05, 'epoch': 9.55}
+{'loss': 0.2774, 'grad_norm': 1.1368447542190552, 'learning_rate': 1.5527999999999998e-05, 'epoch': 9.56}
+{'loss': 0.254, 'grad_norm': 0.9110034704208374, 'learning_rate': 1.5531e-05, 'epoch': 9.56}
+{'loss': 0.1996, 'grad_norm': 0.8574900031089783, 'learning_rate': 1.5534e-05, 'epoch': 9.56}
+{'loss': 0.1832, 'grad_norm': 0.7445184588432312, 'learning_rate': 1.5537e-05, 'epoch': 9.56}
+{'loss': 0.2373, 'grad_norm': 1.266960620880127, 'learning_rate': 1.554e-05, 'epoch': 9.56}
+{'loss': 0.1329, 'grad_norm': 0.8766116499900818, 'learning_rate': 1.5543e-05, 'epoch': 9.57}
+{'loss': 0.1283, 'grad_norm': 1.0444930791854858, 'learning_rate': 1.5546e-05, 'epoch': 9.57}
+{'loss': 0.1423, 'grad_norm': 0.7388608455657959, 'learning_rate': 1.5549e-05, 'epoch': 9.57}
+{'loss': 0.1518, 'grad_norm': 0.6338157057762146, 'learning_rate': 1.5552e-05, 'epoch': 9.57}
+{'loss': 0.1124, 'grad_norm': 0.5952925682067871, 'learning_rate': 1.5555e-05, 'epoch': 9.57}
+{'loss': 0.1288, 'grad_norm': 0.7095077037811279, 'learning_rate': 1.5558e-05, 'epoch': 9.57}
+{'loss': 0.0931, 'grad_norm': 0.5818418860435486, 'learning_rate': 1.5561000000000002e-05, 'epoch': 9.58}
+{'loss': 0.0822, 'grad_norm': 0.8665828704833984, 'learning_rate': 1.5564000000000002e-05, 'epoch': 9.58}
+{'loss': 0.0608, 'grad_norm': 0.9548938274383545, 'learning_rate': 1.5567000000000002e-05, 'epoch': 9.58}
+{'loss': 0.064, 'grad_norm': 0.4729214310646057, 'learning_rate': 1.5570000000000002e-05, 'epoch': 9.58}
+{'loss': 0.0273, 'grad_norm': 0.33552882075309753, 'learning_rate': 1.5573e-05, 'epoch': 9.58}
+{'loss': 0.0875, 'grad_norm': 0.8147560358047485, 'learning_rate': 1.5576e-05, 'epoch': 9.59}
+{'loss': 0.0491, 'grad_norm': 0.4922485947608948, 'learning_rate': 1.5579e-05, 'epoch': 9.59}
+{'loss': 0.0954, 'grad_norm': 3.5064287185668945, 'learning_rate': 1.5582e-05, 'epoch': 9.59}
+{'loss': 0.0368, 'grad_norm': 0.40575841069221497, 'learning_rate': 1.5585e-05, 'epoch': 9.59}
+{'loss': 0.0279, 'grad_norm': 0.425672322511673, 'learning_rate': 1.5588e-05, 'epoch': 9.59}
+{'loss': 0.0393, 'grad_norm': 0.4247608780860901, 'learning_rate': 1.5591e-05, 'epoch': 9.59}
+{'loss': 0.0619, 'grad_norm': 0.7301235795021057, 'learning_rate': 1.5594e-05, 'epoch': 9.6}
+{'loss': 0.0289, 'grad_norm': 0.4044654667377472, 'learning_rate': 1.5597e-05, 'epoch': 9.6}
+{'loss': 0.0129, 'grad_norm': 0.36088332533836365, 'learning_rate': 1.56e-05, 'epoch': 9.6}
+{'loss': 0.0395, 'grad_norm': 0.6777994632720947, 'learning_rate': 1.5603e-05, 'epoch': 9.6}
+{'loss': 0.0172, 'grad_norm': 0.2510547935962677, 'learning_rate': 1.5606e-05, 'epoch': 9.6}
+{'loss': 0.0282, 'grad_norm': 0.5264256596565247, 'learning_rate': 1.5609e-05, 'epoch': 9.61}
+{'loss': 0.0206, 'grad_norm': 0.5090929865837097, 'learning_rate': 1.5612e-05, 'epoch': 9.61}
+{'loss': 0.0314, 'grad_norm': 0.6527032852172852, 'learning_rate': 1.5615e-05, 'epoch': 9.61}
+{'loss': 0.0261, 'grad_norm': 0.5314533114433289, 'learning_rate': 1.5618e-05, 'epoch': 9.61}
+{'loss': 0.0234, 'grad_norm': 0.47839510440826416, 'learning_rate': 1.5621000000000002e-05, 'epoch': 9.61}
+{'loss': 0.0387, 'grad_norm': 0.5687962174415588, 'learning_rate': 1.5624e-05, 'epoch': 9.61}
+{'loss': 0.0175, 'grad_norm': 0.3908262848854065, 'learning_rate': 1.5627e-05, 'epoch': 9.62}
+{'loss': 0.0267, 'grad_norm': 0.4974033534526825, 'learning_rate': 1.563e-05, 'epoch': 9.62}
+{'loss': 0.0294, 'grad_norm': 0.7582276463508606, 'learning_rate': 1.5633e-05, 'epoch': 9.62}
+{'loss': 0.0246, 'grad_norm': 0.5293557047843933, 'learning_rate': 1.5636e-05, 'epoch': 9.62}
+{'loss': 0.0615, 'grad_norm': 0.5568930506706238, 'learning_rate': 1.5639e-05, 'epoch': 9.62}
+{'loss': 0.0252, 'grad_norm': 0.46155261993408203, 'learning_rate': 1.5642e-05, 'epoch': 9.63}
+{'loss': 0.0299, 'grad_norm': 0.7104062438011169, 'learning_rate': 1.5645e-05, 'epoch': 9.63}
+{'loss': 0.028, 'grad_norm': 0.4467885196208954, 'learning_rate': 1.5648e-05, 'epoch': 9.63}
+{'loss': 0.0344, 'grad_norm': 1.1483324766159058, 'learning_rate': 1.5651000000000003e-05, 'epoch': 9.63}
+{'loss': 0.0225, 'grad_norm': 0.6257169246673584, 'learning_rate': 1.5654000000000003e-05, 'epoch': 9.63}
+{'loss': 0.0343, 'grad_norm': 0.7972967028617859, 'learning_rate': 1.5657000000000003e-05, 'epoch': 9.64}
+{'loss': 0.0166, 'grad_norm': 0.5291518568992615, 'learning_rate': 1.5660000000000003e-05, 'epoch': 9.64}
+{'loss': 0.0359, 'grad_norm': 0.8691847324371338, 'learning_rate': 1.5663000000000002e-05, 'epoch': 9.64}
+{'loss': 0.0162, 'grad_norm': 0.5594950914382935, 'learning_rate': 1.5666e-05, 'epoch': 9.64}
+{'loss': 0.025, 'grad_norm': 0.5064205527305603, 'learning_rate': 1.5669e-05, 'epoch': 9.64}
+{'loss': 0.019, 'grad_norm': 0.5738297700881958, 'learning_rate': 1.5672e-05, 'epoch': 9.64}
+{'loss': 0.0538, 'grad_norm': 0.6175197958946228, 'learning_rate': 1.5674999999999998e-05, 'epoch': 9.65}
+{'loss': 0.3066, 'grad_norm': 2.0463693141937256, 'learning_rate': 1.5677999999999998e-05, 'epoch': 9.65}
+{'loss': 0.2584, 'grad_norm': 0.8259283304214478, 'learning_rate': 1.5681e-05, 'epoch': 9.65}
+{'loss': 0.191, 'grad_norm': 0.6895362138748169, 'learning_rate': 1.5684e-05, 'epoch': 9.65}
+{'loss': 0.1583, 'grad_norm': 0.6375547051429749, 'learning_rate': 1.5687e-05, 'epoch': 9.65}
+{'loss': 0.1589, 'grad_norm': 0.8149611353874207, 'learning_rate': 1.569e-05, 'epoch': 9.66}
+{'loss': 0.1955, 'grad_norm': 1.1168636083602905, 'learning_rate': 1.5693e-05, 'epoch': 9.66}
+{'loss': 0.182, 'grad_norm': 1.1383134126663208, 'learning_rate': 1.5696e-05, 'epoch': 9.66}
+{'loss': 0.138, 'grad_norm': 0.8388357162475586, 'learning_rate': 1.5699e-05, 'epoch': 9.66}
+{'loss': 0.1609, 'grad_norm': 0.8659719824790955, 'learning_rate': 1.5702e-05, 'epoch': 9.66}
+{'loss': 0.1067, 'grad_norm': 0.7714173793792725, 'learning_rate': 1.5705e-05, 'epoch': 9.66}
+{'loss': 0.0698, 'grad_norm': 0.5207611918449402, 'learning_rate': 1.5708e-05, 'epoch': 9.67}
+{'loss': 0.1231, 'grad_norm': 0.6840134859085083, 'learning_rate': 1.5711000000000003e-05, 'epoch': 9.67}
+{'loss': 0.1607, 'grad_norm': 1.1387262344360352, 'learning_rate': 1.5714000000000002e-05, 'epoch': 9.67}
+{'loss': 0.093, 'grad_norm': 1.182800531387329, 'learning_rate': 1.5717000000000002e-05, 'epoch': 9.67}
+{'loss': 0.0594, 'grad_norm': 0.5864893198013306, 'learning_rate': 1.5720000000000002e-05, 'epoch': 9.67}
+{'loss': 0.0634, 'grad_norm': 0.48163750767707825, 'learning_rate': 1.5723000000000002e-05, 'epoch': 9.68}
+{'loss': 0.0463, 'grad_norm': 0.5190600752830505, 'learning_rate': 1.5726e-05, 'epoch': 9.68}
+{'loss': 0.0225, 'grad_norm': 0.6937405467033386, 'learning_rate': 1.5729e-05, 'epoch': 9.68}
+{'loss': 0.0162, 'grad_norm': 0.33243173360824585, 'learning_rate': 1.5732e-05, 'epoch': 9.68}
+  5%|▌         | 5248/100000 [2:52:59<42:35:22,  1.62s/it]  5%|▌         | 5249/100000 [2:53:00<40:57:08,  1.56s/it]                                                            5%|▌         | 5249/100000 [2:53:00<40:57:08,  1.56s/it]  5%|▌         | 5250/100000 [2:53:02<39:52:49,  1.52s/it]                                                            5%|▌         | 5250/100000 [2:53:02<39:52:49,  1.52s/it]  5%|▌         | 5251/100000 [2:53:03<38:53:19,  1.48s/it]                                                            5%|▌         | 5251/100000 [2:53:03<38:53:19,  1.48s/it]  5%|▌         | 5252/100000 [2:53:04<37:58:10,  1.44s/it]                                                            5%|▌         | 5252/100000 [2:53:04<37:58:10,  1.44s/it]  5%|▌         | 5253/100000 [2:53:06<37:20:24,  1.42s/it]                                                            5%|▌         | 5253/100000 [2:53:06<37:20:24,  1.42s/it]  5%|▌         | 5254/100000 [2:53:07<36:45:24,  1.40s/it]                                                            5%|▌         | 5254/100000 [2:53:07<36:45:24,  1.40s/it]  5%|▌         | 5255/100000 [2:53:08<36:14:11,  1.38s/it]                                                            5%|▌         | 5255/100000 [2:53:08<36:14:11,  1.38s/it]  5%|▌         | 5256/100000 [2:53:10<35:37:33,  1.35s/it]                                                            5%|▌         | 5256/100000 [2:53:10<35:37:33,  1.35s/it]  5%|▌         | 5257/100000 [2:53:11<35:04:56,  1.33s/it]                                                            5%|▌         | 5257/100000 [2:53:11<35:04:56,  1.33s/it]  5%|▌         | 5258/100000 [2:53:12<34:21:54,  1.31s/it]                                                            5%|▌         | 5258/100000 [2:53:12<34:21:54,  1.31s/it]  5%|▌         | 5259/100000 [2:53:13<33:57:49,  1.29s/it]                                                            5%|▌         | 5259/100000 [2:53:13<33:57:49,  1.29s/it]  5%|▌         | 5260/100000 [2:53:15<33:17:26,  1.27s/it]                                                            5%|▌         | 5260/100000 [2:53:15<33:17:26,  1.27s/it]  5%|▌         | 5261/100000 [2:53:16<32:59:09,  1.25s/it]                                                            5%|▌         | 5261/100000 [2:53:16<32:59:09,  1.25s/it]  5%|▌         | 5262/100000 [2:53:17<32:38:14,  1.24s/it]                                                            5%|▌         | 5262/100000 [2:53:17<32:38:14,  1.24s/it]  5%|▌         | 5263/100000 [2:53:18<31:53:24,  1.21s/it]                                                            5%|▌         | 5263/100000 [2:53:18<31:53:24,  1.21s/it]  5%|▌         | 5264/100000 [2:53:19<31:24:54,  1.19s/it]                                                            5%|▌         | 5264/100000 [2:53:19<31:24:54,  1.19s/it]  5%|▌         | 5265/100000 [2:53:21<30:54:13,  1.17s/it]                                                            5%|▌         | 5265/100000 [2:53:21<30:54:13,  1.17s/it]  5%|▌         | 5266/100000 [2:53:22<30:38:15,  1.16s/it]                                                            5%|▌         | 5266/100000 [2:53:22<30:38:15,  1.16s/it]  5%|▌         | 5267/100000 [2:53:23<30:01:53,  1.14s/it]                                                            5%|▌         | 5267/100000 [2:53:23<30:01:53,  1.14s/it]  5%|▌         | 5268/100000 [2:53:24<29:45:41,  1.13s/it]                                                            5%|▌         | 5268/100000 [2:53:24<29:45:41,  1.13s/it]  5%|▌         | 5269/100000 [2:53:25<29:26:17,  1.12s/it]                                                            5%|▌         | 5269/100000 [2:53:25<29:26:17,  1.12s/it]  5%|▌         | 5270/100000 [2:53:26<29:09:42,  1.11s/it]                                                            5%|▌         | 5270/100000 [2:53:26<29:09:42,  1.11s/it]  5%|▌         | 5271/100000 [2:53:27<28:45:46,  1.09s/it]                                                            5%|▌         | 5271/100000 [2:53:27<28:45:46,  1.09s/it]  5%|▌         | 5272/100000 [2:53:28<28:13:09,  1.07s/it]                                                            5%|▌         | 5272/100000 [2:53:28<28:13:09,  1.07s/it]  5%|▌         | 5273/100000 [2:53:29<27:40:57,  1.05s/it]                                                            5%|▌         | 5273/100000 [2:53:29<27:40:57,  1.05s/it]  5%|▌         | 5274/100000 [2:53:30<27:11:50,  1.03s/it]                                                            5%|▌         | 5274/100000 [2:53:30<27:11:50,  1.03s/it]  5%|▌         | 5275/100000 [2:53:31<26:40:54,  1.01s/it]                                                            5%|▌         | 5275/100000 [2:53:31<26:40:54,  1.01s/it]  5%|▌         | 5276/100000 [2:53:32<26:14:35,  1.00it/s]                                                            5%|▌         | 5276/100000 [2:53:32<26:14:35,  1.00it/s]  5%|▌         | 5277/100000 [2:53:33<25:47:55,  1.02it/s]                                                            5%|▌         | 5277/100000 [2:53:33<25:47:55,  1.02it/s]  5%|▌         | 5278/100000 [2:53:34<24:45:22,  1.06it/s]                                                            5%|▌         | 5278/100000 [2:53:34<24:45:22,  1.06it/s]  5%|▌         | 5279/100000 [2:53:45<108:33:25,  4.13s/it]                                                             5%|▌         | 5279/100000 [2:53:45<108:33:25,  4.13s/it]  5%|▌         | 5280/100000 [2:53:51<121:38:01,  4.62s/it]                                                             5%|▌         | 5280/100000 [2:53:51<121:38:01,  4.62s/it]  5%|▌         | 5281/100000 [2:53:55<118:12:18,  4.49s/it]                                                             5%|▌         | 5281/100000 [2:53:55<118:12:18,  4.49s/it]  5%|▌         | 5282/100000 [2:53:59<114:28:32,  4.35s/it]                                                             5%|▌         | 5282/100000 [2:53:59<114:28:32,  4.35s/it]  5%|▌         | 5283/100000 [2:54:03<108:20:03,  4.12s/it]                                                             5%|▌         | 5283/100000 [2:54:03<108:20:03,  4.12s/it]  5%|▌         | 5284/100000 [2:54:06<101:11:53,  3.85s/it]                                                             5%|▌         | 5284/100000 [2:54:06<101:11:53,  3.85s/it]  5%|▌         | 5285/100000 [2:54:09<94:17:16,  3.58s/it]                                                             5%|▌         | 5285/100000 [2:54:09<94:17:16,  3.58s/it]  5%|▌         | 5286/100000 [2:54:12<86:54:19,  3.30s/it]                                                            5%|▌         | 5286/100000 [2:54:12<86:54:19,  3.30s/it]  5%|▌         | 5287/100000 [2:54:14<79:57:05,  3.04s/it]                                                            5%|▌         | 5287/100000 [2:54:14<79:57:05,  3.04s/it]  5%|▌         | 5288/100000 [2:54:17<74:33:42,  2.83s/it]                                                            5%|▌         | 5288/100000 [2:54:17<74:33:42,  2.83s/it]  5%|▌         | 5289/100000 [2:54:19<69:09:59,  2.63s/it]                                                            5%|▌         | 5289/100000 [2:54:19<69:09:59,  2.63s/it]  5%|▌         | 5290/100000 [2:54:21<64:05:09,  2.44s/it]                                                            5%|▌         | 5290/100000 [2:54:21<64:05:09,  2.44s/it]  5%|▌         | 5291/100000 [2:54:23<60:18:13,  2.29s/it]                                                            5%|▌         | 5291/100000 [2:54:23<60:18:13,  2.29s/it]  5%|▌         | 5292/100000 [2:54:25<56:51:54,  2.16s/it]                                                            5%|▌         | 5292/100000 [2:54:25<56:51:54,  2.16s/it]  5%|▌         | 5293/100000 [2:54:26<53:35:33,  2.04s/it]                                                            5%|▌         | 5293/100000 [2:54:26<53:35:33,  2.04s/it]  5%|▌         | 5294/100000 [2:54:28<50:41:00,  1.93s/it]                                                            5%|▌         | 5294/100000 [2:54:28<50:41:00,  1.93s/it]  5%|▌         | 5295/100000 [2:54:30<49:27:32,  1.88s/it]                                                            5%|▌         | 5295/100000 [2:54:30<49:27:32,  1.88s/it]  5%|▌         | 5296/100000 [2:54:31<47:05:05,  1.79s/it]                                                            5%|▌         | 5296/100000 [2:54:31<47:05:05,  1.79s/it]  5%|▌         | 5297/100000 [2:54:33<45:11:52,  1.72s/it]                                                            5%|▌         | 5297/100000 [2:54:33<45:11:52,  1.72s/it]  5%|▌         | 5298/100000 [2:54:34<43:16:44,  1.65s/it]                                                            5%|▌         | 5298/100000 [2:54:34<43:16:44,  1.65s/it]  5%|▌         | 5299/100000 [2:54:36<41:42:55,  1.59s/it]                                                            5%|▌         | 5299/100000 [2:54:36<41:42:55,  1.59s/it]  5%|▌         | 5300/100000 [2:54:37<40:07:28,  1.53s/it]                                                            5%|▌         | 5300/100000 [2:54:37<40:07:28,  1.53s/it]  5%|▌         | 5301/100000 [2:54:39<39:07:28,  1.49s/it]                                                            5%|▌         | 5301/100000 [2:54:39<39:07:28,  1.49s/it]  5%|▌         | 5302/100000 [2:54:40<38:16:05,  1.45s/it]                                                            5%|▌         | 5302/100000 [2:54:40<38:16:05,  1.45s/it]  5%|▌         | 5303/100000 [2:54:41<37:32:29,  1.43s/it]                                                            5%|▌         | 5303/100000 [2:54:41<37:32:29,  1.43s/it]  5%|▌         | 5304/100000 [2:54:43<36:38:38,  1.39s/it]                                                            5%|▌         | 5304/100000 [2:54:43<36:38:38,  1.39s/it]  5%|▌         | 5305/100000 [2:54:44<36:12:06,  1.38s/it]                                                            5%|▌         | 5305/100000 [2:54:44<36:12:06,  1.38s/it]  5%|▌         | 5306/100000 [2:54:45<35:18:38,  1.34s/it]                                                            5%|▌         | 5306/100000 [2:54:45<35:18:38,  1.34s/it]  5%|▌         | 5307/100000 [2:54:46<34:42:19,  1.32s/it]                                                            5%|▌         | 5307/100000 [2:54:46<34:42:19,  1.32s/it]  5%|▌         | 5308/100000 [2:54:48<33:59:44,  1.29s/it]                                                            5%|▌         | 5308/100000 [2:54:48<33:59:44,  1.29s/it]  5%|▌         | 5309/100000 [2:54:49<33:40:10,  1.28s/it]                                                            5%|▌         | 5309/100000 [2:54:49<33:40:10,  1.28s/it]  5%|▌         | 5310/100000 [2:54:50<33:24:02,  1.27s/it]                                                            5%|▌         | 5310/100000 [2:54:50<33:24:02,  1.27s/it]  5%|▌         | 5311/100000 [2:54:51<32:40:21,  1.24s/it]                                                            5%|▌         | 5311/100000 [2:54:51<32:40:21,  1.24s/it]  5%|▌         | 5312/100000 [2:54:53<32:08:10,  1.22s/it]                                                            5%|▌         | 5312/100000 [2:54:53<32:08:10,  1.22s/it]  5%|▌         | 5313/100000 [2:54:54<31:22:19,  1.19s/it]                                                            5%|▌         | 5313/100000 [2:54:54<31:22:19,  1.19s/it]  5%|▌         | 5314/100000 [2:54:55<31:05:52,  1.18s/it]                                                            5%|▌         | 5314/100000 [2:54:55<31:05:52,  1.18s/it]  5%|▌         | 5315/100000 [2:54:56<30:30:01,  1.16s/it]                                                            5%|▌         | 5315/100000 [2:54:56<30:30:01,  1.16s/it]  5%|▌         | 5316/100000 [2:54:57<29:58:21,  1.14s/it]                                                            5%|▌         | 5316/100000 [2:54:57<29:58:21,  1.14s/it]  5%|▌         | 5317/100000 [2:54:58<29:22:26,  1.12s/it]                                                            5%|▌         | 5317/100000 [2:54:58<29:22:26,  1.12s/it]  5%|▌         | 5318/100000 [2:54:59<29:00:21,  1.10s/it]                                                            5%|▌         | 5318/100000 [2:54:59<29:00:21,  1.10s/it]  5%|▌         | 5319/100000 [2:55:00<28:38:23,  1.09s/it]                                                            5%|▌         | 5319/100000 [2:55:00<28:38:23,  1.09s/it]  5%|▌         | 5320/100000 [2:55:01<28:10:09,  1.07s/it]                                                            5%|▌         | 5320/100000 [2:55:01<28:10:09,  1.07s/it]  5%|▌         | 5321/100000 [2:55:02<27:50:17,  1.06s/it]                                                            5%|▌         | 5321/100000 [2:55:02<27:50:17,  1.06s/it]  5%|▌         | 5322/100000 [2:55:03<27:25:38,  1.04s/it]                                                            5%|▌         | 5322/100000 [2:55:03<27:25:38,  1.04s/it]  5%|▌         | 5323/100000 [2:55:04<27:14:10,  1.04s/it]                                                            5%|▌         | 5323/100000 [2:55:04<27:14:10,  1.04s/it]  5%|▌         | 5324/100000 [2:55:05<26:46:08,  1.02s/it]                                                            5%|▌         | 5324/100000 [2:55:05<26:46:08,  1.02s/it]  5%|▌         | 5325/100000 [2:55:06<26:09:16,  1.01it/s]                                                            5%|▌         | 5325/100000 [2:55:06<26:09:16,  1.01it/s]  5%|▌         | 5326/100000 [2:55:07<25:39:58,  1.02it/s]                                                            5%|▌         | 5326/100000 [2:55:07<25:39:58,  1.02it/s]  5%|▌         | 5327/100000 [2:55:08<25:04:28,  1.05it/s]                                                            5%|▌         | 5327/100000 [2:55:08<25:04:28,  1.05it/s]  5%|▌         | 5328/100000 [2:55:09<24:06:55,  1.09it/s]                                                            5%|▌         | 5328/100000 [2:55:09<24:06:55,  1.09it/s]  5%|▌         | 5329/100000 [2:55:21<113:43:24,  4.32s/it]                                                             5%|▌         | 5329/100000 [2:55:21<113:43:24,  4.32s/it]  5%|▌         | 5330/100000 [2:55:27<124:56:13,  4.75s/it]                                                             5%|▌         | 5330/100000 [2:55:27<124:56:13,  4.75s/it]  5%|▌         | 5331/100000 [2:55:32<125:00:14,  4.75s/it]                                                             5%|▌         | 5331/100000 [2:55:32<125:00:14,  4.75s/it]  5%|▌         | 5332/100000 [2:55:36<119:52:22,  4.56s/it]                                                           {'loss': 0.0254, 'grad_norm': 0.8670083284378052, 'learning_rate': 1.5735e-05, 'epoch': 9.68}
+{'loss': 0.027, 'grad_norm': 0.6444321274757385, 'learning_rate': 1.5737999999999997e-05, 'epoch': 9.69}
+{'loss': 0.048, 'grad_norm': 0.6079081296920776, 'learning_rate': 1.5741e-05, 'epoch': 9.69}
+{'loss': 0.0408, 'grad_norm': 0.6462955474853516, 'learning_rate': 1.5744e-05, 'epoch': 9.69}
+{'loss': 0.0309, 'grad_norm': 0.5033811330795288, 'learning_rate': 1.5747e-05, 'epoch': 9.69}
+{'loss': 0.0221, 'grad_norm': 0.43178778886795044, 'learning_rate': 1.575e-05, 'epoch': 9.69}
+{'loss': 0.0385, 'grad_norm': 0.7185611724853516, 'learning_rate': 1.5753e-05, 'epoch': 9.69}
+{'loss': 0.0174, 'grad_norm': 0.47433245182037354, 'learning_rate': 1.5756e-05, 'epoch': 9.7}
+{'loss': 0.0194, 'grad_norm': 0.3177076578140259, 'learning_rate': 1.5759e-05, 'epoch': 9.7}
+{'loss': 0.0293, 'grad_norm': 0.9755005836486816, 'learning_rate': 1.5762e-05, 'epoch': 9.7}
+{'loss': 0.0269, 'grad_norm': 0.418106347322464, 'learning_rate': 1.5765e-05, 'epoch': 9.7}
+{'loss': 0.0296, 'grad_norm': 0.6220974922180176, 'learning_rate': 1.5768e-05, 'epoch': 9.7}
+{'loss': 0.0562, 'grad_norm': 0.46836185455322266, 'learning_rate': 1.5771e-05, 'epoch': 9.71}
+{'loss': 0.0205, 'grad_norm': 0.5895121097564697, 'learning_rate': 1.5774000000000002e-05, 'epoch': 9.71}
+{'loss': 0.0263, 'grad_norm': 0.7849803566932678, 'learning_rate': 1.5777e-05, 'epoch': 9.71}
+{'loss': 0.0294, 'grad_norm': 0.47644442319869995, 'learning_rate': 1.578e-05, 'epoch': 9.71}
+{'loss': 0.0344, 'grad_norm': 0.5167056322097778, 'learning_rate': 1.5783e-05, 'epoch': 9.71}
+{'loss': 0.0229, 'grad_norm': 0.6035995483398438, 'learning_rate': 1.5786e-05, 'epoch': 9.71}
+{'loss': 0.0231, 'grad_norm': 0.35058900713920593, 'learning_rate': 1.5789e-05, 'epoch': 9.72}
+{'loss': 0.0298, 'grad_norm': 0.4649684429168701, 'learning_rate': 1.5792e-05, 'epoch': 9.72}
+{'loss': 0.0292, 'grad_norm': 0.44932129979133606, 'learning_rate': 1.5795e-05, 'epoch': 9.72}
+{'loss': 0.0238, 'grad_norm': 0.5442031025886536, 'learning_rate': 1.5798e-05, 'epoch': 9.72}
+{'loss': 0.0245, 'grad_norm': 0.40109357237815857, 'learning_rate': 1.5801e-05, 'epoch': 9.72}
+{'loss': 0.0334, 'grad_norm': 0.7246041297912598, 'learning_rate': 1.5804000000000003e-05, 'epoch': 9.73}
+{'loss': 0.0216, 'grad_norm': 0.42517438530921936, 'learning_rate': 1.5807000000000003e-05, 'epoch': 9.73}
+{'loss': 0.0425, 'grad_norm': 0.7946247458457947, 'learning_rate': 1.5810000000000003e-05, 'epoch': 9.73}
+{'loss': 0.0392, 'grad_norm': 0.7544342875480652, 'learning_rate': 1.5813e-05, 'epoch': 9.73}
+{'loss': 0.0273, 'grad_norm': 0.5644515752792358, 'learning_rate': 1.5816e-05, 'epoch': 9.73}
+{'loss': 0.0538, 'grad_norm': 0.614993155002594, 'learning_rate': 1.5819e-05, 'epoch': 9.73}
+{'loss': 0.0494, 'grad_norm': 1.1540549993515015, 'learning_rate': 1.5822e-05, 'epoch': 9.74}
+{'loss': 0.0325, 'grad_norm': 0.692342221736908, 'learning_rate': 1.5825e-05, 'epoch': 9.74}
+{'loss': 0.3012, 'grad_norm': 1.2595493793487549, 'learning_rate': 1.5827999999999998e-05, 'epoch': 9.74}
+{'loss': 0.239, 'grad_norm': 0.8239694833755493, 'learning_rate': 1.5830999999999998e-05, 'epoch': 9.74}
+{'loss': 0.2103, 'grad_norm': 0.7055354118347168, 'learning_rate': 1.5834e-05, 'epoch': 9.74}
+{'loss': 0.1638, 'grad_norm': 0.6928851008415222, 'learning_rate': 1.5837e-05, 'epoch': 9.75}
+{'loss': 0.1653, 'grad_norm': 1.6198242902755737, 'learning_rate': 1.584e-05, 'epoch': 9.75}
+{'loss': 0.2131, 'grad_norm': 1.1449764966964722, 'learning_rate': 1.5843e-05, 'epoch': 9.75}
+{'loss': 0.1631, 'grad_norm': 0.7790804505348206, 'learning_rate': 1.5846e-05, 'epoch': 9.75}
+{'loss': 0.1724, 'grad_norm': 0.7726112008094788, 'learning_rate': 1.5849e-05, 'epoch': 9.75}
+{'loss': 0.1177, 'grad_norm': 0.742899477481842, 'learning_rate': 1.5852e-05, 'epoch': 9.76}
+{'loss': 0.1097, 'grad_norm': 1.6110416650772095, 'learning_rate': 1.5855e-05, 'epoch': 9.76}
+{'loss': 0.0952, 'grad_norm': 0.6606073975563049, 'learning_rate': 1.5858e-05, 'epoch': 9.76}
+{'loss': 0.0871, 'grad_norm': 1.041293740272522, 'learning_rate': 1.5861e-05, 'epoch': 9.76}
+{'loss': 0.1605, 'grad_norm': 1.2442162036895752, 'learning_rate': 1.5864000000000003e-05, 'epoch': 9.76}
+{'loss': 0.101, 'grad_norm': 0.8230966329574585, 'learning_rate': 1.5867000000000002e-05, 'epoch': 9.76}
+{'loss': 0.0534, 'grad_norm': 0.45017313957214355, 'learning_rate': 1.5870000000000002e-05, 'epoch': 9.77}
+{'loss': 0.0422, 'grad_norm': 0.5587928295135498, 'learning_rate': 1.5873000000000002e-05, 'epoch': 9.77}
+{'loss': 0.0211, 'grad_norm': 0.41939765214920044, 'learning_rate': 1.5876000000000002e-05, 'epoch': 9.77}
+{'loss': 0.0782, 'grad_norm': 1.1486107110977173, 'learning_rate': 1.5879e-05, 'epoch': 9.77}
+{'loss': 0.0474, 'grad_norm': 0.740656852722168, 'learning_rate': 1.5882e-05, 'epoch': 9.77}
+{'loss': 0.0435, 'grad_norm': 0.46551042795181274, 'learning_rate': 1.5884999999999998e-05, 'epoch': 9.78}
+{'loss': 0.0341, 'grad_norm': 0.5009204745292664, 'learning_rate': 1.5887999999999998e-05, 'epoch': 9.78}
+{'loss': 0.0348, 'grad_norm': 0.34932154417037964, 'learning_rate': 1.5890999999999997e-05, 'epoch': 9.78}
+{'loss': 0.0389, 'grad_norm': 0.5163803696632385, 'learning_rate': 1.5894e-05, 'epoch': 9.78}
+{'loss': 0.0258, 'grad_norm': 0.5265400409698486, 'learning_rate': 1.5897e-05, 'epoch': 9.78}
+{'loss': 0.0322, 'grad_norm': 0.6005827784538269, 'learning_rate': 1.59e-05, 'epoch': 9.78}
+{'loss': 0.0343, 'grad_norm': 0.4704049825668335, 'learning_rate': 1.5903e-05, 'epoch': 9.79}
+{'loss': 0.0246, 'grad_norm': 0.4133896827697754, 'learning_rate': 1.5906e-05, 'epoch': 9.79}
+{'loss': 0.0306, 'grad_norm': 0.7306255102157593, 'learning_rate': 1.5909e-05, 'epoch': 9.79}
+{'loss': 0.0696, 'grad_norm': 1.2488560676574707, 'learning_rate': 1.5912e-05, 'epoch': 9.79}
+{'loss': 0.0272, 'grad_norm': 0.40144163370132446, 'learning_rate': 1.5915e-05, 'epoch': 9.79}
+{'loss': 0.0233, 'grad_norm': 0.4051397442817688, 'learning_rate': 1.5918e-05, 'epoch': 9.8}
+{'loss': 0.0322, 'grad_norm': 0.4358450472354889, 'learning_rate': 1.5921e-05, 'epoch': 9.8}
+{'loss': 0.0334, 'grad_norm': 0.5932910442352295, 'learning_rate': 1.5924000000000002e-05, 'epoch': 9.8}
+{'loss': 0.0206, 'grad_norm': 0.4162185490131378, 'learning_rate': 1.5927000000000002e-05, 'epoch': 9.8}
+{'loss': 0.024, 'grad_norm': 0.5718238353729248, 'learning_rate': 1.593e-05, 'epoch': 9.8}
+{'loss': 0.0296, 'grad_norm': 0.5045569539070129, 'learning_rate': 1.5933e-05, 'epoch': 9.81}
+{'loss': 0.0232, 'grad_norm': 0.4584674537181854, 'learning_rate': 1.5936e-05, 'epoch': 9.81}
+{'loss': 0.0343, 'grad_norm': 0.4227735698223114, 'learning_rate': 1.5939e-05, 'epoch': 9.81}
+{'loss': 0.0274, 'grad_norm': 0.8416896462440491, 'learning_rate': 1.5942e-05, 'epoch': 9.81}
+{'loss': 0.0344, 'grad_norm': 0.551142156124115, 'learning_rate': 1.5945e-05, 'epoch': 9.81}
+{'loss': 0.0517, 'grad_norm': 0.9386904239654541, 'learning_rate': 1.5948e-05, 'epoch': 9.81}
+{'loss': 0.0394, 'grad_norm': 0.8260375261306763, 'learning_rate': 1.5951e-05, 'epoch': 9.82}
+{'loss': 0.0328, 'grad_norm': 0.6223652362823486, 'learning_rate': 1.5954000000000003e-05, 'epoch': 9.82}
+{'loss': 0.0415, 'grad_norm': 1.2013148069381714, 'learning_rate': 1.5957000000000003e-05, 'epoch': 9.82}
+{'loss': 0.0281, 'grad_norm': 0.4488355815410614, 'learning_rate': 1.596e-05, 'epoch': 9.82}
+{'loss': 0.034, 'grad_norm': 0.8077351450920105, 'learning_rate': 1.5963e-05, 'epoch': 9.82}
+{'loss': 0.0314, 'grad_norm': 0.6670114398002625, 'learning_rate': 1.5966e-05, 'epoch': 9.83}
+{'loss': 0.0353, 'grad_norm': 0.5995292663574219, 'learning_rate': 1.5969e-05, 'epoch': 9.83}
+{'loss': 0.0346, 'grad_norm': 0.5224243402481079, 'learning_rate': 1.5972e-05, 'epoch': 9.83}
+{'loss': 0.0494, 'grad_norm': 1.5100773572921753, 'learning_rate': 1.5975e-05, 'epoch': 9.83}
+{'loss': 0.2553, 'grad_norm': 1.619434118270874, 'learning_rate': 1.5978e-05, 'epoch': 9.83}
+{'loss': 0.2833, 'grad_norm': 1.285167932510376, 'learning_rate': 1.5980999999999998e-05, 'epoch': 9.83}
+{'loss': 0.2325, 'grad_norm': 3.9550986289978027, 'learning_rate': 1.5984e-05, 'epoch': 9.84}
+  5%|▌         | 5332/100000 [2:55:36<119:52:22,  4.56s/it]  5%|▌         | 5333/100000 [2:55:40<113:21:43,  4.31s/it]                                                             5%|▌         | 5333/100000 [2:55:40<113:21:43,  4.31s/it]  5%|▌         | 5334/100000 [2:55:43<105:58:47,  4.03s/it]                                                             5%|▌         | 5334/100000 [2:55:43<105:58:47,  4.03s/it]  5%|▌         | 5335/100000 [2:55:46<97:27:12,  3.71s/it]                                                             5%|▌         | 5335/100000 [2:55:46<97:27:12,  3.71s/it]  5%|▌         | 5336/100000 [2:55:49<90:56:21,  3.46s/it]                                                            5%|▌         | 5336/100000 [2:55:49<90:56:21,  3.46s/it]  5%|▌         | 5337/100000 [2:55:51<84:27:21,  3.21s/it]                                                            5%|▌         | 5337/100000 [2:55:51<84:27:21,  3.21s/it]  5%|▌         | 5338/100000 [2:55:54<77:27:36,  2.95s/it]                                                            5%|▌         | 5338/100000 [2:55:54<77:27:36,  2.95s/it]  5%|▌         | 5339/100000 [2:55:56<71:52:02,  2.73s/it]                                                            5%|▌         | 5339/100000 [2:55:56<71:52:02,  2.73s/it]  5%|▌         | 5340/100000 [2:55:58<66:54:46,  2.54s/it]                                                            5%|▌         | 5340/100000 [2:55:58<66:54:46,  2.54s/it]  5%|▌         | 5341/100000 [2:56:00<62:01:04,  2.36s/it]                                                            5%|▌         | 5341/100000 [2:56:00<62:01:04,  2.36s/it]  5%|▌         | 5342/100000 [2:56:02<57:39:15,  2.19s/it]                                                            5%|▌         | 5342/100000 [2:56:02<57:39:15,  2.19s/it]  5%|▌         | 5343/100000 [2:56:03<54:12:19,  2.06s/it]                                                            5%|▌         | 5343/100000 [2:56:04<54:12:19,  2.06s/it]  5%|▌         | 5344/100000 [2:56:05<51:11:29,  1.95s/it]                                                            5%|▌         | 5344/100000 [2:56:05<51:11:29,  1.95s/it]  5%|▌         | 5345/100000 [2:56:07<48:15:09,  1.84s/it]                                                            5%|▌         | 5345/100000 [2:56:07<48:15:09,  1.84s/it]  5%|▌         | 5346/100000 [2:56:08<45:55:03,  1.75s/it]                                                            5%|▌         | 5346/100000 [2:56:08<45:55:03,  1.75s/it]  5%|▌         | 5347/100000 [2:56:10<44:21:15,  1.69s/it]                                                            5%|▌         | 5347/100000 [2:56:10<44:21:15,  1.69s/it]  5%|▌         | 5348/100000 [2:56:11<42:25:34,  1.61s/it]                                                            5%|▌         | 5348/100000 [2:56:11<42:25:34,  1.61s/it]  5%|▌         | 5349/100000 [2:56:13<41:12:15,  1.57s/it]                                                            5%|▌         | 5349/100000 [2:56:13<41:12:15,  1.57s/it]  5%|▌         | 5350/100000 [2:56:14<40:09:30,  1.53s/it]                                                            5%|▌         | 5350/100000 [2:56:14<40:09:30,  1.53s/it]  5%|▌         | 5351/100000 [2:56:16<39:15:26,  1.49s/it]                                                            5%|▌         | 5351/100000 [2:56:16<39:15:26,  1.49s/it]  5%|▌         | 5352/100000 [2:56:17<38:28:53,  1.46s/it]                                                            5%|▌         | 5352/100000 [2:56:17<38:28:53,  1.46s/it]  5%|▌         | 5353/100000 [2:56:18<37:43:27,  1.43s/it]                                                            5%|▌         | 5353/100000 [2:56:18<37:43:27,  1.43s/it]  5%|▌         | 5354/100000 [2:56:20<37:03:21,  1.41s/it]                                                            5%|▌         | 5354/100000 [2:56:20<37:03:21,  1.41s/it]  5%|▌         | 5355/100000 [2:56:21<36:25:41,  1.39s/it]                                                            5%|▌         | 5355/100000 [2:56:21<36:25:41,  1.39s/it]  5%|▌         | 5356/100000 [2:56:22<35:31:32,  1.35s/it]                                                            5%|▌         | 5356/100000 [2:56:22<35:31:32,  1.35s/it]  5%|▌         | 5357/100000 [2:56:24<35:01:01,  1.33s/it]                                                            5%|▌         | 5357/100000 [2:56:24<35:01:01,  1.33s/it]  5%|▌         | 5358/100000 [2:56:25<34:23:02,  1.31s/it]                                                            5%|▌         | 5358/100000 [2:56:25<34:23:02,  1.31s/it]  5%|▌         | 5359/100000 [2:56:26<33:59:46,  1.29s/it]                                                            5%|▌         | 5359/100000 [2:56:26<33:59:46,  1.29s/it]  5%|▌         | 5360/100000 [2:56:27<33:33:05,  1.28s/it]                                                            5%|▌         | 5360/100000 [2:56:27<33:33:05,  1.28s/it]  5%|▌         | 5361/100000 [2:56:29<32:56:54,  1.25s/it]                                                            5%|▌         | 5361/100000 [2:56:29<32:56:54,  1.25s/it]  5%|▌         | 5362/100000 [2:56:30<32:37:36,  1.24s/it]                                                            5%|▌         | 5362/100000 [2:56:30<32:37:36,  1.24s/it]  5%|▌         | 5363/100000 [2:56:31<32:11:00,  1.22s/it]                                                            5%|▌         | 5363/100000 [2:56:31<32:11:00,  1.22s/it]  5%|▌         | 5364/100000 [2:56:32<31:41:49,  1.21s/it]                                                            5%|▌         | 5364/100000 [2:56:32<31:41:49,  1.21s/it]  5%|▌         | 5365/100000 [2:56:33<31:06:12,  1.18s/it]                                                            5%|▌         | 5365/100000 [2:56:33<31:06:12,  1.18s/it]  5%|▌         | 5366/100000 [2:56:34<30:47:26,  1.17s/it]                                                            5%|▌         | 5366/100000 [2:56:34<30:47:26,  1.17s/it]  5%|▌         | 5367/100000 [2:56:35<30:09:31,  1.15s/it]                                                            5%|▌         | 5367/100000 [2:56:35<30:09:31,  1.15s/it]  5%|▌         | 5368/100000 [2:56:37<29:47:43,  1.13s/it]                                                            5%|▌         | 5368/100000 [2:56:37<29:47:43,  1.13s/it]  5%|▌         | 5369/100000 [2:56:38<29:16:16,  1.11s/it]                                                            5%|▌         | 5369/100000 [2:56:38<29:16:16,  1.11s/it]  5%|▌         | 5370/100000 [2:56:39<28:45:29,  1.09s/it]                                                            5%|▌         | 5370/100000 [2:56:39<28:45:29,  1.09s/it]  5%|▌         | 5371/100000 [2:56:40<28:01:55,  1.07s/it]                                                            5%|▌         | 5371/100000 [2:56:40<28:01:55,  1.07s/it]  5%|▌         | 5372/100000 [2:56:41<27:40:27,  1.05s/it]                                                            5%|▌         | 5372/100000 [2:56:41<27:40:27,  1.05s/it]  5%|▌         | 5373/100000 [2:56:42<27:14:15,  1.04s/it]                                                            5%|▌         | 5373/100000 [2:56:42<27:14:15,  1.04s/it]  5%|▌         | 5374/100000 [2:56:43<26:43:48,  1.02s/it]                                                            5%|▌         | 5374/100000 [2:56:43<26:43:48,  1.02s/it]  5%|▌         | 5375/100000 [2:56:44<26:10:19,  1.00it/s]                                                            5%|▌         | 5375/100000 [2:56:44<26:10:19,  1.00it/s]  5%|▌         | 5376/100000 [2:56:45<26:00:51,  1.01it/s]                                                            5%|▌         | 5376/100000 [2:56:45<26:00:51,  1.01it/s]  5%|▌         | 5377/100000 [2:56:46<25:40:29,  1.02it/s]                                                            5%|▌         | 5377/100000 [2:56:46<25:40:29,  1.02it/s]  5%|▌         | 5378/100000 [2:56:46<25:02:56,  1.05it/s]                                                            5%|▌         | 5378/100000 [2:56:46<25:02:56,  1.05it/s]  5%|▌         | 5379/100000 [2:56:59<112:50:17,  4.29s/it]                                                             5%|▌         | 5379/100000 [2:56:59<112:50:17,  4.29s/it]  5%|▌         | 5380/100000 [2:57:04<123:21:15,  4.69s/it]                                                             5%|▌         | 5380/100000 [2:57:04<123:21:15,  4.69s/it]  5%|▌         | 5381/100000 [2:57:08<120:35:50,  4.59s/it]                                                             5%|▌         | 5381/100000 [2:57:09<120:35:50,  4.59s/it]  5%|▌         | 5382/100000 [2:57:12<113:25:15,  4.32s/it]                                                             5%|▌         | 5382/100000 [2:57:12<113:25:15,  4.32s/it]  5%|▌         | 5383/100000 [2:57:16<105:59:41,  4.03s/it]                                                             5%|▌         | 5383/100000 [2:57:16<105:59:41,  4.03s/it]  5%|▌         | 5384/100000 [2:57:19<97:47:50,  3.72s/it]                                                             5%|▌         | 5384/100000 [2:57:19<97:47:50,  3.72s/it]  5%|▌         | 5385/100000 [2:57:21<89:49:59,  3.42s/it]                                                            5%|▌         | 5385/100000 [2:57:21<89:49:59,  3.42s/it]  5%|▌         | 5386/100000 [2:57:24<82:00:39,  3.12s/it]                                                            5%|▌         | 5386/100000 [2:57:24<82:00:39,  3.12s/it]  5%|▌         | 5387/100000 [2:57:26<74:23:08,  2.83s/it]                                                            5%|▌         | 5387/100000 [2:57:26<74:23:08,  2.83s/it]  5%|▌         | 5388/100000 [2:57:28<68:18:05,  2.60s/it]                                                            5%|▌         | 5388/100000 [2:57:28<68:18:05,  2.60s/it]  5%|▌         | 5389/100000 [2:57:30<63:01:22,  2.40s/it]                                                            5%|▌         | 5389/100000 [2:57:30<63:01:22,  2.40s/it]  5%|▌         | 5390/100000 [2:57:32<58:13:42,  2.22s/it]                                                            5%|▌         | 5390/100000 [2:57:32<58:13:42,  2.22s/it]  5%|▌         | 5391/100000 [2:57:33<53:45:06,  2.05s/it]                                                            5%|▌         | 5391/100000 [2:57:33<53:45:06,  2.05s/it]  5%|▌         | 5392/100000 [2:57:35<50:30:57,  1.92s/it]                                                            5%|▌         | 5392/100000 [2:57:35<50:30:57,  1.92s/it]  5%|▌         | 5393/100000 [2:57:36<47:24:53,  1.80s/it]                                                            5%|▌         | 5393/100000 [2:57:36<47:24:53,  1.80s/it]  5%|▌         | 5394/100000 [2:57:38<45:03:03,  1.71s/it]                                                            5%|▌         | 5394/100000 [2:57:38<45:03:03,  1.71s/it]  5%|▌         | 5395/100000 [2:57:39<42:46:30,  1.63s/it]                                                            5%|▌         | 5395/100000 [2:57:39<42:46:30,  1.63s/it]  5%|▌         | 5396/100000 [2:57:41<41:17:54,  1.57s/it]                                                            5%|▌         | 5396/100000 [2:57:41<41:17:54,  1.57s/it]  5%|▌         | 5397/100000 [2:57:42<40:04:01,  1.52s/it]                                                            5%|▌         | 5397/100000 [2:57:42<40:04:01,  1.52s/it]  5%|▌         | 5398/100000 [2:57:44<39:00:43,  1.48s/it]                                                            5%|▌         | 5398/100000 [2:57:44<39:00:43,  1.48s/it]  5%|▌         | 5399/100000 [2:57:45<37:45:18,  1.44s/it]                                                            5%|▌         | 5399/100000 [2:57:45<37:45:18,  1.44s/it]  5%|▌         | 5400/100000 [2:57:46<36:58:20,  1.41s/it]                                                            5%|▌         | 5400/100000 [2:57:46<36:58:20,  1.41s/it]  5%|▌         | 5401/100000 [2:57:48<36:15:08,  1.38s/it]                                                            5%|▌         | 5401/100000 [2:57:48<36:15:08,  1.38s/it]  5%|▌         | 5402/100000 [2:57:49<35:34:38,  1.35s/it]                                                            5%|▌         | 5402/100000 [2:57:49<35:34:38,  1.35s/it]  5%|▌         | 5403/100000 [2:57:50<34:56:09,  1.33s/it]                                                            5%|▌         | 5403/100000 [2:57:50<34:56:09,  1.33s/it]  5%|▌         | 5404/100000 [2:57:51<34:13:59,  1.30s/it]                                                            5%|▌         | 5404/100000 [2:57:51<34:13:59,  1.30s/it]  5%|▌         | 5405/100000 [2:57:53<33:37:16,  1.28s/it]                                                            5%|▌         | 5405/100000 [2:57:53<33:37:16,  1.28s/it]  5%|▌         | 5406/100000 [2:57:54<33:04:12,  1.26s/it]                                                            5%|▌         | 5406/100000 [2:57:54<33:04:12,  1.26s/it]  5%|▌         | 5407/100000 [2:57:55<32:07:42,  1.22s/it]                                                            5%|▌         | 5407/100000 [2:57:55<32:07:42,  1.22s/it]  5%|▌         | 5408/100000 [2:57:56<31:22:05,  1.19s/it]                                                            5%|▌         | 5408/100000 [2:57:56<31:22:05,  1.19s/it]  5%|▌         | 5409/100000 [2:57:57<30:53:17,  1.18s/it]                                                            5%|▌         | 5409/100000 [2:57:57<30:53:17,  1.18s/it]  5%|▌         | 5410/100000 [2:57:58<30:22:50,  1.16s/it]                                                            5%|▌         | 5410/100000 [2:57:58<30:22:50,  1.16s/it]  5%|▌         | 5411/100000 [2:57:59<29:55:52,  1.14s/it]                                                            5%|▌         | 5411/100000 [2:57:59<29:55:52,  1.14s/it]  5%|▌         | 5412/100000 [2:58:01<29:30:10,  1.12s/it]                                                            5%|▌         | 5412/100000 [2:58:01<29:30:10,  1.12s/it]  5%|▌         | 5413/100000 [2:58:02<29:02:48,  1.11s/it]                                                            5%|▌         | 5413/100000 [2:58:02<29:02:48,  1.11s/it]  5%|▌         | 5414/100000 [2:58:03<28:35:09,  1.09s/it]                                                            5%|▌         | 5414/100000 [2:58:03<28:35:09,  1.09s/it]  5%|▌         | 5415/100000 [2:58:04<28:03:38,  1.07s/it]                                                          {'loss': 0.2184, 'grad_norm': 0.7910865545272827, 'learning_rate': 1.5987e-05, 'epoch': 9.84}
+{'loss': 0.1437, 'grad_norm': 0.6185511350631714, 'learning_rate': 1.599e-05, 'epoch': 9.84}
+{'loss': 0.2016, 'grad_norm': 1.0045210123062134, 'learning_rate': 1.5993e-05, 'epoch': 9.84}
+{'loss': 0.1727, 'grad_norm': 0.8364124298095703, 'learning_rate': 1.5996e-05, 'epoch': 9.84}
+{'loss': 0.1071, 'grad_norm': 0.6798272728919983, 'learning_rate': 1.5999e-05, 'epoch': 9.85}
+{'loss': 0.1737, 'grad_norm': 1.0942049026489258, 'learning_rate': 1.6002e-05, 'epoch': 9.85}
+{'loss': 0.1016, 'grad_norm': 0.6949169635772705, 'learning_rate': 1.6005e-05, 'epoch': 9.85}
+{'loss': 0.1219, 'grad_norm': 1.0689623355865479, 'learning_rate': 1.6008e-05, 'epoch': 9.85}
+{'loss': 0.0776, 'grad_norm': 0.654719352722168, 'learning_rate': 1.6011e-05, 'epoch': 9.85}
+{'loss': 0.0958, 'grad_norm': 0.8142164945602417, 'learning_rate': 1.6014000000000003e-05, 'epoch': 9.86}
+{'loss': 0.042, 'grad_norm': 0.4266529083251953, 'learning_rate': 1.6017000000000003e-05, 'epoch': 9.86}
+{'loss': 0.0574, 'grad_norm': 0.3962545692920685, 'learning_rate': 1.6020000000000002e-05, 'epoch': 9.86}
+{'loss': 0.0626, 'grad_norm': 0.7206045985221863, 'learning_rate': 1.6023000000000002e-05, 'epoch': 9.86}
+{'loss': 0.0341, 'grad_norm': 0.48156070709228516, 'learning_rate': 1.6026000000000002e-05, 'epoch': 9.86}
+{'loss': 0.0355, 'grad_norm': 0.4663195312023163, 'learning_rate': 1.6029000000000002e-05, 'epoch': 9.86}
+{'loss': 0.026, 'grad_norm': 0.30054986476898193, 'learning_rate': 1.6032e-05, 'epoch': 9.87}
+{'loss': 0.1128, 'grad_norm': 0.8619183897972107, 'learning_rate': 1.6034999999999998e-05, 'epoch': 9.87}
+{'loss': 0.0335, 'grad_norm': 0.4234899580478668, 'learning_rate': 1.6037999999999998e-05, 'epoch': 9.87}
+{'loss': 0.0373, 'grad_norm': 0.6339716911315918, 'learning_rate': 1.6040999999999998e-05, 'epoch': 9.87}
+{'loss': 0.0212, 'grad_norm': 0.31937074661254883, 'learning_rate': 1.6044e-05, 'epoch': 9.87}
+{'loss': 0.022, 'grad_norm': 0.38986673951148987, 'learning_rate': 1.6047e-05, 'epoch': 9.88}
+{'loss': 0.025, 'grad_norm': 0.32344773411750793, 'learning_rate': 1.605e-05, 'epoch': 9.88}
+{'loss': 0.0318, 'grad_norm': 0.8871376514434814, 'learning_rate': 1.6053e-05, 'epoch': 9.88}
+{'loss': 0.0381, 'grad_norm': 0.5399925112724304, 'learning_rate': 1.6056e-05, 'epoch': 9.88}
+{'loss': 0.0299, 'grad_norm': 0.47385239601135254, 'learning_rate': 1.6059e-05, 'epoch': 9.88}
+{'loss': 0.0275, 'grad_norm': 0.38570722937583923, 'learning_rate': 1.6062e-05, 'epoch': 9.88}
+{'loss': 0.0209, 'grad_norm': 0.4128206670284271, 'learning_rate': 1.6065e-05, 'epoch': 9.89}
+{'loss': 0.0328, 'grad_norm': 0.5899372100830078, 'learning_rate': 1.6068e-05, 'epoch': 9.89}
+{'loss': 0.0197, 'grad_norm': 0.6390036940574646, 'learning_rate': 1.6071e-05, 'epoch': 9.89}
+{'loss': 0.0251, 'grad_norm': 0.531987726688385, 'learning_rate': 1.6074000000000002e-05, 'epoch': 9.89}
+{'loss': 0.0223, 'grad_norm': 0.4834712743759155, 'learning_rate': 1.6077000000000002e-05, 'epoch': 9.89}
+{'loss': 0.0277, 'grad_norm': 0.43583738803863525, 'learning_rate': 1.6080000000000002e-05, 'epoch': 9.9}
+{'loss': 0.0253, 'grad_norm': 0.49375590682029724, 'learning_rate': 1.6083000000000002e-05, 'epoch': 9.9}
+{'loss': 0.0212, 'grad_norm': 0.6179859042167664, 'learning_rate': 1.6086e-05, 'epoch': 9.9}
+{'loss': 0.0349, 'grad_norm': 0.5361495614051819, 'learning_rate': 1.6089e-05, 'epoch': 9.9}
+{'loss': 0.0301, 'grad_norm': 1.1141771078109741, 'learning_rate': 1.6092e-05, 'epoch': 9.9}
+{'loss': 0.0301, 'grad_norm': 0.7264317870140076, 'learning_rate': 1.6095e-05, 'epoch': 9.9}
+{'loss': 0.0379, 'grad_norm': 0.6218966245651245, 'learning_rate': 1.6098e-05, 'epoch': 9.91}
+{'loss': 0.0406, 'grad_norm': 0.8654443621635437, 'learning_rate': 1.6101e-05, 'epoch': 9.91}
+{'loss': 0.0286, 'grad_norm': 0.6884783506393433, 'learning_rate': 1.6104000000000004e-05, 'epoch': 9.91}
+{'loss': 0.0299, 'grad_norm': 0.5119009017944336, 'learning_rate': 1.6107e-05, 'epoch': 9.91}
+{'loss': 0.0292, 'grad_norm': 0.6698522567749023, 'learning_rate': 1.611e-05, 'epoch': 9.91}
+{'loss': 0.0333, 'grad_norm': 0.7594621181488037, 'learning_rate': 1.6113e-05, 'epoch': 9.92}
+{'loss': 0.0234, 'grad_norm': 0.4515618085861206, 'learning_rate': 1.6116e-05, 'epoch': 9.92}
+{'loss': 0.0345, 'grad_norm': 0.6473972797393799, 'learning_rate': 1.6119e-05, 'epoch': 9.92}
+{'loss': 0.0439, 'grad_norm': 0.7409936189651489, 'learning_rate': 1.6122e-05, 'epoch': 9.92}
+{'loss': 0.0607, 'grad_norm': 0.7425601482391357, 'learning_rate': 1.6125e-05, 'epoch': 9.92}
+{'loss': 0.2801, 'grad_norm': 0.9278039336204529, 'learning_rate': 1.6128e-05, 'epoch': 9.93}
+{'loss': 0.1843, 'grad_norm': 0.7289472818374634, 'learning_rate': 1.6131e-05, 'epoch': 9.93}
+{'loss': 0.1941, 'grad_norm': 1.1333955526351929, 'learning_rate': 1.6134e-05, 'epoch': 9.93}
+{'loss': 0.2418, 'grad_norm': 0.8633908629417419, 'learning_rate': 1.6137e-05, 'epoch': 9.93}
+{'loss': 0.1373, 'grad_norm': 0.829034686088562, 'learning_rate': 1.614e-05, 'epoch': 9.93}
+{'loss': 0.1451, 'grad_norm': 0.5944445729255676, 'learning_rate': 1.6143e-05, 'epoch': 9.93}
+{'loss': 0.1112, 'grad_norm': 0.7495405673980713, 'learning_rate': 1.6146e-05, 'epoch': 9.94}
+{'loss': 0.1407, 'grad_norm': 0.6639820337295532, 'learning_rate': 1.6149e-05, 'epoch': 9.94}
+{'loss': 0.1097, 'grad_norm': 0.7890506982803345, 'learning_rate': 1.6152e-05, 'epoch': 9.94}
+{'loss': 0.0857, 'grad_norm': 1.096908450126648, 'learning_rate': 1.6155e-05, 'epoch': 9.94}
+{'loss': 0.1497, 'grad_norm': 1.0947462320327759, 'learning_rate': 1.6158e-05, 'epoch': 9.94}
+{'loss': 0.0883, 'grad_norm': 0.8100894093513489, 'learning_rate': 1.6161e-05, 'epoch': 9.95}
+{'loss': 0.0527, 'grad_norm': 0.5456356406211853, 'learning_rate': 1.6164e-05, 'epoch': 9.95}
+{'loss': 0.0433, 'grad_norm': 0.5579842329025269, 'learning_rate': 1.6167000000000003e-05, 'epoch': 9.95}
+{'loss': 0.0377, 'grad_norm': 0.6612244248390198, 'learning_rate': 1.6170000000000003e-05, 'epoch': 9.95}
+{'loss': 0.0245, 'grad_norm': 0.4671032726764679, 'learning_rate': 1.6173000000000003e-05, 'epoch': 9.95}
+{'loss': 0.0338, 'grad_norm': 0.4639342725276947, 'learning_rate': 1.6176000000000002e-05, 'epoch': 9.95}
+{'loss': 0.0173, 'grad_norm': 0.38254842162132263, 'learning_rate': 1.6179000000000002e-05, 'epoch': 9.96}
+{'loss': 0.0267, 'grad_norm': 0.34761661291122437, 'learning_rate': 1.6182e-05, 'epoch': 9.96}
+{'loss': 0.0379, 'grad_norm': 0.5771934390068054, 'learning_rate': 1.6185e-05, 'epoch': 9.96}
+{'loss': 0.0503, 'grad_norm': 0.7256296873092651, 'learning_rate': 1.6187999999999998e-05, 'epoch': 9.96}
+{'loss': 0.0237, 'grad_norm': 0.4355110824108124, 'learning_rate': 1.6190999999999998e-05, 'epoch': 9.96}
+{'loss': 0.0701, 'grad_norm': 0.6564544439315796, 'learning_rate': 1.6193999999999998e-05, 'epoch': 9.97}
+{'loss': 0.0291, 'grad_norm': 0.4925614595413208, 'learning_rate': 1.6197e-05, 'epoch': 9.97}
+{'loss': 0.0253, 'grad_norm': 0.6966110467910767, 'learning_rate': 1.62e-05, 'epoch': 9.97}
+{'loss': 0.0212, 'grad_norm': 0.7741514444351196, 'learning_rate': 1.6203e-05, 'epoch': 9.97}
+{'loss': 0.0318, 'grad_norm': 0.5057776570320129, 'learning_rate': 1.6206e-05, 'epoch': 9.97}
+{'loss': 0.0308, 'grad_norm': 0.621398389339447, 'learning_rate': 1.6209e-05, 'epoch': 9.98}
+{'loss': 0.0226, 'grad_norm': 0.4574577510356903, 'learning_rate': 1.6212e-05, 'epoch': 9.98}
+{'loss': 0.0198, 'grad_norm': 0.5730082988739014, 'learning_rate': 1.6215e-05, 'epoch': 9.98}
+{'loss': 0.0228, 'grad_norm': 0.752869188785553, 'learning_rate': 1.6218e-05, 'epoch': 9.98}
+{'loss': 0.0255, 'grad_norm': 0.513892650604248, 'learning_rate': 1.6221e-05, 'epoch': 9.98}
+{'loss': 0.0294, 'grad_norm': 1.2083364725112915, 'learning_rate': 1.6224e-05, 'epoch': 9.98}
+{'loss': 0.0238, 'grad_norm': 0.5639918446540833, 'learning_rate': 1.6227000000000002e-05, 'epoch': 9.99}
+{'loss': 0.0333, 'grad_norm': 4.152475833892822, 'learning_rate': 1.6230000000000002e-05, 'epoch': 9.99}
+{'loss': 0.0329, 'grad_norm': 0.846754252910614, 'learning_rate': 1.6233000000000002e-05, 'epoch': 9.99}
+  5%|▌         | 5415/100000 [2:58:04<28:03:38,  1.07s/it]  5%|▌         | 5416/100000 [2:58:05<27:05:10,  1.03s/it]                                                            5%|▌         | 5416/100000 [2:58:05<27:05:10,  1.03s/it]  5%|▌         | 5417/100000 [2:58:06<26:15:57,  1.00it/s]                                                            5%|▌         | 5417/100000 [2:58:06<26:15:57,  1.00it/s]  5%|▌         | 5418/100000 [2:58:06<25:20:12,  1.04it/s]                                                            5%|▌         | 5418/100000 [2:58:06<25:20:12,  1.04it/s]  5%|▌         | 5419/100000 [2:58:07<24:13:43,  1.08it/s]                                                            5%|▌         | 5419/100000 [2:58:07<24:13:43,  1.08it/s]  5%|▌         | 5420/100000 [2:58:08<22:55:01,  1.15it/s]                                                            5%|▌         | 5420/100000 [2:58:08<22:55:01,  1.15it/s]{'loss': 0.0388, 'grad_norm': 0.6781851053237915, 'learning_rate': 1.6236000000000002e-05, 'epoch': 9.99}
+{'loss': 0.0421, 'grad_norm': 0.8813036680221558, 'learning_rate': 1.6239e-05, 'epoch': 9.99}
+{'loss': 0.0227, 'grad_norm': 0.561560332775116, 'learning_rate': 1.6242e-05, 'epoch': 10.0}
+{'loss': 0.0295, 'grad_norm': 0.7628563642501831, 'learning_rate': 1.6245e-05, 'epoch': 10.0}
+{'loss': 0.0157, 'grad_norm': 0.5719330906867981, 'learning_rate': 1.6248e-05, 'epoch': 10.0}
+{'loss': 0.0167, 'grad_norm': 0.5679962635040283, 'learning_rate': 1.6251e-05, 'epoch': 10.0}
+  5%|▌         | 5421/100000 [2:58:26<155:28:38,  5.92s/it]                                                             5%|▌         | 5421/100000 [2:58:26<155:28:38,  5.92s/it]  5%|▌         | 5422/100000 [2:58:32<155:40:32,  5.93s/it]                                                             5%|▌         | 5422/100000 [2:58:32<155:40:32,  5.93s/it]  5%|▌         | 5423/100000 [2:58:36<143:22:01,  5.46s/it]                                                             5%|▌         | 5423/100000 [2:58:36<143:22:01,  5.46s/it]  5%|▌         | 5424/100000 [2:58:40<131:20:02,  5.00s/it]                                                             5%|▌         | 5424/100000 [2:58:40<131:20:02,  5.00s/it]  5%|▌         | 5425/100000 [2:58:44<120:34:29,  4.59s/it]                                                             5%|▌         | 5425/100000 [2:58:44<120:34:29,  4.59s/it]  5%|▌         | 5426/100000 [2:58:47<108:59:28,  4.15s/it]                                                             5%|▌         | 5426/100000 [2:58:47<108:59:28,  4.15s/it]  5%|▌         | 5427/100000 [2:58:50<100:04:41,  3.81s/it]                                                             5%|▌         | 5427/100000 [2:58:50<100:04:41,  3.81s/it]  5%|▌         | 5428/100000 [2:58:52<91:51:44,  3.50s/it]                                                             5%|▌         | 5428/100000 [2:58:52<91:51:44,  3.50s/it]  5%|▌         | 5429/100000 [2:58:55<84:05:13,  3.20s/it]                                                            5%|▌         | 5429/100000 [2:58:55<84:05:13,  3.20s/it]  5%|▌         | 5430/100000 [2:58:57<77:24:39,  2.95s/it]                                                            5%|▌         | 5430/100000 [2:58:57<77:24:39,  2.95s/it]  5%|▌         | 5431/100000 [2:58:59<70:36:17,  2.69s/it]                                                            5%|▌         | 5431/100000 [2:58:59<70:36:17,  2.69s/it]  5%|▌         | 5432/100000 [2:59:01<65:17:22,  2.49s/it]                                                            5%|▌         | 5432/100000 [2:59:01<65:17:22,  2.49s/it]  5%|▌         | 5433/100000 [2:59:03<60:17:03,  2.29s/it]                                                            5%|▌         | 5433/100000 [2:59:03<60:17:03,  2.29s/it]  5%|▌         | 5434/100000 [2:59:05<55:53:27,  2.13s/it]                                                            5%|▌         | 5434/100000 [2:59:05<55:53:27,  2.13s/it]  5%|▌         | 5435/100000 [2:59:07<52:36:56,  2.00s/it]                                                            5%|▌         | 5435/100000 [2:59:07<52:36:56,  2.00s/it]  5%|▌         | 5436/100000 [2:59:08<49:51:36,  1.90s/it]                                                            5%|▌         | 5436/100000 [2:59:08<49:51:36,  1.90s/it]  5%|▌         | 5437/100000 [2:59:10<47:14:38,  1.80s/it]                                                            5%|▌         | 5437/100000 [2:59:10<47:14:38,  1.80s/it]  5%|▌         | 5438/100000 [2:59:12<45:27:35,  1.73s/it]                                                            5%|▌         | 5438/100000 [2:59:12<45:27:35,  1.73s/it]  5%|▌         | 5439/100000 [2:59:13<43:47:17,  1.67s/it]                                                            5%|▌         | 5439/100000 [2:59:13<43:47:17,  1.67s/it]  5%|▌         | 5440/100000 [2:59:14<42:14:23,  1.61s/it]                                                            5%|▌         | 5440/100000 [2:59:14<42:14:23,  1.61s/it]  5%|▌         | 5441/100000 [2:59:16<40:58:55,  1.56s/it]                                                            5%|▌         | 5441/100000 [2:59:16<40:58:55,  1.56s/it]  5%|▌         | 5442/100000 [2:59:17<39:43:54,  1.51s/it]                                                            5%|▌         | 5442/100000 [2:59:17<39:43:54,  1.51s/it]  5%|▌         | 5443/100000 [2:59:19<38:50:30,  1.48s/it]                                                            5%|▌         | 5443/100000 [2:59:19<38:50:30,  1.48s/it]  5%|▌         | 5444/100000 [2:59:20<38:01:38,  1.45s/it]                                                            5%|▌         | 5444/100000 [2:59:20<38:01:38,  1.45s/it]  5%|▌         | 5445/100000 [2:59:21<37:28:44,  1.43s/it]                                                            5%|▌         | 5445/100000 [2:59:21<37:28:44,  1.43s/it]  5%|▌         | 5446/100000 [2:59:23<36:50:53,  1.40s/it]                                                            5%|▌         | 5446/100000 [2:59:23<36:50:53,  1.40s/it]  5%|▌         | 5447/100000 [2:59:24<36:13:38,  1.38s/it]                                                            5%|▌         | 5447/100000 [2:59:24<36:13:38,  1.38s/it]  5%|▌         | 5448/100000 [2:59:25<35:40:27,  1.36s/it]                                                            5%|▌         | 5448/100000 [2:59:25<35:40:27,  1.36s/it]  5%|▌         | 5449/100000 [2:59:27<35:08:15,  1.34s/it]                                                            5%|▌         | 5449/100000 [2:59:27<35:08:15,  1.34s/it]  5%|▌         | 5450/100000 [2:59:28<34:26:54,  1.31s/it]                                                            5%|▌         | 5450/100000 [2:59:28<34:26:54,  1.31s/it]  5%|▌         | 5451/100000 [2:59:29<34:03:31,  1.30s/it]                                                            5%|▌         | 5451/100000 [2:59:29<34:03:31,  1.30s/it]  5%|▌         | 5452/100000 [2:59:30<33:23:18,  1.27s/it]                                                            5%|▌         | 5452/100000 [2:59:30<33:23:18,  1.27s/it]  5%|▌         | 5453/100000 [2:59:32<32:58:07,  1.26s/it]                                                            5%|▌         | 5453/100000 [2:59:32<32:58:07,  1.26s/it]  5%|▌         | 5454/100000 [2:59:33<32:37:48,  1.24s/it]                                                            5%|▌         | 5454/100000 [2:59:33<32:37:48,  1.24s/it]  5%|▌         | 5455/100000 [2:59:34<32:03:07,  1.22s/it]                                                            5%|▌         | 5455/100000 [2:59:34<32:03:07,  1.22s/it]  5%|▌         | 5456/100000 [2:59:35<31:31:44,  1.20s/it]                                                            5%|▌         | 5456/100000 [2:59:35<31:31:44,  1.20s/it]  5%|▌         | 5457/100000 [2:59:36<31:06:24,  1.18s/it]                                                            5%|▌         | 5457/100000 [2:59:36<31:06:24,  1.18s/it]  5%|▌         | 5458/100000 [2:59:38<30:35:52,  1.17s/it]                                                            5%|▌         | 5458/100000 [2:59:38<30:35:52,  1.17s/it]  5%|▌         | 5459/100000 [2:59:39<29:51:12,  1.14s/it]                                                            5%|▌         | 5459/100000 [2:59:39<29:51:12,  1.14s/it]  5%|▌         | 5460/100000 [2:59:40<29:16:33,  1.11s/it]                                                            5%|▌         | 5460/100000 [2:59:40<29:16:33,  1.11s/it]  5%|▌         | 5461/100000 [2:59:41<30:10:27,  1.15s/it]                                                            5%|▌         | 5461/100000 [2:59:41<30:10:27,  1.15s/it]  5%|▌         | 5462/100000 [2:59:42<29:18:06,  1.12s/it]                                                            5%|▌         | 5462/100000 [2:59:42<29:18:06,  1.12s/it]  5%|▌         | 5463/100000 [2:59:43<28:35:05,  1.09s/it]                                                            5%|▌         | 5463/100000 [2:59:43<28:35:05,  1.09s/it]  5%|▌         | 5464/100000 [2:59:44<27:57:55,  1.06s/it]                                                            5%|▌         | 5464/100000 [2:59:44<27:57:55,  1.06s/it]  5%|▌         | 5465/100000 [2:59:45<27:32:11,  1.05s/it]                                                            5%|▌         | 5465/100000 [2:59:45<27:32:11,  1.05s/it]  5%|▌         | 5466/100000 [2:59:46<26:41:37,  1.02s/it]                                                            5%|▌         | 5466/100000 [2:59:46<26:41:37,  1.02s/it]  5%|▌         | 5467/100000 [2:59:47<26:16:20,  1.00s/it]                                                            5%|▌         | 5467/100000 [2:59:47<26:16:20,  1.00s/it]  5%|▌         | 5468/100000 [2:59:48<25:52:54,  1.01it/s]                                                            5%|▌         | 5468/100000 [2:59:48<25:52:54,  1.01it/s]  5%|▌         | 5469/100000 [2:59:49<25:23:39,  1.03it/s]                                                            5%|▌         | 5469/100000 [2:59:49<25:23:39,  1.03it/s]  5%|▌         | 5470/100000 [2:59:50<24:33:48,  1.07it/s]                                                            5%|▌         | 5470/100000 [2:59:50<24:33:48,  1.07it/s]  5%|▌         | 5471/100000 [3:00:01<110:25:15,  4.21s/it]                                                             5%|▌         | 5471/100000 [3:00:01<110:25:15,  4.21s/it]  5%|▌         | 5472/100000 [3:00:07<122:17:50,  4.66s/it]                                                             5%|▌         | 5472/100000 [3:00:07<122:17:50,  4.66s/it]  5%|▌         | 5473/100000 [3:00:12<121:11:27,  4.62s/it]                                                             5%|▌         | 5473/100000 [3:00:12<121:11:27,  4.62s/it]  5%|▌         | 5474/100000 [3:00:16<115:55:46,  4.42s/it]                                                             5%|▌         | 5474/100000 [3:00:16<115:55:46,  4.42s/it]  5%|▌         | 5475/100000 [3:00:19<108:53:02,  4.15s/it]                                                             5%|▌         | 5475/100000 [3:00:19<108:53:02,  4.15s/it]  5%|▌         | 5476/100000 [3:00:22<100:10:30,  3.82s/it]                                                             5%|▌         | 5476/100000 [3:00:22<100:10:30,  3.82s/it]  5%|▌         | 5477/100000 [3:00:25<93:31:18,  3.56s/it]                                                             5%|▌         | 5477/100000 [3:00:25<93:31:18,  3.56s/it]  5%|▌         | 5478/100000 [3:00:28<86:26:58,  3.29s/it]                                                            5%|▌         | 5478/100000 [3:00:28<86:26:58,  3.29s/it]  5%|▌         | 5479/100000 [3:00:30<79:34:04,  3.03s/it]                                                            5%|▌         | 5479/100000 [3:00:30<79:34:04,  3.03s/it]  5%|▌         | 5480/100000 [3:00:32<72:24:52,  2.76s/it]                                                            5%|▌         | 5480/100000 [3:00:32<72:24:52,  2.76s/it]  5%|▌         | 5481/100000 [3:00:34<67:22:49,  2.57s/it]                                                            5%|▌         | 5481/100000 [3:00:34<67:22:49,  2.57s/it]  5%|▌         | 5482/100000 [3:00:36<62:43:06,  2.39s/it]                                                            5%|▌         | 5482/100000 [3:00:36<62:43:06,  2.39s/it]  5%|▌         | 5483/100000 [3:00:38<58:50:15,  2.24s/it]                                                            5%|▌         | 5483/100000 [3:00:38<58:50:15,  2.24s/it]  5%|▌         | 5484/100000 [3:00:40<54:40:04,  2.08s/it]                                                            5%|▌         | 5484/100000 [3:00:40<54:40:04,  2.08s/it]  5%|▌         | 5485/100000 [3:00:42<51:47:47,  1.97s/it]                                                            5%|▌         | 5485/100000 [3:00:42<51:47:47,  1.97s/it]  5%|▌         | 5486/100000 [3:00:43<49:29:05,  1.88s/it]                                                            5%|▌         | 5486/100000 [3:00:43<49:29:05,  1.88s/it]  5%|▌         | 5487/100000 [3:00:45<47:22:49,  1.80s/it]                                                            5%|▌         | 5487/100000 [3:00:45<47:22:49,  1.80s/it]  5%|▌         | 5488/100000 [3:00:47<45:11:47,  1.72s/it]                                                            5%|▌         | 5488/100000 [3:00:47<45:11:47,  1.72s/it]  5%|▌         | 5489/100000 [3:00:48<43:13:48,  1.65s/it]                                                            5%|▌         | 5489/100000 [3:00:48<43:13:48,  1.65s/it]  5%|▌         | 5490/100000 [3:00:50<42:03:54,  1.60s/it]                                                            5%|▌         | 5490/100000 [3:00:50<42:03:54,  1.60s/it]  5%|▌         | 5491/100000 [3:00:51<40:50:18,  1.56s/it]                                                            5%|▌         | 5491/100000 [3:00:51<40:50:18,  1.56s/it]  5%|▌         | 5492/100000 [3:00:52<39:53:03,  1.52s/it]                                                            5%|▌         | 5492/100000 [3:00:52<39:53:03,  1.52s/it]  5%|▌         | 5493/100000 [3:00:54<38:59:19,  1.49s/it]                                                            5%|▌         | 5493/100000 [3:00:54<38:59:19,  1.49s/it]  5%|▌         | 5494/100000 [3:00:55<37:55:24,  1.44s/it]                                                            5%|▌         | 5494/100000 [3:00:55<37:55:24,  1.44s/it]  5%|▌         | 5495/100000 [3:00:57<37:16:44,  1.42s/it]                                                            5%|▌         | 5495/100000 [3:00:57<37:16:44,  1.42s/it]  5%|▌         | 5496/100000 [3:00:58<36:24:41,  1.39s/it]                                                            5%|▌         | 5496/100000 [3:00:58<36:24:41,  1.39s/it]  5%|▌         | 5497/100000 [3:00:59<35:44:18,  1.36s/it]                                                            5%|▌         | 5497/100000 [3:00:59<35:44:18,  1.36s/it]  5%|▌         | 5498/100000 [3:01:00<35:17:14,  1.34s/it]                                                            5%|���         | 5498/100000 [3:01:00<35:17:14,  1.34s/it]  5%|▌         | 5499/100000 [3:01:02<34:50:07,  1.33s/it]                                                            5%|▌         | 5499/100000 [3:01:02<34:50:07,  1.33s/it]  6%|▌         | 5500/100000 [3:01:03<34:27:37,  1.31s/it]                                                            6%|▌         | 5500/100000 [3:01:03<34:27:37,  1.31s/it]  6%|▌         | 5501/100000 [3:01:04<33:57:47,  1.29s/it]                                                            6%|▌         | 5501/100000 [3:01:04<33:57:47,  1.29s/it]  6%|▌         | 5502/100000 [3:01:05<33:14:46,  1.27s/it]                                                            6%|▌         | 5502/100000 [3:01:05<33:14:46,  1.27s/it]  6%|▌         | 5503/100000 [3:01:07<32:39:55,  1.24s/it]                                                            6%|▌         | 5503/100000 [3:01:07<32:39:55,  1.24s/it]  6%|▌         | 5504/100000 [3:01:08<31:56:04,  1.22s/it]                                                          {'loss': 0.3427, 'grad_norm': 1.5406891107559204, 'learning_rate': 1.6253999999999997e-05, 'epoch': 10.0}
+{'loss': 0.2991, 'grad_norm': 0.8477674722671509, 'learning_rate': 1.6257e-05, 'epoch': 10.0}
+{'loss': 0.2128, 'grad_norm': 1.0089524984359741, 'learning_rate': 1.626e-05, 'epoch': 10.01}
+{'loss': 0.1977, 'grad_norm': 1.0328800678253174, 'learning_rate': 1.6263e-05, 'epoch': 10.01}
+{'loss': 0.2169, 'grad_norm': 0.9635773301124573, 'learning_rate': 1.6266e-05, 'epoch': 10.01}
+{'loss': 0.1697, 'grad_norm': 1.2987926006317139, 'learning_rate': 1.6269e-05, 'epoch': 10.01}
+{'loss': 0.1087, 'grad_norm': 0.6195570826530457, 'learning_rate': 1.6272e-05, 'epoch': 10.01}
+{'loss': 0.1107, 'grad_norm': 0.6779178977012634, 'learning_rate': 1.6275e-05, 'epoch': 10.01}
+{'loss': 0.1222, 'grad_norm': 0.6723268628120422, 'learning_rate': 1.6278e-05, 'epoch': 10.02}
+{'loss': 0.1055, 'grad_norm': 0.6540348529815674, 'learning_rate': 1.6281e-05, 'epoch': 10.02}
+{'loss': 0.1055, 'grad_norm': 0.764249324798584, 'learning_rate': 1.6284e-05, 'epoch': 10.02}
+{'loss': 0.0961, 'grad_norm': 0.5885652899742126, 'learning_rate': 1.6287000000000002e-05, 'epoch': 10.02}
+{'loss': 0.1551, 'grad_norm': 1.157502293586731, 'learning_rate': 1.629e-05, 'epoch': 10.02}
+{'loss': 0.0723, 'grad_norm': 0.5454378128051758, 'learning_rate': 1.6293e-05, 'epoch': 10.03}
+{'loss': 0.0472, 'grad_norm': 0.4833084046840668, 'learning_rate': 1.6296e-05, 'epoch': 10.03}
+{'loss': 0.0354, 'grad_norm': 0.7118651866912842, 'learning_rate': 1.6299e-05, 'epoch': 10.03}
+{'loss': 0.0412, 'grad_norm': 0.5361140370368958, 'learning_rate': 1.6302e-05, 'epoch': 10.03}
+{'loss': 0.0236, 'grad_norm': 0.43500009179115295, 'learning_rate': 1.6305e-05, 'epoch': 10.03}
+{'loss': 0.0288, 'grad_norm': 0.989443302154541, 'learning_rate': 1.6308e-05, 'epoch': 10.04}
+{'loss': 0.0343, 'grad_norm': 0.3764720857143402, 'learning_rate': 1.6311e-05, 'epoch': 10.04}
+{'loss': 0.019, 'grad_norm': 0.3913370966911316, 'learning_rate': 1.6314e-05, 'epoch': 10.04}
+{'loss': 0.0333, 'grad_norm': 1.057128667831421, 'learning_rate': 1.6317000000000003e-05, 'epoch': 10.04}
+{'loss': 0.0311, 'grad_norm': 0.6400501132011414, 'learning_rate': 1.6320000000000003e-05, 'epoch': 10.04}
+{'loss': 0.0223, 'grad_norm': 0.4104997515678406, 'learning_rate': 1.6323000000000003e-05, 'epoch': 10.04}
+{'loss': 0.0284, 'grad_norm': 0.33504095673561096, 'learning_rate': 1.6326000000000003e-05, 'epoch': 10.05}
+{'loss': 0.0251, 'grad_norm': 0.4359169602394104, 'learning_rate': 1.6329e-05, 'epoch': 10.05}
+{'loss': 0.0294, 'grad_norm': 0.46953126788139343, 'learning_rate': 1.6332e-05, 'epoch': 10.05}
+{'loss': 0.0274, 'grad_norm': 0.7887614369392395, 'learning_rate': 1.6335e-05, 'epoch': 10.05}
+{'loss': 0.022, 'grad_norm': 0.3279338777065277, 'learning_rate': 1.6338e-05, 'epoch': 10.05}
+{'loss': 0.0316, 'grad_norm': 0.5057511329650879, 'learning_rate': 1.6340999999999998e-05, 'epoch': 10.06}
+{'loss': 0.019, 'grad_norm': 0.5215173363685608, 'learning_rate': 1.6343999999999998e-05, 'epoch': 10.06}
+{'loss': 0.019, 'grad_norm': 0.42165639996528625, 'learning_rate': 1.6347e-05, 'epoch': 10.06}
+{'loss': 0.0165, 'grad_norm': 0.33034011721611023, 'learning_rate': 1.635e-05, 'epoch': 10.06}
+{'loss': 0.0194, 'grad_norm': 0.45684513449668884, 'learning_rate': 1.6353e-05, 'epoch': 10.06}
+{'loss': 0.0394, 'grad_norm': 0.5774962306022644, 'learning_rate': 1.6356e-05, 'epoch': 10.06}
+{'loss': 0.0187, 'grad_norm': 0.4379504323005676, 'learning_rate': 1.6359e-05, 'epoch': 10.07}
+{'loss': 0.0215, 'grad_norm': 0.7650175094604492, 'learning_rate': 1.6362e-05, 'epoch': 10.07}
+{'loss': 0.0536, 'grad_norm': 0.5422001481056213, 'learning_rate': 1.6365e-05, 'epoch': 10.07}
+{'loss': 0.0154, 'grad_norm': 0.333640456199646, 'learning_rate': 1.6368e-05, 'epoch': 10.07}
+{'loss': 0.0174, 'grad_norm': 1.1780778169631958, 'learning_rate': 1.6371e-05, 'epoch': 10.07}
+{'loss': 0.0287, 'grad_norm': 0.7993797063827515, 'learning_rate': 1.6374e-05, 'epoch': 10.08}
+{'loss': 0.0304, 'grad_norm': 0.7349343299865723, 'learning_rate': 1.6377000000000003e-05, 'epoch': 10.08}
+{'loss': 0.0229, 'grad_norm': 0.8012458086013794, 'learning_rate': 1.6380000000000002e-05, 'epoch': 10.08}
+{'loss': 0.026, 'grad_norm': 0.5809488892555237, 'learning_rate': 1.6383000000000002e-05, 'epoch': 10.08}
+{'loss': 0.0334, 'grad_norm': 0.6947927474975586, 'learning_rate': 1.6386000000000002e-05, 'epoch': 10.08}
+{'loss': 0.032, 'grad_norm': 1.0784257650375366, 'learning_rate': 1.6389000000000002e-05, 'epoch': 10.08}
+{'loss': 0.017, 'grad_norm': 0.4056265950202942, 'learning_rate': 1.6392e-05, 'epoch': 10.09}
+{'loss': 0.0279, 'grad_norm': 0.5124925374984741, 'learning_rate': 1.6395e-05, 'epoch': 10.09}
+{'loss': 0.0267, 'grad_norm': 1.012369990348816, 'learning_rate': 1.6398e-05, 'epoch': 10.09}
+{'loss': 0.0279, 'grad_norm': 0.6609354615211487, 'learning_rate': 1.6400999999999998e-05, 'epoch': 10.09}
+{'loss': 0.2938, 'grad_norm': 1.0703595876693726, 'learning_rate': 1.6403999999999997e-05, 'epoch': 10.09}
+{'loss': 0.1815, 'grad_norm': 0.7762547731399536, 'learning_rate': 1.6407e-05, 'epoch': 10.1}
+{'loss': 0.1767, 'grad_norm': 0.7497743368148804, 'learning_rate': 1.641e-05, 'epoch': 10.1}
+{'loss': 0.1451, 'grad_norm': 0.7290788888931274, 'learning_rate': 1.6413e-05, 'epoch': 10.1}
+{'loss': 0.141, 'grad_norm': 0.6357746124267578, 'learning_rate': 1.6416e-05, 'epoch': 10.1}
+{'loss': 0.1779, 'grad_norm': 0.7867652773857117, 'learning_rate': 1.6419e-05, 'epoch': 10.1}
+{'loss': 0.1147, 'grad_norm': 0.5439184308052063, 'learning_rate': 1.6422e-05, 'epoch': 10.11}
+{'loss': 0.174, 'grad_norm': 0.6986681818962097, 'learning_rate': 1.6425e-05, 'epoch': 10.11}
+{'loss': 0.0873, 'grad_norm': 0.5804990530014038, 'learning_rate': 1.6428e-05, 'epoch': 10.11}
+{'loss': 0.1138, 'grad_norm': 1.0001838207244873, 'learning_rate': 1.6431e-05, 'epoch': 10.11}
+{'loss': 0.0916, 'grad_norm': 0.825629711151123, 'learning_rate': 1.6434e-05, 'epoch': 10.11}
+{'loss': 0.0803, 'grad_norm': 0.7747324705123901, 'learning_rate': 1.6437000000000002e-05, 'epoch': 10.11}
+{'loss': 0.0415, 'grad_norm': 0.9804370999336243, 'learning_rate': 1.6440000000000002e-05, 'epoch': 10.12}
+{'loss': 0.0668, 'grad_norm': 0.7696126699447632, 'learning_rate': 1.6443e-05, 'epoch': 10.12}
+{'loss': 0.0409, 'grad_norm': 0.39905205368995667, 'learning_rate': 1.6446e-05, 'epoch': 10.12}
+{'loss': 0.0553, 'grad_norm': 0.40738794207572937, 'learning_rate': 1.6449e-05, 'epoch': 10.12}
+{'loss': 0.0366, 'grad_norm': 0.3792731761932373, 'learning_rate': 1.6452e-05, 'epoch': 10.12}
+{'loss': 0.0338, 'grad_norm': 0.538812518119812, 'learning_rate': 1.6455e-05, 'epoch': 10.13}
+{'loss': 0.0274, 'grad_norm': 0.6880744695663452, 'learning_rate': 1.6458e-05, 'epoch': 10.13}
+{'loss': 0.0161, 'grad_norm': 0.2780337333679199, 'learning_rate': 1.6461e-05, 'epoch': 10.13}
+{'loss': 0.02, 'grad_norm': 0.5699805021286011, 'learning_rate': 1.6464e-05, 'epoch': 10.13}
+{'loss': 0.0529, 'grad_norm': 0.7288239598274231, 'learning_rate': 1.6467000000000003e-05, 'epoch': 10.13}
+{'loss': 0.0315, 'grad_norm': 0.5717664361000061, 'learning_rate': 1.6470000000000003e-05, 'epoch': 10.13}
+{'loss': 0.0219, 'grad_norm': 0.36545732617378235, 'learning_rate': 1.6473000000000003e-05, 'epoch': 10.14}
+{'loss': 0.0238, 'grad_norm': 0.3427481949329376, 'learning_rate': 1.6476e-05, 'epoch': 10.14}
+{'loss': 0.0238, 'grad_norm': 0.461640328168869, 'learning_rate': 1.6479e-05, 'epoch': 10.14}
+{'loss': 0.0276, 'grad_norm': 0.5584130883216858, 'learning_rate': 1.6482e-05, 'epoch': 10.14}
+{'loss': 0.0187, 'grad_norm': 0.376208633184433, 'learning_rate': 1.6485e-05, 'epoch': 10.14}
+{'loss': 0.023, 'grad_norm': 0.3295646607875824, 'learning_rate': 1.6488e-05, 'epoch': 10.15}
+{'loss': 0.0235, 'grad_norm': 0.40510445833206177, 'learning_rate': 1.6491e-05, 'epoch': 10.15}
+{'loss': 0.0188, 'grad_norm': 0.594293475151062, 'learning_rate': 1.6493999999999998e-05, 'epoch': 10.15}
+{'loss': 0.0352, 'grad_norm': 1.6221593618392944, 'learning_rate': 1.6497e-05, 'epoch': 10.15}
+{'loss': 0.0213, 'grad_norm': 0.4105490446090698, 'learning_rate': 1.65e-05, 'epoch': 10.15}
+  6%|▌         | 5504/100000 [3:01:08<31:56:04,  1.22s/it]  6%|▌         | 5505/100000 [3:01:09<31:32:51,  1.20s/it]                                                            6%|▌         | 5505/100000 [3:01:09<31:32:51,  1.20s/it]  6%|▌         | 5506/100000 [3:01:10<31:08:27,  1.19s/it]                                                            6%|▌         | 5506/100000 [3:01:10<31:08:27,  1.19s/it]  6%|▌         | 5507/100000 [3:01:11<30:45:43,  1.17s/it]                                                            6%|▌         | 5507/100000 [3:01:11<30:45:43,  1.17s/it]  6%|▌         | 5508/100000 [3:01:12<30:06:38,  1.15s/it]                                                            6%|▌         | 5508/100000 [3:01:12<30:06:38,  1.15s/it]  6%|▌         | 5509/100000 [3:01:13<29:21:12,  1.12s/it]                                                            6%|▌         | 5509/100000 [3:01:13<29:21:12,  1.12s/it]  6%|▌         | 5510/100000 [3:01:15<29:16:41,  1.12s/it]                                                            6%|▌         | 5510/100000 [3:01:15<29:16:41,  1.12s/it]  6%|▌         | 5511/100000 [3:01:16<28:50:55,  1.10s/it]                                                            6%|▌         | 5511/100000 [3:01:16<28:50:55,  1.10s/it]  6%|▌         | 5512/100000 [3:01:17<28:18:34,  1.08s/it]                                                            6%|▌         | 5512/100000 [3:01:17<28:18:34,  1.08s/it]  6%|▌         | 5513/100000 [3:01:18<27:43:45,  1.06s/it]                                                            6%|▌         | 5513/100000 [3:01:18<27:43:45,  1.06s/it]  6%|▌         | 5514/100000 [3:01:19<27:41:40,  1.06s/it]                                                            6%|▌         | 5514/100000 [3:01:19<27:41:40,  1.06s/it]  6%|▌         | 5515/100000 [3:01:20<27:25:09,  1.04s/it]                                                            6%|▌         | 5515/100000 [3:01:20<27:25:09,  1.04s/it]  6%|▌         | 5516/100000 [3:01:21<26:54:28,  1.03s/it]                                                            6%|▌         | 5516/100000 [3:01:21<26:54:28,  1.03s/it]  6%|▌         | 5517/100000 [3:01:22<26:20:39,  1.00s/it]                                                            6%|▌         | 5517/100000 [3:01:22<26:20:39,  1.00s/it]  6%|▌         | 5518/100000 [3:01:23<25:36:28,  1.02it/s]                                                            6%|▌         | 5518/100000 [3:01:23<25:36:28,  1.02it/s]  6%|▌         | 5519/100000 [3:01:23<24:58:09,  1.05it/s]                                                            6%|▌         | 5519/100000 [3:01:23<24:58:09,  1.05it/s]  6%|▌         | 5520/100000 [3:01:24<24:19:50,  1.08it/s]                                                            6%|▌         | 5520/100000 [3:01:24<24:19:50,  1.08it/s]  6%|▌         | 5521/100000 [3:01:37<114:00:43,  4.34s/it]                                                             6%|▌         | 5521/100000 [3:01:37<114:00:43,  4.34s/it]  6%|▌         | 5522/100000 [3:01:43<126:24:20,  4.82s/it]                                                             6%|▌         | 5522/100000 [3:01:43<126:24:20,  4.82s/it]  6%|▌         | 5523/100000 [3:01:47<125:31:54,  4.78s/it]                                                             6%|▌         | 5523/100000 [3:01:47<125:31:54,  4.78s/it]  6%|▌         | 5524/100000 [3:01:51<119:58:22,  4.57s/it]                                                             6%|▌         | 5524/100000 [3:01:51<119:58:22,  4.57s/it]  6%|▌         | 5525/100000 [3:01:55<111:54:40,  4.26s/it]                                                             6%|▌         | 5525/100000 [3:01:55<111:54:40,  4.26s/it]  6%|▌         | 5526/100000 [3:01:58<103:12:05,  3.93s/it]                                                             6%|▌         | 5526/100000 [3:01:58<103:12:05,  3.93s/it]  6%|▌         | 5527/100000 [3:02:01<94:54:30,  3.62s/it]                                                             6%|▌         | 5527/100000 [3:02:01<94:54:30,  3.62s/it]  6%|▌         | 5528/100000 [3:02:04<87:01:12,  3.32s/it]                                                            6%|▌         | 5528/100000 [3:02:04<87:01:12,  3.32s/it]  6%|▌         | 5529/100000 [3:02:06<79:58:08,  3.05s/it]                                                            6%|▌         | 5529/100000 [3:02:06<79:58:08,  3.05s/it]  6%|▌         | 5530/100000 [3:02:08<73:43:14,  2.81s/it]                                                            6%|▌         | 5530/100000 [3:02:08<73:43:14,  2.81s/it]  6%|▌         | 5531/100000 [3:02:10<68:19:25,  2.60s/it]                                                            6%|▌         | 5531/100000 [3:02:10<68:19:25,  2.60s/it]  6%|▌         | 5532/100000 [3:02:12<63:04:26,  2.40s/it]                                                            6%|▌         | 5532/100000 [3:02:12<63:04:26,  2.40s/it]  6%|▌         | 5533/100000 [3:02:14<58:53:55,  2.24s/it]                                                            6%|▌         | 5533/100000 [3:02:14<58:53:55,  2.24s/it]  6%|▌         | 5534/100000 [3:02:16<55:05:56,  2.10s/it]                                                            6%|▌         | 5534/100000 [3:02:16<55:05:56,  2.10s/it]  6%|▌         | 5535/100000 [3:02:18<51:51:07,  1.98s/it]                                                            6%|▌         | 5535/100000 [3:02:18<51:51:07,  1.98s/it]  6%|▌         | 5536/100000 [3:02:19<48:32:22,  1.85s/it]                                                            6%|▌         | 5536/100000 [3:02:19<48:32:22,  1.85s/it]  6%|▌         | 5537/100000 [3:02:21<46:06:12,  1.76s/it]                                                            6%|▌         | 5537/100000 [3:02:21<46:06:12,  1.76s/it]  6%|▌         | 5538/100000 [3:02:22<44:05:29,  1.68s/it]                                                            6%|▌         | 5538/100000 [3:02:22<44:05:29,  1.68s/it]  6%|▌         | 5539/100000 [3:02:24<42:41:56,  1.63s/it]                                                            6%|▌         | 5539/100000 [3:02:24<42:41:56,  1.63s/it]  6%|▌         | 5540/100000 [3:02:25<41:05:59,  1.57s/it]                                                            6%|▌         | 5540/100000 [3:02:25<41:05:59,  1.57s/it]  6%|▌         | 5541/100000 [3:02:27<40:05:53,  1.53s/it]                                                            6%|▌         | 5541/100000 [3:02:27<40:05:53,  1.53s/it]  6%|▌         | 5542/100000 [3:02:28<39:17:30,  1.50s/it]                                                            6%|▌         | 5542/100000 [3:02:28<39:17:30,  1.50s/it]  6%|▌         | 5543/100000 [3:02:29<38:11:53,  1.46s/it]                                                            6%|▌         | 5543/100000 [3:02:29<38:11:53,  1.46s/it]  6%|▌         | 5544/100000 [3:02:31<37:40:12,  1.44s/it]                                                            6%|▌         | 5544/100000 [3:02:31<37:40:12,  1.44s/it]  6%|▌         | 5545/100000 [3:02:32<37:03:20,  1.41s/it]                                                            6%|▌         | 5545/100000 [3:02:32<37:03:20,  1.41s/it]  6%|▌         | 5546/100000 [3:02:33<36:25:39,  1.39s/it]                                                            6%|▌         | 5546/100000 [3:02:33<36:25:39,  1.39s/it]  6%|▌         | 5547/100000 [3:02:35<35:41:25,  1.36s/it]                                                            6%|▌         | 5547/100000 [3:02:35<35:41:25,  1.36s/it]  6%|▌         | 5548/100000 [3:02:36<35:15:36,  1.34s/it]                                                            6%|▌         | 5548/100000 [3:02:36<35:15:36,  1.34s/it]  6%|▌         | 5549/100000 [3:02:37<34:45:28,  1.32s/it]                                                            6%|▌         | 5549/100000 [3:02:37<34:45:28,  1.32s/it]  6%|▌         | 5550/100000 [3:02:39<34:17:23,  1.31s/it]                                                            6%|▌         | 5550/100000 [3:02:39<34:17:23,  1.31s/it]  6%|▌         | 5551/100000 [3:02:40<33:49:08,  1.29s/it]                                                            6%|▌         | 5551/100000 [3:02:40<33:49:08,  1.29s/it]  6%|▌         | 5552/100000 [3:02:41<33:08:43,  1.26s/it]                                                            6%|▌         | 5552/100000 [3:02:41<33:08:43,  1.26s/it]  6%|▌         | 5553/100000 [3:02:42<32:46:09,  1.25s/it]                                                            6%|▌         | 5553/100000 [3:02:42<32:46:09,  1.25s/it]  6%|▌         | 5554/100000 [3:02:43<32:07:37,  1.22s/it]                                                            6%|▌         | 5554/100000 [3:02:43<32:07:37,  1.22s/it]  6%|▌         | 5555/100000 [3:02:45<31:37:34,  1.21s/it]                                                            6%|▌         | 5555/100000 [3:02:45<31:37:34,  1.21s/it]  6%|▌         | 5556/100000 [3:02:46<31:14:35,  1.19s/it]                                                            6%|▌         | 5556/100000 [3:02:46<31:14:35,  1.19s/it]  6%|▌         | 5557/100000 [3:02:47<30:41:15,  1.17s/it]                                                            6%|▌         | 5557/100000 [3:02:47<30:41:15,  1.17s/it]  6%|▌         | 5558/100000 [3:02:48<30:08:37,  1.15s/it]                                                            6%|▌         | 5558/100000 [3:02:48<30:08:37,  1.15s/it]  6%|▌         | 5559/100000 [3:02:49<29:41:06,  1.13s/it]                                                            6%|▌         | 5559/100000 [3:02:49<29:41:06,  1.13s/it]  6%|▌         | 5560/100000 [3:02:50<29:07:15,  1.11s/it]                                                            6%|▌         | 5560/100000 [3:02:50<29:07:15,  1.11s/it]  6%|▌         | 5561/100000 [3:02:51<28:35:04,  1.09s/it]                                                            6%|▌         | 5561/100000 [3:02:51<28:35:04,  1.09s/it]  6%|▌         | 5562/100000 [3:02:52<28:05:17,  1.07s/it]                                                            6%|▌         | 5562/100000 [3:02:52<28:05:17,  1.07s/it]  6%|▌         | 5563/100000 [3:02:53<27:54:37,  1.06s/it]                                                            6%|▌         | 5563/100000 [3:02:53<27:54:37,  1.06s/it]  6%|▌         | 5564/100000 [3:02:54<27:26:58,  1.05s/it]                                                            6%|▌         | 5564/100000 [3:02:54<27:26:58,  1.05s/it]  6%|▌         | 5565/100000 [3:02:55<27:04:56,  1.03s/it]                                                            6%|▌         | 5565/100000 [3:02:55<27:04:56,  1.03s/it]  6%|▌         | 5566/100000 [3:02:56<26:19:06,  1.00s/it]                                                            6%|▌         | 5566/100000 [3:02:56<26:19:06,  1.00s/it]  6%|▌         | 5567/100000 [3:02:57<26:09:12,  1.00it/s]                                                            6%|▌         | 5567/100000 [3:02:57<26:09:12,  1.00it/s]  6%|▌         | 5568/100000 [3:02:58<25:51:53,  1.01it/s]                                                            6%|▌         | 5568/100000 [3:02:58<25:51:53,  1.01it/s]  6%|▌         | 5569/100000 [3:02:59<25:32:34,  1.03it/s]                                                            6%|▌         | 5569/100000 [3:02:59<25:32:34,  1.03it/s]  6%|▌         | 5570/100000 [3:03:00<24:47:34,  1.06it/s]                                                            6%|▌         | 5570/100000 [3:03:00<24:47:34,  1.06it/s]  6%|▌         | 5571/100000 [3:03:11<101:10:39,  3.86s/it]                                                             6%|▌         | 5571/100000 [3:03:11<101:10:39,  3.86s/it]  6%|▌         | 5572/100000 [3:03:17<117:46:25,  4.49s/it]                                                             6%|▌         | 5572/100000 [3:03:17<117:46:25,  4.49s/it]  6%|▌         | 5573/100000 [3:03:21<119:07:38,  4.54s/it]                                                             6%|▌         | 5573/100000 [3:03:21<119:07:38,  4.54s/it]  6%|▌         | 5574/100000 [3:03:25<115:13:21,  4.39s/it]                                                             6%|▌         | 5574/100000 [3:03:25<115:13:21,  4.39s/it]  6%|▌         | 5575/100000 [3:03:29<109:30:29,  4.18s/it]                                                             6%|▌         | 5575/100000 [3:03:29<109:30:29,  4.18s/it]  6%|▌         | 5576/100000 [3:03:32<101:22:27,  3.86s/it]                                                             6%|▌         | 5576/100000 [3:03:32<101:22:27,  3.86s/it]  6%|▌         | 5577/100000 [3:03:35<94:57:59,  3.62s/it]                                                             6%|▌         | 5577/100000 [3:03:35<94:57:59,  3.62s/it]  6%|▌         | 5578/100000 [3:03:38<88:24:09,  3.37s/it]                                                            6%|▌         | 5578/100000 [3:03:38<88:24:09,  3.37s/it]  6%|▌         | 5579/100000 [3:03:40<81:47:40,  3.12s/it]                                                            6%|▌         | 5579/100000 [3:03:40<81:47:40,  3.12s/it]  6%|▌         | 5580/100000 [3:03:43<75:44:41,  2.89s/it]                                                            6%|▌         | 5580/100000 [3:03:43<75:44:41,  2.89s/it]  6%|▌         | 5581/100000 [3:03:45<69:58:19,  2.67s/it]                                                            6%|▌         | 5581/100000 [3:03:45<69:58:19,  2.67s/it]  6%|▌         | 5582/100000 [3:03:47<65:26:24,  2.50s/it]                                                            6%|▌         | 5582/100000 [3:03:47<65:26:24,  2.50s/it]  6%|▌         | 5583/100000 [3:03:49<61:18:45,  2.34s/it]                                                            6%|▌         | 5583/100000 [3:03:49<61:18:45,  2.34s/it]  6%|▌         | 5584/100000 [3:03:51<57:14:24,  2.18s/it]                                                            6%|▌         | 5584/100000 [3:03:51<57:14:24,  2.18s/it]  6%|▌         | 5585/100000 [3:03:53<55:03:04,  2.10s/it]                                                            6%|▌         | 5585/100000 [3:03:53<55:03:04,  2.10s/it]  6%|▌         | 5586/100000 [3:03:54<51:48:08,  1.98s/it]                                                            6%|▌         | 5586/100000 [3:03:54<51:48:08,  1.98s/it]  6%|▌         | 5587/100000 [3:03:56<48:34:42,  1.85s/it]                                                          {'loss': 0.0268, 'grad_norm': 0.5947759747505188, 'learning_rate': 1.6503e-05, 'epoch': 10.16}
+{'loss': 0.0177, 'grad_norm': 0.3585164546966553, 'learning_rate': 1.6506e-05, 'epoch': 10.16}
+{'loss': 0.0262, 'grad_norm': 0.435248464345932, 'learning_rate': 1.6509e-05, 'epoch': 10.16}
+{'loss': 0.0187, 'grad_norm': 0.31813377141952515, 'learning_rate': 1.6512e-05, 'epoch': 10.16}
+{'loss': 0.018, 'grad_norm': 0.569756031036377, 'learning_rate': 1.6515e-05, 'epoch': 10.16}
+{'loss': 0.013, 'grad_norm': 0.31594976782798767, 'learning_rate': 1.6518e-05, 'epoch': 10.16}
+{'loss': 0.0197, 'grad_norm': 0.3902089297771454, 'learning_rate': 1.6521e-05, 'epoch': 10.17}
+{'loss': 0.0185, 'grad_norm': 0.5651479363441467, 'learning_rate': 1.6524e-05, 'epoch': 10.17}
+{'loss': 0.0256, 'grad_norm': 0.45485809445381165, 'learning_rate': 1.6527e-05, 'epoch': 10.17}
+{'loss': 0.0612, 'grad_norm': 1.6518807411193848, 'learning_rate': 1.6530000000000003e-05, 'epoch': 10.17}
+{'loss': 0.0348, 'grad_norm': 0.7069046497344971, 'learning_rate': 1.6533000000000002e-05, 'epoch': 10.17}
+{'loss': 0.0275, 'grad_norm': 0.6123530864715576, 'learning_rate': 1.6536000000000002e-05, 'epoch': 10.18}
+{'loss': 0.0379, 'grad_norm': 0.7783622145652771, 'learning_rate': 1.6539000000000002e-05, 'epoch': 10.18}
+{'loss': 0.0175, 'grad_norm': 0.5361220836639404, 'learning_rate': 1.6542000000000002e-05, 'epoch': 10.18}
+{'loss': 0.0519, 'grad_norm': 0.7196072340011597, 'learning_rate': 1.6545e-05, 'epoch': 10.18}
+{'loss': 0.0255, 'grad_norm': 0.8551514744758606, 'learning_rate': 1.6548e-05, 'epoch': 10.18}
+{'loss': 0.025, 'grad_norm': 0.9311538338661194, 'learning_rate': 1.6550999999999998e-05, 'epoch': 10.18}
+{'loss': 0.2651, 'grad_norm': 0.8415346145629883, 'learning_rate': 1.6553999999999998e-05, 'epoch': 10.19}
+{'loss': 0.2365, 'grad_norm': 0.9645931720733643, 'learning_rate': 1.6556999999999998e-05, 'epoch': 10.19}
+{'loss': 0.2345, 'grad_norm': 0.8362430930137634, 'learning_rate': 1.656e-05, 'epoch': 10.19}
+{'loss': 0.2174, 'grad_norm': 0.7902693152427673, 'learning_rate': 1.6563e-05, 'epoch': 10.19}
+{'loss': 0.1437, 'grad_norm': 0.5826321840286255, 'learning_rate': 1.6566e-05, 'epoch': 10.19}
+{'loss': 0.1946, 'grad_norm': 1.1524338722229004, 'learning_rate': 1.6569e-05, 'epoch': 10.2}
+{'loss': 0.1437, 'grad_norm': 0.7611707448959351, 'learning_rate': 1.6572e-05, 'epoch': 10.2}
+{'loss': 0.1312, 'grad_norm': 0.6333263516426086, 'learning_rate': 1.6575e-05, 'epoch': 10.2}
+{'loss': 0.0986, 'grad_norm': 0.619972288608551, 'learning_rate': 1.6578e-05, 'epoch': 10.2}
+{'loss': 0.0828, 'grad_norm': 0.6319988369941711, 'learning_rate': 1.6581e-05, 'epoch': 10.2}
+{'loss': 0.1116, 'grad_norm': 0.7655250430107117, 'learning_rate': 1.6584e-05, 'epoch': 10.2}
+{'loss': 0.0625, 'grad_norm': 0.5639950633049011, 'learning_rate': 1.6587e-05, 'epoch': 10.21}
+{'loss': 0.0564, 'grad_norm': 0.5196364521980286, 'learning_rate': 1.6590000000000002e-05, 'epoch': 10.21}
+{'loss': 0.048, 'grad_norm': 0.5493685603141785, 'learning_rate': 1.6593000000000002e-05, 'epoch': 10.21}
+{'loss': 0.065, 'grad_norm': 0.6512869000434875, 'learning_rate': 1.6596000000000002e-05, 'epoch': 10.21}
+{'loss': 0.0356, 'grad_norm': 0.5324305295944214, 'learning_rate': 1.6599e-05, 'epoch': 10.21}
+{'loss': 0.041, 'grad_norm': 0.4373769164085388, 'learning_rate': 1.6602e-05, 'epoch': 10.22}
+{'loss': 0.0487, 'grad_norm': 0.880097508430481, 'learning_rate': 1.6605e-05, 'epoch': 10.22}
+{'loss': 0.0328, 'grad_norm': 0.47192707657814026, 'learning_rate': 1.6608e-05, 'epoch': 10.22}
+{'loss': 0.0295, 'grad_norm': 0.4588438868522644, 'learning_rate': 1.6611e-05, 'epoch': 10.22}
+{'loss': 0.0305, 'grad_norm': 1.0013659000396729, 'learning_rate': 1.6614e-05, 'epoch': 10.22}
+{'loss': 0.0268, 'grad_norm': 0.5650994181632996, 'learning_rate': 1.6617e-05, 'epoch': 10.23}
+{'loss': 0.0288, 'grad_norm': 0.46585944294929504, 'learning_rate': 1.6620000000000004e-05, 'epoch': 10.23}
+{'loss': 0.0294, 'grad_norm': 0.528458833694458, 'learning_rate': 1.6623e-05, 'epoch': 10.23}
+{'loss': 0.0301, 'grad_norm': 0.4273636043071747, 'learning_rate': 1.6626e-05, 'epoch': 10.23}
+{'loss': 0.033, 'grad_norm': 0.4764959514141083, 'learning_rate': 1.6629e-05, 'epoch': 10.23}
+{'loss': 0.0642, 'grad_norm': 0.4240407943725586, 'learning_rate': 1.6632e-05, 'epoch': 10.23}
+{'loss': 0.0262, 'grad_norm': 0.4711458086967468, 'learning_rate': 1.6635e-05, 'epoch': 10.24}
+{'loss': 0.0384, 'grad_norm': 0.6241109371185303, 'learning_rate': 1.6638e-05, 'epoch': 10.24}
+{'loss': 0.0184, 'grad_norm': 0.37781938910484314, 'learning_rate': 1.6641e-05, 'epoch': 10.24}
+{'loss': 0.0156, 'grad_norm': 0.4634665548801422, 'learning_rate': 1.6644e-05, 'epoch': 10.24}
+{'loss': 0.0205, 'grad_norm': 0.5928099155426025, 'learning_rate': 1.6647e-05, 'epoch': 10.24}
+{'loss': 0.022, 'grad_norm': 0.38055887818336487, 'learning_rate': 1.665e-05, 'epoch': 10.25}
+{'loss': 0.0341, 'grad_norm': 0.8946309685707092, 'learning_rate': 1.6653e-05, 'epoch': 10.25}
+{'loss': 0.0254, 'grad_norm': 0.8753093481063843, 'learning_rate': 1.6656e-05, 'epoch': 10.25}
+{'loss': 0.0263, 'grad_norm': 0.44015374779701233, 'learning_rate': 1.6659e-05, 'epoch': 10.25}
+{'loss': 0.0269, 'grad_norm': 0.39704692363739014, 'learning_rate': 1.6662e-05, 'epoch': 10.25}
+{'loss': 0.0266, 'grad_norm': 0.4797463119029999, 'learning_rate': 1.6665e-05, 'epoch': 10.25}
+{'loss': 0.039, 'grad_norm': 0.4630764126777649, 'learning_rate': 1.6668e-05, 'epoch': 10.26}
+{'loss': 0.0357, 'grad_norm': 1.1624733209609985, 'learning_rate': 1.6671e-05, 'epoch': 10.26}
+{'loss': 0.0284, 'grad_norm': 0.6615108251571655, 'learning_rate': 1.6674e-05, 'epoch': 10.26}
+{'loss': 0.0233, 'grad_norm': 0.5912197828292847, 'learning_rate': 1.6677e-05, 'epoch': 10.26}
+{'loss': 0.0235, 'grad_norm': 0.5102552771568298, 'learning_rate': 1.6680000000000003e-05, 'epoch': 10.26}
+{'loss': 0.0322, 'grad_norm': 0.49518391489982605, 'learning_rate': 1.6683000000000003e-05, 'epoch': 10.27}
+{'loss': 0.024, 'grad_norm': 0.9089075922966003, 'learning_rate': 1.6686000000000003e-05, 'epoch': 10.27}
+{'loss': 0.0216, 'grad_norm': 0.49683696031570435, 'learning_rate': 1.6689000000000002e-05, 'epoch': 10.27}
+{'loss': 0.0191, 'grad_norm': 0.3209707736968994, 'learning_rate': 1.6692000000000002e-05, 'epoch': 10.27}
+{'loss': 0.0253, 'grad_norm': 0.567535400390625, 'learning_rate': 1.6695000000000002e-05, 'epoch': 10.27}
+{'loss': 0.0349, 'grad_norm': 0.8037060499191284, 'learning_rate': 1.6698e-05, 'epoch': 10.28}
+{'loss': 0.0263, 'grad_norm': 0.6364205479621887, 'learning_rate': 1.6700999999999998e-05, 'epoch': 10.28}
+{'loss': 0.2833, 'grad_norm': 1.1712576150894165, 'learning_rate': 1.6703999999999998e-05, 'epoch': 10.28}
+{'loss': 0.247, 'grad_norm': 0.941981852054596, 'learning_rate': 1.6706999999999998e-05, 'epoch': 10.28}
+{'loss': 0.1956, 'grad_norm': 0.8911486864089966, 'learning_rate': 1.671e-05, 'epoch': 10.28}
+{'loss': 0.1719, 'grad_norm': 0.7403378486633301, 'learning_rate': 1.6713e-05, 'epoch': 10.28}
+{'loss': 0.2207, 'grad_norm': 0.7996092438697815, 'learning_rate': 1.6716e-05, 'epoch': 10.29}
+{'loss': 0.1455, 'grad_norm': 0.6285210847854614, 'learning_rate': 1.6719e-05, 'epoch': 10.29}
+{'loss': 0.1133, 'grad_norm': 0.5551503896713257, 'learning_rate': 1.6722e-05, 'epoch': 10.29}
+{'loss': 0.1461, 'grad_norm': 0.8680622577667236, 'learning_rate': 1.6725e-05, 'epoch': 10.29}
+{'loss': 0.0919, 'grad_norm': 0.5695521235466003, 'learning_rate': 1.6728e-05, 'epoch': 10.29}
+{'loss': 0.0961, 'grad_norm': 0.557476818561554, 'learning_rate': 1.6731e-05, 'epoch': 10.3}
+{'loss': 0.083, 'grad_norm': 0.6611366868019104, 'learning_rate': 1.6734e-05, 'epoch': 10.3}
+{'loss': 0.0883, 'grad_norm': 0.5024586319923401, 'learning_rate': 1.6737e-05, 'epoch': 10.3}
+{'loss': 0.1743, 'grad_norm': 0.6985763311386108, 'learning_rate': 1.6740000000000002e-05, 'epoch': 10.3}
+{'loss': 0.0664, 'grad_norm': 1.2900344133377075, 'learning_rate': 1.6743000000000002e-05, 'epoch': 10.3}
+{'loss': 0.1042, 'grad_norm': 0.5589216947555542, 'learning_rate': 1.6746000000000002e-05, 'epoch': 10.3}
+{'loss': 0.0592, 'grad_norm': 0.47162994742393494, 'learning_rate': 1.6749000000000002e-05, 'epoch': 10.31}
+  6%|▌         | 5587/100000 [3:03:56<48:34:42,  1.85s/it]  6%|▌         | 5588/100000 [3:03:58<46:25:57,  1.77s/it]                                                            6%|▌         | 5588/100000 [3:03:58<46:25:57,  1.77s/it]  6%|▌         | 5589/100000 [3:03:59<44:34:26,  1.70s/it]                                                            6%|▌         | 5589/100000 [3:03:59<44:34:26,  1.70s/it]  6%|▌         | 5590/100000 [3:04:00<42:18:22,  1.61s/it]                                                            6%|▌         | 5590/100000 [3:04:01<42:18:22,  1.61s/it]  6%|▌         | 5591/100000 [3:04:02<40:45:54,  1.55s/it]                                                            6%|▌         | 5591/100000 [3:04:02<40:45:54,  1.55s/it]  6%|▌         | 5592/100000 [3:04:03<39:31:10,  1.51s/it]                                                            6%|▌         | 5592/100000 [3:04:03<39:31:10,  1.51s/it]  6%|▌         | 5593/100000 [3:04:05<38:42:12,  1.48s/it]                                                            6%|▌         | 5593/100000 [3:04:05<38:42:12,  1.48s/it]  6%|▌         | 5594/100000 [3:04:06<38:07:11,  1.45s/it]                                                            6%|▌         | 5594/100000 [3:04:06<38:07:11,  1.45s/it]  6%|▌         | 5595/100000 [3:04:07<37:26:37,  1.43s/it]                                                            6%|▌         | 5595/100000 [3:04:07<37:26:37,  1.43s/it]  6%|▌         | 5596/100000 [3:04:09<36:25:16,  1.39s/it]                                                            6%|▌         | 5596/100000 [3:04:09<36:25:16,  1.39s/it]  6%|▌         | 5597/100000 [3:04:10<35:57:57,  1.37s/it]                                                            6%|▌         | 5597/100000 [3:04:10<35:57:57,  1.37s/it]  6%|▌         | 5598/100000 [3:04:11<35:26:11,  1.35s/it]                                                            6%|▌         | 5598/100000 [3:04:11<35:26:11,  1.35s/it]  6%|▌         | 5599/100000 [3:04:13<34:58:45,  1.33s/it]                                                            6%|▌         | 5599/100000 [3:04:13<34:58:45,  1.33s/it]  6%|▌         | 5600/100000 [3:04:14<34:20:53,  1.31s/it]                                                            6%|▌         | 5600/100000 [3:04:14<34:20:53,  1.31s/it]  6%|▌         | 5601/100000 [3:04:15<33:52:35,  1.29s/it]                                                            6%|▌         | 5601/100000 [3:04:15<33:52:35,  1.29s/it]  6%|▌         | 5602/100000 [3:04:16<33:10:26,  1.27s/it]                                                            6%|▌         | 5602/100000 [3:04:16<33:10:26,  1.27s/it]  6%|▌         | 5603/100000 [3:04:18<32:38:02,  1.24s/it]                                                            6%|▌         | 5603/100000 [3:04:18<32:38:02,  1.24s/it]  6%|▌         | 5604/100000 [3:04:19<32:24:08,  1.24s/it]                                                            6%|▌         | 5604/100000 [3:04:19<32:24:08,  1.24s/it]  6%|▌         | 5605/100000 [3:04:20<31:51:29,  1.21s/it]                                                            6%|▌         | 5605/100000 [3:04:20<31:51:29,  1.21s/it]  6%|▌         | 5606/100000 [3:04:21<31:15:24,  1.19s/it]                                                            6%|▌         | 5606/100000 [3:04:21<31:15:24,  1.19s/it]  6%|▌         | 5607/100000 [3:04:22<30:26:02,  1.16s/it]                                                            6%|▌         | 5607/100000 [3:04:22<30:26:02,  1.16s/it]  6%|▌         | 5608/100000 [3:04:23<30:13:35,  1.15s/it]                                                            6%|▌         | 5608/100000 [3:04:23<30:13:35,  1.15s/it]  6%|▌         | 5609/100000 [3:04:24<29:54:46,  1.14s/it]                                                            6%|▌         | 5609/100000 [3:04:24<29:54:46,  1.14s/it]  6%|▌         | 5610/100000 [3:04:26<29:29:30,  1.12s/it]                                                            6%|▌         | 5610/100000 [3:04:26<29:29:30,  1.12s/it]  6%|▌         | 5611/100000 [3:04:27<28:58:33,  1.11s/it]                                                            6%|▌         | 5611/100000 [3:04:27<28:58:33,  1.11s/it]  6%|▌         | 5612/100000 [3:04:28<28:31:29,  1.09s/it]                                                            6%|▌         | 5612/100000 [3:04:28<28:31:29,  1.09s/it]  6%|▌         | 5613/100000 [3:04:29<27:52:35,  1.06s/it]                                                            6%|▌         | 5613/100000 [3:04:29<27:52:35,  1.06s/it]  6%|▌         | 5614/100000 [3:04:30<27:34:30,  1.05s/it]                                                            6%|▌         | 5614/100000 [3:04:30<27:34:30,  1.05s/it]  6%|▌         | 5615/100000 [3:04:31<26:56:25,  1.03s/it]                                                            6%|▌         | 5615/100000 [3:04:31<26:56:25,  1.03s/it]  6%|▌         | 5616/100000 [3:04:32<26:24:44,  1.01s/it]                                                            6%|▌         | 5616/100000 [3:04:32<26:24:44,  1.01s/it]  6%|▌         | 5617/100000 [3:04:33<25:48:55,  1.02it/s]                                                            6%|▌         | 5617/100000 [3:04:33<25:48:55,  1.02it/s]  6%|▌         | 5618/100000 [3:04:33<25:27:39,  1.03it/s]                                                            6%|▌         | 5618/100000 [3:04:33<25:27:39,  1.03it/s]  6%|▌         | 5619/100000 [3:04:34<24:45:10,  1.06it/s]                                                            6%|▌         | 5619/100000 [3:04:34<24:45:10,  1.06it/s]  6%|▌         | 5620/100000 [3:04:35<23:55:24,  1.10it/s]                                                            6%|▌         | 5620/100000 [3:04:35<23:55:24,  1.10it/s]  6%|▌         | 5621/100000 [3:04:46<103:11:06,  3.94s/it]                                                             6%|▌         | 5621/100000 [3:04:46<103:11:06,  3.94s/it]  6%|▌         | 5622/100000 [3:04:52<117:23:37,  4.48s/it]                                                             6%|▌         | 5622/100000 [3:04:52<117:23:37,  4.48s/it]  6%|▌         | 5623/100000 [3:04:57<118:51:13,  4.53s/it]                                                             6%|▌         | 5623/100000 [3:04:57<118:51:13,  4.53s/it]  6%|▌         | 5624/100000 [3:05:01<115:41:49,  4.41s/it]                                                             6%|▌         | 5624/100000 [3:05:01<115:41:49,  4.41s/it]  6%|▌         | 5625/100000 [3:05:04<109:57:19,  4.19s/it]                                                             6%|▌         | 5625/100000 [3:05:04<109:57:19,  4.19s/it]  6%|▌         | 5626/100000 [3:05:08<102:19:14,  3.90s/it]                                                             6%|▌         | 5626/100000 [3:05:08<102:19:14,  3.90s/it]  6%|▌         | 5627/100000 [3:05:11<95:48:59,  3.66s/it]                                                             6%|▌         | 5627/100000 [3:05:11<95:48:59,  3.66s/it]  6%|▌         | 5628/100000 [3:05:13<87:43:11,  3.35s/it]                                                            6%|▌         | 5628/100000 [3:05:13<87:43:11,  3.35s/it]  6%|▌         | 5629/100000 [3:05:16<81:19:59,  3.10s/it]                                                            6%|▌         | 5629/100000 [3:05:16<81:19:59,  3.10s/it]  6%|▌         | 5630/100000 [3:05:18<75:35:46,  2.88s/it]                                                            6%|▌         | 5630/100000 [3:05:18<75:35:46,  2.88s/it]  6%|▌         | 5631/100000 [3:05:20<70:24:10,  2.69s/it]                                                            6%|▌         | 5631/100000 [3:05:20<70:24:10,  2.69s/it]  6%|▌         | 5632/100000 [3:05:23<65:18:49,  2.49s/it]                                                            6%|▌         | 5632/100000 [3:05:23<65:18:49,  2.49s/it]  6%|▌         | 5633/100000 [3:05:24<60:59:29,  2.33s/it]                                                            6%|▌         | 5633/100000 [3:05:24<60:59:29,  2.33s/it]  6%|▌         | 5634/100000 [3:05:26<56:56:43,  2.17s/it]                                                            6%|▌         | 5634/100000 [3:05:26<56:56:43,  2.17s/it]  6%|▌         | 5635/100000 [3:05:28<53:41:10,  2.05s/it]                                                            6%|▌         | 5635/100000 [3:05:28<53:41:10,  2.05s/it]  6%|▌         | 5636/100000 [3:05:30<50:45:37,  1.94s/it]                                                            6%|▌         | 5636/100000 [3:05:30<50:45:37,  1.94s/it]  6%|▌         | 5637/100000 [3:05:31<48:15:55,  1.84s/it]                                                            6%|▌         | 5637/100000 [3:05:31<48:15:55,  1.84s/it]  6%|▌         | 5638/100000 [3:05:33<46:16:13,  1.77s/it]                                                            6%|▌         | 5638/100000 [3:05:33<46:16:13,  1.77s/it]  6%|▌         | 5639/100000 [3:05:34<44:36:13,  1.70s/it]                                                            6%|▌         | 5639/100000 [3:05:34<44:36:13,  1.70s/it]  6%|▌         | 5640/100000 [3:05:36<42:52:24,  1.64s/it]                                                            6%|▌         | 5640/100000 [3:05:36<42:52:24,  1.64s/it]  6%|▌         | 5641/100000 [3:05:37<41:03:04,  1.57s/it]                                                            6%|▌         | 5641/100000 [3:05:37<41:03:04,  1.57s/it]  6%|▌         | 5642/100000 [3:05:39<39:21:24,  1.50s/it]                                                            6%|▌         | 5642/100000 [3:05:39<39:21:24,  1.50s/it]  6%|▌         | 5643/100000 [3:05:40<38:34:40,  1.47s/it]                                                            6%|▌         | 5643/100000 [3:05:40<38:34:40,  1.47s/it]  6%|▌         | 5644/100000 [3:05:41<37:35:09,  1.43s/it]                                                            6%|▌         | 5644/100000 [3:05:41<37:35:09,  1.43s/it]  6%|▌         | 5645/100000 [3:05:43<36:50:14,  1.41s/it]                                                            6%|▌         | 5645/100000 [3:05:43<36:50:14,  1.41s/it]  6%|▌         | 5646/100000 [3:05:44<36:28:47,  1.39s/it]                                                            6%|▌         | 5646/100000 [3:05:44<36:28:47,  1.39s/it]  6%|▌         | 5647/100000 [3:05:45<36:00:33,  1.37s/it]                                                            6%|▌         | 5647/100000 [3:05:45<36:00:33,  1.37s/it]  6%|▌         | 5648/100000 [3:05:47<35:22:26,  1.35s/it]                                                            6%|▌         | 5648/100000 [3:05:47<35:22:26,  1.35s/it]  6%|▌         | 5649/100000 [3:05:48<35:00:11,  1.34s/it]                                                            6%|▌         | 5649/100000 [3:05:48<35:00:11,  1.34s/it]  6%|▌         | 5650/100000 [3:05:49<34:25:22,  1.31s/it]                                                            6%|▌         | 5650/100000 [3:05:49<34:25:22,  1.31s/it]  6%|▌         | 5651/100000 [3:05:51<34:01:23,  1.30s/it]                                                            6%|▌         | 5651/100000 [3:05:51<34:01:23,  1.30s/it]  6%|▌         | 5652/100000 [3:05:52<33:20:20,  1.27s/it]                                                            6%|▌         | 5652/100000 [3:05:52<33:20:20,  1.27s/it]  6%|▌         | 5653/100000 [3:05:53<33:00:59,  1.26s/it]                                                            6%|▌         | 5653/100000 [3:05:53<33:00:59,  1.26s/it]  6%|▌         | 5654/100000 [3:05:54<32:36:05,  1.24s/it]                                                            6%|▌         | 5654/100000 [3:05:54<32:36:05,  1.24s/it]  6%|▌         | 5655/100000 [3:05:55<31:49:15,  1.21s/it]                                                            6%|▌         | 5655/100000 [3:05:55<31:49:15,  1.21s/it]  6%|▌         | 5656/100000 [3:05:57<31:26:07,  1.20s/it]                                                            6%|▌         | 5656/100000 [3:05:57<31:26:07,  1.20s/it]  6%|▌         | 5657/100000 [3:05:58<30:55:25,  1.18s/it]                                                            6%|▌         | 5657/100000 [3:05:58<30:55:25,  1.18s/it]  6%|▌         | 5658/100000 [3:05:59<30:36:47,  1.17s/it]                                                            6%|▌         | 5658/100000 [3:05:59<30:36:47,  1.17s/it]  6%|▌         | 5659/100000 [3:06:00<30:08:00,  1.15s/it]                                                            6%|▌         | 5659/100000 [3:06:00<30:08:00,  1.15s/it]  6%|▌         | 5660/100000 [3:06:01<29:41:55,  1.13s/it]                                                            6%|▌         | 5660/100000 [3:06:01<29:41:55,  1.13s/it]  6%|▌         | 5661/100000 [3:06:02<29:19:16,  1.12s/it]                                                            6%|▌         | 5661/100000 [3:06:02<29:19:16,  1.12s/it]  6%|▌         | 5662/100000 [3:06:03<28:41:15,  1.09s/it]                                                            6%|▌         | 5662/100000 [3:06:03<28:41:15,  1.09s/it]  6%|▌         | 5663/100000 [3:06:04<28:17:31,  1.08s/it]                                                            6%|▌         | 5663/100000 [3:06:04<28:17:31,  1.08s/it]  6%|▌         | 5664/100000 [3:06:05<27:37:09,  1.05s/it]                                                            6%|▌         | 5664/100000 [3:06:05<27:37:09,  1.05s/it]  6%|▌         | 5665/100000 [3:06:06<27:12:13,  1.04s/it]                                                            6%|▌         | 5665/100000 [3:06:06<27:12:13,  1.04s/it]  6%|▌         | 5666/100000 [3:06:07<26:31:20,  1.01s/it]                                                            6%|▌         | 5666/100000 [3:06:07<26:31:20,  1.01s/it]  6%|▌         | 5667/100000 [3:06:08<25:54:58,  1.01it/s]                                                            6%|▌         | 5667/100000 [3:06:08<25:54:58,  1.01it/s]  6%|▌         | 5668/100000 [3:06:09<25:19:32,  1.03it/s]                                                            6%|▌         | 5668/100000 [3:06:09<25:19:32,  1.03it/s]  6%|▌         | 5669/100000 [3:06:10<24:39:30,  1.06it/s]                                                            6%|▌         | 5669/100000 [3:06:10<24:39:30,  1.06it/s]  6%|▌         | 5670/100000 [3:06:11<24:16:16,  1.08it/s]                                                            6%|▌         | 5670/100000 [3:06:11<24:16:16,  1.08it/s]  6%|▌         | 5671/100000 [3:06:23<110:39:59,  4.22s/it]                                                           {'loss': 0.0937, 'grad_norm': 0.6191331148147583, 'learning_rate': 1.6752e-05, 'epoch': 10.31}
+{'loss': 0.03, 'grad_norm': 0.3441529870033264, 'learning_rate': 1.6755e-05, 'epoch': 10.31}
+{'loss': 0.0227, 'grad_norm': 0.2752731144428253, 'learning_rate': 1.6758e-05, 'epoch': 10.31}
+{'loss': 0.0195, 'grad_norm': 0.4862821698188782, 'learning_rate': 1.6761e-05, 'epoch': 10.31}
+{'loss': 0.0218, 'grad_norm': 0.40299078822135925, 'learning_rate': 1.6764e-05, 'epoch': 10.32}
+{'loss': 0.0201, 'grad_norm': 0.4200470745563507, 'learning_rate': 1.6767e-05, 'epoch': 10.32}
+{'loss': 0.0411, 'grad_norm': 0.7158517241477966, 'learning_rate': 1.677e-05, 'epoch': 10.32}
+{'loss': 0.025, 'grad_norm': 0.8751426935195923, 'learning_rate': 1.6773e-05, 'epoch': 10.32}
+{'loss': 0.0209, 'grad_norm': 0.5317754149436951, 'learning_rate': 1.6776e-05, 'epoch': 10.32}
+{'loss': 0.0179, 'grad_norm': 0.4970802664756775, 'learning_rate': 1.6779e-05, 'epoch': 10.33}
+{'loss': 0.0358, 'grad_norm': 0.6410852670669556, 'learning_rate': 1.6782e-05, 'epoch': 10.33}
+{'loss': 0.0274, 'grad_norm': 0.6019672155380249, 'learning_rate': 1.6785e-05, 'epoch': 10.33}
+{'loss': 0.0514, 'grad_norm': 0.484224796295166, 'learning_rate': 1.6788e-05, 'epoch': 10.33}
+{'loss': 0.019, 'grad_norm': 0.7805466055870056, 'learning_rate': 1.6791e-05, 'epoch': 10.33}
+{'loss': 0.0247, 'grad_norm': 0.4458668529987335, 'learning_rate': 1.6794e-05, 'epoch': 10.33}
+{'loss': 0.0279, 'grad_norm': 0.7102533578872681, 'learning_rate': 1.6797e-05, 'epoch': 10.34}
+{'loss': 0.0196, 'grad_norm': 0.5157403349876404, 'learning_rate': 1.6800000000000002e-05, 'epoch': 10.34}
+{'loss': 0.0266, 'grad_norm': 0.41661450266838074, 'learning_rate': 1.6803e-05, 'epoch': 10.34}
+{'loss': 0.0152, 'grad_norm': 0.47312384843826294, 'learning_rate': 1.6806e-05, 'epoch': 10.34}
+{'loss': 0.0176, 'grad_norm': 0.9088107943534851, 'learning_rate': 1.6809e-05, 'epoch': 10.34}
+{'loss': 0.0283, 'grad_norm': 0.7505862712860107, 'learning_rate': 1.6812e-05, 'epoch': 10.35}
+{'loss': 0.0221, 'grad_norm': 0.49464118480682373, 'learning_rate': 1.6815e-05, 'epoch': 10.35}
+{'loss': 0.0328, 'grad_norm': 0.7184174656867981, 'learning_rate': 1.6818e-05, 'epoch': 10.35}
+{'loss': 0.0281, 'grad_norm': 0.5819430947303772, 'learning_rate': 1.6821e-05, 'epoch': 10.35}
+{'loss': 0.0223, 'grad_norm': 0.4279172718524933, 'learning_rate': 1.6824e-05, 'epoch': 10.35}
+{'loss': 0.0269, 'grad_norm': 0.764571487903595, 'learning_rate': 1.6827e-05, 'epoch': 10.35}
+{'loss': 0.0284, 'grad_norm': 0.6644816398620605, 'learning_rate': 1.6830000000000003e-05, 'epoch': 10.36}
+{'loss': 0.0405, 'grad_norm': 0.5781840085983276, 'learning_rate': 1.6833000000000003e-05, 'epoch': 10.36}
+{'loss': 0.0254, 'grad_norm': 0.5660284161567688, 'learning_rate': 1.6836000000000003e-05, 'epoch': 10.36}
+{'loss': 0.0246, 'grad_norm': 0.47080352902412415, 'learning_rate': 1.6839000000000003e-05, 'epoch': 10.36}
+{'loss': 0.0368, 'grad_norm': 0.5529908537864685, 'learning_rate': 1.6842000000000002e-05, 'epoch': 10.36}
+{'loss': 0.0129, 'grad_norm': 0.3346571624279022, 'learning_rate': 1.6845e-05, 'epoch': 10.37}
+{'loss': 0.0431, 'grad_norm': 0.9121596813201904, 'learning_rate': 1.6848e-05, 'epoch': 10.37}
+{'loss': 0.0424, 'grad_norm': 0.632863461971283, 'learning_rate': 1.6851e-05, 'epoch': 10.37}
+{'loss': 0.2963, 'grad_norm': 1.32807457447052, 'learning_rate': 1.6853999999999998e-05, 'epoch': 10.37}
+{'loss': 0.2261, 'grad_norm': 0.9964393973350525, 'learning_rate': 1.6856999999999998e-05, 'epoch': 10.37}
+{'loss': 0.2349, 'grad_norm': 1.0543564558029175, 'learning_rate': 1.686e-05, 'epoch': 10.37}
+{'loss': 0.2302, 'grad_norm': 0.904670000076294, 'learning_rate': 1.6863e-05, 'epoch': 10.38}
+{'loss': 0.2143, 'grad_norm': 2.453029155731201, 'learning_rate': 1.6866e-05, 'epoch': 10.38}
+{'loss': 0.1311, 'grad_norm': 0.6642909646034241, 'learning_rate': 1.6869e-05, 'epoch': 10.38}
+{'loss': 0.1325, 'grad_norm': 0.669899582862854, 'learning_rate': 1.6872e-05, 'epoch': 10.38}
+{'loss': 0.1419, 'grad_norm': 0.9939351677894592, 'learning_rate': 1.6875e-05, 'epoch': 10.38}
+{'loss': 0.0871, 'grad_norm': 0.9026162624359131, 'learning_rate': 1.6878e-05, 'epoch': 10.39}
+{'loss': 0.0975, 'grad_norm': 0.716627299785614, 'learning_rate': 1.6881e-05, 'epoch': 10.39}
+{'loss': 0.0757, 'grad_norm': 0.48917216062545776, 'learning_rate': 1.6884e-05, 'epoch': 10.39}
+{'loss': 0.1063, 'grad_norm': 0.6990576982498169, 'learning_rate': 1.6887e-05, 'epoch': 10.39}
+{'loss': 0.0446, 'grad_norm': 0.3678179681301117, 'learning_rate': 1.689e-05, 'epoch': 10.39}
+{'loss': 0.0445, 'grad_norm': 0.44908279180526733, 'learning_rate': 1.6893000000000002e-05, 'epoch': 10.4}
+{'loss': 0.0554, 'grad_norm': 0.5445517897605896, 'learning_rate': 1.6896000000000002e-05, 'epoch': 10.4}
+{'loss': 0.0216, 'grad_norm': 0.5841280817985535, 'learning_rate': 1.6899000000000002e-05, 'epoch': 10.4}
+{'loss': 0.0285, 'grad_norm': 0.38346558809280396, 'learning_rate': 1.6902000000000002e-05, 'epoch': 10.4}
+{'loss': 0.0246, 'grad_norm': 0.5853798389434814, 'learning_rate': 1.6905e-05, 'epoch': 10.4}
+{'loss': 0.0289, 'grad_norm': 0.5012631416320801, 'learning_rate': 1.6908e-05, 'epoch': 10.4}
+{'loss': 0.0317, 'grad_norm': 0.5409550666809082, 'learning_rate': 1.6911e-05, 'epoch': 10.41}
+{'loss': 0.0208, 'grad_norm': 0.390082448720932, 'learning_rate': 1.6914e-05, 'epoch': 10.41}
+{'loss': 0.0282, 'grad_norm': 0.6462604999542236, 'learning_rate': 1.6916999999999997e-05, 'epoch': 10.41}
+{'loss': 0.0282, 'grad_norm': 0.5268653631210327, 'learning_rate': 1.6919999999999997e-05, 'epoch': 10.41}
+{'loss': 0.0189, 'grad_norm': 0.41686591506004333, 'learning_rate': 1.6923e-05, 'epoch': 10.41}
+{'loss': 0.0317, 'grad_norm': 0.4445785582065582, 'learning_rate': 1.6926e-05, 'epoch': 10.42}
+{'loss': 0.0307, 'grad_norm': 1.0424392223358154, 'learning_rate': 1.6929e-05, 'epoch': 10.42}
+{'loss': 0.0336, 'grad_norm': 0.38552019000053406, 'learning_rate': 1.6932e-05, 'epoch': 10.42}
+{'loss': 0.0234, 'grad_norm': 0.5564932823181152, 'learning_rate': 1.6935e-05, 'epoch': 10.42}
+{'loss': 0.0286, 'grad_norm': 0.45230332016944885, 'learning_rate': 1.6938e-05, 'epoch': 10.42}
+{'loss': 0.035, 'grad_norm': 0.5506929755210876, 'learning_rate': 1.6941e-05, 'epoch': 10.42}
+{'loss': 0.0451, 'grad_norm': 0.39401277899742126, 'learning_rate': 1.6944e-05, 'epoch': 10.43}
+{'loss': 0.0223, 'grad_norm': 0.4682321846485138, 'learning_rate': 1.6947e-05, 'epoch': 10.43}
+{'loss': 0.0194, 'grad_norm': 0.4107759892940521, 'learning_rate': 1.695e-05, 'epoch': 10.43}
+{'loss': 0.0196, 'grad_norm': 0.38645249605178833, 'learning_rate': 1.6953000000000002e-05, 'epoch': 10.43}
+{'loss': 0.0163, 'grad_norm': 0.48322468996047974, 'learning_rate': 1.6956e-05, 'epoch': 10.43}
+{'loss': 0.0313, 'grad_norm': 0.5782933235168457, 'learning_rate': 1.6959e-05, 'epoch': 10.44}
+{'loss': 0.04, 'grad_norm': 0.5378473997116089, 'learning_rate': 1.6962e-05, 'epoch': 10.44}
+{'loss': 0.0222, 'grad_norm': 0.4453236162662506, 'learning_rate': 1.6965e-05, 'epoch': 10.44}
+{'loss': 0.0322, 'grad_norm': 0.6218374967575073, 'learning_rate': 1.6968e-05, 'epoch': 10.44}
+{'loss': 0.0274, 'grad_norm': 0.6248608231544495, 'learning_rate': 1.6971e-05, 'epoch': 10.44}
+{'loss': 0.0258, 'grad_norm': 0.4168800413608551, 'learning_rate': 1.6974e-05, 'epoch': 10.45}
+{'loss': 0.0237, 'grad_norm': 0.3333655297756195, 'learning_rate': 1.6977e-05, 'epoch': 10.45}
+{'loss': 0.0163, 'grad_norm': 0.28354814648628235, 'learning_rate': 1.698e-05, 'epoch': 10.45}
+{'loss': 0.033, 'grad_norm': 0.5972402095794678, 'learning_rate': 1.6983000000000003e-05, 'epoch': 10.45}
+{'loss': 0.0125, 'grad_norm': 0.3524409830570221, 'learning_rate': 1.6986000000000003e-05, 'epoch': 10.45}
+{'loss': 0.0194, 'grad_norm': 0.46399515867233276, 'learning_rate': 1.6989000000000003e-05, 'epoch': 10.45}
+{'loss': 0.0223, 'grad_norm': 0.5713216066360474, 'learning_rate': 1.6992e-05, 'epoch': 10.46}
+{'loss': 0.018, 'grad_norm': 0.5732083916664124, 'learning_rate': 1.6995e-05, 'epoch': 10.46}
+{'loss': 0.0243, 'grad_norm': 0.5675196647644043, 'learning_rate': 1.6998e-05, 'epoch': 10.46}
+{'loss': 0.0647, 'grad_norm': 0.6661143898963928, 'learning_rate': 1.7001e-05, 'epoch': 10.46}
+  6%|▌         | 5671/100000 [3:06:23<110:39:59,  4.22s/it]  6%|▌         | 5672/100000 [3:06:28<122:19:22,  4.67s/it]                                                             6%|▌         | 5672/100000 [3:06:28<122:19:22,  4.67s/it]  6%|▌         | 5673/100000 [3:06:33<122:57:21,  4.69s/it]                                                             6%|▌         | 5673/100000 [3:06:33<122:57:21,  4.69s/it]  6%|▌         | 5674/100000 [3:06:37<116:37:05,  4.45s/it]                                                             6%|▌         | 5674/100000 [3:06:37<116:37:05,  4.45s/it]  6%|▌         | 5675/100000 [3:06:41<111:43:59,  4.26s/it]                                                             6%|▌         | 5675/100000 [3:06:41<111:43:59,  4.26s/it]  6%|▌         | 5676/100000 [3:06:44<105:17:53,  4.02s/it]                                                             6%|▌         | 5676/100000 [3:06:44<105:17:53,  4.02s/it]  6%|▌         | 5677/100000 [3:06:47<98:16:04,  3.75s/it]                                                             6%|▌         | 5677/100000 [3:06:47<98:16:04,  3.75s/it]  6%|▌         | 5678/100000 [3:06:50<91:25:06,  3.49s/it]                                                            6%|▌         | 5678/100000 [3:06:50<91:25:06,  3.49s/it]  6%|▌         | 5679/100000 [3:06:53<84:30:05,  3.23s/it]                                                            6%|▌         | 5679/100000 [3:06:53<84:30:05,  3.23s/it]  6%|▌         | 5680/100000 [3:06:55<78:28:05,  2.99s/it]                                                            6%|▌         | 5680/100000 [3:06:55<78:28:05,  2.99s/it]  6%|▌         | 5681/100000 [3:06:58<73:10:34,  2.79s/it]                                                            6%|▌         | 5681/100000 [3:06:58<73:10:34,  2.79s/it]  6%|▌         | 5682/100000 [3:07:00<68:00:43,  2.60s/it]                                                            6%|▌         | 5682/100000 [3:07:00<68:00:43,  2.60s/it]  6%|▌         | 5683/100000 [3:07:02<63:25:21,  2.42s/it]                                                            6%|▌         | 5683/100000 [3:07:02<63:25:21,  2.42s/it]  6%|▌         | 5684/100000 [3:07:04<59:27:02,  2.27s/it]                                                            6%|▌         | 5684/100000 [3:07:04<59:27:02,  2.27s/it]  6%|▌         | 5685/100000 [3:07:06<55:55:07,  2.13s/it]                                                            6%|▌         | 5685/100000 [3:07:06<55:55:07,  2.13s/it]  6%|▌         | 5686/100000 [3:07:07<52:42:49,  2.01s/it]                                                            6%|▌         | 5686/100000 [3:07:07<52:42:49,  2.01s/it]  6%|▌         | 5687/100000 [3:07:09<49:56:32,  1.91s/it]                                                            6%|▌         | 5687/100000 [3:07:09<49:56:32,  1.91s/it]  6%|▌         | 5688/100000 [3:07:11<47:27:37,  1.81s/it]                                                            6%|▌         | 5688/100000 [3:07:11<47:27:37,  1.81s/it]  6%|▌         | 5689/100000 [3:07:12<44:57:56,  1.72s/it]                                                            6%|▌         | 5689/100000 [3:07:12<44:57:56,  1.72s/it]  6%|▌         | 5690/100000 [3:07:14<42:47:21,  1.63s/it]                                                            6%|▌         | 5690/100000 [3:07:14<42:47:21,  1.63s/it]  6%|▌         | 5691/100000 [3:07:15<41:04:51,  1.57s/it]                                                            6%|▌         | 5691/100000 [3:07:15<41:04:51,  1.57s/it]  6%|▌         | 5692/100000 [3:07:16<39:29:23,  1.51s/it]                                                            6%|▌         | 5692/100000 [3:07:16<39:29:23,  1.51s/it]  6%|▌         | 5693/100000 [3:07:18<38:30:59,  1.47s/it]                                                            6%|▌         | 5693/100000 [3:07:18<38:30:59,  1.47s/it]  6%|▌         | 5694/100000 [3:07:19<37:19:52,  1.43s/it]                                                            6%|▌         | 5694/100000 [3:07:19<37:19:52,  1.43s/it]  6%|▌         | 5695/100000 [3:07:20<36:51:44,  1.41s/it]                                                            6%|▌         | 5695/100000 [3:07:20<36:51:44,  1.41s/it]  6%|▌         | 5696/100000 [3:07:22<36:11:18,  1.38s/it]                                                            6%|▌         | 5696/100000 [3:07:22<36:11:18,  1.38s/it]  6%|▌         | 5697/100000 [3:07:23<35:47:52,  1.37s/it]                                                            6%|▌         | 5697/100000 [3:07:23<35:47:52,  1.37s/it]  6%|▌         | 5698/100000 [3:07:24<35:04:01,  1.34s/it]                                                            6%|▌         | 5698/100000 [3:07:24<35:04:01,  1.34s/it]  6%|▌         | 5699/100000 [3:07:26<34:39:31,  1.32s/it]                                                            6%|▌         | 5699/100000 [3:07:26<34:39:31,  1.32s/it]  6%|▌         | 5700/100000 [3:07:27<34:04:27,  1.30s/it]                                                            6%|▌         | 5700/100000 [3:07:27<34:04:27,  1.30s/it]  6%|▌         | 5701/100000 [3:07:28<33:37:38,  1.28s/it]                                                            6%|▌         | 5701/100000 [3:07:28<33:37:38,  1.28s/it]  6%|▌         | 5702/100000 [3:07:29<32:57:10,  1.26s/it]                                                            6%|▌         | 5702/100000 [3:07:29<32:57:10,  1.26s/it]  6%|▌         | 5703/100000 [3:07:30<32:45:29,  1.25s/it]                                                            6%|▌         | 5703/100000 [3:07:30<32:45:29,  1.25s/it]  6%|▌         | 5704/100000 [3:07:32<32:26:29,  1.24s/it]                                                            6%|▌         | 5704/100000 [3:07:32<32:26:29,  1.24s/it]  6%|▌         | 5705/100000 [3:07:33<31:41:22,  1.21s/it]                                                            6%|▌         | 5705/100000 [3:07:33<31:41:22,  1.21s/it]  6%|▌         | 5706/100000 [3:07:34<31:15:28,  1.19s/it]                                                            6%|▌         | 5706/100000 [3:07:34<31:15:28,  1.19s/it]  6%|▌         | 5707/100000 [3:07:35<30:59:47,  1.18s/it]                                                            6%|▌         | 5707/100000 [3:07:35<30:59:47,  1.18s/it]  6%|▌         | 5708/100000 [3:07:36<30:33:45,  1.17s/it]                                                            6%|▌         | 5708/100000 [3:07:36<30:33:45,  1.17s/it]  6%|▌         | 5709/100000 [3:07:37<29:59:41,  1.15s/it]                                                            6%|▌         | 5709/100000 [3:07:37<29:59:41,  1.15s/it]  6%|▌         | 5710/100000 [3:07:38<29:39:55,  1.13s/it]                                                            6%|▌         | 5710/100000 [3:07:38<29:39:55,  1.13s/it]  6%|▌         | 5711/100000 [3:07:40<29:23:09,  1.12s/it]                                                            6%|▌         | 5711/100000 [3:07:40<29:23:09,  1.12s/it]  6%|▌         | 5712/100000 [3:07:41<29:02:08,  1.11s/it]                                                            6%|▌         | 5712/100000 [3:07:41<29:02:08,  1.11s/it]  6%|▌         | 5713/100000 [3:07:42<28:39:32,  1.09s/it]                                                            6%|▌         | 5713/100000 [3:07:42<28:39:32,  1.09s/it]  6%|▌         | 5714/100000 [3:07:43<28:14:07,  1.08s/it]                                                            6%|▌         | 5714/100000 [3:07:43<28:14:07,  1.08s/it]  6%|▌         | 5715/100000 [3:07:44<27:44:04,  1.06s/it]                                                            6%|▌         | 5715/100000 [3:07:44<27:44:04,  1.06s/it]  6%|▌         | 5716/100000 [3:07:45<27:09:51,  1.04s/it]                                                            6%|▌         | 5716/100000 [3:07:45<27:09:51,  1.04s/it]  6%|▌         | 5717/100000 [3:07:46<26:36:33,  1.02s/it]                                                            6%|▌         | 5717/100000 [3:07:46<26:36:33,  1.02s/it]  6%|▌         | 5718/100000 [3:07:47<26:18:41,  1.00s/it]                                                            6%|▌         | 5718/100000 [3:07:47<26:18:41,  1.00s/it]  6%|▌         | 5719/100000 [3:07:48<25:44:10,  1.02it/s]                                                            6%|▌         | 5719/100000 [3:07:48<25:44:10,  1.02it/s]  6%|▌         | 5720/100000 [3:07:49<25:08:44,  1.04it/s]                                                            6%|▌         | 5720/100000 [3:07:49<25:08:44,  1.04it/s]  6%|▌         | 5721/100000 [3:08:00<110:42:40,  4.23s/it]                                                             6%|▌         | 5721/100000 [3:08:00<110:42:40,  4.23s/it]  6%|▌         | 5722/100000 [3:08:06<125:01:48,  4.77s/it]                                                             6%|▌         | 5722/100000 [3:08:06<125:01:48,  4.77s/it]  6%|▌         | 5723/100000 [3:08:11<125:53:22,  4.81s/it]                                                             6%|▌         | 5723/100000 [3:08:11<125:53:22,  4.81s/it]  6%|▌         | 5724/100000 [3:08:15<120:40:19,  4.61s/it]                                                             6%|▌         | 5724/100000 [3:08:15<120:40:19,  4.61s/it]  6%|▌         | 5725/100000 [3:08:19<113:27:11,  4.33s/it]                                                             6%|▌         | 5725/100000 [3:08:19<113:27:11,  4.33s/it]  6%|▌         | 5726/100000 [3:08:22<105:20:34,  4.02s/it]                                                             6%|▌         | 5726/100000 [3:08:22<105:20:34,  4.02s/it]  6%|▌         | 5727/100000 [3:08:26<97:37:35,  3.73s/it]                                                             6%|▌         | 5727/100000 [3:08:26<97:37:35,  3.73s/it]  6%|▌         | 5728/100000 [3:08:28<90:19:24,  3.45s/it]                                                            6%|▌         | 5728/100000 [3:08:28<90:19:24,  3.45s/it]  6%|▌         | 5729/100000 [3:08:31<83:24:35,  3.19s/it]                                                            6%|▌         | 5729/100000 [3:08:31<83:24:35,  3.19s/it]  6%|▌         | 5730/100000 [3:08:33<76:37:58,  2.93s/it]                                                            6%|▌         | 5730/100000 [3:08:33<76:37:58,  2.93s/it]  6%|▌         | 5731/100000 [3:08:35<71:03:43,  2.71s/it]                                                            6%|▌         | 5731/100000 [3:08:35<71:03:43,  2.71s/it]  6%|▌         | 5732/100000 [3:08:38<66:14:36,  2.53s/it]                                                            6%|▌         | 5732/100000 [3:08:38<66:14:36,  2.53s/it]  6%|▌         | 5733/100000 [3:08:39<61:43:30,  2.36s/it]                                                            6%|▌         | 5733/100000 [3:08:39<61:43:30,  2.36s/it]  6%|▌         | 5734/100000 [3:08:41<57:41:00,  2.20s/it]                                                            6%|▌         | 5734/100000 [3:08:41<57:41:00,  2.20s/it]  6%|▌         | 5735/100000 [3:08:43<54:04:38,  2.07s/it]                                                            6%|▌         | 5735/100000 [3:08:43<54:04:38,  2.07s/it]  6%|▌         | 5736/100000 [3:08:45<51:03:09,  1.95s/it]                                                            6%|▌         | 5736/100000 [3:08:45<51:03:09,  1.95s/it]  6%|▌         | 5737/100000 [3:08:46<48:32:27,  1.85s/it]                                                            6%|▌         | 5737/100000 [3:08:46<48:32:27,  1.85s/it]  6%|▌         | 5738/100000 [3:08:48<46:28:45,  1.78s/it]                                                            6%|▌         | 5738/100000 [3:08:48<46:28:45,  1.78s/it]  6%|▌         | 5739/100000 [3:08:49<44:35:40,  1.70s/it]                                                            6%|▌         | 5739/100000 [3:08:49<44:35:40,  1.70s/it]  6%|▌         | 5740/100000 [3:08:51<42:51:23,  1.64s/it]                                                            6%|▌         | 5740/100000 [3:08:51<42:51:23,  1.64s/it]  6%|▌         | 5741/100000 [3:08:52<41:24:19,  1.58s/it]                                                            6%|▌         | 5741/100000 [3:08:52<41:24:19,  1.58s/it]  6%|▌         | 5742/100000 [3:08:54<40:11:43,  1.54s/it]                                                            6%|▌         | 5742/100000 [3:08:54<40:11:43,  1.54s/it]  6%|▌         | 5743/100000 [3:08:55<39:11:16,  1.50s/it]                                                            6%|▌         | 5743/100000 [3:08:55<39:11:16,  1.50s/it]  6%|▌         | 5744/100000 [3:08:57<38:17:22,  1.46s/it]                                                            6%|▌         | 5744/100000 [3:08:57<38:17:22,  1.46s/it]  6%|▌         | 5745/100000 [3:08:58<37:13:00,  1.42s/it]                                                            6%|▌         | 5745/100000 [3:08:58<37:13:00,  1.42s/it]  6%|▌         | 5746/100000 [3:08:59<36:36:07,  1.40s/it]                                                            6%|▌         | 5746/100000 [3:08:59<36:36:07,  1.40s/it]  6%|▌         | 5747/100000 [3:09:01<35:43:19,  1.36s/it]                                                            6%|▌         | 5747/100000 [3:09:01<35:43:19,  1.36s/it]  6%|▌         | 5748/100000 [3:09:02<35:10:56,  1.34s/it]                                                            6%|▌         | 5748/100000 [3:09:02<35:10:56,  1.34s/it]  6%|▌         | 5749/100000 [3:09:03<34:28:49,  1.32s/it]                                                            6%|▌         | 5749/100000 [3:09:03<34:28:49,  1.32s/it]  6%|▌         | 5750/100000 [3:09:04<34:08:52,  1.30s/it]                                                            6%|▌         | 5750/100000 [3:09:04<34:08:52,  1.30s/it]  6%|▌         | 5751/100000 [3:09:06<33:41:49,  1.29s/it]                                                            6%|▌         | 5751/100000 [3:09:06<33:41:49,  1.29s/it]  6%|▌         | 5752/100000 [3:09:07<33:14:48,  1.27s/it]                                                            6%|▌         | 5752/100000 [3:09:07<33:14:48,  1.27s/it]  6%|▌         | 5753/100000 [3:09:08<32:46:22,  1.25s/it]                                                            6%|▌         | 5753/100000 [3:09:08<32:46:22,  1.25s/it]  6%|▌         | 5754/100000 [3:09:09<32:15:46,  1.23s/it]                                                          {'loss': 0.2418, 'grad_norm': 0.9836185574531555, 'learning_rate': 1.7004e-05, 'epoch': 10.46}
+{'loss': 0.2224, 'grad_norm': 0.9940314888954163, 'learning_rate': 1.7006999999999998e-05, 'epoch': 10.47}
+{'loss': 0.2137, 'grad_norm': 0.9100486636161804, 'learning_rate': 1.7009999999999998e-05, 'epoch': 10.47}
+{'loss': 0.1624, 'grad_norm': 0.7420975565910339, 'learning_rate': 1.7013e-05, 'epoch': 10.47}
+{'loss': 0.1962, 'grad_norm': 0.7102513909339905, 'learning_rate': 1.7016e-05, 'epoch': 10.47}
+{'loss': 0.1239, 'grad_norm': 0.7101590633392334, 'learning_rate': 1.7019e-05, 'epoch': 10.47}
+{'loss': 0.1271, 'grad_norm': 0.8599352240562439, 'learning_rate': 1.7022e-05, 'epoch': 10.47}
+{'loss': 0.1764, 'grad_norm': 0.9525429010391235, 'learning_rate': 1.7025e-05, 'epoch': 10.48}
+{'loss': 0.0883, 'grad_norm': 0.6291274428367615, 'learning_rate': 1.7028e-05, 'epoch': 10.48}
+{'loss': 0.1492, 'grad_norm': 1.0020326375961304, 'learning_rate': 1.7031e-05, 'epoch': 10.48}
+{'loss': 0.1428, 'grad_norm': 0.7298393249511719, 'learning_rate': 1.7034e-05, 'epoch': 10.48}
+{'loss': 0.1012, 'grad_norm': 0.6903399229049683, 'learning_rate': 1.7037e-05, 'epoch': 10.48}
+{'loss': 0.0598, 'grad_norm': 0.5499876141548157, 'learning_rate': 1.704e-05, 'epoch': 10.49}
+{'loss': 0.1237, 'grad_norm': 0.886182963848114, 'learning_rate': 1.7043000000000003e-05, 'epoch': 10.49}
+{'loss': 0.088, 'grad_norm': 0.6885615587234497, 'learning_rate': 1.7046000000000002e-05, 'epoch': 10.49}
+{'loss': 0.0481, 'grad_norm': 0.5300734639167786, 'learning_rate': 1.7049000000000002e-05, 'epoch': 10.49}
+{'loss': 0.0389, 'grad_norm': 0.6662781834602356, 'learning_rate': 1.7052000000000002e-05, 'epoch': 10.49}
+{'loss': 0.0163, 'grad_norm': 0.5047277808189392, 'learning_rate': 1.7055000000000002e-05, 'epoch': 10.49}
+{'loss': 0.04, 'grad_norm': 0.5463379621505737, 'learning_rate': 1.7058e-05, 'epoch': 10.5}
+{'loss': 0.0391, 'grad_norm': 0.5748884677886963, 'learning_rate': 1.7061e-05, 'epoch': 10.5}
+{'loss': 0.0291, 'grad_norm': 0.5658259987831116, 'learning_rate': 1.7064e-05, 'epoch': 10.5}
+{'loss': 0.0276, 'grad_norm': 0.36395278573036194, 'learning_rate': 1.7066999999999998e-05, 'epoch': 10.5}
+{'loss': 0.0344, 'grad_norm': 0.5200968980789185, 'learning_rate': 1.7069999999999998e-05, 'epoch': 10.5}
+{'loss': 0.0196, 'grad_norm': 0.41553211212158203, 'learning_rate': 1.7073e-05, 'epoch': 10.51}
+{'loss': 0.0177, 'grad_norm': 0.5262542366981506, 'learning_rate': 1.7076e-05, 'epoch': 10.51}
+{'loss': 0.025, 'grad_norm': 0.4412112832069397, 'learning_rate': 1.7079e-05, 'epoch': 10.51}
+{'loss': 0.0235, 'grad_norm': 0.37101516127586365, 'learning_rate': 1.7082e-05, 'epoch': 10.51}
+{'loss': 0.023, 'grad_norm': 0.401090145111084, 'learning_rate': 1.7085e-05, 'epoch': 10.51}
+{'loss': 0.0154, 'grad_norm': 0.46183472871780396, 'learning_rate': 1.7088e-05, 'epoch': 10.52}
+{'loss': 0.0305, 'grad_norm': 0.45999205112457275, 'learning_rate': 1.7091e-05, 'epoch': 10.52}
+{'loss': 0.0275, 'grad_norm': 0.444741815328598, 'learning_rate': 1.7094e-05, 'epoch': 10.52}
+{'loss': 0.0363, 'grad_norm': 0.4720512926578522, 'learning_rate': 1.7097e-05, 'epoch': 10.52}
+{'loss': 0.0308, 'grad_norm': 0.4139270782470703, 'learning_rate': 1.71e-05, 'epoch': 10.52}
+{'loss': 0.0192, 'grad_norm': 0.404547780752182, 'learning_rate': 1.7103000000000002e-05, 'epoch': 10.52}
+{'loss': 0.0198, 'grad_norm': 0.3558710813522339, 'learning_rate': 1.7106000000000002e-05, 'epoch': 10.53}
+{'loss': 0.0144, 'grad_norm': 0.8504428863525391, 'learning_rate': 1.7109000000000002e-05, 'epoch': 10.53}
+{'loss': 0.0244, 'grad_norm': 0.5197940468788147, 'learning_rate': 1.7112e-05, 'epoch': 10.53}
+{'loss': 0.0306, 'grad_norm': 0.5138944983482361, 'learning_rate': 1.7115e-05, 'epoch': 10.53}
+{'loss': 0.0253, 'grad_norm': 0.530799925327301, 'learning_rate': 1.7118e-05, 'epoch': 10.53}
+{'loss': 0.0442, 'grad_norm': 0.751099705696106, 'learning_rate': 1.7121e-05, 'epoch': 10.54}
+{'loss': 0.0351, 'grad_norm': 0.4729883670806885, 'learning_rate': 1.7124e-05, 'epoch': 10.54}
+{'loss': 0.013, 'grad_norm': 0.3551481068134308, 'learning_rate': 1.7127e-05, 'epoch': 10.54}
+{'loss': 0.0188, 'grad_norm': 0.38660553097724915, 'learning_rate': 1.713e-05, 'epoch': 10.54}
+{'loss': 0.0166, 'grad_norm': 0.3219395577907562, 'learning_rate': 1.7133000000000004e-05, 'epoch': 10.54}
+{'loss': 0.0287, 'grad_norm': 0.4016413688659668, 'learning_rate': 1.7136000000000003e-05, 'epoch': 10.54}
+{'loss': 0.0269, 'grad_norm': 0.5673303008079529, 'learning_rate': 1.7139e-05, 'epoch': 10.55}
+{'loss': 0.0156, 'grad_norm': 0.6439066529273987, 'learning_rate': 1.7142e-05, 'epoch': 10.55}
+{'loss': 0.0264, 'grad_norm': 0.7035136818885803, 'learning_rate': 1.7145e-05, 'epoch': 10.55}
+{'loss': 0.0269, 'grad_norm': 0.5405717492103577, 'learning_rate': 1.7148e-05, 'epoch': 10.55}
+{'loss': 0.0369, 'grad_norm': 0.7340378761291504, 'learning_rate': 1.7151e-05, 'epoch': 10.55}
+{'loss': 0.2132, 'grad_norm': 0.8675962686538696, 'learning_rate': 1.7154e-05, 'epoch': 10.56}
+{'loss': 0.2311, 'grad_norm': 0.6791530847549438, 'learning_rate': 1.7157e-05, 'epoch': 10.56}
+{'loss': 0.1708, 'grad_norm': 0.6052650213241577, 'learning_rate': 1.716e-05, 'epoch': 10.56}
+{'loss': 0.1836, 'grad_norm': 0.9645447134971619, 'learning_rate': 1.7163e-05, 'epoch': 10.56}
+{'loss': 0.1674, 'grad_norm': 1.0505342483520508, 'learning_rate': 1.7166e-05, 'epoch': 10.56}
+{'loss': 0.1579, 'grad_norm': 0.829861581325531, 'learning_rate': 1.7169e-05, 'epoch': 10.57}
+{'loss': 0.1572, 'grad_norm': 0.6052542328834534, 'learning_rate': 1.7172e-05, 'epoch': 10.57}
+{'loss': 0.1262, 'grad_norm': 0.6950606107711792, 'learning_rate': 1.7175e-05, 'epoch': 10.57}
+{'loss': 0.1287, 'grad_norm': 1.024465799331665, 'learning_rate': 1.7178e-05, 'epoch': 10.57}
+{'loss': 0.0765, 'grad_norm': 0.4541202485561371, 'learning_rate': 1.7181e-05, 'epoch': 10.57}
+{'loss': 0.0876, 'grad_norm': 0.7202557325363159, 'learning_rate': 1.7184e-05, 'epoch': 10.57}
+{'loss': 0.1163, 'grad_norm': 0.8201732635498047, 'learning_rate': 1.7187e-05, 'epoch': 10.58}
+{'loss': 0.0757, 'grad_norm': 1.2063844203948975, 'learning_rate': 1.719e-05, 'epoch': 10.58}
+{'loss': 0.0441, 'grad_norm': 0.510230541229248, 'learning_rate': 1.7193000000000003e-05, 'epoch': 10.58}
+{'loss': 0.1082, 'grad_norm': 0.6762166619300842, 'learning_rate': 1.7196000000000003e-05, 'epoch': 10.58}
+{'loss': 0.0368, 'grad_norm': 0.4172094762325287, 'learning_rate': 1.7199000000000003e-05, 'epoch': 10.58}
+{'loss': 0.0304, 'grad_norm': 0.3209916949272156, 'learning_rate': 1.7202000000000002e-05, 'epoch': 10.59}
+{'loss': 0.0551, 'grad_norm': 0.4255470335483551, 'learning_rate': 1.7205000000000002e-05, 'epoch': 10.59}
+{'loss': 0.0178, 'grad_norm': 0.3540935814380646, 'learning_rate': 1.7208000000000002e-05, 'epoch': 10.59}
+{'loss': 0.0627, 'grad_norm': 0.44914117455482483, 'learning_rate': 1.7211000000000002e-05, 'epoch': 10.59}
+{'loss': 0.0196, 'grad_norm': 0.4884379208087921, 'learning_rate': 1.7213999999999998e-05, 'epoch': 10.59}
+{'loss': 0.0188, 'grad_norm': 0.2642185091972351, 'learning_rate': 1.7216999999999998e-05, 'epoch': 10.59}
+{'loss': 0.0245, 'grad_norm': 0.42987197637557983, 'learning_rate': 1.7219999999999998e-05, 'epoch': 10.6}
+{'loss': 0.0217, 'grad_norm': 0.3514634966850281, 'learning_rate': 1.7223e-05, 'epoch': 10.6}
+{'loss': 0.01, 'grad_norm': 0.24382612109184265, 'learning_rate': 1.7226e-05, 'epoch': 10.6}
+{'loss': 0.0287, 'grad_norm': 0.6637547016143799, 'learning_rate': 1.7229e-05, 'epoch': 10.6}
+{'loss': 0.0218, 'grad_norm': 0.6304849982261658, 'learning_rate': 1.7232e-05, 'epoch': 10.6}
+{'loss': 0.0198, 'grad_norm': 0.5097060203552246, 'learning_rate': 1.7235e-05, 'epoch': 10.61}
+{'loss': 0.0127, 'grad_norm': 0.3933012783527374, 'learning_rate': 1.7238e-05, 'epoch': 10.61}
+{'loss': 0.0583, 'grad_norm': 0.3572508692741394, 'learning_rate': 1.7241e-05, 'epoch': 10.61}
+{'loss': 0.0528, 'grad_norm': 0.5863717198371887, 'learning_rate': 1.7244e-05, 'epoch': 10.61}
+{'loss': 0.0233, 'grad_norm': 0.44540056586265564, 'learning_rate': 1.7247e-05, 'epoch': 10.61}
+{'loss': 0.0226, 'grad_norm': 0.4500695765018463, 'learning_rate': 1.725e-05, 'epoch': 10.61}
+  6%|▌         | 5754/100000 [3:09:09<32:15:46,  1.23s/it]  6%|▌         | 5755/100000 [3:09:10<31:43:04,  1.21s/it]                                                            6%|▌         | 5755/100000 [3:09:10<31:43:04,  1.21s/it]  6%|▌         | 5756/100000 [3:09:12<31:03:12,  1.19s/it]                                                            6%|▌         | 5756/100000 [3:09:12<31:03:12,  1.19s/it]  6%|▌         | 5757/100000 [3:09:13<30:40:32,  1.17s/it]                                                            6%|▌         | 5757/100000 [3:09:13<30:40:32,  1.17s/it]  6%|▌         | 5758/100000 [3:09:14<30:02:27,  1.15s/it]                                                            6%|▌         | 5758/100000 [3:09:14<30:02:27,  1.15s/it]  6%|▌         | 5759/100000 [3:09:15<29:42:25,  1.13s/it]                                                            6%|▌         | 5759/100000 [3:09:15<29:42:25,  1.13s/it]  6%|▌         | 5760/100000 [3:09:16<29:15:45,  1.12s/it]                                                            6%|▌         | 5760/100000 [3:09:16<29:15:45,  1.12s/it]  6%|▌         | 5761/100000 [3:09:17<28:56:24,  1.11s/it]                                                            6%|▌         | 5761/100000 [3:09:17<28:56:24,  1.11s/it]  6%|▌         | 5762/100000 [3:09:18<28:37:04,  1.09s/it]                                                            6%|▌         | 5762/100000 [3:09:18<28:37:04,  1.09s/it]  6%|▌         | 5763/100000 [3:09:19<28:03:18,  1.07s/it]                                                            6%|▌         | 5763/100000 [3:09:19<28:03:18,  1.07s/it]  6%|▌         | 5764/100000 [3:09:20<27:32:48,  1.05s/it]                                                            6%|▌         | 5764/100000 [3:09:20<27:32:48,  1.05s/it]  6%|▌         | 5765/100000 [3:09:21<26:44:56,  1.02s/it]                                                            6%|▌         | 5765/100000 [3:09:21<26:44:56,  1.02s/it]  6%|▌         | 5766/100000 [3:09:22<26:19:13,  1.01s/it]                                                            6%|▌         | 5766/100000 [3:09:22<26:19:13,  1.01s/it]  6%|▌         | 5767/100000 [3:09:23<26:08:54,  1.00it/s]                                                            6%|▌         | 5767/100000 [3:09:23<26:08:54,  1.00it/s]  6%|▌         | 5768/100000 [3:09:24<25:53:19,  1.01it/s]                                                            6%|▌         | 5768/100000 [3:09:24<25:53:19,  1.01it/s]  6%|▌         | 5769/100000 [3:09:25<25:23:32,  1.03it/s]                                                            6%|▌         | 5769/100000 [3:09:25<25:23:32,  1.03it/s]  6%|▌         | 5770/100000 [3:09:26<24:45:49,  1.06it/s]                                                            6%|▌         | 5770/100000 [3:09:26<24:45:49,  1.06it/s]  6%|▌         | 5771/100000 [3:09:37<101:19:52,  3.87s/it]                                                             6%|▌         | 5771/100000 [3:09:37<101:19:52,  3.87s/it]  6%|▌         | 5772/100000 [3:09:42<115:01:39,  4.39s/it]                                                             6%|▌         | 5772/100000 [3:09:42<115:01:39,  4.39s/it]  6%|▌         | 5773/100000 [3:09:47<116:26:02,  4.45s/it]                                                             6%|▌         | 5773/100000 [3:09:47<116:26:02,  4.45s/it]  6%|▌         | 5774/100000 [3:09:51<111:51:37,  4.27s/it]                                                             6%|▌         | 5774/100000 [3:09:51<111:51:37,  4.27s/it]  6%|▌         | 5775/100000 [3:09:54<105:31:17,  4.03s/it]                                                             6%|▌         | 5775/100000 [3:09:54<105:31:17,  4.03s/it]  6%|▌         | 5776/100000 [3:09:57<98:24:50,  3.76s/it]                                                             6%|▌         | 5776/100000 [3:09:57<98:24:50,  3.76s/it]  6%|▌         | 5777/100000 [3:10:00<91:13:12,  3.49s/it]                                                            6%|▌         | 5777/100000 [3:10:00<91:13:12,  3.49s/it]  6%|▌         | 5778/100000 [3:10:03<85:19:03,  3.26s/it]                                                            6%|▌         | 5778/100000 [3:10:03<85:19:03,  3.26s/it]  6%|▌         | 5779/100000 [3:10:05<80:25:31,  3.07s/it]                                                            6%|▌         | 5779/100000 [3:10:05<80:25:31,  3.07s/it]  6%|▌         | 5780/100000 [3:10:08<74:38:40,  2.85s/it]                                                            6%|▌         | 5780/100000 [3:10:08<74:38:40,  2.85s/it]  6%|▌         | 5781/100000 [3:10:10<69:25:40,  2.65s/it]                                                            6%|▌         | 5781/100000 [3:10:10<69:25:40,  2.65s/it]  6%|▌         | 5782/100000 [3:10:12<64:20:41,  2.46s/it]                                                            6%|▌         | 5782/100000 [3:10:12<64:20:41,  2.46s/it]  6%|▌         | 5783/100000 [3:10:14<60:20:59,  2.31s/it]                                                            6%|▌         | 5783/100000 [3:10:14<60:20:59,  2.31s/it]  6%|▌         | 5784/100000 [3:10:16<56:45:50,  2.17s/it]                                                            6%|▌         | 5784/100000 [3:10:16<56:45:50,  2.17s/it]  6%|▌         | 5785/100000 [3:10:17<53:27:10,  2.04s/it]                                                            6%|▌         | 5785/100000 [3:10:17<53:27:10,  2.04s/it]  6%|▌         | 5786/100000 [3:10:19<50:19:39,  1.92s/it]                                                            6%|▌         | 5786/100000 [3:10:19<50:19:39,  1.92s/it]  6%|▌         | 5787/100000 [3:10:21<48:02:00,  1.84s/it]                                                            6%|▌         | 5787/100000 [3:10:21<48:02:00,  1.84s/it]  6%|▌         | 5788/100000 [3:10:22<46:11:21,  1.76s/it]                                                            6%|▌         | 5788/100000 [3:10:22<46:11:21,  1.76s/it]  6%|▌         | 5789/100000 [3:10:24<44:36:17,  1.70s/it]                                                            6%|▌         | 5789/100000 [3:10:24<44:36:17,  1.70s/it]  6%|▌         | 5790/100000 [3:10:25<42:43:44,  1.63s/it]                                                            6%|▌         | 5790/100000 [3:10:25<42:43:44,  1.63s/it]  6%|▌         | 5791/100000 [3:10:27<41:25:49,  1.58s/it]                                                            6%|▌         | 5791/100000 [3:10:27<41:25:49,  1.58s/it]  6%|▌         | 5792/100000 [3:10:28<40:16:59,  1.54s/it]                                                            6%|▌         | 5792/100000 [3:10:28<40:16:59,  1.54s/it]  6%|▌         | 5793/100000 [3:10:30<39:16:51,  1.50s/it]                                                            6%|▌         | 5793/100000 [3:10:30<39:16:51,  1.50s/it]  6%|▌         | 5794/100000 [3:10:31<38:24:19,  1.47s/it]                                                            6%|▌         | 5794/100000 [3:10:31<38:24:19,  1.47s/it]  6%|▌         | 5795/100000 [3:10:32<37:21:28,  1.43s/it]                                                            6%|▌         | 5795/100000 [3:10:32<37:21:28,  1.43s/it]  6%|▌         | 5796/100000 [3:10:34<36:14:01,  1.38s/it]                                                            6%|▌         | 5796/100000 [3:10:34<36:14:01,  1.38s/it]  6%|▌         | 5797/100000 [3:10:35<35:44:45,  1.37s/it]                                                            6%|▌         | 5797/100000 [3:10:35<35:44:45,  1.37s/it]  6%|▌         | 5798/100000 [3:10:36<35:03:49,  1.34s/it]                                                            6%|▌         | 5798/100000 [3:10:36<35:03:49,  1.34s/it]  6%|▌         | 5799/100000 [3:10:38<34:13:16,  1.31s/it]                                                            6%|▌         | 5799/100000 [3:10:38<34:13:16,  1.31s/it]  6%|▌         | 5800/100000 [3:10:39<33:59:02,  1.30s/it]                                                            6%|▌         | 5800/100000 [3:10:39<33:59:02,  1.30s/it]  6%|▌         | 5801/100000 [3:10:40<33:29:52,  1.28s/it]                                                            6%|▌         | 5801/100000 [3:10:40<33:29:52,  1.28s/it]  6%|▌         | 5802/100000 [3:10:41<32:38:37,  1.25s/it]                                                            6%|▌         | 5802/100000 [3:10:41<32:38:37,  1.25s/it]  6%|▌         | 5803/100000 [3:10:42<32:14:40,  1.23s/it]                                                            6%|▌         | 5803/100000 [3:10:42<32:14:40,  1.23s/it]  6%|▌         | 5804/100000 [3:10:44<31:29:20,  1.20s/it]                                                            6%|▌         | 5804/100000 [3:10:44<31:29:20,  1.20s/it]  6%|▌         | 5805/100000 [3:10:45<31:19:26,  1.20s/it]                                                            6%|▌         | 5805/100000 [3:10:45<31:19:26,  1.20s/it]  6%|▌         | 5806/100000 [3:10:46<30:56:25,  1.18s/it]                                                            6%|▌         | 5806/100000 [3:10:46<30:56:25,  1.18s/it]  6%|▌         | 5807/100000 [3:10:47<30:37:31,  1.17s/it]                                                            6%|▌         | 5807/100000 [3:10:47<30:37:31,  1.17s/it]  6%|▌         | 5808/100000 [3:10:48<30:16:31,  1.16s/it]                                                            6%|▌         | 5808/100000 [3:10:48<30:16:31,  1.16s/it]  6%|▌         | 5809/100000 [3:10:49<29:35:28,  1.13s/it]                                                            6%|▌         | 5809/100000 [3:10:49<29:35:28,  1.13s/it]  6%|▌         | 5810/100000 [3:10:50<29:19:56,  1.12s/it]                                                            6%|▌         | 5810/100000 [3:10:50<29:19:56,  1.12s/it]  6%|▌         | 5811/100000 [3:10:51<28:42:18,  1.10s/it]                                                            6%|▌         | 5811/100000 [3:10:51<28:42:18,  1.10s/it]  6%|▌         | 5812/100000 [3:10:52<28:38:50,  1.09s/it]                                                            6%|▌         | 5812/100000 [3:10:52<28:38:50,  1.09s/it]  6%|▌         | 5813/100000 [3:10:53<28:07:46,  1.08s/it]                                                            6%|▌         | 5813/100000 [3:10:53<28:07:46,  1.08s/it]  6%|▌         | 5814/100000 [3:10:55<27:49:51,  1.06s/it]                                                            6%|▌         | 5814/100000 [3:10:55<27:49:51,  1.06s/it]  6%|▌         | 5815/100000 [3:10:56<27:14:12,  1.04s/it]                                                            6%|▌         | 5815/100000 [3:10:56<27:14:12,  1.04s/it]  6%|▌         | 5816/100000 [3:10:57<26:51:50,  1.03s/it]                                                            6%|▌         | 5816/100000 [3:10:57<26:51:50,  1.03s/it]  6%|▌         | 5817/100000 [3:10:57<26:28:23,  1.01s/it]                                                            6%|▌         | 5817/100000 [3:10:57<26:28:23,  1.01s/it]  6%|▌         | 5818/100000 [3:10:58<26:00:46,  1.01it/s]                                                            6%|▌         | 5818/100000 [3:10:58<26:00:46,  1.01it/s]  6%|▌         | 5819/100000 [3:10:59<25:24:27,  1.03it/s]                                                            6%|▌         | 5819/100000 [3:10:59<25:24:27,  1.03it/s]  6%|▌         | 5820/100000 [3:11:00<24:41:40,  1.06it/s]                                                            6%|▌         | 5820/100000 [3:11:00<24:41:40,  1.06it/s]  6%|▌         | 5821/100000 [3:11:11<104:04:11,  3.98s/it]                                                             6%|▌         | 5821/100000 [3:11:11<104:04:11,  3.98s/it]  6%|▌         | 5822/100000 [3:11:17<114:02:25,  4.36s/it]                                                             6%|▌         | 5822/100000 [3:11:17<114:02:25,  4.36s/it]  6%|▌         | 5823/100000 [3:11:21<112:08:41,  4.29s/it]                                                             6%|▌         | 5823/100000 [3:11:21<112:08:41,  4.29s/it]  6%|▌         | 5824/100000 [3:11:24<106:39:03,  4.08s/it]                                                             6%|▌         | 5824/100000 [3:11:24<106:39:03,  4.08s/it]  6%|▌         | 5825/100000 [3:11:28<100:09:56,  3.83s/it]                                                             6%|▌         | 5825/100000 [3:11:28<100:09:56,  3.83s/it]  6%|▌         | 5826/100000 [3:11:31<94:52:09,  3.63s/it]                                                             6%|▌         | 5826/100000 [3:11:31<94:52:09,  3.63s/it]  6%|▌         | 5827/100000 [3:11:34<88:53:34,  3.40s/it]                                                            6%|▌         | 5827/100000 [3:11:34<88:53:34,  3.40s/it]  6%|▌         | 5828/100000 [3:11:36<82:52:20,  3.17s/it]                                                            6%|▌         | 5828/100000 [3:11:36<82:52:20,  3.17s/it]  6%|▌         | 5829/100000 [3:11:39<76:59:55,  2.94s/it]                                                            6%|▌         | 5829/100000 [3:11:39<76:59:55,  2.94s/it]  6%|▌         | 5830/100000 [3:11:41<71:30:25,  2.73s/it]                                                            6%|▌         | 5830/100000 [3:11:41<71:30:25,  2.73s/it]  6%|▌         | 5831/100000 [3:11:43<66:34:59,  2.55s/it]                                                            6%|▌         | 5831/100000 [3:11:43<66:34:59,  2.55s/it]  6%|▌         | 5832/100000 [3:11:45<62:24:41,  2.39s/it]                                                            6%|▌         | 5832/100000 [3:11:45<62:24:41,  2.39s/it]  6%|▌         | 5833/100000 [3:11:47<58:50:11,  2.25s/it]                                                            6%|▌         | 5833/100000 [3:11:47<58:50:11,  2.25s/it]  6%|▌         | 5834/100000 [3:11:49<55:09:05,  2.11s/it]                                                            6%|▌         | 5834/100000 [3:11:49<55:09:05,  2.11s/it]  6%|▌         | 5835/100000 [3:11:50<52:02:26,  1.99s/it]                                                            6%|▌         | 5835/100000 [3:11:50<52:02:26,  1.99s/it]  6%|▌         | 5836/100000 [3:11:52<49:01:05,  1.87s/it]                                                            6%|▌         | 5836/100000 [3:11:52<49:01:05,  1.87s/it]  6%|▌         | 5837/100000 [3:11:53<46:16:55,  1.77s/it]                                                          {'loss': 0.0319, 'grad_norm': 0.9237388968467712, 'learning_rate': 1.7253e-05, 'epoch': 10.62}
+{'loss': 0.0345, 'grad_norm': 0.5861974954605103, 'learning_rate': 1.7256000000000002e-05, 'epoch': 10.62}
+{'loss': 0.0279, 'grad_norm': 0.4686151444911957, 'learning_rate': 1.7259000000000002e-05, 'epoch': 10.62}
+{'loss': 0.0149, 'grad_norm': 0.40479278564453125, 'learning_rate': 1.7262000000000002e-05, 'epoch': 10.62}
+{'loss': 0.0185, 'grad_norm': 0.5644612312316895, 'learning_rate': 1.7265e-05, 'epoch': 10.62}
+{'loss': 0.029, 'grad_norm': 0.7194874882698059, 'learning_rate': 1.7268e-05, 'epoch': 10.63}
+{'loss': 0.0162, 'grad_norm': 0.32438820600509644, 'learning_rate': 1.7271e-05, 'epoch': 10.63}
+{'loss': 0.0193, 'grad_norm': 0.47052034735679626, 'learning_rate': 1.7274e-05, 'epoch': 10.63}
+{'loss': 0.035, 'grad_norm': 1.1280709505081177, 'learning_rate': 1.7277e-05, 'epoch': 10.63}
+{'loss': 0.0168, 'grad_norm': 0.469835489988327, 'learning_rate': 1.728e-05, 'epoch': 10.63}
+{'loss': 0.0178, 'grad_norm': 0.5156711339950562, 'learning_rate': 1.7283e-05, 'epoch': 10.64}
+{'loss': 0.0275, 'grad_norm': 0.5281715989112854, 'learning_rate': 1.7286e-05, 'epoch': 10.64}
+{'loss': 0.025, 'grad_norm': 0.45756691694259644, 'learning_rate': 1.7289e-05, 'epoch': 10.64}
+{'loss': 0.026, 'grad_norm': 0.4730209708213806, 'learning_rate': 1.7292e-05, 'epoch': 10.64}
+{'loss': 0.0384, 'grad_norm': 1.0519452095031738, 'learning_rate': 1.7295e-05, 'epoch': 10.64}
+{'loss': 0.0318, 'grad_norm': 0.6030709743499756, 'learning_rate': 1.7298e-05, 'epoch': 10.64}
+{'loss': 0.0237, 'grad_norm': 1.0561301708221436, 'learning_rate': 1.7301e-05, 'epoch': 10.65}
+{'loss': 0.2677, 'grad_norm': 0.9371124505996704, 'learning_rate': 1.7304e-05, 'epoch': 10.65}
+{'loss': 0.1784, 'grad_norm': 0.6510640382766724, 'learning_rate': 1.7307e-05, 'epoch': 10.65}
+{'loss': 0.197, 'grad_norm': 0.9221227765083313, 'learning_rate': 1.731e-05, 'epoch': 10.65}
+{'loss': 0.1623, 'grad_norm': 0.7787302136421204, 'learning_rate': 1.7313e-05, 'epoch': 10.65}
+{'loss': 0.1452, 'grad_norm': 0.6928793787956238, 'learning_rate': 1.7316e-05, 'epoch': 10.66}
+{'loss': 0.1221, 'grad_norm': 0.580687403678894, 'learning_rate': 1.7319e-05, 'epoch': 10.66}
+{'loss': 0.1252, 'grad_norm': 0.8013032674789429, 'learning_rate': 1.7322e-05, 'epoch': 10.66}
+{'loss': 0.1432, 'grad_norm': 0.755961000919342, 'learning_rate': 1.7325e-05, 'epoch': 10.66}
+{'loss': 0.142, 'grad_norm': 1.1269781589508057, 'learning_rate': 1.7328e-05, 'epoch': 10.66}
+{'loss': 0.1661, 'grad_norm': 0.8808785676956177, 'learning_rate': 1.7331e-05, 'epoch': 10.66}
+{'loss': 0.0968, 'grad_norm': 0.7470980286598206, 'learning_rate': 1.7334e-05, 'epoch': 10.67}
+{'loss': 0.0657, 'grad_norm': 0.519422173500061, 'learning_rate': 1.7337e-05, 'epoch': 10.67}
+{'loss': 0.1161, 'grad_norm': 0.6593102812767029, 'learning_rate': 1.734e-05, 'epoch': 10.67}
+{'loss': 0.0666, 'grad_norm': 0.48402902483940125, 'learning_rate': 1.7343e-05, 'epoch': 10.67}
+{'loss': 0.0356, 'grad_norm': 0.3188153803348541, 'learning_rate': 1.7346000000000003e-05, 'epoch': 10.67}
+{'loss': 0.0434, 'grad_norm': 0.5182211995124817, 'learning_rate': 1.7349000000000003e-05, 'epoch': 10.68}
+{'loss': 0.0403, 'grad_norm': 0.5140071511268616, 'learning_rate': 1.7352000000000003e-05, 'epoch': 10.68}
+{'loss': 0.0437, 'grad_norm': 0.4483383297920227, 'learning_rate': 1.7355000000000002e-05, 'epoch': 10.68}
+{'loss': 0.0577, 'grad_norm': 1.0645132064819336, 'learning_rate': 1.7358000000000002e-05, 'epoch': 10.68}
+{'loss': 0.0997, 'grad_norm': 0.7384029626846313, 'learning_rate': 1.7361e-05, 'epoch': 10.68}
+{'loss': 0.0212, 'grad_norm': 0.4034633934497833, 'learning_rate': 1.7364e-05, 'epoch': 10.69}
+{'loss': 0.0175, 'grad_norm': 0.2344970703125, 'learning_rate': 1.7366999999999998e-05, 'epoch': 10.69}
+{'loss': 0.0317, 'grad_norm': 0.49585863947868347, 'learning_rate': 1.7369999999999998e-05, 'epoch': 10.69}
+{'loss': 0.0279, 'grad_norm': 0.5580799579620361, 'learning_rate': 1.7372999999999998e-05, 'epoch': 10.69}
+{'loss': 0.0176, 'grad_norm': 0.3624635934829712, 'learning_rate': 1.7376e-05, 'epoch': 10.69}
+{'loss': 0.0277, 'grad_norm': 0.5163046717643738, 'learning_rate': 1.7379e-05, 'epoch': 10.69}
+{'loss': 0.0254, 'grad_norm': 0.467898964881897, 'learning_rate': 1.7382e-05, 'epoch': 10.7}
+{'loss': 0.0142, 'grad_norm': 0.3116570711135864, 'learning_rate': 1.7385e-05, 'epoch': 10.7}
+{'loss': 0.0153, 'grad_norm': 0.5890852808952332, 'learning_rate': 1.7388e-05, 'epoch': 10.7}
+{'loss': 0.0155, 'grad_norm': 0.37547069787979126, 'learning_rate': 1.7391e-05, 'epoch': 10.7}
+{'loss': 0.0314, 'grad_norm': 0.5420143008232117, 'learning_rate': 1.7394e-05, 'epoch': 10.7}
+{'loss': 0.0313, 'grad_norm': 0.5886558294296265, 'learning_rate': 1.7397e-05, 'epoch': 10.71}
+{'loss': 0.0356, 'grad_norm': 0.6461412310600281, 'learning_rate': 1.74e-05, 'epoch': 10.71}
+{'loss': 0.0198, 'grad_norm': 0.4910597801208496, 'learning_rate': 1.7403e-05, 'epoch': 10.71}
+{'loss': 0.0152, 'grad_norm': 0.2973109483718872, 'learning_rate': 1.7406000000000002e-05, 'epoch': 10.71}
+{'loss': 0.0179, 'grad_norm': 0.40196624398231506, 'learning_rate': 1.7409000000000002e-05, 'epoch': 10.71}
+{'loss': 0.0191, 'grad_norm': 0.4059551954269409, 'learning_rate': 1.7412000000000002e-05, 'epoch': 10.71}
+{'loss': 0.0298, 'grad_norm': 0.8953748941421509, 'learning_rate': 1.7415000000000002e-05, 'epoch': 10.72}
+{'loss': 0.0306, 'grad_norm': 0.9182073473930359, 'learning_rate': 1.7418e-05, 'epoch': 10.72}
+{'loss': 0.0303, 'grad_norm': 0.5914534330368042, 'learning_rate': 1.7421e-05, 'epoch': 10.72}
+{'loss': 0.0245, 'grad_norm': 0.5903384685516357, 'learning_rate': 1.7424e-05, 'epoch': 10.72}
+{'loss': 0.0261, 'grad_norm': 0.49383530020713806, 'learning_rate': 1.7427e-05, 'epoch': 10.72}
+{'loss': 0.0287, 'grad_norm': 0.5673595666885376, 'learning_rate': 1.743e-05, 'epoch': 10.73}
+{'loss': 0.0309, 'grad_norm': 0.6683375835418701, 'learning_rate': 1.7432999999999997e-05, 'epoch': 10.73}
+{'loss': 0.014, 'grad_norm': 0.34646183252334595, 'learning_rate': 1.7436e-05, 'epoch': 10.73}
+{'loss': 0.0249, 'grad_norm': 0.599746584892273, 'learning_rate': 1.7439e-05, 'epoch': 10.73}
+{'loss': 0.037, 'grad_norm': 0.7076974511146545, 'learning_rate': 1.7442e-05, 'epoch': 10.73}
+{'loss': 0.0311, 'grad_norm': 0.9104524850845337, 'learning_rate': 1.7445e-05, 'epoch': 10.73}
+{'loss': 0.0355, 'grad_norm': 0.5769959092140198, 'learning_rate': 1.7448e-05, 'epoch': 10.74}
+{'loss': 0.021, 'grad_norm': 0.5935896039009094, 'learning_rate': 1.7451e-05, 'epoch': 10.74}
+{'loss': 0.2168, 'grad_norm': 1.0296519994735718, 'learning_rate': 1.7454e-05, 'epoch': 10.74}
+{'loss': 0.2389, 'grad_norm': 0.8563361167907715, 'learning_rate': 1.7457e-05, 'epoch': 10.74}
+{'loss': 0.2175, 'grad_norm': 0.8937773704528809, 'learning_rate': 1.746e-05, 'epoch': 10.74}
+{'loss': 0.148, 'grad_norm': 0.9618704915046692, 'learning_rate': 1.7463e-05, 'epoch': 10.75}
+{'loss': 0.2013, 'grad_norm': 0.9022472500801086, 'learning_rate': 1.7466000000000002e-05, 'epoch': 10.75}
+{'loss': 0.1351, 'grad_norm': 0.6519712209701538, 'learning_rate': 1.7469e-05, 'epoch': 10.75}
+{'loss': 0.1077, 'grad_norm': 0.5046953558921814, 'learning_rate': 1.7472e-05, 'epoch': 10.75}
+{'loss': 0.1374, 'grad_norm': 1.0729660987854004, 'learning_rate': 1.7475e-05, 'epoch': 10.75}
+{'loss': 0.1447, 'grad_norm': 0.735659658908844, 'learning_rate': 1.7478e-05, 'epoch': 10.76}
+{'loss': 0.1169, 'grad_norm': 0.8504224419593811, 'learning_rate': 1.7481e-05, 'epoch': 10.76}
+{'loss': 0.0831, 'grad_norm': 0.7671719789505005, 'learning_rate': 1.7484e-05, 'epoch': 10.76}
+{'loss': 0.043, 'grad_norm': 0.3581356108188629, 'learning_rate': 1.7487e-05, 'epoch': 10.76}
+{'loss': 0.1233, 'grad_norm': 0.5683116316795349, 'learning_rate': 1.749e-05, 'epoch': 10.76}
+{'loss': 0.0561, 'grad_norm': 0.4286747872829437, 'learning_rate': 1.7493e-05, 'epoch': 10.76}
+{'loss': 0.0465, 'grad_norm': 0.7286791801452637, 'learning_rate': 1.7496000000000003e-05, 'epoch': 10.77}
+{'loss': 0.0647, 'grad_norm': 0.6198620796203613, 'learning_rate': 1.7499000000000003e-05, 'epoch': 10.77}
+  6%|▌         | 5837/100000 [3:11:54<46:16:55,  1.77s/it]  6%|▌         | 5838/100000 [3:11:55<44:41:56,  1.71s/it]                                                            6%|▌         | 5838/100000 [3:11:55<44:41:56,  1.71s/it]  6%|▌         | 5839/100000 [3:11:57<43:17:40,  1.66s/it]                                                            6%|▌         | 5839/100000 [3:11:57<43:17:40,  1.66s/it]  6%|▌         | 5840/100000 [3:11:58<41:53:11,  1.60s/it]                                                            6%|▌         | 5840/100000 [3:11:58<41:53:11,  1.60s/it]  6%|▌         | 5841/100000 [3:12:00<40:40:29,  1.56s/it]                                                            6%|▌         | 5841/100000 [3:12:00<40:40:29,  1.56s/it]  6%|▌         | 5842/100000 [3:12:01<39:39:43,  1.52s/it]                                                            6%|▌         | 5842/100000 [3:12:01<39:39:43,  1.52s/it]  6%|▌         | 5843/100000 [3:12:02<38:48:50,  1.48s/it]                                                            6%|▌         | 5843/100000 [3:12:02<38:48:50,  1.48s/it]  6%|▌         | 5844/100000 [3:12:04<37:25:37,  1.43s/it]                                                            6%|▌         | 5844/100000 [3:12:04<37:25:37,  1.43s/it]  6%|▌         | 5845/100000 [3:12:05<36:55:27,  1.41s/it]                                                            6%|▌         | 5845/100000 [3:12:05<36:55:27,  1.41s/it]  6%|▌         | 5846/100000 [3:12:06<35:51:57,  1.37s/it]                                                            6%|▌         | 5846/100000 [3:12:06<35:51:57,  1.37s/it]  6%|▌         | 5847/100000 [3:12:08<35:20:09,  1.35s/it]                                                            6%|▌         | 5847/100000 [3:12:08<35:20:09,  1.35s/it]  6%|▌         | 5848/100000 [3:12:09<34:49:01,  1.33s/it]                                                            6%|▌         | 5848/100000 [3:12:09<34:49:01,  1.33s/it]  6%|▌         | 5849/100000 [3:12:10<34:19:26,  1.31s/it]                                                            6%|▌         | 5849/100000 [3:12:10<34:19:26,  1.31s/it]  6%|▌         | 5850/100000 [3:12:11<33:41:18,  1.29s/it]                                                            6%|▌         | 5850/100000 [3:12:11<33:41:18,  1.29s/it]  6%|▌         | 5851/100000 [3:12:13<33:33:47,  1.28s/it]                                                            6%|▌         | 5851/100000 [3:12:13<33:33:47,  1.28s/it]  6%|▌         | 5852/100000 [3:12:14<32:58:35,  1.26s/it]                                                            6%|▌         | 5852/100000 [3:12:14<32:58:35,  1.26s/it]  6%|▌         | 5853/100000 [3:12:15<32:42:37,  1.25s/it]                                                            6%|▌         | 5853/100000 [3:12:15<32:42:37,  1.25s/it]  6%|▌         | 5854/100000 [3:12:16<32:25:18,  1.24s/it]                                                            6%|▌         | 5854/100000 [3:12:16<32:25:18,  1.24s/it]  6%|▌         | 5855/100000 [3:12:17<31:42:55,  1.21s/it]                                                            6%|▌         | 5855/100000 [3:12:17<31:42:55,  1.21s/it]  6%|▌         | 5856/100000 [3:12:19<31:08:32,  1.19s/it]                                                            6%|▌         | 5856/100000 [3:12:19<31:08:32,  1.19s/it]  6%|▌         | 5857/100000 [3:12:20<30:54:50,  1.18s/it]                                                            6%|▌         | 5857/100000 [3:12:20<30:54:50,  1.18s/it]  6%|▌         | 5858/100000 [3:12:21<30:29:55,  1.17s/it]                                                            6%|▌         | 5858/100000 [3:12:21<30:29:55,  1.17s/it]  6%|▌         | 5859/100000 [3:12:22<30:07:09,  1.15s/it]                                                            6%|▌         | 5859/100000 [3:12:22<30:07:09,  1.15s/it]  6%|▌         | 5860/100000 [3:12:23<29:39:23,  1.13s/it]                                                            6%|▌         | 5860/100000 [3:12:23<29:39:23,  1.13s/it]  6%|▌         | 5861/100000 [3:12:24<29:02:37,  1.11s/it]                                                            6%|▌         | 5861/100000 [3:12:24<29:02:37,  1.11s/it]  6%|▌         | 5862/100000 [3:12:25<28:44:55,  1.10s/it]                                                            6%|▌         | 5862/100000 [3:12:25<28:44:55,  1.10s/it]  6%|▌         | 5863/100000 [3:12:26<28:16:22,  1.08s/it]                                                            6%|▌         | 5863/100000 [3:12:26<28:16:22,  1.08s/it]  6%|▌         | 5864/100000 [3:12:27<27:53:38,  1.07s/it]                                                            6%|▌         | 5864/100000 [3:12:27<27:53:38,  1.07s/it]  6%|▌         | 5865/100000 [3:12:28<27:11:08,  1.04s/it]                                                            6%|▌         | 5865/100000 [3:12:28<27:11:08,  1.04s/it]  6%|▌         | 5866/100000 [3:12:29<26:41:17,  1.02s/it]                                                            6%|▌         | 5866/100000 [3:12:29<26:41:17,  1.02s/it]  6%|▌         | 5867/100000 [3:12:30<26:11:37,  1.00s/it]                                                            6%|▌         | 5867/100000 [3:12:30<26:11:37,  1.00s/it]  6%|▌         | 5868/100000 [3:12:31<25:42:36,  1.02it/s]                                                            6%|▌         | 5868/100000 [3:12:31<25:42:36,  1.02it/s]  6%|▌         | 5869/100000 [3:12:32<25:16:12,  1.03it/s]                                                            6%|▌         | 5869/100000 [3:12:32<25:16:12,  1.03it/s]  6%|▌         | 5870/100000 [3:12:33<24:07:58,  1.08it/s]                                                            6%|▌         | 5870/100000 [3:12:33<24:07:58,  1.08it/s]  6%|▌         | 5871/100000 [3:12:44<103:11:07,  3.95s/it]                                                             6%|▌         | 5871/100000 [3:12:44<103:11:07,  3.95s/it]  6%|▌         | 5872/100000 [3:12:50<117:29:00,  4.49s/it]                                                             6%|▌         | 5872/100000 [3:12:50<117:29:00,  4.49s/it]  6%|▌         | 5873/100000 [3:12:54<119:51:44,  4.58s/it]                                                             6%|▌         | 5873/100000 [3:12:54<119:51:44,  4.58s/it]  6%|▌         | 5874/100000 [3:12:59<116:20:42,  4.45s/it]                                                             6%|▌         | 5874/100000 [3:12:59<116:20:42,  4.45s/it]  6%|▌         | 5875/100000 [3:13:02<110:41:10,  4.23s/it]                                                             6%|▌         | 5875/100000 [3:13:02<110:41:10,  4.23s/it]  6%|▌         | 5876/100000 [3:13:06<103:26:20,  3.96s/it]                                                             6%|▌         | 5876/100000 [3:13:06<103:26:20,  3.96s/it]  6%|▌         | 5877/100000 [3:13:09<95:48:05,  3.66s/it]                                                             6%|▌         | 5877/100000 [3:13:09<95:48:05,  3.66s/it]  6%|▌         | 5878/100000 [3:13:11<88:44:52,  3.39s/it]                                                            6%|▌         | 5878/100000 [3:13:11<88:44:52,  3.39s/it]  6%|▌         | 5879/100000 [3:13:14<82:14:22,  3.15s/it]                                                            6%|▌         | 5879/100000 [3:13:14<82:14:22,  3.15s/it]  6%|▌         | 5880/100000 [3:13:16<75:39:43,  2.89s/it]                                                            6%|▌         | 5880/100000 [3:13:16<75:39:43,  2.89s/it]  6%|▌         | 5881/100000 [3:13:18<69:40:44,  2.67s/it]                                                            6%|▌         | 5881/100000 [3:13:18<69:40:44,  2.67s/it]  6%|▌         | 5882/100000 [3:13:20<64:41:08,  2.47s/it]                                                            6%|▌         | 5882/100000 [3:13:20<64:41:08,  2.47s/it]  6%|▌         | 5883/100000 [3:13:22<60:02:56,  2.30s/it]                                                            6%|▌         | 5883/100000 [3:13:22<60:02:56,  2.30s/it]  6%|▌         | 5884/100000 [3:13:24<56:23:55,  2.16s/it]                                                            6%|▌         | 5884/100000 [3:13:24<56:23:55,  2.16s/it]  6%|▌         | 5885/100000 [3:13:26<53:12:07,  2.04s/it]                                                            6%|▌         | 5885/100000 [3:13:26<53:12:07,  2.04s/it]  6%|▌         | 5886/100000 [3:13:28<50:30:30,  1.93s/it]                                                            6%|▌         | 5886/100000 [3:13:28<50:30:30,  1.93s/it]  6%|▌         | 5887/100000 [3:13:29<48:08:30,  1.84s/it]                                                            6%|▌         | 5887/100000 [3:13:29<48:08:30,  1.84s/it]  6%|▌         | 5888/100000 [3:13:31<45:48:18,  1.75s/it]                                                            6%|▌         | 5888/100000 [3:13:31<45:48:18,  1.75s/it]  6%|▌         | 5889/100000 [3:13:32<44:13:48,  1.69s/it]                                                            6%|▌         | 5889/100000 [3:13:32<44:13:48,  1.69s/it]  6%|▌         | 5890/100000 [3:13:34<42:16:04,  1.62s/it]                                                            6%|▌         | 5890/100000 [3:13:34<42:16:04,  1.62s/it]  6%|▌         | 5891/100000 [3:13:35<40:59:39,  1.57s/it]                                                            6%|▌         | 5891/100000 [3:13:35<40:59:39,  1.57s/it]  6%|▌         | 5892/100000 [3:13:37<39:37:15,  1.52s/it]                                                            6%|▌         | 5892/100000 [3:13:37<39:37:15,  1.52s/it]  6%|▌         | 5893/100000 [3:13:38<38:51:01,  1.49s/it]                                                            6%|▌         | 5893/100000 [3:13:38<38:51:01,  1.49s/it]  6%|▌         | 5894/100000 [3:13:39<38:05:21,  1.46s/it]                                                            6%|▌         | 5894/100000 [3:13:39<38:05:21,  1.46s/it]  6%|▌         | 5895/100000 [3:13:41<37:22:49,  1.43s/it]                                                            6%|▌         | 5895/100000 [3:13:41<37:22:49,  1.43s/it]  6%|▌         | 5896/100000 [3:13:42<36:27:07,  1.39s/it]                                                            6%|▌         | 5896/100000 [3:13:42<36:27:07,  1.39s/it]  6%|▌         | 5897/100000 [3:13:43<35:47:08,  1.37s/it]                                                            6%|▌         | 5897/100000 [3:13:43<35:47:08,  1.37s/it]  6%|▌         | 5898/100000 [3:13:45<35:10:24,  1.35s/it]                                                            6%|▌         | 5898/100000 [3:13:45<35:10:24,  1.35s/it]  6%|▌         | 5899/100000 [3:13:46<34:30:57,  1.32s/it]                                                            6%|▌         | 5899/100000 [3:13:46<34:30:57,  1.32s/it]  6%|▌         | 5900/100000 [3:13:47<34:03:10,  1.30s/it]                                                            6%|▌         | 5900/100000 [3:13:47<34:03:10,  1.30s/it]  6%|▌         | 5901/100000 [3:13:48<33:38:14,  1.29s/it]                                                            6%|▌         | 5901/100000 [3:13:48<33:38:14,  1.29s/it]  6%|▌         | 5902/100000 [3:13:50<33:00:45,  1.26s/it]                                                            6%|▌         | 5902/100000 [3:13:50<33:00:45,  1.26s/it]  6%|▌         | 5903/100000 [3:13:51<32:36:47,  1.25s/it]                                                            6%|▌         | 5903/100000 [3:13:51<32:36:47,  1.25s/it]  6%|▌         | 5904/100000 [3:13:52<32:20:10,  1.24s/it]                                                            6%|▌         | 5904/100000 [3:13:52<32:20:10,  1.24s/it]  6%|▌         | 5905/100000 [3:13:53<31:38:11,  1.21s/it]                                                            6%|▌         | 5905/100000 [3:13:53<31:38:11,  1.21s/it]  6%|▌         | 5906/100000 [3:13:54<31:01:14,  1.19s/it]                                                            6%|▌         | 5906/100000 [3:13:54<31:01:14,  1.19s/it]  6%|▌         | 5907/100000 [3:13:55<30:35:16,  1.17s/it]                                                            6%|▌         | 5907/100000 [3:13:56<30:35:16,  1.17s/it]  6%|▌         | 5908/100000 [3:13:57<30:15:22,  1.16s/it]                                                            6%|▌         | 5908/100000 [3:13:57<30:15:22,  1.16s/it]  6%|▌         | 5909/100000 [3:13:58<29:49:30,  1.14s/it]                                                            6%|▌         | 5909/100000 [3:13:58<29:49:30,  1.14s/it]  6%|▌         | 5910/100000 [3:13:59<29:27:09,  1.13s/it]                                                            6%|▌         | 5910/100000 [3:13:59<29:27:09,  1.13s/it]  6%|▌         | 5911/100000 [3:14:00<28:56:49,  1.11s/it]                                                            6%|▌         | 5911/100000 [3:14:00<28:56:49,  1.11s/it]  6%|▌         | 5912/100000 [3:14:01<28:35:33,  1.09s/it]                                                            6%|▌         | 5912/100000 [3:14:01<28:35:33,  1.09s/it]  6%|▌         | 5913/100000 [3:14:02<28:03:19,  1.07s/it]                                                            6%|▌         | 5913/100000 [3:14:02<28:03:19,  1.07s/it]  6%|▌         | 5914/100000 [3:14:03<27:44:28,  1.06s/it]                                                            6%|▌         | 5914/100000 [3:14:03<27:44:28,  1.06s/it]  6%|▌         | 5915/100000 [3:14:04<27:14:01,  1.04s/it]                                                            6%|▌         | 5915/100000 [3:14:04<27:14:01,  1.04s/it]  6%|▌         | 5916/100000 [3:14:05<26:45:56,  1.02s/it]                                                            6%|▌         | 5916/100000 [3:14:05<26:45:56,  1.02s/it]  6%|▌         | 5917/100000 [3:14:06<26:10:16,  1.00s/it]                                                            6%|▌         | 5917/100000 [3:14:06<26:10:16,  1.00s/it]  6%|▌         | 5918/100000 [3:14:07<25:22:15,  1.03it/s]                                                            6%|▌         | 5918/100000 [3:14:07<25:22:15,  1.03it/s]  6%|▌         | 5919/100000 [3:14:08<24:47:23,  1.05it/s]                                                            6%|▌         | 5919/100000 [3:14:08<24:47:23,  1.05it/s]  6%|▌         | 5920/100000 [3:14:09<23:51:35,  1.10it/s]                                                          {'loss': 0.0338, 'grad_norm': 0.39466071128845215, 'learning_rate': 1.7502000000000003e-05, 'epoch': 10.77}
+{'loss': 0.0309, 'grad_norm': 0.5323166251182556, 'learning_rate': 1.7505000000000003e-05, 'epoch': 10.77}
+{'loss': 0.0314, 'grad_norm': 0.6481252312660217, 'learning_rate': 1.7508e-05, 'epoch': 10.77}
+{'loss': 0.0316, 'grad_norm': 0.623769223690033, 'learning_rate': 1.7511e-05, 'epoch': 10.78}
+{'loss': 0.0421, 'grad_norm': 0.6676685810089111, 'learning_rate': 1.7514e-05, 'epoch': 10.78}
+{'loss': 0.0426, 'grad_norm': 0.5272042155265808, 'learning_rate': 1.7517e-05, 'epoch': 10.78}
+{'loss': 0.0367, 'grad_norm': 0.6411356925964355, 'learning_rate': 1.7519999999999998e-05, 'epoch': 10.78}
+{'loss': 0.02, 'grad_norm': 0.7479405999183655, 'learning_rate': 1.7522999999999998e-05, 'epoch': 10.78}
+{'loss': 0.0288, 'grad_norm': 0.37660306692123413, 'learning_rate': 1.7526e-05, 'epoch': 10.78}
+{'loss': 0.0539, 'grad_norm': 0.9735251665115356, 'learning_rate': 1.7529e-05, 'epoch': 10.79}
+{'loss': 0.0234, 'grad_norm': 0.6767516136169434, 'learning_rate': 1.7532e-05, 'epoch': 10.79}
+{'loss': 0.0186, 'grad_norm': 0.42775028944015503, 'learning_rate': 1.7535e-05, 'epoch': 10.79}
+{'loss': 0.0109, 'grad_norm': 0.3126576542854309, 'learning_rate': 1.7538e-05, 'epoch': 10.79}
+{'loss': 0.029, 'grad_norm': 0.41386958956718445, 'learning_rate': 1.7541e-05, 'epoch': 10.79}
+{'loss': 0.0178, 'grad_norm': 0.33370286226272583, 'learning_rate': 1.7544e-05, 'epoch': 10.8}
+{'loss': 0.0294, 'grad_norm': 0.6642718315124512, 'learning_rate': 1.7547e-05, 'epoch': 10.8}
+{'loss': 0.0254, 'grad_norm': 0.6200350522994995, 'learning_rate': 1.755e-05, 'epoch': 10.8}
+{'loss': 0.0452, 'grad_norm': 1.2748810052871704, 'learning_rate': 1.7553e-05, 'epoch': 10.8}
+{'loss': 0.0254, 'grad_norm': 0.811354398727417, 'learning_rate': 1.7556000000000003e-05, 'epoch': 10.8}
+{'loss': 0.0271, 'grad_norm': 0.5516785979270935, 'learning_rate': 1.7559000000000002e-05, 'epoch': 10.81}
+{'loss': 0.0197, 'grad_norm': 0.5956955552101135, 'learning_rate': 1.7562000000000002e-05, 'epoch': 10.81}
+{'loss': 0.0289, 'grad_norm': 0.531806468963623, 'learning_rate': 1.7565000000000002e-05, 'epoch': 10.81}
+{'loss': 0.0229, 'grad_norm': 0.5544119477272034, 'learning_rate': 1.7568000000000002e-05, 'epoch': 10.81}
+{'loss': 0.0207, 'grad_norm': 0.528141975402832, 'learning_rate': 1.7571e-05, 'epoch': 10.81}
+{'loss': 0.0293, 'grad_norm': 0.5564522743225098, 'learning_rate': 1.7574e-05, 'epoch': 10.81}
+{'loss': 0.0113, 'grad_norm': 0.3546724319458008, 'learning_rate': 1.7577e-05, 'epoch': 10.82}
+{'loss': 0.0212, 'grad_norm': 0.46226778626441956, 'learning_rate': 1.758e-05, 'epoch': 10.82}
+{'loss': 0.0236, 'grad_norm': 0.38217854499816895, 'learning_rate': 1.7582999999999998e-05, 'epoch': 10.82}
+{'loss': 0.0207, 'grad_norm': 0.6104041934013367, 'learning_rate': 1.7586e-05, 'epoch': 10.82}
+{'loss': 0.0197, 'grad_norm': 0.4689196050167084, 'learning_rate': 1.7589e-05, 'epoch': 10.82}
+{'loss': 0.0218, 'grad_norm': 0.4690294563770294, 'learning_rate': 1.7592e-05, 'epoch': 10.83}
+{'loss': 0.0335, 'grad_norm': 0.8422415852546692, 'learning_rate': 1.7595e-05, 'epoch': 10.83}
+{'loss': 0.0321, 'grad_norm': 0.9045748114585876, 'learning_rate': 1.7598e-05, 'epoch': 10.83}
+{'loss': 0.0389, 'grad_norm': 1.0264004468917847, 'learning_rate': 1.7601e-05, 'epoch': 10.83}
+{'loss': 0.2561, 'grad_norm': 1.2848174571990967, 'learning_rate': 1.7604e-05, 'epoch': 10.83}
+{'loss': 0.2667, 'grad_norm': 1.1149464845657349, 'learning_rate': 1.7607e-05, 'epoch': 10.83}
+{'loss': 0.2504, 'grad_norm': 1.0092140436172485, 'learning_rate': 1.761e-05, 'epoch': 10.84}
+{'loss': 0.153, 'grad_norm': 0.6515405774116516, 'learning_rate': 1.7613e-05, 'epoch': 10.84}
+{'loss': 0.2003, 'grad_norm': 0.7586976885795593, 'learning_rate': 1.7616000000000002e-05, 'epoch': 10.84}
+{'loss': 0.1495, 'grad_norm': 0.5531761646270752, 'learning_rate': 1.7619000000000002e-05, 'epoch': 10.84}
+{'loss': 0.127, 'grad_norm': 0.696130633354187, 'learning_rate': 1.7622000000000002e-05, 'epoch': 10.84}
+{'loss': 0.1449, 'grad_norm': 0.8173731565475464, 'learning_rate': 1.7625e-05, 'epoch': 10.85}
+{'loss': 0.1448, 'grad_norm': 1.2938200235366821, 'learning_rate': 1.7628e-05, 'epoch': 10.85}
+{'loss': 0.0966, 'grad_norm': 0.8170304894447327, 'learning_rate': 1.7631e-05, 'epoch': 10.85}
+{'loss': 0.0673, 'grad_norm': 0.8002492189407349, 'learning_rate': 1.7634e-05, 'epoch': 10.85}
+{'loss': 0.0818, 'grad_norm': 0.7990866899490356, 'learning_rate': 1.7637e-05, 'epoch': 10.85}
+{'loss': 0.0492, 'grad_norm': 0.5102277994155884, 'learning_rate': 1.764e-05, 'epoch': 10.86}
+{'loss': 0.0644, 'grad_norm': 1.3296751976013184, 'learning_rate': 1.7643e-05, 'epoch': 10.86}
+{'loss': 0.05, 'grad_norm': 0.59538733959198, 'learning_rate': 1.7646e-05, 'epoch': 10.86}
+{'loss': 0.0357, 'grad_norm': 0.4024272561073303, 'learning_rate': 1.7649000000000003e-05, 'epoch': 10.86}
+{'loss': 0.0313, 'grad_norm': 0.5509514212608337, 'learning_rate': 1.7652000000000003e-05, 'epoch': 10.86}
+{'loss': 0.049, 'grad_norm': 0.6461734771728516, 'learning_rate': 1.7655e-05, 'epoch': 10.86}
+{'loss': 0.032, 'grad_norm': 0.7171344757080078, 'learning_rate': 1.7658e-05, 'epoch': 10.87}
+{'loss': 0.0275, 'grad_norm': 0.5926627516746521, 'learning_rate': 1.7661e-05, 'epoch': 10.87}
+{'loss': 0.0204, 'grad_norm': 0.38975149393081665, 'learning_rate': 1.7664e-05, 'epoch': 10.87}
+{'loss': 0.0259, 'grad_norm': 0.32457953691482544, 'learning_rate': 1.7667e-05, 'epoch': 10.87}
+{'loss': 0.0175, 'grad_norm': 0.29443931579589844, 'learning_rate': 1.767e-05, 'epoch': 10.87}
+{'loss': 0.0233, 'grad_norm': 0.36705857515335083, 'learning_rate': 1.7673e-05, 'epoch': 10.88}
+{'loss': 0.0372, 'grad_norm': 0.4953431487083435, 'learning_rate': 1.7675999999999998e-05, 'epoch': 10.88}
+{'loss': 0.0296, 'grad_norm': 0.5245679616928101, 'learning_rate': 1.7679e-05, 'epoch': 10.88}
+{'loss': 0.0238, 'grad_norm': 0.3879951536655426, 'learning_rate': 1.7682e-05, 'epoch': 10.88}
+{'loss': 0.0178, 'grad_norm': 0.8937625885009766, 'learning_rate': 1.7685e-05, 'epoch': 10.88}
+{'loss': 0.0272, 'grad_norm': 0.47701773047447205, 'learning_rate': 1.7688e-05, 'epoch': 10.88}
+{'loss': 0.0151, 'grad_norm': 0.32832854986190796, 'learning_rate': 1.7691e-05, 'epoch': 10.89}
+{'loss': 0.032, 'grad_norm': 0.4349646270275116, 'learning_rate': 1.7694e-05, 'epoch': 10.89}
+{'loss': 0.0194, 'grad_norm': 0.47184181213378906, 'learning_rate': 1.7697e-05, 'epoch': 10.89}
+{'loss': 0.0117, 'grad_norm': 0.29045549035072327, 'learning_rate': 1.77e-05, 'epoch': 10.89}
+{'loss': 0.0145, 'grad_norm': 0.3673584759235382, 'learning_rate': 1.7703e-05, 'epoch': 10.89}
+{'loss': 0.0216, 'grad_norm': 0.41271263360977173, 'learning_rate': 1.7706e-05, 'epoch': 10.9}
+{'loss': 0.0228, 'grad_norm': 0.38137903809547424, 'learning_rate': 1.7709000000000003e-05, 'epoch': 10.9}
+{'loss': 0.0269, 'grad_norm': 0.46189069747924805, 'learning_rate': 1.7712000000000003e-05, 'epoch': 10.9}
+{'loss': 0.0381, 'grad_norm': 0.9427136182785034, 'learning_rate': 1.7715000000000002e-05, 'epoch': 10.9}
+{'loss': 0.0273, 'grad_norm': 0.7765113115310669, 'learning_rate': 1.7718000000000002e-05, 'epoch': 10.9}
+{'loss': 0.0262, 'grad_norm': 0.5198538899421692, 'learning_rate': 1.7721000000000002e-05, 'epoch': 10.9}
+{'loss': 0.0241, 'grad_norm': 0.4149373471736908, 'learning_rate': 1.7724000000000002e-05, 'epoch': 10.91}
+{'loss': 0.0174, 'grad_norm': 0.39832204580307007, 'learning_rate': 1.7727e-05, 'epoch': 10.91}
+{'loss': 0.0162, 'grad_norm': 0.46863245964050293, 'learning_rate': 1.7729999999999998e-05, 'epoch': 10.91}
+{'loss': 0.0229, 'grad_norm': 0.5959219932556152, 'learning_rate': 1.7732999999999998e-05, 'epoch': 10.91}
+{'loss': 0.0334, 'grad_norm': 0.626492977142334, 'learning_rate': 1.7735999999999998e-05, 'epoch': 10.91}
+{'loss': 0.0142, 'grad_norm': 0.35012662410736084, 'learning_rate': 1.7739e-05, 'epoch': 10.92}
+{'loss': 0.0281, 'grad_norm': 0.5902463793754578, 'learning_rate': 1.7742e-05, 'epoch': 10.92}
+{'loss': 0.017, 'grad_norm': 0.5554072856903076, 'learning_rate': 1.7745e-05, 'epoch': 10.92}
+{'loss': 0.0333, 'grad_norm': 0.5523650646209717, 'learning_rate': 1.7748e-05, 'epoch': 10.92}
+  6%|▌         | 5920/100000 [3:14:09<23:51:35,  1.10it/s]  6%|▌         | 5921/100000 [3:14:19<96:00:16,  3.67s/it]                                                            6%|▌         | 5921/100000 [3:14:19<96:00:16,  3.67s/it]  6%|▌         | 5922/100000 [3:14:24<108:02:28,  4.13s/it]                                                             6%|▌         | 5922/100000 [3:14:24<108:02:28,  4.13s/it]  6%|▌         | 5923/100000 [3:14:28<109:14:20,  4.18s/it]                                                             6%|▌         | 5923/100000 [3:14:28<109:14:20,  4.18s/it]  6%|▌         | 5924/100000 [3:14:32<103:32:54,  3.96s/it]                                                             6%|▌         | 5924/100000 [3:14:32<103:32:54,  3.96s/it]  6%|▌         | 5925/100000 [3:14:35<98:14:51,  3.76s/it]                                                             6%|▌         | 5925/100000 [3:14:35<98:14:51,  3.76s/it]  6%|▌         | 5926/100000 [3:14:38<91:48:25,  3.51s/it]                                                            6%|▌         | 5926/100000 [3:14:38<91:48:25,  3.51s/it]  6%|▌         | 5927/100000 [3:14:40<84:51:38,  3.25s/it]                                                            6%|▌         | 5927/100000 [3:14:40<84:51:38,  3.25s/it]  6%|▌         | 5928/100000 [3:14:43<78:17:38,  3.00s/it]                                                            6%|▌         | 5928/100000 [3:14:43<78:17:38,  3.00s/it]  6%|▌         | 5929/100000 [3:14:45<72:06:11,  2.76s/it]                                                            6%|▌         | 5929/100000 [3:14:45<72:06:11,  2.76s/it]  6%|▌         | 5930/100000 [3:14:47<66:32:21,  2.55s/it]                                                            6%|▌         | 5930/100000 [3:14:47<66:32:21,  2.55s/it]  6%|▌         | 5931/100000 [3:14:49<61:47:05,  2.36s/it]                                                            6%|▌         | 5931/100000 [3:14:49<61:47:05,  2.36s/it]  6%|▌         | 5932/100000 [3:14:51<56:54:13,  2.18s/it]                                                            6%|▌         | 5932/100000 [3:14:51<56:54:13,  2.18s/it]  6%|▌         | 5933/100000 [3:14:52<52:45:29,  2.02s/it]                                                            6%|▌         | 5933/100000 [3:14:52<52:45:29,  2.02s/it]  6%|▌         | 5934/100000 [3:14:54<49:41:12,  1.90s/it]                                                            6%|▌         | 5934/100000 [3:14:54<49:41:12,  1.90s/it]  6%|▌         | 5935/100000 [3:14:56<47:04:23,  1.80s/it]                                                            6%|▌         | 5935/100000 [3:14:56<47:04:23,  1.80s/it]  6%|▌         | 5936/100000 [3:14:57<44:59:38,  1.72s/it]                                                            6%|▌         | 5936/100000 [3:14:57<44:59:38,  1.72s/it]  6%|▌         | 5937/100000 [3:14:59<42:43:49,  1.64s/it]                                                            6%|▌         | 5937/100000 [3:14:59<42:43:49,  1.64s/it]  6%|▌         | 5938/100000 [3:15:00<41:19:24,  1.58s/it]                                                            6%|▌         | 5938/100000 [3:15:00<41:19:24,  1.58s/it]  6%|▌         | 5939/100000 [3:15:02<40:05:18,  1.53s/it]                                                            6%|▌         | 5939/100000 [3:15:02<40:05:18,  1.53s/it]  6%|▌         | 5940/100000 [3:15:03<38:59:13,  1.49s/it]                                                            6%|▌         | 5940/100000 [3:15:03<38:59:13,  1.49s/it]  6%|▌         | 5941/100000 [3:15:04<37:59:06,  1.45s/it]                                                            6%|▌         | 5941/100000 [3:15:04<37:59:06,  1.45s/it]  6%|▌         | 5942/100000 [3:15:06<37:07:24,  1.42s/it]                                                            6%|▌         | 5942/100000 [3:15:06<37:07:24,  1.42s/it]  6%|▌         | 5943/100000 [3:15:07<36:08:30,  1.38s/it]                                                            6%|▌         | 5943/100000 [3:15:07<36:08:30,  1.38s/it]  6%|▌         | 5944/100000 [3:15:08<35:22:03,  1.35s/it]                                                            6%|▌         | 5944/100000 [3:15:08<35:22:03,  1.35s/it]  6%|▌         | 5945/100000 [3:15:09<34:29:25,  1.32s/it]                                                            6%|▌         | 5945/100000 [3:15:09<34:29:25,  1.32s/it]  6%|▌         | 5946/100000 [3:15:11<33:45:17,  1.29s/it]                                                            6%|▌         | 5946/100000 [3:15:11<33:45:17,  1.29s/it]  6%|▌         | 5947/100000 [3:15:12<32:59:33,  1.26s/it]                                                            6%|▌         | 5947/100000 [3:15:12<32:59:33,  1.26s/it]  6%|▌         | 5948/100000 [3:15:13<32:21:41,  1.24s/it]                                                            6%|▌         | 5948/100000 [3:15:13<32:21:41,  1.24s/it]  6%|▌         | 5949/100000 [3:15:14<31:43:12,  1.21s/it]                                                            6%|▌         | 5949/100000 [3:15:14<31:43:12,  1.21s/it]  6%|▌         | 5950/100000 [3:15:15<32:01:07,  1.23s/it]                                                            6%|▌         | 5950/100000 [3:15:15<32:01:07,  1.23s/it]  6%|▌         | 5951/100000 [3:15:17<31:19:45,  1.20s/it]                                                            6%|▌         | 5951/100000 [3:15:17<31:19:45,  1.20s/it]  6%|▌         | 5952/100000 [3:15:18<30:30:21,  1.17s/it]                                                            6%|▌         | 5952/100000 [3:15:18<30:30:21,  1.17s/it]  6%|▌         | 5953/100000 [3:15:19<29:39:33,  1.14s/it]                                                            6%|▌         | 5953/100000 [3:15:19<29:39:33,  1.14s/it]  6%|▌         | 5954/100000 [3:15:20<28:54:05,  1.11s/it]                                                            6%|▌         | 5954/100000 [3:15:20<28:54:05,  1.11s/it]  6%|▌         | 5955/100000 [3:15:21<28:29:45,  1.09s/it]                                                            6%|▌         | 5955/100000 [3:15:21<28:29:45,  1.09s/it]  6%|▌         | 5956/100000 [3:15:22<27:42:31,  1.06s/it]                                                            6%|▌         | 5956/100000 [3:15:22<27:42:31,  1.06s/it]  6%|▌         | 5957/100000 [3:15:23<27:01:25,  1.03s/it]                                                            6%|▌         | 5957/100000 [3:15:23<27:01:25,  1.03s/it]  6%|▌         | 5958/100000 [3:15:24<26:18:06,  1.01s/it]                                                            6%|▌         | 5958/100000 [3:15:24<26:18:06,  1.01s/it]  6%|▌         | 5959/100000 [3:15:25<25:36:08,  1.02it/s]                                                            6%|▌         | 5959/100000 [3:15:25<25:36:08,  1.02it/s]  6%|▌         | 5960/100000 [3:15:26<25:19:23,  1.03it/s]                                                            6%|▌         | 5960/100000 [3:15:26<25:19:23,  1.03it/s]  6%|▌         | 5961/100000 [3:15:26<24:29:20,  1.07it/s]                                                            6%|▌         | 5961/100000 [3:15:26<24:29:20,  1.07it/s]  6%|▌         | 5962/100000 [3:15:27<23:37:00,  1.11it/s]                                                            6%|▌         | 5962/100000 [3:15:27<23:37:00,  1.11it/s]{'loss': 0.0231, 'grad_norm': 0.5115478038787842, 'learning_rate': 1.7751e-05, 'epoch': 10.92}
+{'loss': 0.2674, 'grad_norm': 0.8140024542808533, 'learning_rate': 1.7754e-05, 'epoch': 10.93}
+{'loss': 0.1972, 'grad_norm': 1.0150563716888428, 'learning_rate': 1.7757e-05, 'epoch': 10.93}
+{'loss': 0.1416, 'grad_norm': 0.8180074095726013, 'learning_rate': 1.776e-05, 'epoch': 10.93}
+{'loss': 0.154, 'grad_norm': 0.6263332962989807, 'learning_rate': 1.7763e-05, 'epoch': 10.93}
+{'loss': 0.1867, 'grad_norm': 0.7633740901947021, 'learning_rate': 1.7766e-05, 'epoch': 10.93}
+{'loss': 0.1033, 'grad_norm': 0.7075972557067871, 'learning_rate': 1.7769000000000002e-05, 'epoch': 10.93}
+{'loss': 0.1497, 'grad_norm': 0.9612365961074829, 'learning_rate': 1.7772000000000002e-05, 'epoch': 10.94}
+{'loss': 0.0802, 'grad_norm': 0.5302220582962036, 'learning_rate': 1.7775000000000002e-05, 'epoch': 10.94}
+{'loss': 0.1157, 'grad_norm': 0.7335618734359741, 'learning_rate': 1.7778e-05, 'epoch': 10.94}
+{'loss': 0.0775, 'grad_norm': 0.5661278963088989, 'learning_rate': 1.7781e-05, 'epoch': 10.94}
+{'loss': 0.0852, 'grad_norm': 0.580007016658783, 'learning_rate': 1.7784e-05, 'epoch': 10.94}
+{'loss': 0.0515, 'grad_norm': 0.7283288836479187, 'learning_rate': 1.7787e-05, 'epoch': 10.95}
+{'loss': 0.0598, 'grad_norm': 0.47408390045166016, 'learning_rate': 1.779e-05, 'epoch': 10.95}
+{'loss': 0.0297, 'grad_norm': 0.4382071793079376, 'learning_rate': 1.7793e-05, 'epoch': 10.95}
+{'loss': 0.0495, 'grad_norm': 0.4971558153629303, 'learning_rate': 1.7796e-05, 'epoch': 10.95}
+{'loss': 0.043, 'grad_norm': 1.1129035949707031, 'learning_rate': 1.7799000000000004e-05, 'epoch': 10.95}
+{'loss': 0.0481, 'grad_norm': 0.4687868654727936, 'learning_rate': 1.7802e-05, 'epoch': 10.95}
+{'loss': 0.0697, 'grad_norm': 0.611916184425354, 'learning_rate': 1.7805e-05, 'epoch': 10.96}
+{'loss': 0.0174, 'grad_norm': 0.5590572357177734, 'learning_rate': 1.7808e-05, 'epoch': 10.96}
+{'loss': 0.0227, 'grad_norm': 0.5645524263381958, 'learning_rate': 1.7811e-05, 'epoch': 10.96}
+{'loss': 0.0246, 'grad_norm': 0.5157508254051208, 'learning_rate': 1.7814e-05, 'epoch': 10.96}
+{'loss': 0.0357, 'grad_norm': 0.4864080250263214, 'learning_rate': 1.7817e-05, 'epoch': 10.96}
+{'loss': 0.0199, 'grad_norm': 0.3735795021057129, 'learning_rate': 1.782e-05, 'epoch': 10.97}
+{'loss': 0.0257, 'grad_norm': 0.5223242044448853, 'learning_rate': 1.7823e-05, 'epoch': 10.97}
+{'loss': 0.0186, 'grad_norm': 0.3293151259422302, 'learning_rate': 1.7826e-05, 'epoch': 10.97}
+{'loss': 0.0302, 'grad_norm': 0.6055980920791626, 'learning_rate': 1.7829e-05, 'epoch': 10.97}
+{'loss': 0.0225, 'grad_norm': 0.3997729420661926, 'learning_rate': 1.7832e-05, 'epoch': 10.97}
+{'loss': 0.025, 'grad_norm': 0.49927785992622375, 'learning_rate': 1.7835e-05, 'epoch': 10.98}
+{'loss': 0.037, 'grad_norm': 0.8552719950675964, 'learning_rate': 1.7838e-05, 'epoch': 10.98}
+{'loss': 0.0343, 'grad_norm': 0.7387699484825134, 'learning_rate': 1.7841e-05, 'epoch': 10.98}
+{'loss': 0.0288, 'grad_norm': 0.6182773113250732, 'learning_rate': 1.7844e-05, 'epoch': 10.98}
+{'loss': 0.0281, 'grad_norm': 0.6504404544830322, 'learning_rate': 1.7847e-05, 'epoch': 10.98}
+{'loss': 0.0247, 'grad_norm': 0.4910828173160553, 'learning_rate': 1.785e-05, 'epoch': 10.98}
+{'loss': 0.0296, 'grad_norm': 0.4561193585395813, 'learning_rate': 1.7853e-05, 'epoch': 10.99}
+{'loss': 0.0344, 'grad_norm': 0.7066456079483032, 'learning_rate': 1.7856e-05, 'epoch': 10.99}
+{'loss': 0.0296, 'grad_norm': 0.5314071178436279, 'learning_rate': 1.7859000000000003e-05, 'epoch': 10.99}
+{'loss': 0.0211, 'grad_norm': 0.5812799334526062, 'learning_rate': 1.7862000000000003e-05, 'epoch': 10.99}
+{'loss': 0.0136, 'grad_norm': 0.2950487732887268, 'learning_rate': 1.7865000000000003e-05, 'epoch': 10.99}
+{'loss': 0.041, 'grad_norm': 1.0167781114578247, 'learning_rate': 1.7868000000000002e-05, 'epoch': 11.0}
+{'loss': 0.0189, 'grad_norm': 0.41852226853370667, 'learning_rate': 1.7871000000000002e-05, 'epoch': 11.0}
+{'loss': 0.0239, 'grad_norm': 0.6753515005111694, 'learning_rate': 1.7874000000000002e-05, 'epoch': 11.0}
+{'loss': 0.0189, 'grad_norm': 0.3744104504585266, 'learning_rate': 1.7877e-05, 'epoch': 11.0}
+  6%|▌         | 5963/100000 [3:15:46<162:19:11,  6.21s/it]                                                             6%|▌         | 5963/100000 [3:15:46<162:19:11,  6.21s/it]  6%|▌         | 5964/100000 [3:15:51<156:13:41,  5.98s/it]                                                             6%|▌         | 5964/100000 [3:15:51<156:13:41,  5.98s/it]  6%|▌         | 5965/100000 [3:15:56<144:28:49,  5.53s/it]                                                             6%|▌         | 5965/100000 [3:15:56<144:28:49,  5.53s/it]  6%|▌         | 5966/100000 [3:16:00<131:48:12,  5.05s/it]                                                             6%|▌         | 5966/100000 [3:16:00<131:48:12,  5.05s/it]  6%|▌         | 5967/100000 [3:16:03<119:12:24,  4.56s/it]                                                             6%|▌         | 5967/100000 [3:16:03<119:12:24,  4.56s/it]  6%|▌         | 5968/100000 [3:16:07<109:32:27,  4.19s/it]                                                             6%|▌         | 5968/100000 [3:16:07<109:32:27,  4.19s/it]  6%|▌         | 5969/100000 [3:16:09<99:21:15,  3.80s/it]                                                             6%|▌         | 5969/100000 [3:16:09<99:21:15,  3.80s/it]  6%|▌         | 5970/100000 [3:16:12<91:27:26,  3.50s/it]                                                            6%|▌         | 5970/100000 [3:16:12<91:27:26,  3.50s/it]  6%|▌         | 5971/100000 [3:16:15<83:59:56,  3.22s/it]                                                            6%|▌         | 5971/100000 [3:16:15<83:59:56,  3.22s/it]  6%|▌         | 5972/100000 [3:16:17<77:04:26,  2.95s/it]                                                            6%|▌         | 5972/100000 [3:16:17<77:04:26,  2.95s/it]  6%|▌         | 5973/100000 [3:16:19<70:58:12,  2.72s/it]                                                            6%|▌         | 5973/100000 [3:16:19<70:58:12,  2.72s/it]  6%|▌         | 5974/100000 [3:16:21<65:47:56,  2.52s/it]                                                            6%|▌         | 5974/100000 [3:16:21<65:47:56,  2.52s/it]  6%|▌         | 5975/100000 [3:16:23<60:37:42,  2.32s/it]                                                            6%|▌         | 5975/100000 [3:16:23<60:37:42,  2.32s/it]  6%|▌         | 5976/100000 [3:16:25<56:32:57,  2.17s/it]                                                            6%|▌         | 5976/100000 [3:16:25<56:32:57,  2.17s/it]  6%|▌         | 5977/100000 [3:16:27<53:11:08,  2.04s/it]                                                            6%|▌         | 5977/100000 [3:16:27<53:11:08,  2.04s/it]  6%|▌         | 5978/100000 [3:16:28<49:49:01,  1.91s/it]                                                            6%|▌         | 5978/100000 [3:16:28<49:49:01,  1.91s/it]  6%|▌         | 5979/100000 [3:16:30<47:25:59,  1.82s/it]                                                            6%|▌         | 5979/100000 [3:16:30<47:25:59,  1.82s/it]  6%|▌         | 5980/100000 [3:16:31<45:30:46,  1.74s/it]                                                            6%|▌         | 5980/100000 [3:16:31<45:30:46,  1.74s/it]  6%|▌         | 5981/100000 [3:16:33<43:35:28,  1.67s/it]                                                            6%|▌         | 5981/100000 [3:16:33<43:35:28,  1.67s/it]  6%|▌         | 5982/100000 [3:16:34<41:44:20,  1.60s/it]                                                            6%|▌         | 5982/100000 [3:16:34<41:44:20,  1.60s/it]  6%|▌         | 5983/100000 [3:16:36<40:23:00,  1.55s/it]                                                            6%|▌         | 5983/100000 [3:16:36<40:23:00,  1.55s/it]  6%|▌         | 5984/100000 [3:16:37<39:21:26,  1.51s/it]                                                            6%|▌         | 5984/100000 [3:16:37<39:21:26,  1.51s/it]  6%|▌         | 5985/100000 [3:16:39<38:35:51,  1.48s/it]                                                            6%|▌         | 5985/100000 [3:16:39<38:35:51,  1.48s/it]  6%|▌         | 5986/100000 [3:16:40<37:48:38,  1.45s/it]                                                            6%|▌         | 5986/100000 [3:16:40<37:48:38,  1.45s/it]  6%|▌         | 5987/100000 [3:16:41<36:49:14,  1.41s/it]                                                            6%|▌         | 5987/100000 [3:16:41<36:49:14,  1.41s/it]  6%|▌         | 5988/100000 [3:16:43<36:15:48,  1.39s/it]                                                            6%|▌         | 5988/100000 [3:16:43<36:15:48,  1.39s/it]  6%|▌         | 5989/100000 [3:16:44<35:41:08,  1.37s/it]                                                            6%|▌         | 5989/100000 [3:16:44<35:41:08,  1.37s/it]  6%|▌         | 5990/100000 [3:16:45<35:10:06,  1.35s/it]                                                            6%|▌         | 5990/100000 [3:16:45<35:10:06,  1.35s/it]  6%|▌         | 5991/100000 [3:16:47<34:41:50,  1.33s/it]                                                            6%|▌         | 5991/100000 [3:16:47<34:41:50,  1.33s/it]  6%|▌         | 5992/100000 [3:16:48<34:10:25,  1.31s/it]                                                            6%|▌         | 5992/100000 [3:16:48<34:10:25,  1.31s/it]  6%|▌         | 5993/100000 [3:16:49<33:20:00,  1.28s/it]                                                            6%|▌         | 5993/100000 [3:16:49<33:20:00,  1.28s/it]  6%|▌         | 5994/100000 [3:16:50<32:53:52,  1.26s/it]                                                            6%|▌         | 5994/100000 [3:16:50<32:53:52,  1.26s/it]  6%|▌         | 5995/100000 [3:16:52<32:33:07,  1.25s/it]                                                            6%|▌         | 5995/100000 [3:16:52<32:33:07,  1.25s/it]  6%|▌         | 5996/100000 [3:16:53<31:44:30,  1.22s/it]                                                            6%|▌         | 5996/100000 [3:16:53<31:44:30,  1.22s/it]  6%|▌         | 5997/100000 [3:16:54<31:11:24,  1.19s/it]                                                            6%|▌         | 5997/100000 [3:16:54<31:11:24,  1.19s/it]  6%|▌         | 5998/100000 [3:16:55<30:44:13,  1.18s/it]                                                            6%|▌         | 5998/100000 [3:16:55<30:44:13,  1.18s/it]  6%|▌         | 5999/100000 [3:16:56<30:22:24,  1.16s/it]                                                            6%|▌         | 5999/100000 [3:16:56<30:22:24,  1.16s/it]  6%|▌         | 6000/100000 [3:16:57<29:31:58,  1.13s/it]                                                            6%|▌         | 6000/100000 [3:16:57<29:31:58,  1.13s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.2933, 'grad_norm': 0.7426442503929138, 'learning_rate': 1.7879999999999998e-05, 'epoch': 11.0}
+{'loss': 0.1877, 'grad_norm': 0.6798139810562134, 'learning_rate': 1.7882999999999998e-05, 'epoch': 11.0}
+{'loss': 0.2133, 'grad_norm': 0.5603246688842773, 'learning_rate': 1.7885999999999998e-05, 'epoch': 11.01}
+{'loss': 0.1866, 'grad_norm': 0.8107830286026001, 'learning_rate': 1.7889e-05, 'epoch': 11.01}
+{'loss': 0.1359, 'grad_norm': 0.7005266547203064, 'learning_rate': 1.7892e-05, 'epoch': 11.01}
+{'loss': 0.1772, 'grad_norm': 0.8084649443626404, 'learning_rate': 1.7895e-05, 'epoch': 11.01}
+{'loss': 0.1294, 'grad_norm': 0.8491911292076111, 'learning_rate': 1.7898e-05, 'epoch': 11.01}
+{'loss': 0.1238, 'grad_norm': 0.7015768885612488, 'learning_rate': 1.7901e-05, 'epoch': 11.01}
+{'loss': 0.088, 'grad_norm': 0.7217311263084412, 'learning_rate': 1.7904e-05, 'epoch': 11.02}
+{'loss': 0.0878, 'grad_norm': 0.6328301429748535, 'learning_rate': 1.7907e-05, 'epoch': 11.02}
+{'loss': 0.0828, 'grad_norm': 0.6157311201095581, 'learning_rate': 1.791e-05, 'epoch': 11.02}
+{'loss': 0.0616, 'grad_norm': 0.5200340747833252, 'learning_rate': 1.7913e-05, 'epoch': 11.02}
+{'loss': 0.188, 'grad_norm': 1.4208979606628418, 'learning_rate': 1.7916e-05, 'epoch': 11.02}
+{'loss': 0.0323, 'grad_norm': 0.47305992245674133, 'learning_rate': 1.7919000000000002e-05, 'epoch': 11.03}
+{'loss': 0.044, 'grad_norm': 0.46868613362312317, 'learning_rate': 1.7922000000000002e-05, 'epoch': 11.03}
+{'loss': 0.0702, 'grad_norm': 0.8581869006156921, 'learning_rate': 1.7925000000000002e-05, 'epoch': 11.03}
+{'loss': 0.0424, 'grad_norm': 0.5283058285713196, 'learning_rate': 1.7928000000000002e-05, 'epoch': 11.03}
+{'loss': 0.0484, 'grad_norm': 0.5160033106803894, 'learning_rate': 1.7931e-05, 'epoch': 11.03}
+{'loss': 0.0201, 'grad_norm': 0.8869902491569519, 'learning_rate': 1.7934e-05, 'epoch': 11.04}
+{'loss': 0.0361, 'grad_norm': 0.5846513509750366, 'learning_rate': 1.7937e-05, 'epoch': 11.04}
+{'loss': 0.018, 'grad_norm': 0.3070891797542572, 'learning_rate': 1.794e-05, 'epoch': 11.04}
+{'loss': 0.0414, 'grad_norm': 0.6062940359115601, 'learning_rate': 1.7943e-05, 'epoch': 11.04}
+{'loss': 0.0183, 'grad_norm': 0.3984304964542389, 'learning_rate': 1.7946e-05, 'epoch': 11.04}
+{'loss': 0.0151, 'grad_norm': 0.4931993782520294, 'learning_rate': 1.7949e-05, 'epoch': 11.04}
+{'loss': 0.0291, 'grad_norm': 0.6660001873970032, 'learning_rate': 1.7952e-05, 'epoch': 11.05}
+{'loss': 0.0191, 'grad_norm': 0.6292256116867065, 'learning_rate': 1.7955e-05, 'epoch': 11.05}
+{'loss': 0.0171, 'grad_norm': 0.4108259975910187, 'learning_rate': 1.7958e-05, 'epoch': 11.05}
+{'loss': 0.0188, 'grad_norm': 0.4854716658592224, 'learning_rate': 1.7961e-05, 'epoch': 11.05}
+{'loss': 0.0191, 'grad_norm': 0.9647286534309387, 'learning_rate': 1.7964e-05, 'epoch': 11.05}
+{'loss': 0.0599, 'grad_norm': 0.733239471912384, 'learning_rate': 1.7967e-05, 'epoch': 11.06}
+{'loss': 0.0164, 'grad_norm': 0.3580063283443451, 'learning_rate': 1.797e-05, 'epoch': 11.06}
+{'loss': 0.0144, 'grad_norm': 0.40893301367759705, 'learning_rate': 1.7973e-05, 'epoch': 11.06}
+{'loss': 0.0136, 'grad_norm': 0.3047679364681244, 'learning_rate': 1.7976e-05, 'epoch': 11.06}
+{'loss': 0.0204, 'grad_norm': 0.45307955145835876, 'learning_rate': 1.7979000000000002e-05, 'epoch': 11.06}
+{'loss': 0.0208, 'grad_norm': 0.8502277135848999, 'learning_rate': 1.7982e-05, 'epoch': 11.06}
+{'loss': 0.0282, 'grad_norm': 0.6238176822662354, 'learning_rate': 1.7985e-05, 'epoch': 11.07}
+{'loss': 0.0182, 'grad_norm': 0.42590227723121643, 'learning_rate': 1.7988e-05, 'epoch': 11.07}
+{'loss': 0.0299, 'grad_norm': 0.554565966129303, 'learning_rate': 1.7991e-05, 'epoch': 11.07}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.79it/s][A
+ 30%|███       | 3/10 [00:02<00:06,  1.03it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.28it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.16s/it][A
+ 60%|██████    | 6/10 [00:05<00:03,  1.03it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.13s/it][A
+ 80%|████████  | 8/10 [00:07<00:01,  1.05it/s][A
+ 90%|█████████ | 9/10 [00:09<00:01,  1.20s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.04it/s][A                                                          
+                                               [A  6%|▌         | 6000/100000 [3:17:30<29:31:58,  1.13s/it]
+100%|██████████| 10/10 [00:10<00:00,  1.04it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-6000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-6000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-6000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-6000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-6000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-6000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-6000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-4000] due to args.save_total_limit
+  6%|▌         | 6001/100000 [3:17:43<381:47:24, 14.62s/it]                                                             6%|▌         | 6001/100000 [3:17:43<381:47:24, 14.62s/it]  6%|▌         | 6002/100000 [3:17:44<275:58:16, 10.57s/it]                                                             6%|▌         | 6002/100000 [3:17:44<275:58:16, 10.57s/it]  6%|▌         | 6003/100000 [3:17:45<201:35:15,  7.72s/it]                                                             6%|▌         | 6003/100000 [3:17:45<201:35:15,  7.72s/it]  6%|▌         | 6004/100000 [3:17:46<149:33:46,  5.73s/it]                                                             6%|▌         | 6004/100000 [3:17:46<149:33:46,  5.73s/it]  6%|▌         | 6005/100000 [3:17:48<112:57:48,  4.33s/it]                                                             6%|▌         | 6005/100000 [3:17:48<112:57:48,  4.33s/it]  6%|▌         | 6006/100000 [3:17:49<87:10:51,  3.34s/it]                                                             6%|▌         | 6006/100000 [3:17:49<87:10:51,  3.34s/it]  6%|▌         | 6007/100000 [3:17:50<68:45:03,  2.63s/it]                                                            6%|▌         | 6007/100000 [3:17:50<68:45:03,  2.63s/it]  6%|▌         | 6008/100000 [3:17:51<55:41:39,  2.13s/it]                                                            6%|▌         | 6008/100000 [3:17:51<55:41:39,  2.13s/it]  6%|▌         | 6009/100000 [3:17:51<46:36:50,  1.79s/it]                                                            6%|▌         | 6009/100000 [3:17:52<46:36:50,  1.79s/it]  6%|▌         | 6010/100000 [3:17:52<40:12:26,  1.54s/it]                                                            6%|▌         | 6010/100000 [3:17:52<40:12:26,  1.54s/it]  6%|▌         | 6011/100000 [3:17:53<35:27:56,  1.36s/it]                                                            6%|▌         | 6011/100000 [3:17:53<35:27:56,  1.36s/it]  6%|▌         | 6012/100000 [3:17:54<32:18:26,  1.24s/it]                                                            6%|▌         | 6012/100000 [3:17:54<32:18:26,  1.24s/it]  6%|▌         | 6013/100000 [3:18:06<109:58:14,  4.21s/it]                                                             6%|▌         | 6013/100000 [3:18:06<109:58:14,  4.21s/it]  6%|▌         | 6014/100000 [3:18:11<120:28:24,  4.61s/it]                                                             6%|▌         | 6014/100000 [3:18:11<120:28:24,  4.61s/it]  6%|▌         | 6015/100000 [3:18:15<118:02:49,  4.52s/it]                                                             6%|▌         | 6015/100000 [3:18:15<118:02:49,  4.52s/it]  6%|▌         | 6016/100000 [3:18:19<111:40:57,  4.28s/it]                                                             6%|▌         | 6016/100000 [3:18:19<111:40:57,  4.28s/it]  6%|▌         | 6017/100000 [3:18:22<104:57:18,  4.02s/it]                                                             6%|▌         | 6017/100000 [3:18:23<104:57:18,  4.02s/it]  6%|▌         | 6018/100000 [3:18:26<97:21:28,  3.73s/it]                                                             6%|▌         | 6018/100000 [3:18:26<97:21:28,  3.73s/it]  6%|▌         | 6019/100000 [3:18:28<89:31:53,  3.43s/it]                                                            6%|▌         | 6019/100000 [3:18:28<89:31:53,  3.43s/it]  6%|▌         | 6020/100000 [3:18:31<83:13:33,  3.19s/it]                                                            6%|▌         | 6020/100000 [3:18:31<83:13:33,  3.19s/it]  6%|▌         | 6021/100000 [3:18:33<76:11:49,  2.92s/it]                                                            6%|▌         | 6021/100000 [3:18:33<76:11:49,  2.92s/it]  6%|▌         | 6022/100000 [3:18:35<70:09:42,  2.69s/it]                                                            6%|▌         | 6022/100000 [3:18:35<70:09:42,  2.69s/it]  6%|▌         | 6023/100000 [3:18:37<65:20:13,  2.50s/it]                                                            6%|▌         | 6023/100000 [3:18:37<65:20:13,  2.50s/it]  6%|▌         | 6024/100000 [3:18:39<61:08:51,  2.34s/it]                                                            6%|▌         | 6024/100000 [3:18:39<61:08:51,  2.34s/it]  6%|▌         | 6025/100000 [3:18:41<57:13:42,  2.19s/it]                                                            6%|▌         | 6025/100000 [3:18:41<57:13:42,  2.19s/it]  6%|▌         | 6026/100000 [3:18:43<53:48:23,  2.06s/it]                                                            6%|▌         | 6026/100000 [3:18:43<53:48:23,  2.06s/it]  6%|▌         | 6027/100000 [3:18:45<51:16:28,  1.96s/it]                                                            6%|▌         | 6027/100000 [3:18:45<51:16:28,  1.96s/it]  6%|▌         | 6028/100000 [3:18:46<48:43:04,  1.87s/it]                                                            6%|▌         | 6028/100000 [3:18:46<48:43:04,  1.87s/it]  6%|▌         | 6029/100000 [3:18:48<46:37:43,  1.79s/it]                                                            6%|▌         | 6029/100000 [3:18:48<46:37:43,  1.79s/it]  6%|▌         | 6030/100000 [3:18:49<44:22:34,  1.70s/it]                                                            6%|▌         | 6030/100000 [3:18:49<44:22:34,  1.70s/it]  6%|▌         | 6031/100000 [3:18:51<42:49:24,  1.64s/it]                                                            6%|▌         | 6031/100000 [3:18:51<42:49:24,  1.64s/it]  6%|▌         | 6032/100000 [3:18:52<41:23:16,  1.59s/it]                                                            6%|▌         | 6032/100000 [3:18:52<41:23:16,  1.59s/it]  6%|▌         | 6033/100000 [3:18:54<40:22:33,  1.55s/it]                                                            6%|▌         | 6033/100000 [3:18:54<40:22:33,  1.55s/it]  6%|▌         | 6034/100000 [3:18:55<39:23:54,  1.51s/it]                                                            6%|▌         | 6034/100000 [3:18:55<39:23:54,  1.51s/it]  6%|▌         | 6035/100000 [3:18:57<38:31:18,  1.48s/it]                                                            6%|▌         | 6035/100000 [3:18:57<38:31:18,  1.48s/it]  6%|▌         | 6036/100000 [3:18:58<37:43:06,  1.45s/it]                                                            6%|▌         | 6036/100000 [3:18:58<37:43:06,  1.45s/it]  6%|▌         | 6037/100000 [3:18:59<36:59:57,  1.42s/it]                                                            6%|▌         | 6037/100000 [3:18:59<36:59:57,  1.42s/it]  6%|▌         | 6038/100000 [3:19:01<36:21:26,  1.39s/it]                                                            6%|▌         | 6038/100000 [3:19:01<36:21:26,  1.39s/it]  6%|▌         | 6039/100000 [3:19:02<35:28:38,  1.36s/it]                                                            6%|▌         | 6039/100000 [3:19:02<35:28:38,  1.36s/it]  6%|▌         | 6040/100000 [3:19:03<35:16:34,  1.35s/it]                                                            6%|▌         | 6040/100000 [3:19:03<35:16:34,  1.35s/it]  6%|▌         | 6041/100000 [3:19:05<34:49:05,  1.33s/it]                                                            6%|▌         | 6041/100000 [3:19:05<34:49:05,  1.33s/it]  6%|▌         | 6042/100000 [3:19:06<34:15:31,  1.31s/it]                                                            6%|▌         | 6042/100000 [3:19:06<34:15:31,  1.31s/it]  6%|▌         | 6043/100000 [3:19:07<33:35:59,  1.29s/it]                                                            6%|▌         | 6043/100000 [3:19:07<33:35:59,  1.29s/it]  6%|▌         | 6044/100000 [3:19:08<33:09:58,  1.27s/it]                                                            6%|▌         | 6044/100000 [3:19:08<33:09:58,  1.27s/it]  6%|▌         | 6045/100000 [3:19:10<32:47:15,  1.26s/it]                                                            6%|▌         | 6045/100000 [3:19:10<32:47:15,  1.26s/it]  6%|▌         | 6046/100000 [3:19:11<31:48:34,  1.22s/it]                                                            6%|▌         | 6046/100000 [3:19:11<31:48:34,  1.22s/it]  6%|▌         | 6047/100000 [3:19:12<31:24:35,  1.20s/it]                                                            6%|▌         | 6047/100000 [3:19:12<31:24:35,  1.20s/it]  6%|▌         | 6048/100000 [3:19:13<30:55:45,  1.19s/it]                                                            6%|▌         | 6048/100000 [3:19:13<30:55:45,  1.19s/it]  6%|▌         | 6049/100000 [3:19:14<30:39:16,  1.17s/it]                                                            6%|▌         | 6049/100000 [3:19:14<30:39:16,  1.17s/it]  6%|▌         | 6050/100000 [3:19:15<30:12:52,  1.16s/it]                                                            6%|▌         | 6050/100000 [3:19:15<30:12:52,  1.16s/it]  6%|▌         | 6051/100000 [3:19:16<29:38:23,  1.14s/it]                                                            6%|▌         | 6051/100000 [3:19:16<29:38:23,  1.14s/it]  6%|▌         | 6052/100000 [3:19:18<29:33:42,  1.13s/it]                                                            6%|▌         | 6052/100000 [3:19:18<29:33:42,  1.13s/it]  6%|▌         | 6053/100000 [3:19:19<29:22:51,  1.13s/it]                                                            6%|▌         | 6053/100000 [3:19:19<29:22:51,  1.13s/it]  6%|▌         | 6054/100000 [3:19:20<29:09:55,  1.12s/it]                                                            6%|▌         | 6054/100000 [3:19:20<29:09:55,  1.12s/it]  6%|▌         | 6055/100000 [3:19:21<28:52:34,  1.11s/it]                                                            6%|▌         | 6055/100000 [3:19:21<28:52:34,  1.11s/it]  6%|▌         | 6056/100000 [3:19:22<28:09:30,  1.08s/it]                                                            6%|▌         | 6056/100000 [3:19:22<28:09:30,  1.08s/it]  6%|▌         | 6057/100000 [3:19:23<27:33:03,  1.06s/it]                                                            6%|▌         | 6057/100000 [3:19:23<27:33:03,  1.06s/it]  6%|▌         | 6058/100000 [3:19:24<27:02:25,  1.04s/it]                                                            6%|▌         | 6058/100000 [3:19:24<27:02:25,  1.04s/it]  6%|▌         | 6059/100000 [3:19:25<26:12:12,  1.00s/it]                                                            6%|▌         | 6059/100000 [3:19:25<26:12:12,  1.00s/it]  6%|▌         | 6060/100000 [3:19:26<25:24:58,  1.03it/s]                                                            6%|▌         | 6060/100000 [3:19:26<25:24:58,  1.03it/s]  6%|▌         | 6061/100000 [3:19:27<25:15:55,  1.03it/s]                                                            6%|▌         | 6061/100000 [3:19:27<25:15:55,  1.03it/s]  6%|▌         | 6062/100000 [3:19:28<25:10:29,  1.04it/s]                                                            6%|▌         | 6062/100000 [3:19:28<25:10:29,  1.04it/s]  6%|▌         | 6063/100000 [3:19:38<101:13:29,  3.88s/it]                                                             6%|▌         | 6063/100000 [3:19:38<101:13:29,  3.88s/it]  6%|▌         | 6064/100000 [3:19:44<115:41:59,  4.43s/it]                                                             6%|▌         | 6064/100000 [3:19:44<115:41:59,  4.43s/it]  6%|▌         | 6065/100000 [3:19:48<116:20:24,  4.46s/it]                                                             6%|▌         | 6065/100000 [3:19:49<116:20:24,  4.46s/it]  6%|▌         | 6066/100000 [3:19:52<110:59:13,  4.25s/it]                                                             6%|▌         | 6066/100000 [3:19:52<110:59:13,  4.25s/it]  6%|▌         | 6067/100000 [3:19:55<103:01:10,  3.95s/it]                                                             6%|▌         | 6067/100000 [3:19:56<103:01:10,  3.95s/it]  6%|▌         | 6068/100000 [3:19:59<96:20:20,  3.69s/it]                                                             6%|▌         | 6068/100000 [3:19:59<96:20:20,  3.69s/it]  6%|▌         | 6069/100000 [3:20:01<89:20:33,  3.42s/it]                                                            6%|▌         | 6069/100000 [3:20:01<89:20:33,  3.42s/it]  6%|▌         | 6070/100000 [3:20:04<83:24:27,  3.20s/it]                                                            6%|▌         | 6070/100000 [3:20:04<83:24:27,  3.20s/it]  6%|▌         | 6071/100000 [3:20:07<77:31:11,  2.97s/it]                                                            6%|▌         | 6071/100000 [3:20:07<77:31:11,  2.97s/it]  6%|▌         | 6072/100000 [3:20:09<72:18:07,  2.77s/it]                                                            6%|▌         | 6072/100000 [3:20:09<72:18:07,  2.77s/it]  6%|▌         | 6073/100000 [3:20:11<67:18:48,  2.58s/it]                                                            6%|▌         | 6073/100000 [3:20:11<67:18:48,  2.58s/it]  6%|▌         | 6074/100000 [3:20:13<62:49:58,  2.41s/it]                                                            6%|▌         | 6074/100000 [3:20:13<62:49:58,  2.41s/it]  6%|▌         | 6075/100000 [3:20:15<59:14:53,  2.27s/it]                                                            6%|▌         | 6075/100000 [3:20:15<59:14:53,  2.27s/it]  6%|▌         | 6076/100000 [3:20:17<55:38:46,  2.13s/it]                                                            6%|▌         | 6076/100000 [3:20:17<55:38:46,  2.13s/it]  6%|▌         | 6077/100000 [3:20:18<52:38:15,  2.02s/it]                                                            6%|▌         | 6077/100000 [3:20:18<52:38:15,  2.02s/it]  6%|▌         | 6078/100000 [3:20:20<49:54:33,  1.91s/it]                                                            6%|▌         | 6078/100000 [3:20:20<49:54:33,  1.91s/it]  6%|▌         | 6079/100000 [3:20:22<47:39:27,  1.83s/it]                                                            6%|▌         | 6079/100000 [3:20:22<47:39:27,  1.83s/it]  6%|▌         | 6080/100000 [3:20:23<45:43:33,  1.75s/it]                                                            6%|▌         | 6080/100000 [3:20:23<45:43:33,  1.75s/it]  6%|▌         | 6081/100000 [3:20:25<43:53:39,  1.68s/it]                                                            6%|▌         | 6081/100000 [3:20:25<43:53:39,  1.68s/it]  6%|▌         | 6082/100000 [3:20:26<43:18:06,  1.66s/it]                                                          {'eval_loss': 0.328770250082016, 'eval_wer': 0.41596316193399846, 'eval_cer': 0.11734971615211136, 'eval_runtime': 16.1595, 'eval_samples_per_second': 18.812, 'eval_steps_per_second': 0.619, 'epoch': 11.07}
+{'loss': 0.0324, 'grad_norm': 0.7954382300376892, 'learning_rate': 1.7994e-05, 'epoch': 11.07}
+{'loss': 0.0172, 'grad_norm': 0.3789304494857788, 'learning_rate': 1.7997e-05, 'epoch': 11.07}
+{'loss': 0.0156, 'grad_norm': 0.36132848262786865, 'learning_rate': 1.8e-05, 'epoch': 11.08}
+{'loss': 0.0261, 'grad_norm': 0.7410117387771606, 'learning_rate': 1.8003e-05, 'epoch': 11.08}
+{'loss': 0.0183, 'grad_norm': 0.46199312806129456, 'learning_rate': 1.8006e-05, 'epoch': 11.08}
+{'loss': 0.0241, 'grad_norm': 0.5138466358184814, 'learning_rate': 1.8009e-05, 'epoch': 11.08}
+{'loss': 0.0251, 'grad_norm': 0.7309773564338684, 'learning_rate': 1.8012000000000003e-05, 'epoch': 11.08}
+{'loss': 0.014, 'grad_norm': 0.40339091420173645, 'learning_rate': 1.8015000000000003e-05, 'epoch': 11.08}
+{'loss': 0.0278, 'grad_norm': 0.7696073055267334, 'learning_rate': 1.8018000000000003e-05, 'epoch': 11.09}
+{'loss': 0.0336, 'grad_norm': 0.9116730690002441, 'learning_rate': 1.8021000000000002e-05, 'epoch': 11.09}
+{'loss': 0.0413, 'grad_norm': 1.1889814138412476, 'learning_rate': 1.8024e-05, 'epoch': 11.09}
+{'loss': 0.0312, 'grad_norm': 1.3130958080291748, 'learning_rate': 1.8027e-05, 'epoch': 11.09}
+{'loss': 0.2037, 'grad_norm': 0.7441951036453247, 'learning_rate': 1.803e-05, 'epoch': 11.09}
+{'loss': 0.1776, 'grad_norm': 0.6344949007034302, 'learning_rate': 1.8032999999999998e-05, 'epoch': 11.1}
+{'loss': 0.236, 'grad_norm': 0.8395406007766724, 'learning_rate': 1.8035999999999998e-05, 'epoch': 11.1}
+{'loss': 0.1972, 'grad_norm': 0.7685767412185669, 'learning_rate': 1.8038999999999998e-05, 'epoch': 11.1}
+{'loss': 0.2188, 'grad_norm': 0.8736318945884705, 'learning_rate': 1.8042e-05, 'epoch': 11.1}
+{'loss': 0.0933, 'grad_norm': 0.5640191435813904, 'learning_rate': 1.8045e-05, 'epoch': 11.1}
+{'loss': 0.0808, 'grad_norm': 0.521339476108551, 'learning_rate': 1.8048e-05, 'epoch': 11.11}
+{'loss': 0.1305, 'grad_norm': 0.6846213936805725, 'learning_rate': 1.8051e-05, 'epoch': 11.11}
+{'loss': 0.0898, 'grad_norm': 0.7579799890518188, 'learning_rate': 1.8054e-05, 'epoch': 11.11}
+{'loss': 0.0999, 'grad_norm': 0.5198628306388855, 'learning_rate': 1.8057e-05, 'epoch': 11.11}
+{'loss': 0.0805, 'grad_norm': 0.5691999793052673, 'learning_rate': 1.806e-05, 'epoch': 11.11}
+{'loss': 0.0517, 'grad_norm': 0.5658872723579407, 'learning_rate': 1.8063e-05, 'epoch': 11.11}
+{'loss': 0.0653, 'grad_norm': 0.47111114859580994, 'learning_rate': 1.8066e-05, 'epoch': 11.12}
+{'loss': 0.0678, 'grad_norm': 0.5160207748413086, 'learning_rate': 1.8069e-05, 'epoch': 11.12}
+{'loss': 0.0425, 'grad_norm': 0.5169432163238525, 'learning_rate': 1.8072000000000002e-05, 'epoch': 11.12}
+{'loss': 0.0303, 'grad_norm': 0.3853415548801422, 'learning_rate': 1.8075000000000002e-05, 'epoch': 11.12}
+{'loss': 0.0147, 'grad_norm': 0.4425393044948578, 'learning_rate': 1.8078000000000002e-05, 'epoch': 11.12}
+{'loss': 0.0306, 'grad_norm': 0.46627745032310486, 'learning_rate': 1.8081000000000002e-05, 'epoch': 11.13}
+{'loss': 0.0487, 'grad_norm': 0.4932944178581238, 'learning_rate': 1.8084e-05, 'epoch': 11.13}
+{'loss': 0.01, 'grad_norm': 0.43220511078834534, 'learning_rate': 1.8087e-05, 'epoch': 11.13}
+{'loss': 0.0253, 'grad_norm': 1.317031741142273, 'learning_rate': 1.809e-05, 'epoch': 11.13}
+{'loss': 0.0114, 'grad_norm': 0.2857363820075989, 'learning_rate': 1.8093e-05, 'epoch': 11.13}
+{'loss': 0.0329, 'grad_norm': 1.058005690574646, 'learning_rate': 1.8096e-05, 'epoch': 11.13}
+{'loss': 0.0236, 'grad_norm': 0.6060735583305359, 'learning_rate': 1.8098999999999997e-05, 'epoch': 11.14}
+{'loss': 0.0267, 'grad_norm': 0.4277653694152832, 'learning_rate': 1.8102e-05, 'epoch': 11.14}
+{'loss': 0.0375, 'grad_norm': 0.42562127113342285, 'learning_rate': 1.8105e-05, 'epoch': 11.14}
+{'loss': 0.0179, 'grad_norm': 0.4103083312511444, 'learning_rate': 1.8108e-05, 'epoch': 11.14}
+{'loss': 0.0222, 'grad_norm': 0.5249040722846985, 'learning_rate': 1.8111e-05, 'epoch': 11.14}
+{'loss': 0.0161, 'grad_norm': 0.3144191801548004, 'learning_rate': 1.8114e-05, 'epoch': 11.15}
+{'loss': 0.0518, 'grad_norm': 0.9872508645057678, 'learning_rate': 1.8117e-05, 'epoch': 11.15}
+{'loss': 0.0265, 'grad_norm': 0.44013455510139465, 'learning_rate': 1.812e-05, 'epoch': 11.15}
+{'loss': 0.0194, 'grad_norm': 0.4432675540447235, 'learning_rate': 1.8123e-05, 'epoch': 11.15}
+{'loss': 0.0187, 'grad_norm': 0.3006099462509155, 'learning_rate': 1.8126e-05, 'epoch': 11.15}
+{'loss': 0.0195, 'grad_norm': 0.3285147547721863, 'learning_rate': 1.8129e-05, 'epoch': 11.16}
+{'loss': 0.0152, 'grad_norm': 0.29914382100105286, 'learning_rate': 1.8132000000000002e-05, 'epoch': 11.16}
+{'loss': 0.0245, 'grad_norm': 1.1159223318099976, 'learning_rate': 1.8135000000000002e-05, 'epoch': 11.16}
+{'loss': 0.0177, 'grad_norm': 0.45235589146614075, 'learning_rate': 1.8138e-05, 'epoch': 11.16}
+{'loss': 0.027, 'grad_norm': 0.5673660039901733, 'learning_rate': 1.8141e-05, 'epoch': 11.16}
+{'loss': 0.021, 'grad_norm': 0.4398684799671173, 'learning_rate': 1.8144e-05, 'epoch': 11.16}
+{'loss': 0.0465, 'grad_norm': 0.9551856517791748, 'learning_rate': 1.8147e-05, 'epoch': 11.17}
+{'loss': 0.0261, 'grad_norm': 0.7103539705276489, 'learning_rate': 1.815e-05, 'epoch': 11.17}
+{'loss': 0.0183, 'grad_norm': 1.8120602369308472, 'learning_rate': 1.8153e-05, 'epoch': 11.17}
+{'loss': 0.0201, 'grad_norm': 0.4405721127986908, 'learning_rate': 1.8156e-05, 'epoch': 11.17}
+{'loss': 0.0172, 'grad_norm': 0.4213368892669678, 'learning_rate': 1.8159e-05, 'epoch': 11.17}
+{'loss': 0.0106, 'grad_norm': 0.4763179123401642, 'learning_rate': 1.8162000000000003e-05, 'epoch': 11.18}
+{'loss': 0.0176, 'grad_norm': 0.33773693442344666, 'learning_rate': 1.8165000000000003e-05, 'epoch': 11.18}
+{'loss': 0.0281, 'grad_norm': 0.7333492636680603, 'learning_rate': 1.8168000000000003e-05, 'epoch': 11.18}
+{'loss': 0.0119, 'grad_norm': 0.3161907494068146, 'learning_rate': 1.8171e-05, 'epoch': 11.18}
+{'loss': 0.024, 'grad_norm': 0.7705785632133484, 'learning_rate': 1.8174e-05, 'epoch': 11.18}
+{'loss': 0.0143, 'grad_norm': 0.6240018606185913, 'learning_rate': 1.8177e-05, 'epoch': 11.18}
+{'loss': 0.3074, 'grad_norm': 1.3212826251983643, 'learning_rate': 1.818e-05, 'epoch': 11.19}
+{'loss': 0.1793, 'grad_norm': 0.6692222356796265, 'learning_rate': 1.8183e-05, 'epoch': 11.19}
+{'loss': 0.14, 'grad_norm': 0.6634356379508972, 'learning_rate': 1.8186e-05, 'epoch': 11.19}
+{'loss': 0.1288, 'grad_norm': 0.6485190987586975, 'learning_rate': 1.8188999999999998e-05, 'epoch': 11.19}
+{'loss': 0.1893, 'grad_norm': 0.7990904450416565, 'learning_rate': 1.8192e-05, 'epoch': 11.19}
+{'loss': 0.1558, 'grad_norm': 0.7302971482276917, 'learning_rate': 1.8195e-05, 'epoch': 11.2}
+{'loss': 0.1101, 'grad_norm': 0.6865899562835693, 'learning_rate': 1.8198e-05, 'epoch': 11.2}
+{'loss': 0.1269, 'grad_norm': 0.6729971766471863, 'learning_rate': 1.8201e-05, 'epoch': 11.2}
+{'loss': 0.13, 'grad_norm': 0.725504457950592, 'learning_rate': 1.8204e-05, 'epoch': 11.2}
+{'loss': 0.0995, 'grad_norm': 0.5052322149276733, 'learning_rate': 1.8207e-05, 'epoch': 11.2}
+{'loss': 0.1422, 'grad_norm': 0.8587621450424194, 'learning_rate': 1.821e-05, 'epoch': 11.2}
+{'loss': 0.0913, 'grad_norm': 0.4450884461402893, 'learning_rate': 1.8213e-05, 'epoch': 11.21}
+{'loss': 0.0399, 'grad_norm': 0.6525385975837708, 'learning_rate': 1.8216e-05, 'epoch': 11.21}
+{'loss': 0.0398, 'grad_norm': 0.4793529510498047, 'learning_rate': 1.8219e-05, 'epoch': 11.21}
+{'loss': 0.0483, 'grad_norm': 0.6193368434906006, 'learning_rate': 1.8222000000000003e-05, 'epoch': 11.21}
+{'loss': 0.0243, 'grad_norm': 0.2656480669975281, 'learning_rate': 1.8225000000000003e-05, 'epoch': 11.21}
+{'loss': 0.0286, 'grad_norm': 0.3633423447608948, 'learning_rate': 1.8228000000000002e-05, 'epoch': 11.22}
+{'loss': 0.0353, 'grad_norm': 0.4554925858974457, 'learning_rate': 1.8231000000000002e-05, 'epoch': 11.22}
+{'loss': 0.0155, 'grad_norm': 0.3139352798461914, 'learning_rate': 1.8234000000000002e-05, 'epoch': 11.22}
+  6%|▌         | 6082/100000 [3:20:26<43:18:06,  1.66s/it]  6%|▌         | 6083/100000 [3:20:28<41:38:13,  1.60s/it]                                                            6%|▌         | 6083/100000 [3:20:28<41:38:13,  1.60s/it]  6%|▌         | 6084/100000 [3:20:29<40:17:57,  1.54s/it]                                                            6%|▌         | 6084/100000 [3:20:29<40:17:57,  1.54s/it]  6%|▌         | 6085/100000 [3:20:31<39:03:38,  1.50s/it]                                                            6%|▌         | 6085/100000 [3:20:31<39:03:38,  1.50s/it]  6%|▌         | 6086/100000 [3:20:32<38:11:48,  1.46s/it]                                                            6%|▌         | 6086/100000 [3:20:32<38:11:48,  1.46s/it]  6%|▌         | 6087/100000 [3:20:33<37:06:08,  1.42s/it]                                                            6%|▌         | 6087/100000 [3:20:33<37:06:08,  1.42s/it]  6%|▌         | 6088/100000 [3:20:35<36:35:08,  1.40s/it]                                                            6%|▌         | 6088/100000 [3:20:35<36:35:08,  1.40s/it]  6%|▌         | 6089/100000 [3:20:36<35:51:42,  1.37s/it]                                                            6%|▌         | 6089/100000 [3:20:36<35:51:42,  1.37s/it]  6%|▌         | 6090/100000 [3:20:37<35:19:17,  1.35s/it]                                                            6%|▌         | 6090/100000 [3:20:37<35:19:17,  1.35s/it]  6%|▌         | 6091/100000 [3:20:39<34:35:56,  1.33s/it]                                                            6%|▌         | 6091/100000 [3:20:39<34:35:56,  1.33s/it]  6%|▌         | 6092/100000 [3:20:40<34:21:16,  1.32s/it]                                                            6%|▌         | 6092/100000 [3:20:40<34:21:16,  1.32s/it]  6%|▌         | 6093/100000 [3:20:41<33:53:32,  1.30s/it]                                                            6%|▌         | 6093/100000 [3:20:41<33:53:32,  1.30s/it]  6%|▌         | 6094/100000 [3:20:42<33:10:46,  1.27s/it]                                                            6%|▌         | 6094/100000 [3:20:42<33:10:46,  1.27s/it]  6%|▌         | 6095/100000 [3:20:44<32:56:41,  1.26s/it]                                                            6%|▌         | 6095/100000 [3:20:44<32:56:41,  1.26s/it]  6%|▌         | 6096/100000 [3:20:45<32:28:33,  1.25s/it]                                                            6%|▌         | 6096/100000 [3:20:45<32:28:33,  1.25s/it]  6%|▌         | 6097/100000 [3:20:46<31:58:24,  1.23s/it]                                                            6%|▌         | 6097/100000 [3:20:46<31:58:24,  1.23s/it]  6%|▌         | 6098/100000 [3:20:47<31:34:16,  1.21s/it]                                                            6%|▌         | 6098/100000 [3:20:47<31:34:16,  1.21s/it]  6%|▌         | 6099/100000 [3:20:48<31:06:25,  1.19s/it]                                                            6%|▌         | 6099/100000 [3:20:48<31:06:25,  1.19s/it]  6%|▌         | 6100/100000 [3:20:50<30:41:27,  1.18s/it]                                                            6%|▌         | 6100/100000 [3:20:50<30:41:27,  1.18s/it]  6%|▌         | 6101/100000 [3:20:51<29:46:01,  1.14s/it]                                                            6%|▌         | 6101/100000 [3:20:51<29:46:01,  1.14s/it]  6%|▌         | 6102/100000 [3:20:52<29:15:40,  1.12s/it]                                                            6%|▌         | 6102/100000 [3:20:52<29:15:40,  1.12s/it]  6%|▌         | 6103/100000 [3:20:53<28:55:58,  1.11s/it]                                                            6%|▌         | 6103/100000 [3:20:53<28:55:58,  1.11s/it]  6%|▌         | 6104/100000 [3:20:54<28:57:44,  1.11s/it]                                                            6%|▌         | 6104/100000 [3:20:54<28:57:44,  1.11s/it]  6%|▌         | 6105/100000 [3:20:55<28:49:59,  1.11s/it]                                                            6%|▌         | 6105/100000 [3:20:55<28:49:59,  1.11s/it]  6%|▌         | 6106/100000 [3:20:56<28:26:10,  1.09s/it]                                                            6%|▌         | 6106/100000 [3:20:56<28:26:10,  1.09s/it]  6%|▌         | 6107/100000 [3:20:57<27:46:06,  1.06s/it]                                                            6%|▌         | 6107/100000 [3:20:57<27:46:06,  1.06s/it]  6%|▌         | 6108/100000 [3:20:58<27:14:53,  1.04s/it]                                                            6%|▌         | 6108/100000 [3:20:58<27:14:53,  1.04s/it]  6%|▌         | 6109/100000 [3:20:59<26:45:34,  1.03s/it]                                                            6%|▌         | 6109/100000 [3:20:59<26:45:34,  1.03s/it]  6%|▌         | 6110/100000 [3:21:00<26:35:30,  1.02s/it]                                                            6%|▌         | 6110/100000 [3:21:00<26:35:30,  1.02s/it]  6%|▌         | 6111/100000 [3:21:01<26:14:35,  1.01s/it]                                                            6%|▌         | 6111/100000 [3:21:01<26:14:35,  1.01s/it]  6%|▌         | 6112/100000 [3:21:02<25:23:09,  1.03it/s]                                                            6%|▌         | 6112/100000 [3:21:02<25:23:09,  1.03it/s]  6%|▌         | 6113/100000 [3:21:11<90:04:29,  3.45s/it]                                                            6%|▌         | 6113/100000 [3:21:11<90:04:29,  3.45s/it]  6%|▌         | 6114/100000 [3:21:17<108:57:42,  4.18s/it]                                                             6%|▌         | 6114/100000 [3:21:17<108:57:42,  4.18s/it]  6%|▌         | 6115/100000 [3:21:22<113:19:26,  4.35s/it]                                                             6%|▌         | 6115/100000 [3:21:22<113:19:26,  4.35s/it]  6%|▌         | 6116/100000 [3:21:26<110:58:48,  4.26s/it]                                                             6%|▌         | 6116/100000 [3:21:26<110:58:48,  4.26s/it]  6%|▌         | 6117/100000 [3:21:29<106:10:05,  4.07s/it]                                                             6%|▌         | 6117/100000 [3:21:29<106:10:05,  4.07s/it]  6%|▌         | 6118/100000 [3:21:33<99:41:28,  3.82s/it]                                                             6%|▌         | 6118/100000 [3:21:33<99:41:28,  3.82s/it]  6%|▌         | 6119/100000 [3:21:36<93:09:20,  3.57s/it]                                                            6%|▌         | 6119/100000 [3:21:36<93:09:20,  3.57s/it]  6%|▌         | 6120/100000 [3:21:38<86:37:55,  3.32s/it]                                                            6%|▌         | 6120/100000 [3:21:38<86:37:55,  3.32s/it]  6%|▌         | 6121/100000 [3:21:41<80:07:41,  3.07s/it]                                                            6%|▌         | 6121/100000 [3:21:41<80:07:41,  3.07s/it]  6%|▌         | 6122/100000 [3:21:43<74:24:15,  2.85s/it]                                                            6%|▌         | 6122/100000 [3:21:43<74:24:15,  2.85s/it]  6%|▌         | 6123/100000 [3:21:45<69:24:12,  2.66s/it]                                                            6%|▌         | 6123/100000 [3:21:45<69:24:12,  2.66s/it]  6%|▌         | 6124/100000 [3:21:47<64:39:15,  2.48s/it]                                                            6%|▌         | 6124/100000 [3:21:47<64:39:15,  2.48s/it]  6%|▌         | 6125/100000 [3:21:49<59:58:26,  2.30s/it]                                                            6%|▌         | 6125/100000 [3:21:49<59:58:26,  2.30s/it]  6%|▌         | 6126/100000 [3:21:51<55:47:33,  2.14s/it]                                                            6%|▌         | 6126/100000 [3:21:51<55:47:33,  2.14s/it]  6%|▌         | 6127/100000 [3:21:53<52:13:10,  2.00s/it]                                                            6%|▌         | 6127/100000 [3:21:53<52:13:10,  2.00s/it]  6%|▌         | 6128/100000 [3:21:54<49:34:55,  1.90s/it]                                                            6%|▌         | 6128/100000 [3:21:54<49:34:55,  1.90s/it]  6%|▌         | 6129/100000 [3:21:56<47:23:48,  1.82s/it]                                                            6%|▌         | 6129/100000 [3:21:56<47:23:48,  1.82s/it]  6%|▌         | 6130/100000 [3:21:58<45:36:13,  1.75s/it]                                                            6%|▌         | 6130/100000 [3:21:58<45:36:13,  1.75s/it]  6%|▌         | 6131/100000 [3:21:59<43:57:12,  1.69s/it]                                                            6%|▌         | 6131/100000 [3:21:59<43:57:12,  1.69s/it]  6%|▌         | 6132/100000 [3:22:01<42:22:03,  1.62s/it]                                                            6%|▌         | 6132/100000 [3:22:01<42:22:03,  1.62s/it]  6%|▌         | 6133/100000 [3:22:02<40:57:20,  1.57s/it]                                                            6%|▌         | 6133/100000 [3:22:02<40:57:20,  1.57s/it]  6%|▌         | 6134/100000 [3:22:04<39:37:52,  1.52s/it]                                                            6%|▌         | 6134/100000 [3:22:04<39:37:52,  1.52s/it]  6%|▌         | 6135/100000 [3:22:05<38:47:17,  1.49s/it]                                                            6%|▌         | 6135/100000 [3:22:05<38:47:17,  1.49s/it]  6%|▌         | 6136/100000 [3:22:06<37:41:24,  1.45s/it]                                                            6%|▌         | 6136/100000 [3:22:06<37:41:24,  1.45s/it]  6%|▌         | 6137/100000 [3:22:08<37:05:39,  1.42s/it]                                                            6%|▌         | 6137/100000 [3:22:08<37:05:39,  1.42s/it]  6%|▌         | 6138/100000 [3:22:09<36:21:04,  1.39s/it]                                                            6%|▌         | 6138/100000 [3:22:09<36:21:04,  1.39s/it]  6%|▌         | 6139/100000 [3:22:10<35:53:44,  1.38s/it]                                                            6%|▌         | 6139/100000 [3:22:10<35:53:44,  1.38s/it]  6%|▌         | 6140/100000 [3:22:12<35:18:41,  1.35s/it]                                                            6%|▌         | 6140/100000 [3:22:12<35:18:41,  1.35s/it]  6%|▌         | 6141/100000 [3:22:13<34:49:48,  1.34s/it]                                                            6%|▌         | 6141/100000 [3:22:13<34:49:48,  1.34s/it]  6%|▌         | 6142/100000 [3:22:14<34:07:32,  1.31s/it]                                                            6%|▌         | 6142/100000 [3:22:14<34:07:32,  1.31s/it]  6%|▌         | 6143/100000 [3:22:15<33:38:17,  1.29s/it]                                                            6%|▌         | 6143/100000 [3:22:15<33:38:17,  1.29s/it]  6%|▌         | 6144/100000 [3:22:17<32:59:27,  1.27s/it]                                                            6%|▌         | 6144/100000 [3:22:17<32:59:27,  1.27s/it]  6%|▌         | 6145/100000 [3:22:18<32:39:56,  1.25s/it]                                                            6%|▌         | 6145/100000 [3:22:18<32:39:56,  1.25s/it]  6%|▌         | 6146/100000 [3:22:19<32:06:41,  1.23s/it]                                                            6%|▌         | 6146/100000 [3:22:19<32:06:41,  1.23s/it]  6%|▌         | 6147/100000 [3:22:20<31:37:50,  1.21s/it]                                                            6%|▌         | 6147/100000 [3:22:20<31:37:50,  1.21s/it]  6%|▌         | 6148/100000 [3:22:21<30:55:23,  1.19s/it]                                                            6%|▌         | 6148/100000 [3:22:21<30:55:23,  1.19s/it]  6%|▌         | 6149/100000 [3:22:22<30:32:13,  1.17s/it]                                                            6%|▌         | 6149/100000 [3:22:22<30:32:13,  1.17s/it]  6%|▌         | 6150/100000 [3:22:24<30:05:26,  1.15s/it]                                                            6%|▌         | 6150/100000 [3:22:24<30:05:26,  1.15s/it]  6%|▌         | 6151/100000 [3:22:25<29:41:57,  1.14s/it]                                                            6%|▌         | 6151/100000 [3:22:25<29:41:57,  1.14s/it]  6%|▌         | 6152/100000 [3:22:26<29:18:38,  1.12s/it]                                                            6%|▌         | 6152/100000 [3:22:26<29:18:38,  1.12s/it]  6%|▌         | 6153/100000 [3:22:27<29:03:02,  1.11s/it]                                                            6%|▌         | 6153/100000 [3:22:27<29:03:02,  1.11s/it]  6%|▌         | 6154/100000 [3:22:28<28:31:25,  1.09s/it]                                                            6%|▌         | 6154/100000 [3:22:28<28:31:25,  1.09s/it]  6%|▌         | 6155/100000 [3:22:29<28:10:34,  1.08s/it]                                                            6%|▌         | 6155/100000 [3:22:29<28:10:34,  1.08s/it]  6%|▌         | 6156/100000 [3:22:30<27:48:38,  1.07s/it]                                                            6%|▌         | 6156/100000 [3:22:30<27:48:38,  1.07s/it]  6%|▌         | 6157/100000 [3:22:31<26:59:45,  1.04s/it]                                                            6%|▌         | 6157/100000 [3:22:31<26:59:45,  1.04s/it]  6%|▌         | 6158/100000 [3:22:32<26:23:56,  1.01s/it]                                                            6%|▌         | 6158/100000 [3:22:32<26:23:56,  1.01s/it]  6%|▌         | 6159/100000 [3:22:33<25:57:03,  1.00it/s]                                                            6%|▌         | 6159/100000 [3:22:33<25:57:03,  1.00it/s]  6%|▌         | 6160/100000 [3:22:34<25:51:10,  1.01it/s]                                                            6%|▌         | 6160/100000 [3:22:34<25:51:10,  1.01it/s]  6%|▌         | 6161/100000 [3:22:35<25:19:07,  1.03it/s]                                                            6%|▌         | 6161/100000 [3:22:35<25:19:07,  1.03it/s]  6%|▌         | 6162/100000 [3:22:36<24:35:08,  1.06it/s]                                                            6%|▌         | 6162/100000 [3:22:36<24:35:08,  1.06it/s]  6%|▌         | 6163/100000 [3:22:47<103:54:51,  3.99s/it]                                                             6%|▌         | 6163/100000 [3:22:47<103:54:51,  3.99s/it]  6%|▌         | 6164/100000 [3:22:53<119:13:56,  4.57s/it]                                                             6%|▌         | 6164/100000 [3:22:53<119:13:56,  4.57s/it]  6%|▌         | 6165/100000 [3:22:58<121:32:53,  4.66s/it]                                                           {'loss': 0.0253, 'grad_norm': 0.5080939531326294, 'learning_rate': 1.8237000000000002e-05, 'epoch': 11.22}
+{'loss': 0.0212, 'grad_norm': 0.4644097089767456, 'learning_rate': 1.824e-05, 'epoch': 11.22}
+{'loss': 0.0294, 'grad_norm': 0.6743317246437073, 'learning_rate': 1.8243e-05, 'epoch': 11.23}
+{'loss': 0.027, 'grad_norm': 0.3275095224380493, 'learning_rate': 1.8245999999999998e-05, 'epoch': 11.23}
+{'loss': 0.027, 'grad_norm': 0.5828282833099365, 'learning_rate': 1.8248999999999998e-05, 'epoch': 11.23}
+{'loss': 0.0278, 'grad_norm': 0.4786163866519928, 'learning_rate': 1.8252e-05, 'epoch': 11.23}
+{'loss': 0.0196, 'grad_norm': 0.35602590441703796, 'learning_rate': 1.8255e-05, 'epoch': 11.23}
+{'loss': 0.0278, 'grad_norm': 0.9777085185050964, 'learning_rate': 1.8258e-05, 'epoch': 11.23}
+{'loss': 0.028, 'grad_norm': 0.6795394420623779, 'learning_rate': 1.8261e-05, 'epoch': 11.24}
+{'loss': 0.0392, 'grad_norm': 0.5188271403312683, 'learning_rate': 1.8264e-05, 'epoch': 11.24}
+{'loss': 0.0272, 'grad_norm': 0.4623538851737976, 'learning_rate': 1.8267e-05, 'epoch': 11.24}
+{'loss': 0.0191, 'grad_norm': 0.7097045183181763, 'learning_rate': 1.827e-05, 'epoch': 11.24}
+{'loss': 0.0201, 'grad_norm': 0.4057754874229431, 'learning_rate': 1.8273e-05, 'epoch': 11.24}
+{'loss': 0.019, 'grad_norm': 0.5271565914154053, 'learning_rate': 1.8276e-05, 'epoch': 11.25}
+{'loss': 0.0287, 'grad_norm': 0.84198397397995, 'learning_rate': 1.8279e-05, 'epoch': 11.25}
+{'loss': 0.0182, 'grad_norm': 0.3388877213001251, 'learning_rate': 1.8282000000000002e-05, 'epoch': 11.25}
+{'loss': 0.0219, 'grad_norm': 0.4032248854637146, 'learning_rate': 1.8285000000000002e-05, 'epoch': 11.25}
+{'loss': 0.0176, 'grad_norm': 0.6903819441795349, 'learning_rate': 1.8288000000000002e-05, 'epoch': 11.25}
+{'loss': 0.0293, 'grad_norm': 0.46638402342796326, 'learning_rate': 1.8291e-05, 'epoch': 11.25}
+{'loss': 0.0208, 'grad_norm': 0.4857083559036255, 'learning_rate': 1.8294e-05, 'epoch': 11.26}
+{'loss': 0.0231, 'grad_norm': 0.5676124095916748, 'learning_rate': 1.8297e-05, 'epoch': 11.26}
+{'loss': 0.0264, 'grad_norm': 0.3779642581939697, 'learning_rate': 1.83e-05, 'epoch': 11.26}
+{'loss': 0.0181, 'grad_norm': 0.30721354484558105, 'learning_rate': 1.8303e-05, 'epoch': 11.26}
+{'loss': 0.0265, 'grad_norm': 0.6499035358428955, 'learning_rate': 1.8306e-05, 'epoch': 11.26}
+{'loss': 0.0199, 'grad_norm': 0.5521036386489868, 'learning_rate': 1.8309e-05, 'epoch': 11.27}
+{'loss': 0.0283, 'grad_norm': 0.7346552610397339, 'learning_rate': 1.8312000000000004e-05, 'epoch': 11.27}
+{'loss': 0.0279, 'grad_norm': 0.5562924742698669, 'learning_rate': 1.8315000000000003e-05, 'epoch': 11.27}
+{'loss': 0.0257, 'grad_norm': 0.6505104899406433, 'learning_rate': 1.8318e-05, 'epoch': 11.27}
+{'loss': 0.0219, 'grad_norm': 0.8869682550430298, 'learning_rate': 1.8321e-05, 'epoch': 11.27}
+{'loss': 0.0255, 'grad_norm': 0.5087664723396301, 'learning_rate': 1.8324e-05, 'epoch': 11.28}
+{'loss': 0.0456, 'grad_norm': 0.5345026254653931, 'learning_rate': 1.8327e-05, 'epoch': 11.28}
+{'loss': 0.2465, 'grad_norm': 0.959027886390686, 'learning_rate': 1.833e-05, 'epoch': 11.28}
+{'loss': 0.2627, 'grad_norm': 1.0771859884262085, 'learning_rate': 1.8333e-05, 'epoch': 11.28}
+{'loss': 0.1879, 'grad_norm': 0.6319298148155212, 'learning_rate': 1.8336e-05, 'epoch': 11.28}
+{'loss': 0.1726, 'grad_norm': 0.6334912180900574, 'learning_rate': 1.8339e-05, 'epoch': 11.28}
+{'loss': 0.0909, 'grad_norm': 0.6496388912200928, 'learning_rate': 1.8342e-05, 'epoch': 11.29}
+{'loss': 0.1608, 'grad_norm': 1.0599894523620605, 'learning_rate': 1.8345e-05, 'epoch': 11.29}
+{'loss': 0.1448, 'grad_norm': 0.7013213634490967, 'learning_rate': 1.8348e-05, 'epoch': 11.29}
+{'loss': 0.1267, 'grad_norm': 0.5151294469833374, 'learning_rate': 1.8351e-05, 'epoch': 11.29}
+{'loss': 0.108, 'grad_norm': 0.6530570983886719, 'learning_rate': 1.8354e-05, 'epoch': 11.29}
+{'loss': 0.1433, 'grad_norm': 0.672336757183075, 'learning_rate': 1.8357e-05, 'epoch': 11.3}
+{'loss': 0.0575, 'grad_norm': 0.5117024779319763, 'learning_rate': 1.836e-05, 'epoch': 11.3}
+{'loss': 0.0657, 'grad_norm': 0.4188872277736664, 'learning_rate': 1.8363e-05, 'epoch': 11.3}
+{'loss': 0.0622, 'grad_norm': 0.5835525393486023, 'learning_rate': 1.8366e-05, 'epoch': 11.3}
+{'loss': 0.0952, 'grad_norm': 0.9023607969284058, 'learning_rate': 1.8369e-05, 'epoch': 11.3}
+{'loss': 0.025, 'grad_norm': 0.35532012581825256, 'learning_rate': 1.8372000000000003e-05, 'epoch': 11.3}
+{'loss': 0.025, 'grad_norm': 0.37712958455085754, 'learning_rate': 1.8375000000000003e-05, 'epoch': 11.31}
+{'loss': 0.026, 'grad_norm': 0.4042429029941559, 'learning_rate': 1.8378000000000003e-05, 'epoch': 11.31}
+{'loss': 0.029, 'grad_norm': 0.461452454328537, 'learning_rate': 1.8381000000000002e-05, 'epoch': 11.31}
+{'loss': 0.0254, 'grad_norm': 0.32719576358795166, 'learning_rate': 1.8384000000000002e-05, 'epoch': 11.31}
+{'loss': 0.0451, 'grad_norm': 0.559114396572113, 'learning_rate': 1.8387000000000002e-05, 'epoch': 11.31}
+{'loss': 0.0148, 'grad_norm': 0.38609135150909424, 'learning_rate': 1.8390000000000002e-05, 'epoch': 11.32}
+{'loss': 0.0324, 'grad_norm': 0.3838483393192291, 'learning_rate': 1.8392999999999998e-05, 'epoch': 11.32}
+{'loss': 0.0264, 'grad_norm': 0.6396909952163696, 'learning_rate': 1.8395999999999998e-05, 'epoch': 11.32}
+{'loss': 0.0166, 'grad_norm': 0.7127343416213989, 'learning_rate': 1.8398999999999998e-05, 'epoch': 11.32}
+{'loss': 0.0261, 'grad_norm': 0.8143025636672974, 'learning_rate': 1.8401999999999998e-05, 'epoch': 11.32}
+{'loss': 0.0181, 'grad_norm': 1.8625601530075073, 'learning_rate': 1.8405e-05, 'epoch': 11.33}
+{'loss': 0.0152, 'grad_norm': 0.5424591302871704, 'learning_rate': 1.8408e-05, 'epoch': 11.33}
+{'loss': 0.01, 'grad_norm': 0.31574827432632446, 'learning_rate': 1.8411e-05, 'epoch': 11.33}
+{'loss': 0.0234, 'grad_norm': 0.47474777698516846, 'learning_rate': 1.8414e-05, 'epoch': 11.33}
+{'loss': 0.0156, 'grad_norm': 0.48354342579841614, 'learning_rate': 1.8417e-05, 'epoch': 11.33}
+{'loss': 0.0511, 'grad_norm': 0.9422298669815063, 'learning_rate': 1.842e-05, 'epoch': 11.33}
+{'loss': 0.0296, 'grad_norm': 0.9375277161598206, 'learning_rate': 1.8423e-05, 'epoch': 11.34}
+{'loss': 0.0257, 'grad_norm': 0.85575270652771, 'learning_rate': 1.8426e-05, 'epoch': 11.34}
+{'loss': 0.0224, 'grad_norm': 0.4999704957008362, 'learning_rate': 1.8429e-05, 'epoch': 11.34}
+{'loss': 0.0349, 'grad_norm': 0.7743487358093262, 'learning_rate': 1.8432e-05, 'epoch': 11.34}
+{'loss': 0.0262, 'grad_norm': 0.547167956829071, 'learning_rate': 1.8435000000000002e-05, 'epoch': 11.34}
+{'loss': 0.0505, 'grad_norm': 0.46982502937316895, 'learning_rate': 1.8438000000000002e-05, 'epoch': 11.35}
+{'loss': 0.019, 'grad_norm': 0.4561302959918976, 'learning_rate': 1.8441000000000002e-05, 'epoch': 11.35}
+{'loss': 0.0222, 'grad_norm': 0.556189239025116, 'learning_rate': 1.8444e-05, 'epoch': 11.35}
+{'loss': 0.0387, 'grad_norm': 2.062488555908203, 'learning_rate': 1.8447e-05, 'epoch': 11.35}
+{'loss': 0.0207, 'grad_norm': 0.48797592520713806, 'learning_rate': 1.845e-05, 'epoch': 11.35}
+{'loss': 0.0292, 'grad_norm': 0.6511245965957642, 'learning_rate': 1.8453e-05, 'epoch': 11.35}
+{'loss': 0.0186, 'grad_norm': 0.4582718014717102, 'learning_rate': 1.8456e-05, 'epoch': 11.36}
+{'loss': 0.0283, 'grad_norm': 0.567861020565033, 'learning_rate': 1.8459e-05, 'epoch': 11.36}
+{'loss': 0.0327, 'grad_norm': 0.6611009240150452, 'learning_rate': 1.8462e-05, 'epoch': 11.36}
+{'loss': 0.024, 'grad_norm': 0.4739968776702881, 'learning_rate': 1.8465e-05, 'epoch': 11.36}
+{'loss': 0.0183, 'grad_norm': 0.5592001676559448, 'learning_rate': 1.8468e-05, 'epoch': 11.36}
+{'loss': 0.0497, 'grad_norm': 0.6979249119758606, 'learning_rate': 1.8471e-05, 'epoch': 11.37}
+{'loss': 0.0225, 'grad_norm': 0.5059146881103516, 'learning_rate': 1.8474e-05, 'epoch': 11.37}
+{'loss': 0.0312, 'grad_norm': 0.6794499754905701, 'learning_rate': 1.8477e-05, 'epoch': 11.37}
+{'loss': 0.2726, 'grad_norm': 1.0225704908370972, 'learning_rate': 1.848e-05, 'epoch': 11.37}
+{'loss': 0.2974, 'grad_norm': 0.9803306460380554, 'learning_rate': 1.8483e-05, 'epoch': 11.37}
+  6%|▌         | 6165/100000 [3:22:58<121:32:53,  4.66s/it]  6%|▌         | 6166/100000 [3:23:02<118:10:22,  4.53s/it]                                                             6%|▌         | 6166/100000 [3:23:02<118:10:22,  4.53s/it]  6%|▌         | 6167/100000 [3:23:06<112:45:14,  4.33s/it]                                                             6%|▌         | 6167/100000 [3:23:06<112:45:14,  4.33s/it]  6%|▌         | 6168/100000 [3:23:09<105:14:57,  4.04s/it]                                                             6%|▌         | 6168/100000 [3:23:09<105:14:57,  4.04s/it]  6%|▌         | 6169/100000 [3:23:12<98:16:12,  3.77s/it]                                                             6%|▌         | 6169/100000 [3:23:12<98:16:12,  3.77s/it]  6%|▌         | 6170/100000 [3:23:15<90:11:56,  3.46s/it]                                                            6%|▌         | 6170/100000 [3:23:15<90:11:56,  3.46s/it]  6%|▌         | 6171/100000 [3:23:18<83:46:26,  3.21s/it]                                                            6%|▌         | 6171/100000 [3:23:18<83:46:26,  3.21s/it]  6%|▌         | 6172/100000 [3:23:20<77:38:26,  2.98s/it]                                                            6%|▌         | 6172/100000 [3:23:20<77:38:26,  2.98s/it]  6%|▌         | 6173/100000 [3:23:22<71:27:12,  2.74s/it]                                                            6%|▌         | 6173/100000 [3:23:22<71:27:12,  2.74s/it]  6%|▌         | 6174/100000 [3:23:24<66:43:32,  2.56s/it]                                                            6%|▌         | 6174/100000 [3:23:24<66:43:32,  2.56s/it]  6%|▌         | 6175/100000 [3:23:26<61:53:23,  2.37s/it]                                                            6%|▌         | 6175/100000 [3:23:26<61:53:23,  2.37s/it]  6%|▌         | 6176/100000 [3:23:28<57:33:36,  2.21s/it]                                                            6%|▌         | 6176/100000 [3:23:28<57:33:36,  2.21s/it]  6%|▌         | 6177/100000 [3:23:30<54:17:11,  2.08s/it]                                                            6%|▌         | 6177/100000 [3:23:30<54:17:11,  2.08s/it]  6%|▌         | 6178/100000 [3:23:32<51:23:53,  1.97s/it]                                                            6%|▌         | 6178/100000 [3:23:32<51:23:53,  1.97s/it]  6%|▌         | 6179/100000 [3:23:33<48:53:06,  1.88s/it]                                                            6%|▌         | 6179/100000 [3:23:33<48:53:06,  1.88s/it]  6%|▌         | 6180/100000 [3:23:35<46:51:12,  1.80s/it]                                                            6%|▌         | 6180/100000 [3:23:35<46:51:12,  1.80s/it]  6%|▌         | 6181/100000 [3:23:36<45:11:56,  1.73s/it]                                                            6%|▌         | 6181/100000 [3:23:36<45:11:56,  1.73s/it]  6%|▌         | 6182/100000 [3:23:38<43:42:16,  1.68s/it]                                                            6%|▌         | 6182/100000 [3:23:38<43:42:16,  1.68s/it]  6%|▌         | 6183/100000 [3:23:39<42:05:20,  1.62s/it]                                                            6%|▌         | 6183/100000 [3:23:39<42:05:20,  1.62s/it]  6%|▌         | 6184/100000 [3:23:41<40:46:30,  1.56s/it]                                                            6%|▌         | 6184/100000 [3:23:41<40:46:30,  1.56s/it]  6%|▌         | 6185/100000 [3:23:42<39:38:43,  1.52s/it]                                                            6%|▌         | 6185/100000 [3:23:42<39:38:43,  1.52s/it]  6%|▌         | 6186/100000 [3:23:44<38:21:36,  1.47s/it]                                                            6%|▌         | 6186/100000 [3:23:44<38:21:36,  1.47s/it]  6%|▌         | 6187/100000 [3:23:45<37:35:29,  1.44s/it]                                                            6%|▌         | 6187/100000 [3:23:45<37:35:29,  1.44s/it]  6%|▌         | 6188/100000 [3:23:46<36:39:54,  1.41s/it]                                                            6%|▌         | 6188/100000 [3:23:46<36:39:54,  1.41s/it]  6%|▌         | 6189/100000 [3:23:48<36:06:31,  1.39s/it]                                                            6%|▌         | 6189/100000 [3:23:48<36:06:31,  1.39s/it]  6%|▌         | 6190/100000 [3:23:49<35:27:41,  1.36s/it]                                                            6%|▌         | 6190/100000 [3:23:49<35:27:41,  1.36s/it]  6%|▌         | 6191/100000 [3:23:50<34:42:52,  1.33s/it]                                                            6%|▌         | 6191/100000 [3:23:50<34:42:52,  1.33s/it]  6%|▌         | 6192/100000 [3:23:51<33:59:22,  1.30s/it]                                                            6%|▌         | 6192/100000 [3:23:51<33:59:22,  1.30s/it]  6%|▌         | 6193/100000 [3:23:53<33:39:45,  1.29s/it]                                                            6%|▌         | 6193/100000 [3:23:53<33:39:45,  1.29s/it]  6%|▌         | 6194/100000 [3:23:54<32:55:54,  1.26s/it]                                                            6%|▌         | 6194/100000 [3:23:54<32:55:54,  1.26s/it]  6%|▌         | 6195/100000 [3:23:55<32:20:37,  1.24s/it]                                                            6%|▌         | 6195/100000 [3:23:55<32:20:37,  1.24s/it]  6%|▌         | 6196/100000 [3:23:56<31:44:00,  1.22s/it]                                                            6%|▌         | 6196/100000 [3:23:56<31:44:00,  1.22s/it]  6%|▌         | 6197/100000 [3:23:57<31:05:32,  1.19s/it]                                                            6%|▌         | 6197/100000 [3:23:57<31:05:32,  1.19s/it]  6%|▌         | 6198/100000 [3:23:59<30:36:41,  1.17s/it]                                                            6%|▌         | 6198/100000 [3:23:59<30:36:41,  1.17s/it]  6%|▌         | 6199/100000 [3:24:00<30:12:42,  1.16s/it]                                                            6%|▌         | 6199/100000 [3:24:00<30:12:42,  1.16s/it]  6%|▌         | 6200/100000 [3:24:01<29:39:53,  1.14s/it]                                                            6%|▌         | 6200/100000 [3:24:01<29:39:53,  1.14s/it]  6%|▌         | 6201/100000 [3:24:02<29:02:31,  1.11s/it]                                                            6%|▌         | 6201/100000 [3:24:02<29:02:31,  1.11s/it]  6%|▌         | 6202/100000 [3:24:03<28:36:36,  1.10s/it]                                                            6%|▌         | 6202/100000 [3:24:03<28:36:36,  1.10s/it]  6%|▌         | 6203/100000 [3:24:04<28:17:18,  1.09s/it]                                                            6%|▌         | 6203/100000 [3:24:04<28:17:18,  1.09s/it]  6%|▌         | 6204/100000 [3:24:05<27:52:07,  1.07s/it]                                                            6%|▌         | 6204/100000 [3:24:05<27:52:07,  1.07s/it]  6%|▌         | 6205/100000 [3:24:06<27:29:43,  1.06s/it]                                                            6%|▌         | 6205/100000 [3:24:06<27:29:43,  1.06s/it]  6%|▌         | 6206/100000 [3:24:07<26:59:43,  1.04s/it]                                                            6%|▌         | 6206/100000 [3:24:07<26:59:43,  1.04s/it]  6%|▌         | 6207/100000 [3:24:08<26:36:11,  1.02s/it]                                                            6%|▌         | 6207/100000 [3:24:08<26:36:11,  1.02s/it]  6%|▌         | 6208/100000 [3:24:09<26:00:35,  1.00it/s]                                                            6%|▌         | 6208/100000 [3:24:09<26:00:35,  1.00it/s]  6%|▌         | 6209/100000 [3:24:10<25:25:29,  1.02it/s]                                                            6%|▌         | 6209/100000 [3:24:10<25:25:29,  1.02it/s]  6%|▌         | 6210/100000 [3:24:11<25:05:12,  1.04it/s]                                                            6%|▌         | 6210/100000 [3:24:11<25:05:12,  1.04it/s]  6%|▌         | 6211/100000 [3:24:12<24:02:37,  1.08it/s]                                                            6%|▌         | 6211/100000 [3:24:12<24:02:37,  1.08it/s]  6%|▌         | 6212/100000 [3:24:12<23:30:35,  1.11it/s]                                                            6%|▌         | 6212/100000 [3:24:12<23:30:35,  1.11it/s]  6%|▌         | 6213/100000 [3:24:24<110:05:54,  4.23s/it]                                                             6%|▌         | 6213/100000 [3:24:24<110:05:54,  4.23s/it]  6%|▌         | 6214/100000 [3:24:30<123:46:24,  4.75s/it]                                                             6%|▌         | 6214/100000 [3:24:30<123:46:24,  4.75s/it]  6%|▌         | 6215/100000 [3:24:35<125:08:31,  4.80s/it]                                                             6%|▌         | 6215/100000 [3:24:35<125:08:31,  4.80s/it]  6%|▌         | 6216/100000 [3:24:39<119:44:47,  4.60s/it]                                                             6%|▌         | 6216/100000 [3:24:39<119:44:47,  4.60s/it]  6%|▌         | 6217/100000 [3:24:43<110:46:15,  4.25s/it]                                                             6%|▌         | 6217/100000 [3:24:43<110:46:15,  4.25s/it]  6%|▌         | 6218/100000 [3:24:46<102:48:39,  3.95s/it]                                                             6%|▌         | 6218/100000 [3:24:46<102:48:39,  3.95s/it]  6%|▌         | 6219/100000 [3:24:49<95:14:20,  3.66s/it]                                                             6%|▌         | 6219/100000 [3:24:49<95:14:20,  3.66s/it]  6%|▌         | 6220/100000 [3:24:52<87:49:22,  3.37s/it]                                                            6%|▌         | 6220/100000 [3:24:52<87:49:22,  3.37s/it]  6%|▌         | 6221/100000 [3:24:54<80:51:21,  3.10s/it]                                                            6%|▌         | 6221/100000 [3:24:54<80:51:21,  3.10s/it]  6%|▌         | 6222/100000 [3:24:57<73:58:25,  2.84s/it]                                                            6%|▌         | 6222/100000 [3:24:57<73:58:25,  2.84s/it]  6%|▌         | 6223/100000 [3:24:59<68:17:25,  2.62s/it]                                                            6%|▌         | 6223/100000 [3:24:59<68:17:25,  2.62s/it]  6%|▌         | 6224/100000 [3:25:01<63:19:39,  2.43s/it]                                                            6%|▌         | 6224/100000 [3:25:01<63:19:39,  2.43s/it]  6%|▌         | 6225/100000 [3:25:03<59:05:14,  2.27s/it]                                                            6%|▌         | 6225/100000 [3:25:03<59:05:14,  2.27s/it]  6%|▌         | 6226/100000 [3:25:04<54:48:47,  2.10s/it]                                                            6%|▌         | 6226/100000 [3:25:04<54:48:47,  2.10s/it]  6%|▌         | 6227/100000 [3:25:06<51:50:51,  1.99s/it]                                                            6%|▌         | 6227/100000 [3:25:06<51:50:51,  1.99s/it]  6%|▌         | 6228/100000 [3:25:08<48:40:21,  1.87s/it]                                                            6%|▌         | 6228/100000 [3:25:08<48:40:21,  1.87s/it]  6%|▌         | 6229/100000 [3:25:09<46:33:16,  1.79s/it]                                                            6%|▌         | 6229/100000 [3:25:09<46:33:16,  1.79s/it]  6%|▌         | 6230/100000 [3:25:11<44:32:41,  1.71s/it]                                                            6%|▌         | 6230/100000 [3:25:11<44:32:41,  1.71s/it]  6%|▌         | 6231/100000 [3:25:12<42:32:42,  1.63s/it]                                                            6%|▌         | 6231/100000 [3:25:12<42:32:42,  1.63s/it]  6%|▌         | 6232/100000 [3:25:14<41:15:01,  1.58s/it]                                                            6%|▌         | 6232/100000 [3:25:14<41:15:01,  1.58s/it]  6%|▌         | 6233/100000 [3:25:15<39:53:21,  1.53s/it]                                                            6%|▌         | 6233/100000 [3:25:15<39:53:21,  1.53s/it]  6%|▌         | 6234/100000 [3:25:16<38:37:14,  1.48s/it]                                                            6%|▌         | 6234/100000 [3:25:16<38:37:14,  1.48s/it]  6%|▌         | 6235/100000 [3:25:18<38:06:10,  1.46s/it]                                                            6%|▌         | 6235/100000 [3:25:18<38:06:10,  1.46s/it]  6%|▌         | 6236/100000 [3:25:19<37:15:30,  1.43s/it]                                                            6%|▌         | 6236/100000 [3:25:19<37:15:30,  1.43s/it]  6%|▌         | 6237/100000 [3:25:21<36:46:09,  1.41s/it]                                                            6%|▌         | 6237/100000 [3:25:21<36:46:09,  1.41s/it]  6%|▌         | 6238/100000 [3:25:22<36:17:18,  1.39s/it]                                                            6%|▌         | 6238/100000 [3:25:22<36:17:18,  1.39s/it]  6%|▌         | 6239/100000 [3:25:23<35:49:30,  1.38s/it]                                                            6%|▌         | 6239/100000 [3:25:23<35:49:30,  1.38s/it]  6%|▌         | 6240/100000 [3:25:24<35:19:40,  1.36s/it]                                                            6%|▌         | 6240/100000 [3:25:25<35:19:40,  1.36s/it]  6%|▌         | 6241/100000 [3:25:26<34:52:51,  1.34s/it]                                                            6%|▌         | 6241/100000 [3:25:26<34:52:51,  1.34s/it]  6%|▌         | 6242/100000 [3:25:27<34:08:03,  1.31s/it]                                                            6%|▌         | 6242/100000 [3:25:27<34:08:03,  1.31s/it]  6%|▌         | 6243/100000 [3:25:28<33:50:54,  1.30s/it]                                                            6%|▌         | 6243/100000 [3:25:28<33:50:54,  1.30s/it]  6%|▌         | 6244/100000 [3:25:30<33:09:57,  1.27s/it]                                                            6%|▌         | 6244/100000 [3:25:30<33:09:57,  1.27s/it]  6%|▌         | 6245/100000 [3:25:31<32:50:02,  1.26s/it]                                                            6%|▌         | 6245/100000 [3:25:31<32:50:02,  1.26s/it]  6%|▌         | 6246/100000 [3:25:32<32:27:48,  1.25s/it]                                                            6%|▌         | 6246/100000 [3:25:32<32:27:48,  1.25s/it]  6%|▌         | 6247/100000 [3:25:33<31:24:13,  1.21s/it]                                                            6%|▌         | 6247/100000 [3:25:33<31:24:13,  1.21s/it]  6%|▌         | 6248/100000 [3:25:34<30:57:05,  1.19s/it]                                                          {'loss': 0.1743, 'grad_norm': 0.6645657420158386, 'learning_rate': 1.8486e-05, 'epoch': 11.37}
+{'loss': 0.1558, 'grad_norm': 0.9934237003326416, 'learning_rate': 1.8489e-05, 'epoch': 11.38}
+{'loss': 0.1928, 'grad_norm': 0.7072994709014893, 'learning_rate': 1.8492e-05, 'epoch': 11.38}
+{'loss': 0.1044, 'grad_norm': 0.7351928353309631, 'learning_rate': 1.8495e-05, 'epoch': 11.38}
+{'loss': 0.1161, 'grad_norm': 0.6384725570678711, 'learning_rate': 1.8498e-05, 'epoch': 11.38}
+{'loss': 0.0978, 'grad_norm': 0.5761701464653015, 'learning_rate': 1.8501e-05, 'epoch': 11.38}
+{'loss': 0.1354, 'grad_norm': 0.7269904613494873, 'learning_rate': 1.8504e-05, 'epoch': 11.39}
+{'loss': 0.0969, 'grad_norm': 0.6286356449127197, 'learning_rate': 1.8507e-05, 'epoch': 11.39}
+{'loss': 0.1379, 'grad_norm': 0.6741904616355896, 'learning_rate': 1.851e-05, 'epoch': 11.39}
+{'loss': 0.0718, 'grad_norm': 0.5379699468612671, 'learning_rate': 1.8513e-05, 'epoch': 11.39}
+{'loss': 0.1091, 'grad_norm': 0.6479658484458923, 'learning_rate': 1.8516e-05, 'epoch': 11.39}
+{'loss': 0.1225, 'grad_norm': 1.7053743600845337, 'learning_rate': 1.8519e-05, 'epoch': 11.4}
+{'loss': 0.0673, 'grad_norm': 0.46991604566574097, 'learning_rate': 1.8522e-05, 'epoch': 11.4}
+{'loss': 0.0555, 'grad_norm': 0.8959211707115173, 'learning_rate': 1.8525000000000003e-05, 'epoch': 11.4}
+{'loss': 0.0563, 'grad_norm': 0.554658830165863, 'learning_rate': 1.8528000000000003e-05, 'epoch': 11.4}
+{'loss': 0.0186, 'grad_norm': 0.3450296223163605, 'learning_rate': 1.8531000000000003e-05, 'epoch': 11.4}
+{'loss': 0.0257, 'grad_norm': 0.7503721714019775, 'learning_rate': 1.8534000000000002e-05, 'epoch': 11.4}
+{'loss': 0.0299, 'grad_norm': 0.41149789094924927, 'learning_rate': 1.8537000000000002e-05, 'epoch': 11.41}
+{'loss': 0.0378, 'grad_norm': 0.8231745362281799, 'learning_rate': 1.854e-05, 'epoch': 11.41}
+{'loss': 0.0604, 'grad_norm': 0.61480313539505, 'learning_rate': 1.8543e-05, 'epoch': 11.41}
+{'loss': 0.0346, 'grad_norm': 0.42844507098197937, 'learning_rate': 1.8545999999999998e-05, 'epoch': 11.41}
+{'loss': 0.0253, 'grad_norm': 0.4954689145088196, 'learning_rate': 1.8548999999999998e-05, 'epoch': 11.41}
+{'loss': 0.0176, 'grad_norm': 0.35354283452033997, 'learning_rate': 1.8551999999999998e-05, 'epoch': 11.42}
+{'loss': 0.0297, 'grad_norm': 0.3825988173484802, 'learning_rate': 1.8555e-05, 'epoch': 11.42}
+{'loss': 0.0344, 'grad_norm': 0.43082669377326965, 'learning_rate': 1.8558e-05, 'epoch': 11.42}
+{'loss': 0.0179, 'grad_norm': 0.5307301878929138, 'learning_rate': 1.8561e-05, 'epoch': 11.42}
+{'loss': 0.0481, 'grad_norm': 0.6526667475700378, 'learning_rate': 1.8564e-05, 'epoch': 11.42}
+{'loss': 0.0164, 'grad_norm': 0.42508047819137573, 'learning_rate': 1.8567e-05, 'epoch': 11.42}
+{'loss': 0.023, 'grad_norm': 0.4299699664115906, 'learning_rate': 1.857e-05, 'epoch': 11.43}
+{'loss': 0.0188, 'grad_norm': 0.43284791707992554, 'learning_rate': 1.8573e-05, 'epoch': 11.43}
+{'loss': 0.0214, 'grad_norm': 0.6751835942268372, 'learning_rate': 1.8576e-05, 'epoch': 11.43}
+{'loss': 0.0177, 'grad_norm': 0.4137125015258789, 'learning_rate': 1.8579e-05, 'epoch': 11.43}
+{'loss': 0.0232, 'grad_norm': 0.48743513226509094, 'learning_rate': 1.8582e-05, 'epoch': 11.43}
+{'loss': 0.0229, 'grad_norm': 0.4469239413738251, 'learning_rate': 1.8585000000000002e-05, 'epoch': 11.44}
+{'loss': 0.0131, 'grad_norm': 0.30634063482284546, 'learning_rate': 1.8588000000000002e-05, 'epoch': 11.44}
+{'loss': 0.0274, 'grad_norm': 0.774604082107544, 'learning_rate': 1.8591000000000002e-05, 'epoch': 11.44}
+{'loss': 0.0169, 'grad_norm': 0.377434641122818, 'learning_rate': 1.8594000000000002e-05, 'epoch': 11.44}
+{'loss': 0.0165, 'grad_norm': 0.41127023100852966, 'learning_rate': 1.8597e-05, 'epoch': 11.44}
+{'loss': 0.0197, 'grad_norm': 0.40584078431129456, 'learning_rate': 1.86e-05, 'epoch': 11.45}
+{'loss': 0.0229, 'grad_norm': 0.5642501711845398, 'learning_rate': 1.8603e-05, 'epoch': 11.45}
+{'loss': 0.0124, 'grad_norm': 0.6988409757614136, 'learning_rate': 1.8606e-05, 'epoch': 11.45}
+{'loss': 0.0309, 'grad_norm': 0.958296000957489, 'learning_rate': 1.8609e-05, 'epoch': 11.45}
+{'loss': 0.019, 'grad_norm': 0.7275720238685608, 'learning_rate': 1.8612e-05, 'epoch': 11.45}
+{'loss': 0.0253, 'grad_norm': 0.789011538028717, 'learning_rate': 1.8615e-05, 'epoch': 11.45}
+{'loss': 0.0239, 'grad_norm': 0.9203380346298218, 'learning_rate': 1.8618e-05, 'epoch': 11.46}
+{'loss': 0.0213, 'grad_norm': 0.726800799369812, 'learning_rate': 1.8621e-05, 'epoch': 11.46}
+{'loss': 0.0125, 'grad_norm': 0.308773398399353, 'learning_rate': 1.8624e-05, 'epoch': 11.46}
+{'loss': 0.0334, 'grad_norm': 0.7262300848960876, 'learning_rate': 1.8627e-05, 'epoch': 11.46}
+{'loss': 0.3048, 'grad_norm': 2.23403000831604, 'learning_rate': 1.863e-05, 'epoch': 11.46}
+{'loss': 0.3017, 'grad_norm': 1.738344430923462, 'learning_rate': 1.8633e-05, 'epoch': 11.47}
+{'loss': 0.2065, 'grad_norm': 0.6851328015327454, 'learning_rate': 1.8636e-05, 'epoch': 11.47}
+{'loss': 0.2222, 'grad_norm': 0.9628781080245972, 'learning_rate': 1.8639e-05, 'epoch': 11.47}
+{'loss': 0.1355, 'grad_norm': 0.6785116195678711, 'learning_rate': 1.8642e-05, 'epoch': 11.47}
+{'loss': 0.1877, 'grad_norm': 0.8106775879859924, 'learning_rate': 1.8645000000000002e-05, 'epoch': 11.47}
+{'loss': 0.1401, 'grad_norm': 0.8037397861480713, 'learning_rate': 1.8648000000000002e-05, 'epoch': 11.47}
+{'loss': 0.1098, 'grad_norm': 0.49321749806404114, 'learning_rate': 1.8651e-05, 'epoch': 11.48}
+{'loss': 0.0997, 'grad_norm': 0.5776592493057251, 'learning_rate': 1.8654e-05, 'epoch': 11.48}
+{'loss': 0.1167, 'grad_norm': 0.9313098192214966, 'learning_rate': 1.8657e-05, 'epoch': 11.48}
+{'loss': 0.086, 'grad_norm': 0.700075626373291, 'learning_rate': 1.866e-05, 'epoch': 11.48}
+{'loss': 0.0487, 'grad_norm': 0.33606475591659546, 'learning_rate': 1.8663e-05, 'epoch': 11.48}
+{'loss': 0.0404, 'grad_norm': 0.6985853910446167, 'learning_rate': 1.8666e-05, 'epoch': 11.49}
+{'loss': 0.0782, 'grad_norm': 0.6496925354003906, 'learning_rate': 1.8669e-05, 'epoch': 11.49}
+{'loss': 0.0995, 'grad_norm': 1.1872271299362183, 'learning_rate': 1.8672e-05, 'epoch': 11.49}
+{'loss': 0.0593, 'grad_norm': 0.6918002367019653, 'learning_rate': 1.8675000000000003e-05, 'epoch': 11.49}
+{'loss': 0.0308, 'grad_norm': 0.3916986584663391, 'learning_rate': 1.8678000000000003e-05, 'epoch': 11.49}
+{'loss': 0.0223, 'grad_norm': 0.46228450536727905, 'learning_rate': 1.8681000000000003e-05, 'epoch': 11.49}
+{'loss': 0.0312, 'grad_norm': 0.48111462593078613, 'learning_rate': 1.8684000000000003e-05, 'epoch': 11.5}
+{'loss': 0.0189, 'grad_norm': 0.38682618737220764, 'learning_rate': 1.8687e-05, 'epoch': 11.5}
+{'loss': 0.0166, 'grad_norm': 0.3328859210014343, 'learning_rate': 1.869e-05, 'epoch': 11.5}
+{'loss': 0.0185, 'grad_norm': 0.512199878692627, 'learning_rate': 1.8693e-05, 'epoch': 11.5}
+{'loss': 0.0273, 'grad_norm': 0.524346113204956, 'learning_rate': 1.8696e-05, 'epoch': 11.5}
+{'loss': 0.0285, 'grad_norm': 0.5263787508010864, 'learning_rate': 1.8699e-05, 'epoch': 11.51}
+{'loss': 0.0287, 'grad_norm': 0.6654219031333923, 'learning_rate': 1.8701999999999998e-05, 'epoch': 11.51}
+{'loss': 0.043, 'grad_norm': 0.4475488066673279, 'learning_rate': 1.8705e-05, 'epoch': 11.51}
+{'loss': 0.03, 'grad_norm': 0.4326750934123993, 'learning_rate': 1.8708e-05, 'epoch': 11.51}
+{'loss': 0.0169, 'grad_norm': 0.4968683123588562, 'learning_rate': 1.8711e-05, 'epoch': 11.51}
+{'loss': 0.0247, 'grad_norm': 0.9535714983940125, 'learning_rate': 1.8714e-05, 'epoch': 11.52}
+{'loss': 0.0248, 'grad_norm': 0.7456192970275879, 'learning_rate': 1.8717e-05, 'epoch': 11.52}
+{'loss': 0.0109, 'grad_norm': 0.23908020555973053, 'learning_rate': 1.872e-05, 'epoch': 11.52}
+{'loss': 0.0504, 'grad_norm': 0.42601415514945984, 'learning_rate': 1.8723e-05, 'epoch': 11.52}
+{'loss': 0.0212, 'grad_norm': 0.7600030899047852, 'learning_rate': 1.8726e-05, 'epoch': 11.52}
+{'loss': 0.0238, 'grad_norm': 0.8499584197998047, 'learning_rate': 1.8729e-05, 'epoch': 11.52}
+{'loss': 0.0173, 'grad_norm': 0.5940492749214172, 'learning_rate': 1.8732e-05, 'epoch': 11.53}
+  6%|▌         | 6248/100000 [3:25:34<30:57:05,  1.19s/it]  6%|▌         | 6249/100000 [3:25:35<30:32:00,  1.17s/it]                                                            6%|▌         | 6249/100000 [3:25:35<30:32:00,  1.17s/it]  6%|▋         | 6250/100000 [3:25:37<30:21:17,  1.17s/it]                                                            6%|▋         | 6250/100000 [3:25:37<30:21:17,  1.17s/it]  6%|▋         | 6251/100000 [3:25:38<30:55:40,  1.19s/it]                                                            6%|▋         | 6251/100000 [3:25:38<30:55:40,  1.19s/it]  6%|▋         | 6252/100000 [3:25:39<29:50:45,  1.15s/it]                                                            6%|▋         | 6252/100000 [3:25:39<29:50:45,  1.15s/it]  6%|▋         | 6253/100000 [3:25:40<29:21:14,  1.13s/it]                                                            6%|▋         | 6253/100000 [3:25:40<29:21:14,  1.13s/it]  6%|▋         | 6254/100000 [3:25:41<28:42:55,  1.10s/it]                                                            6%|▋         | 6254/100000 [3:25:41<28:42:55,  1.10s/it]  6%|▋         | 6255/100000 [3:25:42<28:32:12,  1.10s/it]                                                            6%|▋         | 6255/100000 [3:25:42<28:32:12,  1.10s/it]  6%|▋         | 6256/100000 [3:25:43<28:08:07,  1.08s/it]                                                            6%|▋         | 6256/100000 [3:25:43<28:08:07,  1.08s/it]  6%|▋         | 6257/100000 [3:25:44<27:13:16,  1.05s/it]                                                            6%|▋         | 6257/100000 [3:25:44<27:13:16,  1.05s/it]  6%|▋         | 6258/100000 [3:25:45<26:44:16,  1.03s/it]                                                            6%|▋         | 6258/100000 [3:25:45<26:44:16,  1.03s/it]  6%|▋         | 6259/100000 [3:25:46<26:21:15,  1.01s/it]                                                            6%|▋         | 6259/100000 [3:25:46<26:21:15,  1.01s/it]  6%|▋         | 6260/100000 [3:25:47<25:56:56,  1.00it/s]                                                            6%|▋         | 6260/100000 [3:25:47<25:56:56,  1.00it/s]  6%|▋         | 6261/100000 [3:25:48<24:49:52,  1.05it/s]                                                            6%|▋         | 6261/100000 [3:25:48<24:49:52,  1.05it/s]  6%|▋         | 6262/100000 [3:25:49<24:05:35,  1.08it/s]                                                            6%|▋         | 6262/100000 [3:25:49<24:05:35,  1.08it/s]  6%|▋         | 6263/100000 [3:26:01<111:41:18,  4.29s/it]                                                             6%|▋         | 6263/100000 [3:26:01<111:41:18,  4.29s/it]  6%|▋         | 6264/100000 [3:26:06<119:41:54,  4.60s/it]                                                             6%|▋         | 6264/100000 [3:26:06<119:41:54,  4.60s/it]  6%|▋         | 6265/100000 [3:26:11<119:53:06,  4.60s/it]                                                             6%|▋         | 6265/100000 [3:26:11<119:53:06,  4.60s/it]  6%|▋         | 6266/100000 [3:26:15<113:37:19,  4.36s/it]                                                             6%|▋         | 6266/100000 [3:26:15<113:37:19,  4.36s/it]  6%|▋         | 6267/100000 [3:26:18<107:02:10,  4.11s/it]                                                             6%|▋         | 6267/100000 [3:26:18<107:02:10,  4.11s/it]  6%|▋         | 6268/100000 [3:26:21<99:42:58,  3.83s/it]                                                             6%|▋         | 6268/100000 [3:26:21<99:42:58,  3.83s/it]  6%|▋         | 6269/100000 [3:26:24<92:24:22,  3.55s/it]                                                            6%|▋         | 6269/100000 [3:26:24<92:24:22,  3.55s/it]  6%|▋         | 6270/100000 [3:26:27<85:39:46,  3.29s/it]                                                            6%|▋         | 6270/100000 [3:26:27<85:39:46,  3.29s/it]  6%|▋         | 6271/100000 [3:26:29<79:01:32,  3.04s/it]                                                            6%|▋         | 6271/100000 [3:26:29<79:01:32,  3.04s/it]  6%|▋         | 6272/100000 [3:26:32<73:05:04,  2.81s/it]                                                            6%|▋         | 6272/100000 [3:26:32<73:05:04,  2.81s/it]  6%|▋         | 6273/100000 [3:26:34<67:45:52,  2.60s/it]                                                            6%|▋         | 6273/100000 [3:26:34<67:45:52,  2.60s/it]  6%|▋         | 6274/100000 [3:26:36<62:52:31,  2.42s/it]                                                            6%|▋         | 6274/100000 [3:26:36<62:52:31,  2.42s/it]  6%|▋         | 6275/100000 [3:26:37<58:33:29,  2.25s/it]                                                            6%|▋         | 6275/100000 [3:26:38<58:33:29,  2.25s/it]  6%|▋         | 6276/100000 [3:26:39<54:11:51,  2.08s/it]                                                            6%|▋         | 6276/100000 [3:26:39<54:11:51,  2.08s/it]  6%|▋         | 6277/100000 [3:26:41<51:00:20,  1.96s/it]                                                            6%|▋         | 6277/100000 [3:26:41<51:00:20,  1.96s/it]  6%|▋         | 6278/100000 [3:26:43<48:36:07,  1.87s/it]                                                            6%|▋         | 6278/100000 [3:26:43<48:36:07,  1.87s/it]  6%|▋         | 6279/100000 [3:26:44<46:28:59,  1.79s/it]                                                            6%|▋         | 6279/100000 [3:26:44<46:28:59,  1.79s/it]  6%|▋         | 6280/100000 [3:26:46<44:46:06,  1.72s/it]                                                            6%|▋         | 6280/100000 [3:26:46<44:46:06,  1.72s/it]  6%|▋         | 6281/100000 [3:26:47<42:56:26,  1.65s/it]                                                            6%|▋         | 6281/100000 [3:26:47<42:56:26,  1.65s/it]  6%|▋         | 6282/100000 [3:26:49<41:41:28,  1.60s/it]                                                            6%|▋         | 6282/100000 [3:26:49<41:41:28,  1.60s/it]  6%|▋         | 6283/100000 [3:26:50<40:15:34,  1.55s/it]                                                            6%|▋         | 6283/100000 [3:26:50<40:15:34,  1.55s/it]  6%|▋         | 6284/100000 [3:26:51<39:19:44,  1.51s/it]                                                            6%|▋         | 6284/100000 [3:26:51<39:19:44,  1.51s/it]  6%|▋         | 6285/100000 [3:26:53<38:08:02,  1.46s/it]                                                            6%|▋         | 6285/100000 [3:26:53<38:08:02,  1.46s/it]  6%|▋         | 6286/100000 [3:26:54<37:07:58,  1.43s/it]                                                            6%|▋         | 6286/100000 [3:26:54<37:07:58,  1.43s/it]  6%|▋         | 6287/100000 [3:26:55<36:07:56,  1.39s/it]                                                            6%|▋         | 6287/100000 [3:26:55<36:07:56,  1.39s/it]  6%|▋         | 6288/100000 [3:26:57<36:00:48,  1.38s/it]                                                            6%|▋         | 6288/100000 [3:26:57<36:00:48,  1.38s/it]  6%|▋         | 6289/100000 [3:26:58<35:14:54,  1.35s/it]                                                            6%|▋         | 6289/100000 [3:26:58<35:14:54,  1.35s/it]  6%|▋         | 6290/100000 [3:26:59<34:49:27,  1.34s/it]                                                            6%|▋         | 6290/100000 [3:26:59<34:49:27,  1.34s/it]  6%|▋         | 6291/100000 [3:27:01<34:11:21,  1.31s/it]                                                            6%|▋         | 6291/100000 [3:27:01<34:11:21,  1.31s/it]  6%|▋         | 6292/100000 [3:27:02<33:40:25,  1.29s/it]                                                            6%|▋         | 6292/100000 [3:27:02<33:40:25,  1.29s/it]  6%|▋         | 6293/100000 [3:27:03<33:14:10,  1.28s/it]                                                            6%|▋         | 6293/100000 [3:27:03<33:14:10,  1.28s/it]  6%|▋         | 6294/100000 [3:27:04<32:54:18,  1.26s/it]                                                            6%|▋         | 6294/100000 [3:27:04<32:54:18,  1.26s/it]  6%|▋         | 6295/100000 [3:27:06<32:33:15,  1.25s/it]                                                            6%|▋         | 6295/100000 [3:27:06<32:33:15,  1.25s/it]  6%|▋         | 6296/100000 [3:27:07<31:47:13,  1.22s/it]                                                            6%|▋         | 6296/100000 [3:27:07<31:47:13,  1.22s/it]  6%|▋         | 6297/100000 [3:27:08<31:18:45,  1.20s/it]                                                            6%|▋         | 6297/100000 [3:27:08<31:18:45,  1.20s/it]  6%|▋         | 6298/100000 [3:27:09<30:58:05,  1.19s/it]                                                            6%|▋         | 6298/100000 [3:27:09<30:58:05,  1.19s/it]  6%|▋         | 6299/100000 [3:27:10<30:30:42,  1.17s/it]                                                            6%|▋         | 6299/100000 [3:27:10<30:30:42,  1.17s/it]  6%|▋         | 6300/100000 [3:27:11<30:09:58,  1.16s/it]                                                            6%|▋         | 6300/100000 [3:27:11<30:09:58,  1.16s/it]  6%|▋         | 6301/100000 [3:27:12<29:42:24,  1.14s/it]                                                            6%|▋         | 6301/100000 [3:27:12<29:42:24,  1.14s/it]  6%|▋         | 6302/100000 [3:27:14<29:20:07,  1.13s/it]                                                            6%|▋         | 6302/100000 [3:27:14<29:20:07,  1.13s/it]  6%|▋         | 6303/100000 [3:27:15<28:45:52,  1.11s/it]                                                            6%|▋         | 6303/100000 [3:27:15<28:45:52,  1.11s/it]  6%|▋         | 6304/100000 [3:27:16<28:30:55,  1.10s/it]                                                            6%|▋         | 6304/100000 [3:27:16<28:30:55,  1.10s/it]  6%|▋         | 6305/100000 [3:27:17<28:06:59,  1.08s/it]                                                            6%|▋         | 6305/100000 [3:27:17<28:06:59,  1.08s/it]  6%|▋         | 6306/100000 [3:27:18<27:44:46,  1.07s/it]                                                            6%|▋         | 6306/100000 [3:27:18<27:44:46,  1.07s/it]  6%|▋         | 6307/100000 [3:27:19<27:15:15,  1.05s/it]                                                            6%|▋         | 6307/100000 [3:27:19<27:15:15,  1.05s/it]  6%|▋         | 6308/100000 [3:27:20<26:51:14,  1.03s/it]                                                            6%|▋         | 6308/100000 [3:27:20<26:51:14,  1.03s/it]  6%|▋         | 6309/100000 [3:27:21<26:30:54,  1.02s/it]                                                            6%|▋         | 6309/100000 [3:27:21<26:30:54,  1.02s/it]  6%|▋         | 6310/100000 [3:27:22<26:08:17,  1.00s/it]                                                            6%|▋         | 6310/100000 [3:27:22<26:08:17,  1.00s/it]  6%|▋         | 6311/100000 [3:27:23<25:47:03,  1.01it/s]                                                            6%|▋         | 6311/100000 [3:27:23<25:47:03,  1.01it/s]  6%|▋         | 6312/100000 [3:27:24<24:56:05,  1.04it/s]                                                            6%|▋         | 6312/100000 [3:27:24<24:56:05,  1.04it/s]  6%|▋         | 6313/100000 [3:27:35<109:42:30,  4.22s/it]                                                             6%|▋         | 6313/100000 [3:27:35<109:42:30,  4.22s/it]  6%|▋         | 6314/100000 [3:27:41<117:04:55,  4.50s/it]                                                             6%|▋         | 6314/100000 [3:27:41<117:04:55,  4.50s/it]  6%|▋         | 6315/100000 [3:27:45<117:03:54,  4.50s/it]                                                             6%|▋         | 6315/100000 [3:27:45<117:03:54,  4.50s/it]  6%|▋         | 6316/100000 [3:27:49<112:18:21,  4.32s/it]                                                             6%|▋         | 6316/100000 [3:27:49<112:18:21,  4.32s/it]  6%|▋         | 6317/100000 [3:27:53<107:36:16,  4.13s/it]                                                             6%|▋         | 6317/100000 [3:27:53<107:36:16,  4.13s/it]  6%|▋         | 6318/100000 [3:27:56<100:51:01,  3.88s/it]                                                             6%|▋         | 6318/100000 [3:27:56<100:51:01,  3.88s/it]  6%|▋         | 6319/100000 [3:27:59<93:57:52,  3.61s/it]                                                             6%|▋         | 6319/100000 [3:27:59<93:57:52,  3.61s/it]  6%|▋         | 6320/100000 [3:28:02<87:31:31,  3.36s/it]                                                            6%|▋         | 6320/100000 [3:28:02<87:31:31,  3.36s/it]  6%|▋         | 6321/100000 [3:28:04<80:58:29,  3.11s/it]                                                            6%|▋         | 6321/100000 [3:28:04<80:58:29,  3.11s/it]  6%|▋         | 6322/100000 [3:28:07<74:49:02,  2.88s/it]                                                            6%|▋         | 6322/100000 [3:28:07<74:49:02,  2.88s/it]  6%|▋         | 6323/100000 [3:28:09<68:33:29,  2.63s/it]                                                            6%|▋         | 6323/100000 [3:28:09<68:33:29,  2.63s/it]  6%|▋         | 6324/100000 [3:28:11<63:52:05,  2.45s/it]                                                            6%|▋         | 6324/100000 [3:28:11<63:52:05,  2.45s/it]  6%|▋         | 6325/100000 [3:28:13<59:33:28,  2.29s/it]                                                            6%|▋         | 6325/100000 [3:28:13<59:33:28,  2.29s/it]  6%|▋         | 6326/100000 [3:28:14<55:54:15,  2.15s/it]                                                            6%|▋         | 6326/100000 [3:28:14<55:54:15,  2.15s/it]  6%|▋         | 6327/100000 [3:28:16<52:46:13,  2.03s/it]                                                            6%|▋         | 6327/100000 [3:28:16<52:46:13,  2.03s/it]  6%|▋         | 6328/100000 [3:28:18<50:04:06,  1.92s/it]                                                            6%|▋         | 6328/100000 [3:28:18<50:04:06,  1.92s/it]  6%|▋         | 6329/100000 [3:28:19<47:16:28,  1.82s/it]                                                            6%|▋         | 6329/100000 [3:28:19<47:16:28,  1.82s/it]  6%|▋         | 6330/100000 [3:28:21<45:27:34,  1.75s/it]                                                            6%|▋         | 6330/100000 [3:28:21<45:27:34,  1.75s/it]  6%|▋         | 6331/100000 [3:28:22<43:47:35,  1.68s/it]                                                          {'loss': 0.02, 'grad_norm': 0.3725167512893677, 'learning_rate': 1.8735000000000003e-05, 'epoch': 11.53}
+{'loss': 0.0195, 'grad_norm': 0.6236770749092102, 'learning_rate': 1.8738000000000003e-05, 'epoch': 11.53}
+{'loss': 0.0167, 'grad_norm': 0.4146452248096466, 'learning_rate': 1.8741000000000002e-05, 'epoch': 11.53}
+{'loss': 0.0193, 'grad_norm': 0.3959144353866577, 'learning_rate': 1.8744000000000002e-05, 'epoch': 11.53}
+{'loss': 0.0273, 'grad_norm': 0.6457730531692505, 'learning_rate': 1.8747000000000002e-05, 'epoch': 11.54}
+{'loss': 0.0299, 'grad_norm': 0.6635228991508484, 'learning_rate': 1.8750000000000002e-05, 'epoch': 11.54}
+{'loss': 0.0349, 'grad_norm': 0.41056013107299805, 'learning_rate': 1.8753e-05, 'epoch': 11.54}
+{'loss': 0.0117, 'grad_norm': 0.3606818616390228, 'learning_rate': 1.8756e-05, 'epoch': 11.54}
+{'loss': 0.0178, 'grad_norm': 1.001387357711792, 'learning_rate': 1.8759e-05, 'epoch': 11.54}
+{'loss': 0.0241, 'grad_norm': 0.4944041967391968, 'learning_rate': 1.8761999999999998e-05, 'epoch': 11.54}
+{'loss': 0.0159, 'grad_norm': 0.4109015166759491, 'learning_rate': 1.8764999999999997e-05, 'epoch': 11.55}
+{'loss': 0.0221, 'grad_norm': 0.4980219006538391, 'learning_rate': 1.8768e-05, 'epoch': 11.55}
+{'loss': 0.025, 'grad_norm': 0.5004519820213318, 'learning_rate': 1.8771e-05, 'epoch': 11.55}
+{'loss': 0.0397, 'grad_norm': 0.7837686538696289, 'learning_rate': 1.8774e-05, 'epoch': 11.55}
+{'loss': 0.0869, 'grad_norm': 1.5615583658218384, 'learning_rate': 1.8777e-05, 'epoch': 11.55}
+{'loss': 0.2417, 'grad_norm': 0.7100450992584229, 'learning_rate': 1.878e-05, 'epoch': 11.56}
+{'loss': 0.1802, 'grad_norm': 0.5554599761962891, 'learning_rate': 1.8783e-05, 'epoch': 11.56}
+{'loss': 0.1449, 'grad_norm': 0.6480225324630737, 'learning_rate': 1.8786e-05, 'epoch': 11.56}
+{'loss': 0.1696, 'grad_norm': 0.6713318228721619, 'learning_rate': 1.8789e-05, 'epoch': 11.56}
+{'loss': 0.1916, 'grad_norm': 0.7170022130012512, 'learning_rate': 1.8792e-05, 'epoch': 11.56}
+{'loss': 0.126, 'grad_norm': 0.5778694748878479, 'learning_rate': 1.8795e-05, 'epoch': 11.57}
+{'loss': 0.108, 'grad_norm': 0.5431328415870667, 'learning_rate': 1.8798000000000002e-05, 'epoch': 11.57}
+{'loss': 0.1114, 'grad_norm': 1.2238951921463013, 'learning_rate': 1.8801000000000002e-05, 'epoch': 11.57}
+{'loss': 0.0839, 'grad_norm': 0.8291918039321899, 'learning_rate': 1.8804e-05, 'epoch': 11.57}
+{'loss': 0.1024, 'grad_norm': 0.6827449202537537, 'learning_rate': 1.8807e-05, 'epoch': 11.57}
+{'loss': 0.0618, 'grad_norm': 0.4937664568424225, 'learning_rate': 1.881e-05, 'epoch': 11.57}
+{'loss': 0.0651, 'grad_norm': 0.4901401400566101, 'learning_rate': 1.8813e-05, 'epoch': 11.58}
+{'loss': 0.1219, 'grad_norm': 0.8407455086708069, 'learning_rate': 1.8816e-05, 'epoch': 11.58}
+{'loss': 0.0682, 'grad_norm': 0.5447347164154053, 'learning_rate': 1.8819e-05, 'epoch': 11.58}
+{'loss': 0.0362, 'grad_norm': 0.3770175278186798, 'learning_rate': 1.8822e-05, 'epoch': 11.58}
+{'loss': 0.0351, 'grad_norm': 0.48820844292640686, 'learning_rate': 1.8825e-05, 'epoch': 11.58}
+{'loss': 0.0315, 'grad_norm': 0.5128350257873535, 'learning_rate': 1.8828000000000003e-05, 'epoch': 11.59}
+{'loss': 0.0252, 'grad_norm': 0.6119294762611389, 'learning_rate': 1.8831000000000003e-05, 'epoch': 11.59}
+{'loss': 0.0221, 'grad_norm': 0.5184559226036072, 'learning_rate': 1.8834e-05, 'epoch': 11.59}
+{'loss': 0.0258, 'grad_norm': 0.6163107752799988, 'learning_rate': 1.8837e-05, 'epoch': 11.59}
+{'loss': 0.033, 'grad_norm': 0.5317324995994568, 'learning_rate': 1.884e-05, 'epoch': 11.59}
+{'loss': 0.0296, 'grad_norm': 0.4561191201210022, 'learning_rate': 1.8843e-05, 'epoch': 11.59}
+{'loss': 0.0212, 'grad_norm': 0.3529854714870453, 'learning_rate': 1.8846e-05, 'epoch': 11.6}
+{'loss': 0.016, 'grad_norm': 0.39690741896629333, 'learning_rate': 1.8849e-05, 'epoch': 11.6}
+{'loss': 0.0233, 'grad_norm': 0.6497731804847717, 'learning_rate': 1.8852e-05, 'epoch': 11.6}
+{'loss': 0.0331, 'grad_norm': 0.5435981750488281, 'learning_rate': 1.8854999999999998e-05, 'epoch': 11.6}
+{'loss': 0.029, 'grad_norm': 0.724307119846344, 'learning_rate': 1.8858e-05, 'epoch': 11.6}
+{'loss': 0.0328, 'grad_norm': 0.4700302183628082, 'learning_rate': 1.8861e-05, 'epoch': 11.61}
+{'loss': 0.0263, 'grad_norm': 0.39719411730766296, 'learning_rate': 1.8864e-05, 'epoch': 11.61}
+{'loss': 0.0182, 'grad_norm': 0.38685211539268494, 'learning_rate': 1.8867e-05, 'epoch': 11.61}
+{'loss': 0.0185, 'grad_norm': 0.3751578629016876, 'learning_rate': 1.887e-05, 'epoch': 11.61}
+{'loss': 0.0106, 'grad_norm': 0.38899144530296326, 'learning_rate': 1.8873e-05, 'epoch': 11.61}
+{'loss': 0.029, 'grad_norm': 0.6312898993492126, 'learning_rate': 1.8876e-05, 'epoch': 11.61}
+{'loss': 0.0254, 'grad_norm': 1.0704835653305054, 'learning_rate': 1.8879e-05, 'epoch': 11.62}
+{'loss': 0.0248, 'grad_norm': 0.9887194633483887, 'learning_rate': 1.8882e-05, 'epoch': 11.62}
+{'loss': 0.0297, 'grad_norm': 0.5434224009513855, 'learning_rate': 1.8885e-05, 'epoch': 11.62}
+{'loss': 0.0176, 'grad_norm': 0.506160318851471, 'learning_rate': 1.8888000000000003e-05, 'epoch': 11.62}
+{'loss': 0.045, 'grad_norm': 1.1333355903625488, 'learning_rate': 1.8891000000000003e-05, 'epoch': 11.62}
+{'loss': 0.0174, 'grad_norm': 0.3217025399208069, 'learning_rate': 1.8894000000000002e-05, 'epoch': 11.63}
+{'loss': 0.0144, 'grad_norm': 0.4421088397502899, 'learning_rate': 1.8897000000000002e-05, 'epoch': 11.63}
+{'loss': 0.0194, 'grad_norm': 0.5572022199630737, 'learning_rate': 1.8900000000000002e-05, 'epoch': 11.63}
+{'loss': 0.0143, 'grad_norm': 0.292294979095459, 'learning_rate': 1.8903000000000002e-05, 'epoch': 11.63}
+{'loss': 0.0317, 'grad_norm': 1.2303966283798218, 'learning_rate': 1.8906e-05, 'epoch': 11.63}
+{'loss': 0.022, 'grad_norm': 0.5086663365364075, 'learning_rate': 1.8908999999999998e-05, 'epoch': 11.64}
+{'loss': 0.0346, 'grad_norm': 0.9124029874801636, 'learning_rate': 1.8911999999999998e-05, 'epoch': 11.64}
+{'loss': 0.0181, 'grad_norm': 0.47102823853492737, 'learning_rate': 1.8914999999999998e-05, 'epoch': 11.64}
+{'loss': 0.0241, 'grad_norm': 0.624832808971405, 'learning_rate': 1.8918e-05, 'epoch': 11.64}
+{'loss': 0.0271, 'grad_norm': 0.7668011784553528, 'learning_rate': 1.8921e-05, 'epoch': 11.64}
+{'loss': 0.0169, 'grad_norm': 0.4850684404373169, 'learning_rate': 1.8924e-05, 'epoch': 11.64}
+{'loss': 0.0182, 'grad_norm': 0.40155303478240967, 'learning_rate': 1.8927e-05, 'epoch': 11.65}
+{'loss': 0.2137, 'grad_norm': 0.7572173476219177, 'learning_rate': 1.893e-05, 'epoch': 11.65}
+{'loss': 0.1823, 'grad_norm': 0.5553044080734253, 'learning_rate': 1.8933e-05, 'epoch': 11.65}
+{'loss': 0.1886, 'grad_norm': 0.7447746396064758, 'learning_rate': 1.8936e-05, 'epoch': 11.65}
+{'loss': 0.1405, 'grad_norm': 0.6007423400878906, 'learning_rate': 1.8939e-05, 'epoch': 11.65}
+{'loss': 0.1075, 'grad_norm': 0.6235414147377014, 'learning_rate': 1.8942e-05, 'epoch': 11.66}
+{'loss': 0.1024, 'grad_norm': 0.6585131287574768, 'learning_rate': 1.8945e-05, 'epoch': 11.66}
+{'loss': 0.1454, 'grad_norm': 0.7461692690849304, 'learning_rate': 1.8948000000000002e-05, 'epoch': 11.66}
+{'loss': 0.0975, 'grad_norm': 0.5178083181381226, 'learning_rate': 1.8951000000000002e-05, 'epoch': 11.66}
+{'loss': 0.1067, 'grad_norm': 0.7293455004692078, 'learning_rate': 1.8954000000000002e-05, 'epoch': 11.66}
+{'loss': 0.0661, 'grad_norm': 0.44974884390830994, 'learning_rate': 1.8957e-05, 'epoch': 11.66}
+{'loss': 0.0724, 'grad_norm': 0.45195817947387695, 'learning_rate': 1.896e-05, 'epoch': 11.67}
+{'loss': 0.0848, 'grad_norm': 0.5777408480644226, 'learning_rate': 1.8963e-05, 'epoch': 11.67}
+{'loss': 0.0469, 'grad_norm': 0.6494334936141968, 'learning_rate': 1.8966e-05, 'epoch': 11.67}
+{'loss': 0.0652, 'grad_norm': 0.5034980773925781, 'learning_rate': 1.8969e-05, 'epoch': 11.67}
+{'loss': 0.0352, 'grad_norm': 0.37976697087287903, 'learning_rate': 1.8972e-05, 'epoch': 11.67}
+{'loss': 0.0583, 'grad_norm': 0.932072639465332, 'learning_rate': 1.8975e-05, 'epoch': 11.68}
+{'loss': 0.0266, 'grad_norm': 0.4678153395652771, 'learning_rate': 1.8978000000000004e-05, 'epoch': 11.68}
+{'loss': 0.0398, 'grad_norm': 0.45993855595588684, 'learning_rate': 1.8981e-05, 'epoch': 11.68}
+  6%|▋         | 6331/100000 [3:28:22<43:47:35,  1.68s/it]  6%|▋         | 6332/100000 [3:28:24<42:12:04,  1.62s/it]                                                            6%|▋         | 6332/100000 [3:28:24<42:12:04,  1.62s/it]  6%|▋         | 6333/100000 [3:28:25<40:35:27,  1.56s/it]                                                            6%|▋         | 6333/100000 [3:28:25<40:35:27,  1.56s/it]  6%|▋         | 6334/100000 [3:28:27<39:35:06,  1.52s/it]                                                            6%|▋         | 6334/100000 [3:28:27<39:35:06,  1.52s/it]  6%|▋         | 6335/100000 [3:28:28<38:43:32,  1.49s/it]                                                            6%|▋         | 6335/100000 [3:28:28<38:43:32,  1.49s/it]  6%|▋         | 6336/100000 [3:28:30<37:56:09,  1.46s/it]                                                            6%|▋         | 6336/100000 [3:28:30<37:56:09,  1.46s/it]  6%|▋         | 6337/100000 [3:28:31<37:14:03,  1.43s/it]                                                            6%|▋         | 6337/100000 [3:28:31<37:14:03,  1.43s/it]  6%|▋         | 6338/100000 [3:28:32<36:36:56,  1.41s/it]                                                            6%|▋         | 6338/100000 [3:28:32<36:36:56,  1.41s/it]  6%|▋         | 6339/100000 [3:28:34<36:00:20,  1.38s/it]                                                            6%|▋         | 6339/100000 [3:28:34<36:00:20,  1.38s/it]  6%|▋         | 6340/100000 [3:28:35<35:00:50,  1.35s/it]                                                            6%|▋         | 6340/100000 [3:28:35<35:00:50,  1.35s/it]  6%|▋         | 6341/100000 [3:28:36<34:27:48,  1.32s/it]                                                            6%|▋         | 6341/100000 [3:28:36<34:27:48,  1.32s/it]  6%|▋         | 6342/100000 [3:28:37<33:46:22,  1.30s/it]                                                            6%|▋         | 6342/100000 [3:28:37<33:46:22,  1.30s/it]  6%|▋         | 6343/100000 [3:28:39<33:31:21,  1.29s/it]                                                            6%|▋         | 6343/100000 [3:28:39<33:31:21,  1.29s/it]  6%|▋         | 6344/100000 [3:28:40<33:06:30,  1.27s/it]                                                            6%|▋         | 6344/100000 [3:28:40<33:06:30,  1.27s/it]  6%|▋         | 6345/100000 [3:28:41<32:21:02,  1.24s/it]                                                            6%|▋         | 6345/100000 [3:28:41<32:21:02,  1.24s/it]  6%|▋         | 6346/100000 [3:28:42<32:11:40,  1.24s/it]                                                            6%|▋         | 6346/100000 [3:28:42<32:11:40,  1.24s/it]  6%|▋         | 6347/100000 [3:28:43<31:38:26,  1.22s/it]                                                            6%|▋         | 6347/100000 [3:28:43<31:38:26,  1.22s/it]  6%|▋         | 6348/100000 [3:28:45<31:11:46,  1.20s/it]                                                            6%|▋         | 6348/100000 [3:28:45<31:11:46,  1.20s/it]  6%|▋         | 6349/100000 [3:28:46<30:36:50,  1.18s/it]                                                            6%|▋         | 6349/100000 [3:28:46<30:36:50,  1.18s/it]  6%|▋         | 6350/100000 [3:28:47<30:17:49,  1.16s/it]                                                            6%|▋         | 6350/100000 [3:28:47<30:17:49,  1.16s/it]  6%|▋         | 6351/100000 [3:28:48<29:56:21,  1.15s/it]                                                            6%|▋         | 6351/100000 [3:28:48<29:56:21,  1.15s/it]  6%|▋         | 6352/100000 [3:28:49<29:17:44,  1.13s/it]                                                            6%|▋         | 6352/100000 [3:28:49<29:17:44,  1.13s/it]  6%|▋         | 6353/100000 [3:28:50<28:46:22,  1.11s/it]                                                            6%|▋         | 6353/100000 [3:28:50<28:46:22,  1.11s/it]  6%|▋         | 6354/100000 [3:28:51<28:15:21,  1.09s/it]                                                            6%|▋         | 6354/100000 [3:28:51<28:15:21,  1.09s/it]  6%|▋         | 6355/100000 [3:28:52<27:41:58,  1.06s/it]                                                            6%|▋         | 6355/100000 [3:28:52<27:41:58,  1.06s/it]  6%|▋         | 6356/100000 [3:28:53<27:17:20,  1.05s/it]                                                            6%|▋         | 6356/100000 [3:28:53<27:17:20,  1.05s/it]  6%|▋         | 6357/100000 [3:28:54<26:53:19,  1.03s/it]                                                            6%|▋         | 6357/100000 [3:28:54<26:53:19,  1.03s/it]  6%|▋         | 6358/100000 [3:28:55<26:28:45,  1.02s/it]                                                            6%|▋         | 6358/100000 [3:28:55<26:28:45,  1.02s/it]  6%|▋         | 6359/100000 [3:28:56<26:06:02,  1.00s/it]                                                            6%|▋         | 6359/100000 [3:28:56<26:06:02,  1.00s/it]  6%|▋         | 6360/100000 [3:28:57<25:26:16,  1.02it/s]                                                            6%|▋         | 6360/100000 [3:28:57<25:26:16,  1.02it/s]  6%|▋         | 6361/100000 [3:28:58<24:44:22,  1.05it/s]                                                            6%|▋         | 6361/100000 [3:28:58<24:44:22,  1.05it/s]  6%|▋         | 6362/100000 [3:28:59<24:01:11,  1.08it/s]                                                            6%|▋         | 6362/100000 [3:28:59<24:01:11,  1.08it/s]  6%|▋         | 6363/100000 [3:29:11<108:56:15,  4.19s/it]                                                             6%|▋         | 6363/100000 [3:29:11<108:56:15,  4.19s/it]  6%|▋         | 6364/100000 [3:29:16<121:26:30,  4.67s/it]                                                             6%|▋         | 6364/100000 [3:29:16<121:26:30,  4.67s/it]  6%|▋         | 6365/100000 [3:29:21<119:04:48,  4.58s/it]                                                             6%|▋         | 6365/100000 [3:29:21<119:04:48,  4.58s/it]  6%|▋         | 6366/100000 [3:29:25<112:39:46,  4.33s/it]                                                             6%|▋         | 6366/100000 [3:29:25<112:39:46,  4.33s/it]  6%|▋         | 6367/100000 [3:29:28<105:44:44,  4.07s/it]                                                             6%|▋         | 6367/100000 [3:29:28<105:44:44,  4.07s/it]  6%|▋         | 6368/100000 [3:29:31<99:04:27,  3.81s/it]                                                             6%|▋         | 6368/100000 [3:29:31<99:04:27,  3.81s/it]  6%|▋         | 6369/100000 [3:29:34<92:32:23,  3.56s/it]                                                            6%|▋         | 6369/100000 [3:29:34<92:32:23,  3.56s/it]  6%|▋         | 6370/100000 [3:29:37<85:27:23,  3.29s/it]                                                            6%|▋         | 6370/100000 [3:29:37<85:27:23,  3.29s/it]  6%|▋         | 6371/100000 [3:29:39<78:03:47,  3.00s/it]                                                            6%|▋         | 6371/100000 [3:29:39<78:03:47,  3.00s/it]  6%|▋         | 6372/100000 [3:29:41<72:39:31,  2.79s/it]                                                            6%|▋         | 6372/100000 [3:29:42<72:39:31,  2.79s/it]  6%|▋         | 6373/100000 [3:29:44<67:35:52,  2.60s/it]                                                            6%|▋         | 6373/100000 [3:29:44<67:35:52,  2.60s/it]  6%|▋         | 6374/100000 [3:29:46<63:25:15,  2.44s/it]                                                            6%|▋         | 6374/100000 [3:29:46<63:25:15,  2.44s/it]  6%|▋         | 6375/100000 [3:29:48<59:38:32,  2.29s/it]                                                            6%|▋         | 6375/100000 [3:29:48<59:38:32,  2.29s/it]  6%|▋         | 6376/100000 [3:29:49<56:10:06,  2.16s/it]                                                            6%|▋         | 6376/100000 [3:29:50<56:10:06,  2.16s/it]  6%|▋         | 6377/100000 [3:29:51<53:03:44,  2.04s/it]                                                            6%|▋         | 6377/100000 [3:29:51<53:03:44,  2.04s/it]  6%|▋         | 6378/100000 [3:29:53<49:44:36,  1.91s/it]                                                            6%|▋         | 6378/100000 [3:29:53<49:44:36,  1.91s/it]  6%|▋         | 6379/100000 [3:29:55<47:39:45,  1.83s/it]                                                            6%|▋         | 6379/100000 [3:29:55<47:39:45,  1.83s/it]  6%|▋         | 6380/100000 [3:29:56<45:48:48,  1.76s/it]                                                            6%|▋         | 6380/100000 [3:29:56<45:48:48,  1.76s/it]  6%|▋         | 6381/100000 [3:29:58<43:53:50,  1.69s/it]                                                            6%|▋         | 6381/100000 [3:29:58<43:53:50,  1.69s/it]  6%|▋         | 6382/100000 [3:29:59<41:58:40,  1.61s/it]                                                            6%|▋         | 6382/100000 [3:29:59<41:58:40,  1.61s/it]  6%|▋         | 6383/100000 [3:30:01<40:44:22,  1.57s/it]                                                            6%|▋         | 6383/100000 [3:30:01<40:44:22,  1.57s/it]  6%|▋         | 6384/100000 [3:30:02<39:27:06,  1.52s/it]                                                            6%|▋         | 6384/100000 [3:30:02<39:27:06,  1.52s/it]  6%|▋         | 6385/100000 [3:30:03<38:34:18,  1.48s/it]                                                            6%|▋         | 6385/100000 [3:30:03<38:34:18,  1.48s/it]  6%|▋         | 6386/100000 [3:30:05<37:38:46,  1.45s/it]                                                            6%|▋         | 6386/100000 [3:30:05<37:38:46,  1.45s/it]  6%|▋         | 6387/100000 [3:30:06<37:10:10,  1.43s/it]                                                            6%|▋         | 6387/100000 [3:30:06<37:10:10,  1.43s/it]  6%|▋         | 6388/100000 [3:30:07<36:22:03,  1.40s/it]                                                            6%|▋         | 6388/100000 [3:30:07<36:22:03,  1.40s/it]  6%|▋         | 6389/100000 [3:30:09<35:19:21,  1.36s/it]                                                            6%|▋         | 6389/100000 [3:30:09<35:19:21,  1.36s/it]  6%|▋         | 6390/100000 [3:30:10<34:51:39,  1.34s/it]                                                            6%|▋         | 6390/100000 [3:30:10<34:51:39,  1.34s/it]  6%|▋         | 6391/100000 [3:30:11<34:25:09,  1.32s/it]                                                            6%|▋         | 6391/100000 [3:30:11<34:25:09,  1.32s/it]  6%|▋         | 6392/100000 [3:30:13<34:03:40,  1.31s/it]                                                            6%|▋         | 6392/100000 [3:30:13<34:03:40,  1.31s/it]  6%|▋         | 6393/100000 [3:30:14<33:25:17,  1.29s/it]                                                            6%|▋         | 6393/100000 [3:30:14<33:25:17,  1.29s/it]  6%|▋         | 6394/100000 [3:30:15<32:59:21,  1.27s/it]                                                            6%|▋         | 6394/100000 [3:30:15<32:59:21,  1.27s/it]  6%|▋         | 6395/100000 [3:30:16<32:38:23,  1.26s/it]                                                            6%|▋         | 6395/100000 [3:30:16<32:38:23,  1.26s/it]  6%|▋         | 6396/100000 [3:30:17<32:18:45,  1.24s/it]                                                            6%|▋         | 6396/100000 [3:30:17<32:18:45,  1.24s/it]  6%|▋         | 6397/100000 [3:30:19<31:44:01,  1.22s/it]                                                            6%|▋         | 6397/100000 [3:30:19<31:44:01,  1.22s/it]  6%|▋         | 6398/100000 [3:30:20<30:58:51,  1.19s/it]                                                            6%|▋         | 6398/100000 [3:30:20<30:58:51,  1.19s/it]  6%|▋         | 6399/100000 [3:30:21<30:22:34,  1.17s/it]                                                            6%|▋         | 6399/100000 [3:30:21<30:22:34,  1.17s/it]  6%|▋         | 6400/100000 [3:30:22<29:51:33,  1.15s/it]                                                            6%|▋         | 6400/100000 [3:30:22<29:51:33,  1.15s/it]  6%|▋         | 6401/100000 [3:30:23<29:20:48,  1.13s/it]                                                            6%|▋         | 6401/100000 [3:30:23<29:20:48,  1.13s/it]  6%|▋         | 6402/100000 [3:30:24<29:02:39,  1.12s/it]                                                            6%|▋         | 6402/100000 [3:30:24<29:02:39,  1.12s/it]  6%|▋         | 6403/100000 [3:30:25<28:34:19,  1.10s/it]                                                            6%|▋         | 6403/100000 [3:30:25<28:34:19,  1.10s/it]  6%|▋         | 6404/100000 [3:30:26<28:13:46,  1.09s/it]                                                            6%|▋         | 6404/100000 [3:30:26<28:13:46,  1.09s/it]  6%|▋         | 6405/100000 [3:30:27<27:56:58,  1.08s/it]                                                            6%|▋         | 6405/100000 [3:30:27<27:56:58,  1.08s/it]  6%|▋         | 6406/100000 [3:30:28<27:28:10,  1.06s/it]                                                            6%|▋         | 6406/100000 [3:30:28<27:28:10,  1.06s/it]  6%|▋         | 6407/100000 [3:30:29<27:01:42,  1.04s/it]                                                            6%|▋         | 6407/100000 [3:30:29<27:01:42,  1.04s/it]  6%|▋         | 6408/100000 [3:30:30<26:18:33,  1.01s/it]                                                            6%|▋         | 6408/100000 [3:30:30<26:18:33,  1.01s/it]  6%|▋         | 6409/100000 [3:30:31<25:40:51,  1.01it/s]                                                            6%|▋         | 6409/100000 [3:30:31<25:40:51,  1.01it/s]  6%|▋         | 6410/100000 [3:30:32<25:19:50,  1.03it/s]                                                            6%|▋         | 6410/100000 [3:30:32<25:19:50,  1.03it/s]  6%|▋         | 6411/100000 [3:30:33<24:41:06,  1.05it/s]                                                            6%|▋         | 6411/100000 [3:30:33<24:41:06,  1.05it/s]  6%|▋         | 6412/100000 [3:30:34<23:32:28,  1.10it/s]                                                            6%|▋         | 6412/100000 [3:30:34<23:32:28,  1.10it/s]  6%|▋         | 6413/100000 [3:30:45<103:07:31,  3.97s/it]                                                             6%|▋         | 6413/100000 [3:30:45<103:07:31,  3.97s/it]  6%|▋         | 6414/100000 [3:30:51<118:13:31,  4.55s/it]                                                           {'loss': 0.053, 'grad_norm': 0.587837815284729, 'learning_rate': 1.8984e-05, 'epoch': 11.68}
+{'loss': 0.0946, 'grad_norm': 0.5369887948036194, 'learning_rate': 1.8987e-05, 'epoch': 11.68}
+{'loss': 0.0356, 'grad_norm': 0.803807258605957, 'learning_rate': 1.899e-05, 'epoch': 11.69}
+{'loss': 0.0325, 'grad_norm': 0.4701552391052246, 'learning_rate': 1.8993e-05, 'epoch': 11.69}
+{'loss': 0.0449, 'grad_norm': 0.6736271381378174, 'learning_rate': 1.8996e-05, 'epoch': 11.69}
+{'loss': 0.0203, 'grad_norm': 0.35552453994750977, 'learning_rate': 1.8999e-05, 'epoch': 11.69}
+{'loss': 0.0209, 'grad_norm': 0.3159559965133667, 'learning_rate': 1.9002e-05, 'epoch': 11.69}
+{'loss': 0.0223, 'grad_norm': 0.38443759083747864, 'learning_rate': 1.9005e-05, 'epoch': 11.69}
+{'loss': 0.0133, 'grad_norm': 0.20609219372272491, 'learning_rate': 1.9008e-05, 'epoch': 11.7}
+{'loss': 0.0636, 'grad_norm': 0.5753526091575623, 'learning_rate': 1.9011e-05, 'epoch': 11.7}
+{'loss': 0.0193, 'grad_norm': 0.38154879212379456, 'learning_rate': 1.9014e-05, 'epoch': 11.7}
+{'loss': 0.0177, 'grad_norm': 0.485611230134964, 'learning_rate': 1.9017e-05, 'epoch': 11.7}
+{'loss': 0.0158, 'grad_norm': 0.3644583523273468, 'learning_rate': 1.902e-05, 'epoch': 11.7}
+{'loss': 0.0141, 'grad_norm': 0.33003613352775574, 'learning_rate': 1.9023e-05, 'epoch': 11.71}
+{'loss': 0.0136, 'grad_norm': 0.33550500869750977, 'learning_rate': 1.9026e-05, 'epoch': 11.71}
+{'loss': 0.0159, 'grad_norm': 0.3046441376209259, 'learning_rate': 1.9029e-05, 'epoch': 11.71}
+{'loss': 0.0201, 'grad_norm': 0.6863639950752258, 'learning_rate': 1.9032e-05, 'epoch': 11.71}
+{'loss': 0.0305, 'grad_norm': 0.7514137029647827, 'learning_rate': 1.9035e-05, 'epoch': 11.71}
+{'loss': 0.0214, 'grad_norm': 0.5391896963119507, 'learning_rate': 1.9038000000000003e-05, 'epoch': 11.71}
+{'loss': 0.0147, 'grad_norm': 0.5416777729988098, 'learning_rate': 1.9041000000000003e-05, 'epoch': 11.72}
+{'loss': 0.019, 'grad_norm': 0.7514315843582153, 'learning_rate': 1.9044000000000003e-05, 'epoch': 11.72}
+{'loss': 0.0279, 'grad_norm': 0.8173295259475708, 'learning_rate': 1.9047000000000002e-05, 'epoch': 11.72}
+{'loss': 0.0148, 'grad_norm': 0.7046154141426086, 'learning_rate': 1.9050000000000002e-05, 'epoch': 11.72}
+{'loss': 0.0141, 'grad_norm': 0.33618953824043274, 'learning_rate': 1.9053000000000002e-05, 'epoch': 11.72}
+{'loss': 0.0264, 'grad_norm': 0.4373946189880371, 'learning_rate': 1.9056e-05, 'epoch': 11.73}
+{'loss': 0.0249, 'grad_norm': 0.7646742463111877, 'learning_rate': 1.9058999999999998e-05, 'epoch': 11.73}
+{'loss': 0.0266, 'grad_norm': 0.9046465158462524, 'learning_rate': 1.9061999999999998e-05, 'epoch': 11.73}
+{'loss': 0.0228, 'grad_norm': 0.4174250662326813, 'learning_rate': 1.9064999999999998e-05, 'epoch': 11.73}
+{'loss': 0.0473, 'grad_norm': 0.756666898727417, 'learning_rate': 1.9068e-05, 'epoch': 11.73}
+{'loss': 0.0234, 'grad_norm': 0.5958936214447021, 'learning_rate': 1.9071e-05, 'epoch': 11.73}
+{'loss': 0.0198, 'grad_norm': 0.7871098518371582, 'learning_rate': 1.9074e-05, 'epoch': 11.74}
+{'loss': 0.0317, 'grad_norm': 1.7256369590759277, 'learning_rate': 1.9077e-05, 'epoch': 11.74}
+{'loss': 0.2726, 'grad_norm': 0.892645537853241, 'learning_rate': 1.908e-05, 'epoch': 11.74}
+{'loss': 0.2411, 'grad_norm': 0.7114629745483398, 'learning_rate': 1.9083e-05, 'epoch': 11.74}
+{'loss': 0.1997, 'grad_norm': 0.6901366710662842, 'learning_rate': 1.9086e-05, 'epoch': 11.74}
+{'loss': 0.164, 'grad_norm': 0.7185481786727905, 'learning_rate': 1.9089e-05, 'epoch': 11.75}
+{'loss': 0.1472, 'grad_norm': 0.676231324672699, 'learning_rate': 1.9092e-05, 'epoch': 11.75}
+{'loss': 0.1133, 'grad_norm': 0.5787920355796814, 'learning_rate': 1.9095e-05, 'epoch': 11.75}
+{'loss': 0.117, 'grad_norm': 0.5355517268180847, 'learning_rate': 1.9098000000000002e-05, 'epoch': 11.75}
+{'loss': 0.1369, 'grad_norm': 0.7404063940048218, 'learning_rate': 1.9101000000000002e-05, 'epoch': 11.75}
+{'loss': 0.0798, 'grad_norm': 0.5565574765205383, 'learning_rate': 1.9104000000000002e-05, 'epoch': 11.76}
+{'loss': 0.086, 'grad_norm': 0.5662729144096375, 'learning_rate': 1.9107000000000002e-05, 'epoch': 11.76}
+{'loss': 0.0923, 'grad_norm': 0.5577512383460999, 'learning_rate': 1.911e-05, 'epoch': 11.76}
+{'loss': 0.0757, 'grad_norm': 0.5840328931808472, 'learning_rate': 1.9113e-05, 'epoch': 11.76}
+{'loss': 0.0569, 'grad_norm': 0.564666748046875, 'learning_rate': 1.9116e-05, 'epoch': 11.76}
+{'loss': 0.1026, 'grad_norm': 0.8744934797286987, 'learning_rate': 1.9119e-05, 'epoch': 11.76}
+{'loss': 0.0332, 'grad_norm': 0.41327589750289917, 'learning_rate': 1.9122e-05, 'epoch': 11.77}
+{'loss': 0.0283, 'grad_norm': 0.43064767122268677, 'learning_rate': 1.9125e-05, 'epoch': 11.77}
+{'loss': 0.0629, 'grad_norm': 0.46121013164520264, 'learning_rate': 1.9128e-05, 'epoch': 11.77}
+{'loss': 0.0398, 'grad_norm': 0.3944796621799469, 'learning_rate': 1.9131e-05, 'epoch': 11.77}
+{'loss': 0.0369, 'grad_norm': 0.3431522250175476, 'learning_rate': 1.9134e-05, 'epoch': 11.77}
+{'loss': 0.0288, 'grad_norm': 0.3767950236797333, 'learning_rate': 1.9137e-05, 'epoch': 11.78}
+{'loss': 0.0206, 'grad_norm': 0.3588629364967346, 'learning_rate': 1.914e-05, 'epoch': 11.78}
+{'loss': 0.0299, 'grad_norm': 0.5769614577293396, 'learning_rate': 1.9143e-05, 'epoch': 11.78}
+{'loss': 0.033, 'grad_norm': 0.49329817295074463, 'learning_rate': 1.9146e-05, 'epoch': 11.78}
+{'loss': 0.0218, 'grad_norm': 0.38085702061653137, 'learning_rate': 1.9149e-05, 'epoch': 11.78}
+{'loss': 0.0306, 'grad_norm': 0.970015287399292, 'learning_rate': 1.9152e-05, 'epoch': 11.78}
+{'loss': 0.0162, 'grad_norm': 0.4538666903972626, 'learning_rate': 1.9155e-05, 'epoch': 11.79}
+{'loss': 0.0243, 'grad_norm': 0.45507508516311646, 'learning_rate': 1.9158e-05, 'epoch': 11.79}
+{'loss': 0.0184, 'grad_norm': 0.4752728343009949, 'learning_rate': 1.9161000000000002e-05, 'epoch': 11.79}
+{'loss': 0.0195, 'grad_norm': 0.3834904432296753, 'learning_rate': 1.9164e-05, 'epoch': 11.79}
+{'loss': 0.0208, 'grad_norm': 0.42033740878105164, 'learning_rate': 1.9167e-05, 'epoch': 11.79}
+{'loss': 0.0186, 'grad_norm': 0.40084317326545715, 'learning_rate': 1.917e-05, 'epoch': 11.8}
+{'loss': 0.0245, 'grad_norm': 0.5597448348999023, 'learning_rate': 1.9173e-05, 'epoch': 11.8}
+{'loss': 0.0216, 'grad_norm': 0.3703473210334778, 'learning_rate': 1.9176e-05, 'epoch': 11.8}
+{'loss': 0.0139, 'grad_norm': 0.39047250151634216, 'learning_rate': 1.9179e-05, 'epoch': 11.8}
+{'loss': 0.0182, 'grad_norm': 0.5017368197441101, 'learning_rate': 1.9182e-05, 'epoch': 11.8}
+{'loss': 0.0157, 'grad_norm': 0.7702073454856873, 'learning_rate': 1.9185e-05, 'epoch': 11.81}
+{'loss': 0.0236, 'grad_norm': 0.5346407890319824, 'learning_rate': 1.9188e-05, 'epoch': 11.81}
+{'loss': 0.0215, 'grad_norm': 0.37275490164756775, 'learning_rate': 1.9191000000000003e-05, 'epoch': 11.81}
+{'loss': 0.0226, 'grad_norm': 0.6201837062835693, 'learning_rate': 1.9194000000000003e-05, 'epoch': 11.81}
+{'loss': 0.0433, 'grad_norm': 1.1140520572662354, 'learning_rate': 1.9197000000000003e-05, 'epoch': 11.81}
+{'loss': 0.0261, 'grad_norm': 0.8839095234870911, 'learning_rate': 1.9200000000000003e-05, 'epoch': 11.81}
+{'loss': 0.0299, 'grad_norm': 0.5836665034294128, 'learning_rate': 1.9203e-05, 'epoch': 11.82}
+{'loss': 0.0281, 'grad_norm': 0.7881624102592468, 'learning_rate': 1.9206e-05, 'epoch': 11.82}
+{'loss': 0.0277, 'grad_norm': 0.7433090806007385, 'learning_rate': 1.9209e-05, 'epoch': 11.82}
+{'loss': 0.0233, 'grad_norm': 0.5852258205413818, 'learning_rate': 1.9212e-05, 'epoch': 11.82}
+{'loss': 0.0174, 'grad_norm': 0.374634712934494, 'learning_rate': 1.9214999999999998e-05, 'epoch': 11.82}
+{'loss': 0.0194, 'grad_norm': 0.4605027735233307, 'learning_rate': 1.9217999999999998e-05, 'epoch': 11.83}
+{'loss': 0.0233, 'grad_norm': 0.6278563737869263, 'learning_rate': 1.9221e-05, 'epoch': 11.83}
+{'loss': 0.0452, 'grad_norm': 0.7279020547866821, 'learning_rate': 1.9224e-05, 'epoch': 11.83}
+{'loss': 0.0137, 'grad_norm': 0.5646888613700867, 'learning_rate': 1.9227e-05, 'epoch': 11.83}
+{'loss': 0.2184, 'grad_norm': 0.8535590171813965, 'learning_rate': 1.923e-05, 'epoch': 11.83}
+  6%|▋         | 6414/100000 [3:30:51<118:13:31,  4.55s/it]  6%|▋         | 6415/100000 [3:30:56<119:41:06,  4.60s/it]                                                             6%|▋         | 6415/100000 [3:30:56<119:41:06,  4.60s/it]  6%|▋         | 6416/100000 [3:31:00<116:31:21,  4.48s/it]                                                             6%|▋         | 6416/100000 [3:31:00<116:31:21,  4.48s/it]  6%|▋         | 6417/100000 [3:31:04<110:50:03,  4.26s/it]                                                             6%|▋         | 6417/100000 [3:31:04<110:50:03,  4.26s/it]  6%|▋         | 6418/100000 [3:31:07<102:53:50,  3.96s/it]                                                             6%|▋         | 6418/100000 [3:31:07<102:53:50,  3.96s/it]  6%|▋         | 6419/100000 [3:31:10<96:35:57,  3.72s/it]                                                             6%|▋         | 6419/100000 [3:31:10<96:35:57,  3.72s/it]  6%|▋         | 6420/100000 [3:31:13<89:29:44,  3.44s/it]                                                            6%|▋         | 6420/100000 [3:31:13<89:29:44,  3.44s/it]  6%|▋         | 6421/100000 [3:31:15<83:23:11,  3.21s/it]                                                            6%|▋         | 6421/100000 [3:31:15<83:23:11,  3.21s/it]  6%|▋         | 6422/100000 [3:31:18<77:30:54,  2.98s/it]                                                            6%|▋         | 6422/100000 [3:31:18<77:30:54,  2.98s/it]  6%|▋         | 6423/100000 [3:31:20<72:08:19,  2.78s/it]                                                            6%|▋         | 6423/100000 [3:31:20<72:08:19,  2.78s/it]  6%|▋         | 6424/100000 [3:31:22<67:07:22,  2.58s/it]                                                            6%|▋         | 6424/100000 [3:31:22<67:07:22,  2.58s/it]  6%|▋         | 6425/100000 [3:31:24<62:41:40,  2.41s/it]                                                            6%|▋         | 6425/100000 [3:31:24<62:41:40,  2.41s/it]  6%|▋         | 6426/100000 [3:31:26<58:39:04,  2.26s/it]                                                            6%|▋         | 6426/100000 [3:31:26<58:39:04,  2.26s/it]  6%|▋         | 6427/100000 [3:31:28<54:38:36,  2.10s/it]                                                            6%|▋         | 6427/100000 [3:31:28<54:38:36,  2.10s/it]  6%|▋         | 6428/100000 [3:31:30<51:07:26,  1.97s/it]                                                            6%|▋         | 6428/100000 [3:31:30<51:07:26,  1.97s/it]  6%|▋         | 6429/100000 [3:31:31<48:30:55,  1.87s/it]                                                            6%|▋         | 6429/100000 [3:31:31<48:30:55,  1.87s/it]  6%|▋         | 6430/100000 [3:31:33<45:55:21,  1.77s/it]                                                            6%|▋         | 6430/100000 [3:31:33<45:55:21,  1.77s/it]  6%|▋         | 6431/100000 [3:31:34<43:52:32,  1.69s/it]                                                            6%|▋         | 6431/100000 [3:31:34<43:52:32,  1.69s/it]  6%|▋         | 6432/100000 [3:31:36<41:47:22,  1.61s/it]                                                            6%|▋         | 6432/100000 [3:31:36<41:47:22,  1.61s/it]  6%|▋         | 6433/100000 [3:31:37<40:11:15,  1.55s/it]                                                            6%|▋         | 6433/100000 [3:31:37<40:11:15,  1.55s/it]  6%|▋         | 6434/100000 [3:31:39<39:28:32,  1.52s/it]                                                            6%|▋         | 6434/100000 [3:31:39<39:28:32,  1.52s/it]  6%|▋         | 6435/100000 [3:31:40<38:36:14,  1.49s/it]                                                            6%|▋         | 6435/100000 [3:31:40<38:36:14,  1.49s/it]  6%|▋         | 6436/100000 [3:31:41<37:29:43,  1.44s/it]                                                            6%|▋         | 6436/100000 [3:31:41<37:29:43,  1.44s/it]  6%|▋         | 6437/100000 [3:31:43<36:47:12,  1.42s/it]                                                            6%|▋         | 6437/100000 [3:31:43<36:47:12,  1.42s/it]  6%|▋         | 6438/100000 [3:31:44<36:11:17,  1.39s/it]                                                            6%|▋         | 6438/100000 [3:31:44<36:11:17,  1.39s/it]  6%|▋         | 6439/100000 [3:31:45<35:33:34,  1.37s/it]                                                            6%|▋         | 6439/100000 [3:31:45<35:33:34,  1.37s/it]  6%|▋         | 6440/100000 [3:31:47<34:39:50,  1.33s/it]                                                            6%|▋         | 6440/100000 [3:31:47<34:39:50,  1.33s/it]  6%|▋         | 6441/100000 [3:31:48<34:07:47,  1.31s/it]                                                            6%|▋         | 6441/100000 [3:31:48<34:07:47,  1.31s/it]  6%|▋         | 6442/100000 [3:31:49<33:37:02,  1.29s/it]                                                            6%|▋         | 6442/100000 [3:31:49<33:37:02,  1.29s/it]  6%|▋         | 6443/100000 [3:31:50<33:19:42,  1.28s/it]                                                            6%|▋         | 6443/100000 [3:31:50<33:19:42,  1.28s/it]  6%|▋         | 6444/100000 [3:31:51<32:42:18,  1.26s/it]                                                            6%|▋         | 6444/100000 [3:31:51<32:42:18,  1.26s/it]  6%|▋         | 6445/100000 [3:31:53<32:11:03,  1.24s/it]                                                            6%|▋         | 6445/100000 [3:31:53<32:11:03,  1.24s/it]  6%|▋         | 6446/100000 [3:31:54<31:54:33,  1.23s/it]                                                            6%|▋         | 6446/100000 [3:31:54<31:54:33,  1.23s/it]  6%|▋         | 6447/100000 [3:31:55<31:18:09,  1.20s/it]                                                            6%|▋         | 6447/100000 [3:31:55<31:18:09,  1.20s/it]  6%|▋         | 6448/100000 [3:31:56<30:50:11,  1.19s/it]                                                            6%|▋         | 6448/100000 [3:31:56<30:50:11,  1.19s/it]  6%|▋         | 6449/100000 [3:31:57<30:38:40,  1.18s/it]                                                            6%|▋         | 6449/100000 [3:31:57<30:38:40,  1.18s/it]  6%|▋         | 6450/100000 [3:31:58<30:14:11,  1.16s/it]                                                            6%|▋         | 6450/100000 [3:31:58<30:14:11,  1.16s/it]  6%|▋         | 6451/100000 [3:32:00<29:30:23,  1.14s/it]                                                            6%|▋         | 6451/100000 [3:32:00<29:30:23,  1.14s/it]  6%|▋         | 6452/100000 [3:32:01<28:57:37,  1.11s/it]                                                            6%|▋         | 6452/100000 [3:32:01<28:57:37,  1.11s/it]  6%|▋         | 6453/100000 [3:32:02<28:38:35,  1.10s/it]                                                            6%|▋         | 6453/100000 [3:32:02<28:38:35,  1.10s/it]  6%|▋         | 6454/100000 [3:32:03<28:02:51,  1.08s/it]                                                            6%|▋         | 6454/100000 [3:32:03<28:02:51,  1.08s/it]  6%|▋         | 6455/100000 [3:32:04<27:40:29,  1.07s/it]                                                            6%|▋         | 6455/100000 [3:32:04<27:40:29,  1.07s/it]  6%|▋         | 6456/100000 [3:32:05<27:27:45,  1.06s/it]                                                            6%|▋         | 6456/100000 [3:32:05<27:27:45,  1.06s/it]  6%|▋         | 6457/100000 [3:32:06<27:07:27,  1.04s/it]                                                            6%|▋         | 6457/100000 [3:32:06<27:07:27,  1.04s/it]  6%|▋         | 6458/100000 [3:32:07<26:42:30,  1.03s/it]                                                            6%|▋         | 6458/100000 [3:32:07<26:42:30,  1.03s/it]  6%|▋         | 6459/100000 [3:32:08<26:16:44,  1.01s/it]                                                            6%|▋         | 6459/100000 [3:32:08<26:16:44,  1.01s/it]  6%|▋         | 6460/100000 [3:32:09<25:56:19,  1.00it/s]                                                            6%|▋         | 6460/100000 [3:32:09<25:56:19,  1.00it/s]  6%|▋         | 6461/100000 [3:32:10<25:27:30,  1.02it/s]                                                            6%|▋         | 6461/100000 [3:32:10<25:27:30,  1.02it/s]  6%|▋         | 6462/100000 [3:32:11<24:47:25,  1.05it/s]                                                            6%|▋         | 6462/100000 [3:32:11<24:47:25,  1.05it/s]  6%|▋         | 6463/100000 [3:32:21<99:34:23,  3.83s/it]                                                            6%|▋         | 6463/100000 [3:32:21<99:34:23,  3.83s/it]  6%|▋         | 6464/100000 [3:32:26<108:48:49,  4.19s/it]                                                             6%|▋         | 6464/100000 [3:32:26<108:48:49,  4.19s/it]  6%|▋         | 6465/100000 [3:32:30<106:41:40,  4.11s/it]                                                             6%|▋         | 6465/100000 [3:32:30<106:41:40,  4.11s/it]  6%|▋         | 6466/100000 [3:32:34<102:53:31,  3.96s/it]                                                             6%|▋         | 6466/100000 [3:32:34<102:53:31,  3.96s/it]  6%|▋         | 6467/100000 [3:32:37<97:47:16,  3.76s/it]                                                             6%|▋         | 6467/100000 [3:32:37<97:47:16,  3.76s/it]  6%|▋         | 6468/100000 [3:32:40<91:20:49,  3.52s/it]                                                            6%|▋         | 6468/100000 [3:32:40<91:20:49,  3.52s/it]  6%|▋         | 6469/100000 [3:32:43<84:45:56,  3.26s/it]                                                            6%|▋         | 6469/100000 [3:32:43<84:45:56,  3.26s/it]  6%|▋         | 6470/100000 [3:32:45<78:33:36,  3.02s/it]                                                            6%|▋         | 6470/100000 [3:32:45<78:33:36,  3.02s/it]  6%|▋         | 6471/100000 [3:32:47<72:32:17,  2.79s/it]                                                            6%|▋         | 6471/100000 [3:32:47<72:32:17,  2.79s/it]  6%|▋         | 6472/100000 [3:32:49<66:47:30,  2.57s/it]                                                            6%|▋         | 6472/100000 [3:32:49<66:47:30,  2.57s/it]  6%|▋         | 6473/100000 [3:32:51<61:51:16,  2.38s/it]                                                            6%|▋         | 6473/100000 [3:32:51<61:51:16,  2.38s/it]  6%|▋         | 6474/100000 [3:32:53<57:17:54,  2.21s/it]                                                            6%|▋         | 6474/100000 [3:32:53<57:17:54,  2.21s/it]  6%|▋         | 6475/100000 [3:32:55<53:28:23,  2.06s/it]                                                            6%|▋         | 6475/100000 [3:32:55<53:28:23,  2.06s/it]  6%|▋         | 6476/100000 [3:32:56<49:55:40,  1.92s/it]                                                            6%|▋         | 6476/100000 [3:32:56<49:55:40,  1.92s/it]  6%|▋         | 6477/100000 [3:32:58<47:23:40,  1.82s/it]                                                            6%|▋         | 6477/100000 [3:32:58<47:23:40,  1.82s/it]  6%|▋         | 6478/100000 [3:32:59<44:48:09,  1.72s/it]                                                            6%|▋         | 6478/100000 [3:32:59<44:48:09,  1.72s/it]  6%|▋         | 6479/100000 [3:33:01<42:53:11,  1.65s/it]                                                            6%|▋         | 6479/100000 [3:33:01<42:53:11,  1.65s/it]  6%|▋         | 6480/100000 [3:33:02<41:15:42,  1.59s/it]                                                            6%|▋         | 6480/100000 [3:33:02<41:15:42,  1.59s/it]  6%|▋         | 6481/100000 [3:33:04<39:38:13,  1.53s/it]                                                            6%|▋         | 6481/100000 [3:33:04<39:38:13,  1.53s/it]  6%|▋         | 6482/100000 [3:33:05<38:19:42,  1.48s/it]                                                            6%|▋         | 6482/100000 [3:33:05<38:19:42,  1.48s/it]  6%|▋         | 6483/100000 [3:33:06<37:27:56,  1.44s/it]                                                            6%|▋         | 6483/100000 [3:33:06<37:27:56,  1.44s/it]  6%|▋         | 6484/100000 [3:33:08<36:40:03,  1.41s/it]                                                            6%|▋         | 6484/100000 [3:33:08<36:40:03,  1.41s/it]  6%|▋         | 6485/100000 [3:33:09<35:42:02,  1.37s/it]                                                            6%|▋         | 6485/100000 [3:33:09<35:42:02,  1.37s/it]  6%|▋         | 6486/100000 [3:33:10<35:05:12,  1.35s/it]                                                            6%|▋         | 6486/100000 [3:33:10<35:05:12,  1.35s/it]  6%|▋         | 6487/100000 [3:33:12<34:13:57,  1.32s/it]                                                            6%|▋         | 6487/100000 [3:33:12<34:13:57,  1.32s/it]  6%|▋         | 6488/100000 [3:33:13<34:21:34,  1.32s/it]                                                            6%|▋         | 6488/100000 [3:33:13<34:21:34,  1.32s/it]  6%|▋         | 6489/100000 [3:33:14<33:24:46,  1.29s/it]                                                            6%|▋         | 6489/100000 [3:33:14<33:24:46,  1.29s/it]  6%|▋         | 6490/100000 [3:33:15<32:48:20,  1.26s/it]                                                            6%|▋         | 6490/100000 [3:33:15<32:48:20,  1.26s/it]  6%|▋         | 6491/100000 [3:33:17<32:06:39,  1.24s/it]                                                            6%|▋         | 6491/100000 [3:33:17<32:06:39,  1.24s/it]  6%|▋         | 6492/100000 [3:33:18<31:13:41,  1.20s/it]                                                            6%|▋         | 6492/100000 [3:33:18<31:13:41,  1.20s/it]  6%|▋         | 6493/100000 [3:33:19<30:40:57,  1.18s/it]                                                            6%|▋         | 6493/100000 [3:33:19<30:40:57,  1.18s/it]  6%|▋         | 6494/100000 [3:33:20<29:55:10,  1.15s/it]                                                            6%|▋         | 6494/100000 [3:33:20<29:55:10,  1.15s/it]  6%|▋         | 6495/100000 [3:33:21<29:31:26,  1.14s/it]                                                            6%|▋         | 6495/100000 [3:33:21<29:31:26,  1.14s/it]  6%|▋         | 6496/100000 [3:33:22<28:59:30,  1.12s/it]                                                            6%|▋         | 6496/100000 [3:33:22<28:59:30,  1.12s/it]  6%|▋         | 6497/100000 [3:33:23<28:38:21,  1.10s/it]                                                          {'loss': 0.2622, 'grad_norm': 0.6590369939804077, 'learning_rate': 1.9233e-05, 'epoch': 11.83}
+{'loss': 0.2415, 'grad_norm': 0.7224426865577698, 'learning_rate': 1.9236e-05, 'epoch': 11.84}
+{'loss': 0.1965, 'grad_norm': 0.6342539191246033, 'learning_rate': 1.9239e-05, 'epoch': 11.84}
+{'loss': 0.1593, 'grad_norm': 0.6734256148338318, 'learning_rate': 1.9242e-05, 'epoch': 11.84}
+{'loss': 0.1726, 'grad_norm': 0.6946101188659668, 'learning_rate': 1.9245e-05, 'epoch': 11.84}
+{'loss': 0.1261, 'grad_norm': 0.6345155835151672, 'learning_rate': 1.9248e-05, 'epoch': 11.84}
+{'loss': 0.0942, 'grad_norm': 0.8070105910301208, 'learning_rate': 1.9251000000000003e-05, 'epoch': 11.85}
+{'loss': 0.1272, 'grad_norm': 0.6948537230491638, 'learning_rate': 1.9254000000000002e-05, 'epoch': 11.85}
+{'loss': 0.135, 'grad_norm': 1.096514105796814, 'learning_rate': 1.9257000000000002e-05, 'epoch': 11.85}
+{'loss': 0.1008, 'grad_norm': 0.5865067839622498, 'learning_rate': 1.9260000000000002e-05, 'epoch': 11.85}
+{'loss': 0.0691, 'grad_norm': 0.5337828397750854, 'learning_rate': 1.9263000000000002e-05, 'epoch': 11.85}
+{'loss': 0.0889, 'grad_norm': 0.5951547026634216, 'learning_rate': 1.9266e-05, 'epoch': 11.86}
+{'loss': 0.0799, 'grad_norm': 0.45236048102378845, 'learning_rate': 1.9269e-05, 'epoch': 11.86}
+{'loss': 0.0491, 'grad_norm': 0.4453403353691101, 'learning_rate': 1.9272e-05, 'epoch': 11.86}
+{'loss': 0.0551, 'grad_norm': 0.6715244650840759, 'learning_rate': 1.9275e-05, 'epoch': 11.86}
+{'loss': 0.0275, 'grad_norm': 0.465982049703598, 'learning_rate': 1.9277999999999997e-05, 'epoch': 11.86}
+{'loss': 0.0405, 'grad_norm': 0.4710586667060852, 'learning_rate': 1.9281e-05, 'epoch': 11.86}
+{'loss': 0.0258, 'grad_norm': 0.37974944710731506, 'learning_rate': 1.9284e-05, 'epoch': 11.87}
+{'loss': 0.0256, 'grad_norm': 0.44384387135505676, 'learning_rate': 1.9287e-05, 'epoch': 11.87}
+{'loss': 0.0261, 'grad_norm': 0.536176323890686, 'learning_rate': 1.929e-05, 'epoch': 11.87}
+{'loss': 0.0306, 'grad_norm': 0.44399988651275635, 'learning_rate': 1.9293e-05, 'epoch': 11.87}
+{'loss': 0.0285, 'grad_norm': 0.47737666964530945, 'learning_rate': 1.9296e-05, 'epoch': 11.87}
+{'loss': 0.0196, 'grad_norm': 0.35225576162338257, 'learning_rate': 1.9299e-05, 'epoch': 11.88}
+{'loss': 0.025, 'grad_norm': 0.5185000896453857, 'learning_rate': 1.9302e-05, 'epoch': 11.88}
+{'loss': 0.0132, 'grad_norm': 0.33857572078704834, 'learning_rate': 1.9305e-05, 'epoch': 11.88}
+{'loss': 0.0192, 'grad_norm': 0.40006375312805176, 'learning_rate': 1.9308e-05, 'epoch': 11.88}
+{'loss': 0.0238, 'grad_norm': 0.3900461494922638, 'learning_rate': 1.9311000000000002e-05, 'epoch': 11.88}
+{'loss': 0.0128, 'grad_norm': 0.22454053163528442, 'learning_rate': 1.9314000000000002e-05, 'epoch': 11.88}
+{'loss': 0.0245, 'grad_norm': 0.6170540452003479, 'learning_rate': 1.9317e-05, 'epoch': 11.89}
+{'loss': 0.0151, 'grad_norm': 0.4073467254638672, 'learning_rate': 1.932e-05, 'epoch': 11.89}
+{'loss': 0.0193, 'grad_norm': 0.4349503517150879, 'learning_rate': 1.9323e-05, 'epoch': 11.89}
+{'loss': 0.0266, 'grad_norm': 0.6105451583862305, 'learning_rate': 1.9326e-05, 'epoch': 11.89}
+{'loss': 0.0201, 'grad_norm': 0.44563114643096924, 'learning_rate': 1.9329e-05, 'epoch': 11.89}
+{'loss': 0.0161, 'grad_norm': 0.37493470311164856, 'learning_rate': 1.9332e-05, 'epoch': 11.9}
+{'loss': 0.026, 'grad_norm': 0.5489336252212524, 'learning_rate': 1.9335e-05, 'epoch': 11.9}
+{'loss': 0.0341, 'grad_norm': 0.4425601661205292, 'learning_rate': 1.9338e-05, 'epoch': 11.9}
+{'loss': 0.0274, 'grad_norm': 1.0750174522399902, 'learning_rate': 1.9341000000000003e-05, 'epoch': 11.9}
+{'loss': 0.0247, 'grad_norm': 0.5695386528968811, 'learning_rate': 1.9344000000000003e-05, 'epoch': 11.9}
+{'loss': 0.0357, 'grad_norm': 0.953221321105957, 'learning_rate': 1.9347000000000003e-05, 'epoch': 11.9}
+{'loss': 0.0235, 'grad_norm': 0.5750436782836914, 'learning_rate': 1.935e-05, 'epoch': 11.91}
+{'loss': 0.0249, 'grad_norm': 0.4252550005912781, 'learning_rate': 1.9353e-05, 'epoch': 11.91}
+{'loss': 0.0216, 'grad_norm': 1.0517467260360718, 'learning_rate': 1.9356e-05, 'epoch': 11.91}
+{'loss': 0.0185, 'grad_norm': 0.45456618070602417, 'learning_rate': 1.9359e-05, 'epoch': 11.91}
+{'loss': 0.0264, 'grad_norm': 0.9214330315589905, 'learning_rate': 1.9362e-05, 'epoch': 11.91}
+{'loss': 0.0231, 'grad_norm': 0.6516225337982178, 'learning_rate': 1.9365e-05, 'epoch': 11.92}
+{'loss': 0.0239, 'grad_norm': 0.8239295482635498, 'learning_rate': 1.9367999999999998e-05, 'epoch': 11.92}
+{'loss': 0.0236, 'grad_norm': 0.7495092153549194, 'learning_rate': 1.9371e-05, 'epoch': 11.92}
+{'loss': 0.0328, 'grad_norm': 1.0203250646591187, 'learning_rate': 1.9374e-05, 'epoch': 11.92}
+{'loss': 0.0556, 'grad_norm': 1.0962752103805542, 'learning_rate': 1.9377e-05, 'epoch': 11.92}
+{'loss': 0.2026, 'grad_norm': 0.7170693278312683, 'learning_rate': 1.938e-05, 'epoch': 11.93}
+{'loss': 0.163, 'grad_norm': 0.6785096526145935, 'learning_rate': 1.9383e-05, 'epoch': 11.93}
+{'loss': 0.1217, 'grad_norm': 0.4773499369621277, 'learning_rate': 1.9386e-05, 'epoch': 11.93}
+{'loss': 0.1997, 'grad_norm': 0.9946964383125305, 'learning_rate': 1.9389e-05, 'epoch': 11.93}
+{'loss': 0.1777, 'grad_norm': 0.8184168934822083, 'learning_rate': 1.9392e-05, 'epoch': 11.93}
+{'loss': 0.1585, 'grad_norm': 0.7503487467765808, 'learning_rate': 1.9395e-05, 'epoch': 11.93}
+{'loss': 0.1039, 'grad_norm': 0.4815266728401184, 'learning_rate': 1.9398e-05, 'epoch': 11.94}
+{'loss': 0.1137, 'grad_norm': 0.8742775917053223, 'learning_rate': 1.9401000000000003e-05, 'epoch': 11.94}
+{'loss': 0.0984, 'grad_norm': 0.5850298404693604, 'learning_rate': 1.9404000000000003e-05, 'epoch': 11.94}
+{'loss': 0.0732, 'grad_norm': 0.6854799389839172, 'learning_rate': 1.9407000000000002e-05, 'epoch': 11.94}
+{'loss': 0.0735, 'grad_norm': 0.5733482837677002, 'learning_rate': 1.9410000000000002e-05, 'epoch': 11.94}
+{'loss': 0.059, 'grad_norm': 0.5619057416915894, 'learning_rate': 1.9413000000000002e-05, 'epoch': 11.95}
+{'loss': 0.0609, 'grad_norm': 0.5128675699234009, 'learning_rate': 1.9416000000000002e-05, 'epoch': 11.95}
+{'loss': 0.0606, 'grad_norm': 0.5612236261367798, 'learning_rate': 1.9419e-05, 'epoch': 11.95}
+{'loss': 0.037, 'grad_norm': 0.5712298154830933, 'learning_rate': 1.9422e-05, 'epoch': 11.95}
+{'loss': 0.0637, 'grad_norm': 0.8684074282646179, 'learning_rate': 1.9424999999999998e-05, 'epoch': 11.95}
+{'loss': 0.0245, 'grad_norm': 0.3099026083946228, 'learning_rate': 1.9427999999999998e-05, 'epoch': 11.95}
+{'loss': 0.0138, 'grad_norm': 0.2949822247028351, 'learning_rate': 1.9431e-05, 'epoch': 11.96}
+{'loss': 0.0161, 'grad_norm': 0.3665012717247009, 'learning_rate': 1.9434e-05, 'epoch': 11.96}
+{'loss': 0.0244, 'grad_norm': 0.3798087239265442, 'learning_rate': 1.9437e-05, 'epoch': 11.96}
+{'loss': 0.0402, 'grad_norm': 0.525526225566864, 'learning_rate': 1.944e-05, 'epoch': 11.96}
+{'loss': 0.0238, 'grad_norm': 0.45501410961151123, 'learning_rate': 1.9443e-05, 'epoch': 11.96}
+{'loss': 0.0135, 'grad_norm': 0.26545315980911255, 'learning_rate': 1.9446e-05, 'epoch': 11.97}
+{'loss': 0.0347, 'grad_norm': 0.6194910407066345, 'learning_rate': 1.9449e-05, 'epoch': 11.97}
+{'loss': 0.0699, 'grad_norm': 0.5148172378540039, 'learning_rate': 1.9452e-05, 'epoch': 11.97}
+{'loss': 0.0313, 'grad_norm': 0.6581459045410156, 'learning_rate': 1.9455e-05, 'epoch': 11.97}
+{'loss': 0.0248, 'grad_norm': 0.6907075047492981, 'learning_rate': 1.9458e-05, 'epoch': 11.97}
+{'loss': 0.0242, 'grad_norm': 0.4608518183231354, 'learning_rate': 1.9461000000000002e-05, 'epoch': 11.98}
+{'loss': 0.0171, 'grad_norm': 0.48929011821746826, 'learning_rate': 1.9464000000000002e-05, 'epoch': 11.98}
+{'loss': 0.0204, 'grad_norm': 0.5067629218101501, 'learning_rate': 1.9467000000000002e-05, 'epoch': 11.98}
+{'loss': 0.0255, 'grad_norm': 0.5316839814186096, 'learning_rate': 1.947e-05, 'epoch': 11.98}
+{'loss': 0.0407, 'grad_norm': 0.7034479975700378, 'learning_rate': 1.9473e-05, 'epoch': 11.98}
+{'loss': 0.0268, 'grad_norm': 0.469872385263443, 'learning_rate': 1.9476e-05, 'epoch': 11.98}
+{'loss': 0.0164, 'grad_norm': 0.49888551235198975, 'learning_rate': 1.9479e-05, 'epoch': 11.99}
+  6%|▋         | 6497/100000 [3:33:23<28:38:21,  1.10s/it]  6%|▋         | 6498/100000 [3:33:24<28:17:27,  1.09s/it]                                                            6%|▋         | 6498/100000 [3:33:24<28:17:27,  1.09s/it]  6%|▋         | 6499/100000 [3:33:25<27:45:12,  1.07s/it]                                                            6%|▋         | 6499/100000 [3:33:25<27:45:12,  1.07s/it]  6%|▋         | 6500/100000 [3:33:26<26:56:27,  1.04s/it]                                                            6%|▋         | 6500/100000 [3:33:26<26:56:27,  1.04s/it]  7%|▋         | 6501/100000 [3:33:27<26:20:12,  1.01s/it]                                                            7%|▋         | 6501/100000 [3:33:27<26:20:12,  1.01s/it]  7%|▋         | 6502/100000 [3:33:28<25:50:24,  1.01it/s]                                                            7%|▋         | 6502/100000 [3:33:28<25:50:24,  1.01it/s]  7%|▋         | 6503/100000 [3:33:29<24:46:49,  1.05it/s]                                                            7%|▋         | 6503/100000 [3:33:29<24:46:49,  1.05it/s]  7%|▋         | 6504/100000 [3:33:30<23:17:01,  1.12it/s]                                                            7%|▋         | 6504/100000 [3:33:30<23:17:01,  1.12it/s]{'loss': 0.0296, 'grad_norm': 0.5648143887519836, 'learning_rate': 1.9482e-05, 'epoch': 11.99}
+{'loss': 0.023, 'grad_norm': 0.43154245615005493, 'learning_rate': 1.9485e-05, 'epoch': 11.99}
+{'loss': 0.0136, 'grad_norm': 0.7657442092895508, 'learning_rate': 1.9488e-05, 'epoch': 11.99}
+{'loss': 0.0256, 'grad_norm': 0.6309219002723694, 'learning_rate': 1.9491000000000004e-05, 'epoch': 11.99}
+{'loss': 0.0134, 'grad_norm': 0.5489864945411682, 'learning_rate': 1.9494000000000003e-05, 'epoch': 12.0}
+{'loss': 0.0278, 'grad_norm': 0.5915862321853638, 'learning_rate': 1.9497e-05, 'epoch': 12.0}
+{'loss': 0.045, 'grad_norm': 1.2053042650222778, 'learning_rate': 1.95e-05, 'epoch': 12.0}
+{'loss': 0.0098, 'grad_norm': 0.3713594377040863, 'learning_rate': 1.9503e-05, 'epoch': 12.0}
+  7%|▋         | 6505/100000 [3:33:46<146:35:57,  5.64s/it]                                                             7%|▋         | 6505/100000 [3:33:46<146:35:57,  5.64s/it]  7%|▋         | 6506/100000 [3:33:52<144:23:14,  5.56s/it]                                                             7%|▋         | 6506/100000 [3:33:52<144:23:14,  5.56s/it]  7%|▋         | 6507/100000 [3:33:56<134:01:14,  5.16s/it]                                                             7%|▋         | 6507/100000 [3:33:56<134:01:14,  5.16s/it]  7%|▋         | 6508/100000 [3:34:00<123:09:58,  4.74s/it]                                                             7%|▋         | 6508/100000 [3:34:00<123:09:58,  4.74s/it]  7%|▋         | 6509/100000 [3:34:03<112:06:22,  4.32s/it]                                                             7%|▋         | 6509/100000 [3:34:03<112:06:22,  4.32s/it]  7%|▋         | 6510/100000 [3:34:06<102:16:07,  3.94s/it]                                                             7%|▋         | 6510/100000 [3:34:06<102:16:07,  3.94s/it]  7%|▋         | 6511/100000 [3:34:09<93:36:43,  3.60s/it]                                                             7%|▋         | 6511/100000 [3:34:09<93:36:43,  3.60s/it]  7%|▋         | 6512/100000 [3:34:11<84:32:18,  3.26s/it]                                                            7%|▋         | 6512/100000 [3:34:11<84:32:18,  3.26s/it]  7%|▋         | 6513/100000 [3:34:14<77:31:59,  2.99s/it]                                                            7%|▋         | 6513/100000 [3:34:14<77:31:59,  2.99s/it]  7%|▋         | 6514/100000 [3:34:16<71:29:42,  2.75s/it]                                                            7%|▋         | 6514/100000 [3:34:16<71:29:42,  2.75s/it]  7%|▋         | 6515/100000 [3:34:18<65:38:42,  2.53s/it]                                                            7%|▋         | 6515/100000 [3:34:18<65:38:42,  2.53s/it]  7%|▋         | 6516/100000 [3:34:20<61:09:42,  2.36s/it]                                                            7%|▋         | 6516/100000 [3:34:20<61:09:42,  2.36s/it]  7%|▋         | 6517/100000 [3:34:22<57:23:56,  2.21s/it]                                                            7%|▋         | 6517/100000 [3:34:22<57:23:56,  2.21s/it]  7%|▋         | 6518/100000 [3:34:24<54:00:13,  2.08s/it]                                                            7%|▋         | 6518/100000 [3:34:24<54:00:13,  2.08s/it]  7%|▋         | 6519/100000 [3:34:25<51:12:12,  1.97s/it]                                                            7%|▋         | 6519/100000 [3:34:25<51:12:12,  1.97s/it]  7%|▋         | 6520/100000 [3:34:27<48:43:09,  1.88s/it]                                                            7%|▋         | 6520/100000 [3:34:27<48:43:09,  1.88s/it]  7%|▋         | 6521/100000 [3:34:29<46:38:20,  1.80s/it]                                                            7%|▋         | 6521/100000 [3:34:29<46:38:20,  1.80s/it]  7%|▋         | 6522/100000 [3:34:30<44:53:52,  1.73s/it]                                                            7%|▋         | 6522/100000 [3:34:30<44:53:52,  1.73s/it]  7%|▋         | 6523/100000 [3:34:32<43:13:59,  1.67s/it]                                                            7%|▋         | 6523/100000 [3:34:32<43:13:59,  1.67s/it]  7%|▋         | 6524/100000 [3:34:33<41:25:35,  1.60s/it]                                                            7%|▋         | 6524/100000 [3:34:33<41:25:35,  1.60s/it]  7%|▋         | 6525/100000 [3:34:35<40:15:36,  1.55s/it]                                                            7%|▋         | 6525/100000 [3:34:35<40:15:36,  1.55s/it]  7%|▋         | 6526/100000 [3:34:36<39:15:12,  1.51s/it]                                                            7%|▋         | 6526/100000 [3:34:36<39:15:12,  1.51s/it]  7%|▋         | 6527/100000 [3:34:37<38:10:46,  1.47s/it]                                                            7%|▋         | 6527/100000 [3:34:37<38:10:46,  1.47s/it]  7%|▋         | 6528/100000 [3:34:39<37:32:26,  1.45s/it]                                                            7%|▋         | 6528/100000 [3:34:39<37:32:26,  1.45s/it]  7%|▋         | 6529/100000 [3:34:40<36:29:22,  1.41s/it]                                                            7%|▋         | 6529/100000 [3:34:40<36:29:22,  1.41s/it]  7%|▋         | 6530/100000 [3:34:41<36:05:34,  1.39s/it]                                                            7%|▋         | 6530/100000 [3:34:41<36:05:34,  1.39s/it]  7%|▋         | 6531/100000 [3:34:43<35:20:26,  1.36s/it]                                                            7%|▋         | 6531/100000 [3:34:43<35:20:26,  1.36s/it]  7%|▋         | 6532/100000 [3:34:44<34:52:15,  1.34s/it]                                                            7%|▋         | 6532/100000 [3:34:44<34:52:15,  1.34s/it]  7%|▋         | 6533/100000 [3:34:45<34:10:49,  1.32s/it]                                                            7%|▋         | 6533/100000 [3:34:45<34:10:49,  1.32s/it]  7%|▋         | 6534/100000 [3:34:47<33:55:24,  1.31s/it]                                                            7%|▋         | 6534/100000 [3:34:47<33:55:24,  1.31s/it]  7%|▋         | 6535/100000 [3:34:48<33:34:47,  1.29s/it]                                                            7%|▋         | 6535/100000 [3:34:48<33:34:47,  1.29s/it]  7%|▋         | 6536/100000 [3:34:49<32:59:03,  1.27s/it]                                                            7%|▋         | 6536/100000 [3:34:49<32:59:03,  1.27s/it]  7%|▋         | 6537/100000 [3:34:50<32:37:11,  1.26s/it]                                                            7%|▋         | 6537/100000 [3:34:50<32:37:11,  1.26s/it]  7%|▋         | 6538/100000 [3:34:51<31:58:11,  1.23s/it]                                                            7%|▋         | 6538/100000 [3:34:51<31:58:11,  1.23s/it]  7%|▋         | 6539/100000 [3:34:53<31:28:04,  1.21s/it]                                                            7%|▋         | 6539/100000 [3:34:53<31:28:04,  1.21s/it]  7%|▋         | 6540/100000 [3:34:54<31:01:28,  1.20s/it]                                                            7%|▋         | 6540/100000 [3:34:54<31:01:28,  1.20s/it]  7%|▋         | 6541/100000 [3:34:55<30:36:52,  1.18s/it]                                                            7%|▋         | 6541/100000 [3:34:55<30:36:52,  1.18s/it]  7%|▋         | 6542/100000 [3:34:56<30:06:43,  1.16s/it]                                                            7%|▋         | 6542/100000 [3:34:56<30:06:43,  1.16s/it]  7%|▋         | 6543/100000 [3:34:57<29:35:22,  1.14s/it]                                                            7%|▋         | 6543/100000 [3:34:57<29:35:22,  1.14s/it]  7%|▋         | 6544/100000 [3:34:58<29:14:54,  1.13s/it]                                                            7%|▋         | 6544/100000 [3:34:58<29:14:54,  1.13s/it]  7%|▋         | 6545/100000 [3:34:59<28:51:01,  1.11s/it]                                                            7%|▋         | 6545/100000 [3:34:59<28:51:01,  1.11s/it]  7%|▋         | 6546/100000 [3:35:00<28:32:56,  1.10s/it]                                                            7%|▋         | 6546/100000 [3:35:00<28:32:56,  1.10s/it]  7%|▋         | 6547/100000 [3:35:01<27:58:25,  1.08s/it]                                                            7%|▋         | 6547/100000 [3:35:01<27:58:25,  1.08s/it]  7%|▋         | 6548/100000 [3:35:02<27:36:06,  1.06s/it]                                                            7%|▋         | 6548/100000 [3:35:02<27:36:06,  1.06s/it]  7%|▋         | 6549/100000 [3:35:03<27:02:19,  1.04s/it]                                                            7%|▋         | 6549/100000 [3:35:03<27:02:19,  1.04s/it]  7%|▋         | 6550/100000 [3:35:04<26:26:21,  1.02s/it]                                                            7%|▋         | 6550/100000 [3:35:04<26:26:21,  1.02s/it]  7%|▋         | 6551/100000 [3:35:05<26:03:04,  1.00s/it]                                                            7%|▋         | 6551/100000 [3:35:05<26:03:04,  1.00s/it]  7%|▋         | 6552/100000 [3:35:06<25:40:25,  1.01it/s]                                                            7%|▋         | 6552/100000 [3:35:06<25:40:25,  1.01it/s]  7%|▋         | 6553/100000 [3:35:07<25:07:24,  1.03it/s]                                                            7%|▋         | 6553/100000 [3:35:07<25:07:24,  1.03it/s]  7%|▋         | 6554/100000 [3:35:08<24:30:24,  1.06it/s]                                                            7%|▋         | 6554/100000 [3:35:08<24:30:24,  1.06it/s]  7%|▋         | 6555/100000 [3:35:18<97:15:42,  3.75s/it]                                                            7%|▋         | 6555/100000 [3:35:18<97:15:42,  3.75s/it]  7%|▋         | 6556/100000 [3:35:24<114:51:24,  4.42s/it]                                                             7%|▋         | 6556/100000 [3:35:24<114:51:24,  4.42s/it]  7%|▋         | 6557/100000 [3:35:30<120:24:07,  4.64s/it]                                                             7%|▋         | 6557/100000 [3:35:30<120:24:07,  4.64s/it]  7%|▋         | 6558/100000 [3:35:34<116:58:18,  4.51s/it]                                                             7%|▋         | 6558/100000 [3:35:34<116:58:18,  4.51s/it]  7%|▋         | 6559/100000 [3:35:37<110:41:46,  4.26s/it]                                                             7%|▋         | 6559/100000 [3:35:37<110:41:46,  4.26s/it]  7%|▋         | 6560/100000 [3:35:41<103:50:39,  4.00s/it]                                                             7%|▋         | 6560/100000 [3:35:41<103:50:39,  4.00s/it]  7%|▋         | 6561/100000 [3:35:44<96:40:45,  3.72s/it]                                                             7%|▋         | 6561/100000 [3:35:44<96:40:45,  3.72s/it]  7%|▋         | 6562/100000 [3:35:47<88:37:27,  3.41s/it]                                                            7%|▋         | 6562/100000 [3:35:47<88:37:27,  3.41s/it]  7%|▋         | 6563/100000 [3:35:49<81:50:10,  3.15s/it]                                                            7%|▋         | 6563/100000 [3:35:49<81:50:10,  3.15s/it]  7%|▋         | 6564/100000 [3:35:51<75:10:20,  2.90s/it]                                                            7%|▋         | 6564/100000 [3:35:51<75:10:20,  2.90s/it]  7%|▋         | 6565/100000 [3:35:54<69:19:22,  2.67s/it]                                                            7%|▋         | 6565/100000 [3:35:54<69:19:22,  2.67s/it]  7%|▋         | 6566/100000 [3:35:56<63:53:20,  2.46s/it]                                                            7%|▋         | 6566/100000 [3:35:56<63:53:20,  2.46s/it]  7%|▋         | 6567/100000 [3:35:57<59:20:55,  2.29s/it]                                                            7%|▋         | 6567/100000 [3:35:57<59:20:55,  2.29s/it]  7%|▋         | 6568/100000 [3:35:59<55:40:47,  2.15s/it]                                                            7%|▋         | 6568/100000 [3:35:59<55:40:47,  2.15s/it]  7%|▋         | 6569/100000 [3:36:01<53:07:52,  2.05s/it]                                                            7%|▋         | 6569/100000 [3:36:01<53:07:52,  2.05s/it]  7%|▋         | 6570/100000 [3:36:03<50:16:08,  1.94s/it]                                                            7%|▋         | 6570/100000 [3:36:03<50:16:08,  1.94s/it]  7%|▋         | 6571/100000 [3:36:04<47:29:02,  1.83s/it]                                                            7%|▋         | 6571/100000 [3:36:04<47:29:02,  1.83s/it]  7%|▋         | 6572/100000 [3:36:06<45:39:14,  1.76s/it]                                                            7%|▋         | 6572/100000 [3:36:06<45:39:14,  1.76s/it]  7%|▋         | 6573/100000 [3:36:07<43:50:24,  1.69s/it]                                                            7%|▋         | 6573/100000 [3:36:07<43:50:24,  1.69s/it]  7%|▋         | 6574/100000 [3:36:09<42:18:23,  1.63s/it]                                                            7%|▋         | 6574/100000 [3:36:09<42:18:23,  1.63s/it]  7%|▋         | 6575/100000 [3:36:10<40:35:50,  1.56s/it]                                                            7%|▋         | 6575/100000 [3:36:10<40:35:50,  1.56s/it]  7%|▋         | 6576/100000 [3:36:12<39:31:54,  1.52s/it]                                                            7%|▋         | 6576/100000 [3:36:12<39:31:54,  1.52s/it]  7%|▋         | 6577/100000 [3:36:13<38:41:45,  1.49s/it]                                                            7%|▋         | 6577/100000 [3:36:13<38:41:45,  1.49s/it]  7%|▋         | 6578/100000 [3:36:15<37:37:34,  1.45s/it]                                                            7%|▋         | 6578/100000 [3:36:15<37:37:34,  1.45s/it]  7%|▋         | 6579/100000 [3:36:16<37:02:01,  1.43s/it]                                                            7%|▋         | 6579/100000 [3:36:16<37:02:01,  1.43s/it]  7%|▋         | 6580/100000 [3:36:17<36:25:57,  1.40s/it]                                                            7%|▋         | 6580/100000 [3:36:17<36:25:57,  1.40s/it]  7%|▋         | 6581/100000 [3:36:19<35:49:09,  1.38s/it]                                                            7%|▋         | 6581/100000 [3:36:19<35:49:09,  1.38s/it]  7%|▋         | 6582/100000 [3:36:20<35:15:23,  1.36s/it]                                                            7%|▋         | 6582/100000 [3:36:20<35:15:23,  1.36s/it]  7%|▋         | 6583/100000 [3:36:21<34:48:11,  1.34s/it]                                                            7%|▋         | 6583/100000 [3:36:21<34:48:11,  1.34s/it]  7%|▋         | 6584/100000 [3:36:22<34:17:56,  1.32s/it]                                                            7%|▋         | 6584/100000 [3:36:22<34:17:56,  1.32s/it]  7%|▋         | 6585/100000 [3:36:24<33:42:41,  1.30s/it]                                                            7%|▋         | 6585/100000 [3:36:24<33:42:41,  1.30s/it]  7%|▋         | 6586/100000 [3:36:25<33:03:37,  1.27s/it]                                                            7%|▋         | 6586/100000 [3:36:25<33:03:37,  1.27s/it]  7%|▋         | 6587/100000 [3:36:26<32:40:13,  1.26s/it]                                                            7%|▋         | 6587/100000 [3:36:26<32:40:13,  1.26s/it]  7%|▋         | 6588/100000 [3:36:27<31:57:20,  1.23s/it]                                                          {'loss': 0.2887, 'grad_norm': 2.1398563385009766, 'learning_rate': 1.9506e-05, 'epoch': 12.0}
+{'loss': 0.2153, 'grad_norm': 0.7182486653327942, 'learning_rate': 1.9509e-05, 'epoch': 12.0}
+{'loss': 0.1447, 'grad_norm': 0.6150814294815063, 'learning_rate': 1.9512e-05, 'epoch': 12.01}
+{'loss': 0.1322, 'grad_norm': 0.772539496421814, 'learning_rate': 1.9515e-05, 'epoch': 12.01}
+{'loss': 0.1985, 'grad_norm': 1.2308114767074585, 'learning_rate': 1.9518e-05, 'epoch': 12.01}
+{'loss': 0.1299, 'grad_norm': 1.0095338821411133, 'learning_rate': 1.9520999999999998e-05, 'epoch': 12.01}
+{'loss': 0.0782, 'grad_norm': 0.43991515040397644, 'learning_rate': 1.9524e-05, 'epoch': 12.01}
+{'loss': 0.128, 'grad_norm': 0.7752163410186768, 'learning_rate': 1.9527e-05, 'epoch': 12.01}
+{'loss': 0.0866, 'grad_norm': 0.5800342559814453, 'learning_rate': 1.953e-05, 'epoch': 12.02}
+{'loss': 0.0812, 'grad_norm': 0.5003458261489868, 'learning_rate': 1.9533e-05, 'epoch': 12.02}
+{'loss': 0.0759, 'grad_norm': 0.6201184988021851, 'learning_rate': 1.9536e-05, 'epoch': 12.02}
+{'loss': 0.075, 'grad_norm': 0.4879046678543091, 'learning_rate': 1.9539e-05, 'epoch': 12.02}
+{'loss': 0.0834, 'grad_norm': 0.5425206422805786, 'learning_rate': 1.9542e-05, 'epoch': 12.02}
+{'loss': 0.0351, 'grad_norm': 0.3138076961040497, 'learning_rate': 1.9545e-05, 'epoch': 12.03}
+{'loss': 0.0247, 'grad_norm': 0.32039162516593933, 'learning_rate': 1.9548e-05, 'epoch': 12.03}
+{'loss': 0.023, 'grad_norm': 0.28697481751441956, 'learning_rate': 1.9551e-05, 'epoch': 12.03}
+{'loss': 0.0343, 'grad_norm': 0.4406968355178833, 'learning_rate': 1.9554000000000003e-05, 'epoch': 12.03}
+{'loss': 0.0232, 'grad_norm': 0.437920480966568, 'learning_rate': 1.9557000000000003e-05, 'epoch': 12.03}
+{'loss': 0.0188, 'grad_norm': 0.24330918490886688, 'learning_rate': 1.9560000000000002e-05, 'epoch': 12.04}
+{'loss': 0.0483, 'grad_norm': 0.4772188663482666, 'learning_rate': 1.9563000000000002e-05, 'epoch': 12.04}
+{'loss': 0.0279, 'grad_norm': 0.4449160397052765, 'learning_rate': 1.9566000000000002e-05, 'epoch': 12.04}
+{'loss': 0.0334, 'grad_norm': 0.481763631105423, 'learning_rate': 1.9569000000000002e-05, 'epoch': 12.04}
+{'loss': 0.0255, 'grad_norm': 0.786405086517334, 'learning_rate': 1.9571999999999998e-05, 'epoch': 12.04}
+{'loss': 0.0123, 'grad_norm': 0.2664114832878113, 'learning_rate': 1.9574999999999998e-05, 'epoch': 12.04}
+{'loss': 0.0123, 'grad_norm': 0.2534761428833008, 'learning_rate': 1.9577999999999998e-05, 'epoch': 12.05}
+{'loss': 0.0211, 'grad_norm': 0.4776705205440521, 'learning_rate': 1.9580999999999998e-05, 'epoch': 12.05}
+{'loss': 0.0158, 'grad_norm': 0.8299447298049927, 'learning_rate': 1.9584e-05, 'epoch': 12.05}
+{'loss': 0.011, 'grad_norm': 0.2538312077522278, 'learning_rate': 1.9587e-05, 'epoch': 12.05}
+{'loss': 0.021, 'grad_norm': 1.139421820640564, 'learning_rate': 1.959e-05, 'epoch': 12.05}
+{'loss': 0.1168, 'grad_norm': 0.7884008288383484, 'learning_rate': 1.9593e-05, 'epoch': 12.06}
+{'loss': 0.0277, 'grad_norm': 0.7113057374954224, 'learning_rate': 1.9596e-05, 'epoch': 12.06}
+{'loss': 0.0284, 'grad_norm': 0.9404953718185425, 'learning_rate': 1.9599e-05, 'epoch': 12.06}
+{'loss': 0.0208, 'grad_norm': 0.6621551513671875, 'learning_rate': 1.9602e-05, 'epoch': 12.06}
+{'loss': 0.0229, 'grad_norm': 0.6471493244171143, 'learning_rate': 1.9605e-05, 'epoch': 12.06}
+{'loss': 0.0257, 'grad_norm': 0.6462122797966003, 'learning_rate': 1.9608e-05, 'epoch': 12.06}
+{'loss': 0.0228, 'grad_norm': 0.6691087484359741, 'learning_rate': 1.9611e-05, 'epoch': 12.07}
+{'loss': 0.046, 'grad_norm': 0.5461102724075317, 'learning_rate': 1.9614000000000002e-05, 'epoch': 12.07}
+{'loss': 0.0109, 'grad_norm': 0.46700987219810486, 'learning_rate': 1.9617000000000002e-05, 'epoch': 12.07}
+{'loss': 0.0279, 'grad_norm': 0.4373733401298523, 'learning_rate': 1.9620000000000002e-05, 'epoch': 12.07}
+{'loss': 0.0134, 'grad_norm': 0.3557780981063843, 'learning_rate': 1.9623e-05, 'epoch': 12.07}
+{'loss': 0.0166, 'grad_norm': 0.5521689653396606, 'learning_rate': 1.9626e-05, 'epoch': 12.08}
+{'loss': 0.016, 'grad_norm': 0.43459439277648926, 'learning_rate': 1.9629e-05, 'epoch': 12.08}
+{'loss': 0.0308, 'grad_norm': 1.5827715396881104, 'learning_rate': 1.9632e-05, 'epoch': 12.08}
+{'loss': 0.0255, 'grad_norm': 0.5385817885398865, 'learning_rate': 1.9635e-05, 'epoch': 12.08}
+{'loss': 0.0099, 'grad_norm': 0.44712623953819275, 'learning_rate': 1.9638e-05, 'epoch': 12.08}
+{'loss': 0.0273, 'grad_norm': 0.621837317943573, 'learning_rate': 1.9641e-05, 'epoch': 12.08}
+{'loss': 0.0159, 'grad_norm': 0.321278840303421, 'learning_rate': 1.9644e-05, 'epoch': 12.09}
+{'loss': 0.0202, 'grad_norm': 0.6715978980064392, 'learning_rate': 1.9647e-05, 'epoch': 12.09}
+{'loss': 0.0208, 'grad_norm': 0.5194762349128723, 'learning_rate': 1.965e-05, 'epoch': 12.09}
+{'loss': 0.0149, 'grad_norm': 0.6484201550483704, 'learning_rate': 1.9653e-05, 'epoch': 12.09}
+{'loss': 0.2754, 'grad_norm': 1.2438277006149292, 'learning_rate': 1.9656e-05, 'epoch': 12.09}
+{'loss': 0.239, 'grad_norm': 0.9930234551429749, 'learning_rate': 1.9659e-05, 'epoch': 12.1}
+{'loss': 0.2009, 'grad_norm': 0.6995410323143005, 'learning_rate': 1.9662e-05, 'epoch': 12.1}
+{'loss': 0.1279, 'grad_norm': 0.8049606084823608, 'learning_rate': 1.9665e-05, 'epoch': 12.1}
+{'loss': 0.1453, 'grad_norm': 0.649700939655304, 'learning_rate': 1.9668e-05, 'epoch': 12.1}
+{'loss': 0.1059, 'grad_norm': 0.6611593961715698, 'learning_rate': 1.9671e-05, 'epoch': 12.1}
+{'loss': 0.1879, 'grad_norm': 0.6356304883956909, 'learning_rate': 1.9674000000000002e-05, 'epoch': 12.11}
+{'loss': 0.1257, 'grad_norm': 2.028852939605713, 'learning_rate': 1.9677e-05, 'epoch': 12.11}
+{'loss': 0.1681, 'grad_norm': 0.5349612236022949, 'learning_rate': 1.968e-05, 'epoch': 12.11}
+{'loss': 0.086, 'grad_norm': 1.0658071041107178, 'learning_rate': 1.9683e-05, 'epoch': 12.11}
+{'loss': 0.064, 'grad_norm': 0.8170069456100464, 'learning_rate': 1.9686e-05, 'epoch': 12.11}
+{'loss': 0.0567, 'grad_norm': 0.5723968744277954, 'learning_rate': 1.9689e-05, 'epoch': 12.11}
+{'loss': 0.1255, 'grad_norm': 0.8841872811317444, 'learning_rate': 1.9692e-05, 'epoch': 12.12}
+{'loss': 0.0482, 'grad_norm': 0.3957323431968689, 'learning_rate': 1.9695e-05, 'epoch': 12.12}
+{'loss': 0.0498, 'grad_norm': 0.4203268885612488, 'learning_rate': 1.9698e-05, 'epoch': 12.12}
+{'loss': 0.0271, 'grad_norm': 0.48907235264778137, 'learning_rate': 1.9701e-05, 'epoch': 12.12}
+{'loss': 0.0692, 'grad_norm': 0.6788593530654907, 'learning_rate': 1.9704000000000003e-05, 'epoch': 12.12}
+{'loss': 0.0281, 'grad_norm': 0.3560887575149536, 'learning_rate': 1.9707000000000003e-05, 'epoch': 12.13}
+{'loss': 0.0747, 'grad_norm': 0.5257298946380615, 'learning_rate': 1.9710000000000003e-05, 'epoch': 12.13}
+{'loss': 0.0192, 'grad_norm': 0.41419556736946106, 'learning_rate': 1.9713000000000003e-05, 'epoch': 12.13}
+{'loss': 0.0148, 'grad_norm': 0.40501436591148376, 'learning_rate': 1.9716000000000002e-05, 'epoch': 12.13}
+{'loss': 0.0535, 'grad_norm': 0.5695074796676636, 'learning_rate': 1.9719e-05, 'epoch': 12.13}
+{'loss': 0.0284, 'grad_norm': 0.6081413626670837, 'learning_rate': 1.9722e-05, 'epoch': 12.13}
+{'loss': 0.0154, 'grad_norm': 0.30088096857070923, 'learning_rate': 1.9725e-05, 'epoch': 12.14}
+{'loss': 0.0171, 'grad_norm': 0.37103888392448425, 'learning_rate': 1.9727999999999998e-05, 'epoch': 12.14}
+{'loss': 0.0283, 'grad_norm': 0.4621252417564392, 'learning_rate': 1.9730999999999998e-05, 'epoch': 12.14}
+{'loss': 0.0201, 'grad_norm': 0.26825007796287537, 'learning_rate': 1.9734e-05, 'epoch': 12.14}
+{'loss': 0.0158, 'grad_norm': 0.4614250659942627, 'learning_rate': 1.9737e-05, 'epoch': 12.14}
+{'loss': 0.0149, 'grad_norm': 0.3444186747074127, 'learning_rate': 1.974e-05, 'epoch': 12.15}
+{'loss': 0.0165, 'grad_norm': 0.34118175506591797, 'learning_rate': 1.9743e-05, 'epoch': 12.15}
+{'loss': 0.0141, 'grad_norm': 0.669164776802063, 'learning_rate': 1.9746e-05, 'epoch': 12.15}
+{'loss': 0.0254, 'grad_norm': 0.532076358795166, 'learning_rate': 1.9749e-05, 'epoch': 12.15}
+{'loss': 0.0146, 'grad_norm': 0.40641987323760986, 'learning_rate': 1.9752e-05, 'epoch': 12.15}
+  7%|▋         | 6588/100000 [3:36:27<31:57:20,  1.23s/it]  7%|▋         | 6589/100000 [3:36:28<31:26:42,  1.21s/it]                                                            7%|▋         | 6589/100000 [3:36:28<31:26:42,  1.21s/it]  7%|▋         | 6590/100000 [3:36:30<31:00:44,  1.20s/it]                                                            7%|▋         | 6590/100000 [3:36:30<31:00:44,  1.20s/it]  7%|▋         | 6591/100000 [3:36:31<30:36:46,  1.18s/it]                                                            7%|▋         | 6591/100000 [3:36:31<30:36:46,  1.18s/it]  7%|▋         | 6592/100000 [3:36:32<30:12:02,  1.16s/it]                                                            7%|▋         | 6592/100000 [3:36:32<30:12:02,  1.16s/it]  7%|▋         | 6593/100000 [3:36:33<29:44:37,  1.15s/it]                                                            7%|▋         | 6593/100000 [3:36:33<29:44:37,  1.15s/it]  7%|▋         | 6594/100000 [3:36:34<29:20:59,  1.13s/it]                                                            7%|▋         | 6594/100000 [3:36:34<29:20:59,  1.13s/it]  7%|▋         | 6595/100000 [3:36:35<28:49:41,  1.11s/it]                                                            7%|▋         | 6595/100000 [3:36:35<28:49:41,  1.11s/it]  7%|▋         | 6596/100000 [3:36:36<28:35:16,  1.10s/it]                                                            7%|▋         | 6596/100000 [3:36:36<28:35:16,  1.10s/it]  7%|▋         | 6597/100000 [3:36:37<28:06:16,  1.08s/it]                                                            7%|▋         | 6597/100000 [3:36:37<28:06:16,  1.08s/it]  7%|▋         | 6598/100000 [3:36:38<27:44:52,  1.07s/it]                                                            7%|▋         | 6598/100000 [3:36:38<27:44:52,  1.07s/it]  7%|▋         | 6599/100000 [3:36:39<27:17:08,  1.05s/it]                                                            7%|▋         | 6599/100000 [3:36:39<27:17:08,  1.05s/it]  7%|▋         | 6600/100000 [3:36:40<26:48:01,  1.03s/it]                                                            7%|▋         | 6600/100000 [3:36:40<26:48:01,  1.03s/it]  7%|▋         | 6601/100000 [3:36:41<26:13:01,  1.01s/it]                                                            7%|▋         | 6601/100000 [3:36:41<26:13:01,  1.01s/it]  7%|▋         | 6602/100000 [3:36:42<25:47:38,  1.01it/s]                                                            7%|▋         | 6602/100000 [3:36:42<25:47:38,  1.01it/s]  7%|▋         | 6603/100000 [3:36:43<25:15:02,  1.03it/s]                                                            7%|▋         | 6603/100000 [3:36:43<25:15:02,  1.03it/s]  7%|▋         | 6604/100000 [3:36:44<24:29:49,  1.06it/s]                                                            7%|▋         | 6604/100000 [3:36:44<24:29:49,  1.06it/s]  7%|▋         | 6605/100000 [3:36:56<111:17:33,  4.29s/it]                                                             7%|▋         | 6605/100000 [3:36:56<111:17:33,  4.29s/it]  7%|▋         | 6606/100000 [3:37:02<126:04:39,  4.86s/it]                                                             7%|▋         | 6606/100000 [3:37:02<126:04:39,  4.86s/it]  7%|▋         | 6607/100000 [3:37:07<127:31:35,  4.92s/it]                                                             7%|▋         | 6607/100000 [3:37:07<127:31:35,  4.92s/it]  7%|▋         | 6608/100000 [3:37:11<120:28:35,  4.64s/it]                                                             7%|▋         | 6608/100000 [3:37:11<120:28:35,  4.64s/it]  7%|▋         | 6609/100000 [3:37:15<113:02:26,  4.36s/it]                                                             7%|▋         | 6609/100000 [3:37:15<113:02:26,  4.36s/it]  7%|▋         | 6610/100000 [3:37:18<104:20:13,  4.02s/it]                                                             7%|▋         | 6610/100000 [3:37:18<104:20:13,  4.02s/it]  7%|▋         | 6611/100000 [3:37:21<96:25:38,  3.72s/it]                                                             7%|▋         | 6611/100000 [3:37:21<96:25:38,  3.72s/it]  7%|▋         | 6612/100000 [3:37:24<88:30:35,  3.41s/it]                                                            7%|▋         | 6612/100000 [3:37:24<88:30:35,  3.41s/it]  7%|▋         | 6613/100000 [3:37:27<81:30:10,  3.14s/it]                                                            7%|▋         | 6613/100000 [3:37:27<81:30:10,  3.14s/it]  7%|▋         | 6614/100000 [3:37:29<74:41:26,  2.88s/it]                                                            7%|▋         | 6614/100000 [3:37:29<74:41:26,  2.88s/it]  7%|▋         | 6615/100000 [3:37:31<69:04:56,  2.66s/it]                                                            7%|▋         | 6615/100000 [3:37:31<69:04:56,  2.66s/it]  7%|▋         | 6616/100000 [3:37:33<64:20:03,  2.48s/it]                                                            7%|▋         | 6616/100000 [3:37:33<64:20:03,  2.48s/it]  7%|▋         | 6617/100000 [3:37:35<59:42:14,  2.30s/it]                                                            7%|▋         | 6617/100000 [3:37:35<59:42:14,  2.30s/it]  7%|▋         | 6618/100000 [3:37:37<56:12:52,  2.17s/it]                                                            7%|▋         | 6618/100000 [3:37:37<56:12:52,  2.17s/it]  7%|▋         | 6619/100000 [3:37:38<52:33:37,  2.03s/it]                                                            7%|▋         | 6619/100000 [3:37:38<52:33:37,  2.03s/it]  7%|▋         | 6620/100000 [3:37:40<49:52:46,  1.92s/it]                                                            7%|▋         | 6620/100000 [3:37:40<49:52:46,  1.92s/it]  7%|▋         | 6621/100000 [3:37:42<47:24:21,  1.83s/it]                                                            7%|▋         | 6621/100000 [3:37:42<47:24:21,  1.83s/it]  7%|▋         | 6622/100000 [3:37:43<45:29:43,  1.75s/it]                                                            7%|▋         | 6622/100000 [3:37:43<45:29:43,  1.75s/it]  7%|▋         | 6623/100000 [3:37:45<43:47:10,  1.69s/it]                                                            7%|▋         | 6623/100000 [3:37:45<43:47:10,  1.69s/it]  7%|▋         | 6624/100000 [3:37:46<42:10:40,  1.63s/it]                                                            7%|▋         | 6624/100000 [3:37:46<42:10:40,  1.63s/it]  7%|▋         | 6625/100000 [3:37:48<40:51:16,  1.58s/it]                                                            7%|▋         | 6625/100000 [3:37:48<40:51:16,  1.58s/it]  7%|▋         | 6626/100000 [3:37:49<39:19:36,  1.52s/it]                                                            7%|▋         | 6626/100000 [3:37:49<39:19:36,  1.52s/it]  7%|▋         | 6627/100000 [3:37:51<38:33:55,  1.49s/it]                                                            7%|▋         | 6627/100000 [3:37:51<38:33:55,  1.49s/it]  7%|▋         | 6628/100000 [3:37:52<37:54:06,  1.46s/it]                                                            7%|▋         | 6628/100000 [3:37:52<37:54:06,  1.46s/it]  7%|▋         | 6629/100000 [3:37:53<37:13:20,  1.44s/it]                                                            7%|▋         | 6629/100000 [3:37:53<37:13:20,  1.44s/it]  7%|▋         | 6630/100000 [3:37:55<36:16:29,  1.40s/it]                                                            7%|▋         | 6630/100000 [3:37:55<36:16:29,  1.40s/it]  7%|▋         | 6631/100000 [3:37:56<35:43:35,  1.38s/it]                                                            7%|▋         | 6631/100000 [3:37:56<35:43:35,  1.38s/it]  7%|▋         | 6632/100000 [3:37:57<34:56:38,  1.35s/it]                                                            7%|▋         | 6632/100000 [3:37:57<34:56:38,  1.35s/it]  7%|▋         | 6633/100000 [3:37:59<34:32:00,  1.33s/it]                                                            7%|▋         | 6633/100000 [3:37:59<34:32:00,  1.33s/it]  7%|▋         | 6634/100000 [3:38:00<33:55:54,  1.31s/it]                                                            7%|▋         | 6634/100000 [3:38:00<33:55:54,  1.31s/it]  7%|▋         | 6635/100000 [3:38:01<33:31:33,  1.29s/it]                                                            7%|▋         | 6635/100000 [3:38:01<33:31:33,  1.29s/it]  7%|▋         | 6636/100000 [3:38:02<32:52:16,  1.27s/it]                                                            7%|▋         | 6636/100000 [3:38:02<32:52:16,  1.27s/it]  7%|▋         | 6637/100000 [3:38:04<32:34:22,  1.26s/it]                                                            7%|▋         | 6637/100000 [3:38:04<32:34:22,  1.26s/it]  7%|▋         | 6638/100000 [3:38:05<32:17:55,  1.25s/it]                                                            7%|▋         | 6638/100000 [3:38:05<32:17:55,  1.25s/it]  7%|▋         | 6639/100000 [3:38:06<31:31:16,  1.22s/it]                                                            7%|▋         | 6639/100000 [3:38:06<31:31:16,  1.22s/it]  7%|▋         | 6640/100000 [3:38:07<31:06:38,  1.20s/it]                                                            7%|▋         | 6640/100000 [3:38:07<31:06:38,  1.20s/it]  7%|▋         | 6641/100000 [3:38:08<30:31:22,  1.18s/it]                                                            7%|▋         | 6641/100000 [3:38:08<30:31:22,  1.18s/it]  7%|▋         | 6642/100000 [3:38:09<30:15:12,  1.17s/it]                                                            7%|▋         | 6642/100000 [3:38:09<30:15:12,  1.17s/it]  7%|▋         | 6643/100000 [3:38:10<29:49:26,  1.15s/it]                                                            7%|▋         | 6643/100000 [3:38:10<29:49:26,  1.15s/it]  7%|▋         | 6644/100000 [3:38:11<29:10:46,  1.13s/it]                                                            7%|▋         | 6644/100000 [3:38:12<29:10:46,  1.13s/it]  7%|▋         | 6645/100000 [3:38:13<29:02:34,  1.12s/it]                                                            7%|▋         | 6645/100000 [3:38:13<29:02:34,  1.12s/it]  7%|▋         | 6646/100000 [3:38:14<28:49:27,  1.11s/it]                                                            7%|▋         | 6646/100000 [3:38:14<28:49:27,  1.11s/it]  7%|▋         | 6647/100000 [3:38:15<28:26:14,  1.10s/it]                                                            7%|▋         | 6647/100000 [3:38:15<28:26:14,  1.10s/it]  7%|▋         | 6648/100000 [3:38:16<27:53:43,  1.08s/it]                                                            7%|▋         | 6648/100000 [3:38:16<27:53:43,  1.08s/it]  7%|▋         | 6649/100000 [3:38:17<27:33:59,  1.06s/it]                                                            7%|▋         | 6649/100000 [3:38:17<27:33:59,  1.06s/it]  7%|▋         | 6650/100000 [3:38:18<27:02:45,  1.04s/it]                                                            7%|▋         | 6650/100000 [3:38:18<27:02:45,  1.04s/it]  7%|▋         | 6651/100000 [3:38:19<26:28:00,  1.02s/it]                                                            7%|▋         | 6651/100000 [3:38:19<26:28:00,  1.02s/it]  7%|▋         | 6652/100000 [3:38:20<25:50:01,  1.00it/s]                                                            7%|▋         | 6652/100000 [3:38:20<25:50:01,  1.00it/s]  7%|▋         | 6653/100000 [3:38:21<25:22:04,  1.02it/s]                                                            7%|▋         | 6653/100000 [3:38:21<25:22:04,  1.02it/s]  7%|▋         | 6654/100000 [3:38:22<24:53:49,  1.04it/s]                                                            7%|▋         | 6654/100000 [3:38:22<24:53:49,  1.04it/s]  7%|▋         | 6655/100000 [3:38:33<102:36:52,  3.96s/it]                                                             7%|▋         | 6655/100000 [3:38:33<102:36:52,  3.96s/it]  7%|▋         | 6656/100000 [3:38:38<114:46:52,  4.43s/it]                                                             7%|▋         | 6656/100000 [3:38:38<114:46:52,  4.43s/it]  7%|▋         | 6657/100000 [3:38:42<114:18:04,  4.41s/it]                                                             7%|▋         | 6657/100000 [3:38:42<114:18:04,  4.41s/it]  7%|▋         | 6658/100000 [3:38:46<110:21:29,  4.26s/it]                                                             7%|▋         | 6658/100000 [3:38:46<110:21:29,  4.26s/it]  7%|▋         | 6659/100000 [3:38:50<104:48:43,  4.04s/it]                                                             7%|▋         | 6659/100000 [3:38:50<104:48:43,  4.04s/it]  7%|▋         | 6660/100000 [3:38:53<97:57:40,  3.78s/it]                                                             7%|▋         | 6660/100000 [3:38:53<97:57:40,  3.78s/it]  7%|▋         | 6661/100000 [3:38:56<91:19:10,  3.52s/it]                                                            7%|▋         | 6661/100000 [3:38:56<91:19:10,  3.52s/it]  7%|▋         | 6662/100000 [3:38:59<84:28:44,  3.26s/it]                                                            7%|▋         | 6662/100000 [3:38:59<84:28:44,  3.26s/it]  7%|▋         | 6663/100000 [3:39:01<78:09:47,  3.01s/it]                                                            7%|▋         | 6663/100000 [3:39:01<78:09:47,  3.01s/it]  7%|▋         | 6664/100000 [3:39:03<71:48:12,  2.77s/it]                                                            7%|▋         | 6664/100000 [3:39:03<71:48:12,  2.77s/it]  7%|▋         | 6665/100000 [3:39:05<66:50:06,  2.58s/it]                                                            7%|▋         | 6665/100000 [3:39:05<66:50:06,  2.58s/it]  7%|▋         | 6666/100000 [3:39:07<62:20:32,  2.40s/it]                                                            7%|▋         | 6666/100000 [3:39:07<62:20:32,  2.40s/it]  7%|▋         | 6667/100000 [3:39:09<58:14:17,  2.25s/it]                                                            7%|▋         | 6667/100000 [3:39:09<58:14:17,  2.25s/it]  7%|▋         | 6668/100000 [3:39:11<54:09:21,  2.09s/it]                                                            7%|▋         | 6668/100000 [3:39:11<54:09:21,  2.09s/it]  7%|▋         | 6669/100000 [3:39:13<51:14:56,  1.98s/it]                                                            7%|▋         | 6669/100000 [3:39:13<51:14:56,  1.98s/it]  7%|▋         | 6670/100000 [3:39:14<48:26:23,  1.87s/it]                                                            7%|▋         | 6670/100000 [3:39:14<48:26:23,  1.87s/it]  7%|▋         | 6671/100000 [3:39:16<46:31:52,  1.79s/it]                                                          {'loss': 0.014, 'grad_norm': 0.3384653627872467, 'learning_rate': 1.9755e-05, 'epoch': 12.16}
+{'loss': 0.0129, 'grad_norm': 0.7094037532806396, 'learning_rate': 1.9758e-05, 'epoch': 12.16}
+{'loss': 0.0229, 'grad_norm': 0.683089017868042, 'learning_rate': 1.9761e-05, 'epoch': 12.16}
+{'loss': 0.0253, 'grad_norm': 0.5520561337471008, 'learning_rate': 1.9764000000000003e-05, 'epoch': 12.16}
+{'loss': 0.0172, 'grad_norm': 0.6962130665779114, 'learning_rate': 1.9767000000000002e-05, 'epoch': 12.16}
+{'loss': 0.0173, 'grad_norm': 0.5265188813209534, 'learning_rate': 1.9770000000000002e-05, 'epoch': 12.16}
+{'loss': 0.0247, 'grad_norm': 0.9148104190826416, 'learning_rate': 1.9773000000000002e-05, 'epoch': 12.17}
+{'loss': 0.0196, 'grad_norm': 0.5359881520271301, 'learning_rate': 1.9776000000000002e-05, 'epoch': 12.17}
+{'loss': 0.0125, 'grad_norm': 0.41873955726623535, 'learning_rate': 1.9779e-05, 'epoch': 12.17}
+{'loss': 0.0191, 'grad_norm': 0.39210107922554016, 'learning_rate': 1.9782e-05, 'epoch': 12.17}
+{'loss': 0.0198, 'grad_norm': 0.6035261750221252, 'learning_rate': 1.9785e-05, 'epoch': 12.17}
+{'loss': 0.0159, 'grad_norm': 0.3195289373397827, 'learning_rate': 1.9788e-05, 'epoch': 12.18}
+{'loss': 0.0224, 'grad_norm': 0.5464214086532593, 'learning_rate': 1.9791e-05, 'epoch': 12.18}
+{'loss': 0.026, 'grad_norm': 0.7400136590003967, 'learning_rate': 1.9794e-05, 'epoch': 12.18}
+{'loss': 0.0165, 'grad_norm': 0.496610552072525, 'learning_rate': 1.9797e-05, 'epoch': 12.18}
+{'loss': 0.0208, 'grad_norm': 0.47159847617149353, 'learning_rate': 1.98e-05, 'epoch': 12.18}
+{'loss': 0.0202, 'grad_norm': 0.48338207602500916, 'learning_rate': 1.9803e-05, 'epoch': 12.18}
+{'loss': 0.2364, 'grad_norm': 1.570766568183899, 'learning_rate': 1.9806e-05, 'epoch': 12.19}
+{'loss': 0.1835, 'grad_norm': 0.74299556016922, 'learning_rate': 1.9809e-05, 'epoch': 12.19}
+{'loss': 0.1466, 'grad_norm': 0.6581249833106995, 'learning_rate': 1.9812e-05, 'epoch': 12.19}
+{'loss': 0.1645, 'grad_norm': 0.6629277467727661, 'learning_rate': 1.9815e-05, 'epoch': 12.19}
+{'loss': 0.1617, 'grad_norm': 0.5991044640541077, 'learning_rate': 1.9818e-05, 'epoch': 12.19}
+{'loss': 0.1707, 'grad_norm': 1.113797664642334, 'learning_rate': 1.9821e-05, 'epoch': 12.2}
+{'loss': 0.0937, 'grad_norm': 0.6141255497932434, 'learning_rate': 1.9824000000000002e-05, 'epoch': 12.2}
+{'loss': 0.0931, 'grad_norm': 0.6133359670639038, 'learning_rate': 1.9827000000000002e-05, 'epoch': 12.2}
+{'loss': 0.0858, 'grad_norm': 0.44140446186065674, 'learning_rate': 1.983e-05, 'epoch': 12.2}
+{'loss': 0.0709, 'grad_norm': 0.5552379488945007, 'learning_rate': 1.9833e-05, 'epoch': 12.2}
+{'loss': 0.0575, 'grad_norm': 0.42327743768692017, 'learning_rate': 1.9836e-05, 'epoch': 12.2}
+{'loss': 0.0878, 'grad_norm': 0.8752537369728088, 'learning_rate': 1.9839e-05, 'epoch': 12.21}
+{'loss': 0.1506, 'grad_norm': 0.7336311936378479, 'learning_rate': 1.9842e-05, 'epoch': 12.21}
+{'loss': 0.0754, 'grad_norm': 0.6331095695495605, 'learning_rate': 1.9845e-05, 'epoch': 12.21}
+{'loss': 0.046, 'grad_norm': 0.6478675007820129, 'learning_rate': 1.9848e-05, 'epoch': 12.21}
+{'loss': 0.0586, 'grad_norm': 0.46887344121932983, 'learning_rate': 1.9851e-05, 'epoch': 12.21}
+{'loss': 0.0213, 'grad_norm': 0.4673554599285126, 'learning_rate': 1.9854000000000003e-05, 'epoch': 12.22}
+{'loss': 0.0208, 'grad_norm': 0.3019261658191681, 'learning_rate': 1.9857000000000003e-05, 'epoch': 12.22}
+{'loss': 0.0172, 'grad_norm': 0.55424565076828, 'learning_rate': 1.9860000000000003e-05, 'epoch': 12.22}
+{'loss': 0.0189, 'grad_norm': 0.5971589088439941, 'learning_rate': 1.9863000000000003e-05, 'epoch': 12.22}
+{'loss': 0.0486, 'grad_norm': 2.0746729373931885, 'learning_rate': 1.9866e-05, 'epoch': 12.22}
+{'loss': 0.0159, 'grad_norm': 0.390958309173584, 'learning_rate': 1.9869e-05, 'epoch': 12.23}
+{'loss': 0.0211, 'grad_norm': 0.7522118091583252, 'learning_rate': 1.9872e-05, 'epoch': 12.23}
+{'loss': 0.0176, 'grad_norm': 0.38090553879737854, 'learning_rate': 1.9875e-05, 'epoch': 12.23}
+{'loss': 0.0378, 'grad_norm': 0.8301336169242859, 'learning_rate': 1.9878e-05, 'epoch': 12.23}
+{'loss': 0.0143, 'grad_norm': 0.6119270324707031, 'learning_rate': 1.9880999999999998e-05, 'epoch': 12.23}
+{'loss': 0.0337, 'grad_norm': 0.5565687417984009, 'learning_rate': 1.9883999999999998e-05, 'epoch': 12.23}
+{'loss': 0.0198, 'grad_norm': 0.3857928216457367, 'learning_rate': 1.9887e-05, 'epoch': 12.24}
+{'loss': 0.0233, 'grad_norm': 0.39611518383026123, 'learning_rate': 1.989e-05, 'epoch': 12.24}
+{'loss': 0.0185, 'grad_norm': 0.4528099596500397, 'learning_rate': 1.9893e-05, 'epoch': 12.24}
+{'loss': 0.0155, 'grad_norm': 0.666111946105957, 'learning_rate': 1.9896e-05, 'epoch': 12.24}
+{'loss': 0.0189, 'grad_norm': 1.013671636581421, 'learning_rate': 1.9899e-05, 'epoch': 12.24}
+{'loss': 0.0166, 'grad_norm': 0.293468177318573, 'learning_rate': 1.9902e-05, 'epoch': 12.25}
+{'loss': 0.0114, 'grad_norm': 0.6467782855033875, 'learning_rate': 1.9905e-05, 'epoch': 12.25}
+{'loss': 0.0245, 'grad_norm': 0.5225874185562134, 'learning_rate': 1.9908e-05, 'epoch': 12.25}
+{'loss': 0.0244, 'grad_norm': 0.6721553206443787, 'learning_rate': 1.9911e-05, 'epoch': 12.25}
+{'loss': 0.0272, 'grad_norm': 0.7446433305740356, 'learning_rate': 1.9914e-05, 'epoch': 12.25}
+{'loss': 0.021, 'grad_norm': 0.3481638431549072, 'learning_rate': 1.9917000000000003e-05, 'epoch': 12.25}
+{'loss': 0.017, 'grad_norm': 0.5886558890342712, 'learning_rate': 1.9920000000000002e-05, 'epoch': 12.26}
+{'loss': 0.0147, 'grad_norm': 0.3663330078125, 'learning_rate': 1.9923000000000002e-05, 'epoch': 12.26}
+{'loss': 0.0211, 'grad_norm': 0.4481843113899231, 'learning_rate': 1.9926000000000002e-05, 'epoch': 12.26}
+{'loss': 0.0242, 'grad_norm': 0.6207283735275269, 'learning_rate': 1.9929000000000002e-05, 'epoch': 12.26}
+{'loss': 0.0208, 'grad_norm': 0.5860519409179688, 'learning_rate': 1.9932e-05, 'epoch': 12.26}
+{'loss': 0.0233, 'grad_norm': 0.34904736280441284, 'learning_rate': 1.9935e-05, 'epoch': 12.27}
+{'loss': 0.0171, 'grad_norm': 0.446857213973999, 'learning_rate': 1.9938e-05, 'epoch': 12.27}
+{'loss': 0.0146, 'grad_norm': 0.3671776354312897, 'learning_rate': 1.9940999999999998e-05, 'epoch': 12.27}
+{'loss': 0.0178, 'grad_norm': 0.499612033367157, 'learning_rate': 1.9943999999999997e-05, 'epoch': 12.27}
+{'loss': 0.0225, 'grad_norm': 0.40178707242012024, 'learning_rate': 1.9947e-05, 'epoch': 12.27}
+{'loss': 0.0262, 'grad_norm': 1.6798856258392334, 'learning_rate': 1.995e-05, 'epoch': 12.28}
+{'loss': 0.02, 'grad_norm': 0.5195391774177551, 'learning_rate': 1.9953e-05, 'epoch': 12.28}
+{'loss': 0.2249, 'grad_norm': 1.4945707321166992, 'learning_rate': 1.9956e-05, 'epoch': 12.28}
+{'loss': 0.2945, 'grad_norm': 1.618351936340332, 'learning_rate': 1.9959e-05, 'epoch': 12.28}
+{'loss': 0.1938, 'grad_norm': 1.1166245937347412, 'learning_rate': 1.9962e-05, 'epoch': 12.28}
+{'loss': 0.1808, 'grad_norm': 1.0007214546203613, 'learning_rate': 1.9965e-05, 'epoch': 12.28}
+{'loss': 0.1573, 'grad_norm': 0.8794845938682556, 'learning_rate': 1.9968e-05, 'epoch': 12.29}
+{'loss': 0.1279, 'grad_norm': 0.7759224772453308, 'learning_rate': 1.9971e-05, 'epoch': 12.29}
+{'loss': 0.1017, 'grad_norm': 0.6087407469749451, 'learning_rate': 1.9974e-05, 'epoch': 12.29}
+{'loss': 0.0812, 'grad_norm': 0.4634784162044525, 'learning_rate': 1.9977000000000002e-05, 'epoch': 12.29}
+{'loss': 0.1524, 'grad_norm': 0.5533508062362671, 'learning_rate': 1.9980000000000002e-05, 'epoch': 12.29}
+{'loss': 0.09, 'grad_norm': 0.7511826753616333, 'learning_rate': 1.9983e-05, 'epoch': 12.3}
+{'loss': 0.0795, 'grad_norm': 0.5132535696029663, 'learning_rate': 1.9986e-05, 'epoch': 12.3}
+{'loss': 0.0406, 'grad_norm': 0.4026097357273102, 'learning_rate': 1.9989e-05, 'epoch': 12.3}
+{'loss': 0.0618, 'grad_norm': 0.5257237553596497, 'learning_rate': 1.9992e-05, 'epoch': 12.3}
+{'loss': 0.0445, 'grad_norm': 0.329614520072937, 'learning_rate': 1.9995e-05, 'epoch': 12.3}
+{'loss': 0.0325, 'grad_norm': 0.41097500920295715, 'learning_rate': 1.9998e-05, 'epoch': 12.3}
+{'loss': 0.0479, 'grad_norm': 1.6208419799804688, 'learning_rate': 2.0001e-05, 'epoch': 12.31}
+  7%|▋         | 6671/100000 [3:39:16<46:31:52,  1.79s/it]  7%|▋         | 6672/100000 [3:39:17<44:43:34,  1.73s/it]                                                            7%|▋         | 6672/100000 [3:39:17<44:43:34,  1.73s/it]  7%|▋         | 6673/100000 [3:39:19<42:42:20,  1.65s/it]                                                            7%|▋         | 6673/100000 [3:39:19<42:42:20,  1.65s/it]  7%|▋         | 6674/100000 [3:39:20<41:02:58,  1.58s/it]                                                            7%|▋         | 6674/100000 [3:39:20<41:02:58,  1.58s/it]  7%|▋         | 6675/100000 [3:39:22<39:56:11,  1.54s/it]                                                            7%|▋         | 6675/100000 [3:39:22<39:56:11,  1.54s/it]  7%|▋         | 6676/100000 [3:39:23<38:46:40,  1.50s/it]                                                            7%|▋         | 6676/100000 [3:39:23<38:46:40,  1.50s/it]  7%|▋         | 6677/100000 [3:39:25<37:42:35,  1.45s/it]                                                            7%|▋         | 6677/100000 [3:39:25<37:42:35,  1.45s/it]  7%|▋         | 6678/100000 [3:39:26<37:05:30,  1.43s/it]                                                            7%|▋         | 6678/100000 [3:39:26<37:05:30,  1.43s/it]  7%|▋         | 6679/100000 [3:39:27<36:16:21,  1.40s/it]                                                            7%|▋         | 6679/100000 [3:39:27<36:16:21,  1.40s/it]  7%|▋         | 6680/100000 [3:39:29<35:48:14,  1.38s/it]                                                            7%|▋         | 6680/100000 [3:39:29<35:48:14,  1.38s/it]  7%|▋         | 6681/100000 [3:39:30<35:03:03,  1.35s/it]                                                            7%|▋         | 6681/100000 [3:39:30<35:03:03,  1.35s/it]  7%|▋         | 6682/100000 [3:39:31<34:40:34,  1.34s/it]                                                            7%|▋         | 6682/100000 [3:39:31<34:40:34,  1.34s/it]  7%|▋         | 6683/100000 [3:39:32<33:51:30,  1.31s/it]                                                            7%|▋         | 6683/100000 [3:39:32<33:51:30,  1.31s/it]  7%|▋         | 6684/100000 [3:39:34<33:39:58,  1.30s/it]                                                            7%|▋         | 6684/100000 [3:39:34<33:39:58,  1.30s/it]  7%|▋         | 6685/100000 [3:39:35<33:17:29,  1.28s/it]                                                            7%|▋         | 6685/100000 [3:39:35<33:17:29,  1.28s/it]  7%|▋         | 6686/100000 [3:39:36<32:49:00,  1.27s/it]                                                            7%|▋         | 6686/100000 [3:39:36<32:49:00,  1.27s/it]  7%|��         | 6687/100000 [3:39:37<32:33:29,  1.26s/it]                                                            7%|▋         | 6687/100000 [3:39:37<32:33:29,  1.26s/it]  7%|▋         | 6688/100000 [3:39:39<31:49:32,  1.23s/it]                                                            7%|▋         | 6688/100000 [3:39:39<31:49:32,  1.23s/it]  7%|▋         | 6689/100000 [3:39:40<31:19:21,  1.21s/it]                                                            7%|▋         | 6689/100000 [3:39:40<31:19:21,  1.21s/it]  7%|▋         | 6690/100000 [3:39:41<30:53:24,  1.19s/it]                                                            7%|▋         | 6690/100000 [3:39:41<30:53:24,  1.19s/it]  7%|▋         | 6691/100000 [3:39:42<30:21:17,  1.17s/it]                                                            7%|▋         | 6691/100000 [3:39:42<30:21:17,  1.17s/it]  7%|▋         | 6692/100000 [3:39:43<30:01:44,  1.16s/it]                                                            7%|▋         | 6692/100000 [3:39:43<30:01:44,  1.16s/it]  7%|▋         | 6693/100000 [3:39:44<29:40:44,  1.15s/it]                                                            7%|▋         | 6693/100000 [3:39:44<29:40:44,  1.15s/it]  7%|▋         | 6694/100000 [3:39:45<29:07:00,  1.12s/it]                                                            7%|▋         | 6694/100000 [3:39:45<29:07:00,  1.12s/it]  7%|▋         | 6695/100000 [3:39:46<28:33:39,  1.10s/it]                                                            7%|▋         | 6695/100000 [3:39:46<28:33:39,  1.10s/it]  7%|▋         | 6696/100000 [3:39:47<28:02:05,  1.08s/it]                                                            7%|▋         | 6696/100000 [3:39:47<28:02:05,  1.08s/it]  7%|▋         | 6697/100000 [3:39:48<27:38:38,  1.07s/it]                                                            7%|▋         | 6697/100000 [3:39:48<27:38:38,  1.07s/it]  7%|▋         | 6698/100000 [3:39:49<27:03:21,  1.04s/it]                                                            7%|▋         | 6698/100000 [3:39:49<27:03:21,  1.04s/it]  7%|▋         | 6699/100000 [3:39:50<26:51:59,  1.04s/it]                                                            7%|▋         | 6699/100000 [3:39:50<26:51:59,  1.04s/it]  7%|▋         | 6700/100000 [3:39:51<26:33:31,  1.02s/it]                                                            7%|▋         | 6700/100000 [3:39:51<26:33:31,  1.02s/it]  7%|▋         | 6701/100000 [3:39:52<26:12:18,  1.01s/it]                                                            7%|▋         | 6701/100000 [3:39:52<26:12:18,  1.01s/it]  7%|▋         | 6702/100000 [3:39:53<25:43:18,  1.01it/s]                                                            7%|▋         | 6702/100000 [3:39:53<25:43:18,  1.01it/s]  7%|▋         | 6703/100000 [3:39:54<25:04:08,  1.03it/s]                                                            7%|▋         | 6703/100000 [3:39:54<25:04:08,  1.03it/s]  7%|▋         | 6704/100000 [3:39:55<24:25:13,  1.06it/s]                                                            7%|▋         | 6704/100000 [3:39:55<24:25:13,  1.06it/s]  7%|▋         | 6705/100000 [3:40:06<101:07:32,  3.90s/it]                                                             7%|▋         | 6705/100000 [3:40:06<101:07:32,  3.90s/it]  7%|▋         | 6706/100000 [3:40:12<115:52:11,  4.47s/it]                                                             7%|▋         | 6706/100000 [3:40:12<115:52:11,  4.47s/it]  7%|▋         | 6707/100000 [3:40:16<117:36:04,  4.54s/it]                                                             7%|▋         | 6707/100000 [3:40:16<117:36:04,  4.54s/it]  7%|▋         | 6708/100000 [3:40:21<113:43:17,  4.39s/it]                                                             7%|▋         | 6708/100000 [3:40:21<113:43:17,  4.39s/it]  7%|▋         | 6709/100000 [3:40:24<106:07:19,  4.10s/it]                                                             7%|▋         | 6709/100000 [3:40:24<106:07:19,  4.10s/it]  7%|▋         | 6710/100000 [3:40:27<100:16:19,  3.87s/it]                                                             7%|▋         | 6710/100000 [3:40:27<100:16:19,  3.87s/it]  7%|▋         | 6711/100000 [3:40:30<94:12:19,  3.64s/it]                                                             7%|▋         | 6711/100000 [3:40:30<94:12:19,  3.64s/it]  7%|▋         | 6712/100000 [3:40:33<87:39:08,  3.38s/it]                                                            7%|▋         | 6712/100000 [3:40:33<87:39:08,  3.38s/it]  7%|▋         | 6713/100000 [3:40:36<81:29:31,  3.14s/it]                                                            7%|▋         | 6713/100000 [3:40:36<81:29:31,  3.14s/it]  7%|▋         | 6714/100000 [3:40:38<75:47:10,  2.92s/it]                                                            7%|▋         | 6714/100000 [3:40:38<75:47:10,  2.92s/it]  7%|▋         | 6715/100000 [3:40:40<70:39:15,  2.73s/it]                                                            7%|▋         | 6715/100000 [3:40:40<70:39:15,  2.73s/it]  7%|▋         | 6716/100000 [3:40:43<65:51:49,  2.54s/it]                                                            7%|▋         | 6716/100000 [3:40:43<65:51:49,  2.54s/it]  7%|▋         | 6717/100000 [3:40:44<61:04:47,  2.36s/it]                                                            7%|▋         | 6717/100000 [3:40:44<61:04:47,  2.36s/it]  7%|▋         | 6718/100000 [3:40:46<56:29:04,  2.18s/it]                                                            7%|▋         | 6718/100000 [3:40:46<56:29:04,  2.18s/it]  7%|▋         | 6719/100000 [3:40:48<53:14:58,  2.06s/it]                                                            7%|▋         | 6719/100000 [3:40:48<53:14:58,  2.06s/it]  7%|▋         | 6720/100000 [3:40:50<50:06:14,  1.93s/it]                                                            7%|▋         | 6720/100000 [3:40:50<50:06:14,  1.93s/it]  7%|▋         | 6721/100000 [3:40:51<47:32:28,  1.83s/it]                                                            7%|▋         | 6721/100000 [3:40:51<47:32:28,  1.83s/it]  7%|▋         | 6722/100000 [3:40:53<45:47:22,  1.77s/it]                                                            7%|▋         | 6722/100000 [3:40:53<45:47:22,  1.77s/it]  7%|▋         | 6723/100000 [3:40:54<44:17:47,  1.71s/it]                                                            7%|▋         | 6723/100000 [3:40:54<44:17:47,  1.71s/it]  7%|▋         | 6724/100000 [3:40:56<42:23:47,  1.64s/it]                                                            7%|▋         | 6724/100000 [3:40:56<42:23:47,  1.64s/it]  7%|▋         | 6725/100000 [3:40:57<40:50:12,  1.58s/it]                                                            7%|▋         | 6725/100000 [3:40:57<40:50:12,  1.58s/it]  7%|▋         | 6726/100000 [3:40:59<39:45:23,  1.53s/it]                                                            7%|▋         | 6726/100000 [3:40:59<39:45:23,  1.53s/it]  7%|▋         | 6727/100000 [3:41:00<38:51:11,  1.50s/it]                                                            7%|▋         | 6727/100000 [3:41:00<38:51:11,  1.50s/it]  7%|▋         | 6728/100000 [3:41:02<37:45:31,  1.46s/it]                                                            7%|▋         | 6728/100000 [3:41:02<37:45:31,  1.46s/it]  7%|▋         | 6729/100000 [3:41:03<37:15:43,  1.44s/it]                                                            7%|▋         | 6729/100000 [3:41:03<37:15:43,  1.44s/it]  7%|▋         | 6730/100000 [3:41:04<36:11:52,  1.40s/it]                                                            7%|▋         | 6730/100000 [3:41:04<36:11:52,  1.40s/it]  7%|▋         | 6731/100000 [3:41:06<35:24:44,  1.37s/it]                                                            7%|▋         | 6731/100000 [3:41:06<35:24:44,  1.37s/it]  7%|▋         | 6732/100000 [3:41:07<34:31:48,  1.33s/it]                                                            7%|▋         | 6732/100000 [3:41:07<34:31:48,  1.33s/it]  7%|▋         | 6733/100000 [3:41:08<34:13:21,  1.32s/it]                                                            7%|▋         | 6733/100000 [3:41:08<34:13:21,  1.32s/it]  7%|▋         | 6734/100000 [3:41:09<33:43:14,  1.30s/it]                                                            7%|▋         | 6734/100000 [3:41:09<33:43:14,  1.30s/it]  7%|▋         | 6735/100000 [3:41:11<33:16:53,  1.28s/it]                                                            7%|▋         | 6735/100000 [3:41:11<33:16:53,  1.28s/it]  7%|▋         | 6736/100000 [3:41:12<33:51:55,  1.31s/it]                                                            7%|▋         | 6736/100000 [3:41:12<33:51:55,  1.31s/it]  7%|▋         | 6737/100000 [3:41:13<33:12:56,  1.28s/it]                                                            7%|▋         | 6737/100000 [3:41:13<33:12:56,  1.28s/it]  7%|▋         | 6738/100000 [3:41:14<32:30:44,  1.26s/it]                                                            7%|▋         | 6738/100000 [3:41:14<32:30:44,  1.26s/it]  7%|▋         | 6739/100000 [3:41:16<31:49:07,  1.23s/it]                                                            7%|▋         | 6739/100000 [3:41:16<31:49:07,  1.23s/it]  7%|▋         | 6740/100000 [3:41:17<31:16:03,  1.21s/it]                                                            7%|▋         | 6740/100000 [3:41:17<31:16:03,  1.21s/it]  7%|▋         | 6741/100000 [3:41:18<30:51:22,  1.19s/it]                                                            7%|▋         | 6741/100000 [3:41:18<30:51:22,  1.19s/it]  7%|▋         | 6742/100000 [3:41:19<30:25:39,  1.17s/it]                                                            7%|▋         | 6742/100000 [3:41:19<30:25:39,  1.17s/it]  7%|▋         | 6743/100000 [3:41:20<29:41:17,  1.15s/it]                                                            7%|▋         | 6743/100000 [3:41:20<29:41:17,  1.15s/it]  7%|▋         | 6744/100000 [3:41:21<29:11:10,  1.13s/it]                                                            7%|▋         | 6744/100000 [3:41:21<29:11:10,  1.13s/it]  7%|▋         | 6745/100000 [3:41:22<28:32:38,  1.10s/it]                                                            7%|▋         | 6745/100000 [3:41:22<28:32:38,  1.10s/it]  7%|▋         | 6746/100000 [3:41:23<28:16:14,  1.09s/it]                                                            7%|▋         | 6746/100000 [3:41:23<28:16:14,  1.09s/it]  7%|▋         | 6747/100000 [3:41:24<27:43:59,  1.07s/it]                                                            7%|▋         | 6747/100000 [3:41:24<27:43:59,  1.07s/it]  7%|▋         | 6748/100000 [3:41:25<27:12:47,  1.05s/it]                                                            7%|▋         | 6748/100000 [3:41:25<27:12:47,  1.05s/it]  7%|▋         | 6749/100000 [3:41:26<26:41:52,  1.03s/it]                                                            7%|▋         | 6749/100000 [3:41:26<26:41:52,  1.03s/it]  7%|▋         | 6750/100000 [3:41:27<26:09:10,  1.01s/it]                                                            7%|▋         | 6750/100000 [3:41:27<26:09:10,  1.01s/it]  7%|▋         | 6751/100000 [3:41:28<25:43:30,  1.01it/s]                                                            7%|▋         | 6751/100000 [3:41:28<25:43:30,  1.01it/s]  7%|▋         | 6752/100000 [3:41:29<25:03:11,  1.03it/s]                                                            7%|▋         | 6752/100000 [3:41:29<25:03:11,  1.03it/s]  7%|▋         | 6753/100000 [3:41:30<24:46:27,  1.05it/s]                                                            7%|▋         | 6753/100000 [3:41:30<24:46:27,  1.05it/s]  7%|▋         | 6754/100000 [3:41:31<24:01:09,  1.08it/s]                                                          {'loss': 0.029, 'grad_norm': 0.6512314677238464, 'learning_rate': 2.0004e-05, 'epoch': 12.31}
+{'loss': 0.042, 'grad_norm': 0.41237813234329224, 'learning_rate': 2.0007000000000003e-05, 'epoch': 12.31}
+{'loss': 0.024, 'grad_norm': 0.4640461206436157, 'learning_rate': 2.0010000000000003e-05, 'epoch': 12.31}
+{'loss': 0.0277, 'grad_norm': 0.32338428497314453, 'learning_rate': 2.0013e-05, 'epoch': 12.31}
+{'loss': 0.0236, 'grad_norm': 0.561813235282898, 'learning_rate': 2.0016e-05, 'epoch': 12.32}
+{'loss': 0.043, 'grad_norm': 0.48433899879455566, 'learning_rate': 2.0019e-05, 'epoch': 12.32}
+{'loss': 0.0152, 'grad_norm': 0.35797983407974243, 'learning_rate': 2.0022e-05, 'epoch': 12.32}
+{'loss': 0.019, 'grad_norm': 0.24485398828983307, 'learning_rate': 2.0025e-05, 'epoch': 12.32}
+{'loss': 0.0288, 'grad_norm': 0.5601616501808167, 'learning_rate': 2.0028e-05, 'epoch': 12.32}
+{'loss': 0.0105, 'grad_norm': 0.3700091242790222, 'learning_rate': 2.0031e-05, 'epoch': 12.33}
+{'loss': 0.0188, 'grad_norm': 0.9464983344078064, 'learning_rate': 2.0033999999999998e-05, 'epoch': 12.33}
+{'loss': 0.0764, 'grad_norm': 1.1551624536514282, 'learning_rate': 2.0037e-05, 'epoch': 12.33}
+{'loss': 0.0151, 'grad_norm': 0.6184530258178711, 'learning_rate': 2.004e-05, 'epoch': 12.33}
+{'loss': 0.0082, 'grad_norm': 0.33395180106163025, 'learning_rate': 2.0043e-05, 'epoch': 12.33}
+{'loss': 0.0223, 'grad_norm': 0.39083316922187805, 'learning_rate': 2.0046e-05, 'epoch': 12.33}
+{'loss': 0.026, 'grad_norm': 0.45690304040908813, 'learning_rate': 2.0049e-05, 'epoch': 12.34}
+{'loss': 0.0211, 'grad_norm': 0.3044404685497284, 'learning_rate': 2.0052e-05, 'epoch': 12.34}
+{'loss': 0.0256, 'grad_norm': 0.7949528694152832, 'learning_rate': 2.0055e-05, 'epoch': 12.34}
+{'loss': 0.0214, 'grad_norm': 0.6159335374832153, 'learning_rate': 2.0058e-05, 'epoch': 12.34}
+{'loss': 0.0376, 'grad_norm': 0.48883113265037537, 'learning_rate': 2.0061e-05, 'epoch': 12.34}
+{'loss': 0.0169, 'grad_norm': 0.36205312609672546, 'learning_rate': 2.0064e-05, 'epoch': 12.35}
+{'loss': 0.0132, 'grad_norm': 0.4154253900051117, 'learning_rate': 2.0067000000000003e-05, 'epoch': 12.35}
+{'loss': 0.0204, 'grad_norm': 0.32109948992729187, 'learning_rate': 2.0070000000000003e-05, 'epoch': 12.35}
+{'loss': 0.028, 'grad_norm': 0.6490615010261536, 'learning_rate': 2.0073000000000002e-05, 'epoch': 12.35}
+{'loss': 0.0215, 'grad_norm': 0.5937842130661011, 'learning_rate': 2.0076000000000002e-05, 'epoch': 12.35}
+{'loss': 0.016, 'grad_norm': 0.41471704840660095, 'learning_rate': 2.0079000000000002e-05, 'epoch': 12.35}
+{'loss': 0.0115, 'grad_norm': 0.4338700473308563, 'learning_rate': 2.0082000000000002e-05, 'epoch': 12.36}
+{'loss': 0.0306, 'grad_norm': 0.6470513939857483, 'learning_rate': 2.0085e-05, 'epoch': 12.36}
+{'loss': 0.0135, 'grad_norm': 0.6698824763298035, 'learning_rate': 2.0087999999999998e-05, 'epoch': 12.36}
+{'loss': 0.0146, 'grad_norm': 0.37007206678390503, 'learning_rate': 2.0090999999999998e-05, 'epoch': 12.36}
+{'loss': 0.0202, 'grad_norm': 0.4813641905784607, 'learning_rate': 2.0093999999999998e-05, 'epoch': 12.36}
+{'loss': 0.0451, 'grad_norm': 1.0598350763320923, 'learning_rate': 2.0097e-05, 'epoch': 12.37}
+{'loss': 0.0215, 'grad_norm': 0.682828426361084, 'learning_rate': 2.01e-05, 'epoch': 12.37}
+{'loss': 0.0499, 'grad_norm': 0.82156902551651, 'learning_rate': 2.0103e-05, 'epoch': 12.37}
+{'loss': 0.213, 'grad_norm': 0.9906166195869446, 'learning_rate': 2.0106e-05, 'epoch': 12.37}
+{'loss': 0.2196, 'grad_norm': 0.7346987128257751, 'learning_rate': 2.0109e-05, 'epoch': 12.37}
+{'loss': 0.1236, 'grad_norm': 0.6778160929679871, 'learning_rate': 2.0112e-05, 'epoch': 12.37}
+{'loss': 0.1193, 'grad_norm': 0.6001963019371033, 'learning_rate': 2.0115e-05, 'epoch': 12.38}
+{'loss': 0.1331, 'grad_norm': 0.7126210331916809, 'learning_rate': 2.0118e-05, 'epoch': 12.38}
+{'loss': 0.1309, 'grad_norm': 0.580418586730957, 'learning_rate': 2.0121e-05, 'epoch': 12.38}
+{'loss': 0.1743, 'grad_norm': 0.837908923625946, 'learning_rate': 2.0124e-05, 'epoch': 12.38}
+{'loss': 0.0906, 'grad_norm': 0.47805464267730713, 'learning_rate': 2.0127000000000002e-05, 'epoch': 12.38}
+{'loss': 0.0921, 'grad_norm': 0.5674648880958557, 'learning_rate': 2.0130000000000002e-05, 'epoch': 12.39}
+{'loss': 0.0776, 'grad_norm': 0.4743923246860504, 'learning_rate': 2.0133000000000002e-05, 'epoch': 12.39}
+{'loss': 0.0961, 'grad_norm': 0.807295024394989, 'learning_rate': 2.0136e-05, 'epoch': 12.39}
+{'loss': 0.1024, 'grad_norm': 0.6291029453277588, 'learning_rate': 2.0139e-05, 'epoch': 12.39}
+{'loss': 0.0667, 'grad_norm': 0.6043853759765625, 'learning_rate': 2.0142e-05, 'epoch': 12.39}
+{'loss': 0.0419, 'grad_norm': 0.8836755752563477, 'learning_rate': 2.0145e-05, 'epoch': 12.4}
+{'loss': 0.0285, 'grad_norm': 0.7132802605628967, 'learning_rate': 2.0148e-05, 'epoch': 12.4}
+{'loss': 0.0358, 'grad_norm': 0.3178471028804779, 'learning_rate': 2.0151e-05, 'epoch': 12.4}
+{'loss': 0.036, 'grad_norm': 0.4992874264717102, 'learning_rate': 2.0154e-05, 'epoch': 12.4}
+{'loss': 0.0297, 'grad_norm': 0.38336145877838135, 'learning_rate': 2.0157000000000004e-05, 'epoch': 12.4}
+{'loss': 0.0243, 'grad_norm': 0.37750759720802307, 'learning_rate': 2.016e-05, 'epoch': 12.4}
+{'loss': 0.02, 'grad_norm': 0.3396998941898346, 'learning_rate': 2.0163e-05, 'epoch': 12.41}
+{'loss': 0.0113, 'grad_norm': 0.5006681680679321, 'learning_rate': 2.0166e-05, 'epoch': 12.41}
+{'loss': 0.013, 'grad_norm': 0.29943355917930603, 'learning_rate': 2.0169e-05, 'epoch': 12.41}
+{'loss': 0.0179, 'grad_norm': 0.2731862962245941, 'learning_rate': 2.0172e-05, 'epoch': 12.41}
+{'loss': 0.0269, 'grad_norm': 0.4055343270301819, 'learning_rate': 2.0175e-05, 'epoch': 12.41}
+{'loss': 0.0172, 'grad_norm': 0.4607265889644623, 'learning_rate': 2.0178e-05, 'epoch': 12.42}
+{'loss': 0.0122, 'grad_norm': 0.17374105751514435, 'learning_rate': 2.0181e-05, 'epoch': 12.42}
+{'loss': 0.0162, 'grad_norm': 0.30624425411224365, 'learning_rate': 2.0184e-05, 'epoch': 12.42}
+{'loss': 0.0176, 'grad_norm': 0.30509719252586365, 'learning_rate': 2.0187000000000002e-05, 'epoch': 12.42}
+{'loss': 0.0228, 'grad_norm': 0.6953483819961548, 'learning_rate': 2.019e-05, 'epoch': 12.42}
+{'loss': 0.0239, 'grad_norm': 0.5839991569519043, 'learning_rate': 2.0193e-05, 'epoch': 12.42}
+{'loss': 0.0231, 'grad_norm': 0.2980464994907379, 'learning_rate': 2.0196e-05, 'epoch': 12.43}
+{'loss': 0.0149, 'grad_norm': 0.4845972955226898, 'learning_rate': 2.0199e-05, 'epoch': 12.43}
+{'loss': 0.0225, 'grad_norm': 0.5114170908927917, 'learning_rate': 2.0202e-05, 'epoch': 12.43}
+{'loss': 0.0167, 'grad_norm': 0.4214576780796051, 'learning_rate': 2.0205e-05, 'epoch': 12.43}
+{'loss': 0.0245, 'grad_norm': 0.5541107058525085, 'learning_rate': 2.0208e-05, 'epoch': 12.43}
+{'loss': 0.0147, 'grad_norm': 0.40229126811027527, 'learning_rate': 2.0211e-05, 'epoch': 12.44}
+{'loss': 0.0153, 'grad_norm': 0.7117041349411011, 'learning_rate': 2.0214e-05, 'epoch': 12.44}
+{'loss': 0.0233, 'grad_norm': 0.4517172574996948, 'learning_rate': 2.0217000000000003e-05, 'epoch': 12.44}
+{'loss': 0.0289, 'grad_norm': 0.6834757924079895, 'learning_rate': 2.0220000000000003e-05, 'epoch': 12.44}
+{'loss': 0.0321, 'grad_norm': 0.5634806156158447, 'learning_rate': 2.0223000000000003e-05, 'epoch': 12.44}
+{'loss': 0.0151, 'grad_norm': 0.42304977774620056, 'learning_rate': 2.0226000000000003e-05, 'epoch': 12.45}
+{'loss': 0.0168, 'grad_norm': 0.3649885654449463, 'learning_rate': 2.0229000000000002e-05, 'epoch': 12.45}
+{'loss': 0.0143, 'grad_norm': 0.44206562638282776, 'learning_rate': 2.0232000000000002e-05, 'epoch': 12.45}
+{'loss': 0.032, 'grad_norm': 0.7201863527297974, 'learning_rate': 2.0235e-05, 'epoch': 12.45}
+{'loss': 0.0189, 'grad_norm': 0.5601069927215576, 'learning_rate': 2.0238e-05, 'epoch': 12.45}
+{'loss': 0.0178, 'grad_norm': 0.4897482395172119, 'learning_rate': 2.0240999999999998e-05, 'epoch': 12.45}
+{'loss': 0.026, 'grad_norm': 0.6514797210693359, 'learning_rate': 2.0243999999999998e-05, 'epoch': 12.46}
+{'loss': 0.0298, 'grad_norm': 0.6403403282165527, 'learning_rate': 2.0247e-05, 'epoch': 12.46}
+{'loss': 0.0197, 'grad_norm': 0.4038439691066742, 'learning_rate': 2.025e-05, 'epoch': 12.46}
+  7%|▋         | 6754/100000 [3:41:31<24:01:09,  1.08it/s]  7%|▋         | 6755/100000 [3:41:43<112:41:23,  4.35s/it]                                                             7%|▋         | 6755/100000 [3:41:43<112:41:23,  4.35s/it]  7%|▋         | 6756/100000 [3:41:48<118:26:44,  4.57s/it]                                                             7%|▋         | 6756/100000 [3:41:48<118:26:44,  4.57s/it]  7%|▋         | 6757/100000 [3:41:53<116:40:35,  4.50s/it]                                                             7%|▋         | 6757/100000 [3:41:53<116:40:35,  4.50s/it]  7%|▋         | 6758/100000 [3:41:57<113:03:31,  4.37s/it]                                                             7%|▋         | 6758/100000 [3:41:57<113:03:31,  4.37s/it]  7%|▋         | 6759/100000 [3:42:00<107:24:07,  4.15s/it]                                                             7%|▋         | 6759/100000 [3:42:00<107:24:07,  4.15s/it]  7%|▋         | 6760/100000 [3:42:04<100:38:42,  3.89s/it]                                                             7%|▋         | 6760/100000 [3:42:04<100:38:42,  3.89s/it]  7%|▋         | 6761/100000 [3:42:07<93:47:53,  3.62s/it]                                                             7%|▋         | 6761/100000 [3:42:07<93:47:53,  3.62s/it]  7%|▋         | 6762/100000 [3:42:09<87:14:46,  3.37s/it]                                                            7%|▋         | 6762/100000 [3:42:09<87:14:46,  3.37s/it]  7%|▋         | 6763/100000 [3:42:12<81:15:56,  3.14s/it]                                                            7%|▋         | 6763/100000 [3:42:12<81:15:56,  3.14s/it]  7%|▋         | 6764/100000 [3:42:14<75:27:21,  2.91s/it]                                                            7%|▋         | 6764/100000 [3:42:14<75:27:21,  2.91s/it]  7%|▋         | 6765/100000 [3:42:17<70:29:03,  2.72s/it]                                                            7%|▋         | 6765/100000 [3:42:17<70:29:03,  2.72s/it]  7%|▋         | 6766/100000 [3:42:19<65:50:25,  2.54s/it]                                                            7%|▋         | 6766/100000 [3:42:19<65:50:25,  2.54s/it]  7%|▋         | 6767/100000 [3:42:21<61:27:09,  2.37s/it]                                                            7%|▋         | 6767/100000 [3:42:21<61:27:09,  2.37s/it]  7%|▋         | 6768/100000 [3:42:23<57:37:13,  2.22s/it]                                                            7%|▋         | 6768/100000 [3:42:23<57:37:13,  2.22s/it]  7%|▋         | 6769/100000 [3:42:24<53:54:22,  2.08s/it]                                                            7%|▋         | 6769/100000 [3:42:24<53:54:22,  2.08s/it]  7%|▋         | 6770/100000 [3:42:26<50:19:45,  1.94s/it]                                                            7%|▋         | 6770/100000 [3:42:26<50:19:45,  1.94s/it]  7%|▋         | 6771/100000 [3:42:28<48:03:38,  1.86s/it]                                                            7%|▋         | 6771/100000 [3:42:28<48:03:38,  1.86s/it]  7%|▋         | 6772/100000 [3:42:29<45:53:42,  1.77s/it]                                                            7%|▋         | 6772/100000 [3:42:29<45:53:42,  1.77s/it]  7%|▋         | 6773/100000 [3:42:31<44:25:05,  1.72s/it]                                                            7%|▋         | 6773/100000 [3:42:31<44:25:05,  1.72s/it]  7%|▋         | 6774/100000 [3:42:32<42:44:35,  1.65s/it]                                                            7%|▋         | 6774/100000 [3:42:32<42:44:35,  1.65s/it]  7%|▋         | 6775/100000 [3:42:34<41:18:01,  1.59s/it]                                                            7%|▋         | 6775/100000 [3:42:34<41:18:01,  1.59s/it]  7%|▋         | 6776/100000 [3:42:35<40:05:46,  1.55s/it]                                                            7%|▋         | 6776/100000 [3:42:35<40:05:46,  1.55s/it]  7%|▋         | 6777/100000 [3:42:37<39:04:36,  1.51s/it]                                                            7%|▋         | 6777/100000 [3:42:37<39:04:36,  1.51s/it]  7%|▋         | 6778/100000 [3:42:38<37:51:21,  1.46s/it]                                                            7%|▋         | 6778/100000 [3:42:38<37:51:21,  1.46s/it]  7%|▋         | 6779/100000 [3:42:39<37:12:00,  1.44s/it]                                                            7%|▋         | 6779/100000 [3:42:39<37:12:00,  1.44s/it]  7%|▋         | 6780/100000 [3:42:41<36:20:28,  1.40s/it]                                                            7%|▋         | 6780/100000 [3:42:41<36:20:28,  1.40s/it]  7%|▋         | 6781/100000 [3:42:42<35:50:34,  1.38s/it]                                                            7%|▋         | 6781/100000 [3:42:42<35:50:34,  1.38s/it]  7%|▋         | 6782/100000 [3:42:43<35:18:39,  1.36s/it]                                                            7%|▋         | 6782/100000 [3:42:43<35:18:39,  1.36s/it]  7%|▋         | 6783/100000 [3:42:45<34:49:51,  1.35s/it]                                                            7%|▋         | 6783/100000 [3:42:45<34:49:51,  1.35s/it]  7%|▋         | 6784/100000 [3:42:46<34:22:22,  1.33s/it]                                                            7%|▋         | 6784/100000 [3:42:46<34:22:22,  1.33s/it]  7%|▋         | 6785/100000 [3:42:47<33:56:05,  1.31s/it]                                                            7%|▋         | 6785/100000 [3:42:47<33:56:05,  1.31s/it]  7%|▋         | 6786/100000 [3:42:48<33:25:17,  1.29s/it]                                                            7%|▋         | 6786/100000 [3:42:48<33:25:17,  1.29s/it]  7%|▋         | 6787/100000 [3:42:50<32:52:14,  1.27s/it]                                                            7%|▋         | 6787/100000 [3:42:50<32:52:14,  1.27s/it]  7%|▋         | 6788/100000 [3:42:51<32:25:39,  1.25s/it]                                                            7%|▋         | 6788/100000 [3:42:51<32:25:39,  1.25s/it]  7%|▋         | 6789/100000 [3:42:52<31:28:55,  1.22s/it]                                                            7%|▋         | 6789/100000 [3:42:52<31:28:55,  1.22s/it]  7%|▋         | 6790/100000 [3:42:53<31:06:17,  1.20s/it]                                                            7%|▋         | 6790/100000 [3:42:53<31:06:17,  1.20s/it]  7%|▋         | 6791/100000 [3:42:54<30:33:34,  1.18s/it]                                                            7%|▋         | 6791/100000 [3:42:54<30:33:34,  1.18s/it]  7%|▋         | 6792/100000 [3:42:55<30:14:52,  1.17s/it]                                                            7%|▋         | 6792/100000 [3:42:55<30:14:52,  1.17s/it]  7%|▋         | 6793/100000 [3:42:57<29:56:22,  1.16s/it]                                                            7%|▋         | 6793/100000 [3:42:57<29:56:22,  1.16s/it]  7%|▋         | 6794/100000 [3:42:58<29:07:45,  1.13s/it]                                                            7%|▋         | 6794/100000 [3:42:58<29:07:45,  1.13s/it]  7%|▋         | 6795/100000 [3:42:59<28:47:40,  1.11s/it]                                                            7%|▋         | 6795/100000 [3:42:59<28:47:40,  1.11s/it]  7%|▋         | 6796/100000 [3:43:00<29:41:34,  1.15s/it]                                                            7%|▋         | 6796/100000 [3:43:00<29:41:34,  1.15s/it]  7%|▋         | 6797/100000 [3:43:01<29:05:38,  1.12s/it]                                                            7%|▋         | 6797/100000 [3:43:01<29:05:38,  1.12s/it]  7%|▋         | 6798/100000 [3:43:02<28:32:00,  1.10s/it]                                                            7%|▋         | 6798/100000 [3:43:02<28:32:00,  1.10s/it]  7%|▋         | 6799/100000 [3:43:03<27:45:12,  1.07s/it]                                                            7%|▋         | 6799/100000 [3:43:03<27:45:12,  1.07s/it]  7%|▋         | 6800/100000 [3:43:04<27:09:04,  1.05s/it]                                                            7%|▋         | 6800/100000 [3:43:04<27:09:04,  1.05s/it]  7%|▋         | 6801/100000 [3:43:05<26:27:05,  1.02s/it]                                                            7%|▋         | 6801/100000 [3:43:05<26:27:05,  1.02s/it]  7%|▋         | 6802/100000 [3:43:06<26:06:36,  1.01s/it]                                                            7%|▋         | 6802/100000 [3:43:06<26:06:36,  1.01s/it]  7%|▋         | 6803/100000 [3:43:07<25:35:45,  1.01it/s]                                                            7%|▋         | 6803/100000 [3:43:07<25:35:45,  1.01it/s]  7%|▋         | 6804/100000 [3:43:08<25:05:44,  1.03it/s]                                                            7%|▋         | 6804/100000 [3:43:08<25:05:44,  1.03it/s]  7%|▋         | 6805/100000 [3:43:19<101:12:07,  3.91s/it]                                                             7%|▋         | 6805/100000 [3:43:19<101:12:07,  3.91s/it]  7%|▋         | 6806/100000 [3:43:24<113:34:07,  4.39s/it]                                                             7%|▋         | 6806/100000 [3:43:24<113:34:07,  4.39s/it]  7%|▋         | 6807/100000 [3:43:28<113:18:25,  4.38s/it]                                                             7%|▋         | 6807/100000 [3:43:28<113:18:25,  4.38s/it]  7%|▋         | 6808/100000 [3:43:32<109:25:47,  4.23s/it]                                                             7%|▋         | 6808/100000 [3:43:32<109:25:47,  4.23s/it]  7%|▋         | 6809/100000 [3:43:36<103:26:56,  4.00s/it]                                                             7%|▋         | 6809/100000 [3:43:36<103:26:56,  4.00s/it]  7%|▋         | 6810/100000 [3:43:39<97:27:13,  3.76s/it]                                                             7%|▋         | 6810/100000 [3:43:39<97:27:13,  3.76s/it]  7%|▋         | 6811/100000 [3:43:42<91:16:16,  3.53s/it]                                                            7%|▋         | 6811/100000 [3:43:42<91:16:16,  3.53s/it]  7%|▋         | 6812/100000 [3:43:45<84:31:13,  3.27s/it]                                                            7%|▋         | 6812/100000 [3:43:45<84:31:13,  3.27s/it]  7%|▋         | 6813/100000 [3:43:47<78:43:51,  3.04s/it]                                                            7%|▋         | 6813/100000 [3:43:47<78:43:51,  3.04s/it]  7%|▋         | 6814/100000 [3:43:49<72:25:22,  2.80s/it]                                                            7%|▋         | 6814/100000 [3:43:49<72:25:22,  2.80s/it]  7%|▋         | 6815/100000 [3:43:52<67:22:56,  2.60s/it]                                                            7%|▋         | 6815/100000 [3:43:52<67:22:56,  2.60s/it]  7%|▋         | 6816/100000 [3:43:54<62:27:42,  2.41s/it]                                                            7%|▋         | 6816/100000 [3:43:54<62:27:42,  2.41s/it]  7%|▋         | 6817/100000 [3:43:55<58:34:22,  2.26s/it]                                                            7%|▋         | 6817/100000 [3:43:55<58:34:22,  2.26s/it]  7%|▋         | 6818/100000 [3:43:57<54:49:04,  2.12s/it]                                                            7%|▋         | 6818/100000 [3:43:57<54:49:04,  2.12s/it]  7%|▋         | 6819/100000 [3:43:59<51:34:53,  1.99s/it]                                                            7%|▋         | 6819/100000 [3:43:59<51:34:53,  1.99s/it]  7%|▋         | 6820/100000 [3:44:01<48:29:25,  1.87s/it]                                                            7%|▋         | 6820/100000 [3:44:01<48:29:25,  1.87s/it]  7%|▋         | 6821/100000 [3:44:02<46:22:33,  1.79s/it]                                                            7%|▋         | 6821/100000 [3:44:02<46:22:33,  1.79s/it]  7%|▋         | 6822/100000 [3:44:04<44:48:04,  1.73s/it]                                                            7%|▋         | 6822/100000 [3:44:04<44:48:04,  1.73s/it]  7%|▋         | 6823/100000 [3:44:05<42:53:56,  1.66s/it]                                                            7%|▋         | 6823/100000 [3:44:05<42:53:56,  1.66s/it]  7%|▋         | 6824/100000 [3:44:07<41:22:00,  1.60s/it]                                                            7%|▋         | 6824/100000 [3:44:07<41:22:00,  1.60s/it]  7%|▋         | 6825/100000 [3:44:08<40:14:33,  1.55s/it]                                                            7%|▋         | 6825/100000 [3:44:08<40:14:33,  1.55s/it]  7%|▋         | 6826/100000 [3:44:09<38:49:18,  1.50s/it]                                                            7%|▋         | 6826/100000 [3:44:09<38:49:18,  1.50s/it]  7%|▋         | 6827/100000 [3:44:11<38:08:10,  1.47s/it]                                                            7%|▋         | 6827/100000 [3:44:11<38:08:10,  1.47s/it]  7%|▋         | 6828/100000 [3:44:12<37:25:13,  1.45s/it]                                                            7%|▋         | 6828/100000 [3:44:12<37:25:13,  1.45s/it]  7%|▋         | 6829/100000 [3:44:14<36:46:14,  1.42s/it]                                                            7%|▋         | 6829/100000 [3:44:14<36:46:14,  1.42s/it]  7%|▋         | 6830/100000 [3:44:15<35:52:48,  1.39s/it]                                                            7%|▋         | 6830/100000 [3:44:15<35:52:48,  1.39s/it]  7%|▋         | 6831/100000 [3:44:16<35:28:32,  1.37s/it]                                                            7%|▋         | 6831/100000 [3:44:16<35:28:32,  1.37s/it]  7%|▋         | 6832/100000 [3:44:18<35:02:05,  1.35s/it]                                                            7%|▋         | 6832/100000 [3:44:18<35:02:05,  1.35s/it]  7%|▋         | 6833/100000 [3:44:19<34:38:21,  1.34s/it]                                                            7%|▋         | 6833/100000 [3:44:19<34:38:21,  1.34s/it]  7%|▋         | 6834/100000 [3:44:20<33:49:14,  1.31s/it]                                                            7%|▋         | 6834/100000 [3:44:20<33:49:14,  1.31s/it]  7%|▋         | 6835/100000 [3:44:21<33:13:05,  1.28s/it]                                                            7%|▋         | 6835/100000 [3:44:21<33:13:05,  1.28s/it]  7%|▋         | 6836/100000 [3:44:23<32:16:23,  1.25s/it]                                                            7%|▋         | 6836/100000 [3:44:23<32:16:23,  1.25s/it]  7%|▋         | 6837/100000 [3:44:24<32:06:01,  1.24s/it]                                                            7%|▋         | 6837/100000 [3:44:24<32:06:01,  1.24s/it]  7%|▋         | 6838/100000 [3:44:25<31:30:25,  1.22s/it]                                                          {'loss': 0.0279, 'grad_norm': 0.5625746846199036, 'learning_rate': 2.0253e-05, 'epoch': 12.46}
+{'loss': 0.3294, 'grad_norm': 1.6312752962112427, 'learning_rate': 2.0256e-05, 'epoch': 12.46}
+{'loss': 0.1652, 'grad_norm': 0.7647871375083923, 'learning_rate': 2.0259e-05, 'epoch': 12.47}
+{'loss': 0.1735, 'grad_norm': 0.8227677941322327, 'learning_rate': 2.0262e-05, 'epoch': 12.47}
+{'loss': 0.1444, 'grad_norm': 0.6325469017028809, 'learning_rate': 2.0265e-05, 'epoch': 12.47}
+{'loss': 0.1389, 'grad_norm': 0.7547577619552612, 'learning_rate': 2.0268e-05, 'epoch': 12.47}
+{'loss': 0.084, 'grad_norm': 0.5040287971496582, 'learning_rate': 2.0271e-05, 'epoch': 12.47}
+{'loss': 0.1005, 'grad_norm': 0.5050820708274841, 'learning_rate': 2.0274e-05, 'epoch': 12.47}
+{'loss': 0.101, 'grad_norm': 0.8370978832244873, 'learning_rate': 2.0277e-05, 'epoch': 12.48}
+{'loss': 0.0826, 'grad_norm': 0.5290765762329102, 'learning_rate': 2.0280000000000002e-05, 'epoch': 12.48}
+{'loss': 0.0676, 'grad_norm': 0.529080331325531, 'learning_rate': 2.0283000000000002e-05, 'epoch': 12.48}
+{'loss': 0.1273, 'grad_norm': 0.6170281171798706, 'learning_rate': 2.0286000000000002e-05, 'epoch': 12.48}
+{'loss': 0.0825, 'grad_norm': 0.574787974357605, 'learning_rate': 2.0289000000000002e-05, 'epoch': 12.48}
+{'loss': 0.0628, 'grad_norm': 0.6429061889648438, 'learning_rate': 2.0292e-05, 'epoch': 12.49}
+{'loss': 0.0438, 'grad_norm': 0.4455440938472748, 'learning_rate': 2.0295e-05, 'epoch': 12.49}
+{'loss': 0.0672, 'grad_norm': 0.45541685819625854, 'learning_rate': 2.0298e-05, 'epoch': 12.49}
+{'loss': 0.0338, 'grad_norm': 0.4998338222503662, 'learning_rate': 2.0301e-05, 'epoch': 12.49}
+{'loss': 0.0408, 'grad_norm': 0.4116666913032532, 'learning_rate': 2.0304e-05, 'epoch': 12.49}
+{'loss': 0.0224, 'grad_norm': 0.3885330557823181, 'learning_rate': 2.0307e-05, 'epoch': 12.49}
+{'loss': 0.0545, 'grad_norm': 0.3494364619255066, 'learning_rate': 2.031e-05, 'epoch': 12.5}
+{'loss': 0.0503, 'grad_norm': 0.2879297733306885, 'learning_rate': 2.0313e-05, 'epoch': 12.5}
+{'loss': 0.0205, 'grad_norm': 0.3762493133544922, 'learning_rate': 2.0316e-05, 'epoch': 12.5}
+{'loss': 0.0166, 'grad_norm': 0.25101399421691895, 'learning_rate': 2.0319e-05, 'epoch': 12.5}
+{'loss': 0.0296, 'grad_norm': 0.49378249049186707, 'learning_rate': 2.0322e-05, 'epoch': 12.5}
+{'loss': 0.0301, 'grad_norm': 0.6454524993896484, 'learning_rate': 2.0325e-05, 'epoch': 12.51}
+{'loss': 0.023, 'grad_norm': 0.372597336769104, 'learning_rate': 2.0328e-05, 'epoch': 12.51}
+{'loss': 0.0267, 'grad_norm': 0.47888875007629395, 'learning_rate': 2.0331e-05, 'epoch': 12.51}
+{'loss': 0.0163, 'grad_norm': 0.2966492772102356, 'learning_rate': 2.0334e-05, 'epoch': 12.51}
+{'loss': 0.0213, 'grad_norm': 0.7563128471374512, 'learning_rate': 2.0337e-05, 'epoch': 12.51}
+{'loss': 0.0184, 'grad_norm': 0.3697977662086487, 'learning_rate': 2.0340000000000002e-05, 'epoch': 12.52}
+{'loss': 0.0147, 'grad_norm': 0.5888333916664124, 'learning_rate': 2.0343e-05, 'epoch': 12.52}
+{'loss': 0.0167, 'grad_norm': 0.4508650004863739, 'learning_rate': 2.0346e-05, 'epoch': 12.52}
+{'loss': 0.0117, 'grad_norm': 0.3996213972568512, 'learning_rate': 2.0349e-05, 'epoch': 12.52}
+{'loss': 0.0102, 'grad_norm': 0.3682596981525421, 'learning_rate': 2.0352e-05, 'epoch': 12.52}
+{'loss': 0.0099, 'grad_norm': 0.3281971216201782, 'learning_rate': 2.0355e-05, 'epoch': 12.52}
+{'loss': 0.0175, 'grad_norm': 0.6341251730918884, 'learning_rate': 2.0358e-05, 'epoch': 12.53}
+{'loss': 0.0379, 'grad_norm': 0.8982787728309631, 'learning_rate': 2.0361e-05, 'epoch': 12.53}
+{'loss': 0.0259, 'grad_norm': 0.629838228225708, 'learning_rate': 2.0364e-05, 'epoch': 12.53}
+{'loss': 0.0206, 'grad_norm': 0.4660007655620575, 'learning_rate': 2.0367e-05, 'epoch': 12.53}
+{'loss': 0.0227, 'grad_norm': 0.7335576415061951, 'learning_rate': 2.0370000000000003e-05, 'epoch': 12.53}
+{'loss': 0.0224, 'grad_norm': 0.5546920299530029, 'learning_rate': 2.0373000000000003e-05, 'epoch': 12.54}
+{'loss': 0.0274, 'grad_norm': 0.5457835793495178, 'learning_rate': 2.0376000000000003e-05, 'epoch': 12.54}
+{'loss': 0.0188, 'grad_norm': 1.0218298435211182, 'learning_rate': 2.0379000000000003e-05, 'epoch': 12.54}
+{'loss': 0.0175, 'grad_norm': 0.6698922514915466, 'learning_rate': 2.0382e-05, 'epoch': 12.54}
+{'loss': 0.0291, 'grad_norm': 0.38196083903312683, 'learning_rate': 2.0385e-05, 'epoch': 12.54}
+{'loss': 0.0162, 'grad_norm': 0.3500259816646576, 'learning_rate': 2.0388e-05, 'epoch': 12.54}
+{'loss': 0.0223, 'grad_norm': 0.7685902714729309, 'learning_rate': 2.0391e-05, 'epoch': 12.55}
+{'loss': 0.0397, 'grad_norm': 0.901985764503479, 'learning_rate': 2.0393999999999998e-05, 'epoch': 12.55}
+{'loss': 0.0209, 'grad_norm': 0.3865233063697815, 'learning_rate': 2.0396999999999998e-05, 'epoch': 12.55}
+{'loss': 0.0193, 'grad_norm': 0.5133811831474304, 'learning_rate': 2.04e-05, 'epoch': 12.55}
+{'loss': 0.0598, 'grad_norm': 0.9574827551841736, 'learning_rate': 2.0403e-05, 'epoch': 12.55}
+{'loss': 0.2437, 'grad_norm': 1.2635304927825928, 'learning_rate': 2.0406e-05, 'epoch': 12.56}
+{'loss': 0.235, 'grad_norm': 0.9194162487983704, 'learning_rate': 2.0409e-05, 'epoch': 12.56}
+{'loss': 0.149, 'grad_norm': 0.9686319231987, 'learning_rate': 2.0412e-05, 'epoch': 12.56}
+{'loss': 0.1096, 'grad_norm': 0.5710583925247192, 'learning_rate': 2.0415e-05, 'epoch': 12.56}
+{'loss': 0.1968, 'grad_norm': 0.924613893032074, 'learning_rate': 2.0418e-05, 'epoch': 12.56}
+{'loss': 0.1546, 'grad_norm': 0.6345779299736023, 'learning_rate': 2.0421e-05, 'epoch': 12.57}
+{'loss': 0.0736, 'grad_norm': 0.5243431329727173, 'learning_rate': 2.0424e-05, 'epoch': 12.57}
+{'loss': 0.1234, 'grad_norm': 1.152990698814392, 'learning_rate': 2.0427e-05, 'epoch': 12.57}
+{'loss': 0.0915, 'grad_norm': 0.544137179851532, 'learning_rate': 2.0430000000000003e-05, 'epoch': 12.57}
+{'loss': 0.0802, 'grad_norm': 0.5432739853858948, 'learning_rate': 2.0433000000000002e-05, 'epoch': 12.57}
+{'loss': 0.1198, 'grad_norm': 0.4892103970050812, 'learning_rate': 2.0436000000000002e-05, 'epoch': 12.57}
+{'loss': 0.0567, 'grad_norm': 0.639560878276825, 'learning_rate': 2.0439000000000002e-05, 'epoch': 12.58}
+{'loss': 0.0621, 'grad_norm': 0.40163639187812805, 'learning_rate': 2.0442000000000002e-05, 'epoch': 12.58}
+{'loss': 0.0504, 'grad_norm': 0.42498865723609924, 'learning_rate': 2.0445e-05, 'epoch': 12.58}
+{'loss': 0.0545, 'grad_norm': 0.5056062936782837, 'learning_rate': 2.0448e-05, 'epoch': 12.58}
+{'loss': 0.0268, 'grad_norm': 0.46628761291503906, 'learning_rate': 2.0451e-05, 'epoch': 12.58}
+{'loss': 0.0186, 'grad_norm': 0.3696845769882202, 'learning_rate': 2.0454e-05, 'epoch': 12.59}
+{'loss': 0.0394, 'grad_norm': 0.3414132297039032, 'learning_rate': 2.0456999999999997e-05, 'epoch': 12.59}
+{'loss': 0.0295, 'grad_norm': 0.35303443670272827, 'learning_rate': 2.046e-05, 'epoch': 12.59}
+{'loss': 0.0226, 'grad_norm': 0.5817875266075134, 'learning_rate': 2.0463e-05, 'epoch': 12.59}
+{'loss': 0.0222, 'grad_norm': 0.33950066566467285, 'learning_rate': 2.0466e-05, 'epoch': 12.59}
+{'loss': 0.0229, 'grad_norm': 0.43999528884887695, 'learning_rate': 2.0469e-05, 'epoch': 12.59}
+{'loss': 0.0181, 'grad_norm': 0.3061814308166504, 'learning_rate': 2.0472e-05, 'epoch': 12.6}
+{'loss': 0.0159, 'grad_norm': 0.351764053106308, 'learning_rate': 2.0475e-05, 'epoch': 12.6}
+{'loss': 0.0184, 'grad_norm': 0.2815607488155365, 'learning_rate': 2.0478e-05, 'epoch': 12.6}
+{'loss': 0.036, 'grad_norm': 0.5808914303779602, 'learning_rate': 2.0481e-05, 'epoch': 12.6}
+{'loss': 0.0205, 'grad_norm': 0.41375821828842163, 'learning_rate': 2.0484e-05, 'epoch': 12.6}
+{'loss': 0.0296, 'grad_norm': 0.6034269332885742, 'learning_rate': 2.0487e-05, 'epoch': 12.61}
+{'loss': 0.0231, 'grad_norm': 0.5789977312088013, 'learning_rate': 2.0490000000000002e-05, 'epoch': 12.61}
+{'loss': 0.0156, 'grad_norm': 0.4856737554073334, 'learning_rate': 2.0493000000000002e-05, 'epoch': 12.61}
+{'loss': 0.0147, 'grad_norm': 0.5737854242324829, 'learning_rate': 2.0496e-05, 'epoch': 12.61}
+{'loss': 0.013, 'grad_norm': 0.44736528396606445, 'learning_rate': 2.0499e-05, 'epoch': 12.61}
+{'loss': 0.0262, 'grad_norm': 0.6260068416595459, 'learning_rate': 2.0502e-05, 'epoch': 12.61}
+  7%|▋         | 6838/100000 [3:44:25<31:30:25,  1.22s/it]  7%|▋         | 6839/100000 [3:44:26<30:51:37,  1.19s/it]                                                            7%|▋         | 6839/100000 [3:44:26<30:51:37,  1.19s/it]  7%|▋         | 6840/100000 [3:44:27<30:23:02,  1.17s/it]                                                            7%|▋         | 6840/100000 [3:44:27<30:23:02,  1.17s/it]  7%|▋         | 6841/100000 [3:44:28<29:53:25,  1.16s/it]                                                            7%|▋         | 6841/100000 [3:44:28<29:53:25,  1.16s/it]  7%|▋         | 6842/100000 [3:44:29<29:32:22,  1.14s/it]                                                            7%|▋         | 6842/100000 [3:44:29<29:32:22,  1.14s/it]  7%|▋         | 6843/100000 [3:44:31<29:18:19,  1.13s/it]                                                            7%|▋         | 6843/100000 [3:44:31<29:18:19,  1.13s/it]  7%|▋         | 6844/100000 [3:44:32<28:49:42,  1.11s/it]                                                            7%|▋         | 6844/100000 [3:44:32<28:49:42,  1.11s/it]  7%|▋         | 6845/100000 [3:44:33<28:19:26,  1.09s/it]                                                            7%|▋         | 6845/100000 [3:44:33<28:19:26,  1.09s/it]  7%|▋         | 6846/100000 [3:44:34<27:52:46,  1.08s/it]                                                            7%|▋         | 6846/100000 [3:44:34<27:52:46,  1.08s/it]  7%|▋         | 6847/100000 [3:44:35<27:42:03,  1.07s/it]                                                            7%|▋         | 6847/100000 [3:44:35<27:42:03,  1.07s/it]  7%|▋         | 6848/100000 [3:44:36<27:15:24,  1.05s/it]                                                            7%|▋         | 6848/100000 [3:44:36<27:15:24,  1.05s/it]  7%|▋         | 6849/100000 [3:44:37<26:34:22,  1.03s/it]                                                            7%|▋         | 6849/100000 [3:44:37<26:34:22,  1.03s/it]  7%|▋         | 6850/100000 [3:44:38<26:06:16,  1.01s/it]                                                            7%|▋         | 6850/100000 [3:44:38<26:06:16,  1.01s/it]  7%|▋         | 6851/100000 [3:44:39<25:39:04,  1.01it/s]                                                            7%|▋         | 6851/100000 [3:44:39<25:39:04,  1.01it/s]  7%|▋         | 6852/100000 [3:44:40<25:12:32,  1.03it/s]                                                            7%|▋         | 6852/100000 [3:44:40<25:12:32,  1.03it/s]  7%|▋         | 6853/100000 [3:44:40<24:48:33,  1.04it/s]                                                            7%|▋         | 6853/100000 [3:44:40<24:48:33,  1.04it/s]  7%|▋         | 6854/100000 [3:44:41<24:09:55,  1.07it/s]                                                            7%|▋         | 6854/100000 [3:44:41<24:09:55,  1.07it/s]  7%|▋         | 6855/100000 [3:44:53<111:02:58,  4.29s/it]                                                             7%|▋         | 6855/100000 [3:44:53<111:02:58,  4.29s/it]  7%|▋         | 6856/100000 [3:44:59<119:50:56,  4.63s/it]                                                             7%|▋         | 6856/100000 [3:44:59<119:50:56,  4.63s/it]  7%|▋         | 6857/100000 [3:45:04<120:18:03,  4.65s/it]                                                             7%|▋         | 6857/100000 [3:45:04<120:18:03,  4.65s/it]  7%|▋         | 6858/100000 [3:45:08<115:16:06,  4.46s/it]                                                             7%|▋         | 6858/100000 [3:45:08<115:16:06,  4.46s/it]  7%|▋         | 6859/100000 [3:45:11<107:53:01,  4.17s/it]                                                             7%|▋         | 6859/100000 [3:45:11<107:53:01,  4.17s/it]  7%|▋         | 6860/100000 [3:45:14<98:53:43,  3.82s/it]                                                             7%|▋         | 6860/100000 [3:45:14<98:53:43,  3.82s/it]  7%|▋         | 6861/100000 [3:45:17<90:55:33,  3.51s/it]                                                            7%|▋         | 6861/100000 [3:45:17<90:55:33,  3.51s/it]  7%|▋         | 6862/100000 [3:45:20<84:31:55,  3.27s/it]                                                            7%|▋         | 6862/100000 [3:45:20<84:31:55,  3.27s/it]  7%|▋         | 6863/100000 [3:45:22<78:30:52,  3.03s/it]                                                            7%|▋         | 6863/100000 [3:45:22<78:30:52,  3.03s/it]  7%|▋         | 6864/100000 [3:45:24<73:13:31,  2.83s/it]                                                            7%|▋         | 6864/100000 [3:45:24<73:13:31,  2.83s/it]  7%|▋         | 6865/100000 [3:45:27<68:08:10,  2.63s/it]                                                            7%|▋         | 6865/100000 [3:45:27<68:08:10,  2.63s/it]  7%|▋         | 6866/100000 [3:45:29<63:19:22,  2.45s/it]                                                            7%|▋         | 6866/100000 [3:45:29<63:19:22,  2.45s/it]  7%|▋         | 6867/100000 [3:45:31<59:20:00,  2.29s/it]                                                            7%|▋         | 6867/100000 [3:45:31<59:20:00,  2.29s/it]  7%|▋         | 6868/100000 [3:45:32<55:32:26,  2.15s/it]                                                            7%|▋         | 6868/100000 [3:45:32<55:32:26,  2.15s/it]  7%|▋         | 6869/100000 [3:45:34<51:54:52,  2.01s/it]                                                            7%|▋         | 6869/100000 [3:45:34<51:54:52,  2.01s/it]  7%|▋         | 6870/100000 [3:45:36<49:17:15,  1.91s/it]                                                            7%|▋         | 6870/100000 [3:45:36<49:17:15,  1.91s/it]  7%|▋         | 6871/100000 [3:45:37<46:51:53,  1.81s/it]                                                            7%|▋         | 6871/100000 [3:45:37<46:51:53,  1.81s/it]  7%|▋         | 6872/100000 [3:45:39<44:49:46,  1.73s/it]                                                            7%|▋         | 6872/100000 [3:45:39<44:49:46,  1.73s/it]  7%|▋         | 6873/100000 [3:45:40<42:45:56,  1.65s/it]                                                            7%|▋         | 6873/100000 [3:45:40<42:45:56,  1.65s/it]  7%|▋         | 6874/100000 [3:45:42<41:22:17,  1.60s/it]                                                            7%|▋         | 6874/100000 [3:45:42<41:22:17,  1.60s/it]  7%|▋         | 6875/100000 [3:45:43<40:13:47,  1.56s/it]                                                            7%|▋         | 6875/100000 [3:45:43<40:13:47,  1.56s/it]  7%|▋         | 6876/100000 [3:45:45<38:56:22,  1.51s/it]                                                            7%|▋         | 6876/100000 [3:45:45<38:56:22,  1.51s/it]  7%|▋         | 6877/100000 [3:45:46<38:09:15,  1.47s/it]                                                            7%|▋         | 6877/100000 [3:45:46<38:09:15,  1.47s/it]  7%|▋         | 6878/100000 [3:45:47<37:10:13,  1.44s/it]                                                            7%|▋         | 6878/100000 [3:45:47<37:10:13,  1.44s/it]  7%|▋         | 6879/100000 [3:45:49<36:35:52,  1.41s/it]                                                            7%|▋         | 6879/100000 [3:45:49<36:35:52,  1.41s/it]  7%|▋         | 6880/100000 [3:45:50<35:44:22,  1.38s/it]                                                            7%|▋         | 6880/100000 [3:45:50<35:44:22,  1.38s/it]  7%|▋         | 6881/100000 [3:45:51<34:50:36,  1.35s/it]                                                            7%|▋         | 6881/100000 [3:45:51<34:50:36,  1.35s/it]  7%|▋         | 6882/100000 [3:45:53<34:20:56,  1.33s/it]                                                            7%|▋         | 6882/100000 [3:45:53<34:20:56,  1.33s/it]  7%|▋         | 6883/100000 [3:45:54<33:55:04,  1.31s/it]                                                            7%|▋         | 6883/100000 [3:45:54<33:55:04,  1.31s/it]  7%|▋         | 6884/100000 [3:45:55<33:16:11,  1.29s/it]                                                            7%|▋         | 6884/100000 [3:45:55<33:16:11,  1.29s/it]  7%|▋         | 6885/100000 [3:45:56<32:50:34,  1.27s/it]                                                            7%|▋         | 6885/100000 [3:45:56<32:50:34,  1.27s/it]  7%|▋         | 6886/100000 [3:45:58<32:31:13,  1.26s/it]                                                            7%|▋         | 6886/100000 [3:45:58<32:31:13,  1.26s/it]  7%|▋         | 6887/100000 [3:45:59<32:12:29,  1.25s/it]                                                            7%|▋         | 6887/100000 [3:45:59<32:12:29,  1.25s/it]  7%|▋         | 6888/100000 [3:46:00<31:35:59,  1.22s/it]                                                            7%|▋         | 6888/100000 [3:46:00<31:35:59,  1.22s/it]  7%|▋         | 6889/100000 [3:46:01<31:07:12,  1.20s/it]                                                            7%|▋         | 6889/100000 [3:46:01<31:07:12,  1.20s/it]  7%|▋         | 6890/100000 [3:46:02<30:29:20,  1.18s/it]                                                            7%|▋         | 6890/100000 [3:46:02<30:29:20,  1.18s/it]  7%|▋         | 6891/100000 [3:46:03<29:57:31,  1.16s/it]                                                            7%|▋         | 6891/100000 [3:46:03<29:57:31,  1.16s/it]  7%|▋         | 6892/100000 [3:46:04<29:33:19,  1.14s/it]                                                            7%|▋         | 6892/100000 [3:46:04<29:33:19,  1.14s/it]  7%|▋         | 6893/100000 [3:46:06<29:14:47,  1.13s/it]                                                            7%|▋         | 6893/100000 [3:46:06<29:14:47,  1.13s/it]  7%|▋         | 6894/100000 [3:46:07<28:58:58,  1.12s/it]                                                            7%|▋         | 6894/100000 [3:46:07<28:58:58,  1.12s/it]  7%|▋         | 6895/100000 [3:46:08<28:52:00,  1.12s/it]                                                            7%|▋         | 6895/100000 [3:46:08<28:52:00,  1.12s/it]  7%|▋         | 6896/100000 [3:46:09<28:28:23,  1.10s/it]                                                            7%|▋         | 6896/100000 [3:46:09<28:28:23,  1.10s/it]  7%|▋         | 6897/100000 [3:46:10<28:00:46,  1.08s/it]                                                            7%|▋         | 6897/100000 [3:46:10<28:00:46,  1.08s/it]  7%|▋         | 6898/100000 [3:46:11<27:40:12,  1.07s/it]                                                            7%|▋         | 6898/100000 [3:46:11<27:40:12,  1.07s/it]  7%|▋         | 6899/100000 [3:46:12<27:06:48,  1.05s/it]                                                            7%|▋         | 6899/100000 [3:46:12<27:06:48,  1.05s/it]  7%|▋         | 6900/100000 [3:46:13<26:41:06,  1.03s/it]                                                            7%|▋         | 6900/100000 [3:46:13<26:41:06,  1.03s/it]  7%|▋         | 6901/100000 [3:46:14<26:04:20,  1.01s/it]                                                            7%|▋         | 6901/100000 [3:46:14<26:04:20,  1.01s/it]  7%|▋         | 6902/100000 [3:46:15<25:25:13,  1.02it/s]                                                            7%|▋         | 6902/100000 [3:46:15<25:25:13,  1.02it/s]  7%|▋         | 6903/100000 [3:46:16<24:42:21,  1.05it/s]                                                            7%|▋         | 6903/100000 [3:46:16<24:42:21,  1.05it/s]  7%|▋         | 6904/100000 [3:46:17<24:07:03,  1.07it/s]                                                            7%|▋         | 6904/100000 [3:46:17<24:07:03,  1.07it/s]  7%|▋         | 6905/100000 [3:46:28<106:31:19,  4.12s/it]                                                             7%|▋         | 6905/100000 [3:46:28<106:31:19,  4.12s/it]  7%|▋         | 6906/100000 [3:46:34<120:53:52,  4.68s/it]                                                             7%|▋         | 6906/100000 [3:46:34<120:53:52,  4.68s/it]  7%|▋         | 6907/100000 [3:46:39<121:53:01,  4.71s/it]                                                             7%|▋         | 6907/100000 [3:46:39<121:53:01,  4.71s/it]  7%|▋         | 6908/100000 [3:46:43<116:52:16,  4.52s/it]                                                             7%|▋         | 6908/100000 [3:46:43<116:52:16,  4.52s/it]  7%|▋         | 6909/100000 [3:46:47<109:37:28,  4.24s/it]                                                             7%|▋         | 6909/100000 [3:46:47<109:37:28,  4.24s/it]  7%|▋         | 6910/100000 [3:46:50<102:33:33,  3.97s/it]                                                             7%|▋         | 6910/100000 [3:46:50<102:33:33,  3.97s/it]  7%|▋         | 6911/100000 [3:46:53<93:48:37,  3.63s/it]                                                             7%|▋         | 6911/100000 [3:46:53<93:48:37,  3.63s/it]  7%|▋         | 6912/100000 [3:46:55<86:14:49,  3.34s/it]                                                            7%|▋         | 6912/100000 [3:46:55<86:14:49,  3.34s/it]  7%|▋         | 6913/100000 [3:46:58<79:23:02,  3.07s/it]                                                            7%|▋         | 6913/100000 [3:46:58<79:23:02,  3.07s/it]  7%|▋         | 6914/100000 [3:47:00<73:24:22,  2.84s/it]                                                            7%|▋         | 6914/100000 [3:47:00<73:24:22,  2.84s/it]  7%|▋         | 6915/100000 [3:47:02<68:06:16,  2.63s/it]                                                            7%|▋         | 6915/100000 [3:47:02<68:06:16,  2.63s/it]  7%|▋         | 6916/100000 [3:47:04<62:55:20,  2.43s/it]                                                            7%|▋         | 6916/100000 [3:47:04<62:55:20,  2.43s/it]  7%|▋         | 6917/100000 [3:47:06<58:48:10,  2.27s/it]                                                            7%|▋         | 6917/100000 [3:47:06<58:48:10,  2.27s/it]  7%|▋         | 6918/100000 [3:47:08<55:07:52,  2.13s/it]                                                            7%|▋         | 6918/100000 [3:47:08<55:07:52,  2.13s/it]  7%|▋         | 6919/100000 [3:47:10<52:03:19,  2.01s/it]                                                            7%|▋         | 6919/100000 [3:47:10<52:03:19,  2.01s/it]  7%|▋         | 6920/100000 [3:47:11<48:54:12,  1.89s/it]                                                            7%|▋         | 6920/100000 [3:47:11<48:54:12,  1.89s/it]  7%|▋         | 6921/100000 [3:47:13<46:47:05,  1.81s/it]                                                          {'loss': 0.0112, 'grad_norm': 0.31467726826667786, 'learning_rate': 2.0505e-05, 'epoch': 12.62}
+{'loss': 0.0175, 'grad_norm': 0.3031906485557556, 'learning_rate': 2.0508e-05, 'epoch': 12.62}
+{'loss': 0.0116, 'grad_norm': 0.5624115467071533, 'learning_rate': 2.0511e-05, 'epoch': 12.62}
+{'loss': 0.015, 'grad_norm': 0.6537050008773804, 'learning_rate': 2.0514e-05, 'epoch': 12.62}
+{'loss': 0.0222, 'grad_norm': 0.8279240727424622, 'learning_rate': 2.0517e-05, 'epoch': 12.62}
+{'loss': 0.0225, 'grad_norm': 0.6681758761405945, 'learning_rate': 2.0520000000000003e-05, 'epoch': 12.63}
+{'loss': 0.0287, 'grad_norm': 0.6742988228797913, 'learning_rate': 2.0523000000000003e-05, 'epoch': 12.63}
+{'loss': 0.0173, 'grad_norm': 0.3357849717140198, 'learning_rate': 2.0526000000000003e-05, 'epoch': 12.63}
+{'loss': 0.0165, 'grad_norm': 0.5499638915061951, 'learning_rate': 2.0529e-05, 'epoch': 12.63}
+{'loss': 0.0148, 'grad_norm': 0.4188133776187897, 'learning_rate': 2.0532e-05, 'epoch': 12.63}
+{'loss': 0.0307, 'grad_norm': 0.7594406008720398, 'learning_rate': 2.0535e-05, 'epoch': 12.64}
+{'loss': 0.0342, 'grad_norm': 0.7319937348365784, 'learning_rate': 2.0538e-05, 'epoch': 12.64}
+{'loss': 0.0176, 'grad_norm': 0.6182621717453003, 'learning_rate': 2.0541e-05, 'epoch': 12.64}
+{'loss': 0.0197, 'grad_norm': 0.4317701756954193, 'learning_rate': 2.0544e-05, 'epoch': 12.64}
+{'loss': 0.0304, 'grad_norm': 0.9269976615905762, 'learning_rate': 2.0546999999999998e-05, 'epoch': 12.64}
+{'loss': 0.0223, 'grad_norm': 0.6142908930778503, 'learning_rate': 2.055e-05, 'epoch': 12.64}
+{'loss': 0.0243, 'grad_norm': 1.2634549140930176, 'learning_rate': 2.0553e-05, 'epoch': 12.65}
+{'loss': 0.2272, 'grad_norm': 0.7594727873802185, 'learning_rate': 2.0556e-05, 'epoch': 12.65}
+{'loss': 0.2132, 'grad_norm': 0.7709804177284241, 'learning_rate': 2.0559e-05, 'epoch': 12.65}
+{'loss': 0.1399, 'grad_norm': 0.6140466928482056, 'learning_rate': 2.0562e-05, 'epoch': 12.65}
+{'loss': 0.1812, 'grad_norm': 0.6246731877326965, 'learning_rate': 2.0565e-05, 'epoch': 12.65}
+{'loss': 0.1882, 'grad_norm': 1.0530415773391724, 'learning_rate': 2.0568e-05, 'epoch': 12.66}
+{'loss': 0.0938, 'grad_norm': 0.48276087641716003, 'learning_rate': 2.0571e-05, 'epoch': 12.66}
+{'loss': 0.1123, 'grad_norm': 0.5793479681015015, 'learning_rate': 2.0574e-05, 'epoch': 12.66}
+{'loss': 0.1138, 'grad_norm': 0.8910770416259766, 'learning_rate': 2.0577e-05, 'epoch': 12.66}
+{'loss': 0.0824, 'grad_norm': 0.6055312752723694, 'learning_rate': 2.0580000000000003e-05, 'epoch': 12.66}
+{'loss': 0.1224, 'grad_norm': 0.6477535963058472, 'learning_rate': 2.0583000000000003e-05, 'epoch': 12.66}
+{'loss': 0.0543, 'grad_norm': 0.44331997632980347, 'learning_rate': 2.0586000000000002e-05, 'epoch': 12.67}
+{'loss': 0.0554, 'grad_norm': 0.6174275875091553, 'learning_rate': 2.0589000000000002e-05, 'epoch': 12.67}
+{'loss': 0.0414, 'grad_norm': 0.5855109691619873, 'learning_rate': 2.0592000000000002e-05, 'epoch': 12.67}
+{'loss': 0.0647, 'grad_norm': 0.666130542755127, 'learning_rate': 2.0595000000000002e-05, 'epoch': 12.67}
+{'loss': 0.0468, 'grad_norm': 0.5880280137062073, 'learning_rate': 2.0598e-05, 'epoch': 12.67}
+{'loss': 0.0756, 'grad_norm': 0.3871926963329315, 'learning_rate': 2.0601e-05, 'epoch': 12.68}
+{'loss': 0.0349, 'grad_norm': 0.45748671889305115, 'learning_rate': 2.0603999999999998e-05, 'epoch': 12.68}
+{'loss': 0.0257, 'grad_norm': 0.37007564306259155, 'learning_rate': 2.0606999999999998e-05, 'epoch': 12.68}
+{'loss': 0.0196, 'grad_norm': 0.5523969531059265, 'learning_rate': 2.061e-05, 'epoch': 12.68}
+{'loss': 0.0339, 'grad_norm': 0.5408273339271545, 'learning_rate': 2.0613e-05, 'epoch': 12.68}
+{'loss': 0.0147, 'grad_norm': 0.42680907249450684, 'learning_rate': 2.0616e-05, 'epoch': 12.69}
+{'loss': 0.0205, 'grad_norm': 0.4050646424293518, 'learning_rate': 2.0619e-05, 'epoch': 12.69}
+{'loss': 0.0152, 'grad_norm': 0.3192436695098877, 'learning_rate': 2.0622e-05, 'epoch': 12.69}
+{'loss': 0.0176, 'grad_norm': 0.49936342239379883, 'learning_rate': 2.0625e-05, 'epoch': 12.69}
+{'loss': 0.0192, 'grad_norm': 0.3989526331424713, 'learning_rate': 2.0628e-05, 'epoch': 12.69}
+{'loss': 0.0197, 'grad_norm': 0.46741893887519836, 'learning_rate': 2.0631e-05, 'epoch': 12.69}
+{'loss': 0.0128, 'grad_norm': 0.3675607740879059, 'learning_rate': 2.0634e-05, 'epoch': 12.7}
+{'loss': 0.0245, 'grad_norm': 0.48503541946411133, 'learning_rate': 2.0637e-05, 'epoch': 12.7}
+{'loss': 0.0165, 'grad_norm': 0.6410048007965088, 'learning_rate': 2.064e-05, 'epoch': 12.7}
+{'loss': 0.0239, 'grad_norm': 0.6283408999443054, 'learning_rate': 2.0643000000000002e-05, 'epoch': 12.7}
+{'loss': 0.028, 'grad_norm': 0.49065521359443665, 'learning_rate': 2.0646000000000002e-05, 'epoch': 12.7}
+{'loss': 0.0219, 'grad_norm': 0.47825199365615845, 'learning_rate': 2.0649e-05, 'epoch': 12.71}
+{'loss': 0.0195, 'grad_norm': 2.441694736480713, 'learning_rate': 2.0652e-05, 'epoch': 12.71}
+{'loss': 0.0298, 'grad_norm': 0.7367351651191711, 'learning_rate': 2.0655e-05, 'epoch': 12.71}
+{'loss': 0.018, 'grad_norm': 0.46378958225250244, 'learning_rate': 2.0658e-05, 'epoch': 12.71}
+{'loss': 0.02, 'grad_norm': 0.43975552916526794, 'learning_rate': 2.0661e-05, 'epoch': 12.71}
+{'loss': 0.0221, 'grad_norm': 0.5574910640716553, 'learning_rate': 2.0664e-05, 'epoch': 12.71}
+{'loss': 0.0153, 'grad_norm': 0.459857314825058, 'learning_rate': 2.0667e-05, 'epoch': 12.72}
+{'loss': 0.0166, 'grad_norm': 0.4340030550956726, 'learning_rate': 2.067e-05, 'epoch': 12.72}
+{'loss': 0.0214, 'grad_norm': 0.8469353914260864, 'learning_rate': 2.0673000000000003e-05, 'epoch': 12.72}
+{'loss': 0.022, 'grad_norm': 0.48159655928611755, 'learning_rate': 2.0676e-05, 'epoch': 12.72}
+{'loss': 0.0298, 'grad_norm': 1.0634124279022217, 'learning_rate': 2.0679e-05, 'epoch': 12.72}
+{'loss': 0.0136, 'grad_norm': 0.3850836157798767, 'learning_rate': 2.0682e-05, 'epoch': 12.73}
+{'loss': 0.0265, 'grad_norm': 0.5385677814483643, 'learning_rate': 2.0685e-05, 'epoch': 12.73}
+{'loss': 0.0128, 'grad_norm': 0.7085365653038025, 'learning_rate': 2.0688e-05, 'epoch': 12.73}
+{'loss': 0.0233, 'grad_norm': 0.5235032439231873, 'learning_rate': 2.0691e-05, 'epoch': 12.73}
+{'loss': 0.0154, 'grad_norm': 0.6124913096427917, 'learning_rate': 2.0694e-05, 'epoch': 12.73}
+{'loss': 0.0184, 'grad_norm': 0.4355025291442871, 'learning_rate': 2.0697e-05, 'epoch': 12.73}
+{'loss': 0.0301, 'grad_norm': 0.6916985511779785, 'learning_rate': 2.07e-05, 'epoch': 12.74}
+{'loss': 0.0351, 'grad_norm': 0.7459660768508911, 'learning_rate': 2.0703e-05, 'epoch': 12.74}
+{'loss': 0.206, 'grad_norm': 0.7205683588981628, 'learning_rate': 2.0706e-05, 'epoch': 12.74}
+{'loss': 0.2021, 'grad_norm': 1.1066662073135376, 'learning_rate': 2.0709e-05, 'epoch': 12.74}
+{'loss': 0.2561, 'grad_norm': 0.7279828190803528, 'learning_rate': 2.0712e-05, 'epoch': 12.74}
+{'loss': 0.121, 'grad_norm': 0.4925101101398468, 'learning_rate': 2.0715e-05, 'epoch': 12.75}
+{'loss': 0.1928, 'grad_norm': 0.7707668542861938, 'learning_rate': 2.0718e-05, 'epoch': 12.75}
+{'loss': 0.1554, 'grad_norm': 0.7203795313835144, 'learning_rate': 2.0721e-05, 'epoch': 12.75}
+{'loss': 0.1218, 'grad_norm': 0.5161910653114319, 'learning_rate': 2.0724e-05, 'epoch': 12.75}
+{'loss': 0.0966, 'grad_norm': 0.6372627019882202, 'learning_rate': 2.0727e-05, 'epoch': 12.75}
+{'loss': 0.0698, 'grad_norm': 0.4801217019557953, 'learning_rate': 2.073e-05, 'epoch': 12.76}
+{'loss': 0.0823, 'grad_norm': 0.4829772710800171, 'learning_rate': 2.0733000000000003e-05, 'epoch': 12.76}
+{'loss': 0.0433, 'grad_norm': 0.41738224029541016, 'learning_rate': 2.0736000000000003e-05, 'epoch': 12.76}
+{'loss': 0.0618, 'grad_norm': 0.7026256322860718, 'learning_rate': 2.0739000000000003e-05, 'epoch': 12.76}
+{'loss': 0.1348, 'grad_norm': 0.8881515860557556, 'learning_rate': 2.0742000000000002e-05, 'epoch': 12.76}
+{'loss': 0.0435, 'grad_norm': 0.6656627655029297, 'learning_rate': 2.0745000000000002e-05, 'epoch': 12.76}
+{'loss': 0.0728, 'grad_norm': 0.6259805560112, 'learning_rate': 2.0748000000000002e-05, 'epoch': 12.77}
+{'loss': 0.0545, 'grad_norm': 0.7157806754112244, 'learning_rate': 2.0751e-05, 'epoch': 12.77}
+  7%|▋         | 6921/100000 [3:47:13<46:47:05,  1.81s/it]  7%|▋         | 6922/100000 [3:47:14<44:45:45,  1.73s/it]                                                            7%|▋         | 6922/100000 [3:47:14<44:45:45,  1.73s/it]  7%|▋         | 6923/100000 [3:47:16<43:13:48,  1.67s/it]                                                            7%|▋         | 6923/100000 [3:47:16<43:13:48,  1.67s/it]  7%|▋         | 6924/100000 [3:47:17<41:43:42,  1.61s/it]                                                            7%|▋         | 6924/100000 [3:47:17<41:43:42,  1.61s/it]  7%|▋         | 6925/100000 [3:47:19<40:06:57,  1.55s/it]                                                            7%|▋         | 6925/100000 [3:47:19<40:06:57,  1.55s/it]  7%|▋         | 6926/100000 [3:47:20<38:44:46,  1.50s/it]                                                            7%|▋         | 6926/100000 [3:47:20<38:44:46,  1.50s/it]  7%|▋         | 6927/100000 [3:47:22<37:41:30,  1.46s/it]                                                            7%|▋         | 6927/100000 [3:47:22<37:41:30,  1.46s/it]  7%|▋         | 6928/100000 [3:47:23<37:06:34,  1.44s/it]                                                            7%|▋         | 6928/100000 [3:47:23<37:06:34,  1.44s/it]  7%|▋         | 6929/100000 [3:47:24<36:29:40,  1.41s/it]                                                            7%|▋         | 6929/100000 [3:47:24<36:29:40,  1.41s/it]  7%|▋         | 6930/100000 [3:47:26<35:59:52,  1.39s/it]                                                            7%|▋         | 6930/100000 [3:47:26<35:59:52,  1.39s/it]  7%|▋         | 6931/100000 [3:47:27<35:00:31,  1.35s/it]                                                            7%|▋         | 6931/100000 [3:47:27<35:00:31,  1.35s/it]  7%|▋         | 6932/100000 [3:47:28<34:28:24,  1.33s/it]                                                            7%|▋         | 6932/100000 [3:47:28<34:28:24,  1.33s/it]  7%|▋         | 6933/100000 [3:47:30<34:15:35,  1.33s/it]                                                            7%|▋         | 6933/100000 [3:47:30<34:15:35,  1.33s/it]  7%|▋         | 6934/100000 [3:47:31<33:40:15,  1.30s/it]                                                            7%|▋         | 6934/100000 [3:47:31<33:40:15,  1.30s/it]  7%|▋         | 6935/100000 [3:47:32<33:19:37,  1.29s/it]                                                            7%|▋         | 6935/100000 [3:47:32<33:19:37,  1.29s/it]  7%|▋         | 6936/100000 [3:47:33<32:56:32,  1.27s/it]                                                            7%|▋         | 6936/100000 [3:47:33<32:56:32,  1.27s/it]  7%|▋         | 6937/100000 [3:47:35<32:33:04,  1.26s/it]                                                            7%|▋         | 6937/100000 [3:47:35<32:33:04,  1.26s/it]  7%|▋         | 6938/100000 [3:47:36<31:51:16,  1.23s/it]                                                            7%|▋         | 6938/100000 [3:47:36<31:51:16,  1.23s/it]  7%|▋         | 6939/100000 [3:47:37<31:18:05,  1.21s/it]                                                            7%|▋         | 6939/100000 [3:47:37<31:18:05,  1.21s/it]  7%|▋         | 6940/100000 [3:47:38<30:33:58,  1.18s/it]                                                            7%|▋         | 6940/100000 [3:47:38<30:33:58,  1.18s/it]  7%|▋         | 6941/100000 [3:47:39<30:17:10,  1.17s/it]                                                            7%|▋         | 6941/100000 [3:47:39<30:17:10,  1.17s/it]  7%|▋         | 6942/100000 [3:47:40<29:52:11,  1.16s/it]                                                            7%|▋         | 6942/100000 [3:47:40<29:52:11,  1.16s/it]  7%|▋         | 6943/100000 [3:47:41<29:08:37,  1.13s/it]                                                            7%|▋         | 6943/100000 [3:47:41<29:08:37,  1.13s/it]  7%|▋         | 6944/100000 [3:47:42<28:39:33,  1.11s/it]                                                            7%|▋         | 6944/100000 [3:47:42<28:39:33,  1.11s/it]  7%|▋         | 6945/100000 [3:47:43<28:05:02,  1.09s/it]                                                            7%|▋         | 6945/100000 [3:47:43<28:05:02,  1.09s/it]  7%|▋         | 6946/100000 [3:47:44<27:52:44,  1.08s/it]                                                            7%|▋         | 6946/100000 [3:47:44<27:52:44,  1.08s/it]  7%|▋         | 6947/100000 [3:47:45<27:13:04,  1.05s/it]                                                            7%|▋         | 6947/100000 [3:47:45<27:13:04,  1.05s/it]  7%|▋         | 6948/100000 [3:47:46<27:00:17,  1.04s/it]                                                            7%|▋         | 6948/100000 [3:47:46<27:00:17,  1.04s/it]  7%|▋         | 6949/100000 [3:47:47<26:21:03,  1.02s/it]                                                            7%|▋         | 6949/100000 [3:47:47<26:21:03,  1.02s/it]  7%|▋         | 6950/100000 [3:47:48<25:57:05,  1.00s/it]                                                            7%|▋         | 6950/100000 [3:47:48<25:57:05,  1.00s/it]  7%|▋         | 6951/100000 [3:47:49<25:24:03,  1.02it/s]                                                            7%|▋         | 6951/100000 [3:47:49<25:24:03,  1.02it/s]  7%|▋         | 6952/100000 [3:47:50<24:57:23,  1.04it/s]                                                            7%|▋         | 6952/100000 [3:47:50<24:57:23,  1.04it/s]  7%|▋         | 6953/100000 [3:47:51<24:39:51,  1.05it/s]                                                            7%|▋         | 6953/100000 [3:47:51<24:39:51,  1.05it/s]  7%|▋         | 6954/100000 [3:47:52<24:14:54,  1.07it/s]                                                            7%|▋         | 6954/100000 [3:47:52<24:14:54,  1.07it/s]  7%|▋         | 6955/100000 [3:48:04<109:51:03,  4.25s/it]                                                             7%|▋         | 6955/100000 [3:48:04<109:51:03,  4.25s/it]  7%|▋         | 6956/100000 [3:48:10<120:08:41,  4.65s/it]                                                             7%|▋         | 6956/100000 [3:48:10<120:08:41,  4.65s/it]  7%|▋         | 6957/100000 [3:48:14<121:34:18,  4.70s/it]                                                             7%|▋         | 6957/100000 [3:48:14<121:34:18,  4.70s/it]  7%|▋         | 6958/100000 [3:48:19<117:05:17,  4.53s/it]                                                             7%|▋         | 6958/100000 [3:48:19<117:05:17,  4.53s/it]  7%|▋         | 6959/100000 [3:48:22<110:35:19,  4.28s/it]                                                             7%|▋         | 6959/100000 [3:48:22<110:35:19,  4.28s/it]  7%|▋         | 6960/100000 [3:48:26<103:03:23,  3.99s/it]                                                             7%|▋         | 6960/100000 [3:48:26<103:03:23,  3.99s/it]  7%|▋         | 6961/100000 [3:48:29<96:07:01,  3.72s/it]                                                             7%|▋         | 6961/100000 [3:48:29<96:07:01,  3.72s/it]  7%|▋         | 6962/100000 [3:48:32<89:22:31,  3.46s/it]                                                            7%|▋         | 6962/100000 [3:48:32<89:22:31,  3.46s/it]  7%|▋         | 6963/100000 [3:48:34<82:40:05,  3.20s/it]                                                            7%|▋         | 6963/100000 [3:48:34<82:40:05,  3.20s/it]  7%|▋         | 6964/100000 [3:48:36<76:00:21,  2.94s/it]                                                            7%|▋         | 6964/100000 [3:48:36<76:00:21,  2.94s/it]  7%|▋         | 6965/100000 [3:48:39<70:49:19,  2.74s/it]                                                            7%|▋         | 6965/100000 [3:48:39<70:49:19,  2.74s/it]  7%|▋         | 6966/100000 [3:48:41<65:55:58,  2.55s/it]                                                            7%|▋         | 6966/100000 [3:48:41<65:55:58,  2.55s/it]  7%|▋         | 6967/100000 [3:48:43<61:31:40,  2.38s/it]                                                            7%|▋         | 6967/100000 [3:48:43<61:31:40,  2.38s/it]  7%|▋         | 6968/100000 [3:48:45<57:44:47,  2.23s/it]                                                            7%|▋         | 6968/100000 [3:48:45<57:44:47,  2.23s/it]  7%|▋         | 6969/100000 [3:48:46<54:08:54,  2.10s/it]                                                            7%|▋         | 6969/100000 [3:48:46<54:08:54,  2.10s/it]  7%|▋         | 6970/100000 [3:48:48<51:01:22,  1.97s/it]                                                            7%|▋         | 6970/100000 [3:48:48<51:01:22,  1.97s/it]  7%|▋         | 6971/100000 [3:48:50<47:55:31,  1.85s/it]                                                            7%|▋         | 6971/100000 [3:48:50<47:55:31,  1.85s/it]  7%|▋         | 6972/100000 [3:48:51<45:51:43,  1.77s/it]                                                            7%|▋         | 6972/100000 [3:48:51<45:51:43,  1.77s/it]  7%|▋         | 6973/100000 [3:48:53<43:54:27,  1.70s/it]                                                            7%|▋         | 6973/100000 [3:48:53<43:54:27,  1.70s/it]  7%|▋         | 6974/100000 [3:48:54<42:01:14,  1.63s/it]                                                            7%|▋         | 6974/100000 [3:48:54<42:01:14,  1.63s/it]  7%|▋         | 6975/100000 [3:48:56<40:38:03,  1.57s/it]                                                            7%|▋         | 6975/100000 [3:48:56<40:38:03,  1.57s/it]  7%|▋         | 6976/100000 [3:48:57<39:11:54,  1.52s/it]                                                            7%|▋         | 6976/100000 [3:48:57<39:11:54,  1.52s/it]  7%|▋         | 6977/100000 [3:48:59<38:15:45,  1.48s/it]                                                            7%|▋         | 6977/100000 [3:48:59<38:15:45,  1.48s/it]  7%|▋         | 6978/100000 [3:49:00<37:37:49,  1.46s/it]                                                            7%|▋         | 6978/100000 [3:49:00<37:37:49,  1.46s/it]  7%|▋         | 6979/100000 [3:49:01<37:03:59,  1.43s/it]                                                            7%|▋         | 6979/100000 [3:49:01<37:03:59,  1.43s/it]  7%|▋         | 6980/100000 [3:49:03<35:52:14,  1.39s/it]                                                            7%|▋         | 6980/100000 [3:49:03<35:52:14,  1.39s/it]  7%|▋         | 6981/100000 [3:49:04<35:33:58,  1.38s/it]                                                            7%|▋         | 6981/100000 [3:49:04<35:33:58,  1.38s/it]  7%|▋         | 6982/100000 [3:49:05<34:46:27,  1.35s/it]                                                            7%|▋         | 6982/100000 [3:49:05<34:46:27,  1.35s/it]  7%|▋         | 6983/100000 [3:49:07<34:21:06,  1.33s/it]                                                            7%|▋         | 6983/100000 [3:49:07<34:21:06,  1.33s/it]  7%|▋         | 6984/100000 [3:49:08<33:43:23,  1.31s/it]                                                            7%|▋         | 6984/100000 [3:49:08<33:43:23,  1.31s/it]  7%|▋         | 6985/100000 [3:49:09<33:13:39,  1.29s/it]                                                            7%|▋         | 6985/100000 [3:49:09<33:13:39,  1.29s/it]  7%|▋         | 6986/100000 [3:49:10<32:43:29,  1.27s/it]                                                            7%|▋         | 6986/100000 [3:49:10<32:43:29,  1.27s/it]  7%|▋         | 6987/100000 [3:49:11<32:25:50,  1.26s/it]                                                            7%|▋         | 6987/100000 [3:49:11<32:25:50,  1.26s/it]  7%|▋         | 6988/100000 [3:49:13<32:07:55,  1.24s/it]                                                            7%|▋         | 6988/100000 [3:49:13<32:07:55,  1.24s/it]  7%|▋         | 6989/100000 [3:49:14<31:18:26,  1.21s/it]                                                            7%|▋         | 6989/100000 [3:49:14<31:18:26,  1.21s/it]  7%|▋         | 6990/100000 [3:49:15<30:55:32,  1.20s/it]                                                            7%|▋         | 6990/100000 [3:49:15<30:55:32,  1.20s/it]  7%|▋         | 6991/100000 [3:49:16<30:23:10,  1.18s/it]                                                            7%|▋         | 6991/100000 [3:49:16<30:23:10,  1.18s/it]  7%|▋         | 6992/100000 [3:49:17<30:07:27,  1.17s/it]                                                            7%|▋         | 6992/100000 [3:49:17<30:07:27,  1.17s/it]  7%|▋         | 6993/100000 [3:49:18<29:37:26,  1.15s/it]                                                            7%|▋         | 6993/100000 [3:49:18<29:37:26,  1.15s/it]  7%|▋         | 6994/100000 [3:49:19<29:11:26,  1.13s/it]                                                            7%|▋         | 6994/100000 [3:49:19<29:11:26,  1.13s/it]  7%|▋         | 6995/100000 [3:49:21<28:53:04,  1.12s/it]                                                            7%|▋         | 6995/100000 [3:49:21<28:53:04,  1.12s/it]  7%|▋         | 6996/100000 [3:49:22<28:25:22,  1.10s/it]                                                            7%|▋         | 6996/100000 [3:49:22<28:25:22,  1.10s/it]  7%|▋         | 6997/100000 [3:49:23<28:10:14,  1.09s/it]                                                            7%|▋         | 6997/100000 [3:49:23<28:10:14,  1.09s/it]  7%|▋         | 6998/100000 [3:49:24<27:45:21,  1.07s/it]                                                            7%|▋         | 6998/100000 [3:49:24<27:45:21,  1.07s/it]  7%|▋         | 6999/100000 [3:49:25<27:18:31,  1.06s/it]                                                            7%|▋         | 6999/100000 [3:49:25<27:18:31,  1.06s/it]  7%|▋         | 7000/100000 [3:49:26<26:44:18,  1.04s/it]                                                            7%|▋         | 7000/100000 [3:49:26<26:44:18,  1.04s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0329, 'grad_norm': 0.39127853512763977, 'learning_rate': 2.0753999999999998e-05, 'epoch': 12.77}
+{'loss': 0.0205, 'grad_norm': 1.0186903476715088, 'learning_rate': 2.0756999999999998e-05, 'epoch': 12.77}
+{'loss': 0.0323, 'grad_norm': 0.7008572816848755, 'learning_rate': 2.0759999999999998e-05, 'epoch': 12.77}
+{'loss': 0.0316, 'grad_norm': 0.5930014848709106, 'learning_rate': 2.0763e-05, 'epoch': 12.78}
+{'loss': 0.0181, 'grad_norm': 0.3785812258720398, 'learning_rate': 2.0766e-05, 'epoch': 12.78}
+{'loss': 0.0156, 'grad_norm': 0.3636646568775177, 'learning_rate': 2.0769e-05, 'epoch': 12.78}
+{'loss': 0.0301, 'grad_norm': 0.42580145597457886, 'learning_rate': 2.0772e-05, 'epoch': 12.78}
+{'loss': 0.0156, 'grad_norm': 0.23977164924144745, 'learning_rate': 2.0775e-05, 'epoch': 12.78}
+{'loss': 0.021, 'grad_norm': 0.4149671494960785, 'learning_rate': 2.0778e-05, 'epoch': 12.78}
+{'loss': 0.029, 'grad_norm': 0.6454666256904602, 'learning_rate': 2.0781e-05, 'epoch': 12.79}
+{'loss': 0.0257, 'grad_norm': 1.481869101524353, 'learning_rate': 2.0784e-05, 'epoch': 12.79}
+{'loss': 0.0194, 'grad_norm': 0.35012781620025635, 'learning_rate': 2.0787e-05, 'epoch': 12.79}
+{'loss': 0.0232, 'grad_norm': 0.32981836795806885, 'learning_rate': 2.079e-05, 'epoch': 12.79}
+{'loss': 0.0243, 'grad_norm': 0.683250904083252, 'learning_rate': 2.0793000000000002e-05, 'epoch': 12.79}
+{'loss': 0.0142, 'grad_norm': 0.5012224912643433, 'learning_rate': 2.0796000000000002e-05, 'epoch': 12.8}
+{'loss': 0.0624, 'grad_norm': 1.3063740730285645, 'learning_rate': 2.0799000000000002e-05, 'epoch': 12.8}
+{'loss': 0.027, 'grad_norm': 0.4880787134170532, 'learning_rate': 2.0802000000000002e-05, 'epoch': 12.8}
+{'loss': 0.0076, 'grad_norm': 0.23685327172279358, 'learning_rate': 2.0805e-05, 'epoch': 12.8}
+{'loss': 0.0151, 'grad_norm': 0.5517817139625549, 'learning_rate': 2.0808e-05, 'epoch': 12.8}
+{'loss': 0.0151, 'grad_norm': 0.28913408517837524, 'learning_rate': 2.0811e-05, 'epoch': 12.81}
+{'loss': 0.0377, 'grad_norm': 0.5635241866111755, 'learning_rate': 2.0814e-05, 'epoch': 12.81}
+{'loss': 0.0202, 'grad_norm': 0.5010838508605957, 'learning_rate': 2.0817e-05, 'epoch': 12.81}
+{'loss': 0.0138, 'grad_norm': 0.3855663537979126, 'learning_rate': 2.082e-05, 'epoch': 12.81}
+{'loss': 0.0257, 'grad_norm': 0.8619406223297119, 'learning_rate': 2.0823e-05, 'epoch': 12.81}
+{'loss': 0.0166, 'grad_norm': 0.30185648798942566, 'learning_rate': 2.0826e-05, 'epoch': 12.81}
+{'loss': 0.0246, 'grad_norm': 0.6880849003791809, 'learning_rate': 2.0829e-05, 'epoch': 12.82}
+{'loss': 0.0255, 'grad_norm': 0.5926246643066406, 'learning_rate': 2.0832e-05, 'epoch': 12.82}
+{'loss': 0.0137, 'grad_norm': 0.4034042954444885, 'learning_rate': 2.0835e-05, 'epoch': 12.82}
+{'loss': 0.0219, 'grad_norm': 0.7444289326667786, 'learning_rate': 2.0838e-05, 'epoch': 12.82}
+{'loss': 0.0143, 'grad_norm': 0.2735901474952698, 'learning_rate': 2.0841e-05, 'epoch': 12.82}
+{'loss': 0.0129, 'grad_norm': 0.4763954281806946, 'learning_rate': 2.0844e-05, 'epoch': 12.83}
+{'loss': 0.0207, 'grad_norm': 0.7796971797943115, 'learning_rate': 2.0847e-05, 'epoch': 12.83}
+{'loss': 0.034, 'grad_norm': 0.6892587542533875, 'learning_rate': 2.085e-05, 'epoch': 12.83}
+{'loss': 0.0358, 'grad_norm': 2.045210361480713, 'learning_rate': 2.0853000000000002e-05, 'epoch': 12.83}
+{'loss': 0.2097, 'grad_norm': 0.6591195464134216, 'learning_rate': 2.0856e-05, 'epoch': 12.83}
+{'loss': 0.2276, 'grad_norm': 0.7082017660140991, 'learning_rate': 2.0859e-05, 'epoch': 12.83}
+{'loss': 0.1638, 'grad_norm': 0.5350101590156555, 'learning_rate': 2.0862e-05, 'epoch': 12.84}
+{'loss': 0.2066, 'grad_norm': 0.6802604794502258, 'learning_rate': 2.0865e-05, 'epoch': 12.84}
+{'loss': 0.1875, 'grad_norm': 0.9725978970527649, 'learning_rate': 2.0868e-05, 'epoch': 12.84}
+{'loss': 0.1481, 'grad_norm': 0.6738961338996887, 'learning_rate': 2.0871e-05, 'epoch': 12.84}
+{'loss': 0.1173, 'grad_norm': 0.5680983662605286, 'learning_rate': 2.0874e-05, 'epoch': 12.84}
+{'loss': 0.0983, 'grad_norm': 0.45616841316223145, 'learning_rate': 2.0877e-05, 'epoch': 12.85}
+{'loss': 0.1052, 'grad_norm': 0.598066508769989, 'learning_rate': 2.088e-05, 'epoch': 12.85}
+{'loss': 0.1242, 'grad_norm': 1.4628897905349731, 'learning_rate': 2.0883000000000003e-05, 'epoch': 12.85}
+{'loss': 0.0854, 'grad_norm': 0.8236523866653442, 'learning_rate': 2.0886000000000003e-05, 'epoch': 12.85}
+{'loss': 0.0581, 'grad_norm': 0.4810824990272522, 'learning_rate': 2.0889000000000003e-05, 'epoch': 12.85}
+{'loss': 0.0426, 'grad_norm': 0.3711375296115875, 'learning_rate': 2.0892000000000003e-05, 'epoch': 12.86}
+{'loss': 0.051, 'grad_norm': 0.347176730632782, 'learning_rate': 2.0895000000000002e-05, 'epoch': 12.86}
+{'loss': 0.0452, 'grad_norm': 0.33575108647346497, 'learning_rate': 2.0898e-05, 'epoch': 12.86}
+{'loss': 0.0251, 'grad_norm': 0.35422179102897644, 'learning_rate': 2.0901e-05, 'epoch': 12.86}
+{'loss': 0.0274, 'grad_norm': 0.23786962032318115, 'learning_rate': 2.0904e-05, 'epoch': 12.86}
+{'loss': 0.0333, 'grad_norm': 0.4184572696685791, 'learning_rate': 2.0906999999999998e-05, 'epoch': 12.86}
+{'loss': 0.0286, 'grad_norm': 0.3609471023082733, 'learning_rate': 2.0909999999999998e-05, 'epoch': 12.87}
+{'loss': 0.0644, 'grad_norm': 0.7237544655799866, 'learning_rate': 2.0913e-05, 'epoch': 12.87}
+{'loss': 0.0315, 'grad_norm': 0.49987494945526123, 'learning_rate': 2.0916e-05, 'epoch': 12.87}
+{'loss': 0.0161, 'grad_norm': 0.291019082069397, 'learning_rate': 2.0919e-05, 'epoch': 12.87}
+{'loss': 0.0203, 'grad_norm': 0.3615555465221405, 'learning_rate': 2.0922e-05, 'epoch': 12.87}
+{'loss': 0.0171, 'grad_norm': 0.2607676088809967, 'learning_rate': 2.0925e-05, 'epoch': 12.88}
+{'loss': 0.0241, 'grad_norm': 0.30133187770843506, 'learning_rate': 2.0928e-05, 'epoch': 12.88}
+{'loss': 0.0131, 'grad_norm': 0.30178168416023254, 'learning_rate': 2.0931e-05, 'epoch': 12.88}
+{'loss': 0.0171, 'grad_norm': 0.31973060965538025, 'learning_rate': 2.0934e-05, 'epoch': 12.88}
+{'loss': 0.0241, 'grad_norm': 0.4676547348499298, 'learning_rate': 2.0937e-05, 'epoch': 12.88}
+{'loss': 0.0262, 'grad_norm': 0.49283716082572937, 'learning_rate': 2.094e-05, 'epoch': 12.88}
+{'loss': 0.0193, 'grad_norm': 0.651775062084198, 'learning_rate': 2.0943000000000003e-05, 'epoch': 12.89}
+{'loss': 0.0168, 'grad_norm': 0.41634607315063477, 'learning_rate': 2.0946000000000002e-05, 'epoch': 12.89}
+{'loss': 0.019, 'grad_norm': 0.4039091169834137, 'learning_rate': 2.0949000000000002e-05, 'epoch': 12.89}
+{'loss': 0.0301, 'grad_norm': 0.8984862565994263, 'learning_rate': 2.0952000000000002e-05, 'epoch': 12.89}
+{'loss': 0.0124, 'grad_norm': 0.3584153950214386, 'learning_rate': 2.0955000000000002e-05, 'epoch': 12.89}
+{'loss': 0.0133, 'grad_norm': 0.27817732095718384, 'learning_rate': 2.0958e-05, 'epoch': 12.9}
+{'loss': 0.0254, 'grad_norm': 0.5320377945899963, 'learning_rate': 2.0961e-05, 'epoch': 12.9}
+{'loss': 0.0121, 'grad_norm': 0.3643032908439636, 'learning_rate': 2.0964e-05, 'epoch': 12.9}
+{'loss': 0.035, 'grad_norm': 0.5568037033081055, 'learning_rate': 2.0967e-05, 'epoch': 12.9}
+{'loss': 0.0108, 'grad_norm': 0.30891767144203186, 'learning_rate': 2.097e-05, 'epoch': 12.9}
+{'loss': 0.0205, 'grad_norm': 0.7795283794403076, 'learning_rate': 2.0973e-05, 'epoch': 12.9}
+{'loss': 0.0161, 'grad_norm': 0.4496384561061859, 'learning_rate': 2.0976e-05, 'epoch': 12.91}
+{'loss': 0.0177, 'grad_norm': 0.37556585669517517, 'learning_rate': 2.0979e-05, 'epoch': 12.91}
+{'loss': 0.028, 'grad_norm': 0.6202804446220398, 'learning_rate': 2.0982e-05, 'epoch': 12.91}
+{'loss': 0.0165, 'grad_norm': 0.3959607183933258, 'learning_rate': 2.0985e-05, 'epoch': 12.91}
+{'loss': 0.0333, 'grad_norm': 0.8058693408966064, 'learning_rate': 2.0988e-05, 'epoch': 12.91}
+{'loss': 0.0162, 'grad_norm': 0.4133374094963074, 'learning_rate': 2.0991e-05, 'epoch': 12.92}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.46it/s][A
+ 30%|███       | 3/10 [00:02<00:05,  1.29it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.47it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.10s/it][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.11it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.06s/it][A
+ 80%|████████  | 8/10 [00:06<00:01,  1.12it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.15s/it][A
+100%|██████████| 10/10 [00:08<00:00,  1.08it/s][A                                                          
+                                               [A  7%|▋         | 7000/100000 [3:49:58<26:44:18,  1.04s/it]
+100%|██████████| 10/10 [00:09<00:00,  1.08it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-7000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-7000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-7000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-7000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-7000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-7000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-7000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-5000] due to args.save_total_limit
+  7%|▋         | 7001/100000 [3:50:13<382:22:40, 14.80s/it]                                                             7%|▋         | 7001/100000 [3:50:13<382:22:40, 14.80s/it]  7%|▋         | 7002/100000 [3:50:14<275:32:18, 10.67s/it]                                                             7%|▋         | 7002/100000 [3:50:14<275:32:18, 10.67s/it]  7%|▋         | 7003/100000 [3:50:15<200:06:13,  7.75s/it]                                                             7%|▋         | 7003/100000 [3:50:15<200:06:13,  7.75s/it]  7%|▋         | 7004/100000 [3:50:15<146:59:40,  5.69s/it]                                                             7%|▋         | 7004/100000 [3:50:15<146:59:40,  5.69s/it]  7%|▋         | 7005/100000 [3:50:26<183:36:27,  7.11s/it]                                                             7%|▋         | 7005/100000 [3:50:26<183:36:27,  7.11s/it]  7%|▋         | 7006/100000 [3:50:31<170:18:46,  6.59s/it]                                                             7%|▋         | 7006/100000 [3:50:31<170:18:46,  6.59s/it]  7%|▋         | 7007/100000 [3:50:36<154:43:25,  5.99s/it]                                                             7%|▋         | 7007/100000 [3:50:36<154:43:25,  5.99s/it]  7%|▋         | 7008/100000 [3:50:40<137:42:42,  5.33s/it]                                                             7%|▋         | 7008/100000 [3:50:40<137:42:42,  5.33s/it]  7%|▋         | 7009/100000 [3:50:43<121:21:54,  4.70s/it]                                                             7%|▋         | 7009/100000 [3:50:43<121:21:54,  4.70s/it]  7%|▋         | 7010/100000 [3:50:46<107:54:52,  4.18s/it]                                                             7%|▋         | 7010/100000 [3:50:46<107:54:52,  4.18s/it]  7%|▋         | 7011/100000 [3:50:49<96:59:34,  3.76s/it]                                                             7%|▋         | 7011/100000 [3:50:49<96:59:34,  3.76s/it]  7%|▋         | 7012/100000 [3:50:51<86:56:50,  3.37s/it]                                                            7%|▋         | 7012/100000 [3:50:51<86:56:50,  3.37s/it]  7%|▋         | 7013/100000 [3:50:53<78:44:50,  3.05s/it]                                                            7%|▋         | 7013/100000 [3:50:53<78:44:50,  3.05s/it]  7%|▋         | 7014/100000 [3:50:55<71:24:24,  2.76s/it]                                                            7%|▋         | 7014/100000 [3:50:55<71:24:24,  2.76s/it]  7%|▋         | 7015/100000 [3:50:57<65:00:50,  2.52s/it]                                                            7%|▋         | 7015/100000 [3:50:57<65:00:50,  2.52s/it]  7%|▋         | 7016/100000 [3:50:59<59:31:23,  2.30s/it]                                                            7%|▋         | 7016/100000 [3:50:59<59:31:23,  2.30s/it]  7%|▋         | 7017/100000 [3:51:01<54:59:05,  2.13s/it]                                                            7%|▋         | 7017/100000 [3:51:01<54:59:05,  2.13s/it]  7%|▋         | 7018/100000 [3:51:03<51:27:05,  1.99s/it]                                                            7%|▋         | 7018/100000 [3:51:03<51:27:05,  1.99s/it]  7%|▋         | 7019/100000 [3:51:04<48:28:35,  1.88s/it]                                                            7%|▋         | 7019/100000 [3:51:04<48:28:35,  1.88s/it]  7%|▋         | 7020/100000 [3:51:06<45:53:01,  1.78s/it]                                                            7%|▋         | 7020/100000 [3:51:06<45:53:01,  1.78s/it]  7%|▋         | 7021/100000 [3:51:07<43:44:10,  1.69s/it]                                                            7%|▋         | 7021/100000 [3:51:07<43:44:10,  1.69s/it]  7%|▋         | 7022/100000 [3:51:09<41:38:09,  1.61s/it]                                                            7%|▋         | 7022/100000 [3:51:09<41:38:09,  1.61s/it]  7%|▋         | 7023/100000 [3:51:10<40:19:57,  1.56s/it]                                                            7%|▋         | 7023/100000 [3:51:10<40:19:57,  1.56s/it]  7%|▋         | 7024/100000 [3:51:12<38:52:25,  1.51s/it]                                                            7%|▋         | 7024/100000 [3:51:12<38:52:25,  1.51s/it]  7%|▋         | 7025/100000 [3:51:13<37:50:23,  1.47s/it]                                                            7%|▋         | 7025/100000 [3:51:13<37:50:23,  1.47s/it]  7%|▋         | 7026/100000 [3:51:14<36:37:21,  1.42s/it]                                                            7%|▋         | 7026/100000 [3:51:14<36:37:21,  1.42s/it]  7%|▋         | 7027/100000 [3:51:16<35:50:42,  1.39s/it]                                                            7%|▋         | 7027/100000 [3:51:16<35:50:42,  1.39s/it]  7%|▋         | 7028/100000 [3:51:17<35:08:30,  1.36s/it]                                                            7%|▋         | 7028/100000 [3:51:17<35:08:30,  1.36s/it]  7%|▋         | 7029/100000 [3:51:18<34:42:11,  1.34s/it]                                                            7%|▋         | 7029/100000 [3:51:18<34:42:11,  1.34s/it]  7%|▋         | 7030/100000 [3:51:19<34:04:55,  1.32s/it]                                                            7%|▋         | 7030/100000 [3:51:19<34:04:55,  1.32s/it]  7%|▋         | 7031/100000 [3:51:21<33:14:27,  1.29s/it]                                                            7%|▋         | 7031/100000 [3:51:21<33:14:27,  1.29s/it]  7%|▋         | 7032/100000 [3:51:22<32:51:13,  1.27s/it]                                                            7%|▋         | 7032/100000 [3:51:22<32:51:13,  1.27s/it]  7%|▋         | 7033/100000 [3:51:23<32:06:01,  1.24s/it]                                                            7%|▋         | 7033/100000 [3:51:23<32:06:01,  1.24s/it]  7%|▋         | 7034/100000 [3:51:24<31:22:14,  1.21s/it]                                                            7%|▋         | 7034/100000 [3:51:24<31:22:14,  1.21s/it]  7%|▋         | 7035/100000 [3:51:25<30:47:38,  1.19s/it]                                                            7%|▋         | 7035/100000 [3:51:25<30:47:38,  1.19s/it]  7%|▋         | 7036/100000 [3:51:26<30:20:05,  1.17s/it]                                                            7%|▋         | 7036/100000 [3:51:26<30:20:05,  1.17s/it]  7%|▋         | 7037/100000 [3:51:28<29:48:23,  1.15s/it]                                                            7%|▋         | 7037/100000 [3:51:28<29:48:23,  1.15s/it]  7%|▋         | 7038/100000 [3:51:29<28:52:58,  1.12s/it]                                                            7%|▋         | 7038/100000 [3:51:29<28:52:58,  1.12s/it]  7%|▋         | 7039/100000 [3:51:30<28:35:14,  1.11s/it]                                                            7%|▋         | 7039/100000 [3:51:30<28:35:14,  1.11s/it]  7%|▋         | 7040/100000 [3:51:31<28:10:47,  1.09s/it]                                                            7%|▋         | 7040/100000 [3:51:31<28:10:47,  1.09s/it]  7%|▋         | 7041/100000 [3:51:32<27:33:32,  1.07s/it]                                                            7%|▋         | 7041/100000 [3:51:32<27:33:32,  1.07s/it]  7%|▋         | 7042/100000 [3:51:33<27:03:20,  1.05s/it]                                                            7%|▋         | 7042/100000 [3:51:33<27:03:20,  1.05s/it]  7%|▋         | 7043/100000 [3:51:34<27:45:54,  1.08s/it]                                                            7%|▋         | 7043/100000 [3:51:34<27:45:54,  1.08s/it]  7%|▋         | 7044/100000 [3:51:35<27:06:28,  1.05s/it]                                                            7%|▋         | 7044/100000 [3:51:35<27:06:28,  1.05s/it]  7%|▋         | 7045/100000 [3:51:36<26:48:17,  1.04s/it]                                                            7%|▋         | 7045/100000 [3:51:36<26:48:17,  1.04s/it]  7%|▋         | 7046/100000 [3:51:37<24:48:42,  1.04it/s]                                                            7%|▋         | 7046/100000 [3:51:37<24:48:42,  1.04it/s]{'eval_loss': 0.3320147395133972, 'eval_wer': 0.3983115886415963, 'eval_cer': 0.11390206599787438, 'eval_runtime': 15.7794, 'eval_samples_per_second': 19.266, 'eval_steps_per_second': 0.634, 'epoch': 12.92}
+{'loss': 0.0181, 'grad_norm': 0.383863627910614, 'learning_rate': 2.0994e-05, 'epoch': 12.92}
+{'loss': 0.0153, 'grad_norm': 0.5668813586235046, 'learning_rate': 2.0997e-05, 'epoch': 12.92}
+{'loss': 0.0214, 'grad_norm': 0.4858815371990204, 'learning_rate': 2.1e-05, 'epoch': 12.92}
+{'loss': 0.0165, 'grad_norm': 0.3549613356590271, 'learning_rate': 2.1003e-05, 'epoch': 12.92}
+{'loss': 0.2249, 'grad_norm': 0.8246420621871948, 'learning_rate': 2.1006000000000002e-05, 'epoch': 12.93}
+{'loss': 0.224, 'grad_norm': 0.8446950316429138, 'learning_rate': 2.1009e-05, 'epoch': 12.93}
+{'loss': 0.1771, 'grad_norm': 0.9744293689727783, 'learning_rate': 2.1012e-05, 'epoch': 12.93}
+{'loss': 0.1285, 'grad_norm': 0.7374587655067444, 'learning_rate': 2.1015e-05, 'epoch': 12.93}
+{'loss': 0.1067, 'grad_norm': 0.9851799607276917, 'learning_rate': 2.1018e-05, 'epoch': 12.93}
+{'loss': 0.1105, 'grad_norm': 0.5872266888618469, 'learning_rate': 2.1021e-05, 'epoch': 12.93}
+{'loss': 0.1388, 'grad_norm': 0.7037659287452698, 'learning_rate': 2.1024e-05, 'epoch': 12.94}
+{'loss': 0.0796, 'grad_norm': 0.7483109831809998, 'learning_rate': 2.1027e-05, 'epoch': 12.94}
+{'loss': 0.0798, 'grad_norm': 0.5599822998046875, 'learning_rate': 2.103e-05, 'epoch': 12.94}
+{'loss': 0.1105, 'grad_norm': 0.5699829459190369, 'learning_rate': 2.1033e-05, 'epoch': 12.94}
+{'loss': 0.0509, 'grad_norm': 0.6335070133209229, 'learning_rate': 2.1036000000000003e-05, 'epoch': 12.94}
+{'loss': 0.0774, 'grad_norm': 0.4124175012111664, 'learning_rate': 2.1039000000000003e-05, 'epoch': 12.95}
+{'loss': 0.035, 'grad_norm': 0.5848485827445984, 'learning_rate': 2.1042000000000003e-05, 'epoch': 12.95}
+{'loss': 0.0339, 'grad_norm': 0.35119831562042236, 'learning_rate': 2.1045e-05, 'epoch': 12.95}
+{'loss': 0.0242, 'grad_norm': 0.38088950514793396, 'learning_rate': 2.1048e-05, 'epoch': 12.95}
+{'loss': 0.0179, 'grad_norm': 0.2906529903411865, 'learning_rate': 2.1051e-05, 'epoch': 12.95}
+{'loss': 0.0201, 'grad_norm': 0.25520816445350647, 'learning_rate': 2.1054e-05, 'epoch': 12.95}
+{'loss': 0.0407, 'grad_norm': 0.8681545257568359, 'learning_rate': 2.1057e-05, 'epoch': 12.96}
+{'loss': 0.0216, 'grad_norm': 0.6451759934425354, 'learning_rate': 2.1059999999999998e-05, 'epoch': 12.96}
+{'loss': 0.0137, 'grad_norm': 0.24663574993610382, 'learning_rate': 2.1062999999999998e-05, 'epoch': 12.96}
+{'loss': 0.0271, 'grad_norm': 0.44320282340049744, 'learning_rate': 2.1066e-05, 'epoch': 12.96}
+{'loss': 0.0374, 'grad_norm': 0.673911988735199, 'learning_rate': 2.1069e-05, 'epoch': 12.96}
+{'loss': 0.0093, 'grad_norm': 0.3014264702796936, 'learning_rate': 2.1072e-05, 'epoch': 12.97}
+{'loss': 0.0301, 'grad_norm': 0.35082635283470154, 'learning_rate': 2.1075e-05, 'epoch': 12.97}
+{'loss': 0.0239, 'grad_norm': 0.41949841380119324, 'learning_rate': 2.1078e-05, 'epoch': 12.97}
+{'loss': 0.0199, 'grad_norm': 0.42678096890449524, 'learning_rate': 2.1081e-05, 'epoch': 12.97}
+{'loss': 0.0106, 'grad_norm': 0.36272698640823364, 'learning_rate': 2.1084e-05, 'epoch': 12.97}
+{'loss': 0.052, 'grad_norm': 0.9446842670440674, 'learning_rate': 2.1087e-05, 'epoch': 12.98}
+{'loss': 0.0224, 'grad_norm': 0.46493256092071533, 'learning_rate': 2.109e-05, 'epoch': 12.98}
+{'loss': 0.0228, 'grad_norm': 0.5906376838684082, 'learning_rate': 2.1093e-05, 'epoch': 12.98}
+{'loss': 0.0156, 'grad_norm': 0.463929682970047, 'learning_rate': 2.1096000000000003e-05, 'epoch': 12.98}
+{'loss': 0.0205, 'grad_norm': 0.4736950099468231, 'learning_rate': 2.1099000000000002e-05, 'epoch': 12.98}
+{'loss': 0.0207, 'grad_norm': 0.48260924220085144, 'learning_rate': 2.1102000000000002e-05, 'epoch': 12.98}
+{'loss': 0.0157, 'grad_norm': 0.6692067384719849, 'learning_rate': 2.1105000000000002e-05, 'epoch': 12.99}
+{'loss': 0.0335, 'grad_norm': 0.6906869411468506, 'learning_rate': 2.1108000000000002e-05, 'epoch': 12.99}
+{'loss': 0.0265, 'grad_norm': 0.5933719873428345, 'learning_rate': 2.1111e-05, 'epoch': 12.99}
+{'loss': 0.0172, 'grad_norm': 0.36224380135536194, 'learning_rate': 2.1114e-05, 'epoch': 12.99}
+{'loss': 0.0283, 'grad_norm': 0.5262947082519531, 'learning_rate': 2.1117e-05, 'epoch': 12.99}
+{'loss': 0.0214, 'grad_norm': 0.4658443331718445, 'learning_rate': 2.1119999999999998e-05, 'epoch': 13.0}
+{'loss': 0.0173, 'grad_norm': 0.6707825064659119, 'learning_rate': 2.1122999999999997e-05, 'epoch': 13.0}
+{'loss': 0.0282, 'grad_norm': 0.6804872751235962, 'learning_rate': 2.1126e-05, 'epoch': 13.0}
+{'loss': 0.0378, 'grad_norm': 0.5780600309371948, 'learning_rate': 2.1129e-05, 'epoch': 13.0}
+  7%|▋         | 7047/100000 [3:51:55<159:52:11,  6.19s/it]                                                             7%|▋         | 7047/100000 [3:51:55<159:52:11,  6.19s/it]  7%|▋         | 7048/100000 [3:52:01<156:48:00,  6.07s/it]                                                             7%|▋         | 7048/100000 [3:52:01<156:48:00,  6.07s/it]  7%|▋         | 7049/100000 [3:52:06<146:52:10,  5.69s/it]                                                             7%|▋         | 7049/100000 [3:52:06<146:52:10,  5.69s/it]  7%|▋         | 7050/100000 [3:52:10<134:40:51,  5.22s/it]                                                             7%|▋         | 7050/100000 [3:52:10<134:40:51,  5.22s/it]  7%|▋         | 7051/100000 [3:52:13<123:18:49,  4.78s/it]                                                             7%|▋         | 7051/100000 [3:52:13<123:18:49,  4.78s/it]  7%|▋         | 7052/100000 [3:52:17<112:26:30,  4.36s/it]                                                             7%|▋         | 7052/100000 [3:52:17<112:26:30,  4.36s/it]  7%|▋         | 7053/100000 [3:52:20<102:27:00,  3.97s/it]                                                             7%|▋         | 7053/100000 [3:52:20<102:27:00,  3.97s/it]  7%|▋         | 7054/100000 [3:52:23<92:52:25,  3.60s/it]                                                             7%|▋         | 7054/100000 [3:52:23<92:52:25,  3.60s/it]  7%|▋         | 7055/100000 [3:52:25<84:39:23,  3.28s/it]                                                            7%|▋         | 7055/100000 [3:52:25<84:39:23,  3.28s/it]  7%|▋         | 7056/100000 [3:52:27<77:08:40,  2.99s/it]                                                            7%|▋         | 7056/100000 [3:52:28<77:08:40,  2.99s/it]  7%|▋         | 7057/100000 [3:52:30<70:43:28,  2.74s/it]                                                            7%|▋         | 7057/100000 [3:52:30<70:43:28,  2.74s/it]  7%|▋         | 7058/100000 [3:52:32<65:17:42,  2.53s/it]                                                            7%|▋         | 7058/100000 [3:52:32<65:17:42,  2.53s/it]  7%|▋         | 7059/100000 [3:52:34<60:04:19,  2.33s/it]                                                            7%|▋         | 7059/100000 [3:52:34<60:04:19,  2.33s/it]  7%|▋         | 7060/100000 [3:52:35<55:57:16,  2.17s/it]                                                            7%|▋         | 7060/100000 [3:52:35<55:57:16,  2.17s/it]  7%|▋         | 7061/100000 [3:52:37<52:29:02,  2.03s/it]                                                            7%|▋         | 7061/100000 [3:52:37<52:29:02,  2.03s/it]  7%|▋         | 7062/100000 [3:52:39<49:32:04,  1.92s/it]                                                            7%|▋         | 7062/100000 [3:52:39<49:32:04,  1.92s/it]  7%|▋         | 7063/100000 [3:52:40<47:10:36,  1.83s/it]                                                            7%|▋         | 7063/100000 [3:52:40<47:10:36,  1.83s/it]  7%|▋         | 7064/100000 [3:52:42<45:15:17,  1.75s/it]                                                            7%|▋         | 7064/100000 [3:52:42<45:15:17,  1.75s/it]  7%|▋         | 7065/100000 [3:52:43<43:35:12,  1.69s/it]                                                            7%|▋         | 7065/100000 [3:52:43<43:35:12,  1.69s/it]  7%|▋         | 7066/100000 [3:52:45<41:58:31,  1.63s/it]                                                            7%|▋         | 7066/100000 [3:52:45<41:58:31,  1.63s/it]  7%|▋         | 7067/100000 [3:52:46<40:37:53,  1.57s/it]                                                            7%|▋         | 7067/100000 [3:52:46<40:37:53,  1.57s/it]  7%|▋         | 7068/100000 [3:52:48<39:09:27,  1.52s/it]                                                            7%|▋         | 7068/100000 [3:52:48<39:09:27,  1.52s/it]  7%|▋         | 7069/100000 [3:52:49<38:22:16,  1.49s/it]                                                            7%|▋         | 7069/100000 [3:52:49<38:22:16,  1.49s/it]  7%|▋         | 7070/100000 [3:52:51<37:35:52,  1.46s/it]                                                            7%|▋         | 7070/100000 [3:52:51<37:35:52,  1.46s/it]  7%|▋         | 7071/100000 [3:52:52<36:34:20,  1.42s/it]                                                            7%|▋         | 7071/100000 [3:52:52<36:34:20,  1.42s/it]  7%|▋         | 7072/100000 [3:52:53<35:49:56,  1.39s/it]                                                            7%|▋         | 7072/100000 [3:52:53<35:49:56,  1.39s/it]  7%|▋         | 7073/100000 [3:52:54<34:51:34,  1.35s/it]                                                            7%|▋         | 7073/100000 [3:52:54<34:51:34,  1.35s/it]  7%|▋         | 7074/100000 [3:52:56<34:13:50,  1.33s/it]                                                            7%|▋         | 7074/100000 [3:52:56<34:13:50,  1.33s/it]  7%|▋         | 7075/100000 [3:52:57<33:50:19,  1.31s/it]                                                            7%|▋         | 7075/100000 [3:52:57<33:50:19,  1.31s/it]  7%|▋         | 7076/100000 [3:52:58<33:26:46,  1.30s/it]                                                            7%|▋         | 7076/100000 [3:52:58<33:26:46,  1.30s/it]  7%|▋         | 7077/100000 [3:53:00<33:08:35,  1.28s/it]                                                            7%|▋         | 7077/100000 [3:53:00<33:08:35,  1.28s/it]  7%|▋         | 7078/100000 [3:53:01<32:44:44,  1.27s/it]                                                            7%|▋         | 7078/100000 [3:53:01<32:44:44,  1.27s/it]  7%|▋         | 7079/100000 [3:53:02<32:24:23,  1.26s/it]                                                            7%|▋         | 7079/100000 [3:53:02<32:24:23,  1.26s/it]  7%|▋         | 7080/100000 [3:53:03<31:40:09,  1.23s/it]                                                            7%|▋         | 7080/100000 [3:53:03<31:40:09,  1.23s/it]  7%|▋         | 7081/100000 [3:53:04<31:14:28,  1.21s/it]                                                            7%|▋         | 7081/100000 [3:53:04<31:14:28,  1.21s/it]  7%|▋         | 7082/100000 [3:53:05<30:54:52,  1.20s/it]                                                            7%|▋         | 7082/100000 [3:53:05<30:54:52,  1.20s/it]  7%|▋         | 7083/100000 [3:53:07<30:08:54,  1.17s/it]                                                            7%|▋         | 7083/100000 [3:53:07<30:08:54,  1.17s/it]  7%|▋         | 7084/100000 [3:53:08<29:24:16,  1.14s/it]                                                            7%|▋         | 7084/100000 [3:53:08<29:24:16,  1.14s/it]  7%|▋         | 7085/100000 [3:53:09<29:06:50,  1.13s/it]                                                            7%|���         | 7085/100000 [3:53:09<29:06:50,  1.13s/it]  7%|▋         | 7086/100000 [3:53:10<29:03:03,  1.13s/it]                                                            7%|▋         | 7086/100000 [3:53:10<29:03:03,  1.13s/it]  7%|▋         | 7087/100000 [3:53:11<28:32:23,  1.11s/it]                                                            7%|▋         | 7087/100000 [3:53:11<28:32:23,  1.11s/it]  7%|▋         | 7088/100000 [3:53:12<28:35:06,  1.11s/it]                                                            7%|▋         | 7088/100000 [3:53:12<28:35:06,  1.11s/it]  7%|▋         | 7089/100000 [3:53:13<27:59:41,  1.08s/it]                                                            7%|▋         | 7089/100000 [3:53:13<27:59:41,  1.08s/it]  7%|▋         | 7090/100000 [3:53:14<27:48:46,  1.08s/it]                                                            7%|▋         | 7090/100000 [3:53:14<27:48:46,  1.08s/it]  7%|▋         | 7091/100000 [3:53:15<27:30:21,  1.07s/it]                                                            7%|▋         | 7091/100000 [3:53:15<27:30:21,  1.07s/it]  7%|▋         | 7092/100000 [3:53:16<26:49:03,  1.04s/it]                                                            7%|▋         | 7092/100000 [3:53:16<26:49:03,  1.04s/it]  7%|▋         | 7093/100000 [3:53:17<25:59:04,  1.01s/it]                                                            7%|▋         | 7093/100000 [3:53:17<25:59:04,  1.01s/it]  7%|▋         | 7094/100000 [3:53:18<25:12:22,  1.02it/s]                                                            7%|▋         | 7094/100000 [3:53:18<25:12:22,  1.02it/s]  7%|▋         | 7095/100000 [3:53:19<24:36:20,  1.05it/s]                                                            7%|▋         | 7095/100000 [3:53:19<24:36:20,  1.05it/s]  7%|▋         | 7096/100000 [3:53:20<24:07:05,  1.07it/s]                                                            7%|▋         | 7096/100000 [3:53:20<24:07:05,  1.07it/s]  7%|▋         | 7097/100000 [3:53:32<109:37:08,  4.25s/it]                                                             7%|▋         | 7097/100000 [3:53:32<109:37:08,  4.25s/it]  7%|▋         | 7098/100000 [3:53:38<122:03:59,  4.73s/it]                                                             7%|▋         | 7098/100000 [3:53:38<122:03:59,  4.73s/it]  7%|▋         | 7099/100000 [3:53:42<122:24:03,  4.74s/it]                                                             7%|▋         | 7099/100000 [3:53:42<122:24:03,  4.74s/it]  7%|▋         | 7100/100000 [3:53:47<117:48:01,  4.56s/it]                                                             7%|▋         | 7100/100000 [3:53:47<117:48:01,  4.56s/it]  7%|▋         | 7101/100000 [3:53:50<110:58:02,  4.30s/it]                                                             7%|▋         | 7101/100000 [3:53:50<110:58:02,  4.30s/it]  7%|▋         | 7102/100000 [3:53:53<103:01:23,  3.99s/it]                                                             7%|▋         | 7102/100000 [3:53:54<103:01:23,  3.99s/it]  7%|▋         | 7103/100000 [3:53:57<95:24:45,  3.70s/it]                                                             7%|▋         | 7103/100000 [3:53:57<95:24:45,  3.70s/it]  7%|▋         | 7104/100000 [3:53:59<88:04:10,  3.41s/it]                                                            7%|▋         | 7104/100000 [3:53:59<88:04:10,  3.41s/it]  7%|▋         | 7105/100000 [3:54:02<80:52:41,  3.13s/it]                                                            7%|▋         | 7105/100000 [3:54:02<80:52:41,  3.13s/it]  7%|▋         | 7106/100000 [3:54:04<75:05:38,  2.91s/it]                                                            7%|▋         | 7106/100000 [3:54:04<75:05:38,  2.91s/it]  7%|▋         | 7107/100000 [3:54:06<69:24:06,  2.69s/it]                                                            7%|▋         | 7107/100000 [3:54:06<69:24:06,  2.69s/it]  7%|▋         | 7108/100000 [3:54:08<64:31:07,  2.50s/it]                                                            7%|▋         | 7108/100000 [3:54:08<64:31:07,  2.50s/it]  7%|▋         | 7109/100000 [3:54:10<60:25:29,  2.34s/it]                                                            7%|▋         | 7109/100000 [3:54:10<60:25:29,  2.34s/it]  7%|▋         | 7110/100000 [3:54:12<56:43:51,  2.20s/it]                                                            7%|▋         | 7110/100000 [3:54:12<56:43:51,  2.20s/it]  7%|▋         | 7111/100000 [3:54:14<53:18:21,  2.07s/it]                                                            7%|▋         | 7111/100000 [3:54:14<53:18:21,  2.07s/it]  7%|▋         | 7112/100000 [3:54:16<50:30:17,  1.96s/it]                                                            7%|▋         | 7112/100000 [3:54:16<50:30:17,  1.96s/it]  7%|▋         | 7113/100000 [3:54:17<47:58:46,  1.86s/it]                                                            7%|▋         | 7113/100000 [3:54:17<47:58:46,  1.86s/it]  7%|▋         | 7114/100000 [3:54:19<45:53:51,  1.78s/it]                                                            7%|▋         | 7114/100000 [3:54:19<45:53:51,  1.78s/it]  7%|▋         | 7115/100000 [3:54:20<44:01:44,  1.71s/it]                                                            7%|▋         | 7115/100000 [3:54:20<44:01:44,  1.71s/it]  7%|▋         | 7116/100000 [3:54:22<41:57:53,  1.63s/it]                                                            7%|▋         | 7116/100000 [3:54:22<41:57:53,  1.63s/it]  7%|▋         | 7117/100000 [3:54:23<40:38:39,  1.58s/it]                                                            7%|▋         | 7117/100000 [3:54:23<40:38:39,  1.58s/it]  7%|▋         | 7118/100000 [3:54:25<39:13:27,  1.52s/it]                                                            7%|▋         | 7118/100000 [3:54:25<39:13:27,  1.52s/it]  7%|▋         | 7119/100000 [3:54:26<38:19:08,  1.49s/it]                                                            7%|▋         | 7119/100000 [3:54:26<38:19:08,  1.49s/it]  7%|▋         | 7120/100000 [3:54:27<37:14:45,  1.44s/it]                                                            7%|▋         | 7120/100000 [3:54:27<37:14:45,  1.44s/it]  7%|▋         | 7121/100000 [3:54:29<36:39:38,  1.42s/it]                                                            7%|▋         | 7121/100000 [3:54:29<36:39:38,  1.42s/it]  7%|▋         | 7122/100000 [3:54:30<36:03:26,  1.40s/it]                                                            7%|▋         | 7122/100000 [3:54:30<36:03:26,  1.40s/it]  7%|▋         | 7123/100000 [3:54:31<35:10:52,  1.36s/it]                                                            7%|▋         | 7123/100000 [3:54:31<35:10:52,  1.36s/it]  7%|▋         | 7124/100000 [3:54:33<34:22:20,  1.33s/it]                                                            7%|▋         | 7124/100000 [3:54:33<34:22:20,  1.33s/it]  7%|▋         | 7125/100000 [3:54:34<33:51:01,  1.31s/it]                                                            7%|▋         | 7125/100000 [3:54:34<33:51:01,  1.31s/it]  7%|▋         | 7126/100000 [3:54:35<33:27:20,  1.30s/it]                                                            7%|▋         | 7126/100000 [3:54:35<33:27:20,  1.30s/it]  7%|▋         | 7127/100000 [3:54:36<33:04:37,  1.28s/it]                                                            7%|▋         | 7127/100000 [3:54:36<33:04:37,  1.28s/it]  7%|▋         | 7128/100000 [3:54:38<32:37:49,  1.26s/it]                                                            7%|▋         | 7128/100000 [3:54:38<32:37:49,  1.26s/it]  7%|▋         | 7129/100000 [3:54:39<32:16:26,  1.25s/it]                                                            7%|▋         | 7129/100000 [3:54:39<32:16:26,  1.25s/it]  7%|▋         | 7130/100000 [3:54:40<31:29:14,  1.22s/it]                                                          {'loss': 0.2053, 'grad_norm': 1.1009926795959473, 'learning_rate': 2.1132e-05, 'epoch': 13.0}
+{'loss': 0.1755, 'grad_norm': 0.5999391078948975, 'learning_rate': 2.1135e-05, 'epoch': 13.0}
+{'loss': 0.1356, 'grad_norm': 0.556535542011261, 'learning_rate': 2.1138e-05, 'epoch': 13.01}
+{'loss': 0.1368, 'grad_norm': 0.600877583026886, 'learning_rate': 2.1141e-05, 'epoch': 13.01}
+{'loss': 0.1396, 'grad_norm': 0.7779603600502014, 'learning_rate': 2.1144e-05, 'epoch': 13.01}
+{'loss': 0.1214, 'grad_norm': 0.959456205368042, 'learning_rate': 2.1147e-05, 'epoch': 13.01}
+{'loss': 0.1031, 'grad_norm': 0.6287292242050171, 'learning_rate': 2.115e-05, 'epoch': 13.01}
+{'loss': 0.157, 'grad_norm': 1.0254368782043457, 'learning_rate': 2.1153e-05, 'epoch': 13.01}
+{'loss': 0.0638, 'grad_norm': 0.43327924609184265, 'learning_rate': 2.1156000000000002e-05, 'epoch': 13.02}
+{'loss': 0.1202, 'grad_norm': 0.6945347189903259, 'learning_rate': 2.1159000000000002e-05, 'epoch': 13.02}
+{'loss': 0.0553, 'grad_norm': 0.4801901578903198, 'learning_rate': 2.1162e-05, 'epoch': 13.02}
+{'loss': 0.0592, 'grad_norm': 0.6773169636726379, 'learning_rate': 2.1165e-05, 'epoch': 13.02}
+{'loss': 0.044, 'grad_norm': 0.3857210874557495, 'learning_rate': 2.1168e-05, 'epoch': 13.02}
+{'loss': 0.0577, 'grad_norm': 0.43382251262664795, 'learning_rate': 2.1171e-05, 'epoch': 13.03}
+{'loss': 0.0489, 'grad_norm': 0.5019907355308533, 'learning_rate': 2.1174e-05, 'epoch': 13.03}
+{'loss': 0.045, 'grad_norm': 0.396818608045578, 'learning_rate': 2.1177e-05, 'epoch': 13.03}
+{'loss': 0.0311, 'grad_norm': 0.3628042936325073, 'learning_rate': 2.118e-05, 'epoch': 13.03}
+{'loss': 0.0295, 'grad_norm': 0.3977918028831482, 'learning_rate': 2.1183e-05, 'epoch': 13.03}
+{'loss': 0.0235, 'grad_norm': 0.43366360664367676, 'learning_rate': 2.1186000000000003e-05, 'epoch': 13.04}
+{'loss': 0.0141, 'grad_norm': 0.20432913303375244, 'learning_rate': 2.1189000000000003e-05, 'epoch': 13.04}
+{'loss': 0.0175, 'grad_norm': 0.41155481338500977, 'learning_rate': 2.1192e-05, 'epoch': 13.04}
+{'loss': 0.0143, 'grad_norm': 0.5188421010971069, 'learning_rate': 2.1195e-05, 'epoch': 13.04}
+{'loss': 0.0173, 'grad_norm': 0.3438571095466614, 'learning_rate': 2.1198e-05, 'epoch': 13.04}
+{'loss': 0.0154, 'grad_norm': 0.38158324360847473, 'learning_rate': 2.1201e-05, 'epoch': 13.04}
+{'loss': 0.0211, 'grad_norm': 0.4931504726409912, 'learning_rate': 2.1204e-05, 'epoch': 13.05}
+{'loss': 0.0446, 'grad_norm': 0.6768643856048584, 'learning_rate': 2.1207e-05, 'epoch': 13.05}
+{'loss': 0.0146, 'grad_norm': 0.2771964967250824, 'learning_rate': 2.121e-05, 'epoch': 13.05}
+{'loss': 0.0146, 'grad_norm': 0.30338409543037415, 'learning_rate': 2.1213e-05, 'epoch': 13.05}
+{'loss': 0.012, 'grad_norm': 0.22734993696212769, 'learning_rate': 2.1216e-05, 'epoch': 13.05}
+{'loss': 0.0182, 'grad_norm': 0.43263518810272217, 'learning_rate': 2.1219e-05, 'epoch': 13.06}
+{'loss': 0.0124, 'grad_norm': 0.44592079520225525, 'learning_rate': 2.1222e-05, 'epoch': 13.06}
+{'loss': 0.0134, 'grad_norm': 0.2170630544424057, 'learning_rate': 2.1225e-05, 'epoch': 13.06}
+{'loss': 0.0108, 'grad_norm': 0.2715395987033844, 'learning_rate': 2.1228e-05, 'epoch': 13.06}
+{'loss': 0.0117, 'grad_norm': 0.3276883661746979, 'learning_rate': 2.1231e-05, 'epoch': 13.06}
+{'loss': 0.0141, 'grad_norm': 0.3050946593284607, 'learning_rate': 2.1234e-05, 'epoch': 13.06}
+{'loss': 0.0113, 'grad_norm': 0.3024367392063141, 'learning_rate': 2.1237e-05, 'epoch': 13.07}
+{'loss': 0.0106, 'grad_norm': 0.40349775552749634, 'learning_rate': 2.124e-05, 'epoch': 13.07}
+{'loss': 0.0054, 'grad_norm': 0.16834889352321625, 'learning_rate': 2.1243e-05, 'epoch': 13.07}
+{'loss': 0.0127, 'grad_norm': 0.3100760579109192, 'learning_rate': 2.1246000000000003e-05, 'epoch': 13.07}
+{'loss': 0.0306, 'grad_norm': 0.5087378621101379, 'learning_rate': 2.1249000000000003e-05, 'epoch': 13.07}
+{'loss': 0.0128, 'grad_norm': 0.5137645602226257, 'learning_rate': 2.1252000000000003e-05, 'epoch': 13.08}
+{'loss': 0.0168, 'grad_norm': 0.4320560395717621, 'learning_rate': 2.1255000000000002e-05, 'epoch': 13.08}
+{'loss': 0.0185, 'grad_norm': 0.3999880254268646, 'learning_rate': 2.1258000000000002e-05, 'epoch': 13.08}
+{'loss': 0.0126, 'grad_norm': 0.31367284059524536, 'learning_rate': 2.1261000000000002e-05, 'epoch': 13.08}
+{'loss': 0.0184, 'grad_norm': 0.49617084860801697, 'learning_rate': 2.1264000000000002e-05, 'epoch': 13.08}
+{'loss': 0.0105, 'grad_norm': 0.44734519720077515, 'learning_rate': 2.1266999999999998e-05, 'epoch': 13.08}
+{'loss': 0.0214, 'grad_norm': 0.5911281704902649, 'learning_rate': 2.1269999999999998e-05, 'epoch': 13.09}
+{'loss': 0.0247, 'grad_norm': 1.7160379886627197, 'learning_rate': 2.1272999999999998e-05, 'epoch': 13.09}
+{'loss': 0.0156, 'grad_norm': 0.3841411769390106, 'learning_rate': 2.1276e-05, 'epoch': 13.09}
+{'loss': 0.0416, 'grad_norm': 0.5357542037963867, 'learning_rate': 2.1279e-05, 'epoch': 13.09}
+{'loss': 0.3002, 'grad_norm': 0.9648202061653137, 'learning_rate': 2.1282e-05, 'epoch': 13.09}
+{'loss': 0.2282, 'grad_norm': 0.6870272159576416, 'learning_rate': 2.1285e-05, 'epoch': 13.1}
+{'loss': 0.156, 'grad_norm': 0.5585189461708069, 'learning_rate': 2.1288e-05, 'epoch': 13.1}
+{'loss': 0.1415, 'grad_norm': 0.7169678211212158, 'learning_rate': 2.1291e-05, 'epoch': 13.1}
+{'loss': 0.1254, 'grad_norm': 0.5396972298622131, 'learning_rate': 2.1294e-05, 'epoch': 13.1}
+{'loss': 0.1497, 'grad_norm': 0.6024976372718811, 'learning_rate': 2.1297e-05, 'epoch': 13.1}
+{'loss': 0.116, 'grad_norm': 0.5685150027275085, 'learning_rate': 2.13e-05, 'epoch': 13.11}
+{'loss': 0.1146, 'grad_norm': 0.4817744195461273, 'learning_rate': 2.1303e-05, 'epoch': 13.11}
+{'loss': 0.0902, 'grad_norm': 0.6075971126556396, 'learning_rate': 2.1306000000000002e-05, 'epoch': 13.11}
+{'loss': 0.0883, 'grad_norm': 0.4989315867424011, 'learning_rate': 2.1309000000000002e-05, 'epoch': 13.11}
+{'loss': 0.0684, 'grad_norm': 0.923866331577301, 'learning_rate': 2.1312000000000002e-05, 'epoch': 13.11}
+{'loss': 0.044, 'grad_norm': 0.3913983106613159, 'learning_rate': 2.1315000000000002e-05, 'epoch': 13.11}
+{'loss': 0.0533, 'grad_norm': 0.3887367248535156, 'learning_rate': 2.1318e-05, 'epoch': 13.12}
+{'loss': 0.0187, 'grad_norm': 0.36022719740867615, 'learning_rate': 2.1321e-05, 'epoch': 13.12}
+{'loss': 0.0578, 'grad_norm': 0.38603368401527405, 'learning_rate': 2.1324e-05, 'epoch': 13.12}
+{'loss': 0.0812, 'grad_norm': 0.75755375623703, 'learning_rate': 2.1327e-05, 'epoch': 13.12}
+{'loss': 0.0181, 'grad_norm': 0.31779199838638306, 'learning_rate': 2.133e-05, 'epoch': 13.12}
+{'loss': 0.0439, 'grad_norm': 0.6031693816184998, 'learning_rate': 2.1333e-05, 'epoch': 13.13}
+{'loss': 0.0171, 'grad_norm': 0.27690422534942627, 'learning_rate': 2.1336000000000004e-05, 'epoch': 13.13}
+{'loss': 0.013, 'grad_norm': 0.3437330722808838, 'learning_rate': 2.1339e-05, 'epoch': 13.13}
+{'loss': 0.0223, 'grad_norm': 0.5207774639129639, 'learning_rate': 2.1342e-05, 'epoch': 13.13}
+{'loss': 0.0232, 'grad_norm': 0.2619399130344391, 'learning_rate': 2.1345e-05, 'epoch': 13.13}
+{'loss': 0.0102, 'grad_norm': 0.24779574573040009, 'learning_rate': 2.1348e-05, 'epoch': 13.13}
+{'loss': 0.0174, 'grad_norm': 0.28220513463020325, 'learning_rate': 2.1351e-05, 'epoch': 13.14}
+{'loss': 0.02, 'grad_norm': 0.3668232262134552, 'learning_rate': 2.1354e-05, 'epoch': 13.14}
+{'loss': 0.0156, 'grad_norm': 0.27169662714004517, 'learning_rate': 2.1357e-05, 'epoch': 13.14}
+{'loss': 0.015, 'grad_norm': 0.33091557025909424, 'learning_rate': 2.136e-05, 'epoch': 13.14}
+{'loss': 0.0175, 'grad_norm': 0.5022887587547302, 'learning_rate': 2.1363e-05, 'epoch': 13.14}
+{'loss': 0.0187, 'grad_norm': 0.7188720107078552, 'learning_rate': 2.1366000000000002e-05, 'epoch': 13.15}
+{'loss': 0.019, 'grad_norm': 0.5348430275917053, 'learning_rate': 2.1369e-05, 'epoch': 13.15}
+{'loss': 0.0137, 'grad_norm': 0.34337300062179565, 'learning_rate': 2.1372e-05, 'epoch': 13.15}
+{'loss': 0.024, 'grad_norm': 0.32131054997444153, 'learning_rate': 2.1375e-05, 'epoch': 13.15}
+{'loss': 0.0113, 'grad_norm': 0.3087523877620697, 'learning_rate': 2.1378e-05, 'epoch': 13.15}
+  7%|▋         | 7130/100000 [3:54:40<31:29:14,  1.22s/it]  7%|▋         | 7131/100000 [3:54:41<31:05:07,  1.21s/it]                                                            7%|▋         | 7131/100000 [3:54:41<31:05:07,  1.21s/it]  7%|▋         | 7132/100000 [3:54:42<30:42:32,  1.19s/it]                                                            7%|▋         | 7132/100000 [3:54:42<30:42:32,  1.19s/it]  7%|▋         | 7133/100000 [3:54:44<30:04:53,  1.17s/it]                                                            7%|▋         | 7133/100000 [3:54:44<30:04:53,  1.17s/it]  7%|▋         | 7134/100000 [3:54:45<29:48:10,  1.16s/it]                                                            7%|▋         | 7134/100000 [3:54:45<29:48:10,  1.16s/it]  7%|▋         | 7135/100000 [3:54:46<29:32:36,  1.15s/it]                                                            7%|▋         | 7135/100000 [3:54:46<29:32:36,  1.15s/it]  7%|▋         | 7136/100000 [3:54:47<29:05:03,  1.13s/it]                                                            7%|▋         | 7136/100000 [3:54:47<29:05:03,  1.13s/it]  7%|▋         | 7137/100000 [3:54:48<28:43:25,  1.11s/it]                                                            7%|▋         | 7137/100000 [3:54:48<28:43:25,  1.11s/it]  7%|▋         | 7138/100000 [3:54:49<28:19:35,  1.10s/it]                                                            7%|▋         | 7138/100000 [3:54:49<28:19:35,  1.10s/it]  7%|▋         | 7139/100000 [3:54:50<27:41:24,  1.07s/it]                                                            7%|▋         | 7139/100000 [3:54:50<27:41:24,  1.07s/it]  7%|▋         | 7140/100000 [3:54:51<27:21:25,  1.06s/it]                                                            7%|▋         | 7140/100000 [3:54:51<27:21:25,  1.06s/it]  7%|▋         | 7141/100000 [3:54:52<27:07:14,  1.05s/it]                                                            7%|▋         | 7141/100000 [3:54:52<27:07:14,  1.05s/it]  7%|▋         | 7142/100000 [3:54:53<26:41:26,  1.03s/it]                                                            7%|▋         | 7142/100000 [3:54:53<26:41:26,  1.03s/it]  7%|▋         | 7143/100000 [3:54:54<26:16:12,  1.02s/it]                                                            7%|▋         | 7143/100000 [3:54:54<26:16:12,  1.02s/it]  7%|▋         | 7144/100000 [3:54:55<25:44:01,  1.00it/s]                                                            7%|▋         | 7144/100000 [3:54:55<25:44:01,  1.00it/s]  7%|▋         | 7145/100000 [3:54:56<24:41:25,  1.04it/s]                                                            7%|▋         | 7145/100000 [3:54:56<24:41:25,  1.04it/s]  7%|▋         | 7146/100000 [3:54:57<24:02:02,  1.07it/s]                                                            7%|▋         | 7146/100000 [3:54:57<24:02:02,  1.07it/s]  7%|▋         | 7147/100000 [3:55:09<109:17:12,  4.24s/it]                                                             7%|▋         | 7147/100000 [3:55:09<109:17:12,  4.24s/it]  7%|▋         | 7148/100000 [3:55:14<120:45:50,  4.68s/it]                                                             7%|▋         | 7148/100000 [3:55:14<120:45:50,  4.68s/it]  7%|▋         | 7149/100000 [3:55:19<120:52:45,  4.69s/it]                                                             7%|▋         | 7149/100000 [3:55:19<120:52:45,  4.69s/it]  7%|▋         | 7150/100000 [3:55:23<113:59:04,  4.42s/it]                                                             7%|▋         | 7150/100000 [3:55:23<113:59:04,  4.42s/it]  7%|▋         | 7151/100000 [3:55:26<107:19:08,  4.16s/it]                                                             7%|▋         | 7151/100000 [3:55:26<107:19:08,  4.16s/it]  7%|▋         | 7152/100000 [3:55:30<99:10:37,  3.85s/it]                                                             7%|▋         | 7152/100000 [3:55:30<99:10:37,  3.85s/it]  7%|▋         | 7153/100000 [3:55:32<91:54:29,  3.56s/it]                                                            7%|▋         | 7153/100000 [3:55:32<91:54:29,  3.56s/it]  7%|▋         | 7154/100000 [3:55:35<85:04:08,  3.30s/it]                                                            7%|▋         | 7154/100000 [3:55:35<85:04:08,  3.30s/it]  7%|▋         | 7155/100000 [3:55:38<78:28:50,  3.04s/it]                                                            7%|▋         | 7155/100000 [3:55:38<78:28:50,  3.04s/it]  7%|▋         | 7156/100000 [3:55:40<72:34:10,  2.81s/it]                                                            7%|▋         | 7156/100000 [3:55:40<72:34:10,  2.81s/it]  7%|▋         | 7157/100000 [3:55:42<67:16:18,  2.61s/it]                                                            7%|▋         | 7157/100000 [3:55:42<67:16:18,  2.61s/it]  7%|▋         | 7158/100000 [3:55:44<62:13:34,  2.41s/it]                                                            7%|▋         | 7158/100000 [3:55:44<62:13:34,  2.41s/it]  7%|▋         | 7159/100000 [3:55:46<58:07:26,  2.25s/it]                                                            7%|▋         | 7159/100000 [3:55:46<58:07:26,  2.25s/it]  7%|▋         | 7160/100000 [3:55:48<54:37:09,  2.12s/it]                                                            7%|▋         | 7160/100000 [3:55:48<54:37:09,  2.12s/it]  7%|▋         | 7161/100000 [3:55:49<51:01:27,  1.98s/it]                                                            7%|▋         | 7161/100000 [3:55:49<51:01:27,  1.98s/it]  7%|▋         | 7162/100000 [3:55:51<48:39:07,  1.89s/it]                                                            7%|▋         | 7162/100000 [3:55:51<48:39:07,  1.89s/it]  7%|▋         | 7163/100000 [3:55:53<46:33:08,  1.81s/it]                                                            7%|▋         | 7163/100000 [3:55:53<46:33:08,  1.81s/it]  7%|▋         | 7164/100000 [3:55:54<44:28:36,  1.72s/it]                                                            7%|▋         | 7164/100000 [3:55:54<44:28:36,  1.72s/it]  7%|▋         | 7165/100000 [3:55:56<42:38:07,  1.65s/it]                                                            7%|▋         | 7165/100000 [3:55:56<42:38:07,  1.65s/it]  7%|▋         | 7166/100000 [3:55:57<41:13:38,  1.60s/it]                                                            7%|▋         | 7166/100000 [3:55:57<41:13:38,  1.60s/it]  7%|▋         | 7167/100000 [3:55:59<40:04:03,  1.55s/it]                                                            7%|▋         | 7167/100000 [3:55:59<40:04:03,  1.55s/it]  7%|▋         | 7168/100000 [3:56:00<38:47:40,  1.50s/it]                                                            7%|▋         | 7168/100000 [3:56:00<38:47:40,  1.50s/it]  7%|▋         | 7169/100000 [3:56:01<39:11:21,  1.52s/it]                                                            7%|▋         | 7169/100000 [3:56:01<39:11:21,  1.52s/it]  7%|▋         | 7170/100000 [3:56:03<38:16:12,  1.48s/it]                                                            7%|▋         | 7170/100000 [3:56:03<38:16:12,  1.48s/it]  7%|▋         | 7171/100000 [3:56:04<37:14:58,  1.44s/it]                                                            7%|▋         | 7171/100000 [3:56:04<37:14:58,  1.44s/it]  7%|▋         | 7172/100000 [3:56:06<36:15:27,  1.41s/it]                                                            7%|▋         | 7172/100000 [3:56:06<36:15:27,  1.41s/it]  7%|▋         | 7173/100000 [3:56:07<35:29:22,  1.38s/it]                                                            7%|▋         | 7173/100000 [3:56:07<35:29:22,  1.38s/it]  7%|▋         | 7174/100000 [3:56:08<34:52:49,  1.35s/it]                                                            7%|▋         | 7174/100000 [3:56:08<34:52:49,  1.35s/it]  7%|▋         | 7175/100000 [3:56:09<34:24:19,  1.33s/it]                                                            7%|▋         | 7175/100000 [3:56:09<34:24:19,  1.33s/it]  7%|▋         | 7176/100000 [3:56:11<33:34:55,  1.30s/it]                                                            7%|▋         | 7176/100000 [3:56:11<33:34:55,  1.30s/it]  7%|▋         | 7177/100000 [3:56:12<33:10:51,  1.29s/it]                                                            7%|▋         | 7177/100000 [3:56:12<33:10:51,  1.29s/it]  7%|▋         | 7178/100000 [3:56:13<32:27:33,  1.26s/it]                                                            7%|▋         | 7178/100000 [3:56:13<32:27:33,  1.26s/it]  7%|▋         | 7179/100000 [3:56:14<32:10:17,  1.25s/it]                                                            7%|▋         | 7179/100000 [3:56:14<32:10:17,  1.25s/it]  7%|▋         | 7180/100000 [3:56:16<31:37:00,  1.23s/it]                                                            7%|▋         | 7180/100000 [3:56:16<31:37:00,  1.23s/it]  7%|▋         | 7181/100000 [3:56:17<31:05:12,  1.21s/it]                                                            7%|▋         | 7181/100000 [3:56:17<31:05:12,  1.21s/it]  7%|▋         | 7182/100000 [3:56:18<30:26:39,  1.18s/it]                                                            7%|▋         | 7182/100000 [3:56:18<30:26:39,  1.18s/it]  7%|▋         | 7183/100000 [3:56:19<29:58:20,  1.16s/it]                                                            7%|▋         | 7183/100000 [3:56:19<29:58:20,  1.16s/it]  7%|▋         | 7184/100000 [3:56:20<29:38:13,  1.15s/it]                                                            7%|▋         | 7184/100000 [3:56:20<29:38:13,  1.15s/it]  7%|▋         | 7185/100000 [3:56:21<28:49:47,  1.12s/it]                                                            7%|▋         | 7185/100000 [3:56:21<28:49:47,  1.12s/it]  7%|▋         | 7186/100000 [3:56:22<28:33:41,  1.11s/it]                                                            7%|▋         | 7186/100000 [3:56:22<28:33:41,  1.11s/it]  7%|▋         | 7187/100000 [3:56:23<28:24:44,  1.10s/it]                                                            7%|▋         | 7187/100000 [3:56:23<28:24:44,  1.10s/it]  7%|▋         | 7188/100000 [3:56:24<28:12:53,  1.09s/it]                                                            7%|▋         | 7188/100000 [3:56:24<28:12:53,  1.09s/it]  7%|▋         | 7189/100000 [3:56:25<27:49:41,  1.08s/it]                                                            7%|▋         | 7189/100000 [3:56:25<27:49:41,  1.08s/it]  7%|▋         | 7190/100000 [3:56:26<27:29:36,  1.07s/it]                                                            7%|▋         | 7190/100000 [3:56:26<27:29:36,  1.07s/it]  7%|▋         | 7191/100000 [3:56:27<27:08:14,  1.05s/it]                                                            7%|▋         | 7191/100000 [3:56:27<27:08:14,  1.05s/it]  7%|▋         | 7192/100000 [3:56:28<26:43:28,  1.04s/it]                                                            7%|▋         | 7192/100000 [3:56:28<26:43:28,  1.04s/it]  7%|▋         | 7193/100000 [3:56:29<25:55:52,  1.01s/it]                                                            7%|▋         | 7193/100000 [3:56:29<25:55:52,  1.01s/it]  7%|▋         | 7194/100000 [3:56:30<25:52:01,  1.00s/it]                                                            7%|▋         | 7194/100000 [3:56:30<25:52:01,  1.00s/it]  7%|▋         | 7195/100000 [3:56:31<24:57:00,  1.03it/s]                                                            7%|▋         | 7195/100000 [3:56:31<24:57:00,  1.03it/s]  7%|▋         | 7196/100000 [3:56:32<24:31:26,  1.05it/s]                                                            7%|▋         | 7196/100000 [3:56:32<24:31:26,  1.05it/s]  7%|▋         | 7197/100000 [3:56:44<112:02:15,  4.35s/it]                                                             7%|▋         | 7197/100000 [3:56:45<112:02:15,  4.35s/it]  7%|▋         | 7198/100000 [3:56:50<124:34:09,  4.83s/it]                                                             7%|▋         | 7198/100000 [3:56:50<124:34:09,  4.83s/it]  7%|▋         | 7199/100000 [3:56:55<120:32:52,  4.68s/it]                                                             7%|▋         | 7199/100000 [3:56:55<120:32:52,  4.68s/it]  7%|▋         | 7200/100000 [3:56:59<115:06:34,  4.47s/it]                                                             7%|▋         | 7200/100000 [3:56:59<115:06:34,  4.47s/it]  7%|▋         | 7201/100000 [3:57:02<107:20:23,  4.16s/it]                                                             7%|▋         | 7201/100000 [3:57:02<107:20:23,  4.16s/it]  7%|▋         | 7202/100000 [3:57:05<99:34:04,  3.86s/it]                                                             7%|▋         | 7202/100000 [3:57:05<99:34:04,  3.86s/it]  7%|▋         | 7203/100000 [3:57:08<92:32:04,  3.59s/it]                                                            7%|▋         | 7203/100000 [3:57:08<92:32:04,  3.59s/it]  7%|▋         | 7204/100000 [3:57:11<85:21:40,  3.31s/it]                                                            7%|▋         | 7204/100000 [3:57:11<85:21:40,  3.31s/it]  7%|▋         | 7205/100000 [3:57:13<79:18:56,  3.08s/it]                                                            7%|▋         | 7205/100000 [3:57:13<79:18:56,  3.08s/it]  7%|▋         | 7206/100000 [3:57:16<73:23:46,  2.85s/it]                                                            7%|▋         | 7206/100000 [3:57:16<73:23:46,  2.85s/it]  7%|▋         | 7207/100000 [3:57:18<67:11:16,  2.61s/it]                                                            7%|▋         | 7207/100000 [3:57:18<67:11:16,  2.61s/it]  7%|▋         | 7208/100000 [3:57:20<62:22:48,  2.42s/it]                                                            7%|▋         | 7208/100000 [3:57:20<62:22:48,  2.42s/it]  7%|▋         | 7209/100000 [3:57:22<57:19:40,  2.22s/it]                                                            7%|▋         | 7209/100000 [3:57:22<57:19:40,  2.22s/it]  7%|▋         | 7210/100000 [3:57:23<53:34:33,  2.08s/it]                                                            7%|▋         | 7210/100000 [3:57:23<53:34:33,  2.08s/it]  7%|▋         | 7211/100000 [3:57:25<50:46:22,  1.97s/it]                                                            7%|▋         | 7211/100000 [3:57:25<50:46:22,  1.97s/it]  7%|▋         | 7212/100000 [3:57:27<48:22:41,  1.88s/it]                                                            7%|▋         | 7212/100000 [3:57:27<48:22:41,  1.88s/it]  7%|▋         | 7213/100000 [3:57:28<45:57:48,  1.78s/it]                                                          {'loss': 0.0122, 'grad_norm': 0.23587988317012787, 'learning_rate': 2.1381e-05, 'epoch': 13.16}
+{'loss': 0.0207, 'grad_norm': 0.6149274110794067, 'learning_rate': 2.1384e-05, 'epoch': 13.16}
+{'loss': 0.0134, 'grad_norm': 0.366910457611084, 'learning_rate': 2.1387e-05, 'epoch': 13.16}
+{'loss': 0.016, 'grad_norm': 0.4519480764865875, 'learning_rate': 2.139e-05, 'epoch': 13.16}
+{'loss': 0.0148, 'grad_norm': 0.4220968186855316, 'learning_rate': 2.1393e-05, 'epoch': 13.16}
+{'loss': 0.0133, 'grad_norm': 0.5174040794372559, 'learning_rate': 2.1396e-05, 'epoch': 13.16}
+{'loss': 0.0143, 'grad_norm': 0.415140837430954, 'learning_rate': 2.1399000000000003e-05, 'epoch': 13.17}
+{'loss': 0.0097, 'grad_norm': 0.2746680974960327, 'learning_rate': 2.1402000000000003e-05, 'epoch': 13.17}
+{'loss': 0.0202, 'grad_norm': 0.5087571740150452, 'learning_rate': 2.1405000000000003e-05, 'epoch': 13.17}
+{'loss': 0.0182, 'grad_norm': 0.3475409746170044, 'learning_rate': 2.1408000000000002e-05, 'epoch': 13.17}
+{'loss': 0.0145, 'grad_norm': 0.6303392648696899, 'learning_rate': 2.1411000000000002e-05, 'epoch': 13.17}
+{'loss': 0.0111, 'grad_norm': 0.26322299242019653, 'learning_rate': 2.1414e-05, 'epoch': 13.18}
+{'loss': 0.0099, 'grad_norm': 0.3473210334777832, 'learning_rate': 2.1417e-05, 'epoch': 13.18}
+{'loss': 0.0269, 'grad_norm': 1.0462384223937988, 'learning_rate': 2.1419999999999998e-05, 'epoch': 13.18}
+{'loss': 0.0192, 'grad_norm': 0.7094504237174988, 'learning_rate': 2.1422999999999998e-05, 'epoch': 13.18}
+{'loss': 0.0203, 'grad_norm': 0.990999162197113, 'learning_rate': 2.1425999999999998e-05, 'epoch': 13.18}
+{'loss': 0.0425, 'grad_norm': 0.9668733477592468, 'learning_rate': 2.1429e-05, 'epoch': 13.18}
+{'loss': 0.2142, 'grad_norm': 0.7852587699890137, 'learning_rate': 2.1432e-05, 'epoch': 13.19}
+{'loss': 0.162, 'grad_norm': 0.675623893737793, 'learning_rate': 2.1435e-05, 'epoch': 13.19}
+{'loss': 0.1618, 'grad_norm': 0.6665027737617493, 'learning_rate': 2.1438e-05, 'epoch': 13.19}
+{'loss': 0.1313, 'grad_norm': 0.7854028940200806, 'learning_rate': 2.1441e-05, 'epoch': 13.19}
+{'loss': 0.1387, 'grad_norm': 0.775463342666626, 'learning_rate': 2.1444e-05, 'epoch': 13.19}
+{'loss': 0.1338, 'grad_norm': 3.532989501953125, 'learning_rate': 2.1447e-05, 'epoch': 13.2}
+{'loss': 0.1463, 'grad_norm': 0.5899909734725952, 'learning_rate': 2.145e-05, 'epoch': 13.2}
+{'loss': 0.0921, 'grad_norm': 0.4959987699985504, 'learning_rate': 2.1453e-05, 'epoch': 13.2}
+{'loss': 0.1113, 'grad_norm': 0.7340102195739746, 'learning_rate': 2.1456e-05, 'epoch': 13.2}
+{'loss': 0.0996, 'grad_norm': 0.8091896772384644, 'learning_rate': 2.1459000000000002e-05, 'epoch': 13.2}
+{'loss': 0.0573, 'grad_norm': 0.4246945381164551, 'learning_rate': 2.1462000000000002e-05, 'epoch': 13.2}
+{'loss': 0.0522, 'grad_norm': 0.4794583320617676, 'learning_rate': 2.1465000000000002e-05, 'epoch': 13.21}
+{'loss': 0.11, 'grad_norm': 0.8014870882034302, 'learning_rate': 2.1468000000000002e-05, 'epoch': 13.21}
+{'loss': 0.0724, 'grad_norm': 1.3814865350723267, 'learning_rate': 2.1471e-05, 'epoch': 13.21}
+{'loss': 0.0517, 'grad_norm': 1.1732836961746216, 'learning_rate': 2.1474e-05, 'epoch': 13.21}
+{'loss': 0.0429, 'grad_norm': 0.3207579553127289, 'learning_rate': 2.1477e-05, 'epoch': 13.21}
+{'loss': 0.023, 'grad_norm': 0.4469239115715027, 'learning_rate': 2.148e-05, 'epoch': 13.22}
+{'loss': 0.028, 'grad_norm': 0.45449766516685486, 'learning_rate': 2.1483e-05, 'epoch': 13.22}
+{'loss': 0.0117, 'grad_norm': 0.23852013051509857, 'learning_rate': 2.1486e-05, 'epoch': 13.22}
+{'loss': 0.0132, 'grad_norm': 0.20696599781513214, 'learning_rate': 2.1489e-05, 'epoch': 13.22}
+{'loss': 0.0111, 'grad_norm': 0.30197465419769287, 'learning_rate': 2.1492e-05, 'epoch': 13.22}
+{'loss': 0.0177, 'grad_norm': 0.2798866927623749, 'learning_rate': 2.1495e-05, 'epoch': 13.23}
+{'loss': 0.0312, 'grad_norm': 0.457897812128067, 'learning_rate': 2.1498e-05, 'epoch': 13.23}
+{'loss': 0.0123, 'grad_norm': 0.4140821397304535, 'learning_rate': 2.1501e-05, 'epoch': 13.23}
+{'loss': 0.025, 'grad_norm': 0.6828473210334778, 'learning_rate': 2.1504e-05, 'epoch': 13.23}
+{'loss': 0.0126, 'grad_norm': 0.23633523285388947, 'learning_rate': 2.1507e-05, 'epoch': 13.23}
+{'loss': 0.0107, 'grad_norm': 0.2687138319015503, 'learning_rate': 2.151e-05, 'epoch': 13.23}
+{'loss': 0.0112, 'grad_norm': 0.36586427688598633, 'learning_rate': 2.1513e-05, 'epoch': 13.24}
+{'loss': 0.0231, 'grad_norm': 0.40713468194007874, 'learning_rate': 2.1516e-05, 'epoch': 13.24}
+{'loss': 0.0454, 'grad_norm': 0.41447657346725464, 'learning_rate': 2.1519000000000002e-05, 'epoch': 13.24}
+{'loss': 0.023, 'grad_norm': 0.6310411095619202, 'learning_rate': 2.1522e-05, 'epoch': 13.24}
+{'loss': 0.0129, 'grad_norm': 0.3591703474521637, 'learning_rate': 2.1525e-05, 'epoch': 13.24}
+{'loss': 0.017, 'grad_norm': 0.44197985529899597, 'learning_rate': 2.1528e-05, 'epoch': 13.25}
+{'loss': 0.0164, 'grad_norm': 0.30777108669281006, 'learning_rate': 2.1531e-05, 'epoch': 13.25}
+{'loss': 0.0094, 'grad_norm': 0.3263159394264221, 'learning_rate': 2.1534e-05, 'epoch': 13.25}
+{'loss': 0.024, 'grad_norm': 0.9163006544113159, 'learning_rate': 2.1537e-05, 'epoch': 13.25}
+{'loss': 0.0397, 'grad_norm': 0.7877883911132812, 'learning_rate': 2.154e-05, 'epoch': 13.25}
+{'loss': 0.0111, 'grad_norm': 0.2887888252735138, 'learning_rate': 2.1543e-05, 'epoch': 13.25}
+{'loss': 0.0288, 'grad_norm': 0.4857921600341797, 'learning_rate': 2.1546e-05, 'epoch': 13.26}
+{'loss': 0.0161, 'grad_norm': 0.47236984968185425, 'learning_rate': 2.1549000000000003e-05, 'epoch': 13.26}
+{'loss': 0.0108, 'grad_norm': 0.30887550115585327, 'learning_rate': 2.1552000000000003e-05, 'epoch': 13.26}
+{'loss': 0.0173, 'grad_norm': 0.5033847689628601, 'learning_rate': 2.1555000000000003e-05, 'epoch': 13.26}
+{'loss': 0.0102, 'grad_norm': 0.3925565779209137, 'learning_rate': 2.1558000000000003e-05, 'epoch': 13.26}
+{'loss': 0.0185, 'grad_norm': 0.46677395701408386, 'learning_rate': 2.1561e-05, 'epoch': 13.27}
+{'loss': 0.0166, 'grad_norm': 0.3494510054588318, 'learning_rate': 2.1564e-05, 'epoch': 13.27}
+{'loss': 0.0196, 'grad_norm': 0.397417813539505, 'learning_rate': 2.1567e-05, 'epoch': 13.27}
+{'loss': 0.0196, 'grad_norm': 0.44307324290275574, 'learning_rate': 2.157e-05, 'epoch': 13.27}
+{'loss': 0.0492, 'grad_norm': 0.5888022184371948, 'learning_rate': 2.1572999999999998e-05, 'epoch': 13.27}
+{'loss': 0.0157, 'grad_norm': 0.4758075773715973, 'learning_rate': 2.1575999999999998e-05, 'epoch': 13.28}
+{'loss': 0.0157, 'grad_norm': 0.3339407742023468, 'learning_rate': 2.1579e-05, 'epoch': 13.28}
+{'loss': 0.2268, 'grad_norm': 1.0655595064163208, 'learning_rate': 2.1582e-05, 'epoch': 13.28}
+{'loss': 0.1929, 'grad_norm': 1.2859565019607544, 'learning_rate': 2.1585e-05, 'epoch': 13.28}
+{'loss': 0.1583, 'grad_norm': 0.6945502161979675, 'learning_rate': 2.1588e-05, 'epoch': 13.28}
+{'loss': 0.1227, 'grad_norm': 0.5635412335395813, 'learning_rate': 2.1591e-05, 'epoch': 13.28}
+{'loss': 0.1405, 'grad_norm': 0.710004448890686, 'learning_rate': 2.1594e-05, 'epoch': 13.29}
+{'loss': 0.1154, 'grad_norm': 0.8793792724609375, 'learning_rate': 2.1597e-05, 'epoch': 13.29}
+{'loss': 0.0923, 'grad_norm': 0.5695134401321411, 'learning_rate': 2.16e-05, 'epoch': 13.29}
+{'loss': 0.0729, 'grad_norm': 0.5201019048690796, 'learning_rate': 2.1603e-05, 'epoch': 13.29}
+{'loss': 0.1176, 'grad_norm': 0.8120662569999695, 'learning_rate': 2.1606e-05, 'epoch': 13.29}
+{'loss': 0.0907, 'grad_norm': 0.5279056429862976, 'learning_rate': 2.1609000000000003e-05, 'epoch': 13.3}
+{'loss': 0.1301, 'grad_norm': 0.9664171934127808, 'learning_rate': 2.1612000000000002e-05, 'epoch': 13.3}
+{'loss': 0.0676, 'grad_norm': 2.4879748821258545, 'learning_rate': 2.1615000000000002e-05, 'epoch': 13.3}
+{'loss': 0.1167, 'grad_norm': 0.6646405458450317, 'learning_rate': 2.1618000000000002e-05, 'epoch': 13.3}
+{'loss': 0.047, 'grad_norm': 0.37683454155921936, 'learning_rate': 2.1621000000000002e-05, 'epoch': 13.3}
+{'loss': 0.0184, 'grad_norm': 0.31387007236480713, 'learning_rate': 2.1624e-05, 'epoch': 13.3}
+{'loss': 0.0225, 'grad_norm': 0.2672097384929657, 'learning_rate': 2.1627e-05, 'epoch': 13.31}
+  7%|▋         | 7213/100000 [3:57:28<45:57:48,  1.78s/it]  7%|▋         | 7214/100000 [3:57:30<44:21:45,  1.72s/it]                                                            7%|▋         | 7214/100000 [3:57:30<44:21:45,  1.72s/it]  7%|▋         | 7215/100000 [3:57:31<42:17:13,  1.64s/it]                                                            7%|▋         | 7215/100000 [3:57:31<42:17:13,  1.64s/it]  7%|▋         | 7216/100000 [3:57:33<41:01:30,  1.59s/it]                                                            7%|▋         | 7216/100000 [3:57:33<41:01:30,  1.59s/it]  7%|▋         | 7217/100000 [3:57:34<39:39:25,  1.54s/it]                                                            7%|▋         | 7217/100000 [3:57:34<39:39:25,  1.54s/it]  7%|▋         | 7218/100000 [3:57:36<38:51:37,  1.51s/it]                                                            7%|▋         | 7218/100000 [3:57:36<38:51:37,  1.51s/it]  7%|▋         | 7219/100000 [3:57:37<37:55:29,  1.47s/it]                                                            7%|▋         | 7219/100000 [3:57:37<37:55:29,  1.47s/it]  7%|▋         | 7220/100000 [3:57:38<37:05:29,  1.44s/it]                                                            7%|▋         | 7220/100000 [3:57:38<37:05:29,  1.44s/it]  7%|▋         | 7221/100000 [3:57:40<36:31:03,  1.42s/it]                                                            7%|▋         | 7221/100000 [3:57:40<36:31:03,  1.42s/it]  7%|▋         | 7222/100000 [3:57:41<35:58:09,  1.40s/it]                                                            7%|▋         | 7222/100000 [3:57:41<35:58:09,  1.40s/it]  7%|▋         | 7223/100000 [3:57:42<35:27:05,  1.38s/it]                                                            7%|▋         | 7223/100000 [3:57:42<35:27:05,  1.38s/it]  7%|▋         | 7224/100000 [3:57:44<34:54:01,  1.35s/it]                                                            7%|▋         | 7224/100000 [3:57:44<34:54:01,  1.35s/it]  7%|▋         | 7225/100000 [3:57:45<34:25:35,  1.34s/it]                                                            7%|▋         | 7225/100000 [3:57:45<34:25:35,  1.34s/it]  7%|▋         | 7226/100000 [3:57:46<34:00:25,  1.32s/it]                                                            7%|▋         | 7226/100000 [3:57:46<34:00:25,  1.32s/it]  7%|▋         | 7227/100000 [3:57:47<33:26:19,  1.30s/it]                                                            7%|▋         | 7227/100000 [3:57:47<33:26:19,  1.30s/it]  7%|▋         | 7228/100000 [3:57:49<32:59:19,  1.28s/it]                                                            7%|▋         | 7228/100000 [3:57:49<32:59:19,  1.28s/it]  7%|▋         | 7229/100000 [3:57:50<32:39:56,  1.27s/it]                                                            7%|▋         | 7229/100000 [3:57:50<32:39:56,  1.27s/it]  7%|▋         | 7230/100000 [3:57:51<32:14:54,  1.25s/it]                                                            7%|▋         | 7230/100000 [3:57:51<32:14:54,  1.25s/it]  7%|▋         | 7231/100000 [3:57:52<31:14:56,  1.21s/it]                                                            7%|▋         | 7231/100000 [3:57:52<31:14:56,  1.21s/it]  7%|▋         | 7232/100000 [3:57:53<30:34:38,  1.19s/it]                                                            7%|▋         | 7232/100000 [3:57:53<30:34:38,  1.19s/it]  7%|▋         | 7233/100000 [3:57:55<29:58:59,  1.16s/it]                                                            7%|▋         | 7233/100000 [3:57:55<29:58:59,  1.16s/it]  7%|▋         | 7234/100000 [3:57:56<29:34:06,  1.15s/it]                                                            7%|▋         | 7234/100000 [3:57:56<29:34:06,  1.15s/it]  7%|▋         | 7235/100000 [3:57:57<29:06:23,  1.13s/it]                                                            7%|▋         | 7235/100000 [3:57:57<29:06:23,  1.13s/it]  7%|▋         | 7236/100000 [3:57:58<28:48:20,  1.12s/it]                                                            7%|▋         | 7236/100000 [3:57:58<28:48:20,  1.12s/it]  7%|▋         | 7237/100000 [3:57:59<28:29:33,  1.11s/it]                                                            7%|▋         | 7237/100000 [3:57:59<28:29:33,  1.11s/it]  7%|▋         | 7238/100000 [3:58:00<28:17:01,  1.10s/it]                                                            7%|▋         | 7238/100000 [3:58:00<28:17:01,  1.10s/it]  7%|▋         | 7239/100000 [3:58:01<28:06:36,  1.09s/it]                                                            7%|▋         | 7239/100000 [3:58:01<28:06:36,  1.09s/it]  7%|▋         | 7240/100000 [3:58:02<27:47:55,  1.08s/it]                                                            7%|▋         | 7240/100000 [3:58:02<27:47:55,  1.08s/it]  7%|▋         | 7241/100000 [3:58:03<27:16:34,  1.06s/it]                                                            7%|▋         | 7241/100000 [3:58:03<27:16:34,  1.06s/it]  7%|▋         | 7242/100000 [3:58:04<26:48:54,  1.04s/it]                                                            7%|▋         | 7242/100000 [3:58:04<26:48:54,  1.04s/it]  7%|▋         | 7243/100000 [3:58:05<26:23:16,  1.02s/it]                                                            7%|▋         | 7243/100000 [3:58:05<26:23:16,  1.02s/it]  7%|▋         | 7244/100000 [3:58:06<25:54:14,  1.01s/it]                                                            7%|▋         | 7244/100000 [3:58:06<25:54:14,  1.01s/it]  7%|▋         | 7245/100000 [3:58:07<25:21:42,  1.02it/s]                                                            7%|▋         | 7245/100000 [3:58:07<25:21:42,  1.02it/s]  7%|▋         | 7246/100000 [3:58:08<24:40:59,  1.04it/s]                                                            7%|▋         | 7246/100000 [3:58:08<24:40:59,  1.04it/s]  7%|▋         | 7247/100000 [3:58:20<112:06:55,  4.35s/it]                                                             7%|▋         | 7247/100000 [3:58:20<112:06:55,  4.35s/it]  7%|▋         | 7248/100000 [3:58:26<124:13:35,  4.82s/it]                                                             7%|▋         | 7248/100000 [3:58:26<124:13:35,  4.82s/it]  7%|▋         | 7249/100000 [3:58:31<124:36:27,  4.84s/it]                                                             7%|▋         | 7249/100000 [3:58:31<124:36:27,  4.84s/it]  7%|▋         | 7250/100000 [3:58:35<117:08:18,  4.55s/it]                                                             7%|▋         | 7250/100000 [3:58:35<117:08:18,  4.55s/it]  7%|▋         | 7251/100000 [3:58:38<108:41:24,  4.22s/it]                                                             7%|▋         | 7251/100000 [3:58:38<108:41:24,  4.22s/it]  7%|▋         | 7252/100000 [3:58:42<102:13:35,  3.97s/it]                                                             7%|▋         | 7252/100000 [3:58:42<102:13:35,  3.97s/it]  7%|▋         | 7253/100000 [3:58:45<95:24:54,  3.70s/it]                                                             7%|▋         | 7253/100000 [3:58:45<95:24:54,  3.70s/it]  7%|▋         | 7254/100000 [3:58:48<89:00:49,  3.46s/it]                                                            7%|▋         | 7254/100000 [3:58:48<89:00:49,  3.46s/it]  7%|▋         | 7255/100000 [3:58:50<82:42:45,  3.21s/it]                                                            7%|▋         | 7255/100000 [3:58:50<82:42:45,  3.21s/it]  7%|▋         | 7256/100000 [3:58:53<76:42:49,  2.98s/it]                                                            7%|▋         | 7256/100000 [3:58:53<76:42:49,  2.98s/it]  7%|▋         | 7257/100000 [3:58:55<70:34:27,  2.74s/it]                                                            7%|▋         | 7257/100000 [3:58:55<70:34:27,  2.74s/it]  7%|▋         | 7258/100000 [3:58:57<65:56:02,  2.56s/it]                                                            7%|▋         | 7258/100000 [3:58:57<65:56:02,  2.56s/it]  7%|▋         | 7259/100000 [3:58:59<61:07:25,  2.37s/it]                                                            7%|▋         | 7259/100000 [3:58:59<61:07:25,  2.37s/it]  7%|▋         | 7260/100000 [3:59:01<57:30:11,  2.23s/it]                                                            7%|▋         | 7260/100000 [3:59:01<57:30:11,  2.23s/it]  7%|▋         | 7261/100000 [3:59:03<54:07:50,  2.10s/it]                                                            7%|▋         | 7261/100000 [3:59:03<54:07:50,  2.10s/it]  7%|▋         | 7262/100000 [3:59:04<50:52:43,  1.98s/it]                                                            7%|▋         | 7262/100000 [3:59:04<50:52:43,  1.98s/it]  7%|▋         | 7263/100000 [3:59:06<48:23:26,  1.88s/it]                                                            7%|▋         | 7263/100000 [3:59:06<48:23:26,  1.88s/it]  7%|▋         | 7264/100000 [3:59:08<46:04:13,  1.79s/it]                                                            7%|▋         | 7264/100000 [3:59:08<46:04:13,  1.79s/it]  7%|▋         | 7265/100000 [3:59:09<44:13:33,  1.72s/it]                                                            7%|▋         | 7265/100000 [3:59:09<44:13:33,  1.72s/it]  7%|▋         | 7266/100000 [3:59:11<42:01:35,  1.63s/it]                                                            7%|▋         | 7266/100000 [3:59:11<42:01:35,  1.63s/it]  7%|▋         | 7267/100000 [3:59:12<40:51:35,  1.59s/it]                                                            7%|▋         | 7267/100000 [3:59:12<40:51:35,  1.59s/it]  7%|▋         | 7268/100000 [3:59:13<39:43:26,  1.54s/it]                                                            7%|▋         | 7268/100000 [3:59:13<39:43:26,  1.54s/it]  7%|▋         | 7269/100000 [3:59:15<38:27:35,  1.49s/it]                                                            7%|▋         | 7269/100000 [3:59:15<38:27:35,  1.49s/it]  7%|▋         | 7270/100000 [3:59:16<37:44:05,  1.46s/it]                                                            7%|▋         | 7270/100000 [3:59:16<37:44:05,  1.46s/it]  7%|▋         | 7271/100000 [3:59:18<37:05:02,  1.44s/it]                                                            7%|▋         | 7271/100000 [3:59:18<37:05:02,  1.44s/it]  7%|▋         | 7272/100000 [3:59:19<35:55:07,  1.39s/it]                                                            7%|▋         | 7272/100000 [3:59:19<35:55:07,  1.39s/it]  7%|▋         | 7273/100000 [3:59:20<35:17:41,  1.37s/it]                                                            7%|▋         | 7273/100000 [3:59:20<35:17:41,  1.37s/it]  7%|▋         | 7274/100000 [3:59:22<34:45:17,  1.35s/it]                                                            7%|▋         | 7274/100000 [3:59:22<34:45:17,  1.35s/it]  7%|▋         | 7275/100000 [3:59:23<34:15:19,  1.33s/it]                                                            7%|▋         | 7275/100000 [3:59:23<34:15:19,  1.33s/it]  7%|▋         | 7276/100000 [3:59:24<33:58:27,  1.32s/it]                                                            7%|▋         | 7276/100000 [3:59:24<33:58:27,  1.32s/it]  7%|▋         | 7277/100000 [3:59:25<33:37:45,  1.31s/it]                                                            7%|▋         | 7277/100000 [3:59:25<33:37:45,  1.31s/it]  7%|▋         | 7278/100000 [3:59:27<33:08:26,  1.29s/it]                                                            7%|▋         | 7278/100000 [3:59:27<33:08:26,  1.29s/it]  7%|▋         | 7279/100000 [3:59:28<32:47:33,  1.27s/it]                                                            7%|▋         | 7279/100000 [3:59:28<32:47:33,  1.27s/it]  7%|▋         | 7280/100000 [3:59:29<32:21:32,  1.26s/it]                                                            7%|▋         | 7280/100000 [3:59:29<32:21:32,  1.26s/it]  7%|▋         | 7281/100000 [3:59:30<31:50:32,  1.24s/it]                                                            7%|▋         | 7281/100000 [3:59:30<31:50:32,  1.24s/it]  7%|▋         | 7282/100000 [3:59:31<31:12:25,  1.21s/it]                                                            7%|▋         | 7282/100000 [3:59:31<31:12:25,  1.21s/it]  7%|▋         | 7283/100000 [3:59:33<30:46:50,  1.20s/it]                                                            7%|▋         | 7283/100000 [3:59:33<30:46:50,  1.20s/it]  7%|▋         | 7284/100000 [3:59:34<30:22:39,  1.18s/it]                                                            7%|▋         | 7284/100000 [3:59:34<30:22:39,  1.18s/it]  7%|▋         | 7285/100000 [3:59:35<30:00:07,  1.16s/it]                                                            7%|▋         | 7285/100000 [3:59:35<30:00:07,  1.16s/it]  7%|▋         | 7286/100000 [3:59:36<29:35:55,  1.15s/it]                                                            7%|▋         | 7286/100000 [3:59:36<29:35:55,  1.15s/it]  7%|▋         | 7287/100000 [3:59:37<29:11:39,  1.13s/it]                                                            7%|▋         | 7287/100000 [3:59:37<29:11:39,  1.13s/it]  7%|▋         | 7288/100000 [3:59:38<28:47:12,  1.12s/it]                                                            7%|▋         | 7288/100000 [3:59:38<28:47:12,  1.12s/it]  7%|▋         | 7289/100000 [3:59:39<28:21:57,  1.10s/it]                                                            7%|▋         | 7289/100000 [3:59:39<28:21:57,  1.10s/it]  7%|▋         | 7290/100000 [3:59:40<27:49:58,  1.08s/it]                                                            7%|▋         | 7290/100000 [3:59:40<27:49:58,  1.08s/it]  7%|▋         | 7291/100000 [3:59:41<27:29:00,  1.07s/it]                                                            7%|▋         | 7291/100000 [3:59:41<27:29:00,  1.07s/it]  7%|▋         | 7292/100000 [3:59:42<26:58:12,  1.05s/it]                                                            7%|▋         | 7292/100000 [3:59:42<26:58:12,  1.05s/it]  7%|▋         | 7293/100000 [3:59:43<26:29:19,  1.03s/it]                                                            7%|▋         | 7293/100000 [3:59:43<26:29:19,  1.03s/it]  7%|▋         | 7294/100000 [3:59:44<26:01:52,  1.01s/it]                                                            7%|▋         | 7294/100000 [3:59:44<26:01:52,  1.01s/it]  7%|▋         | 7295/100000 [3:59:45<25:38:16,  1.00it/s]                                                            7%|▋         | 7295/100000 [3:59:45<25:38:16,  1.00it/s]  7%|▋         | 7296/100000 [3:59:46<24:54:24,  1.03it/s]                                                          {'loss': 0.0284, 'grad_norm': 0.40251773595809937, 'learning_rate': 2.163e-05, 'epoch': 13.31}
+{'loss': 0.0207, 'grad_norm': 0.3544987142086029, 'learning_rate': 2.1633e-05, 'epoch': 13.31}
+{'loss': 0.0214, 'grad_norm': 0.33679115772247314, 'learning_rate': 2.1635999999999997e-05, 'epoch': 13.31}
+{'loss': 0.0154, 'grad_norm': 0.43973714113235474, 'learning_rate': 2.1639e-05, 'epoch': 13.31}
+{'loss': 0.0215, 'grad_norm': 0.3998846113681793, 'learning_rate': 2.1642e-05, 'epoch': 13.32}
+{'loss': 0.0149, 'grad_norm': 0.6689403057098389, 'learning_rate': 2.1645e-05, 'epoch': 13.32}
+{'loss': 0.023, 'grad_norm': 0.6973395347595215, 'learning_rate': 2.1648e-05, 'epoch': 13.32}
+{'loss': 0.0153, 'grad_norm': 0.6347224116325378, 'learning_rate': 2.1651e-05, 'epoch': 13.32}
+{'loss': 0.0161, 'grad_norm': 0.4243088662624359, 'learning_rate': 2.1654e-05, 'epoch': 13.32}
+{'loss': 0.0168, 'grad_norm': 0.4804117679595947, 'learning_rate': 2.1657e-05, 'epoch': 13.33}
+{'loss': 0.0126, 'grad_norm': 0.36143893003463745, 'learning_rate': 2.166e-05, 'epoch': 13.33}
+{'loss': 0.0167, 'grad_norm': 0.32996055483818054, 'learning_rate': 2.1663e-05, 'epoch': 13.33}
+{'loss': 0.011, 'grad_norm': 0.2420320361852646, 'learning_rate': 2.1666e-05, 'epoch': 13.33}
+{'loss': 0.0158, 'grad_norm': 0.42439308762550354, 'learning_rate': 2.1669000000000002e-05, 'epoch': 13.33}
+{'loss': 0.0122, 'grad_norm': 0.28058120608329773, 'learning_rate': 2.1672000000000002e-05, 'epoch': 13.33}
+{'loss': 0.0115, 'grad_norm': 0.2649085819721222, 'learning_rate': 2.1675e-05, 'epoch': 13.34}
+{'loss': 0.0249, 'grad_norm': 0.6683909893035889, 'learning_rate': 2.1678e-05, 'epoch': 13.34}
+{'loss': 0.0275, 'grad_norm': 0.40081146359443665, 'learning_rate': 2.1681e-05, 'epoch': 13.34}
+{'loss': 0.0199, 'grad_norm': 0.8051175475120544, 'learning_rate': 2.1684e-05, 'epoch': 13.34}
+{'loss': 0.0095, 'grad_norm': 0.21623077988624573, 'learning_rate': 2.1687e-05, 'epoch': 13.34}
+{'loss': 0.0209, 'grad_norm': 0.4252525269985199, 'learning_rate': 2.169e-05, 'epoch': 13.35}
+{'loss': 0.0206, 'grad_norm': 0.5248692035675049, 'learning_rate': 2.1693e-05, 'epoch': 13.35}
+{'loss': 0.0261, 'grad_norm': 16.779129028320312, 'learning_rate': 2.1696e-05, 'epoch': 13.35}
+{'loss': 0.0227, 'grad_norm': 0.3974554240703583, 'learning_rate': 2.1699000000000003e-05, 'epoch': 13.35}
+{'loss': 0.0111, 'grad_norm': 0.27056658267974854, 'learning_rate': 2.1702000000000003e-05, 'epoch': 13.35}
+{'loss': 0.0213, 'grad_norm': 0.42890921235084534, 'learning_rate': 2.1705000000000003e-05, 'epoch': 13.35}
+{'loss': 0.0128, 'grad_norm': 1.2918071746826172, 'learning_rate': 2.1708e-05, 'epoch': 13.36}
+{'loss': 0.0131, 'grad_norm': 0.5146956443786621, 'learning_rate': 2.1711e-05, 'epoch': 13.36}
+{'loss': 0.0167, 'grad_norm': 0.8489638566970825, 'learning_rate': 2.1714e-05, 'epoch': 13.36}
+{'loss': 0.0208, 'grad_norm': 1.5672495365142822, 'learning_rate': 2.1717e-05, 'epoch': 13.36}
+{'loss': 0.0226, 'grad_norm': 0.9432560801506042, 'learning_rate': 2.172e-05, 'epoch': 13.36}
+{'loss': 0.0224, 'grad_norm': 0.821049153804779, 'learning_rate': 2.1723e-05, 'epoch': 13.37}
+{'loss': 0.0179, 'grad_norm': 0.4392554759979248, 'learning_rate': 2.1726e-05, 'epoch': 13.37}
+{'loss': 0.0096, 'grad_norm': 0.5630433559417725, 'learning_rate': 2.1729e-05, 'epoch': 13.37}
+{'loss': 0.1936, 'grad_norm': 0.8121259212493896, 'learning_rate': 2.1732e-05, 'epoch': 13.37}
+{'loss': 0.3012, 'grad_norm': 2.499257802963257, 'learning_rate': 2.1735e-05, 'epoch': 13.37}
+{'loss': 0.1467, 'grad_norm': 0.7789328098297119, 'learning_rate': 2.1738e-05, 'epoch': 13.37}
+{'loss': 0.1901, 'grad_norm': 0.8124067783355713, 'learning_rate': 2.1741e-05, 'epoch': 13.38}
+{'loss': 0.1848, 'grad_norm': 0.9140483140945435, 'learning_rate': 2.1744e-05, 'epoch': 13.38}
+{'loss': 0.1444, 'grad_norm': 1.3085297346115112, 'learning_rate': 2.1747e-05, 'epoch': 13.38}
+{'loss': 0.119, 'grad_norm': 0.7353108525276184, 'learning_rate': 2.175e-05, 'epoch': 13.38}
+{'loss': 0.1582, 'grad_norm': 0.7093847990036011, 'learning_rate': 2.1753e-05, 'epoch': 13.38}
+{'loss': 0.1042, 'grad_norm': 0.660713791847229, 'learning_rate': 2.1756e-05, 'epoch': 13.39}
+{'loss': 0.0789, 'grad_norm': 0.53863126039505, 'learning_rate': 2.1759e-05, 'epoch': 13.39}
+{'loss': 0.0701, 'grad_norm': 0.437294602394104, 'learning_rate': 2.1762000000000003e-05, 'epoch': 13.39}
+{'loss': 0.0459, 'grad_norm': 0.5495612621307373, 'learning_rate': 2.1765000000000003e-05, 'epoch': 13.39}
+{'loss': 0.0419, 'grad_norm': 0.43721771240234375, 'learning_rate': 2.1768000000000002e-05, 'epoch': 13.39}
+{'loss': 0.0607, 'grad_norm': 0.65282142162323, 'learning_rate': 2.1771000000000002e-05, 'epoch': 13.4}
+{'loss': 0.0373, 'grad_norm': 0.4140559732913971, 'learning_rate': 2.1774000000000002e-05, 'epoch': 13.4}
+{'loss': 0.0588, 'grad_norm': 0.6380917429924011, 'learning_rate': 2.1777000000000002e-05, 'epoch': 13.4}
+{'loss': 0.0628, 'grad_norm': 0.4607631266117096, 'learning_rate': 2.178e-05, 'epoch': 13.4}
+{'loss': 0.0248, 'grad_norm': 0.7542992234230042, 'learning_rate': 2.1782999999999998e-05, 'epoch': 13.4}
+{'loss': 0.046, 'grad_norm': 0.5851745009422302, 'learning_rate': 2.1785999999999998e-05, 'epoch': 13.4}
+{'loss': 0.0225, 'grad_norm': 0.7884859442710876, 'learning_rate': 2.1788999999999998e-05, 'epoch': 13.41}
+{'loss': 0.0255, 'grad_norm': 0.38143467903137207, 'learning_rate': 2.1792e-05, 'epoch': 13.41}
+{'loss': 0.0206, 'grad_norm': 0.5632845759391785, 'learning_rate': 2.1795e-05, 'epoch': 13.41}
+{'loss': 0.038, 'grad_norm': 0.4236559271812439, 'learning_rate': 2.1798e-05, 'epoch': 13.41}
+{'loss': 0.0261, 'grad_norm': 0.43563246726989746, 'learning_rate': 2.1801e-05, 'epoch': 13.41}
+{'loss': 0.0161, 'grad_norm': 0.2808643579483032, 'learning_rate': 2.1804e-05, 'epoch': 13.42}
+{'loss': 0.0196, 'grad_norm': 0.45650675892829895, 'learning_rate': 2.1807e-05, 'epoch': 13.42}
+{'loss': 0.0124, 'grad_norm': 0.24618905782699585, 'learning_rate': 2.181e-05, 'epoch': 13.42}
+{'loss': 0.0202, 'grad_norm': 0.2942012846469879, 'learning_rate': 2.1813e-05, 'epoch': 13.42}
+{'loss': 0.0192, 'grad_norm': 0.26131290197372437, 'learning_rate': 2.1816e-05, 'epoch': 13.42}
+{'loss': 0.013, 'grad_norm': 0.3145621418952942, 'learning_rate': 2.1819e-05, 'epoch': 13.42}
+{'loss': 0.0152, 'grad_norm': 0.48726406693458557, 'learning_rate': 2.1822000000000002e-05, 'epoch': 13.43}
+{'loss': 0.0123, 'grad_norm': 0.4565317928791046, 'learning_rate': 2.1825000000000002e-05, 'epoch': 13.43}
+{'loss': 0.0154, 'grad_norm': 0.48445793986320496, 'learning_rate': 2.1828000000000002e-05, 'epoch': 13.43}
+{'loss': 0.0192, 'grad_norm': 0.3091747760772705, 'learning_rate': 2.1831e-05, 'epoch': 13.43}
+{'loss': 0.0188, 'grad_norm': 1.0693906545639038, 'learning_rate': 2.1834e-05, 'epoch': 13.43}
+{'loss': 0.0174, 'grad_norm': 0.3439318537712097, 'learning_rate': 2.1837e-05, 'epoch': 13.44}
+{'loss': 0.0232, 'grad_norm': 0.8398624658584595, 'learning_rate': 2.184e-05, 'epoch': 13.44}
+{'loss': 0.0239, 'grad_norm': 0.5656768679618835, 'learning_rate': 2.1843e-05, 'epoch': 13.44}
+{'loss': 0.0174, 'grad_norm': 0.8627192974090576, 'learning_rate': 2.1846e-05, 'epoch': 13.44}
+{'loss': 0.0186, 'grad_norm': 0.40234649181365967, 'learning_rate': 2.1849e-05, 'epoch': 13.44}
+{'loss': 0.0147, 'grad_norm': 0.26516568660736084, 'learning_rate': 2.1852000000000004e-05, 'epoch': 13.45}
+{'loss': 0.0153, 'grad_norm': 0.7071975469589233, 'learning_rate': 2.1855e-05, 'epoch': 13.45}
+{'loss': 0.025, 'grad_norm': 1.1829360723495483, 'learning_rate': 2.1858e-05, 'epoch': 13.45}
+{'loss': 0.023, 'grad_norm': 0.37632063031196594, 'learning_rate': 2.1861e-05, 'epoch': 13.45}
+{'loss': 0.013, 'grad_norm': 0.29822513461112976, 'learning_rate': 2.1864e-05, 'epoch': 13.45}
+{'loss': 0.0174, 'grad_norm': 0.3867357671260834, 'learning_rate': 2.1867e-05, 'epoch': 13.45}
+{'loss': 0.0137, 'grad_norm': 0.380867600440979, 'learning_rate': 2.187e-05, 'epoch': 13.46}
+{'loss': 0.0166, 'grad_norm': 0.4950351417064667, 'learning_rate': 2.1873e-05, 'epoch': 13.46}
+{'loss': 0.0274, 'grad_norm': 1.1106423139572144, 'learning_rate': 2.1876e-05, 'epoch': 13.46}
+  7%|▋         | 7296/100000 [3:59:46<24:54:24,  1.03it/s]  7%|▋         | 7297/100000 [3:59:58<109:11:40,  4.24s/it]                                                             7%|▋         | 7297/100000 [3:59:58<109:11:40,  4.24s/it]  7%|▋         | 7298/100000 [4:00:03<118:07:05,  4.59s/it]                                                             7%|▋         | 7298/100000 [4:00:03<118:07:05,  4.59s/it]  7%|▋         | 7299/100000 [4:00:08<119:14:11,  4.63s/it]                                                             7%|▋         | 7299/100000 [4:00:08<119:14:11,  4.63s/it]  7%|▋         | 7300/100000 [4:00:12<114:38:21,  4.45s/it]                                                             7%|▋         | 7300/100000 [4:00:12<114:38:21,  4.45s/it]  7%|▋         | 7301/100000 [4:00:16<107:18:45,  4.17s/it]                                                             7%|▋         | 7301/100000 [4:00:16<107:18:45,  4.17s/it]  7%|▋         | 7302/100000 [4:00:19<100:02:21,  3.89s/it]                                                             7%|▋         | 7302/100000 [4:00:19<100:02:21,  3.89s/it]  7%|▋         | 7303/100000 [4:00:22<92:25:03,  3.59s/it]                                                             7%|▋         | 7303/100000 [4:00:22<92:25:03,  3.59s/it]  7%|▋         | 7304/100000 [4:00:24<84:17:39,  3.27s/it]                                                            7%|▋         | 7304/100000 [4:00:24<84:17:39,  3.27s/it]  7%|▋         | 7305/100000 [4:00:27<77:45:10,  3.02s/it]                                                            7%|▋         | 7305/100000 [4:00:27<77:45:10,  3.02s/it]  7%|▋         | 7306/100000 [4:00:29<72:07:56,  2.80s/it]                                                            7%|▋         | 7306/100000 [4:00:29<72:07:56,  2.80s/it]  7%|▋         | 7307/100000 [4:00:31<66:43:40,  2.59s/it]                                                            7%|▋         | 7307/100000 [4:00:31<66:43:40,  2.59s/it]  7%|▋         | 7308/100000 [4:00:33<62:04:44,  2.41s/it]                                                            7%|▋         | 7308/100000 [4:00:33<62:04:44,  2.41s/it]  7%|▋         | 7309/100000 [4:00:35<58:08:25,  2.26s/it]                                                            7%|▋         | 7309/100000 [4:00:35<58:08:25,  2.26s/it]  7%|▋         | 7310/100000 [4:00:37<54:36:47,  2.12s/it]                                                            7%|▋         | 7310/100000 [4:00:37<54:36:47,  2.12s/it]  7%|▋         | 7311/100000 [4:00:39<51:33:57,  2.00s/it]                                                            7%|▋         | 7311/100000 [4:00:39<51:33:57,  2.00s/it]  7%|▋         | 7312/100000 [4:00:40<48:46:59,  1.89s/it]                                                            7%|▋         | 7312/100000 [4:00:40<48:46:59,  1.89s/it]  7%|▋         | 7313/100000 [4:00:42<46:38:01,  1.81s/it]                                                            7%|▋         | 7313/100000 [4:00:42<46:38:01,  1.81s/it]  7%|▋         | 7314/100000 [4:00:43<44:43:43,  1.74s/it]                                                            7%|▋         | 7314/100000 [4:00:43<44:43:43,  1.74s/it]  7%|▋         | 7315/100000 [4:00:45<42:49:13,  1.66s/it]                                                            7%|▋         | 7315/100000 [4:00:45<42:49:13,  1.66s/it]  7%|▋         | 7316/100000 [4:00:46<41:08:45,  1.60s/it]                                                            7%|▋         | 7316/100000 [4:00:46<41:08:45,  1.60s/it]  7%|▋         | 7317/100000 [4:00:48<40:12:31,  1.56s/it]                                                            7%|▋         | 7317/100000 [4:00:48<40:12:31,  1.56s/it]  7%|▋         | 7318/100000 [4:00:49<39:12:05,  1.52s/it]                                                            7%|▋         | 7318/100000 [4:00:49<39:12:05,  1.52s/it]  7%|▋         | 7319/100000 [4:00:51<38:21:17,  1.49s/it]                                                            7%|▋         | 7319/100000 [4:00:51<38:21:17,  1.49s/it]  7%|▋         | 7320/100000 [4:00:52<37:18:26,  1.45s/it]                                                            7%|▋         | 7320/100000 [4:00:52<37:18:26,  1.45s/it]  7%|▋         | 7321/100000 [4:00:53<36:43:27,  1.43s/it]                                                            7%|▋         | 7321/100000 [4:00:53<36:43:27,  1.43s/it]  7%|▋         | 7322/100000 [4:00:55<35:50:54,  1.39s/it]                                                            7%|▋         | 7322/100000 [4:00:55<35:50:54,  1.39s/it]  7%|▋         | 7323/100000 [4:00:56<35:25:35,  1.38s/it]                                                            7%|▋         | 7323/100000 [4:00:56<35:25:35,  1.38s/it]  7%|▋         | 7324/100000 [4:00:57<34:40:42,  1.35s/it]                                                            7%|▋         | 7324/100000 [4:00:57<34:40:42,  1.35s/it]  7%|▋         | 7325/100000 [4:00:59<34:15:51,  1.33s/it]                                                            7%|▋         | 7325/100000 [4:00:59<34:15:51,  1.33s/it]  7%|▋         | 7326/100000 [4:01:00<33:38:30,  1.31s/it]                                                            7%|▋         | 7326/100000 [4:01:00<33:38:30,  1.31s/it]  7%|▋         | 7327/100000 [4:01:01<33:09:33,  1.29s/it]                                                            7%|▋         | 7327/100000 [4:01:01<33:09:33,  1.29s/it]  7%|▋         | 7328/100000 [4:01:02<32:37:59,  1.27s/it]                                                            7%|▋         | 7328/100000 [4:01:02<32:37:59,  1.27s/it]  7%|▋         | 7329/100000 [4:01:04<32:16:20,  1.25s/it]                                                            7%|▋         | 7329/100000 [4:01:04<32:16:20,  1.25s/it]  7%|▋         | 7330/100000 [4:01:05<31:40:29,  1.23s/it]                                                            7%|▋         | 7330/100000 [4:01:05<31:40:29,  1.23s/it]  7%|▋         | 7331/100000 [4:01:06<31:11:16,  1.21s/it]                                                            7%|▋         | 7331/100000 [4:01:06<31:11:16,  1.21s/it]  7%|▋         | 7332/100000 [4:01:07<30:43:12,  1.19s/it]                                                            7%|▋         | 7332/100000 [4:01:07<30:43:12,  1.19s/it]  7%|▋         | 7333/100000 [4:01:08<30:12:21,  1.17s/it]                                                            7%|▋         | 7333/100000 [4:01:08<30:12:21,  1.17s/it]  7%|▋         | 7334/100000 [4:01:09<29:39:29,  1.15s/it]                                                            7%|▋         | 7334/100000 [4:01:09<29:39:29,  1.15s/it]  7%|▋         | 7335/100000 [4:01:10<29:07:47,  1.13s/it]                                                            7%|▋         | 7335/100000 [4:01:10<29:07:47,  1.13s/it]  7%|▋         | 7336/100000 [4:01:11<28:35:11,  1.11s/it]                                                            7%|▋         | 7336/100000 [4:01:11<28:35:11,  1.11s/it]  7%|▋         | 7337/100000 [4:01:12<28:03:28,  1.09s/it]                                                            7%|▋         | 7337/100000 [4:01:12<28:03:28,  1.09s/it]  7%|▋         | 7338/100000 [4:01:14<28:06:20,  1.09s/it]                                                            7%|▋         | 7338/100000 [4:01:14<28:06:20,  1.09s/it]  7%|▋         | 7339/100000 [4:01:15<27:44:58,  1.08s/it]                                                            7%|▋         | 7339/100000 [4:01:15<27:44:58,  1.08s/it]  7%|▋         | 7340/100000 [4:01:16<27:28:49,  1.07s/it]                                                            7%|▋         | 7340/100000 [4:01:16<27:28:49,  1.07s/it]  7%|▋         | 7341/100000 [4:01:17<27:09:14,  1.05s/it]                                                            7%|▋         | 7341/100000 [4:01:17<27:09:14,  1.05s/it]  7%|▋         | 7342/100000 [4:01:18<26:44:21,  1.04s/it]                                                            7%|▋         | 7342/100000 [4:01:18<26:44:21,  1.04s/it]  7%|▋         | 7343/100000 [4:01:19<26:14:19,  1.02s/it]                                                            7%|▋         | 7343/100000 [4:01:19<26:14:19,  1.02s/it]  7%|▋         | 7344/100000 [4:01:20<25:37:08,  1.00it/s]                                                            7%|▋         | 7344/100000 [4:01:20<25:37:08,  1.00it/s]  7%|▋         | 7345/100000 [4:01:20<24:55:38,  1.03it/s]                                                            7%|▋         | 7345/100000 [4:01:20<24:55:38,  1.03it/s]  7%|▋         | 7346/100000 [4:01:21<24:29:02,  1.05it/s]                                                            7%|▋         | 7346/100000 [4:01:21<24:29:02,  1.05it/s]  7%|▋         | 7347/100000 [4:01:32<99:56:29,  3.88s/it]                                                            7%|▋         | 7347/100000 [4:01:32<99:56:29,  3.88s/it]  7%|▋         | 7348/100000 [4:01:38<113:17:29,  4.40s/it]                                                             7%|▋         | 7348/100000 [4:01:38<113:17:29,  4.40s/it]  7%|▋         | 7349/100000 [4:01:42<114:54:55,  4.47s/it]                                                             7%|▋         | 7349/100000 [4:01:42<114:54:55,  4.47s/it]  7%|▋         | 7350/100000 [4:01:46<110:34:32,  4.30s/it]                                                             7%|▋         | 7350/100000 [4:01:46<110:34:32,  4.30s/it]  7%|▋         | 7351/100000 [4:01:50<104:05:14,  4.04s/it]                                                             7%|▋         | 7351/100000 [4:01:50<104:05:14,  4.04s/it]  7%|▋         | 7352/100000 [4:01:53<97:58:07,  3.81s/it]                                                             7%|▋         | 7352/100000 [4:01:53<97:58:07,  3.81s/it]  7%|▋         | 7353/100000 [4:01:56<92:06:53,  3.58s/it]                                                            7%|▋         | 7353/100000 [4:01:56<92:06:53,  3.58s/it]  7%|▋         | 7354/100000 [4:01:59<84:04:26,  3.27s/it]                                                            7%|▋         | 7354/100000 [4:01:59<84:04:26,  3.27s/it]  7%|▋         | 7355/100000 [4:02:01<77:09:55,  3.00s/it]                                                            7%|▋         | 7355/100000 [4:02:01<77:09:55,  3.00s/it]  7%|▋         | 7356/100000 [4:02:03<71:31:43,  2.78s/it]                                                            7%|▋         | 7356/100000 [4:02:03<71:31:43,  2.78s/it]  7%|▋         | 7357/100000 [4:02:05<66:10:45,  2.57s/it]                                                            7%|▋         | 7357/100000 [4:02:05<66:10:45,  2.57s/it]  7%|▋         | 7358/100000 [4:02:07<61:16:50,  2.38s/it]                                                            7%|▋         | 7358/100000 [4:02:07<61:16:50,  2.38s/it]  7%|▋         | 7359/100000 [4:02:09<57:05:30,  2.22s/it]                                                            7%|▋         | 7359/100000 [4:02:09<57:05:30,  2.22s/it]  7%|▋         | 7360/100000 [4:02:11<53:38:08,  2.08s/it]                                                            7%|▋         | 7360/100000 [4:02:11<53:38:08,  2.08s/it]  7%|▋         | 7361/100000 [4:02:12<50:12:32,  1.95s/it]                                                            7%|▋         | 7361/100000 [4:02:12<50:12:32,  1.95s/it]  7%|▋         | 7362/100000 [4:02:14<47:45:20,  1.86s/it]                                                            7%|▋         | 7362/100000 [4:02:14<47:45:20,  1.86s/it]  7%|▋         | 7363/100000 [4:02:16<45:46:48,  1.78s/it]                                                            7%|▋         | 7363/100000 [4:02:16<45:46:48,  1.78s/it]  7%|▋         | 7364/100000 [4:02:17<43:57:12,  1.71s/it]                                                            7%|▋         | 7364/100000 [4:02:17<43:57:12,  1.71s/it]  7%|▋         | 7365/100000 [4:02:19<42:28:25,  1.65s/it]                                                            7%|▋         | 7365/100000 [4:02:19<42:28:25,  1.65s/it]  7%|▋         | 7366/100000 [4:02:20<41:06:31,  1.60s/it]                                                            7%|▋         | 7366/100000 [4:02:20<41:06:31,  1.60s/it]  7%|▋         | 7367/100000 [4:02:22<39:55:18,  1.55s/it]                                                            7%|▋         | 7367/100000 [4:02:22<39:55:18,  1.55s/it]  7%|▋         | 7368/100000 [4:02:23<39:01:20,  1.52s/it]                                                            7%|▋         | 7368/100000 [4:02:23<39:01:20,  1.52s/it]  7%|▋         | 7369/100000 [4:02:24<38:09:56,  1.48s/it]                                                            7%|▋         | 7369/100000 [4:02:24<38:09:56,  1.48s/it]  7%|▋         | 7370/100000 [4:02:26<37:22:37,  1.45s/it]                                                            7%|▋         | 7370/100000 [4:02:26<37:22:37,  1.45s/it]  7%|▋         | 7371/100000 [4:02:27<36:41:29,  1.43s/it]                                                            7%|▋         | 7371/100000 [4:02:27<36:41:29,  1.43s/it]  7%|▋         | 7372/100000 [4:02:29<36:03:46,  1.40s/it]                                                            7%|▋         | 7372/100000 [4:02:29<36:03:46,  1.40s/it]  7%|▋         | 7373/100000 [4:02:30<35:24:45,  1.38s/it]                                                            7%|▋         | 7373/100000 [4:02:30<35:24:45,  1.38s/it]  7%|▋         | 7374/100000 [4:02:31<34:48:06,  1.35s/it]                                                            7%|▋         | 7374/100000 [4:02:31<34:48:06,  1.35s/it]  7%|▋         | 7375/100000 [4:02:32<34:00:45,  1.32s/it]                                                            7%|▋         | 7375/100000 [4:02:32<34:00:45,  1.32s/it]  7%|▋         | 7376/100000 [4:02:34<33:45:30,  1.31s/it]                                                            7%|▋         | 7376/100000 [4:02:34<33:45:30,  1.31s/it]  7%|▋         | 7377/100000 [4:02:35<33:19:50,  1.30s/it]                                                            7%|▋         | 7377/100000 [4:02:35<33:19:50,  1.30s/it]  7%|▋         | 7378/100000 [4:02:36<32:36:23,  1.27s/it]                                                            7%|▋         | 7378/100000 [4:02:36<32:36:23,  1.27s/it]  7%|▋         | 7379/100000 [4:02:37<31:58:05,  1.24s/it]                                                          {'loss': 0.0375, 'grad_norm': 0.5773835778236389, 'learning_rate': 2.1879e-05, 'epoch': 13.46}
+{'loss': 0.232, 'grad_norm': 1.07211434841156, 'learning_rate': 2.1882e-05, 'epoch': 13.46}
+{'loss': 0.1851, 'grad_norm': 0.7582486867904663, 'learning_rate': 2.1885e-05, 'epoch': 13.47}
+{'loss': 0.1718, 'grad_norm': 0.8717134594917297, 'learning_rate': 2.1888e-05, 'epoch': 13.47}
+{'loss': 0.1342, 'grad_norm': 0.5966388583183289, 'learning_rate': 2.1891e-05, 'epoch': 13.47}
+{'loss': 0.1264, 'grad_norm': 0.7327893972396851, 'learning_rate': 2.1894e-05, 'epoch': 13.47}
+{'loss': 0.1263, 'grad_norm': 0.8322132229804993, 'learning_rate': 2.1897e-05, 'epoch': 13.47}
+{'loss': 0.0919, 'grad_norm': 0.6498303413391113, 'learning_rate': 2.19e-05, 'epoch': 13.47}
+{'loss': 0.1055, 'grad_norm': 0.9275102019309998, 'learning_rate': 2.1903e-05, 'epoch': 13.48}
+{'loss': 0.084, 'grad_norm': 0.5299592614173889, 'learning_rate': 2.1906e-05, 'epoch': 13.48}
+{'loss': 0.0772, 'grad_norm': 0.4677112400531769, 'learning_rate': 2.1909e-05, 'epoch': 13.48}
+{'loss': 0.0993, 'grad_norm': 1.0250064134597778, 'learning_rate': 2.1912000000000003e-05, 'epoch': 13.48}
+{'loss': 0.0496, 'grad_norm': 0.40030497312545776, 'learning_rate': 2.1915000000000003e-05, 'epoch': 13.48}
+{'loss': 0.1111, 'grad_norm': 0.639595091342926, 'learning_rate': 2.1918000000000003e-05, 'epoch': 13.49}
+{'loss': 0.0682, 'grad_norm': 0.5788593292236328, 'learning_rate': 2.1921000000000002e-05, 'epoch': 13.49}
+{'loss': 0.0278, 'grad_norm': 1.2469546794891357, 'learning_rate': 2.1924000000000002e-05, 'epoch': 13.49}
+{'loss': 0.025, 'grad_norm': 0.4102165699005127, 'learning_rate': 2.1927000000000002e-05, 'epoch': 13.49}
+{'loss': 0.0358, 'grad_norm': 0.489040344953537, 'learning_rate': 2.193e-05, 'epoch': 13.49}
+{'loss': 0.0198, 'grad_norm': 0.269023597240448, 'learning_rate': 2.1932999999999998e-05, 'epoch': 13.49}
+{'loss': 0.0973, 'grad_norm': 0.7333555221557617, 'learning_rate': 2.1935999999999998e-05, 'epoch': 13.5}
+{'loss': 0.0403, 'grad_norm': 0.6423579454421997, 'learning_rate': 2.1938999999999998e-05, 'epoch': 13.5}
+{'loss': 0.0143, 'grad_norm': 0.356412410736084, 'learning_rate': 2.1942e-05, 'epoch': 13.5}
+{'loss': 0.0432, 'grad_norm': 0.7933915853500366, 'learning_rate': 2.1945e-05, 'epoch': 13.5}
+{'loss': 0.0215, 'grad_norm': 0.3011784553527832, 'learning_rate': 2.1948e-05, 'epoch': 13.5}
+{'loss': 0.0161, 'grad_norm': 0.2465125173330307, 'learning_rate': 2.1951e-05, 'epoch': 13.51}
+{'loss': 0.0158, 'grad_norm': 0.5328660607337952, 'learning_rate': 2.1954e-05, 'epoch': 13.51}
+{'loss': 0.0195, 'grad_norm': 0.33585166931152344, 'learning_rate': 2.1957e-05, 'epoch': 13.51}
+{'loss': 0.016, 'grad_norm': 0.4674575924873352, 'learning_rate': 2.196e-05, 'epoch': 13.51}
+{'loss': 0.017, 'grad_norm': 0.629899263381958, 'learning_rate': 2.1963e-05, 'epoch': 13.51}
+{'loss': 0.0181, 'grad_norm': 0.4062348008155823, 'learning_rate': 2.1966e-05, 'epoch': 13.52}
+{'loss': 0.0141, 'grad_norm': 0.2978869676589966, 'learning_rate': 2.1969e-05, 'epoch': 13.52}
+{'loss': 0.0153, 'grad_norm': 0.3354339003562927, 'learning_rate': 2.1972000000000002e-05, 'epoch': 13.52}
+{'loss': 0.0139, 'grad_norm': 1.723165512084961, 'learning_rate': 2.1975000000000002e-05, 'epoch': 13.52}
+{'loss': 0.0161, 'grad_norm': 0.6914976239204407, 'learning_rate': 2.1978000000000002e-05, 'epoch': 13.52}
+{'loss': 0.0153, 'grad_norm': 0.48744842410087585, 'learning_rate': 2.1981000000000002e-05, 'epoch': 13.52}
+{'loss': 0.0094, 'grad_norm': 0.22318950295448303, 'learning_rate': 2.1984e-05, 'epoch': 13.53}
+{'loss': 0.0422, 'grad_norm': 1.1957658529281616, 'learning_rate': 2.1987e-05, 'epoch': 13.53}
+{'loss': 0.0111, 'grad_norm': 0.39699581265449524, 'learning_rate': 2.199e-05, 'epoch': 13.53}
+{'loss': 0.0102, 'grad_norm': 0.30261993408203125, 'learning_rate': 2.1993e-05, 'epoch': 13.53}
+{'loss': 0.0151, 'grad_norm': 0.46019795536994934, 'learning_rate': 2.1996e-05, 'epoch': 13.53}
+{'loss': 0.0186, 'grad_norm': 0.6777722835540771, 'learning_rate': 2.1999e-05, 'epoch': 13.54}
+{'loss': 0.0189, 'grad_norm': 0.44539082050323486, 'learning_rate': 2.2002e-05, 'epoch': 13.54}
+{'loss': 0.0343, 'grad_norm': 1.1245629787445068, 'learning_rate': 2.2005e-05, 'epoch': 13.54}
+{'loss': 0.0116, 'grad_norm': 0.4725266695022583, 'learning_rate': 2.2008e-05, 'epoch': 13.54}
+{'loss': 0.0257, 'grad_norm': 0.5914231538772583, 'learning_rate': 2.2011e-05, 'epoch': 13.54}
+{'loss': 0.0249, 'grad_norm': 0.8138396739959717, 'learning_rate': 2.2014e-05, 'epoch': 13.54}
+{'loss': 0.0177, 'grad_norm': 0.7865918874740601, 'learning_rate': 2.2017e-05, 'epoch': 13.55}
+{'loss': 0.0211, 'grad_norm': 0.5864379405975342, 'learning_rate': 2.202e-05, 'epoch': 13.55}
+{'loss': 0.0153, 'grad_norm': 0.5314502716064453, 'learning_rate': 2.2023e-05, 'epoch': 13.55}
+{'loss': 0.0318, 'grad_norm': 1.0157397985458374, 'learning_rate': 2.2026e-05, 'epoch': 13.55}
+{'loss': 0.0208, 'grad_norm': 0.9477611184120178, 'learning_rate': 2.2029e-05, 'epoch': 13.55}
+{'loss': 0.2425, 'grad_norm': 0.9941097497940063, 'learning_rate': 2.2032000000000002e-05, 'epoch': 13.56}
+{'loss': 0.2258, 'grad_norm': 0.6913464665412903, 'learning_rate': 2.2035e-05, 'epoch': 13.56}
+{'loss': 0.211, 'grad_norm': 1.1100223064422607, 'learning_rate': 2.2038e-05, 'epoch': 13.56}
+{'loss': 0.1512, 'grad_norm': 0.7175942063331604, 'learning_rate': 2.2041e-05, 'epoch': 13.56}
+{'loss': 0.1469, 'grad_norm': 0.6584893465042114, 'learning_rate': 2.2044e-05, 'epoch': 13.56}
+{'loss': 0.2033, 'grad_norm': 1.1889525651931763, 'learning_rate': 2.2047e-05, 'epoch': 13.57}
+{'loss': 0.0866, 'grad_norm': 0.49368175864219666, 'learning_rate': 2.205e-05, 'epoch': 13.57}
+{'loss': 0.0779, 'grad_norm': 0.514544665813446, 'learning_rate': 2.2053e-05, 'epoch': 13.57}
+{'loss': 0.1321, 'grad_norm': 1.3042136430740356, 'learning_rate': 2.2056e-05, 'epoch': 13.57}
+{'loss': 0.0815, 'grad_norm': 0.49586865305900574, 'learning_rate': 2.2059e-05, 'epoch': 13.57}
+{'loss': 0.0517, 'grad_norm': 0.5277937650680542, 'learning_rate': 2.2062000000000003e-05, 'epoch': 13.57}
+{'loss': 0.0841, 'grad_norm': 0.40392178297042847, 'learning_rate': 2.2065000000000003e-05, 'epoch': 13.58}
+{'loss': 0.0392, 'grad_norm': 0.5108973979949951, 'learning_rate': 2.2068000000000003e-05, 'epoch': 13.58}
+{'loss': 0.0296, 'grad_norm': 0.4702042043209076, 'learning_rate': 2.2071000000000003e-05, 'epoch': 13.58}
+{'loss': 0.0325, 'grad_norm': 0.4801340103149414, 'learning_rate': 2.2074000000000002e-05, 'epoch': 13.58}
+{'loss': 0.0225, 'grad_norm': 0.4173518419265747, 'learning_rate': 2.2077e-05, 'epoch': 13.58}
+{'loss': 0.0191, 'grad_norm': 0.4327594041824341, 'learning_rate': 2.208e-05, 'epoch': 13.59}
+{'loss': 0.038, 'grad_norm': 0.5534989237785339, 'learning_rate': 2.2083e-05, 'epoch': 13.59}
+{'loss': 0.0087, 'grad_norm': 0.19051194190979004, 'learning_rate': 2.2085999999999998e-05, 'epoch': 13.59}
+{'loss': 0.0308, 'grad_norm': 0.4202093482017517, 'learning_rate': 2.2088999999999998e-05, 'epoch': 13.59}
+{'loss': 0.02, 'grad_norm': 0.7560642957687378, 'learning_rate': 2.2092e-05, 'epoch': 13.59}
+{'loss': 0.0078, 'grad_norm': 0.2742268145084381, 'learning_rate': 2.2095e-05, 'epoch': 13.59}
+{'loss': 0.0199, 'grad_norm': 0.5704046487808228, 'learning_rate': 2.2098e-05, 'epoch': 13.6}
+{'loss': 0.0219, 'grad_norm': 0.6069647073745728, 'learning_rate': 2.2101e-05, 'epoch': 13.6}
+{'loss': 0.0419, 'grad_norm': 0.44164136052131653, 'learning_rate': 2.2104e-05, 'epoch': 13.6}
+{'loss': 0.026, 'grad_norm': 0.48983797430992126, 'learning_rate': 2.2107e-05, 'epoch': 13.6}
+{'loss': 0.0121, 'grad_norm': 0.32292410731315613, 'learning_rate': 2.211e-05, 'epoch': 13.6}
+{'loss': 0.0186, 'grad_norm': 1.0277533531188965, 'learning_rate': 2.2113e-05, 'epoch': 13.61}
+{'loss': 0.0234, 'grad_norm': 0.6106177568435669, 'learning_rate': 2.2116e-05, 'epoch': 13.61}
+{'loss': 0.0782, 'grad_norm': 0.7649809122085571, 'learning_rate': 2.2119e-05, 'epoch': 13.61}
+{'loss': 0.0448, 'grad_norm': 0.5042434930801392, 'learning_rate': 2.2122000000000003e-05, 'epoch': 13.61}
+{'loss': 0.0156, 'grad_norm': 0.4876888394355774, 'learning_rate': 2.2125000000000002e-05, 'epoch': 13.61}
+  7%|▋         | 7379/100000 [4:02:37<31:58:05,  1.24s/it]  7%|▋         | 7380/100000 [4:02:39<31:35:35,  1.23s/it]                                                            7%|▋         | 7380/100000 [4:02:39<31:35:35,  1.23s/it]  7%|▋         | 7381/100000 [4:02:40<31:03:55,  1.21s/it]                                                            7%|▋         | 7381/100000 [4:02:40<31:03:55,  1.21s/it]  7%|▋         | 7382/100000 [4:02:41<30:25:17,  1.18s/it]                                                            7%|▋         | 7382/100000 [4:02:41<30:25:17,  1.18s/it]  7%|▋         | 7383/100000 [4:02:42<30:04:37,  1.17s/it]                                                            7%|▋         | 7383/100000 [4:02:42<30:04:37,  1.17s/it]  7%|▋         | 7384/100000 [4:02:43<29:40:14,  1.15s/it]                                                            7%|▋         | 7384/100000 [4:02:43<29:40:14,  1.15s/it]  7%|▋         | 7385/100000 [4:02:44<29:11:32,  1.13s/it]                                                            7%|▋         | 7385/100000 [4:02:44<29:11:32,  1.13s/it]  7%|▋         | 7386/100000 [4:02:45<28:53:26,  1.12s/it]                                                            7%|▋         | 7386/100000 [4:02:45<28:53:26,  1.12s/it]  7%|▋         | 7387/100000 [4:02:46<28:37:25,  1.11s/it]                                                            7%|▋         | 7387/100000 [4:02:46<28:37:25,  1.11s/it]  7%|▋         | 7388/100000 [4:02:47<28:16:40,  1.10s/it]                                                            7%|▋         | 7388/100000 [4:02:47<28:16:40,  1.10s/it]  7%|▋         | 7389/100000 [4:02:48<27:45:54,  1.08s/it]                                                            7%|▋         | 7389/100000 [4:02:48<27:45:54,  1.08s/it]  7%|▋         | 7390/100000 [4:02:50<27:26:51,  1.07s/it]                                                            7%|▋         | 7390/100000 [4:02:50<27:26:51,  1.07s/it]  7%|▋         | 7391/100000 [4:02:51<26:44:52,  1.04s/it]                                                            7%|▋         | 7391/100000 [4:02:51<26:44:52,  1.04s/it]  7%|▋         | 7392/100000 [4:02:51<26:20:26,  1.02s/it]                                                            7%|▋         | 7392/100000 [4:02:51<26:20:26,  1.02s/it]  7%|▋         | 7393/100000 [4:02:52<25:34:24,  1.01it/s]                                                            7%|▋         | 7393/100000 [4:02:52<25:34:24,  1.01it/s]  7%|▋         | 7394/100000 [4:02:53<24:38:51,  1.04it/s]                                                            7%|▋         | 7394/100000 [4:02:53<24:38:51,  1.04it/s]  7%|▋         | 7395/100000 [4:02:54<23:48:03,  1.08it/s]                                                            7%|▋         | 7395/100000 [4:02:54<23:48:03,  1.08it/s]  7%|▋         | 7396/100000 [4:02:55<22:56:55,  1.12it/s]                                                            7%|▋         | 7396/100000 [4:02:55<22:56:55,  1.12it/s]  7%|▋         | 7397/100000 [4:03:07<108:52:35,  4.23s/it]                                                             7%|▋         | 7397/100000 [4:03:07<108:52:35,  4.23s/it]  7%|▋         | 7398/100000 [4:03:13<120:00:28,  4.67s/it]                                                             7%|▋         | 7398/100000 [4:03:13<120:00:28,  4.67s/it]  7%|▋         | 7399/100000 [4:03:17<119:58:12,  4.66s/it]                                                             7%|▋         | 7399/100000 [4:03:17<119:58:12,  4.66s/it]  7%|▋         | 7400/100000 [4:03:21<114:24:41,  4.45s/it]                                                             7%|▋         | 7400/100000 [4:03:21<114:24:41,  4.45s/it]  7%|▋         | 7401/100000 [4:03:25<108:00:05,  4.20s/it]                                                             7%|▋         | 7401/100000 [4:03:25<108:00:05,  4.20s/it]  7%|▋         | 7402/100000 [4:03:28<100:37:52,  3.91s/it]                                                             7%|▋         | 7402/100000 [4:03:28<100:37:52,  3.91s/it]  7%|▋         | 7403/100000 [4:03:31<93:35:33,  3.64s/it]                                                             7%|▋         | 7403/100000 [4:03:31<93:35:33,  3.64s/it]  7%|▋         | 7404/100000 [4:03:34<85:50:41,  3.34s/it]                                                            7%|▋         | 7404/100000 [4:03:34<85:50:41,  3.34s/it]  7%|▋         | 7405/100000 [4:03:36<78:54:40,  3.07s/it]                                                            7%|▋         | 7405/100000 [4:03:36<78:54:40,  3.07s/it]  7%|▋         | 7406/100000 [4:03:38<72:46:16,  2.83s/it]                                                            7%|▋         | 7406/100000 [4:03:38<72:46:16,  2.83s/it]  7%|▋         | 7407/100000 [4:03:41<67:29:44,  2.62s/it]                                                            7%|▋         | 7407/100000 [4:03:41<67:29:44,  2.62s/it]  7%|▋         | 7408/100000 [4:03:43<62:20:38,  2.42s/it]                                                            7%|▋         | 7408/100000 [4:03:43<62:20:38,  2.42s/it]  7%|▋         | 7409/100000 [4:03:44<58:13:39,  2.26s/it]                                                            7%|▋         | 7409/100000 [4:03:44<58:13:39,  2.26s/it]  7%|▋         | 7410/100000 [4:03:46<54:25:00,  2.12s/it]                                                            7%|▋         | 7410/100000 [4:03:46<54:25:00,  2.12s/it]  7%|▋         | 7411/100000 [4:03:48<51:12:27,  1.99s/it]                                                            7%|▋         | 7411/100000 [4:03:48<51:12:27,  1.99s/it]  7%|▋         | 7412/100000 [4:03:50<48:37:40,  1.89s/it]                                                            7%|▋         | 7412/100000 [4:03:50<48:37:40,  1.89s/it]  7%|▋         | 7413/100000 [4:03:51<46:16:58,  1.80s/it]                                                            7%|▋         | 7413/100000 [4:03:51<46:16:58,  1.80s/it]  7%|▋         | 7414/100000 [4:03:53<44:21:43,  1.72s/it]                                                            7%|▋         | 7414/100000 [4:03:53<44:21:43,  1.72s/it]  7%|▋         | 7415/100000 [4:03:54<42:22:49,  1.65s/it]                                                            7%|▋         | 7415/100000 [4:03:54<42:22:49,  1.65s/it]  7%|▋         | 7416/100000 [4:03:56<40:59:34,  1.59s/it]                                                            7%|▋         | 7416/100000 [4:03:56<40:59:34,  1.59s/it]  7%|▋         | 7417/100000 [4:03:57<39:34:09,  1.54s/it]                                                            7%|▋         | 7417/100000 [4:03:57<39:34:09,  1.54s/it]  7%|▋         | 7418/100000 [4:03:58<38:25:33,  1.49s/it]                                                            7%|▋         | 7418/100000 [4:03:58<38:25:33,  1.49s/it]  7%|▋         | 7419/100000 [4:04:00<37:09:26,  1.44s/it]                                                            7%|▋         | 7419/100000 [4:04:00<37:09:26,  1.44s/it]  7%|▋         | 7420/100000 [4:04:01<36:35:32,  1.42s/it]                                                            7%|▋         | 7420/100000 [4:04:01<36:35:32,  1.42s/it]  7%|▋         | 7421/100000 [4:04:03<36:14:25,  1.41s/it]                                                            7%|▋         | 7421/100000 [4:04:03<36:14:25,  1.41s/it]  7%|▋         | 7422/100000 [4:04:04<35:45:22,  1.39s/it]                                                            7%|▋         | 7422/100000 [4:04:04<35:45:22,  1.39s/it]  7%|▋         | 7423/100000 [4:04:05<35:01:09,  1.36s/it]                                                            7%|▋         | 7423/100000 [4:04:05<35:01:09,  1.36s/it]  7%|▋         | 7424/100000 [4:04:06<34:19:51,  1.34s/it]                                                            7%|▋         | 7424/100000 [4:04:06<34:19:51,  1.34s/it]  7%|▋         | 7425/100000 [4:04:08<33:35:26,  1.31s/it]                                                            7%|▋         | 7425/100000 [4:04:08<33:35:26,  1.31s/it]  7%|▋         | 7426/100000 [4:04:09<33:05:30,  1.29s/it]                                                            7%|▋         | 7426/100000 [4:04:09<33:05:30,  1.29s/it]  7%|▋         | 7427/100000 [4:04:10<32:42:19,  1.27s/it]                                                            7%|▋         | 7427/100000 [4:04:10<32:42:19,  1.27s/it]  7%|▋         | 7428/100000 [4:04:11<32:25:26,  1.26s/it]                                                            7%|▋         | 7428/100000 [4:04:11<32:25:26,  1.26s/it]  7%|▋         | 7429/100000 [4:04:13<31:58:03,  1.24s/it]                                                            7%|▋         | 7429/100000 [4:04:13<31:58:03,  1.24s/it]  7%|▋         | 7430/100000 [4:04:14<31:20:08,  1.22s/it]                                                            7%|▋         | 7430/100000 [4:04:14<31:20:08,  1.22s/it]  7%|▋         | 7431/100000 [4:04:15<30:44:41,  1.20s/it]                                                            7%|▋         | 7431/100000 [4:04:15<30:44:41,  1.20s/it]  7%|▋         | 7432/100000 [4:04:16<30:32:27,  1.19s/it]                                                            7%|▋         | 7432/100000 [4:04:16<30:32:27,  1.19s/it]  7%|▋         | 7433/100000 [4:04:17<30:01:00,  1.17s/it]                                                            7%|▋         | 7433/100000 [4:04:17<30:01:00,  1.17s/it]  7%|▋         | 7434/100000 [4:04:18<29:43:10,  1.16s/it]                                                            7%|▋         | 7434/100000 [4:04:18<29:43:10,  1.16s/it]  7%|▋         | 7435/100000 [4:04:19<29:20:38,  1.14s/it]                                                            7%|▋         | 7435/100000 [4:04:19<29:20:38,  1.14s/it]  7%|▋         | 7436/100000 [4:04:21<29:02:43,  1.13s/it]                                                            7%|▋         | 7436/100000 [4:04:21<29:02:43,  1.13s/it]  7%|▋         | 7437/100000 [4:04:22<28:34:29,  1.11s/it]                                                            7%|▋         | 7437/100000 [4:04:22<28:34:29,  1.11s/it]  7%|▋         | 7438/100000 [4:04:23<28:22:33,  1.10s/it]                                                            7%|▋         | 7438/100000 [4:04:23<28:22:33,  1.10s/it]  7%|▋         | 7439/100000 [4:04:24<27:38:22,  1.07s/it]                                                            7%|▋         | 7439/100000 [4:04:24<27:38:22,  1.07s/it]  7%|▋         | 7440/100000 [4:04:25<27:21:51,  1.06s/it]                                                            7%|▋         | 7440/100000 [4:04:25<27:21:51,  1.06s/it]  7%|▋         | 7441/100000 [4:04:26<26:57:15,  1.05s/it]                                                            7%|▋         | 7441/100000 [4:04:26<26:57:15,  1.05s/it]  7%|▋         | 7442/100000 [4:04:27<26:29:26,  1.03s/it]                                                            7%|▋         | 7442/100000 [4:04:27<26:29:26,  1.03s/it]  7%|▋         | 7443/100000 [4:04:28<25:59:25,  1.01s/it]                                                            7%|▋         | 7443/100000 [4:04:28<25:59:25,  1.01s/it]  7%|▋         | 7444/100000 [4:04:29<25:29:23,  1.01it/s]                                                            7%|▋         | 7444/100000 [4:04:29<25:29:23,  1.01it/s]  7%|▋         | 7445/100000 [4:04:30<24:44:10,  1.04it/s]                                                            7%|▋         | 7445/100000 [4:04:30<24:44:10,  1.04it/s]  7%|▋         | 7446/100000 [4:04:30<24:02:39,  1.07it/s]                                                            7%|▋         | 7446/100000 [4:04:30<24:02:39,  1.07it/s]  7%|▋         | 7447/100000 [4:04:41<100:04:34,  3.89s/it]                                                             7%|▋         | 7447/100000 [4:04:41<100:04:34,  3.89s/it]  7%|▋         | 7448/100000 [4:04:47<114:56:36,  4.47s/it]                                                             7%|▋         | 7448/100000 [4:04:47<114:56:36,  4.47s/it]  7%|▋         | 7449/100000 [4:04:51<114:43:57,  4.46s/it]                                                             7%|▋         | 7449/100000 [4:04:51<114:43:57,  4.46s/it]  7%|▋         | 7450/100000 [4:04:55<111:19:41,  4.33s/it]                                                             7%|▋         | 7450/100000 [4:04:56<111:19:41,  4.33s/it]  7%|▋         | 7451/100000 [4:04:59<106:09:12,  4.13s/it]                                                             7%|▋         | 7451/100000 [4:04:59<106:09:12,  4.13s/it]  7%|▋         | 7452/100000 [4:05:02<99:35:41,  3.87s/it]                                                             7%|▋         | 7452/100000 [4:05:02<99:35:41,  3.87s/it]  7%|▋         | 7453/100000 [4:05:05<93:02:19,  3.62s/it]                                                            7%|▋         | 7453/100000 [4:05:05<93:02:19,  3.62s/it]  7%|▋         | 7454/100000 [4:05:08<85:39:03,  3.33s/it]                                                            7%|▋         | 7454/100000 [4:05:08<85:39:03,  3.33s/it]  7%|▋         | 7455/100000 [4:05:11<79:28:07,  3.09s/it]                                                            7%|▋         | 7455/100000 [4:05:11<79:28:07,  3.09s/it]  7%|▋         | 7456/100000 [4:05:13<73:54:54,  2.88s/it]                                                            7%|▋         | 7456/100000 [4:05:13<73:54:54,  2.88s/it]  7%|▋         | 7457/100000 [4:05:15<68:42:43,  2.67s/it]                                                            7%|▋         | 7457/100000 [4:05:15<68:42:43,  2.67s/it]  7%|▋         | 7458/100000 [4:05:17<64:12:21,  2.50s/it]                                                            7%|▋         | 7458/100000 [4:05:17<64:12:21,  2.50s/it]  7%|▋         | 7459/100000 [4:05:19<60:11:12,  2.34s/it]                                                            7%|▋         | 7459/100000 [4:05:19<60:11:12,  2.34s/it]  7%|▋         | 7460/100000 [4:05:21<56:38:09,  2.20s/it]                                                            7%|▋         | 7460/100000 [4:05:21<56:38:09,  2.20s/it]  7%|▋         | 7461/100000 [4:05:23<53:16:33,  2.07s/it]                                                            7%|▋         | 7461/100000 [4:05:23<53:16:33,  2.07s/it]  7%|▋         | 7462/100000 [4:05:25<50:01:09,  1.95s/it]                                                          {'loss': 0.0153, 'grad_norm': 0.40460675954818726, 'learning_rate': 2.2128000000000002e-05, 'epoch': 13.61}
+{'loss': 0.0066, 'grad_norm': 0.21005268394947052, 'learning_rate': 2.2131000000000002e-05, 'epoch': 13.62}
+{'loss': 0.0267, 'grad_norm': 0.43871554732322693, 'learning_rate': 2.2134000000000002e-05, 'epoch': 13.62}
+{'loss': 0.0171, 'grad_norm': 0.3028872013092041, 'learning_rate': 2.2137e-05, 'epoch': 13.62}
+{'loss': 0.0185, 'grad_norm': 0.775253415107727, 'learning_rate': 2.214e-05, 'epoch': 13.62}
+{'loss': 0.0149, 'grad_norm': 1.5879731178283691, 'learning_rate': 2.2143e-05, 'epoch': 13.62}
+{'loss': 0.0302, 'grad_norm': 0.7068104147911072, 'learning_rate': 2.2146e-05, 'epoch': 13.63}
+{'loss': 0.0178, 'grad_norm': 0.5778458118438721, 'learning_rate': 2.2149e-05, 'epoch': 13.63}
+{'loss': 0.0136, 'grad_norm': 0.9886907935142517, 'learning_rate': 2.2151999999999997e-05, 'epoch': 13.63}
+{'loss': 0.0197, 'grad_norm': 0.5738271474838257, 'learning_rate': 2.2155e-05, 'epoch': 13.63}
+{'loss': 0.0268, 'grad_norm': 0.7942144870758057, 'learning_rate': 2.2158e-05, 'epoch': 13.63}
+{'loss': 0.0259, 'grad_norm': 0.7159650325775146, 'learning_rate': 2.2161e-05, 'epoch': 13.64}
+{'loss': 0.017, 'grad_norm': 0.3914990723133087, 'learning_rate': 2.2164e-05, 'epoch': 13.64}
+{'loss': 0.0195, 'grad_norm': 0.36542847752571106, 'learning_rate': 2.2167e-05, 'epoch': 13.64}
+{'loss': 0.0335, 'grad_norm': 0.48772743344306946, 'learning_rate': 2.217e-05, 'epoch': 13.64}
+{'loss': 0.0122, 'grad_norm': 0.36953237652778625, 'learning_rate': 2.2173e-05, 'epoch': 13.64}
+{'loss': 0.0246, 'grad_norm': 0.5144199132919312, 'learning_rate': 2.2176e-05, 'epoch': 13.64}
+{'loss': 0.0179, 'grad_norm': 0.517334520816803, 'learning_rate': 2.2179e-05, 'epoch': 13.65}
+{'loss': 0.2604, 'grad_norm': 1.3453407287597656, 'learning_rate': 2.2182e-05, 'epoch': 13.65}
+{'loss': 0.2018, 'grad_norm': 0.7100138068199158, 'learning_rate': 2.2185000000000002e-05, 'epoch': 13.65}
+{'loss': 0.233, 'grad_norm': 0.8211055397987366, 'learning_rate': 2.2188e-05, 'epoch': 13.65}
+{'loss': 0.127, 'grad_norm': 0.592019259929657, 'learning_rate': 2.2191e-05, 'epoch': 13.65}
+{'loss': 0.14, 'grad_norm': 0.7646599411964417, 'learning_rate': 2.2194e-05, 'epoch': 13.66}
+{'loss': 0.084, 'grad_norm': 0.44219911098480225, 'learning_rate': 2.2197e-05, 'epoch': 13.66}
+{'loss': 0.0807, 'grad_norm': 0.5861028432846069, 'learning_rate': 2.22e-05, 'epoch': 13.66}
+{'loss': 0.0879, 'grad_norm': 0.6860338449478149, 'learning_rate': 2.2203e-05, 'epoch': 13.66}
+{'loss': 0.0745, 'grad_norm': 0.733318567276001, 'learning_rate': 2.2206e-05, 'epoch': 13.66}
+{'loss': 0.052, 'grad_norm': 0.4197256863117218, 'learning_rate': 2.2209e-05, 'epoch': 13.66}
+{'loss': 0.0516, 'grad_norm': 0.4183002710342407, 'learning_rate': 2.2212e-05, 'epoch': 13.67}
+{'loss': 0.0903, 'grad_norm': 0.5573427677154541, 'learning_rate': 2.2215000000000003e-05, 'epoch': 13.67}
+{'loss': 0.0867, 'grad_norm': 0.6062901616096497, 'learning_rate': 2.2218000000000003e-05, 'epoch': 13.67}
+{'loss': 0.0313, 'grad_norm': 0.3610090911388397, 'learning_rate': 2.2221000000000003e-05, 'epoch': 13.67}
+{'loss': 0.0284, 'grad_norm': 0.45338574051856995, 'learning_rate': 2.2224e-05, 'epoch': 13.67}
+{'loss': 0.0506, 'grad_norm': 0.35504356026649475, 'learning_rate': 2.2227e-05, 'epoch': 13.68}
+{'loss': 0.0264, 'grad_norm': 0.5283374786376953, 'learning_rate': 2.223e-05, 'epoch': 13.68}
+{'loss': 0.0334, 'grad_norm': 0.9853783249855042, 'learning_rate': 2.2233e-05, 'epoch': 13.68}
+{'loss': 0.074, 'grad_norm': 0.9584597945213318, 'learning_rate': 2.2236e-05, 'epoch': 13.68}
+{'loss': 0.0306, 'grad_norm': 0.34112200140953064, 'learning_rate': 2.2239e-05, 'epoch': 13.68}
+{'loss': 0.0439, 'grad_norm': 0.7212913036346436, 'learning_rate': 2.2241999999999998e-05, 'epoch': 13.69}
+{'loss': 0.026, 'grad_norm': 0.6430798768997192, 'learning_rate': 2.2245e-05, 'epoch': 13.69}
+{'loss': 0.0142, 'grad_norm': 0.4628603756427765, 'learning_rate': 2.2248e-05, 'epoch': 13.69}
+{'loss': 0.0193, 'grad_norm': 1.0656933784484863, 'learning_rate': 2.2251e-05, 'epoch': 13.69}
+{'loss': 0.0253, 'grad_norm': 0.3730289041996002, 'learning_rate': 2.2254e-05, 'epoch': 13.69}
+{'loss': 0.0121, 'grad_norm': 0.3692324161529541, 'learning_rate': 2.2257e-05, 'epoch': 13.69}
+{'loss': 0.0127, 'grad_norm': 0.2735585570335388, 'learning_rate': 2.226e-05, 'epoch': 13.7}
+{'loss': 0.0086, 'grad_norm': 0.1949063241481781, 'learning_rate': 2.2263e-05, 'epoch': 13.7}
+{'loss': 0.018, 'grad_norm': 0.4594740867614746, 'learning_rate': 2.2266e-05, 'epoch': 13.7}
+{'loss': 0.0154, 'grad_norm': 0.3455602824687958, 'learning_rate': 2.2269e-05, 'epoch': 13.7}
+{'loss': 0.0141, 'grad_norm': 0.4273536503314972, 'learning_rate': 2.2272e-05, 'epoch': 13.7}
+{'loss': 0.0281, 'grad_norm': 0.5404307246208191, 'learning_rate': 2.2275000000000003e-05, 'epoch': 13.71}
+{'loss': 0.0256, 'grad_norm': 0.8004701137542725, 'learning_rate': 2.2278000000000003e-05, 'epoch': 13.71}
+{'loss': 0.0277, 'grad_norm': 0.8993343114852905, 'learning_rate': 2.2281000000000002e-05, 'epoch': 13.71}
+{'loss': 0.0253, 'grad_norm': 0.4021378755569458, 'learning_rate': 2.2284000000000002e-05, 'epoch': 13.71}
+{'loss': 0.0132, 'grad_norm': 0.37600457668304443, 'learning_rate': 2.2287000000000002e-05, 'epoch': 13.71}
+{'loss': 0.0146, 'grad_norm': 0.4592324495315552, 'learning_rate': 2.2290000000000002e-05, 'epoch': 13.71}
+{'loss': 0.0447, 'grad_norm': 0.3562804162502289, 'learning_rate': 2.2293e-05, 'epoch': 13.72}
+{'loss': 0.0174, 'grad_norm': 0.5064547657966614, 'learning_rate': 2.2296e-05, 'epoch': 13.72}
+{'loss': 0.0202, 'grad_norm': 0.300818532705307, 'learning_rate': 2.2298999999999998e-05, 'epoch': 13.72}
+{'loss': 0.0179, 'grad_norm': 0.4283485412597656, 'learning_rate': 2.2301999999999998e-05, 'epoch': 13.72}
+{'loss': 0.0069, 'grad_norm': 0.3496239483356476, 'learning_rate': 2.2305e-05, 'epoch': 13.72}
+{'loss': 0.0335, 'grad_norm': 0.7668992280960083, 'learning_rate': 2.2308e-05, 'epoch': 13.73}
+{'loss': 0.026, 'grad_norm': 0.43262067437171936, 'learning_rate': 2.2311e-05, 'epoch': 13.73}
+{'loss': 0.0163, 'grad_norm': 0.33174577355384827, 'learning_rate': 2.2314e-05, 'epoch': 13.73}
+{'loss': 0.0273, 'grad_norm': 0.4642624258995056, 'learning_rate': 2.2317e-05, 'epoch': 13.73}
+{'loss': 0.0294, 'grad_norm': 0.8481758236885071, 'learning_rate': 2.232e-05, 'epoch': 13.73}
+{'loss': 0.0194, 'grad_norm': 1.4036601781845093, 'learning_rate': 2.2323e-05, 'epoch': 13.73}
+{'loss': 0.0256, 'grad_norm': 0.8418857455253601, 'learning_rate': 2.2326e-05, 'epoch': 13.74}
+{'loss': 0.0291, 'grad_norm': 0.9245105981826782, 'learning_rate': 2.2329e-05, 'epoch': 13.74}
+{'loss': 0.2072, 'grad_norm': 0.9908247590065002, 'learning_rate': 2.2332e-05, 'epoch': 13.74}
+{'loss': 0.1964, 'grad_norm': 0.8401052355766296, 'learning_rate': 2.2335000000000002e-05, 'epoch': 13.74}
+{'loss': 0.1581, 'grad_norm': 0.6335350275039673, 'learning_rate': 2.2338000000000002e-05, 'epoch': 13.74}
+{'loss': 0.1505, 'grad_norm': 0.9489895701408386, 'learning_rate': 2.2341000000000002e-05, 'epoch': 13.75}
+{'loss': 0.148, 'grad_norm': 0.5921657681465149, 'learning_rate': 2.2344e-05, 'epoch': 13.75}
+{'loss': 0.117, 'grad_norm': 0.674635112285614, 'learning_rate': 2.2347e-05, 'epoch': 13.75}
+{'loss': 0.0772, 'grad_norm': 0.47981318831443787, 'learning_rate': 2.235e-05, 'epoch': 13.75}
+{'loss': 0.0903, 'grad_norm': 0.6606249809265137, 'learning_rate': 2.2353e-05, 'epoch': 13.75}
+{'loss': 0.1229, 'grad_norm': 0.8978612422943115, 'learning_rate': 2.2356e-05, 'epoch': 13.76}
+{'loss': 0.0753, 'grad_norm': 0.4498438239097595, 'learning_rate': 2.2359e-05, 'epoch': 13.76}
+{'loss': 0.1475, 'grad_norm': 1.2396608591079712, 'learning_rate': 2.2362e-05, 'epoch': 13.76}
+{'loss': 0.1124, 'grad_norm': 0.9009991884231567, 'learning_rate': 2.2365000000000004e-05, 'epoch': 13.76}
+{'loss': 0.0722, 'grad_norm': 0.5656141638755798, 'learning_rate': 2.2368000000000003e-05, 'epoch': 13.76}
+{'loss': 0.0566, 'grad_norm': 0.42123159766197205, 'learning_rate': 2.2371e-05, 'epoch': 13.76}
+{'loss': 0.0391, 'grad_norm': 0.2959066927433014, 'learning_rate': 2.2374e-05, 'epoch': 13.77}
+  7%|▋         | 7462/100000 [4:05:25<50:01:09,  1.95s/it]  7%|▋         | 7463/100000 [4:05:26<47:31:43,  1.85s/it]                                                            7%|▋         | 7463/100000 [4:05:26<47:31:43,  1.85s/it]  7%|▋         | 7464/100000 [4:05:28<45:35:40,  1.77s/it]                                                            7%|▋         | 7464/100000 [4:05:28<45:35:40,  1.77s/it]  7%|▋         | 7465/100000 [4:05:29<43:26:41,  1.69s/it]                                                            7%|▋         | 7465/100000 [4:05:29<43:26:41,  1.69s/it]  7%|▋         | 7466/100000 [4:05:31<41:48:37,  1.63s/it]                                                            7%|▋         | 7466/100000 [4:05:31<41:48:37,  1.63s/it]  7%|▋         | 7467/100000 [4:05:32<40:27:03,  1.57s/it]                                                            7%|▋         | 7467/100000 [4:05:32<40:27:03,  1.57s/it]  7%|▋         | 7468/100000 [4:05:34<39:01:36,  1.52s/it]                                                            7%|▋         | 7468/100000 [4:05:34<39:01:36,  1.52s/it]  7%|▋         | 7469/100000 [4:05:35<37:54:42,  1.47s/it]                                                            7%|▋         | 7469/100000 [4:05:35<37:54:42,  1.47s/it]  7%|▋         | 7470/100000 [4:05:36<36:41:26,  1.43s/it]                                                            7%|▋         | 7470/100000 [4:05:36<36:41:26,  1.43s/it]  7%|▋         | 7471/100000 [4:05:38<35:49:57,  1.39s/it]                                                            7%|▋         | 7471/100000 [4:05:38<35:49:57,  1.39s/it]  7%|▋         | 7472/100000 [4:05:39<35:29:59,  1.38s/it]                                                            7%|▋         | 7472/100000 [4:05:39<35:29:59,  1.38s/it]  7%|▋         | 7473/100000 [4:05:40<34:59:01,  1.36s/it]                                                            7%|▋         | 7473/100000 [4:05:40<34:59:01,  1.36s/it]  7%|▋         | 7474/100000 [4:05:42<34:28:41,  1.34s/it]                                                            7%|▋         | 7474/100000 [4:05:42<34:28:41,  1.34s/it]  7%|▋         | 7475/100000 [4:05:43<33:47:34,  1.31s/it]                                                            7%|▋         | 7475/100000 [4:05:43<33:47:34,  1.31s/it]  7%|▋         | 7476/100000 [4:05:44<33:23:52,  1.30s/it]                                                            7%|▋         | 7476/100000 [4:05:44<33:23:52,  1.30s/it]  7%|▋         | 7477/100000 [4:05:45<32:58:20,  1.28s/it]                                                            7%|▋         | 7477/100000 [4:05:45<32:58:20,  1.28s/it]  7%|▋         | 7478/100000 [4:05:47<32:33:04,  1.27s/it]                                                            7%|▋         | 7478/100000 [4:05:47<32:33:04,  1.27s/it]  7%|▋         | 7479/100000 [4:05:48<32:00:48,  1.25s/it]                                                            7%|▋         | 7479/100000 [4:05:48<32:00:48,  1.25s/it]  7%|▋         | 7480/100000 [4:05:49<31:30:20,  1.23s/it]                                                            7%|▋         | 7480/100000 [4:05:49<31:30:20,  1.23s/it]  7%|▋         | 7481/100000 [4:05:50<31:06:08,  1.21s/it]                                                            7%|▋         | 7481/100000 [4:05:50<31:06:08,  1.21s/it]  7%|▋         | 7482/100000 [4:05:51<30:24:18,  1.18s/it]                                                            7%|▋         | 7482/100000 [4:05:51<30:24:18,  1.18s/it]  7%|▋         | 7483/100000 [4:05:52<30:04:05,  1.17s/it]                                                            7%|▋         | 7483/100000 [4:05:52<30:04:05,  1.17s/it]  7%|▋         | 7484/100000 [4:05:53<29:29:30,  1.15s/it]                                                            7%|▋         | 7484/100000 [4:05:53<29:29:30,  1.15s/it]  7%|▋         | 7485/100000 [4:05:55<29:00:53,  1.13s/it]                                                            7%|▋         | 7485/100000 [4:05:55<29:00:53,  1.13s/it]  7%|▋         | 7486/100000 [4:05:56<28:53:32,  1.12s/it]                                                            7%|▋         | 7486/100000 [4:05:56<28:53:32,  1.12s/it]  7%|▋         | 7487/100000 [4:05:57<28:27:50,  1.11s/it]                                                            7%|▋         | 7487/100000 [4:05:57<28:27:50,  1.11s/it]  7%|▋         | 7488/100000 [4:05:58<27:56:17,  1.09s/it]                                                            7%|▋         | 7488/100000 [4:05:58<27:56:17,  1.09s/it]  7%|▋         | 7489/100000 [4:05:59<27:36:01,  1.07s/it]                                                            7%|▋         | 7489/100000 [4:05:59<27:36:01,  1.07s/it]  7%|▋         | 7490/100000 [4:06:00<27:16:05,  1.06s/it]                                                            7%|▋         | 7490/100000 [4:06:00<27:16:05,  1.06s/it]  7%|▋         | 7491/100000 [4:06:01<26:43:29,  1.04s/it]                                                            7%|▋         | 7491/100000 [4:06:01<26:43:29,  1.04s/it]  7%|▋         | 7492/100000 [4:06:02<26:26:42,  1.03s/it]                                                            7%|▋         | 7492/100000 [4:06:02<26:26:42,  1.03s/it]  7%|▋         | 7493/100000 [4:06:03<26:03:13,  1.01s/it]                                                            7%|▋         | 7493/100000 [4:06:03<26:03:13,  1.01s/it]  7%|▋         | 7494/100000 [4:06:04<25:33:57,  1.01it/s]                                                            7%|▋         | 7494/100000 [4:06:04<25:33:57,  1.01it/s]  7%|▋         | 7495/100000 [4:06:05<24:49:47,  1.03it/s]                                                            7%|▋         | 7495/100000 [4:06:05<24:49:47,  1.03it/s]  7%|▋         | 7496/100000 [4:06:06<23:48:20,  1.08it/s]                                                            7%|▋         | 7496/100000 [4:06:06<23:48:20,  1.08it/s]  7%|▋         | 7497/100000 [4:06:16<95:50:23,  3.73s/it]                                                            7%|▋         | 7497/100000 [4:06:16<95:50:23,  3.73s/it]  7%|▋         | 7498/100000 [4:06:22<113:58:03,  4.44s/it]                                                             7%|▋         | 7498/100000 [4:06:22<113:58:03,  4.44s/it]  7%|▋         | 7499/100000 [4:06:27<116:53:28,  4.55s/it]                                                             7%|▋         | 7499/100000 [4:06:27<116:53:28,  4.55s/it]  8%|▊         | 7500/100000 [4:06:31<113:43:35,  4.43s/it]                                                             8%|▊         | 7500/100000 [4:06:31<113:43:35,  4.43s/it]  8%|▊         | 7501/100000 [4:06:35<107:59:16,  4.20s/it]                                                             8%|▊         | 7501/100000 [4:06:35<107:59:16,  4.20s/it]  8%|▊         | 7502/100000 [4:06:38<101:02:00,  3.93s/it]                                                             8%|▊         | 7502/100000 [4:06:38<101:02:00,  3.93s/it]  8%|▊         | 7503/100000 [4:06:41<92:46:28,  3.61s/it]                                                             8%|▊         | 7503/100000 [4:06:41<92:46:28,  3.61s/it]  8%|▊         | 7504/100000 [4:06:43<86:19:16,  3.36s/it]                                                            8%|▊         | 7504/100000 [4:06:43<86:19:16,  3.36s/it]  8%|▊         | 7505/100000 [4:06:46<80:08:20,  3.12s/it]                                                            8%|▊         | 7505/100000 [4:06:46<80:08:20,  3.12s/it]  8%|▊         | 7506/100000 [4:06:48<74:25:00,  2.90s/it]                                                            8%|▊         | 7506/100000 [4:06:48<74:25:00,  2.90s/it]  8%|▊         | 7507/100000 [4:06:51<69:29:43,  2.70s/it]                                                            8%|▊         | 7507/100000 [4:06:51<69:29:43,  2.70s/it]  8%|▊         | 7508/100000 [4:06:53<64:36:21,  2.51s/it]                                                            8%|▊         | 7508/100000 [4:06:53<64:36:21,  2.51s/it]  8%|▊         | 7509/100000 [4:06:55<60:25:55,  2.35s/it]                                                            8%|▊         | 7509/100000 [4:06:55<60:25:55,  2.35s/it]  8%|▊         | 7510/100000 [4:06:57<56:18:14,  2.19s/it]                                                            8%|▊         | 7510/100000 [4:06:57<56:18:14,  2.19s/it]  8%|▊         | 7511/100000 [4:06:58<53:01:51,  2.06s/it]                                                            8%|▊         | 7511/100000 [4:06:58<53:01:51,  2.06s/it]  8%|▊         | 7512/100000 [4:07:00<50:17:55,  1.96s/it]                                                            8%|▊         | 7512/100000 [4:07:00<50:17:55,  1.96s/it]  8%|▊         | 7513/100000 [4:07:02<47:33:09,  1.85s/it]                                                            8%|▊         | 7513/100000 [4:07:02<47:33:09,  1.85s/it]  8%|▊         | 7514/100000 [4:07:03<45:14:33,  1.76s/it]                                                            8%|▊         | 7514/100000 [4:07:03<45:14:33,  1.76s/it]  8%|▊         | 7515/100000 [4:07:05<43:27:52,  1.69s/it]                                                            8%|▊         | 7515/100000 [4:07:05<43:27:52,  1.69s/it]  8%|▊         | 7516/100000 [4:07:06<42:11:59,  1.64s/it]                                                            8%|▊         | 7516/100000 [4:07:06<42:11:59,  1.64s/it]  8%|▊         | 7517/100000 [4:07:08<42:21:19,  1.65s/it]                                                            8%|▊         | 7517/100000 [4:07:08<42:21:19,  1.65s/it]  8%|▊         | 7518/100000 [4:07:09<40:48:51,  1.59s/it]                                                            8%|▊         | 7518/100000 [4:07:09<40:48:51,  1.59s/it]  8%|▊         | 7519/100000 [4:07:11<39:33:41,  1.54s/it]                                                            8%|▊         | 7519/100000 [4:07:11<39:33:41,  1.54s/it]  8%|▊         | 7520/100000 [4:07:12<38:32:41,  1.50s/it]                                                            8%|▊         | 7520/100000 [4:07:12<38:32:41,  1.50s/it]  8%|▊         | 7521/100000 [4:07:14<37:36:50,  1.46s/it]                                                            8%|▊         | 7521/100000 [4:07:14<37:36:50,  1.46s/it]  8%|▊         | 7522/100000 [4:07:15<36:32:12,  1.42s/it]                                                            8%|▊         | 7522/100000 [4:07:15<36:32:12,  1.42s/it]  8%|▊         | 7523/100000 [4:07:16<35:56:49,  1.40s/it]                                                            8%|▊         | 7523/100000 [4:07:16<35:56:49,  1.40s/it]  8%|▊         | 7524/100000 [4:07:17<35:05:09,  1.37s/it]                                                            8%|▊         | 7524/100000 [4:07:17<35:05:09,  1.37s/it]  8%|▊         | 7525/100000 [4:07:19<34:36:53,  1.35s/it]                                                            8%|▊         | 7525/100000 [4:07:19<34:36:53,  1.35s/it]  8%|▊         | 7526/100000 [4:07:20<34:11:30,  1.33s/it]                                                            8%|▊         | 7526/100000 [4:07:20<34:11:30,  1.33s/it]  8%|▊         | 7527/100000 [4:07:21<33:37:55,  1.31s/it]                                                            8%|▊         | 7527/100000 [4:07:21<33:37:55,  1.31s/it]  8%|▊         | 7528/100000 [4:07:23<32:50:38,  1.28s/it]                                                            8%|▊         | 7528/100000 [4:07:23<32:50:38,  1.28s/it]  8%|▊         | 7529/100000 [4:07:24<32:27:01,  1.26s/it]                                                            8%|▊         | 7529/100000 [4:07:24<32:27:01,  1.26s/it]  8%|▊         | 7530/100000 [4:07:25<32:00:08,  1.25s/it]                                                            8%|▊         | 7530/100000 [4:07:25<32:00:08,  1.25s/it]  8%|▊         | 7531/100000 [4:07:26<31:13:03,  1.22s/it]                                                            8%|▊         | 7531/100000 [4:07:26<31:13:03,  1.22s/it]  8%|▊         | 7532/100000 [4:07:27<30:46:34,  1.20s/it]                                                            8%|▊         | 7532/100000 [4:07:27<30:46:34,  1.20s/it]  8%|▊         | 7533/100000 [4:07:28<30:20:41,  1.18s/it]                                                            8%|▊         | 7533/100000 [4:07:28<30:20:41,  1.18s/it]  8%|▊         | 7534/100000 [4:07:30<30:09:42,  1.17s/it]                                                            8%|▊         | 7534/100000 [4:07:30<30:09:42,  1.17s/it]  8%|▊         | 7535/100000 [4:07:31<29:43:34,  1.16s/it]                                                            8%|▊         | 7535/100000 [4:07:31<29:43:34,  1.16s/it]  8%|▊         | 7536/100000 [4:07:32<29:17:05,  1.14s/it]                                                            8%|▊         | 7536/100000 [4:07:32<29:17:05,  1.14s/it]  8%|▊         | 7537/100000 [4:07:33<28:53:47,  1.13s/it]                                                            8%|▊         | 7537/100000 [4:07:33<28:53:47,  1.13s/it]  8%|▊         | 7538/100000 [4:07:34<28:26:31,  1.11s/it]                                                            8%|▊         | 7538/100000 [4:07:34<28:26:31,  1.11s/it]  8%|▊         | 7539/100000 [4:07:35<28:05:47,  1.09s/it]                                                            8%|▊         | 7539/100000 [4:07:35<28:05:47,  1.09s/it]  8%|▊         | 7540/100000 [4:07:36<27:38:20,  1.08s/it]                                                            8%|▊         | 7540/100000 [4:07:36<27:38:20,  1.08s/it]  8%|▊         | 7541/100000 [4:07:37<27:13:10,  1.06s/it]                                                            8%|▊         | 7541/100000 [4:07:37<27:13:10,  1.06s/it]  8%|▊         | 7542/100000 [4:07:38<26:33:21,  1.03s/it]                                                            8%|▊         | 7542/100000 [4:07:38<26:33:21,  1.03s/it]  8%|▊         | 7543/100000 [4:07:39<25:38:47,  1.00it/s]                                                            8%|▊         | 7543/100000 [4:07:39<25:38:47,  1.00it/s]  8%|▊         | 7544/100000 [4:07:40<25:34:00,  1.00it/s]                                                            8%|▊         | 7544/100000 [4:07:40<25:34:00,  1.00it/s]  8%|▊         | 7545/100000 [4:07:41<25:10:39,  1.02it/s]                                                          {'loss': 0.0366, 'grad_norm': 0.43474075198173523, 'learning_rate': 2.2377e-05, 'epoch': 13.77}
+{'loss': 0.018, 'grad_norm': 0.5660763382911682, 'learning_rate': 2.238e-05, 'epoch': 13.77}
+{'loss': 0.0308, 'grad_norm': 0.48695066571235657, 'learning_rate': 2.2383e-05, 'epoch': 13.77}
+{'loss': 0.0117, 'grad_norm': 0.21219317615032196, 'learning_rate': 2.2386e-05, 'epoch': 13.77}
+{'loss': 0.0448, 'grad_norm': 1.1667358875274658, 'learning_rate': 2.2389e-05, 'epoch': 13.78}
+{'loss': 0.0472, 'grad_norm': 0.47652381658554077, 'learning_rate': 2.2392e-05, 'epoch': 13.78}
+{'loss': 0.0243, 'grad_norm': 0.35283544659614563, 'learning_rate': 2.2395e-05, 'epoch': 13.78}
+{'loss': 0.0148, 'grad_norm': 0.2358464151620865, 'learning_rate': 2.2398e-05, 'epoch': 13.78}
+{'loss': 0.0433, 'grad_norm': 0.982874870300293, 'learning_rate': 2.2401e-05, 'epoch': 13.78}
+{'loss': 0.0167, 'grad_norm': 0.3252042829990387, 'learning_rate': 2.2404e-05, 'epoch': 13.78}
+{'loss': 0.0227, 'grad_norm': 0.3061884939670563, 'learning_rate': 2.2407e-05, 'epoch': 13.79}
+{'loss': 0.047, 'grad_norm': 0.32022055983543396, 'learning_rate': 2.241e-05, 'epoch': 13.79}
+{'loss': 0.017, 'grad_norm': 0.31437739729881287, 'learning_rate': 2.2413e-05, 'epoch': 13.79}
+{'loss': 0.0158, 'grad_norm': 0.17899277806282043, 'learning_rate': 2.2416e-05, 'epoch': 13.79}
+{'loss': 0.0195, 'grad_norm': 0.4037555158138275, 'learning_rate': 2.2419e-05, 'epoch': 13.79}
+{'loss': 0.0213, 'grad_norm': 3.9704298973083496, 'learning_rate': 2.2422e-05, 'epoch': 13.8}
+{'loss': 0.0202, 'grad_norm': 0.41569051146507263, 'learning_rate': 2.2425000000000003e-05, 'epoch': 13.8}
+{'loss': 0.0166, 'grad_norm': 0.3402164876461029, 'learning_rate': 2.2428000000000003e-05, 'epoch': 13.8}
+{'loss': 0.0183, 'grad_norm': 0.5518233180046082, 'learning_rate': 2.2431000000000003e-05, 'epoch': 13.8}
+{'loss': 0.016, 'grad_norm': 0.28906118869781494, 'learning_rate': 2.2434000000000002e-05, 'epoch': 13.8}
+{'loss': 0.016, 'grad_norm': 0.4287084937095642, 'learning_rate': 2.2437000000000002e-05, 'epoch': 13.81}
+{'loss': 0.0202, 'grad_norm': 0.455166757106781, 'learning_rate': 2.2440000000000002e-05, 'epoch': 13.81}
+{'loss': 0.0142, 'grad_norm': 0.2282412201166153, 'learning_rate': 2.2443000000000002e-05, 'epoch': 13.81}
+{'loss': 0.0164, 'grad_norm': 0.37432539463043213, 'learning_rate': 2.2445999999999998e-05, 'epoch': 13.81}
+{'loss': 0.0241, 'grad_norm': 0.870344877243042, 'learning_rate': 2.2448999999999998e-05, 'epoch': 13.81}
+{'loss': 0.012, 'grad_norm': 0.2512337267398834, 'learning_rate': 2.2451999999999998e-05, 'epoch': 13.81}
+{'loss': 0.0115, 'grad_norm': 0.25623369216918945, 'learning_rate': 2.2455e-05, 'epoch': 13.82}
+{'loss': 0.0146, 'grad_norm': 0.5129430890083313, 'learning_rate': 2.2458e-05, 'epoch': 13.82}
+{'loss': 0.0184, 'grad_norm': 0.5183201432228088, 'learning_rate': 2.2461e-05, 'epoch': 13.82}
+{'loss': 0.0239, 'grad_norm': 0.6669928431510925, 'learning_rate': 2.2464e-05, 'epoch': 13.82}
+{'loss': 0.011, 'grad_norm': 0.3957689106464386, 'learning_rate': 2.2467e-05, 'epoch': 13.82}
+{'loss': 0.0125, 'grad_norm': 0.4440816044807434, 'learning_rate': 2.247e-05, 'epoch': 13.83}
+{'loss': 0.0172, 'grad_norm': 0.4568639099597931, 'learning_rate': 2.2473e-05, 'epoch': 13.83}
+{'loss': 0.0202, 'grad_norm': 0.7566015720367432, 'learning_rate': 2.2476e-05, 'epoch': 13.83}
+{'loss': 0.0255, 'grad_norm': 0.6292212605476379, 'learning_rate': 2.2479e-05, 'epoch': 13.83}
+{'loss': 0.2179, 'grad_norm': 0.9029131531715393, 'learning_rate': 2.2482e-05, 'epoch': 13.83}
+{'loss': 0.1667, 'grad_norm': 0.6349799633026123, 'learning_rate': 2.2485000000000002e-05, 'epoch': 13.83}
+{'loss': 0.1714, 'grad_norm': 0.5616112351417542, 'learning_rate': 2.2488000000000002e-05, 'epoch': 13.84}
+{'loss': 0.1424, 'grad_norm': 0.6807947158813477, 'learning_rate': 2.2491000000000002e-05, 'epoch': 13.84}
+{'loss': 0.0932, 'grad_norm': 0.5123181343078613, 'learning_rate': 2.2494000000000002e-05, 'epoch': 13.84}
+{'loss': 0.096, 'grad_norm': 0.6139744520187378, 'learning_rate': 2.2497e-05, 'epoch': 13.84}
+{'loss': 0.1449, 'grad_norm': 0.7582729458808899, 'learning_rate': 2.25e-05, 'epoch': 13.84}
+{'loss': 0.0888, 'grad_norm': 0.5244767069816589, 'learning_rate': 2.2503e-05, 'epoch': 13.85}
+{'loss': 0.0891, 'grad_norm': 0.685250997543335, 'learning_rate': 2.2506e-05, 'epoch': 13.85}
+{'loss': 0.0945, 'grad_norm': 0.5729045271873474, 'learning_rate': 2.2509e-05, 'epoch': 13.85}
+{'loss': 0.0704, 'grad_norm': 0.76090407371521, 'learning_rate': 2.2512e-05, 'epoch': 13.85}
+{'loss': 0.0903, 'grad_norm': 0.9119696617126465, 'learning_rate': 2.2515e-05, 'epoch': 13.85}
+{'loss': 0.0369, 'grad_norm': 0.2945483922958374, 'learning_rate': 2.2518e-05, 'epoch': 13.86}
+{'loss': 0.133, 'grad_norm': 0.7408194541931152, 'learning_rate': 2.2521e-05, 'epoch': 13.86}
+{'loss': 0.0345, 'grad_norm': 0.37890946865081787, 'learning_rate': 2.2524e-05, 'epoch': 13.86}
+{'loss': 0.0414, 'grad_norm': 0.49662187695503235, 'learning_rate': 2.2527e-05, 'epoch': 13.86}
+{'loss': 0.0302, 'grad_norm': 0.4859124422073364, 'learning_rate': 2.253e-05, 'epoch': 13.86}
+{'loss': 0.0171, 'grad_norm': 0.34445253014564514, 'learning_rate': 2.2533e-05, 'epoch': 13.86}
+{'loss': 0.0323, 'grad_norm': 0.549643337726593, 'learning_rate': 2.2536e-05, 'epoch': 13.87}
+{'loss': 0.0471, 'grad_norm': 0.4903494417667389, 'learning_rate': 2.2539e-05, 'epoch': 13.87}
+{'loss': 0.0183, 'grad_norm': 0.3244134187698364, 'learning_rate': 2.2542e-05, 'epoch': 13.87}
+{'loss': 0.0282, 'grad_norm': 0.3773230016231537, 'learning_rate': 2.2545e-05, 'epoch': 13.87}
+{'loss': 0.0256, 'grad_norm': 0.5452808737754822, 'learning_rate': 2.2548e-05, 'epoch': 13.87}
+{'loss': 0.0276, 'grad_norm': 0.48886626958847046, 'learning_rate': 2.2551e-05, 'epoch': 13.88}
+{'loss': 0.0181, 'grad_norm': 0.47622591257095337, 'learning_rate': 2.2554e-05, 'epoch': 13.88}
+{'loss': 0.0228, 'grad_norm': 0.4958360195159912, 'learning_rate': 2.2557e-05, 'epoch': 13.88}
+{'loss': 0.0171, 'grad_norm': 0.3116703927516937, 'learning_rate': 2.256e-05, 'epoch': 13.88}
+{'loss': 0.0353, 'grad_norm': 0.7549593448638916, 'learning_rate': 2.2563e-05, 'epoch': 13.88}
+{'loss': 0.0107, 'grad_norm': 0.2600730359554291, 'learning_rate': 2.2566e-05, 'epoch': 13.88}
+{'loss': 0.0117, 'grad_norm': 0.1800379902124405, 'learning_rate': 2.2569e-05, 'epoch': 13.89}
+{'loss': 0.0173, 'grad_norm': 0.3467258810997009, 'learning_rate': 2.2572e-05, 'epoch': 13.89}
+{'loss': 0.0207, 'grad_norm': 0.45100924372673035, 'learning_rate': 2.2575e-05, 'epoch': 13.89}
+{'loss': 0.0171, 'grad_norm': 0.4383341670036316, 'learning_rate': 2.2578000000000003e-05, 'epoch': 13.89}
+{'loss': 0.016, 'grad_norm': 0.2968244254589081, 'learning_rate': 2.2581000000000003e-05, 'epoch': 13.89}
+{'loss': 0.0268, 'grad_norm': 0.7290030121803284, 'learning_rate': 2.2584000000000003e-05, 'epoch': 13.9}
+{'loss': 0.0235, 'grad_norm': 0.5313127636909485, 'learning_rate': 2.2587000000000002e-05, 'epoch': 13.9}
+{'loss': 0.0204, 'grad_norm': 0.7194654941558838, 'learning_rate': 2.2590000000000002e-05, 'epoch': 13.9}
+{'loss': 0.013, 'grad_norm': 0.8485562801361084, 'learning_rate': 2.2593e-05, 'epoch': 13.9}
+{'loss': 0.0223, 'grad_norm': 0.4126611649990082, 'learning_rate': 2.2596e-05, 'epoch': 13.9}
+{'loss': 0.0301, 'grad_norm': 0.5421310663223267, 'learning_rate': 2.2598999999999998e-05, 'epoch': 13.9}
+{'loss': 0.027, 'grad_norm': 0.5941007137298584, 'learning_rate': 2.2601999999999998e-05, 'epoch': 13.91}
+{'loss': 0.035, 'grad_norm': 0.5690109729766846, 'learning_rate': 2.2604999999999998e-05, 'epoch': 13.91}
+{'loss': 0.0122, 'grad_norm': 0.3790777027606964, 'learning_rate': 2.2608e-05, 'epoch': 13.91}
+{'loss': 0.028, 'grad_norm': 0.5342270731925964, 'learning_rate': 2.2611e-05, 'epoch': 13.91}
+{'loss': 0.0173, 'grad_norm': 0.4844706952571869, 'learning_rate': 2.2614e-05, 'epoch': 13.91}
+{'loss': 0.0214, 'grad_norm': 0.4223809838294983, 'learning_rate': 2.2617e-05, 'epoch': 13.92}
+{'loss': 0.0239, 'grad_norm': 0.4551135301589966, 'learning_rate': 2.262e-05, 'epoch': 13.92}
+{'loss': 0.0251, 'grad_norm': 0.4099441468715668, 'learning_rate': 2.2623e-05, 'epoch': 13.92}
+  8%|▊         | 7545/100000 [4:07:41<25:10:39,  1.02it/s]  8%|▊         | 7546/100000 [4:07:42<24:32:21,  1.05it/s]                                                            8%|▊         | 7546/100000 [4:07:42<24:32:21,  1.05it/s]  8%|▊         | 7547/100000 [4:07:51<91:49:41,  3.58s/it]                                                            8%|▊         | 7547/100000 [4:07:51<91:49:41,  3.58s/it]  8%|▊         | 7548/100000 [4:07:57<103:40:30,  4.04s/it]                                                             8%|▊         | 7548/100000 [4:07:57<103:40:30,  4.04s/it]  8%|▊         | 7549/100000 [4:08:01<104:25:02,  4.07s/it]                                                             8%|▊         | 7549/100000 [4:08:01<104:25:02,  4.07s/it]  8%|▊         | 7550/100000 [4:08:04<101:08:35,  3.94s/it]                                                             8%|▊         | 7550/100000 [4:08:04<101:08:35,  3.94s/it]  8%|▊         | 7551/100000 [4:08:08<95:35:56,  3.72s/it]                                                             8%|▊         | 7551/100000 [4:08:08<95:35:56,  3.72s/it]  8%|▊         | 7552/100000 [4:08:10<89:12:55,  3.47s/it]                                                            8%|▊         | 7552/100000 [4:08:10<89:12:55,  3.47s/it]  8%|▊         | 7553/100000 [4:08:13<83:04:25,  3.23s/it]                                                            8%|▊         | 7553/100000 [4:08:13<83:04:25,  3.23s/it]  8%|▊         | 7554/100000 [4:08:15<76:05:13,  2.96s/it]                                                            8%|▊         | 7554/100000 [4:08:15<76:05:13,  2.96s/it]  8%|▊         | 7555/100000 [4:08:18<70:28:26,  2.74s/it]                                                            8%|▊         | 7555/100000 [4:08:18<70:28:26,  2.74s/it]  8%|▊         | 7556/100000 [4:08:20<65:07:31,  2.54s/it]                                                            8%|▊         | 7556/100000 [4:08:20<65:07:31,  2.54s/it]  8%|▊         | 7557/100000 [4:08:22<59:46:30,  2.33s/it]                                                            8%|▊         | 7557/100000 [4:08:22<59:46:30,  2.33s/it]  8%|▊         | 7558/100000 [4:08:23<55:31:33,  2.16s/it]                                                            8%|▊         | 7558/100000 [4:08:23<55:31:33,  2.16s/it]  8%|▊         | 7559/100000 [4:08:25<51:54:34,  2.02s/it]                                                            8%|▊         | 7559/100000 [4:08:25<51:54:34,  2.02s/it]  8%|▊         | 7560/100000 [4:08:27<48:51:08,  1.90s/it]                                                            8%|▊         | 7560/100000 [4:08:27<48:51:08,  1.90s/it]  8%|▊         | 7561/100000 [4:08:28<46:22:44,  1.81s/it]                                                            8%|▊         | 7561/100000 [4:08:28<46:22:44,  1.81s/it]  8%|▊         | 7562/100000 [4:08:30<43:30:51,  1.69s/it]                                                            8%|▊         | 7562/100000 [4:08:30<43:30:51,  1.69s/it]  8%|▊         | 7563/100000 [4:08:31<41:50:57,  1.63s/it]                                                            8%|▊         | 7563/100000 [4:08:31<41:50:57,  1.63s/it]  8%|▊         | 7564/100000 [4:08:33<40:25:25,  1.57s/it]                                                            8%|▊         | 7564/100000 [4:08:33<40:25:25,  1.57s/it]  8%|▊         | 7565/100000 [4:08:34<39:14:00,  1.53s/it]                                                            8%|▊         | 7565/100000 [4:08:34<39:14:00,  1.53s/it]  8%|▊         | 7566/100000 [4:08:35<37:39:18,  1.47s/it]                                                            8%|▊         | 7566/100000 [4:08:35<37:39:18,  1.47s/it]  8%|▊         | 7567/100000 [4:08:37<37:00:06,  1.44s/it]                                                            8%|▊         | 7567/100000 [4:08:37<37:00:06,  1.44s/it]  8%|▊         | 7568/100000 [4:08:38<35:49:04,  1.40s/it]                                                            8%|▊         | 7568/100000 [4:08:38<35:49:04,  1.40s/it]  8%|▊         | 7569/100000 [4:08:39<35:04:40,  1.37s/it]                                                            8%|▊         | 7569/100000 [4:08:39<35:04:40,  1.37s/it]  8%|▊         | 7570/100000 [4:08:41<34:16:11,  1.33s/it]                                                            8%|▊         | 7570/100000 [4:08:41<34:16:11,  1.33s/it]  8%|▊         | 7571/100000 [4:08:42<33:46:54,  1.32s/it]                                                            8%|▊         | 7571/100000 [4:08:42<33:46:54,  1.32s/it]  8%|▊         | 7572/100000 [4:08:43<33:05:48,  1.29s/it]                                                            8%|▊         | 7572/100000 [4:08:43<33:05:48,  1.29s/it]  8%|▊         | 7573/100000 [4:08:44<32:18:19,  1.26s/it]                                                            8%|▊         | 7573/100000 [4:08:44<32:18:19,  1.26s/it]  8%|▊         | 7574/100000 [4:08:45<31:43:59,  1.24s/it]                                                            8%|▊         | 7574/100000 [4:08:45<31:43:59,  1.24s/it]  8%|▊         | 7575/100000 [4:08:47<31:03:41,  1.21s/it]                                                            8%|▊         | 7575/100000 [4:08:47<31:03:41,  1.21s/it]  8%|▊         | 7576/100000 [4:08:48<30:34:11,  1.19s/it]                                                            8%|▊         | 7576/100000 [4:08:48<30:34:11,  1.19s/it]  8%|▊         | 7577/100000 [4:08:49<29:42:26,  1.16s/it]                                                            8%|▊         | 7577/100000 [4:08:49<29:42:26,  1.16s/it]  8%|▊         | 7578/100000 [4:08:50<28:55:28,  1.13s/it]                                                            8%|▊         | 7578/100000 [4:08:50<28:55:28,  1.13s/it]  8%|▊         | 7579/100000 [4:08:51<28:25:08,  1.11s/it]                                                            8%|▊         | 7579/100000 [4:08:51<28:25:08,  1.11s/it]  8%|▊         | 7580/100000 [4:08:52<28:12:27,  1.10s/it]                                                            8%|▊         | 7580/100000 [4:08:52<28:12:27,  1.10s/it]  8%|▊         | 7581/100000 [4:08:53<27:39:22,  1.08s/it]                                                            8%|▊         | 7581/100000 [4:08:53<27:39:22,  1.08s/it]  8%|▊         | 7582/100000 [4:08:54<27:04:32,  1.05s/it]                                                            8%|▊         | 7582/100000 [4:08:54<27:04:32,  1.05s/it]  8%|▊         | 7583/100000 [4:08:55<26:26:46,  1.03s/it]                                                            8%|▊         | 7583/100000 [4:08:55<26:26:46,  1.03s/it]  8%|▊         | 7584/100000 [4:08:56<25:54:04,  1.01s/it]                                                            8%|▊         | 7584/100000 [4:08:56<25:54:04,  1.01s/it]  8%|▊         | 7585/100000 [4:08:57<25:37:28,  1.00it/s]                                                            8%|▊         | 7585/100000 [4:08:57<25:37:28,  1.00it/s]  8%|▊         | 7586/100000 [4:08:58<25:03:13,  1.02it/s]                                                            8%|▊         | 7586/100000 [4:08:58<25:03:13,  1.02it/s]  8%|▊         | 7587/100000 [4:08:59<24:15:13,  1.06it/s]                                                            8%|▊         | 7587/100000 [4:08:59<24:15:13,  1.06it/s]  8%|▊         | 7588/100000 [4:09:00<23:19:38,  1.10it/s]                                                            8%|▊         | 7588/100000 [4:09:00<23:19:38,  1.10it/s]{'loss': 0.0124, 'grad_norm': 0.31305715441703796, 'learning_rate': 2.2626e-05, 'epoch': 13.92}
+{'loss': 0.0132, 'grad_norm': 0.6895094513893127, 'learning_rate': 2.2629e-05, 'epoch': 13.92}
+{'loss': 0.3124, 'grad_norm': 1.553663730621338, 'learning_rate': 2.2632e-05, 'epoch': 13.93}
+{'loss': 0.1667, 'grad_norm': 0.7344269752502441, 'learning_rate': 2.2635e-05, 'epoch': 13.93}
+{'loss': 0.1546, 'grad_norm': 0.867383599281311, 'learning_rate': 2.2638000000000002e-05, 'epoch': 13.93}
+{'loss': 0.1512, 'grad_norm': 0.5955139398574829, 'learning_rate': 2.2641000000000002e-05, 'epoch': 13.93}
+{'loss': 0.1248, 'grad_norm': 0.5191391110420227, 'learning_rate': 2.2644000000000002e-05, 'epoch': 13.93}
+{'loss': 0.1216, 'grad_norm': 0.9385023713111877, 'learning_rate': 2.2647000000000002e-05, 'epoch': 13.93}
+{'loss': 0.1049, 'grad_norm': 0.6964015960693359, 'learning_rate': 2.265e-05, 'epoch': 13.94}
+{'loss': 0.0931, 'grad_norm': 0.7118395566940308, 'learning_rate': 2.2653e-05, 'epoch': 13.94}
+{'loss': 0.0625, 'grad_norm': 0.630588948726654, 'learning_rate': 2.2656e-05, 'epoch': 13.94}
+{'loss': 0.1024, 'grad_norm': 0.5488806366920471, 'learning_rate': 2.2659e-05, 'epoch': 13.94}
+{'loss': 0.0363, 'grad_norm': 0.36687353253364563, 'learning_rate': 2.2662e-05, 'epoch': 13.94}
+{'loss': 0.0511, 'grad_norm': 0.7587217688560486, 'learning_rate': 2.2665e-05, 'epoch': 13.95}
+{'loss': 0.1023, 'grad_norm': 0.7604022026062012, 'learning_rate': 2.2668e-05, 'epoch': 13.95}
+{'loss': 0.0245, 'grad_norm': 0.37718528509140015, 'learning_rate': 2.2671e-05, 'epoch': 13.95}
+{'loss': 0.0252, 'grad_norm': 0.709337055683136, 'learning_rate': 2.2674e-05, 'epoch': 13.95}
+{'loss': 0.0245, 'grad_norm': 0.26128262281417847, 'learning_rate': 2.2677e-05, 'epoch': 13.95}
+{'loss': 0.0175, 'grad_norm': 0.4799002707004547, 'learning_rate': 2.268e-05, 'epoch': 13.95}
+{'loss': 0.0173, 'grad_norm': 0.3801664113998413, 'learning_rate': 2.2683e-05, 'epoch': 13.96}
+{'loss': 0.0225, 'grad_norm': 0.4788198173046112, 'learning_rate': 2.2686e-05, 'epoch': 13.96}
+{'loss': 0.0094, 'grad_norm': 0.3012051582336426, 'learning_rate': 2.2689e-05, 'epoch': 13.96}
+{'loss': 0.0176, 'grad_norm': 0.39352113008499146, 'learning_rate': 2.2692e-05, 'epoch': 13.96}
+{'loss': 0.0187, 'grad_norm': 0.3267962336540222, 'learning_rate': 2.2695e-05, 'epoch': 13.96}
+{'loss': 0.0163, 'grad_norm': 0.3652357757091522, 'learning_rate': 2.2698000000000002e-05, 'epoch': 13.97}
+{'loss': 0.0299, 'grad_norm': 0.29219409823417664, 'learning_rate': 2.2701000000000002e-05, 'epoch': 13.97}
+{'loss': 0.0173, 'grad_norm': 0.4231150150299072, 'learning_rate': 2.2704e-05, 'epoch': 13.97}
+{'loss': 0.0251, 'grad_norm': 0.8734736442565918, 'learning_rate': 2.2707e-05, 'epoch': 13.97}
+{'loss': 0.0332, 'grad_norm': 1.4855594635009766, 'learning_rate': 2.271e-05, 'epoch': 13.97}
+{'loss': 0.015, 'grad_norm': 0.3971326947212219, 'learning_rate': 2.2713e-05, 'epoch': 13.98}
+{'loss': 0.0083, 'grad_norm': 0.2669675052165985, 'learning_rate': 2.2716e-05, 'epoch': 13.98}
+{'loss': 0.0166, 'grad_norm': 0.33655616641044617, 'learning_rate': 2.2719e-05, 'epoch': 13.98}
+{'loss': 0.0172, 'grad_norm': 0.46512511372566223, 'learning_rate': 2.2722e-05, 'epoch': 13.98}
+{'loss': 0.0372, 'grad_norm': 0.7615096569061279, 'learning_rate': 2.2725e-05, 'epoch': 13.98}
+{'loss': 0.0172, 'grad_norm': 0.5171358585357666, 'learning_rate': 2.2728000000000003e-05, 'epoch': 13.98}
+{'loss': 0.0185, 'grad_norm': 0.46097612380981445, 'learning_rate': 2.2731000000000003e-05, 'epoch': 13.99}
+{'loss': 0.0318, 'grad_norm': 1.4962469339370728, 'learning_rate': 2.2734000000000003e-05, 'epoch': 13.99}
+{'loss': 0.0173, 'grad_norm': 0.5866150856018066, 'learning_rate': 2.2737000000000003e-05, 'epoch': 13.99}
+{'loss': 0.0162, 'grad_norm': 0.3140173554420471, 'learning_rate': 2.274e-05, 'epoch': 13.99}
+{'loss': 0.0216, 'grad_norm': 1.4404232501983643, 'learning_rate': 2.2743e-05, 'epoch': 13.99}
+{'loss': 0.0113, 'grad_norm': 0.34213533997535706, 'learning_rate': 2.2746e-05, 'epoch': 14.0}
+{'loss': 0.0235, 'grad_norm': 0.5488388538360596, 'learning_rate': 2.2749e-05, 'epoch': 14.0}
+{'loss': 0.0137, 'grad_norm': 0.4100989103317261, 'learning_rate': 2.2752e-05, 'epoch': 14.0}
+{'loss': 0.0101, 'grad_norm': 0.712295413017273, 'learning_rate': 2.2754999999999998e-05, 'epoch': 14.0}
+  8%|▊         | 7589/100000 [4:09:18<157:06:57,  6.12s/it]                                                             8%|▊         | 7589/100000 [4:09:18<157:06:57,  6.12s/it]  8%|▊         | 7590/100000 [4:09:24<154:04:05,  6.00s/it]                                                             8%|▊         | 7590/100000 [4:09:24<154:04:05,  6.00s/it]  8%|▊         | 7591/100000 [4:09:28<143:52:42,  5.61s/it]                                                             8%|▊         | 7591/100000 [4:09:28<143:52:42,  5.61s/it]  8%|▊         | 7592/100000 [4:09:32<131:24:08,  5.12s/it]                                                             8%|▊         | 7592/100000 [4:09:32<131:24:08,  5.12s/it]  8%|▊         | 7593/100000 [4:09:36<118:22:13,  4.61s/it]                                                             8%|▊         | 7593/100000 [4:09:36<118:22:13,  4.61s/it]  8%|▊         | 7594/100000 [4:09:39<108:08:05,  4.21s/it]                                                             8%|▊         | 7594/100000 [4:09:39<108:08:05,  4.21s/it]  8%|▊         | 7595/100000 [4:09:42<98:48:14,  3.85s/it]                                                             8%|▊         | 7595/100000 [4:09:42<98:48:14,  3.85s/it]  8%|▊         | 7596/100000 [4:09:45<90:17:56,  3.52s/it]                                                            8%|▊         | 7596/100000 [4:09:45<90:17:56,  3.52s/it]  8%|▊         | 7597/100000 [4:09:47<81:55:39,  3.19s/it]                                                            8%|▊         | 7597/100000 [4:09:47<81:55:39,  3.19s/it]  8%|▊         | 7598/100000 [4:09:49<74:38:51,  2.91s/it]                                                            8%|▊         | 7598/100000 [4:09:49<74:38:51,  2.91s/it]  8%|▊         | 7599/100000 [4:09:52<68:59:07,  2.69s/it]                                                            8%|▊         | 7599/100000 [4:09:52<68:59:07,  2.69s/it]  8%|▊         | 7600/100000 [4:09:54<63:48:20,  2.49s/it]                                                            8%|▊         | 7600/100000 [4:09:54<63:48:20,  2.49s/it]  8%|▊         | 7601/100000 [4:09:55<58:58:58,  2.30s/it]                                                            8%|▊         | 7601/100000 [4:09:55<58:58:58,  2.30s/it]  8%|▊         | 7602/100000 [4:09:57<55:10:21,  2.15s/it]                                                            8%|▊         | 7602/100000 [4:09:57<55:10:21,  2.15s/it]  8%|▊         | 7603/100000 [4:09:59<51:34:31,  2.01s/it]                                                            8%|▊         | 7603/100000 [4:09:59<51:34:31,  2.01s/it]  8%|▊         | 7604/100000 [4:10:01<48:50:00,  1.90s/it]                                                            8%|▊         | 7604/100000 [4:10:01<48:50:00,  1.90s/it]  8%|▊         | 7605/100000 [4:10:02<46:05:52,  1.80s/it]                                                            8%|▊         | 7605/100000 [4:10:02<46:05:52,  1.80s/it]  8%|▊         | 7606/100000 [4:10:04<44:18:23,  1.73s/it]                                                            8%|▊         | 7606/100000 [4:10:04<44:18:23,  1.73s/it]  8%|▊         | 7607/100000 [4:10:05<42:51:20,  1.67s/it]                                                            8%|▊         | 7607/100000 [4:10:05<42:51:20,  1.67s/it]  8%|▊         | 7608/100000 [4:10:07<41:16:36,  1.61s/it]                                                            8%|▊         | 7608/100000 [4:10:07<41:16:36,  1.61s/it]  8%|▊         | 7609/100000 [4:10:08<40:05:18,  1.56s/it]                                                            8%|▊         | 7609/100000 [4:10:08<40:05:18,  1.56s/it]  8%|▊         | 7610/100000 [4:10:10<38:37:23,  1.50s/it]                                                            8%|▊         | 7610/100000 [4:10:10<38:37:23,  1.50s/it]  8%|▊         | 7611/100000 [4:10:11<37:58:08,  1.48s/it]                                                            8%|▊         | 7611/100000 [4:10:11<37:58:08,  1.48s/it]  8%|▊         | 7612/100000 [4:10:12<36:56:07,  1.44s/it]                                                            8%|▊         | 7612/100000 [4:10:12<36:56:07,  1.44s/it]  8%|▊         | 7613/100000 [4:10:14<36:23:53,  1.42s/it]                                                            8%|▊         | 7613/100000 [4:10:14<36:23:53,  1.42s/it]  8%|▊         | 7614/100000 [4:10:15<35:27:20,  1.38s/it]                                                            8%|▊         | 7614/100000 [4:10:15<35:27:20,  1.38s/it]  8%|▊         | 7615/100000 [4:10:16<34:33:28,  1.35s/it]                                                            8%|▊         | 7615/100000 [4:10:16<34:33:28,  1.35s/it]  8%|▊         | 7616/100000 [4:10:18<34:21:52,  1.34s/it]                                                            8%|▊         | 7616/100000 [4:10:18<34:21:52,  1.34s/it]  8%|▊         | 7617/100000 [4:10:19<33:42:45,  1.31s/it]                                                            8%|▊         | 7617/100000 [4:10:19<33:42:45,  1.31s/it]  8%|▊         | 7618/100000 [4:10:20<33:26:21,  1.30s/it]                                                            8%|▊         | 7618/100000 [4:10:20<33:26:21,  1.30s/it]  8%|▊         | 7619/100000 [4:10:21<33:00:34,  1.29s/it]                                                            8%|▊         | 7619/100000 [4:10:21<33:00:34,  1.29s/it]  8%|▊         | 7620/100000 [4:10:23<32:33:54,  1.27s/it]                                                            8%|▊         | 7620/100000 [4:10:23<32:33:54,  1.27s/it]  8%|▊         | 7621/100000 [4:10:24<32:10:20,  1.25s/it]                                                            8%|▊         | 7621/100000 [4:10:24<32:10:20,  1.25s/it]  8%|▊         | 7622/100000 [4:10:25<31:31:44,  1.23s/it]                                                            8%|▊         | 7622/100000 [4:10:25<31:31:44,  1.23s/it]  8%|▊         | 7623/100000 [4:10:26<31:01:35,  1.21s/it]                                                            8%|▊         | 7623/100000 [4:10:26<31:01:35,  1.21s/it]  8%|▊         | 7624/100000 [4:10:27<30:38:41,  1.19s/it]                                                            8%|▊         | 7624/100000 [4:10:27<30:38:41,  1.19s/it]  8%|▊         | 7625/100000 [4:10:28<30:05:41,  1.17s/it]                                                            8%|▊         | 7625/100000 [4:10:28<30:05:41,  1.17s/it]  8%|▊         | 7626/100000 [4:10:30<29:45:35,  1.16s/it]                                                            8%|▊         | 7626/100000 [4:10:30<29:45:35,  1.16s/it]  8%|▊         | 7627/100000 [4:10:31<29:08:00,  1.14s/it]                                                            8%|▊         | 7627/100000 [4:10:31<29:08:00,  1.14s/it]  8%|▊         | 7628/100000 [4:10:32<28:53:57,  1.13s/it]                                                            8%|▊         | 7628/100000 [4:10:32<28:53:57,  1.13s/it]  8%|▊         | 7629/100000 [4:10:33<28:38:48,  1.12s/it]                                                            8%|▊         | 7629/100000 [4:10:33<28:38:48,  1.12s/it]  8%|▊         | 7630/100000 [4:10:34<28:10:45,  1.10s/it]                                                            8%|▊         | 7630/100000 [4:10:34<28:10:45,  1.10s/it]  8%|▊         | 7631/100000 [4:10:35<27:54:25,  1.09s/it]                                                            8%|▊         | 7631/100000 [4:10:35<27:54:25,  1.09s/it]  8%|▊         | 7632/100000 [4:10:36<27:28:42,  1.07s/it]                                                            8%|▊         | 7632/100000 [4:10:36<27:28:42,  1.07s/it]  8%|▊         | 7633/100000 [4:10:37<27:11:15,  1.06s/it]                                                            8%|▊         | 7633/100000 [4:10:37<27:11:15,  1.06s/it]  8%|▊         | 7634/100000 [4:10:38<26:43:23,  1.04s/it]                                                            8%|▊         | 7634/100000 [4:10:38<26:43:23,  1.04s/it]  8%|▊         | 7635/100000 [4:10:39<26:14:04,  1.02s/it]                                                            8%|▊         | 7635/100000 [4:10:39<26:14:04,  1.02s/it]  8%|▊         | 7636/100000 [4:10:40<25:38:16,  1.00it/s]                                                            8%|▊         | 7636/100000 [4:10:40<25:38:16,  1.00it/s]  8%|▊         | 7637/100000 [4:10:41<25:09:23,  1.02it/s]                                                            8%|▊         | 7637/100000 [4:10:41<25:09:23,  1.02it/s]  8%|▊         | 7638/100000 [4:10:42<24:48:50,  1.03it/s]                                                            8%|▊         | 7638/100000 [4:10:42<24:48:50,  1.03it/s]  8%|▊         | 7639/100000 [4:10:52<98:03:41,  3.82s/it]                                                            8%|▊         | 7639/100000 [4:10:52<98:03:41,  3.82s/it]  8%|▊         | 7640/100000 [4:10:58<110:24:58,  4.30s/it]                                                             8%|▊         | 7640/100000 [4:10:58<110:24:58,  4.30s/it]  8%|▊         | 7641/100000 [4:11:02<112:04:01,  4.37s/it]                                                             8%|▊         | 7641/100000 [4:11:02<112:04:01,  4.37s/it]  8%|▊         | 7642/100000 [4:11:06<107:49:25,  4.20s/it]                                                             8%|▊         | 7642/100000 [4:11:06<107:49:25,  4.20s/it]  8%|▊         | 7643/100000 [4:11:09<100:48:49,  3.93s/it]                                                             8%|▊         | 7643/100000 [4:11:09<100:48:49,  3.93s/it]  8%|▊         | 7644/100000 [4:11:12<94:14:54,  3.67s/it]                                                             8%|▊         | 7644/100000 [4:11:12<94:14:54,  3.67s/it]  8%|▊         | 7645/100000 [4:11:15<88:22:44,  3.45s/it]                                                            8%|▊         | 7645/100000 [4:11:15<88:22:44,  3.45s/it]  8%|▊         | 7646/100000 [4:11:18<82:58:50,  3.23s/it]                                                            8%|▊         | 7646/100000 [4:11:18<82:58:50,  3.23s/it]  8%|▊         | 7647/100000 [4:11:21<77:28:43,  3.02s/it]                                                            8%|▊         | 7647/100000 [4:11:21<77:28:43,  3.02s/it]  8%|▊         | 7648/100000 [4:11:23<71:31:42,  2.79s/it]                                                            8%|▊         | 7648/100000 [4:11:23<71:31:42,  2.79s/it]  8%|▊         | 7649/100000 [4:11:25<66:36:29,  2.60s/it]                                                            8%|▊         | 7649/100000 [4:11:25<66:36:29,  2.60s/it]  8%|▊         | 7650/100000 [4:11:27<62:11:41,  2.42s/it]                                                            8%|▊         | 7650/100000 [4:11:27<62:11:41,  2.42s/it]  8%|▊         | 7651/100000 [4:11:29<58:09:19,  2.27s/it]                                                            8%|▊         | 7651/100000 [4:11:29<58:09:19,  2.27s/it]  8%|▊         | 7652/100000 [4:11:31<54:15:06,  2.11s/it]                                                            8%|▊         | 7652/100000 [4:11:31<54:15:06,  2.11s/it]  8%|▊         | 7653/100000 [4:11:32<50:53:54,  1.98s/it]                                                            8%|▊         | 7653/100000 [4:11:32<50:53:54,  1.98s/it]  8%|▊         | 7654/100000 [4:11:34<48:16:55,  1.88s/it]                                                            8%|▊         | 7654/100000 [4:11:34<48:16:55,  1.88s/it]  8%|▊         | 7655/100000 [4:11:36<46:02:35,  1.79s/it]                                                            8%|▊         | 7655/100000 [4:11:36<46:02:35,  1.79s/it]  8%|▊         | 7656/100000 [4:11:37<44:05:57,  1.72s/it]                                                            8%|▊         | 7656/100000 [4:11:37<44:05:57,  1.72s/it]  8%|▊         | 7657/100000 [4:11:39<42:20:41,  1.65s/it]                                                            8%|▊         | 7657/100000 [4:11:39<42:20:41,  1.65s/it]  8%|▊         | 7658/100000 [4:11:40<40:22:19,  1.57s/it]                                                            8%|▊         | 7658/100000 [4:11:40<40:22:19,  1.57s/it]  8%|▊         | 7659/100000 [4:11:41<38:53:31,  1.52s/it]                                                            8%|▊         | 7659/100000 [4:11:41<38:53:31,  1.52s/it]  8%|▊         | 7660/100000 [4:11:43<38:06:37,  1.49s/it]                                                            8%|▊         | 7660/100000 [4:11:43<38:06:37,  1.49s/it]  8%|▊         | 7661/100000 [4:11:44<37:00:53,  1.44s/it]                                                            8%|▊         | 7661/100000 [4:11:44<37:00:53,  1.44s/it]  8%|▊         | 7662/100000 [4:11:46<36:29:06,  1.42s/it]                                                            8%|▊         | 7662/100000 [4:11:46<36:29:06,  1.42s/it]  8%|▊         | 7663/100000 [4:11:47<35:39:55,  1.39s/it]                                                            8%|▊         | 7663/100000 [4:11:47<35:39:55,  1.39s/it]  8%|▊         | 7664/100000 [4:11:48<35:16:59,  1.38s/it]                                                            8%|▊         | 7664/100000 [4:11:48<35:16:59,  1.38s/it]  8%|▊         | 7665/100000 [4:11:49<34:31:30,  1.35s/it]                                                            8%|▊         | 7665/100000 [4:11:49<34:31:30,  1.35s/it]  8%|▊         | 7666/100000 [4:11:51<34:07:19,  1.33s/it]                                                            8%|▊         | 7666/100000 [4:11:51<34:07:19,  1.33s/it]  8%|▊         | 7667/100000 [4:11:52<33:31:36,  1.31s/it]                                                            8%|▊         | 7667/100000 [4:11:52<33:31:36,  1.31s/it]  8%|▊         | 7668/100000 [4:11:53<33:08:44,  1.29s/it]                                                            8%|▊         | 7668/100000 [4:11:53<33:08:44,  1.29s/it]  8%|▊         | 7669/100000 [4:11:54<32:45:48,  1.28s/it]                                                            8%|▊         | 7669/100000 [4:11:54<32:45:48,  1.28s/it]  8%|▊         | 7670/100000 [4:11:56<32:22:52,  1.26s/it]                                                            8%|▊         | 7670/100000 [4:11:56<32:22:52,  1.26s/it]  8%|▊         | 7671/100000 [4:11:57<31:58:02,  1.25s/it]                                                            8%|▊         | 7671/100000 [4:11:57<31:58:02,  1.25s/it]  8%|▊         | 7672/100000 [4:11:58<31:18:10,  1.22s/it]                                                          {'loss': 0.1777, 'grad_norm': 1.9446412324905396, 'learning_rate': 2.2758e-05, 'epoch': 14.0}
+{'loss': 0.1542, 'grad_norm': 2.1511576175689697, 'learning_rate': 2.2761e-05, 'epoch': 14.0}
+{'loss': 0.1752, 'grad_norm': 0.7647144794464111, 'learning_rate': 2.2764e-05, 'epoch': 14.01}
+{'loss': 0.1497, 'grad_norm': 1.0041519403457642, 'learning_rate': 2.2767e-05, 'epoch': 14.01}
+{'loss': 0.1156, 'grad_norm': 0.776584804058075, 'learning_rate': 2.277e-05, 'epoch': 14.01}
+{'loss': 0.1211, 'grad_norm': 4.055688381195068, 'learning_rate': 2.2773e-05, 'epoch': 14.01}
+{'loss': 0.1183, 'grad_norm': 0.8145771622657776, 'learning_rate': 2.2776e-05, 'epoch': 14.01}
+{'loss': 0.0915, 'grad_norm': 0.6137973070144653, 'learning_rate': 2.2779e-05, 'epoch': 14.01}
+{'loss': 0.1176, 'grad_norm': 0.6850339770317078, 'learning_rate': 2.2782e-05, 'epoch': 14.02}
+{'loss': 0.0925, 'grad_norm': 0.7108796238899231, 'learning_rate': 2.2785e-05, 'epoch': 14.02}
+{'loss': 0.1094, 'grad_norm': 0.8418132066726685, 'learning_rate': 2.2788000000000003e-05, 'epoch': 14.02}
+{'loss': 0.0733, 'grad_norm': 0.49468469619750977, 'learning_rate': 2.2791000000000003e-05, 'epoch': 14.02}
+{'loss': 0.0538, 'grad_norm': 0.4118848741054535, 'learning_rate': 2.2794000000000002e-05, 'epoch': 14.02}
+{'loss': 0.0378, 'grad_norm': 0.46933019161224365, 'learning_rate': 2.2797000000000002e-05, 'epoch': 14.03}
+{'loss': 0.0528, 'grad_norm': 0.514575183391571, 'learning_rate': 2.2800000000000002e-05, 'epoch': 14.03}
+{'loss': 0.0375, 'grad_norm': 0.41290318965911865, 'learning_rate': 2.2803000000000002e-05, 'epoch': 14.03}
+{'loss': 0.0243, 'grad_norm': 0.6624583005905151, 'learning_rate': 2.2806e-05, 'epoch': 14.03}
+{'loss': 0.0255, 'grad_norm': 0.4341171085834503, 'learning_rate': 2.2809e-05, 'epoch': 14.03}
+{'loss': 0.0431, 'grad_norm': 0.4499518871307373, 'learning_rate': 2.2812e-05, 'epoch': 14.04}
+{'loss': 0.0187, 'grad_norm': 2.0344090461730957, 'learning_rate': 2.2814999999999998e-05, 'epoch': 14.04}
+{'loss': 0.0182, 'grad_norm': 0.7375814914703369, 'learning_rate': 2.2818e-05, 'epoch': 14.04}
+{'loss': 0.0107, 'grad_norm': 0.45870843529701233, 'learning_rate': 2.2821e-05, 'epoch': 14.04}
+{'loss': 0.0232, 'grad_norm': 0.905041515827179, 'learning_rate': 2.2824e-05, 'epoch': 14.04}
+{'loss': 0.0249, 'grad_norm': 0.8704097867012024, 'learning_rate': 2.2827e-05, 'epoch': 14.04}
+{'loss': 0.0115, 'grad_norm': 0.29793083667755127, 'learning_rate': 2.283e-05, 'epoch': 14.05}
+{'loss': 0.0217, 'grad_norm': 0.43679356575012207, 'learning_rate': 2.2833e-05, 'epoch': 14.05}
+{'loss': 0.0183, 'grad_norm': 1.4915803670883179, 'learning_rate': 2.2836e-05, 'epoch': 14.05}
+{'loss': 0.0362, 'grad_norm': 0.692267119884491, 'learning_rate': 2.2839e-05, 'epoch': 14.05}
+{'loss': 0.0232, 'grad_norm': 0.4739607274532318, 'learning_rate': 2.2842e-05, 'epoch': 14.05}
+{'loss': 0.0114, 'grad_norm': 0.25771304965019226, 'learning_rate': 2.2845e-05, 'epoch': 14.06}
+{'loss': 0.0177, 'grad_norm': 0.2940288484096527, 'learning_rate': 2.2848000000000002e-05, 'epoch': 14.06}
+{'loss': 0.0162, 'grad_norm': 0.6190711855888367, 'learning_rate': 2.2851000000000002e-05, 'epoch': 14.06}
+{'loss': 0.0123, 'grad_norm': 0.4986996352672577, 'learning_rate': 2.2854000000000002e-05, 'epoch': 14.06}
+{'loss': 0.0198, 'grad_norm': 0.4452718496322632, 'learning_rate': 2.2857e-05, 'epoch': 14.06}
+{'loss': 0.011, 'grad_norm': 0.269513338804245, 'learning_rate': 2.286e-05, 'epoch': 14.06}
+{'loss': 0.0112, 'grad_norm': 0.3024609684944153, 'learning_rate': 2.2863e-05, 'epoch': 14.07}
+{'loss': 0.0176, 'grad_norm': 0.9202260375022888, 'learning_rate': 2.2866e-05, 'epoch': 14.07}
+{'loss': 0.0417, 'grad_norm': 0.44851964712142944, 'learning_rate': 2.2869e-05, 'epoch': 14.07}
+{'loss': 0.0176, 'grad_norm': 0.5856828093528748, 'learning_rate': 2.2872e-05, 'epoch': 14.07}
+{'loss': 0.0104, 'grad_norm': 0.2961845099925995, 'learning_rate': 2.2875e-05, 'epoch': 14.07}
+{'loss': 0.0187, 'grad_norm': 0.34900930523872375, 'learning_rate': 2.2878e-05, 'epoch': 14.08}
+{'loss': 0.0217, 'grad_norm': 0.7918524742126465, 'learning_rate': 2.2881000000000003e-05, 'epoch': 14.08}
+{'loss': 0.031, 'grad_norm': 0.7197925448417664, 'learning_rate': 2.2884000000000003e-05, 'epoch': 14.08}
+{'loss': 0.0096, 'grad_norm': 0.2891060709953308, 'learning_rate': 2.2887e-05, 'epoch': 14.08}
+{'loss': 0.021, 'grad_norm': 0.6610003709793091, 'learning_rate': 2.289e-05, 'epoch': 14.08}
+{'loss': 0.0185, 'grad_norm': 0.6482753157615662, 'learning_rate': 2.2893e-05, 'epoch': 14.08}
+{'loss': 0.0109, 'grad_norm': 0.3223477602005005, 'learning_rate': 2.2896e-05, 'epoch': 14.09}
+{'loss': 0.01, 'grad_norm': 0.5384102463722229, 'learning_rate': 2.2899e-05, 'epoch': 14.09}
+{'loss': 0.0252, 'grad_norm': 0.6918799877166748, 'learning_rate': 2.2902e-05, 'epoch': 14.09}
+{'loss': 0.0249, 'grad_norm': 0.864923894405365, 'learning_rate': 2.2905e-05, 'epoch': 14.09}
+{'loss': 0.2236, 'grad_norm': 0.9709484577178955, 'learning_rate': 2.2907999999999998e-05, 'epoch': 14.09}
+{'loss': 0.2536, 'grad_norm': 0.9872021079063416, 'learning_rate': 2.2911e-05, 'epoch': 14.1}
+{'loss': 0.1795, 'grad_norm': 0.7489765882492065, 'learning_rate': 2.2914e-05, 'epoch': 14.1}
+{'loss': 0.1119, 'grad_norm': 0.7499869465827942, 'learning_rate': 2.2917e-05, 'epoch': 14.1}
+{'loss': 0.1, 'grad_norm': 0.6760444045066833, 'learning_rate': 2.292e-05, 'epoch': 14.1}
+{'loss': 0.0716, 'grad_norm': 1.1884748935699463, 'learning_rate': 2.2923e-05, 'epoch': 14.1}
+{'loss': 0.0893, 'grad_norm': 0.6572530269622803, 'learning_rate': 2.2926e-05, 'epoch': 14.11}
+{'loss': 0.098, 'grad_norm': 0.5504191517829895, 'learning_rate': 2.2929e-05, 'epoch': 14.11}
+{'loss': 0.0736, 'grad_norm': 0.5794324278831482, 'learning_rate': 2.2932e-05, 'epoch': 14.11}
+{'loss': 0.0534, 'grad_norm': 0.39542296528816223, 'learning_rate': 2.2935e-05, 'epoch': 14.11}
+{'loss': 0.0387, 'grad_norm': 0.3459565043449402, 'learning_rate': 2.2938e-05, 'epoch': 14.11}
+{'loss': 0.047, 'grad_norm': 0.9930928349494934, 'learning_rate': 2.2941000000000003e-05, 'epoch': 14.11}
+{'loss': 0.0401, 'grad_norm': 0.4960794150829315, 'learning_rate': 2.2944000000000003e-05, 'epoch': 14.12}
+{'loss': 0.0395, 'grad_norm': 0.4362480342388153, 'learning_rate': 2.2947000000000002e-05, 'epoch': 14.12}
+{'loss': 0.0225, 'grad_norm': 0.43307340145111084, 'learning_rate': 2.2950000000000002e-05, 'epoch': 14.12}
+{'loss': 0.046, 'grad_norm': 0.5992100834846497, 'learning_rate': 2.2953000000000002e-05, 'epoch': 14.12}
+{'loss': 0.0209, 'grad_norm': 0.4235561490058899, 'learning_rate': 2.2956000000000002e-05, 'epoch': 14.12}
+{'loss': 0.0187, 'grad_norm': 0.3926125764846802, 'learning_rate': 2.2959e-05, 'epoch': 14.13}
+{'loss': 0.0595, 'grad_norm': 0.7339117527008057, 'learning_rate': 2.2961999999999998e-05, 'epoch': 14.13}
+{'loss': 0.0212, 'grad_norm': 0.4378303289413452, 'learning_rate': 2.2964999999999998e-05, 'epoch': 14.13}
+{'loss': 0.0407, 'grad_norm': 0.47204580903053284, 'learning_rate': 2.2967999999999998e-05, 'epoch': 14.13}
+{'loss': 0.0175, 'grad_norm': 0.31966009736061096, 'learning_rate': 2.2971e-05, 'epoch': 14.13}
+{'loss': 0.0186, 'grad_norm': 0.3838869333267212, 'learning_rate': 2.2974e-05, 'epoch': 14.13}
+{'loss': 0.0114, 'grad_norm': 0.19909749925136566, 'learning_rate': 2.2977e-05, 'epoch': 14.14}
+{'loss': 0.0343, 'grad_norm': 0.3598874807357788, 'learning_rate': 2.298e-05, 'epoch': 14.14}
+{'loss': 0.0096, 'grad_norm': 0.18918880820274353, 'learning_rate': 2.2983e-05, 'epoch': 14.14}
+{'loss': 0.0129, 'grad_norm': 0.2890123724937439, 'learning_rate': 2.2986e-05, 'epoch': 14.14}
+{'loss': 0.0144, 'grad_norm': 0.27688318490982056, 'learning_rate': 2.2989e-05, 'epoch': 14.14}
+{'loss': 0.0704, 'grad_norm': 0.46568000316619873, 'learning_rate': 2.2992e-05, 'epoch': 14.15}
+{'loss': 0.0179, 'grad_norm': 0.5880398750305176, 'learning_rate': 2.2995e-05, 'epoch': 14.15}
+{'loss': 0.011, 'grad_norm': 0.28892356157302856, 'learning_rate': 2.2998e-05, 'epoch': 14.15}
+{'loss': 0.0365, 'grad_norm': 0.5236003994941711, 'learning_rate': 2.3001000000000002e-05, 'epoch': 14.15}
+{'loss': 0.0081, 'grad_norm': 0.17960208654403687, 'learning_rate': 2.3004000000000002e-05, 'epoch': 14.15}
+  8%|▊         | 7672/100000 [4:11:58<31:18:10,  1.22s/it]  8%|▊         | 7673/100000 [4:11:59<30:47:23,  1.20s/it]                                                            8%|▊         | 7673/100000 [4:11:59<30:47:23,  1.20s/it]  8%|▊         | 7674/100000 [4:12:00<30:22:47,  1.18s/it]                                                            8%|▊         | 7674/100000 [4:12:00<30:22:47,  1.18s/it]  8%|▊         | 7675/100000 [4:12:02<29:55:28,  1.17s/it]                                                            8%|▊         | 7675/100000 [4:12:02<29:55:28,  1.17s/it]  8%|▊         | 7676/100000 [4:12:03<29:22:27,  1.15s/it]                                                            8%|▊         | 7676/100000 [4:12:03<29:22:27,  1.15s/it]  8%|▊         | 7677/100000 [4:12:04<29:02:13,  1.13s/it]                                                            8%|▊         | 7677/100000 [4:12:04<29:02:13,  1.13s/it]  8%|▊         | 7678/100000 [4:12:05<28:32:13,  1.11s/it]                                                            8%|▊         | 7678/100000 [4:12:05<28:32:13,  1.11s/it]  8%|▊         | 7679/100000 [4:12:06<27:57:59,  1.09s/it]                                                            8%|▊         | 7679/100000 [4:12:06<27:57:59,  1.09s/it]  8%|▊         | 7680/100000 [4:12:07<27:23:43,  1.07s/it]                                                            8%|▊         | 7680/100000 [4:12:07<27:23:43,  1.07s/it]  8%|▊         | 7681/100000 [4:12:08<26:59:47,  1.05s/it]                                                            8%|▊         | 7681/100000 [4:12:08<26:59:47,  1.05s/it]  8%|▊         | 7682/100000 [4:12:09<26:31:04,  1.03s/it]                                                            8%|▊         | 7682/100000 [4:12:09<26:31:04,  1.03s/it]  8%|▊         | 7683/100000 [4:12:10<26:04:27,  1.02s/it]                                                            8%|▊         | 7683/100000 [4:12:10<26:04:27,  1.02s/it]  8%|▊         | 7684/100000 [4:12:11<25:48:45,  1.01s/it]                                                            8%|▊         | 7684/100000 [4:12:11<25:48:45,  1.01s/it]  8%|▊         | 7685/100000 [4:12:12<25:26:21,  1.01it/s]                                                            8%|▊         | 7685/100000 [4:12:12<25:26:21,  1.01it/s]  8%|▊         | 7686/100000 [4:12:13<25:00:46,  1.03it/s]                                                            8%|▊         | 7686/100000 [4:12:13<25:00:46,  1.03it/s]  8%|▊         | 7687/100000 [4:12:14<24:13:36,  1.06it/s]                                                            8%|▊         | 7687/100000 [4:12:14<24:13:36,  1.06it/s]  8%|▊         | 7688/100000 [4:12:14<23:25:31,  1.09it/s]                                                            8%|▊         | 7688/100000 [4:12:14<23:25:31,  1.09it/s]  8%|▊         | 7689/100000 [4:12:25<99:09:16,  3.87s/it]                                                            8%|▊         | 7689/100000 [4:12:25<99:09:16,  3.87s/it]  8%|▊         | 7690/100000 [4:12:30<107:24:14,  4.19s/it]                                                             8%|▊         | 7690/100000 [4:12:30<107:24:14,  4.19s/it]  8%|▊         | 7691/100000 [4:12:34<107:59:02,  4.21s/it]                                                             8%|▊         | 7691/100000 [4:12:34<107:59:02,  4.21s/it]  8%|▊         | 7692/100000 [4:12:38<103:55:51,  4.05s/it]                                                             8%|▊         | 7692/100000 [4:12:38<103:55:51,  4.05s/it]  8%|▊         | 7693/100000 [4:12:41<98:11:16,  3.83s/it]                                                             8%|▊         | 7693/100000 [4:12:41<98:11:16,  3.83s/it]  8%|▊         | 7694/100000 [4:12:44<92:37:02,  3.61s/it]                                                            8%|▊         | 7694/100000 [4:12:44<92:37:02,  3.61s/it]  8%|▊         | 7695/100000 [4:12:47<87:09:59,  3.40s/it]                                                            8%|▊         | 7695/100000 [4:12:47<87:09:59,  3.40s/it]  8%|▊         | 7696/100000 [4:12:50<80:28:00,  3.14s/it]                                                            8%|▊         | 7696/100000 [4:12:50<80:28:00,  3.14s/it]  8%|▊         | 7697/100000 [4:12:52<75:00:37,  2.93s/it]                                                            8%|▊         | 7697/100000 [4:12:52<75:00:37,  2.93s/it]  8%|▊         | 7698/100000 [4:12:55<69:35:44,  2.71s/it]                                                            8%|▊         | 7698/100000 [4:12:55<69:35:44,  2.71s/it]  8%|▊         | 7699/100000 [4:12:57<64:39:02,  2.52s/it]                                                            8%|▊         | 7699/100000 [4:12:57<64:39:02,  2.52s/it]  8%|▊         | 7700/100000 [4:12:59<60:27:59,  2.36s/it]                                                            8%|▊         | 7700/100000 [4:12:59<60:27:59,  2.36s/it]  8%|▊         | 7701/100000 [4:13:01<56:57:49,  2.22s/it]                                                            8%|▊         | 7701/100000 [4:13:01<56:57:49,  2.22s/it]  8%|▊         | 7702/100000 [4:13:02<53:36:06,  2.09s/it]                                                            8%|▊         | 7702/100000 [4:13:02<53:36:06,  2.09s/it]  8%|▊         | 7703/100000 [4:13:04<50:53:41,  1.99s/it]                                                            8%|▊         | 7703/100000 [4:13:04<50:53:41,  1.99s/it]  8%|▊         | 7704/100000 [4:13:06<48:28:18,  1.89s/it]                                                            8%|▊         | 7704/100000 [4:13:06<48:28:18,  1.89s/it]  8%|▊         | 7705/100000 [4:13:07<46:30:48,  1.81s/it]                                                            8%|▊         | 7705/100000 [4:13:07<46:30:48,  1.81s/it]  8%|▊         | 7706/100000 [4:13:09<44:39:41,  1.74s/it]                                                            8%|▊         | 7706/100000 [4:13:09<44:39:41,  1.74s/it]  8%|▊         | 7707/100000 [4:13:10<43:02:32,  1.68s/it]                                                            8%|▊         | 7707/100000 [4:13:10<43:02:32,  1.68s/it]  8%|▊         | 7708/100000 [4:13:12<41:14:08,  1.61s/it]                                                            8%|▊         | 7708/100000 [4:13:12<41:14:08,  1.61s/it]  8%|▊         | 7709/100000 [4:13:13<40:04:51,  1.56s/it]                                                            8%|▊         | 7709/100000 [4:13:13<40:04:51,  1.56s/it]  8%|▊         | 7710/100000 [4:13:15<39:02:07,  1.52s/it]                                                            8%|▊         | 7710/100000 [4:13:15<39:02:07,  1.52s/it]  8%|▊         | 7711/100000 [4:13:16<38:09:06,  1.49s/it]                                                            8%|▊         | 7711/100000 [4:13:16<38:09:06,  1.49s/it]  8%|▊         | 7712/100000 [4:13:18<37:24:26,  1.46s/it]                                                            8%|▊         | 7712/100000 [4:13:18<37:24:26,  1.46s/it]  8%|▊         | 7713/100000 [4:13:19<36:41:52,  1.43s/it]                                                            8%|▊         | 7713/100000 [4:13:19<36:41:52,  1.43s/it]  8%|▊         | 7714/100000 [4:13:20<35:49:23,  1.40s/it]                                                            8%|▊         | 7714/100000 [4:13:20<35:49:23,  1.40s/it]  8%|▊         | 7715/100000 [4:13:22<35:16:49,  1.38s/it]                                                            8%|▊         | 7715/100000 [4:13:22<35:16:49,  1.38s/it]  8%|▊         | 7716/100000 [4:13:23<34:24:05,  1.34s/it]                                                            8%|▊         | 7716/100000 [4:13:23<34:24:05,  1.34s/it]  8%|▊         | 7717/100000 [4:13:24<34:03:51,  1.33s/it]                                                            8%|▊         | 7717/100000 [4:13:24<34:03:51,  1.33s/it]  8%|▊         | 7718/100000 [4:13:25<33:24:59,  1.30s/it]                                                            8%|▊         | 7718/100000 [4:13:25<33:24:59,  1.30s/it]  8%|▊         | 7719/100000 [4:13:27<33:04:46,  1.29s/it]                                                            8%|▊         | 7719/100000 [4:13:27<33:04:46,  1.29s/it]  8%|▊         | 7720/100000 [4:13:28<32:44:19,  1.28s/it]                                                            8%|▊         | 7720/100000 [4:13:28<32:44:19,  1.28s/it]  8%|▊         | 7721/100000 [4:13:29<32:21:35,  1.26s/it]                                                            8%|▊         | 7721/100000 [4:13:29<32:21:35,  1.26s/it]  8%|▊         | 7722/100000 [4:13:30<32:04:16,  1.25s/it]                                                            8%|▊         | 7722/100000 [4:13:30<32:04:16,  1.25s/it]  8%|▊         | 7723/100000 [4:13:31<30:58:48,  1.21s/it]                                                            8%|▊         | 7723/100000 [4:13:31<30:58:48,  1.21s/it]  8%|▊         | 7724/100000 [4:13:33<30:39:41,  1.20s/it]                                                            8%|▊         | 7724/100000 [4:13:33<30:39:41,  1.20s/it]  8%|▊         | 7725/100000 [4:13:34<30:08:18,  1.18s/it]                                                            8%|▊         | 7725/100000 [4:13:34<30:08:18,  1.18s/it]  8%|▊         | 7726/100000 [4:13:35<29:42:42,  1.16s/it]                                                            8%|▊         | 7726/100000 [4:13:35<29:42:42,  1.16s/it]  8%|▊         | 7727/100000 [4:13:36<29:24:22,  1.15s/it]                                                            8%|▊         | 7727/100000 [4:13:36<29:24:22,  1.15s/it]  8%|▊         | 7728/100000 [4:13:37<28:59:04,  1.13s/it]                                                            8%|▊         | 7728/100000 [4:13:37<28:59:04,  1.13s/it]  8%|▊         | 7729/100000 [4:13:38<28:39:22,  1.12s/it]                                                            8%|▊         | 7729/100000 [4:13:38<28:39:22,  1.12s/it]  8%|▊         | 7730/100000 [4:13:39<28:14:32,  1.10s/it]                                                            8%|▊         | 7730/100000 [4:13:39<28:14:32,  1.10s/it]  8%|▊         | 7731/100000 [4:13:40<27:56:37,  1.09s/it]                                                            8%|▊         | 7731/100000 [4:13:40<27:56:37,  1.09s/it]  8%|▊         | 7732/100000 [4:13:41<27:34:37,  1.08s/it]                                                            8%|▊         | 7732/100000 [4:13:41<27:34:37,  1.08s/it]  8%|▊         | 7733/100000 [4:13:42<27:05:35,  1.06s/it]                                                            8%|▊         | 7733/100000 [4:13:42<27:05:35,  1.06s/it]  8%|▊         | 7734/100000 [4:13:43<26:32:13,  1.04s/it]                                                            8%|▊         | 7734/100000 [4:13:43<26:32:13,  1.04s/it]  8%|▊         | 7735/100000 [4:13:44<26:03:01,  1.02s/it]                                                            8%|▊         | 7735/100000 [4:13:44<26:03:01,  1.02s/it]  8%|▊         | 7736/100000 [4:13:45<25:40:46,  1.00s/it]                                                            8%|▊         | 7736/100000 [4:13:45<25:40:46,  1.00s/it]  8%|▊         | 7737/100000 [4:13:46<24:47:49,  1.03it/s]                                                            8%|▊         | 7737/100000 [4:13:46<24:47:49,  1.03it/s]  8%|▊         | 7738/100000 [4:13:47<23:54:46,  1.07it/s]                                                            8%|▊         | 7738/100000 [4:13:47<23:54:46,  1.07it/s]  8%|▊         | 7739/100000 [4:13:59<111:08:09,  4.34s/it]                                                             8%|▊         | 7739/100000 [4:13:59<111:08:09,  4.34s/it]  8%|▊         | 7740/100000 [4:14:05<118:37:36,  4.63s/it]                                                             8%|▊         | 7740/100000 [4:14:05<118:37:36,  4.63s/it]  8%|▊         | 7741/100000 [4:14:09<117:41:48,  4.59s/it]                                                             8%|▊         | 7741/100000 [4:14:09<117:41:48,  4.59s/it]  8%|▊         | 7742/100000 [4:14:13<111:03:09,  4.33s/it]                                                             8%|▊         | 7742/100000 [4:14:13<111:03:09,  4.33s/it]  8%|▊         | 7743/100000 [4:14:16<104:02:11,  4.06s/it]                                                             8%|▊         | 7743/100000 [4:14:16<104:02:11,  4.06s/it]  8%|▊         | 7744/100000 [4:14:19<97:42:06,  3.81s/it]                                                             8%|▊         | 7744/100000 [4:14:20<97:42:06,  3.81s/it]  8%|▊         | 7745/100000 [4:14:22<91:12:13,  3.56s/it]                                                            8%|▊         | 7745/100000 [4:14:22<91:12:13,  3.56s/it]  8%|▊         | 7746/100000 [4:14:25<85:06:44,  3.32s/it]                                                            8%|▊         | 7746/100000 [4:14:25<85:06:44,  3.32s/it]  8%|▊         | 7747/100000 [4:14:28<78:28:25,  3.06s/it]                                                            8%|▊         | 7747/100000 [4:14:28<78:28:25,  3.06s/it]  8%|▊         | 7748/100000 [4:14:30<71:56:13,  2.81s/it]                                                            8%|▊         | 7748/100000 [4:14:30<71:56:13,  2.81s/it]  8%|▊         | 7749/100000 [4:14:32<66:36:59,  2.60s/it]                                                            8%|▊         | 7749/100000 [4:14:32<66:36:59,  2.60s/it]  8%|▊         | 7750/100000 [4:14:34<61:49:20,  2.41s/it]                                                            8%|▊         | 7750/100000 [4:14:34<61:49:20,  2.41s/it]  8%|▊         | 7751/100000 [4:14:36<56:47:43,  2.22s/it]                                                            8%|▊         | 7751/100000 [4:14:36<56:47:43,  2.22s/it]  8%|▊         | 7752/100000 [4:14:37<52:57:23,  2.07s/it]                                                            8%|▊         | 7752/100000 [4:14:37<52:57:23,  2.07s/it]  8%|▊         | 7753/100000 [4:14:39<50:14:25,  1.96s/it]                                                            8%|▊         | 7753/100000 [4:14:39<50:14:25,  1.96s/it]  8%|▊         | 7754/100000 [4:14:41<47:29:52,  1.85s/it]                                                            8%|▊         | 7754/100000 [4:14:41<47:29:52,  1.85s/it]  8%|▊         | 7755/100000 [4:14:42<45:13:48,  1.77s/it]                                                          {'loss': 0.0189, 'grad_norm': 0.45658397674560547, 'learning_rate': 2.3007000000000002e-05, 'epoch': 14.16}
+{'loss': 0.0202, 'grad_norm': 0.3621665835380554, 'learning_rate': 2.301e-05, 'epoch': 14.16}
+{'loss': 0.0108, 'grad_norm': 0.30046194791793823, 'learning_rate': 2.3013e-05, 'epoch': 14.16}
+{'loss': 0.0173, 'grad_norm': 0.33425599336624146, 'learning_rate': 2.3016e-05, 'epoch': 14.16}
+{'loss': 0.0091, 'grad_norm': 0.20881663262844086, 'learning_rate': 2.3019e-05, 'epoch': 14.16}
+{'loss': 0.027, 'grad_norm': 0.8621287941932678, 'learning_rate': 2.3022e-05, 'epoch': 14.16}
+{'loss': 0.0079, 'grad_norm': 0.21208317577838898, 'learning_rate': 2.3025e-05, 'epoch': 14.17}
+{'loss': 0.0178, 'grad_norm': 1.173541784286499, 'learning_rate': 2.3028e-05, 'epoch': 14.17}
+{'loss': 0.0074, 'grad_norm': 0.2508636713027954, 'learning_rate': 2.3031000000000004e-05, 'epoch': 14.17}
+{'loss': 0.0083, 'grad_norm': 0.30045756697654724, 'learning_rate': 2.3034e-05, 'epoch': 14.17}
+{'loss': 0.0241, 'grad_norm': 0.38787662982940674, 'learning_rate': 2.3037e-05, 'epoch': 14.17}
+{'loss': 0.0133, 'grad_norm': 0.7570717930793762, 'learning_rate': 2.304e-05, 'epoch': 14.18}
+{'loss': 0.0244, 'grad_norm': 0.885297954082489, 'learning_rate': 2.3043e-05, 'epoch': 14.18}
+{'loss': 0.023, 'grad_norm': 1.052407145500183, 'learning_rate': 2.3046e-05, 'epoch': 14.18}
+{'loss': 0.038, 'grad_norm': 0.8462616801261902, 'learning_rate': 2.3049e-05, 'epoch': 14.18}
+{'loss': 0.0126, 'grad_norm': 0.41136690974235535, 'learning_rate': 2.3052e-05, 'epoch': 14.18}
+{'loss': 0.0146, 'grad_norm': 0.42739972472190857, 'learning_rate': 2.3055e-05, 'epoch': 14.18}
+{'loss': 0.2013, 'grad_norm': 0.8237746953964233, 'learning_rate': 2.3058e-05, 'epoch': 14.19}
+{'loss': 0.208, 'grad_norm': 0.7207422852516174, 'learning_rate': 2.3061e-05, 'epoch': 14.19}
+{'loss': 0.1293, 'grad_norm': 0.9960768222808838, 'learning_rate': 2.3064e-05, 'epoch': 14.19}
+{'loss': 0.1429, 'grad_norm': 0.8917984962463379, 'learning_rate': 2.3067e-05, 'epoch': 14.19}
+{'loss': 0.1572, 'grad_norm': 0.5600876808166504, 'learning_rate': 2.307e-05, 'epoch': 14.19}
+{'loss': 0.1045, 'grad_norm': 0.4889839291572571, 'learning_rate': 2.3073e-05, 'epoch': 14.2}
+{'loss': 0.0875, 'grad_norm': 0.44030889868736267, 'learning_rate': 2.3076e-05, 'epoch': 14.2}
+{'loss': 0.0865, 'grad_norm': 0.48708662390708923, 'learning_rate': 2.3079e-05, 'epoch': 14.2}
+{'loss': 0.0882, 'grad_norm': 0.5878287553787231, 'learning_rate': 2.3082e-05, 'epoch': 14.2}
+{'loss': 0.1273, 'grad_norm': 0.6096134185791016, 'learning_rate': 2.3085e-05, 'epoch': 14.2}
+{'loss': 0.0412, 'grad_norm': 0.41568949818611145, 'learning_rate': 2.3088e-05, 'epoch': 14.2}
+{'loss': 0.0527, 'grad_norm': 0.8116822242736816, 'learning_rate': 2.3091000000000003e-05, 'epoch': 14.21}
+{'loss': 0.0963, 'grad_norm': 0.5746693015098572, 'learning_rate': 2.3094000000000003e-05, 'epoch': 14.21}
+{'loss': 0.0589, 'grad_norm': 0.4817805290222168, 'learning_rate': 2.3097000000000003e-05, 'epoch': 14.21}
+{'loss': 0.0365, 'grad_norm': 0.4487169086933136, 'learning_rate': 2.3100000000000002e-05, 'epoch': 14.21}
+{'loss': 0.0307, 'grad_norm': 0.5302636027336121, 'learning_rate': 2.3103000000000002e-05, 'epoch': 14.21}
+{'loss': 0.0133, 'grad_norm': 0.22351866960525513, 'learning_rate': 2.3106000000000002e-05, 'epoch': 14.22}
+{'loss': 0.0186, 'grad_norm': 0.41186782717704773, 'learning_rate': 2.3109e-05, 'epoch': 14.22}
+{'loss': 0.0177, 'grad_norm': 0.40214699506759644, 'learning_rate': 2.3111999999999998e-05, 'epoch': 14.22}
+{'loss': 0.0137, 'grad_norm': 0.24294708669185638, 'learning_rate': 2.3114999999999998e-05, 'epoch': 14.22}
+{'loss': 0.0234, 'grad_norm': 0.5617495775222778, 'learning_rate': 2.3117999999999998e-05, 'epoch': 14.22}
+{'loss': 0.0257, 'grad_norm': 0.8240264654159546, 'learning_rate': 2.3121e-05, 'epoch': 14.23}
+{'loss': 0.039, 'grad_norm': 0.5336347818374634, 'learning_rate': 2.3124e-05, 'epoch': 14.23}
+{'loss': 0.0169, 'grad_norm': 0.34149596095085144, 'learning_rate': 2.3127e-05, 'epoch': 14.23}
+{'loss': 0.0133, 'grad_norm': 0.24113301932811737, 'learning_rate': 2.313e-05, 'epoch': 14.23}
+{'loss': 0.0076, 'grad_norm': 0.2770822048187256, 'learning_rate': 2.3133e-05, 'epoch': 14.23}
+{'loss': 0.0303, 'grad_norm': 0.37785083055496216, 'learning_rate': 2.3136e-05, 'epoch': 14.23}
+{'loss': 0.0237, 'grad_norm': 0.36604055762290955, 'learning_rate': 2.3139e-05, 'epoch': 14.24}
+{'loss': 0.0194, 'grad_norm': 0.316237211227417, 'learning_rate': 2.3142e-05, 'epoch': 14.24}
+{'loss': 0.0121, 'grad_norm': 0.3500533103942871, 'learning_rate': 2.3145e-05, 'epoch': 14.24}
+{'loss': 0.0092, 'grad_norm': 0.3890174329280853, 'learning_rate': 2.3148e-05, 'epoch': 14.24}
+{'loss': 0.0269, 'grad_norm': 1.027275562286377, 'learning_rate': 2.3151000000000002e-05, 'epoch': 14.24}
+{'loss': 0.014, 'grad_norm': 0.4223162531852722, 'learning_rate': 2.3154000000000002e-05, 'epoch': 14.25}
+{'loss': 0.0101, 'grad_norm': 0.37757349014282227, 'learning_rate': 2.3157000000000002e-05, 'epoch': 14.25}
+{'loss': 0.0143, 'grad_norm': 0.34131377935409546, 'learning_rate': 2.3160000000000002e-05, 'epoch': 14.25}
+{'loss': 0.017, 'grad_norm': 0.4734109044075012, 'learning_rate': 2.3163e-05, 'epoch': 14.25}
+{'loss': 0.016, 'grad_norm': 0.5335391759872437, 'learning_rate': 2.3166e-05, 'epoch': 14.25}
+{'loss': 0.0092, 'grad_norm': 0.25241535902023315, 'learning_rate': 2.3169e-05, 'epoch': 14.25}
+{'loss': 0.0169, 'grad_norm': 0.6295625567436218, 'learning_rate': 2.3172e-05, 'epoch': 14.26}
+{'loss': 0.0148, 'grad_norm': 0.7412222623825073, 'learning_rate': 2.3175e-05, 'epoch': 14.26}
+{'loss': 0.0114, 'grad_norm': 0.3130491375923157, 'learning_rate': 2.3178e-05, 'epoch': 14.26}
+{'loss': 0.0106, 'grad_norm': 0.31834471225738525, 'learning_rate': 2.3181000000000004e-05, 'epoch': 14.26}
+{'loss': 0.0213, 'grad_norm': 1.08151376247406, 'learning_rate': 2.3184e-05, 'epoch': 14.26}
+{'loss': 0.0191, 'grad_norm': 0.7608094215393066, 'learning_rate': 2.3187e-05, 'epoch': 14.27}
+{'loss': 0.0148, 'grad_norm': 0.23599159717559814, 'learning_rate': 2.319e-05, 'epoch': 14.27}
+{'loss': 0.0133, 'grad_norm': 0.6872748136520386, 'learning_rate': 2.3193e-05, 'epoch': 14.27}
+{'loss': 0.0184, 'grad_norm': 0.7782183885574341, 'learning_rate': 2.3196e-05, 'epoch': 14.27}
+{'loss': 0.016, 'grad_norm': 0.5043119788169861, 'learning_rate': 2.3199e-05, 'epoch': 14.27}
+{'loss': 0.0162, 'grad_norm': 0.7329913973808289, 'learning_rate': 2.3202e-05, 'epoch': 14.28}
+{'loss': 0.0131, 'grad_norm': 0.37354522943496704, 'learning_rate': 2.3205e-05, 'epoch': 14.28}
+{'loss': 0.2945, 'grad_norm': 1.0684969425201416, 'learning_rate': 2.3208e-05, 'epoch': 14.28}
+{'loss': 0.1278, 'grad_norm': 0.5377521514892578, 'learning_rate': 2.3211000000000002e-05, 'epoch': 14.28}
+{'loss': 0.1373, 'grad_norm': 0.5380083322525024, 'learning_rate': 2.3214000000000002e-05, 'epoch': 14.28}
+{'loss': 0.1496, 'grad_norm': 1.1396440267562866, 'learning_rate': 2.3217e-05, 'epoch': 14.28}
+{'loss': 0.1442, 'grad_norm': 0.8189786672592163, 'learning_rate': 2.322e-05, 'epoch': 14.29}
+{'loss': 0.1651, 'grad_norm': 0.5815137028694153, 'learning_rate': 2.3223e-05, 'epoch': 14.29}
+{'loss': 0.0993, 'grad_norm': 0.5112689137458801, 'learning_rate': 2.3226e-05, 'epoch': 14.29}
+{'loss': 0.1104, 'grad_norm': 0.8791669607162476, 'learning_rate': 2.3229e-05, 'epoch': 14.29}
+{'loss': 0.0836, 'grad_norm': 0.9186159372329712, 'learning_rate': 2.3232e-05, 'epoch': 14.29}
+{'loss': 0.0736, 'grad_norm': 0.6723326444625854, 'learning_rate': 2.3235e-05, 'epoch': 14.3}
+{'loss': 0.1027, 'grad_norm': 0.5478449463844299, 'learning_rate': 2.3238e-05, 'epoch': 14.3}
+{'loss': 0.0377, 'grad_norm': 0.38028210401535034, 'learning_rate': 2.3241000000000003e-05, 'epoch': 14.3}
+{'loss': 0.0761, 'grad_norm': 0.47234466671943665, 'learning_rate': 2.3244000000000003e-05, 'epoch': 14.3}
+{'loss': 0.0569, 'grad_norm': 0.47043994069099426, 'learning_rate': 2.3247000000000003e-05, 'epoch': 14.3}
+{'loss': 0.0366, 'grad_norm': 0.44927072525024414, 'learning_rate': 2.3250000000000003e-05, 'epoch': 14.3}
+{'loss': 0.0298, 'grad_norm': 0.3382532596588135, 'learning_rate': 2.3253000000000003e-05, 'epoch': 14.31}
+  8%|▊         | 7755/100000 [4:14:42<45:13:48,  1.77s/it]  8%|▊         | 7756/100000 [4:14:44<44:56:12,  1.75s/it]                                                            8%|▊         | 7756/100000 [4:14:44<44:56:12,  1.75s/it]  8%|▊         | 7757/100000 [4:14:46<43:04:40,  1.68s/it]                                                            8%|▊         | 7757/100000 [4:14:46<43:04:40,  1.68s/it]  8%|▊         | 7758/100000 [4:14:47<41:29:00,  1.62s/it]                                                            8%|▊         | 7758/100000 [4:14:47<41:29:00,  1.62s/it]  8%|▊         | 7759/100000 [4:14:48<39:58:39,  1.56s/it]                                                            8%|▊         | 7759/100000 [4:14:48<39:58:39,  1.56s/it]  8%|▊         | 7760/100000 [4:14:50<38:41:05,  1.51s/it]                                                            8%|▊         | 7760/100000 [4:14:50<38:41:05,  1.51s/it]  8%|▊         | 7761/100000 [4:14:51<37:41:40,  1.47s/it]                                                            8%|▊         | 7761/100000 [4:14:51<37:41:40,  1.47s/it]  8%|▊         | 7762/100000 [4:14:53<36:34:50,  1.43s/it]                                                            8%|▊         | 7762/100000 [4:14:53<36:34:50,  1.43s/it]  8%|▊         | 7763/100000 [4:14:54<36:00:13,  1.41s/it]                                                            8%|▊         | 7763/100000 [4:14:54<36:00:13,  1.41s/it]  8%|▊         | 7764/100000 [4:14:55<35:30:27,  1.39s/it]                                                            8%|▊         | 7764/100000 [4:14:55<35:30:27,  1.39s/it]  8%|▊         | 7765/100000 [4:14:57<34:45:28,  1.36s/it]                                                            8%|▊         | 7765/100000 [4:14:57<34:45:28,  1.36s/it]  8%|▊         | 7766/100000 [4:14:58<34:21:34,  1.34s/it]                                                            8%|▊         | 7766/100000 [4:14:58<34:21:34,  1.34s/it]  8%|▊         | 7767/100000 [4:14:59<34:00:56,  1.33s/it]                                                            8%|▊         | 7767/100000 [4:14:59<34:00:56,  1.33s/it]  8%|▊         | 7768/100000 [4:15:00<33:37:21,  1.31s/it]                                                            8%|▊         | 7768/100000 [4:15:00<33:37:21,  1.31s/it]  8%|▊         | 7769/100000 [4:15:02<33:03:31,  1.29s/it]                                                            8%|▊         | 7769/100000 [4:15:02<33:03:31,  1.29s/it]  8%|▊         | 7770/100000 [4:15:03<32:24:39,  1.27s/it]                                                            8%|▊         | 7770/100000 [4:15:03<32:24:39,  1.27s/it]  8%|▊         | 7771/100000 [4:15:04<31:56:35,  1.25s/it]                                                            8%|▊         | 7771/100000 [4:15:04<31:56:35,  1.25s/it]  8%|▊         | 7772/100000 [4:15:05<31:26:40,  1.23s/it]                                                            8%|▊         | 7772/100000 [4:15:05<31:26:40,  1.23s/it]  8%|▊         | 7773/100000 [4:15:06<30:55:35,  1.21s/it]                                                            8%|▊         | 7773/100000 [4:15:06<30:55:35,  1.21s/it]  8%|▊         | 7774/100000 [4:15:08<30:09:49,  1.18s/it]                                                            8%|▊         | 7774/100000 [4:15:08<30:09:49,  1.18s/it]  8%|▊         | 7775/100000 [4:15:09<29:51:13,  1.17s/it]                                                            8%|▊         | 7775/100000 [4:15:09<29:51:13,  1.17s/it]  8%|▊         | 7776/100000 [4:15:10<29:27:05,  1.15s/it]                                                            8%|▊         | 7776/100000 [4:15:10<29:27:05,  1.15s/it]  8%|▊         | 7777/100000 [4:15:11<28:49:02,  1.12s/it]                                                            8%|▊         | 7777/100000 [4:15:11<28:49:02,  1.12s/it]  8%|▊         | 7778/100000 [4:15:12<28:35:40,  1.12s/it]                                                            8%|▊         | 7778/100000 [4:15:12<28:35:40,  1.12s/it]  8%|▊         | 7779/100000 [4:15:13<28:20:28,  1.11s/it]                                                            8%|▊         | 7779/100000 [4:15:13<28:20:28,  1.11s/it]  8%|▊         | 7780/100000 [4:15:14<28:03:49,  1.10s/it]                                                            8%|▊         | 7780/100000 [4:15:14<28:03:49,  1.10s/it]  8%|▊         | 7781/100000 [4:15:15<27:25:19,  1.07s/it]                                                            8%|▊         | 7781/100000 [4:15:15<27:25:19,  1.07s/it]  8%|▊         | 7782/100000 [4:15:16<27:03:16,  1.06s/it]                                                            8%|▊         | 7782/100000 [4:15:16<27:03:16,  1.06s/it]  8%|▊         | 7783/100000 [4:15:17<26:44:49,  1.04s/it]                                                            8%|▊         | 7783/100000 [4:15:17<26:44:49,  1.04s/it]  8%|▊         | 7784/100000 [4:15:18<26:21:24,  1.03s/it]                                                            8%|▊         | 7784/100000 [4:15:18<26:21:24,  1.03s/it]  8%|▊         | 7785/100000 [4:15:19<25:53:44,  1.01s/it]                                                            8%|▊         | 7785/100000 [4:15:19<25:53:44,  1.01s/it]  8%|▊         | 7786/100000 [4:15:20<25:32:23,  1.00it/s]                                                            8%|▊         | 7786/100000 [4:15:20<25:32:23,  1.00it/s]  8%|▊         | 7787/100000 [4:15:21<24:42:01,  1.04it/s]                                                            8%|▊         | 7787/100000 [4:15:21<24:42:01,  1.04it/s]  8%|▊         | 7788/100000 [4:15:22<23:45:30,  1.08it/s]                                                            8%|▊         | 7788/100000 [4:15:22<23:45:30,  1.08it/s]  8%|▊         | 7789/100000 [4:15:34<107:31:14,  4.20s/it]                                                             8%|▊         | 7789/100000 [4:15:34<107:31:14,  4.20s/it]  8%|▊         | 7790/100000 [4:15:40<120:29:07,  4.70s/it]                                                             8%|▊         | 7790/100000 [4:15:40<120:29:07,  4.70s/it]  8%|▊         | 7791/100000 [4:15:44<121:20:10,  4.74s/it]                                                             8%|▊         | 7791/100000 [4:15:44<121:20:10,  4.74s/it]  8%|▊         | 7792/100000 [4:15:49<116:56:19,  4.57s/it]                                                             8%|▊         | 7792/100000 [4:15:49<116:56:19,  4.57s/it]  8%|▊         | 7793/100000 [4:15:52<108:39:15,  4.24s/it]                                                             8%|▊         | 7793/100000 [4:15:52<108:39:15,  4.24s/it]  8%|▊         | 7794/100000 [4:15:55<101:05:34,  3.95s/it]                                                             8%|▊         | 7794/100000 [4:15:55<101:05:34,  3.95s/it]  8%|▊         | 7795/100000 [4:15:58<93:46:13,  3.66s/it]                                                             8%|▊         | 7795/100000 [4:15:58<93:46:13,  3.66s/it]  8%|▊         | 7796/100000 [4:16:01<85:28:33,  3.34s/it]                                                            8%|▊         | 7796/100000 [4:16:01<85:28:33,  3.34s/it]  8%|▊         | 7797/100000 [4:16:03<78:59:11,  3.08s/it]                                                            8%|▊         | 7797/100000 [4:16:03<78:59:11,  3.08s/it]  8%|▊         | 7798/100000 [4:16:06<73:17:49,  2.86s/it]                                                            8%|▊         | 7798/100000 [4:16:06<73:17:49,  2.86s/it]  8%|▊         | 7799/100000 [4:16:08<68:07:08,  2.66s/it]                                                            8%|▊         | 7799/100000 [4:16:08<68:07:08,  2.66s/it]  8%|▊         | 7800/100000 [4:16:10<63:12:47,  2.47s/it]                                                            8%|▊         | 7800/100000 [4:16:10<63:12:47,  2.47s/it]  8%|▊         | 7801/100000 [4:16:12<59:07:54,  2.31s/it]                                                            8%|▊         | 7801/100000 [4:16:12<59:07:54,  2.31s/it]  8%|▊         | 7802/100000 [4:16:14<55:06:28,  2.15s/it]                                                            8%|▊         | 7802/100000 [4:16:14<55:06:28,  2.15s/it]  8%|▊         | 7803/100000 [4:16:15<51:50:02,  2.02s/it]                                                            8%|▊         | 7803/100000 [4:16:15<51:50:02,  2.02s/it]  8%|▊         | 7804/100000 [4:16:17<49:07:03,  1.92s/it]                                                            8%|▊         | 7804/100000 [4:16:17<49:07:03,  1.92s/it]  8%|▊         | 7805/100000 [4:16:19<46:35:26,  1.82s/it]                                                            8%|▊         | 7805/100000 [4:16:19<46:35:26,  1.82s/it]  8%|▊         | 7806/100000 [4:16:20<44:24:50,  1.73s/it]                                                            8%|▊         | 7806/100000 [4:16:20<44:24:50,  1.73s/it]  8%|▊         | 7807/100000 [4:16:22<43:00:23,  1.68s/it]                                                            8%|▊         | 7807/100000 [4:16:22<43:00:23,  1.68s/it]  8%|▊         | 7808/100000 [4:16:23<41:24:24,  1.62s/it]                                                            8%|▊         | 7808/100000 [4:16:23<41:24:24,  1.62s/it]  8%|▊         | 7809/100000 [4:16:25<40:04:42,  1.57s/it]                                                            8%|▊         | 7809/100000 [4:16:25<40:04:42,  1.57s/it]  8%|▊         | 7810/100000 [4:16:26<38:39:19,  1.51s/it]                                                            8%|▊         | 7810/100000 [4:16:26<38:39:19,  1.51s/it]  8%|▊         | 7811/100000 [4:16:27<37:26:43,  1.46s/it]                                                            8%|▊         | 7811/100000 [4:16:27<37:26:43,  1.46s/it]  8%|▊         | 7812/100000 [4:16:29<36:47:24,  1.44s/it]                                                            8%|▊         | 7812/100000 [4:16:29<36:47:24,  1.44s/it]  8%|▊         | 7813/100000 [4:16:30<36:13:58,  1.41s/it]                                                            8%|▊         | 7813/100000 [4:16:30<36:13:58,  1.41s/it]  8%|▊         | 7814/100000 [4:16:31<35:30:41,  1.39s/it]                                                            8%|▊         | 7814/100000 [4:16:31<35:30:41,  1.39s/it]  8%|▊         | 7815/100000 [4:16:33<34:54:50,  1.36s/it]                                                            8%|▊         | 7815/100000 [4:16:33<34:54:50,  1.36s/it]  8%|▊         | 7816/100000 [4:16:34<34:12:07,  1.34s/it]                                                            8%|▊         | 7816/100000 [4:16:34<34:12:07,  1.34s/it]  8%|▊         | 7817/100000 [4:16:35<33:33:27,  1.31s/it]                                                            8%|▊         | 7817/100000 [4:16:35<33:33:27,  1.31s/it]  8%|▊         | 7818/100000 [4:16:36<33:20:47,  1.30s/it]                                                            8%|▊         | 7818/100000 [4:16:36<33:20:47,  1.30s/it]  8%|▊         | 7819/100000 [4:16:38<32:47:39,  1.28s/it]                                                            8%|▊         | 7819/100000 [4:16:38<32:47:39,  1.28s/it]  8%|▊         | 7820/100000 [4:16:39<32:26:10,  1.27s/it]                                                            8%|▊         | 7820/100000 [4:16:39<32:26:10,  1.27s/it]  8%|▊         | 7821/100000 [4:16:40<32:05:34,  1.25s/it]                                                            8%|▊         | 7821/100000 [4:16:40<32:05:34,  1.25s/it]  8%|▊         | 7822/100000 [4:16:41<31:33:50,  1.23s/it]                                                            8%|▊         | 7822/100000 [4:16:41<31:33:50,  1.23s/it]  8%|▊         | 7823/100000 [4:16:43<31:05:33,  1.21s/it]                                                            8%|▊         | 7823/100000 [4:16:43<31:05:33,  1.21s/it]  8%|▊         | 7824/100000 [4:16:44<30:30:49,  1.19s/it]                                                            8%|▊         | 7824/100000 [4:16:44<30:30:49,  1.19s/it]  8%|▊         | 7825/100000 [4:16:45<30:01:55,  1.17s/it]                                                            8%|▊         | 7825/100000 [4:16:45<30:01:55,  1.17s/it]  8%|▊         | 7826/100000 [4:16:46<29:42:09,  1.16s/it]                                                            8%|▊         | 7826/100000 [4:16:46<29:42:09,  1.16s/it]  8%|▊         | 7827/100000 [4:16:47<29:16:23,  1.14s/it]                                                            8%|▊         | 7827/100000 [4:16:47<29:16:23,  1.14s/it]  8%|▊         | 7828/100000 [4:16:48<28:52:19,  1.13s/it]                                                            8%|▊         | 7828/100000 [4:16:48<28:52:19,  1.13s/it]  8%|▊         | 7829/100000 [4:16:49<28:29:00,  1.11s/it]                                                            8%|▊         | 7829/100000 [4:16:49<28:29:00,  1.11s/it]  8%|▊         | 7830/100000 [4:16:50<27:55:15,  1.09s/it]                                                            8%|▊         | 7830/100000 [4:16:50<27:55:15,  1.09s/it]  8%|▊         | 7831/100000 [4:16:51<27:47:29,  1.09s/it]                                                            8%|▊         | 7831/100000 [4:16:51<27:47:29,  1.09s/it]  8%|▊         | 7832/100000 [4:16:52<27:21:41,  1.07s/it]                                                            8%|▊         | 7832/100000 [4:16:52<27:21:41,  1.07s/it]  8%|▊         | 7833/100000 [4:16:53<26:58:05,  1.05s/it]                                                            8%|▊         | 7833/100000 [4:16:53<26:58:05,  1.05s/it]  8%|▊         | 7834/100000 [4:16:54<26:32:49,  1.04s/it]                                                            8%|▊         | 7834/100000 [4:16:54<26:32:49,  1.04s/it]  8%|▊         | 7835/100000 [4:16:55<25:54:52,  1.01s/it]                                                            8%|▊         | 7835/100000 [4:16:55<25:54:52,  1.01s/it]  8%|▊         | 7836/100000 [4:16:56<25:04:33,  1.02it/s]                                                            8%|▊         | 7836/100000 [4:16:56<25:04:33,  1.02it/s]  8%|▊         | 7837/100000 [4:16:57<24:52:40,  1.03it/s]                                                            8%|▊         | 7837/100000 [4:16:57<24:52:40,  1.03it/s]  8%|▊         | 7838/100000 [4:16:58<24:28:56,  1.05it/s]                                                          {'loss': 0.0199, 'grad_norm': 0.30027419328689575, 'learning_rate': 2.3256e-05, 'epoch': 14.31}
+{'loss': 0.0302, 'grad_norm': 0.44675812125205994, 'learning_rate': 2.3259e-05, 'epoch': 14.31}
+{'loss': 0.0209, 'grad_norm': 0.803776204586029, 'learning_rate': 2.3262e-05, 'epoch': 14.31}
+{'loss': 0.0135, 'grad_norm': 0.32607215642929077, 'learning_rate': 2.3265e-05, 'epoch': 14.31}
+{'loss': 0.0143, 'grad_norm': 0.30982378125190735, 'learning_rate': 2.3267999999999998e-05, 'epoch': 14.32}
+{'loss': 0.0189, 'grad_norm': 0.38955262303352356, 'learning_rate': 2.3270999999999998e-05, 'epoch': 14.32}
+{'loss': 0.0128, 'grad_norm': 0.34186357259750366, 'learning_rate': 2.3274e-05, 'epoch': 14.32}
+{'loss': 0.0154, 'grad_norm': 0.29279205203056335, 'learning_rate': 2.3277e-05, 'epoch': 14.32}
+{'loss': 0.012, 'grad_norm': 0.37621551752090454, 'learning_rate': 2.328e-05, 'epoch': 14.32}
+{'loss': 0.0186, 'grad_norm': 0.4087648093700409, 'learning_rate': 2.3283e-05, 'epoch': 14.33}
+{'loss': 0.0136, 'grad_norm': 0.303737998008728, 'learning_rate': 2.3286e-05, 'epoch': 14.33}
+{'loss': 0.016, 'grad_norm': 0.5038633942604065, 'learning_rate': 2.3289e-05, 'epoch': 14.33}
+{'loss': 0.0283, 'grad_norm': 0.8184044361114502, 'learning_rate': 2.3292e-05, 'epoch': 14.33}
+{'loss': 0.0478, 'grad_norm': 1.2842833995819092, 'learning_rate': 2.3295e-05, 'epoch': 14.33}
+{'loss': 0.0141, 'grad_norm': 0.36860495805740356, 'learning_rate': 2.3298e-05, 'epoch': 14.33}
+{'loss': 0.0214, 'grad_norm': 0.6347278952598572, 'learning_rate': 2.3301e-05, 'epoch': 14.34}
+{'loss': 0.0141, 'grad_norm': 0.37546491622924805, 'learning_rate': 2.3304000000000003e-05, 'epoch': 14.34}
+{'loss': 0.0153, 'grad_norm': 0.39249086380004883, 'learning_rate': 2.3307000000000002e-05, 'epoch': 14.34}
+{'loss': 0.026, 'grad_norm': 0.6554223895072937, 'learning_rate': 2.3310000000000002e-05, 'epoch': 14.34}
+{'loss': 0.0111, 'grad_norm': 1.0025122165679932, 'learning_rate': 2.3313000000000002e-05, 'epoch': 14.34}
+{'loss': 0.0159, 'grad_norm': 0.6032886505126953, 'learning_rate': 2.3316000000000002e-05, 'epoch': 14.35}
+{'loss': 0.0152, 'grad_norm': 0.31834331154823303, 'learning_rate': 2.3319e-05, 'epoch': 14.35}
+{'loss': 0.0303, 'grad_norm': 0.7992693781852722, 'learning_rate': 2.3322e-05, 'epoch': 14.35}
+{'loss': 0.0156, 'grad_norm': 0.3116844892501831, 'learning_rate': 2.3325e-05, 'epoch': 14.35}
+{'loss': 0.0093, 'grad_norm': 0.2716032564640045, 'learning_rate': 2.3328e-05, 'epoch': 14.35}
+{'loss': 0.0083, 'grad_norm': 0.2736084759235382, 'learning_rate': 2.3330999999999997e-05, 'epoch': 14.35}
+{'loss': 0.0212, 'grad_norm': 0.6578453183174133, 'learning_rate': 2.3334e-05, 'epoch': 14.36}
+{'loss': 0.0104, 'grad_norm': 0.33356401324272156, 'learning_rate': 2.3337e-05, 'epoch': 14.36}
+{'loss': 0.016, 'grad_norm': 0.37421756982803345, 'learning_rate': 2.334e-05, 'epoch': 14.36}
+{'loss': 0.0171, 'grad_norm': 0.48051688075065613, 'learning_rate': 2.3343e-05, 'epoch': 14.36}
+{'loss': 0.0261, 'grad_norm': 0.5618257522583008, 'learning_rate': 2.3346e-05, 'epoch': 14.36}
+{'loss': 0.01, 'grad_norm': 0.3171500861644745, 'learning_rate': 2.3349e-05, 'epoch': 14.37}
+{'loss': 0.0131, 'grad_norm': 0.531436562538147, 'learning_rate': 2.3352e-05, 'epoch': 14.37}
+{'loss': 0.0163, 'grad_norm': 0.9091717600822449, 'learning_rate': 2.3355e-05, 'epoch': 14.37}
+{'loss': 0.191, 'grad_norm': 0.6591691374778748, 'learning_rate': 2.3358e-05, 'epoch': 14.37}
+{'loss': 0.1545, 'grad_norm': 0.5781044363975525, 'learning_rate': 2.3361e-05, 'epoch': 14.37}
+{'loss': 0.174, 'grad_norm': 0.7448709607124329, 'learning_rate': 2.3364000000000002e-05, 'epoch': 14.37}
+{'loss': 0.2, 'grad_norm': 0.6972495913505554, 'learning_rate': 2.3367000000000002e-05, 'epoch': 14.38}
+{'loss': 0.1773, 'grad_norm': 0.7102606296539307, 'learning_rate': 2.337e-05, 'epoch': 14.38}
+{'loss': 0.1013, 'grad_norm': 0.4949325621128082, 'learning_rate': 2.3373e-05, 'epoch': 14.38}
+{'loss': 0.1204, 'grad_norm': 1.218247652053833, 'learning_rate': 2.3376e-05, 'epoch': 14.38}
+{'loss': 0.0815, 'grad_norm': 0.5108643770217896, 'learning_rate': 2.3379e-05, 'epoch': 14.38}
+{'loss': 0.0851, 'grad_norm': 0.569215714931488, 'learning_rate': 2.3382e-05, 'epoch': 14.39}
+{'loss': 0.0753, 'grad_norm': 0.6716434359550476, 'learning_rate': 2.3385e-05, 'epoch': 14.39}
+{'loss': 0.0476, 'grad_norm': 0.32701218128204346, 'learning_rate': 2.3388e-05, 'epoch': 14.39}
+{'loss': 0.0478, 'grad_norm': 0.6348007321357727, 'learning_rate': 2.3391e-05, 'epoch': 14.39}
+{'loss': 0.0638, 'grad_norm': 0.423272967338562, 'learning_rate': 2.3394000000000003e-05, 'epoch': 14.39}
+{'loss': 0.0546, 'grad_norm': 0.4461739659309387, 'learning_rate': 2.3397000000000003e-05, 'epoch': 14.4}
+{'loss': 0.0362, 'grad_norm': 0.42833179235458374, 'learning_rate': 2.3400000000000003e-05, 'epoch': 14.4}
+{'loss': 0.0235, 'grad_norm': 0.32603225111961365, 'learning_rate': 2.3403e-05, 'epoch': 14.4}
+{'loss': 0.0227, 'grad_norm': 0.3583817780017853, 'learning_rate': 2.3406e-05, 'epoch': 14.4}
+{'loss': 0.0217, 'grad_norm': 0.3128528594970703, 'learning_rate': 2.3409e-05, 'epoch': 14.4}
+{'loss': 0.0135, 'grad_norm': 0.37281113862991333, 'learning_rate': 2.3412e-05, 'epoch': 14.4}
+{'loss': 0.0169, 'grad_norm': 0.5349627137184143, 'learning_rate': 2.3415e-05, 'epoch': 14.41}
+{'loss': 0.0434, 'grad_norm': 0.5006557703018188, 'learning_rate': 2.3418e-05, 'epoch': 14.41}
+{'loss': 0.0145, 'grad_norm': 0.5111393332481384, 'learning_rate': 2.3420999999999998e-05, 'epoch': 14.41}
+{'loss': 0.0188, 'grad_norm': 0.3418116867542267, 'learning_rate': 2.3424e-05, 'epoch': 14.41}
+{'loss': 0.0185, 'grad_norm': 0.33915090560913086, 'learning_rate': 2.3427e-05, 'epoch': 14.41}
+{'loss': 0.0212, 'grad_norm': 0.36737731099128723, 'learning_rate': 2.343e-05, 'epoch': 14.42}
+{'loss': 0.0051, 'grad_norm': 0.14595548808574677, 'learning_rate': 2.3433e-05, 'epoch': 14.42}
+{'loss': 0.0158, 'grad_norm': 0.3603948950767517, 'learning_rate': 2.3436e-05, 'epoch': 14.42}
+{'loss': 0.011, 'grad_norm': 0.35886791348457336, 'learning_rate': 2.3439e-05, 'epoch': 14.42}
+{'loss': 0.0139, 'grad_norm': 0.4424641728401184, 'learning_rate': 2.3442e-05, 'epoch': 14.42}
+{'loss': 0.0076, 'grad_norm': 0.21980373561382294, 'learning_rate': 2.3445e-05, 'epoch': 14.42}
+{'loss': 0.0113, 'grad_norm': 0.2293301224708557, 'learning_rate': 2.3448e-05, 'epoch': 14.43}
+{'loss': 0.0114, 'grad_norm': 0.4105096161365509, 'learning_rate': 2.3451e-05, 'epoch': 14.43}
+{'loss': 0.0182, 'grad_norm': 0.5419213175773621, 'learning_rate': 2.3454000000000003e-05, 'epoch': 14.43}
+{'loss': 0.0086, 'grad_norm': 0.21369367837905884, 'learning_rate': 2.3457000000000003e-05, 'epoch': 14.43}
+{'loss': 0.0152, 'grad_norm': 0.39795318245887756, 'learning_rate': 2.3460000000000002e-05, 'epoch': 14.43}
+{'loss': 0.0244, 'grad_norm': 0.6262432932853699, 'learning_rate': 2.3463000000000002e-05, 'epoch': 14.44}
+{'loss': 0.0165, 'grad_norm': 0.5282998085021973, 'learning_rate': 2.3466000000000002e-05, 'epoch': 14.44}
+{'loss': 0.0245, 'grad_norm': 0.7346487045288086, 'learning_rate': 2.3469000000000002e-05, 'epoch': 14.44}
+{'loss': 0.0092, 'grad_norm': 0.45807477831840515, 'learning_rate': 2.3472e-05, 'epoch': 14.44}
+{'loss': 0.0169, 'grad_norm': 0.5049607753753662, 'learning_rate': 2.3475e-05, 'epoch': 14.44}
+{'loss': 0.0192, 'grad_norm': 0.5809155702590942, 'learning_rate': 2.3477999999999998e-05, 'epoch': 14.45}
+{'loss': 0.0137, 'grad_norm': 0.45647743344306946, 'learning_rate': 2.3480999999999998e-05, 'epoch': 14.45}
+{'loss': 0.0242, 'grad_norm': 0.5045316815376282, 'learning_rate': 2.3484e-05, 'epoch': 14.45}
+{'loss': 0.0121, 'grad_norm': 0.742444634437561, 'learning_rate': 2.3487e-05, 'epoch': 14.45}
+{'loss': 0.0217, 'grad_norm': 0.8437967896461487, 'learning_rate': 2.349e-05, 'epoch': 14.45}
+{'loss': 0.0103, 'grad_norm': 0.2819928228855133, 'learning_rate': 2.3493e-05, 'epoch': 14.45}
+{'loss': 0.0074, 'grad_norm': 0.2498871237039566, 'learning_rate': 2.3496e-05, 'epoch': 14.46}
+{'loss': 0.025, 'grad_norm': 0.6369275450706482, 'learning_rate': 2.3499e-05, 'epoch': 14.46}
+{'loss': 0.0207, 'grad_norm': 0.5697141885757446, 'learning_rate': 2.3502e-05, 'epoch': 14.46}
+  8%|▊         | 7838/100000 [4:16:58<24:28:56,  1.05it/s]  8%|▊         | 7839/100000 [4:17:09<101:35:42,  3.97s/it]                                                             8%|▊         | 7839/100000 [4:17:09<101:35:42,  3.97s/it]  8%|▊         | 7840/100000 [4:17:15<114:56:33,  4.49s/it]                                                             8%|▊         | 7840/100000 [4:17:15<114:56:33,  4.49s/it]  8%|▊         | 7841/100000 [4:17:20<117:41:34,  4.60s/it]                                                             8%|▊         | 7841/100000 [4:17:20<117:41:34,  4.60s/it]  8%|▊         | 7842/100000 [4:17:23<110:22:33,  4.31s/it]                                                             8%|▊         | 7842/100000 [4:17:23<110:22:33,  4.31s/it]  8%|▊         | 7843/100000 [4:17:27<103:44:52,  4.05s/it]                                                             8%|▊         | 7843/100000 [4:17:27<103:44:52,  4.05s/it]  8%|▊         | 7844/100000 [4:17:30<97:37:45,  3.81s/it]                                                             8%|▊         | 7844/100000 [4:17:30<97:37:45,  3.81s/it]  8%|▊         | 7845/100000 [4:17:33<90:20:47,  3.53s/it]                                                            8%|▊         | 7845/100000 [4:17:33<90:20:47,  3.53s/it]  8%|▊         | 7846/100000 [4:17:36<84:20:36,  3.29s/it]                                                            8%|▊         | 7846/100000 [4:17:36<84:20:36,  3.29s/it]  8%|▊         | 7847/100000 [4:17:38<77:53:13,  3.04s/it]                                                            8%|▊         | 7847/100000 [4:17:38<77:53:13,  3.04s/it]  8%|▊         | 7848/100000 [4:17:40<72:21:15,  2.83s/it]                                                            8%|▊         | 7848/100000 [4:17:40<72:21:15,  2.83s/it]  8%|▊         | 7849/100000 [4:17:43<67:23:47,  2.63s/it]                                                            8%|▊         | 7849/100000 [4:17:43<67:23:47,  2.63s/it]  8%|▊         | 7850/100000 [4:17:45<63:13:24,  2.47s/it]                                                            8%|▊         | 7850/100000 [4:17:45<63:13:24,  2.47s/it]  8%|▊         | 7851/100000 [4:17:47<59:19:06,  2.32s/it]                                                            8%|▊         | 7851/100000 [4:17:47<59:19:06,  2.32s/it]  8%|▊         | 7852/100000 [4:17:48<55:48:38,  2.18s/it]                                                            8%|▊         | 7852/100000 [4:17:48<55:48:38,  2.18s/it]  8%|▊         | 7853/100000 [4:17:50<51:40:26,  2.02s/it]                                                            8%|▊         | 7853/100000 [4:17:50<51:40:26,  2.02s/it]  8%|▊         | 7854/100000 [4:17:52<48:58:44,  1.91s/it]                                                            8%|▊         | 7854/100000 [4:17:52<48:58:44,  1.91s/it]  8%|▊         | 7855/100000 [4:17:53<46:19:58,  1.81s/it]                                                            8%|▊         | 7855/100000 [4:17:53<46:19:58,  1.81s/it]  8%|▊         | 7856/100000 [4:17:55<44:33:47,  1.74s/it]                                                            8%|▊         | 7856/100000 [4:17:55<44:33:47,  1.74s/it]  8%|▊         | 7857/100000 [4:17:56<43:02:33,  1.68s/it]                                                            8%|▊         | 7857/100000 [4:17:56<43:02:33,  1.68s/it]  8%|▊         | 7858/100000 [4:17:58<41:14:27,  1.61s/it]                                                            8%|▊         | 7858/100000 [4:17:58<41:14:27,  1.61s/it]  8%|▊         | 7859/100000 [4:17:59<39:40:28,  1.55s/it]                                                            8%|▊         | 7859/100000 [4:17:59<39:40:28,  1.55s/it]  8%|▊         | 7860/100000 [4:18:01<38:56:41,  1.52s/it]                                                            8%|▊         | 7860/100000 [4:18:01<38:56:41,  1.52s/it]  8%|▊         | 7861/100000 [4:18:02<37:51:14,  1.48s/it]                                                            8%|▊         | 7861/100000 [4:18:02<37:51:14,  1.48s/it]  8%|▊         | 7862/100000 [4:18:04<37:17:49,  1.46s/it]                                                            8%|▊         | 7862/100000 [4:18:04<37:17:49,  1.46s/it]  8%|▊         | 7863/100000 [4:18:05<36:26:32,  1.42s/it]                                                            8%|▊         | 7863/100000 [4:18:05<36:26:32,  1.42s/it]  8%|▊         | 7864/100000 [4:18:06<36:02:15,  1.41s/it]                                                            8%|▊         | 7864/100000 [4:18:06<36:02:15,  1.41s/it]  8%|▊         | 7865/100000 [4:18:08<35:31:32,  1.39s/it]                                                            8%|▊         | 7865/100000 [4:18:08<35:31:32,  1.39s/it]  8%|▊         | 7866/100000 [4:18:09<34:45:24,  1.36s/it]                                                            8%|▊         | 7866/100000 [4:18:09<34:45:24,  1.36s/it]  8%|▊         | 7867/100000 [4:18:10<34:18:15,  1.34s/it]                                                            8%|▊         | 7867/100000 [4:18:10<34:18:15,  1.34s/it]  8%|▊         | 7868/100000 [4:18:12<33:55:06,  1.33s/it]                                                            8%|▊         | 7868/100000 [4:18:12<33:55:06,  1.33s/it]  8%|▊         | 7869/100000 [4:18:13<33:32:13,  1.31s/it]                                                            8%|▊         | 7869/100000 [4:18:13<33:32:13,  1.31s/it]  8%|▊         | 7870/100000 [4:18:14<33:03:14,  1.29s/it]                                                            8%|▊         | 7870/100000 [4:18:14<33:03:14,  1.29s/it]  8%|▊         | 7871/100000 [4:18:15<32:24:27,  1.27s/it]                                                            8%|▊         | 7871/100000 [4:18:15<32:24:27,  1.27s/it]  8%|▊         | 7872/100000 [4:18:16<32:05:49,  1.25s/it]                                                            8%|▊         | 7872/100000 [4:18:16<32:05:49,  1.25s/it]  8%|▊         | 7873/100000 [4:18:18<31:26:07,  1.23s/it]                                                            8%|▊         | 7873/100000 [4:18:18<31:26:07,  1.23s/it]  8%|▊         | 7874/100000 [4:18:19<30:57:27,  1.21s/it]                                                            8%|▊         | 7874/100000 [4:18:19<30:57:27,  1.21s/it]  8%|▊         | 7875/100000 [4:18:20<30:28:51,  1.19s/it]                                                            8%|▊         | 7875/100000 [4:18:20<30:28:51,  1.19s/it]  8%|▊         | 7876/100000 [4:18:21<30:04:46,  1.18s/it]                                                            8%|▊         | 7876/100000 [4:18:21<30:04:46,  1.18s/it]  8%|▊         | 7877/100000 [4:18:22<29:27:57,  1.15s/it]                                                            8%|▊         | 7877/100000 [4:18:22<29:27:57,  1.15s/it]  8%|▊         | 7878/100000 [4:18:23<29:04:50,  1.14s/it]                                                            8%|▊         | 7878/100000 [4:18:23<29:04:50,  1.14s/it]  8%|▊         | 7879/100000 [4:18:24<28:34:04,  1.12s/it]                                                            8%|▊         | 7879/100000 [4:18:24<28:34:04,  1.12s/it]  8%|▊         | 7880/100000 [4:18:25<28:16:41,  1.11s/it]                                                            8%|▊         | 7880/100000 [4:18:25<28:16:41,  1.11s/it]  8%|▊         | 7881/100000 [4:18:26<27:48:02,  1.09s/it]                                                            8%|▊         | 7881/100000 [4:18:26<27:48:02,  1.09s/it]  8%|▊         | 7882/100000 [4:18:28<27:24:03,  1.07s/it]                                                            8%|▊         | 7882/100000 [4:18:28<27:24:03,  1.07s/it]  8%|▊         | 7883/100000 [4:18:29<26:45:18,  1.05s/it]                                                            8%|▊         | 7883/100000 [4:18:29<26:45:18,  1.05s/it]  8%|▊         | 7884/100000 [4:18:29<26:15:51,  1.03s/it]                                                            8%|▊         | 7884/100000 [4:18:29<26:15:51,  1.03s/it]  8%|▊         | 7885/100000 [4:18:30<25:44:13,  1.01s/it]                                                            8%|▊         | 7885/100000 [4:18:30<25:44:13,  1.01s/it]  8%|▊         | 7886/100000 [4:18:31<24:51:01,  1.03it/s]                                                            8%|▊         | 7886/100000 [4:18:31<24:51:01,  1.03it/s]  8%|▊         | 7887/100000 [4:18:32<23:49:19,  1.07it/s]                                                            8%|▊         | 7887/100000 [4:18:32<23:49:19,  1.07it/s]  8%|▊         | 7888/100000 [4:18:33<23:47:27,  1.08it/s]                                                            8%|▊         | 7888/100000 [4:18:33<23:47:27,  1.08it/s]  8%|▊         | 7889/100000 [4:18:45<107:31:46,  4.20s/it]                                                             8%|▊         | 7889/100000 [4:18:45<107:31:46,  4.20s/it]  8%|▊         | 7890/100000 [4:18:51<119:24:15,  4.67s/it]                                                             8%|▊         | 7890/100000 [4:18:51<119:24:15,  4.67s/it]  8%|▊         | 7891/100000 [4:18:55<119:33:07,  4.67s/it]                                                             8%|▊         | 7891/100000 [4:18:55<119:33:07,  4.67s/it]  8%|▊         | 7892/100000 [4:18:59<115:13:48,  4.50s/it]                                                             8%|▊         | 7892/100000 [4:18:59<115:13:48,  4.50s/it]  8%|▊         | 7893/100000 [4:19:03<108:50:57,  4.25s/it]                                                             8%|▊         | 7893/100000 [4:19:03<108:50:57,  4.25s/it]  8%|▊         | 7894/100000 [4:19:06<100:41:33,  3.94s/it]                                                             8%|▊         | 7894/100000 [4:19:06<100:41:33,  3.94s/it]  8%|▊         | 7895/100000 [4:19:09<93:47:49,  3.67s/it]                                                             8%|▊         | 7895/100000 [4:19:09<93:47:49,  3.67s/it]  8%|▊         | 7896/100000 [4:19:12<86:51:05,  3.39s/it]                                                            8%|▊         | 7896/100000 [4:19:12<86:51:05,  3.39s/it]  8%|▊         | 7897/100000 [4:19:15<80:06:36,  3.13s/it]                                                            8%|▊         | 7897/100000 [4:19:15<80:06:36,  3.13s/it]  8%|▊         | 7898/100000 [4:19:17<73:24:38,  2.87s/it]                                                            8%|▊         | 7898/100000 [4:19:17<73:24:38,  2.87s/it]  8%|▊         | 7899/100000 [4:19:19<68:23:20,  2.67s/it]                                                            8%|▊         | 7899/100000 [4:19:19<68:23:20,  2.67s/it]  8%|▊         | 7900/100000 [4:19:21<63:57:24,  2.50s/it]                                                            8%|▊         | 7900/100000 [4:19:21<63:57:24,  2.50s/it]  8%|▊         | 7901/100000 [4:19:23<59:45:35,  2.34s/it]                                                            8%|▊         | 7901/100000 [4:19:23<59:45:35,  2.34s/it]  8%|▊         | 7902/100000 [4:19:25<56:08:41,  2.19s/it]                                                            8%|▊         | 7902/100000 [4:19:25<56:08:41,  2.19s/it]  8%|▊         | 7903/100000 [4:19:27<52:55:51,  2.07s/it]                                                            8%|▊         | 7903/100000 [4:19:27<52:55:51,  2.07s/it]  8%|▊         | 7904/100000 [4:19:29<50:11:58,  1.96s/it]                                                            8%|▊         | 7904/100000 [4:19:29<50:11:58,  1.96s/it]  8%|▊         | 7905/100000 [4:19:30<47:40:38,  1.86s/it]                                                            8%|▊         | 7905/100000 [4:19:30<47:40:38,  1.86s/it]  8%|▊         | 7906/100000 [4:19:32<45:13:16,  1.77s/it]                                                            8%|▊         | 7906/100000 [4:19:32<45:13:16,  1.77s/it]  8%|▊         | 7907/100000 [4:19:33<43:32:53,  1.70s/it]                                                            8%|▊         | 7907/100000 [4:19:33<43:32:53,  1.70s/it]  8%|▊         | 7908/100000 [4:19:35<41:32:33,  1.62s/it]                                                            8%|▊         | 7908/100000 [4:19:35<41:32:33,  1.62s/it]  8%|▊         | 7909/100000 [4:19:36<40:17:48,  1.58s/it]                                                            8%|▊         | 7909/100000 [4:19:36<40:17:48,  1.58s/it]  8%|▊         | 7910/100000 [4:19:38<39:11:35,  1.53s/it]                                                            8%|▊         | 7910/100000 [4:19:38<39:11:35,  1.53s/it]  8%|▊         | 7911/100000 [4:19:39<38:14:59,  1.50s/it]                                                            8%|▊         | 7911/100000 [4:19:39<38:14:59,  1.50s/it]  8%|▊         | 7912/100000 [4:19:40<37:12:29,  1.45s/it]                                                            8%|▊         | 7912/100000 [4:19:40<37:12:29,  1.45s/it]  8%|▊         | 7913/100000 [4:19:42<36:35:05,  1.43s/it]                                                            8%|▊         | 7913/100000 [4:19:42<36:35:05,  1.43s/it]  8%|▊         | 7914/100000 [4:19:43<35:59:33,  1.41s/it]                                                            8%|▊         | 7914/100000 [4:19:43<35:59:33,  1.41s/it]  8%|▊         | 7915/100000 [4:19:44<35:28:02,  1.39s/it]                                                            8%|▊         | 7915/100000 [4:19:44<35:28:02,  1.39s/it]  8%|▊         | 7916/100000 [4:19:46<34:53:03,  1.36s/it]                                                            8%|▊         | 7916/100000 [4:19:46<34:53:03,  1.36s/it]  8%|▊         | 7917/100000 [4:19:47<34:24:36,  1.35s/it]                                                            8%|▊         | 7917/100000 [4:19:47<34:24:36,  1.35s/it]  8%|▊         | 7918/100000 [4:19:48<33:56:25,  1.33s/it]                                                            8%|▊         | 7918/100000 [4:19:48<33:56:25,  1.33s/it]  8%|▊         | 7919/100000 [4:19:50<33:30:12,  1.31s/it]                                                            8%|▊         | 7919/100000 [4:19:50<33:30:12,  1.31s/it]  8%|▊         | 7920/100000 [4:19:51<32:58:19,  1.29s/it]                                                            8%|▊         | 7920/100000 [4:19:51<32:58:19,  1.29s/it]  8%|▊         | 7921/100000 [4:19:52<32:29:08,  1.27s/it]                                                          {'loss': 0.0286, 'grad_norm': 0.7965555191040039, 'learning_rate': 2.3505e-05, 'epoch': 14.46}
+{'loss': 0.2713, 'grad_norm': 1.235569715499878, 'learning_rate': 2.3508e-05, 'epoch': 14.46}
+{'loss': 0.1966, 'grad_norm': 0.6825758218765259, 'learning_rate': 2.3511e-05, 'epoch': 14.47}
+{'loss': 0.1178, 'grad_norm': 0.6262037754058838, 'learning_rate': 2.3514000000000002e-05, 'epoch': 14.47}
+{'loss': 0.1999, 'grad_norm': 1.8128679990768433, 'learning_rate': 2.3517000000000002e-05, 'epoch': 14.47}
+{'loss': 0.1532, 'grad_norm': 0.5639660954475403, 'learning_rate': 2.3520000000000002e-05, 'epoch': 14.47}
+{'loss': 0.1075, 'grad_norm': 0.5506031513214111, 'learning_rate': 2.3523e-05, 'epoch': 14.47}
+{'loss': 0.1151, 'grad_norm': 0.49700742959976196, 'learning_rate': 2.3526e-05, 'epoch': 14.47}
+{'loss': 0.115, 'grad_norm': 0.5941647887229919, 'learning_rate': 2.3529e-05, 'epoch': 14.48}
+{'loss': 0.0892, 'grad_norm': 0.6988394260406494, 'learning_rate': 2.3532e-05, 'epoch': 14.48}
+{'loss': 0.0557, 'grad_norm': 0.5593818426132202, 'learning_rate': 2.3535e-05, 'epoch': 14.48}
+{'loss': 0.0509, 'grad_norm': 0.41339749097824097, 'learning_rate': 2.3538e-05, 'epoch': 14.48}
+{'loss': 0.0631, 'grad_norm': 1.1100635528564453, 'learning_rate': 2.3541e-05, 'epoch': 14.48}
+{'loss': 0.1023, 'grad_norm': 0.7645638585090637, 'learning_rate': 2.3544000000000004e-05, 'epoch': 14.49}
+{'loss': 0.0816, 'grad_norm': 0.7224724888801575, 'learning_rate': 2.3547000000000003e-05, 'epoch': 14.49}
+{'loss': 0.0259, 'grad_norm': 0.26063552498817444, 'learning_rate': 2.3550000000000003e-05, 'epoch': 14.49}
+{'loss': 0.0648, 'grad_norm': 0.6297289729118347, 'learning_rate': 2.3553e-05, 'epoch': 14.49}
+{'loss': 0.0513, 'grad_norm': 0.5482573509216309, 'learning_rate': 2.3556e-05, 'epoch': 14.49}
+{'loss': 0.0398, 'grad_norm': 0.5147392153739929, 'learning_rate': 2.3559e-05, 'epoch': 14.49}
+{'loss': 0.0416, 'grad_norm': 0.398120641708374, 'learning_rate': 2.3562e-05, 'epoch': 14.5}
+{'loss': 0.0191, 'grad_norm': 0.3588913679122925, 'learning_rate': 2.3565e-05, 'epoch': 14.5}
+{'loss': 0.0169, 'grad_norm': 0.28668269515037537, 'learning_rate': 2.3568e-05, 'epoch': 14.5}
+{'loss': 0.0221, 'grad_norm': 0.3392992913722992, 'learning_rate': 2.3571e-05, 'epoch': 14.5}
+{'loss': 0.0154, 'grad_norm': 0.2852858901023865, 'learning_rate': 2.3574e-05, 'epoch': 14.5}
+{'loss': 0.013, 'grad_norm': 0.27077481150627136, 'learning_rate': 2.3577e-05, 'epoch': 14.51}
+{'loss': 0.0121, 'grad_norm': 0.3104352355003357, 'learning_rate': 2.358e-05, 'epoch': 14.51}
+{'loss': 0.0218, 'grad_norm': 0.32454049587249756, 'learning_rate': 2.3583e-05, 'epoch': 14.51}
+{'loss': 0.0169, 'grad_norm': 0.7309545278549194, 'learning_rate': 2.3586e-05, 'epoch': 14.51}
+{'loss': 0.0071, 'grad_norm': 0.20314842462539673, 'learning_rate': 2.3589e-05, 'epoch': 14.51}
+{'loss': 0.0474, 'grad_norm': 0.6824448108673096, 'learning_rate': 2.3592e-05, 'epoch': 14.52}
+{'loss': 0.0143, 'grad_norm': 0.6702181696891785, 'learning_rate': 2.3595e-05, 'epoch': 14.52}
+{'loss': 0.0121, 'grad_norm': 0.5272572636604309, 'learning_rate': 2.3598e-05, 'epoch': 14.52}
+{'loss': 0.0488, 'grad_norm': 0.5622138381004333, 'learning_rate': 2.3601e-05, 'epoch': 14.52}
+{'loss': 0.0078, 'grad_norm': 0.26477548480033875, 'learning_rate': 2.3604000000000003e-05, 'epoch': 14.52}
+{'loss': 0.0196, 'grad_norm': 0.45857515931129456, 'learning_rate': 2.3607000000000003e-05, 'epoch': 14.52}
+{'loss': 0.0134, 'grad_norm': 0.6599807739257812, 'learning_rate': 2.3610000000000003e-05, 'epoch': 14.53}
+{'loss': 0.0098, 'grad_norm': 0.3410775363445282, 'learning_rate': 2.3613000000000002e-05, 'epoch': 14.53}
+{'loss': 0.0162, 'grad_norm': 0.5473353266716003, 'learning_rate': 2.3616000000000002e-05, 'epoch': 14.53}
+{'loss': 0.0172, 'grad_norm': 0.626075267791748, 'learning_rate': 2.3619000000000002e-05, 'epoch': 14.53}
+{'loss': 0.0161, 'grad_norm': 0.507577121257782, 'learning_rate': 2.3622000000000002e-05, 'epoch': 14.53}
+{'loss': 0.0278, 'grad_norm': 0.44902390241622925, 'learning_rate': 2.3624999999999998e-05, 'epoch': 14.54}
+{'loss': 0.0154, 'grad_norm': 0.4249652922153473, 'learning_rate': 2.3627999999999998e-05, 'epoch': 14.54}
+{'loss': 0.0079, 'grad_norm': 0.5330266356468201, 'learning_rate': 2.3630999999999998e-05, 'epoch': 14.54}
+{'loss': 0.0167, 'grad_norm': 0.5065855979919434, 'learning_rate': 2.3633999999999998e-05, 'epoch': 14.54}
+{'loss': 0.0159, 'grad_norm': 0.4754953384399414, 'learning_rate': 2.3637e-05, 'epoch': 14.54}
+{'loss': 0.0181, 'grad_norm': 0.4979807138442993, 'learning_rate': 2.364e-05, 'epoch': 14.54}
+{'loss': 0.0133, 'grad_norm': 0.5053218007087708, 'learning_rate': 2.3643e-05, 'epoch': 14.55}
+{'loss': 0.0168, 'grad_norm': 0.4692944586277008, 'learning_rate': 2.3646e-05, 'epoch': 14.55}
+{'loss': 0.0204, 'grad_norm': 0.521899938583374, 'learning_rate': 2.3649e-05, 'epoch': 14.55}
+{'loss': 0.0214, 'grad_norm': 0.8429057002067566, 'learning_rate': 2.3652e-05, 'epoch': 14.55}
+{'loss': 0.0169, 'grad_norm': 0.37914028763771057, 'learning_rate': 2.3655e-05, 'epoch': 14.55}
+{'loss': 0.184, 'grad_norm': 0.636502742767334, 'learning_rate': 2.3658e-05, 'epoch': 14.56}
+{'loss': 0.1724, 'grad_norm': 0.7152822017669678, 'learning_rate': 2.3661e-05, 'epoch': 14.56}
+{'loss': 0.1158, 'grad_norm': 0.49054843187332153, 'learning_rate': 2.3664e-05, 'epoch': 14.56}
+{'loss': 0.1338, 'grad_norm': 0.5772072076797485, 'learning_rate': 2.3667000000000002e-05, 'epoch': 14.56}
+{'loss': 0.1215, 'grad_norm': 0.5550270676612854, 'learning_rate': 2.3670000000000002e-05, 'epoch': 14.56}
+{'loss': 0.0839, 'grad_norm': 0.5168792605400085, 'learning_rate': 2.3673000000000002e-05, 'epoch': 14.57}
+{'loss': 0.0906, 'grad_norm': 0.47602367401123047, 'learning_rate': 2.3676e-05, 'epoch': 14.57}
+{'loss': 0.0955, 'grad_norm': 0.6356981992721558, 'learning_rate': 2.3679e-05, 'epoch': 14.57}
+{'loss': 0.0971, 'grad_norm': 0.5250639319419861, 'learning_rate': 2.3682e-05, 'epoch': 14.57}
+{'loss': 0.0668, 'grad_norm': 0.41396352648735046, 'learning_rate': 2.3685e-05, 'epoch': 14.57}
+{'loss': 0.0602, 'grad_norm': 0.5052721500396729, 'learning_rate': 2.3688e-05, 'epoch': 14.57}
+{'loss': 0.1045, 'grad_norm': 0.4817100763320923, 'learning_rate': 2.3691e-05, 'epoch': 14.58}
+{'loss': 0.0351, 'grad_norm': 0.33338767290115356, 'learning_rate': 2.3694e-05, 'epoch': 14.58}
+{'loss': 0.0441, 'grad_norm': 0.41364586353302, 'learning_rate': 2.3697000000000004e-05, 'epoch': 14.58}
+{'loss': 0.0475, 'grad_norm': 0.47825878858566284, 'learning_rate': 2.37e-05, 'epoch': 14.58}
+{'loss': 0.0455, 'grad_norm': 0.5705379247665405, 'learning_rate': 2.3703e-05, 'epoch': 14.58}
+{'loss': 0.0301, 'grad_norm': 0.4665312170982361, 'learning_rate': 2.3706e-05, 'epoch': 14.59}
+{'loss': 0.0145, 'grad_norm': 0.2677137553691864, 'learning_rate': 2.3709e-05, 'epoch': 14.59}
+{'loss': 0.0105, 'grad_norm': 0.34597480297088623, 'learning_rate': 2.3712e-05, 'epoch': 14.59}
+{'loss': 0.0527, 'grad_norm': 0.346442848443985, 'learning_rate': 2.3715e-05, 'epoch': 14.59}
+{'loss': 0.0168, 'grad_norm': 0.4659012258052826, 'learning_rate': 2.3718e-05, 'epoch': 14.59}
+{'loss': 0.0266, 'grad_norm': 0.3821612000465393, 'learning_rate': 2.3721e-05, 'epoch': 14.59}
+{'loss': 0.0283, 'grad_norm': 0.4945525825023651, 'learning_rate': 2.3724e-05, 'epoch': 14.6}
+{'loss': 0.0213, 'grad_norm': 0.37642475962638855, 'learning_rate': 2.3727000000000002e-05, 'epoch': 14.6}
+{'loss': 0.0288, 'grad_norm': 0.5657537579536438, 'learning_rate': 2.373e-05, 'epoch': 14.6}
+{'loss': 0.0282, 'grad_norm': 0.5660479664802551, 'learning_rate': 2.3733e-05, 'epoch': 14.6}
+{'loss': 0.0186, 'grad_norm': 0.4243585467338562, 'learning_rate': 2.3736e-05, 'epoch': 14.6}
+{'loss': 0.0117, 'grad_norm': 0.3085576295852661, 'learning_rate': 2.3739e-05, 'epoch': 14.61}
+{'loss': 0.0106, 'grad_norm': 0.223404198884964, 'learning_rate': 2.3742e-05, 'epoch': 14.61}
+{'loss': 0.0199, 'grad_norm': 0.4205861985683441, 'learning_rate': 2.3745e-05, 'epoch': 14.61}
+{'loss': 0.0156, 'grad_norm': 0.35712581872940063, 'learning_rate': 2.3748e-05, 'epoch': 14.61}
+{'loss': 0.0313, 'grad_norm': 0.37940770387649536, 'learning_rate': 2.3751e-05, 'epoch': 14.61}
+  8%|▊         | 7921/100000 [4:19:52<32:29:08,  1.27s/it]  8%|▊         | 7922/100000 [4:19:53<32:01:21,  1.25s/it]                                                            8%|▊         | 7922/100000 [4:19:53<32:01:21,  1.25s/it]  8%|▊         | 7923/100000 [4:19:54<31:11:48,  1.22s/it]                                                            8%|▊         | 7923/100000 [4:19:54<31:11:48,  1.22s/it]  8%|▊         | 7924/100000 [4:19:56<30:44:22,  1.20s/it]                                                            8%|▊         | 7924/100000 [4:19:56<30:44:22,  1.20s/it]  8%|▊         | 7925/100000 [4:19:57<30:18:22,  1.18s/it]                                                            8%|▊         | 7925/100000 [4:19:57<30:18:22,  1.18s/it]  8%|▊         | 7926/100000 [4:19:58<29:48:09,  1.17s/it]                                                            8%|▊         | 7926/100000 [4:19:58<29:48:09,  1.17s/it]  8%|▊         | 7927/100000 [4:19:59<29:14:56,  1.14s/it]                                                            8%|▊         | 7927/100000 [4:19:59<29:14:56,  1.14s/it]  8%|▊         | 7928/100000 [4:20:00<28:53:23,  1.13s/it]                                                            8%|▊         | 7928/100000 [4:20:00<28:53:23,  1.13s/it]  8%|▊         | 7929/100000 [4:20:01<28:20:48,  1.11s/it]                                                            8%|▊         | 7929/100000 [4:20:01<28:20:48,  1.11s/it]  8%|▊         | 7930/100000 [4:20:02<28:05:20,  1.10s/it]                                                            8%|▊         | 7930/100000 [4:20:02<28:05:20,  1.10s/it]  8%|▊         | 7931/100000 [4:20:03<27:24:23,  1.07s/it]                                                            8%|▊         | 7931/100000 [4:20:03<27:24:23,  1.07s/it]  8%|▊         | 7932/100000 [4:20:04<27:07:37,  1.06s/it]                                                            8%|▊         | 7932/100000 [4:20:04<27:07:37,  1.06s/it]  8%|▊         | 7933/100000 [4:20:05<26:15:22,  1.03s/it]                                                            8%|▊         | 7933/100000 [4:20:05<26:15:22,  1.03s/it]  8%|▊         | 7934/100000 [4:20:06<26:03:19,  1.02s/it]                                                            8%|▊         | 7934/100000 [4:20:06<26:03:19,  1.02s/it]  8%|▊         | 7935/100000 [4:20:07<25:47:42,  1.01s/it]                                                            8%|▊         | 7935/100000 [4:20:07<25:47:42,  1.01s/it]  8%|▊         | 7936/100000 [4:20:08<25:12:26,  1.01it/s]                                                            8%|▊         | 7936/100000 [4:20:08<25:12:26,  1.01it/s]  8%|▊         | 7937/100000 [4:20:09<24:42:50,  1.03it/s]                                                            8%|▊         | 7937/100000 [4:20:09<24:42:50,  1.03it/s]  8%|▊         | 7938/100000 [4:20:10<24:20:51,  1.05it/s]                                                            8%|▊         | 7938/100000 [4:20:10<24:20:51,  1.05it/s]  8%|▊         | 7939/100000 [4:20:22<110:54:34,  4.34s/it]                                                             8%|▊         | 7939/100000 [4:20:22<110:54:34,  4.34s/it]  8%|▊         | 7940/100000 [4:20:28<123:42:28,  4.84s/it]                                                             8%|▊         | 7940/100000 [4:20:28<123:42:28,  4.84s/it]  8%|▊         | 7941/100000 [4:20:33<125:29:45,  4.91s/it]                                                             8%|▊         | 7941/100000 [4:20:33<125:29:45,  4.91s/it]  8%|▊         | 7942/100000 [4:20:37<119:36:34,  4.68s/it]                                                             8%|▊         | 7942/100000 [4:20:37<119:36:34,  4.68s/it]  8%|▊         | 7943/100000 [4:20:41<111:05:07,  4.34s/it]                                                             8%|▊         | 7943/100000 [4:20:41<111:05:07,  4.34s/it]  8%|▊         | 7944/100000 [4:20:44<102:14:27,  4.00s/it]                                                             8%|▊         | 7944/100000 [4:20:44<102:14:27,  4.00s/it]  8%|▊         | 7945/100000 [4:20:47<94:47:34,  3.71s/it]                                                             8%|▊         | 7945/100000 [4:20:47<94:47:34,  3.71s/it]  8%|▊         | 7946/100000 [4:20:50<87:04:00,  3.40s/it]                                                            8%|▊         | 7946/100000 [4:20:50<87:04:00,  3.40s/it]  8%|▊         | 7947/100000 [4:20:52<80:55:38,  3.16s/it]                                                            8%|▊         | 7947/100000 [4:20:52<80:55:38,  3.16s/it]  8%|▊         | 7948/100000 [4:20:55<75:00:30,  2.93s/it]                                                            8%|▊         | 7948/100000 [4:20:55<75:00:30,  2.93s/it]  8%|▊         | 7949/100000 [4:20:57<68:58:40,  2.70s/it]                                                            8%|▊         | 7949/100000 [4:20:57<68:58:40,  2.70s/it]  8%|▊         | 7950/100000 [4:20:59<64:25:39,  2.52s/it]                                                            8%|▊         | 7950/100000 [4:20:59<64:25:39,  2.52s/it]  8%|▊         | 7951/100000 [4:21:01<60:17:51,  2.36s/it]                                                            8%|▊         | 7951/100000 [4:21:01<60:17:51,  2.36s/it]  8%|▊         | 7952/100000 [4:21:03<56:31:00,  2.21s/it]                                                            8%|▊         | 7952/100000 [4:21:03<56:31:00,  2.21s/it]  8%|▊         | 7953/100000 [4:21:05<52:55:21,  2.07s/it]                                                            8%|▊         | 7953/100000 [4:21:05<52:55:21,  2.07s/it]  8%|▊         | 7954/100000 [4:21:06<49:29:07,  1.94s/it]                                                            8%|▊         | 7954/100000 [4:21:06<49:29:07,  1.94s/it]  8%|▊         | 7955/100000 [4:21:08<47:02:32,  1.84s/it]                                                            8%|▊         | 7955/100000 [4:21:08<47:02:32,  1.84s/it]  8%|▊         | 7956/100000 [4:21:10<45:06:15,  1.76s/it]                                                            8%|▊         | 7956/100000 [4:21:10<45:06:15,  1.76s/it]  8%|▊         | 7957/100000 [4:21:11<43:32:59,  1.70s/it]                                                            8%|▊         | 7957/100000 [4:21:11<43:32:59,  1.70s/it]  8%|▊         | 7958/100000 [4:21:13<41:45:16,  1.63s/it]                                                            8%|▊         | 7958/100000 [4:21:13<41:45:16,  1.63s/it]  8%|▊         | 7959/100000 [4:21:14<40:17:06,  1.58s/it]                                                            8%|▊         | 7959/100000 [4:21:14<40:17:06,  1.58s/it]  8%|▊         | 7960/100000 [4:21:15<39:07:52,  1.53s/it]                                                            8%|▊         | 7960/100000 [4:21:15<39:07:52,  1.53s/it]  8%|▊         | 7961/100000 [4:21:17<38:24:35,  1.50s/it]                                                            8%|▊         | 7961/100000 [4:21:17<38:24:35,  1.50s/it]  8%|▊         | 7962/100000 [4:21:18<37:12:45,  1.46s/it]                                                            8%|▊         | 7962/100000 [4:21:18<37:12:45,  1.46s/it]  8%|▊         | 7963/100000 [4:21:20<36:28:18,  1.43s/it]                                                            8%|▊         | 7963/100000 [4:21:20<36:28:18,  1.43s/it]  8%|▊         | 7964/100000 [4:21:21<35:36:27,  1.39s/it]                                                            8%|▊         | 7964/100000 [4:21:21<35:36:27,  1.39s/it]  8%|▊         | 7965/100000 [4:21:22<35:10:46,  1.38s/it]                                                            8%|▊         | 7965/100000 [4:21:22<35:10:46,  1.38s/it]  8%|▊         | 7966/100000 [4:21:24<34:39:25,  1.36s/it]                                                            8%|▊         | 7966/100000 [4:21:24<34:39:25,  1.36s/it]  8%|▊         | 7967/100000 [4:21:25<34:09:14,  1.34s/it]                                                            8%|▊         | 7967/100000 [4:21:25<34:09:14,  1.34s/it]  8%|▊         | 7968/100000 [4:21:26<33:43:32,  1.32s/it]                                                            8%|▊         | 7968/100000 [4:21:26<33:43:32,  1.32s/it]  8%|▊         | 7969/100000 [4:21:27<33:12:05,  1.30s/it]                                                            8%|▊         | 7969/100000 [4:21:27<33:12:05,  1.30s/it]  8%|▊         | 7970/100000 [4:21:29<32:33:27,  1.27s/it]                                                            8%|▊         | 7970/100000 [4:21:29<32:33:27,  1.27s/it]  8%|▊         | 7971/100000 [4:21:30<32:14:47,  1.26s/it]                                                            8%|▊         | 7971/100000 [4:21:30<32:14:47,  1.26s/it]  8%|▊         | 7972/100000 [4:21:31<31:51:07,  1.25s/it]                                                            8%|▊         | 7972/100000 [4:21:31<31:51:07,  1.25s/it]  8%|▊         | 7973/100000 [4:21:32<31:03:55,  1.22s/it]                                                            8%|▊         | 7973/100000 [4:21:32<31:03:55,  1.22s/it]  8%|▊         | 7974/100000 [4:21:33<30:29:54,  1.19s/it]                                                            8%|▊         | 7974/100000 [4:21:33<30:29:54,  1.19s/it]  8%|▊         | 7975/100000 [4:21:34<29:54:04,  1.17s/it]                                                            8%|▊         | 7975/100000 [4:21:34<29:54:04,  1.17s/it]  8%|▊         | 7976/100000 [4:21:36<29:28:35,  1.15s/it]                                                            8%|▊         | 7976/100000 [4:21:36<29:28:35,  1.15s/it]  8%|▊         | 7977/100000 [4:21:37<29:09:41,  1.14s/it]                                                            8%|▊         | 7977/100000 [4:21:37<29:09:41,  1.14s/it]  8%|▊         | 7978/100000 [4:21:38<28:53:47,  1.13s/it]                                                            8%|▊         | 7978/100000 [4:21:38<28:53:47,  1.13s/it]  8%|▊         | 7979/100000 [4:21:39<28:23:50,  1.11s/it]                                                            8%|▊         | 7979/100000 [4:21:39<28:23:50,  1.11s/it]  8%|▊         | 7980/100000 [4:21:40<28:08:37,  1.10s/it]                                                            8%|▊         | 7980/100000 [4:21:40<28:08:37,  1.10s/it]  8%|▊         | 7981/100000 [4:21:41<27:40:26,  1.08s/it]                                                            8%|▊         | 7981/100000 [4:21:41<27:40:26,  1.08s/it]  8%|▊         | 7982/100000 [4:21:42<27:20:35,  1.07s/it]                                                            8%|▊         | 7982/100000 [4:21:42<27:20:35,  1.07s/it]  8%|▊         | 7983/100000 [4:21:43<26:52:47,  1.05s/it]                                                            8%|▊         | 7983/100000 [4:21:43<26:52:47,  1.05s/it]  8%|▊         | 7984/100000 [4:21:44<26:28:46,  1.04s/it]                                                            8%|▊         | 7984/100000 [4:21:44<26:28:46,  1.04s/it]  8%|▊         | 7985/100000 [4:21:45<26:00:19,  1.02s/it]                                                            8%|▊         | 7985/100000 [4:21:45<26:00:19,  1.02s/it]  8%|▊         | 7986/100000 [4:21:46<25:25:56,  1.00it/s]                                                            8%|▊         | 7986/100000 [4:21:46<25:25:56,  1.00it/s]  8%|▊         | 7987/100000 [4:21:47<24:50:09,  1.03it/s]                                                            8%|▊         | 7987/100000 [4:21:47<24:50:09,  1.03it/s]  8%|▊         | 7988/100000 [4:21:48<24:03:03,  1.06it/s]                                                            8%|▊         | 7988/100000 [4:21:48<24:03:03,  1.06it/s]  8%|▊         | 7989/100000 [4:22:00<108:34:07,  4.25s/it]                                                             8%|▊         | 7989/100000 [4:22:00<108:34:07,  4.25s/it]  8%|▊         | 7990/100000 [4:22:06<121:28:48,  4.75s/it]                                                             8%|▊         | 7990/100000 [4:22:06<121:28:48,  4.75s/it]  8%|▊         | 7991/100000 [4:22:10<122:08:40,  4.78s/it]                                                             8%|▊         | 7991/100000 [4:22:10<122:08:40,  4.78s/it]  8%|▊         | 7992/100000 [4:22:14<116:19:33,  4.55s/it]                                                             8%|▊         | 7992/100000 [4:22:14<116:19:33,  4.55s/it]  8%|▊         | 7993/100000 [4:22:18<110:14:49,  4.31s/it]                                                             8%|▊         | 7993/100000 [4:22:18<110:14:49,  4.31s/it]  8%|▊         | 7994/100000 [4:22:22<103:19:35,  4.04s/it]                                                             8%|▊         | 7994/100000 [4:22:22<103:19:35,  4.04s/it]  8%|▊         | 7995/100000 [4:22:24<94:34:39,  3.70s/it]                                                             8%|▊         | 7995/100000 [4:22:25<94:34:39,  3.70s/it]  8%|▊         | 7996/100000 [4:22:27<87:13:09,  3.41s/it]                                                            8%|▊         | 7996/100000 [4:22:27<87:13:09,  3.41s/it]  8%|▊         | 7997/100000 [4:22:30<80:43:04,  3.16s/it]                                                            8%|▊         | 7997/100000 [4:22:30<80:43:04,  3.16s/it]  8%|▊         | 7998/100000 [4:22:32<74:14:34,  2.91s/it]                                                            8%|▊         | 7998/100000 [4:22:32<74:14:34,  2.91s/it]  8%|▊         | 7999/100000 [4:22:34<69:05:13,  2.70s/it]                                                            8%|▊         | 7999/100000 [4:22:34<69:05:13,  2.70s/it]  8%|▊         | 8000/100000 [4:22:36<64:28:03,  2.52s/it]                                                            8%|▊         | 8000/100000 [4:22:36<64:28:03,  2.52s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0168, 'grad_norm': 0.314486026763916, 'learning_rate': 2.3754e-05, 'epoch': 14.61}
+{'loss': 0.0139, 'grad_norm': 0.37937620282173157, 'learning_rate': 2.3757000000000003e-05, 'epoch': 14.62}
+{'loss': 0.0252, 'grad_norm': 0.36704617738723755, 'learning_rate': 2.3760000000000003e-05, 'epoch': 14.62}
+{'loss': 0.0096, 'grad_norm': 0.25925007462501526, 'learning_rate': 2.3763000000000003e-05, 'epoch': 14.62}
+{'loss': 0.0115, 'grad_norm': 0.38265901803970337, 'learning_rate': 2.3766000000000003e-05, 'epoch': 14.62}
+{'loss': 0.0143, 'grad_norm': 0.5699060559272766, 'learning_rate': 2.3769000000000002e-05, 'epoch': 14.62}
+{'loss': 0.0146, 'grad_norm': 0.369829386472702, 'learning_rate': 2.3772e-05, 'epoch': 14.63}
+{'loss': 0.0138, 'grad_norm': 0.5048293471336365, 'learning_rate': 2.3775e-05, 'epoch': 14.63}
+{'loss': 0.0103, 'grad_norm': 0.26562240719795227, 'learning_rate': 2.3778e-05, 'epoch': 14.63}
+{'loss': 0.0119, 'grad_norm': 0.28638893365859985, 'learning_rate': 2.3780999999999998e-05, 'epoch': 14.63}
+{'loss': 0.0164, 'grad_norm': 0.5839011073112488, 'learning_rate': 2.3783999999999998e-05, 'epoch': 14.63}
+{'loss': 0.0116, 'grad_norm': 0.3103630840778351, 'learning_rate': 2.3787e-05, 'epoch': 14.64}
+{'loss': 0.014, 'grad_norm': 1.3576741218566895, 'learning_rate': 2.379e-05, 'epoch': 14.64}
+{'loss': 0.0227, 'grad_norm': 1.0917797088623047, 'learning_rate': 2.3793e-05, 'epoch': 14.64}
+{'loss': 0.0073, 'grad_norm': 0.32580968737602234, 'learning_rate': 2.3796e-05, 'epoch': 14.64}
+{'loss': 0.0104, 'grad_norm': 0.285483181476593, 'learning_rate': 2.3799e-05, 'epoch': 14.64}
+{'loss': 0.0133, 'grad_norm': 0.40575113892555237, 'learning_rate': 2.3802e-05, 'epoch': 14.64}
+{'loss': 0.0177, 'grad_norm': 0.3636173605918884, 'learning_rate': 2.3805e-05, 'epoch': 14.65}
+{'loss': 0.2281, 'grad_norm': 0.8212683200836182, 'learning_rate': 2.3808e-05, 'epoch': 14.65}
+{'loss': 0.2628, 'grad_norm': 0.9566912651062012, 'learning_rate': 2.3811e-05, 'epoch': 14.65}
+{'loss': 0.1634, 'grad_norm': 0.6159496903419495, 'learning_rate': 2.3814e-05, 'epoch': 14.65}
+{'loss': 0.1371, 'grad_norm': 0.5956009030342102, 'learning_rate': 2.3817000000000003e-05, 'epoch': 14.65}
+{'loss': 0.1136, 'grad_norm': 0.7215802669525146, 'learning_rate': 2.3820000000000002e-05, 'epoch': 14.66}
+{'loss': 0.0957, 'grad_norm': 0.41611161828041077, 'learning_rate': 2.3823000000000002e-05, 'epoch': 14.66}
+{'loss': 0.0958, 'grad_norm': 0.5038338899612427, 'learning_rate': 2.3826000000000002e-05, 'epoch': 14.66}
+{'loss': 0.1228, 'grad_norm': 0.5414931774139404, 'learning_rate': 2.3829000000000002e-05, 'epoch': 14.66}
+{'loss': 0.0741, 'grad_norm': 0.5237676501274109, 'learning_rate': 2.3832e-05, 'epoch': 14.66}
+{'loss': 0.1129, 'grad_norm': 1.1172302961349487, 'learning_rate': 2.3835e-05, 'epoch': 14.66}
+{'loss': 0.0944, 'grad_norm': 0.6457228660583496, 'learning_rate': 2.3838e-05, 'epoch': 14.67}
+{'loss': 0.0673, 'grad_norm': 0.576670229434967, 'learning_rate': 2.3841e-05, 'epoch': 14.67}
+{'loss': 0.0644, 'grad_norm': 0.3982366919517517, 'learning_rate': 2.3844e-05, 'epoch': 14.67}
+{'loss': 0.0439, 'grad_norm': 1.198979139328003, 'learning_rate': 2.3847e-05, 'epoch': 14.67}
+{'loss': 0.046, 'grad_norm': 0.3780513107776642, 'learning_rate': 2.385e-05, 'epoch': 14.67}
+{'loss': 0.0152, 'grad_norm': 0.3405984938144684, 'learning_rate': 2.3853e-05, 'epoch': 14.68}
+{'loss': 0.0197, 'grad_norm': 0.3067670166492462, 'learning_rate': 2.3856e-05, 'epoch': 14.68}
+{'loss': 0.0246, 'grad_norm': 0.6061209440231323, 'learning_rate': 2.3859e-05, 'epoch': 14.68}
+{'loss': 0.0198, 'grad_norm': 0.4019205868244171, 'learning_rate': 2.3862e-05, 'epoch': 14.68}
+{'loss': 0.0207, 'grad_norm': 0.49981725215911865, 'learning_rate': 2.3865e-05, 'epoch': 14.68}
+{'loss': 0.0238, 'grad_norm': 0.3462250828742981, 'learning_rate': 2.3868e-05, 'epoch': 14.69}
+{'loss': 0.0231, 'grad_norm': 0.381491094827652, 'learning_rate': 2.3871e-05, 'epoch': 14.69}
+{'loss': 0.0258, 'grad_norm': 0.42520666122436523, 'learning_rate': 2.3874e-05, 'epoch': 14.69}
+{'loss': 0.0287, 'grad_norm': 0.417881578207016, 'learning_rate': 2.3877000000000002e-05, 'epoch': 14.69}
+{'loss': 0.0199, 'grad_norm': 0.43953225016593933, 'learning_rate': 2.3880000000000002e-05, 'epoch': 14.69}
+{'loss': 0.0178, 'grad_norm': 0.3966647982597351, 'learning_rate': 2.3883e-05, 'epoch': 14.69}
+{'loss': 0.036, 'grad_norm': 0.9427505731582642, 'learning_rate': 2.3886e-05, 'epoch': 14.7}
+{'loss': 0.019, 'grad_norm': 0.461514949798584, 'learning_rate': 2.3889e-05, 'epoch': 14.7}
+{'loss': 0.0103, 'grad_norm': 0.3639925718307495, 'learning_rate': 2.3892e-05, 'epoch': 14.7}
+{'loss': 0.0201, 'grad_norm': 0.3159520924091339, 'learning_rate': 2.3895e-05, 'epoch': 14.7}
+{'loss': 0.0196, 'grad_norm': 0.44609788060188293, 'learning_rate': 2.3898e-05, 'epoch': 14.7}
+{'loss': 0.0253, 'grad_norm': 0.4839285612106323, 'learning_rate': 2.3901e-05, 'epoch': 14.71}
+{'loss': 0.0074, 'grad_norm': 0.2293621152639389, 'learning_rate': 2.3904e-05, 'epoch': 14.71}
+{'loss': 0.0133, 'grad_norm': 0.26273688673973083, 'learning_rate': 2.3907000000000003e-05, 'epoch': 14.71}
+{'loss': 0.0125, 'grad_norm': 0.24619637429714203, 'learning_rate': 2.3910000000000003e-05, 'epoch': 14.71}
+{'loss': 0.0371, 'grad_norm': 0.8715478777885437, 'learning_rate': 2.3913000000000003e-05, 'epoch': 14.71}
+{'loss': 0.0129, 'grad_norm': 0.334750235080719, 'learning_rate': 2.3916000000000003e-05, 'epoch': 14.71}
+{'loss': 0.0161, 'grad_norm': 0.27692723274230957, 'learning_rate': 2.3919e-05, 'epoch': 14.72}
+{'loss': 0.0272, 'grad_norm': 0.5121621489524841, 'learning_rate': 2.3922e-05, 'epoch': 14.72}
+{'loss': 0.0216, 'grad_norm': 0.46436607837677, 'learning_rate': 2.3925e-05, 'epoch': 14.72}
+{'loss': 0.0215, 'grad_norm': 0.683923065662384, 'learning_rate': 2.3928e-05, 'epoch': 14.72}
+{'loss': 0.0199, 'grad_norm': 0.283103346824646, 'learning_rate': 2.3931e-05, 'epoch': 14.72}
+{'loss': 0.0139, 'grad_norm': 0.31182169914245605, 'learning_rate': 2.3933999999999998e-05, 'epoch': 14.73}
+{'loss': 0.0166, 'grad_norm': 0.36937060952186584, 'learning_rate': 2.3937e-05, 'epoch': 14.73}
+{'loss': 0.0181, 'grad_norm': 0.44678324460983276, 'learning_rate': 2.394e-05, 'epoch': 14.73}
+{'loss': 0.0191, 'grad_norm': 0.41206908226013184, 'learning_rate': 2.3943e-05, 'epoch': 14.73}
+{'loss': 0.0221, 'grad_norm': 0.5686429142951965, 'learning_rate': 2.3946e-05, 'epoch': 14.73}
+{'loss': 0.0241, 'grad_norm': 0.5409742593765259, 'learning_rate': 2.3949e-05, 'epoch': 14.73}
+{'loss': 0.0248, 'grad_norm': 0.6201287508010864, 'learning_rate': 2.3952e-05, 'epoch': 14.74}
+{'loss': 0.0808, 'grad_norm': 2.362740993499756, 'learning_rate': 2.3955e-05, 'epoch': 14.74}
+{'loss': 0.2072, 'grad_norm': 0.7609465718269348, 'learning_rate': 2.3958e-05, 'epoch': 14.74}
+{'loss': 0.1277, 'grad_norm': 0.48303288221359253, 'learning_rate': 2.3961e-05, 'epoch': 14.74}
+{'loss': 0.1706, 'grad_norm': 0.8768311142921448, 'learning_rate': 2.3964e-05, 'epoch': 14.74}
+{'loss': 0.1365, 'grad_norm': 0.6291162967681885, 'learning_rate': 2.3967000000000003e-05, 'epoch': 14.75}
+{'loss': 0.1203, 'grad_norm': 0.5517061948776245, 'learning_rate': 2.3970000000000003e-05, 'epoch': 14.75}
+{'loss': 0.13, 'grad_norm': 0.5301569104194641, 'learning_rate': 2.3973000000000002e-05, 'epoch': 14.75}
+{'loss': 0.0786, 'grad_norm': 0.4237849712371826, 'learning_rate': 2.3976000000000002e-05, 'epoch': 14.75}
+{'loss': 0.0815, 'grad_norm': 0.7277824282646179, 'learning_rate': 2.3979000000000002e-05, 'epoch': 14.75}
+{'loss': 0.0836, 'grad_norm': 0.4558088779449463, 'learning_rate': 2.3982000000000002e-05, 'epoch': 14.76}
+{'loss': 0.0501, 'grad_norm': 0.3935530185699463, 'learning_rate': 2.3985e-05, 'epoch': 14.76}
+{'loss': 0.0783, 'grad_norm': 0.48821765184402466, 'learning_rate': 2.3988e-05, 'epoch': 14.76}
+{'loss': 0.0436, 'grad_norm': 0.8362130522727966, 'learning_rate': 2.3991e-05, 'epoch': 14.76}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.64it/s][A
+ 30%|███       | 3/10 [00:02<00:06,  1.02it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.26it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.11s/it][A
+ 60%|██████    | 6/10 [00:05<00:03,  1.06it/s][A
+ 70%|███████   | 7/10 [00:07<00:03,  1.24s/it][A
+ 80%|████████  | 8/10 [00:07<00:02,  1.01s/it][A
+ 90%|█████████ | 9/10 [00:09<00:01,  1.15s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.09it/s][A                                                          
+                                               [A  8%|▊         | 8000/100000 [4:23:10<64:28:03,  2.52s/it]
+100%|██████████| 10/10 [00:10<00:00,  1.09it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-8000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-8000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-8000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-8000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-8000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-8000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-8000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-6000] due to args.save_total_limit
+  8%|▊         | 8001/100000 [4:23:25<416:18:06, 16.29s/it]                                                             8%|▊         | 8001/100000 [4:23:25<416:18:06, 16.29s/it]  8%|▊         | 8002/100000 [4:23:27<305:49:53, 11.97s/it]                                                             8%|▊         | 8002/100000 [4:23:27<305:49:53, 11.97s/it]  8%|▊         | 8003/100000 [4:23:28<227:29:27,  8.90s/it]                                                             8%|▊         | 8003/100000 [4:23:29<227:29:27,  8.90s/it]  8%|▊         | 8004/100000 [4:23:30<171:49:03,  6.72s/it]                                                             8%|▊         | 8004/100000 [4:23:30<171:49:03,  6.72s/it]  8%|▊         | 8005/100000 [4:23:32<132:39:36,  5.19s/it]                                                             8%|▊         | 8005/100000 [4:23:32<132:39:36,  5.19s/it]  8%|▊         | 8006/100000 [4:23:33<105:02:46,  4.11s/it]                                                             8%|▊         | 8006/100000 [4:23:33<105:02:46,  4.11s/it]  8%|▊         | 8007/100000 [4:23:35<85:18:07,  3.34s/it]                                                             8%|▊         | 8007/100000 [4:23:35<85:18:07,  3.34s/it]  8%|▊         | 8008/100000 [4:23:36<70:55:57,  2.78s/it]                                                            8%|▊         | 8008/100000 [4:23:36<70:55:57,  2.78s/it]  8%|▊         | 8009/100000 [4:23:38<60:26:17,  2.37s/it]                                                            8%|▊         | 8009/100000 [4:23:38<60:26:17,  2.37s/it]  8%|▊         | 8010/100000 [4:23:39<53:17:06,  2.09s/it]                                                            8%|▊         | 8010/100000 [4:23:39<53:17:06,  2.09s/it]  8%|▊         | 8011/100000 [4:23:41<47:50:54,  1.87s/it]                                                            8%|▊         | 8011/100000 [4:23:41<47:50:54,  1.87s/it]  8%|▊         | 8012/100000 [4:23:42<43:35:53,  1.71s/it]                                                            8%|▊         | 8012/100000 [4:23:42<43:35:53,  1.71s/it]  8%|▊         | 8013/100000 [4:23:43<40:50:35,  1.60s/it]                                                            8%|▊         | 8013/100000 [4:23:43<40:50:35,  1.60s/it]  8%|▊         | 8014/100000 [4:23:45<38:41:57,  1.51s/it]                                                            8%|▊         | 8014/100000 [4:23:45<38:41:57,  1.51s/it]  8%|▊         | 8015/100000 [4:23:46<37:24:23,  1.46s/it]                                                            8%|▊         | 8015/100000 [4:23:46<37:24:23,  1.46s/it]  8%|▊         | 8016/100000 [4:23:47<36:11:54,  1.42s/it]                                                            8%|▊         | 8016/100000 [4:23:47<36:11:54,  1.42s/it]  8%|▊         | 8017/100000 [4:23:48<35:13:58,  1.38s/it]                                                            8%|▊         | 8017/100000 [4:23:48<35:13:58,  1.38s/it]  8%|▊         | 8018/100000 [4:23:50<34:12:05,  1.34s/it]                                                            8%|▊         | 8018/100000 [4:23:50<34:12:05,  1.34s/it]  8%|▊         | 8019/100000 [4:23:51<33:38:42,  1.32s/it]                                                            8%|▊         | 8019/100000 [4:23:51<33:38:42,  1.32s/it]  8%|▊         | 8020/100000 [4:23:52<32:58:51,  1.29s/it]                                                            8%|▊         | 8020/100000 [4:23:52<32:58:51,  1.29s/it]  8%|▊         | 8021/100000 [4:23:53<32:13:52,  1.26s/it]                                                            8%|▊         | 8021/100000 [4:23:53<32:13:52,  1.26s/it]  8%|▊         | 8022/100000 [4:23:55<31:34:24,  1.24s/it]                                                            8%|▊         | 8022/100000 [4:23:55<31:34:24,  1.24s/it]  8%|▊         | 8023/100000 [4:23:56<30:45:35,  1.20s/it]                                                            8%|▊         | 8023/100000 [4:23:56<30:45:35,  1.20s/it]  8%|▊         | 8024/100000 [4:23:57<30:15:27,  1.18s/it]                                                            8%|▊         | 8024/100000 [4:23:57<30:15:27,  1.18s/it]  8%|▊         | 8025/100000 [4:23:58<30:03:34,  1.18s/it]                                                            8%|▊         | 8025/100000 [4:23:58<30:03:34,  1.18s/it]  8%|▊         | 8026/100000 [4:23:59<29:42:58,  1.16s/it]                                                            8%|▊         | 8026/100000 [4:23:59<29:42:58,  1.16s/it]  8%|▊         | 8027/100000 [4:24:00<29:21:42,  1.15s/it]                                                            8%|▊         | 8027/100000 [4:24:00<29:21:42,  1.15s/it]  8%|▊         | 8028/100000 [4:24:01<28:42:12,  1.12s/it]                                                            8%|▊         | 8028/100000 [4:24:01<28:42:12,  1.12s/it]  8%|▊         | 8029/100000 [4:24:02<27:58:35,  1.10s/it]                                                            8%|▊         | 8029/100000 [4:24:02<27:58:35,  1.10s/it]  8%|▊         | 8030/100000 [4:24:03<27:33:28,  1.08s/it]                                                            8%|▊         | 8030/100000 [4:24:03<27:33:28,  1.08s/it]  8%|▊         | 8031/100000 [4:24:04<27:25:56,  1.07s/it]                                                            8%|▊         | 8031/100000 [4:24:04<27:25:56,  1.07s/it]  8%|▊         | 8032/100000 [4:24:06<27:10:34,  1.06s/it]                                                            8%|▊         | 8032/100000 [4:24:06<27:10:34,  1.06s/it]  8%|▊         | 8033/100000 [4:24:07<26:52:24,  1.05s/it]                                                            8%|▊         | 8033/100000 [4:24:07<26:52:24,  1.05s/it]  8%|▊         | 8034/100000 [4:24:08<26:39:14,  1.04s/it]                                                            8%|▊         | 8034/100000 [4:24:08<26:39:14,  1.04s/it]  8%|▊         | 8035/100000 [4:24:09<26:01:33,  1.02s/it]                                                            8%|▊         | 8035/100000 [4:24:09<26:01:33,  1.02s/it]  8%|▊         | 8036/100000 [4:24:09<25:25:27,  1.00it/s]                                                            8%|▊         | 8036/100000 [4:24:09<25:25:27,  1.00it/s]  8%|▊         | 8037/100000 [4:24:10<24:50:45,  1.03it/s]                                                            8%|▊         | 8037/100000 [4:24:10<24:50:45,  1.03it/s]  8%|▊         | 8038/100000 [4:24:11<24:07:35,  1.06it/s]                                                            8%|▊         | 8038/100000 [4:24:11<24:07:35,  1.06it/s]  8%|▊         | 8039/100000 [4:24:21<93:10:39,  3.65s/it]                                                            8%|▊         | 8039/100000 [4:24:21<93:10:39,  3.65s/it]  8%|▊         | 8040/100000 [4:24:27<110:43:14,  4.33s/it]                                                             8%|▊         | 8040/100000 [4:24:27<110:43:14,  4.33s/it]  8%|▊         | 8041/100000 [4:24:32<113:24:36,  4.44s/it]                                                             8%|▊         | 8041/100000 [4:24:32<113:24:36,  4.44s/it]  8%|▊         | 8042/100000 [4:24:36<108:37:13,  4.25s/it]                                                             8%|▊         | 8042/100000 [4:24:36<108:37:13,  4.25s/it]  8%|▊         | 8043/100000 [4:24:39<102:38:40,  4.02s/it]                                                             8%|▊         | 8043/100000 [4:24:39<102:38:40,  4.02s/it]  8%|▊         | 8044/100000 [4:24:42<96:43:27,  3.79s/it]                                                             8%|▊         | 8044/100000 [4:24:42<96:43:27,  3.79s/it]  8%|▊         | 8045/100000 [4:24:45<90:44:07,  3.55s/it]                                                            8%|▊         | 8045/100000 [4:24:45<90:44:07,  3.55s/it]  8%|▊         | 8046/100000 [4:24:48<85:17:52,  3.34s/it]                                                            8%|▊         | 8046/100000 [4:24:48<85:17:52,  3.34s/it]  8%|▊         | 8047/100000 [4:24:51<79:46:53,  3.12s/it]                                                            8%|▊         | 8047/100000 [4:24:51<79:46:53,  3.12s/it]  8%|▊         | 8048/100000 [4:24:53<74:07:03,  2.90s/it]                                                            8%|▊         | 8048/100000 [4:24:53<74:07:03,  2.90s/it]  8%|▊         | 8049/100000 [4:24:55<68:13:35,  2.67s/it]                                                            8%|▊         | 8049/100000 [4:24:55<68:13:35,  2.67s/it]  8%|▊         | 8050/100000 [4:24:57<63:41:30,  2.49s/it]                                                            8%|▊         | 8050/100000 [4:24:57<63:41:30,  2.49s/it]  8%|▊         | 8051/100000 [4:24:59<59:34:59,  2.33s/it]                                                            8%|▊         | 8051/100000 [4:24:59<59:34:59,  2.33s/it]  8%|▊         | 8052/100000 [4:25:01<55:50:10,  2.19s/it]                                                            8%|▊         | 8052/100000 [4:25:01<55:50:10,  2.19s/it]  8%|▊         | 8053/100000 [4:25:03<52:09:32,  2.04s/it]                                                            8%|▊         | 8053/100000 [4:25:03<52:09:32,  2.04s/it]  8%|▊         | 8054/100000 [4:25:05<49:34:00,  1.94s/it]                                                            8%|▊         | 8054/100000 [4:25:05<49:34:00,  1.94s/it]  8%|▊         | 8055/100000 [4:25:06<46:59:05,  1.84s/it]                                                            8%|▊         | 8055/100000 [4:25:06<46:59:05,  1.84s/it]  8%|▊         | 8056/100000 [4:25:08<45:11:34,  1.77s/it]                                                            8%|▊         | 8056/100000 [4:25:08<45:11:34,  1.77s/it]  8%|▊         | 8057/100000 [4:25:09<43:38:50,  1.71s/it]                                                            8%|▊         | 8057/100000 [4:25:09<43:38:50,  1.71s/it]  8%|▊         | 8058/100000 [4:25:11<42:08:21,  1.65s/it]                                                            8%|▊         | 8058/100000 [4:25:11<42:08:21,  1.65s/it]  8%|▊         | 8059/100000 [4:25:12<40:46:51,  1.60s/it]                                                            8%|▊         | 8059/100000 [4:25:12<40:46:51,  1.60s/it]  8%|▊         | 8060/100000 [4:25:14<39:34:46,  1.55s/it]                                                            8%|▊         | 8060/100000 [4:25:14<39:34:46,  1.55s/it]  8%|▊         | 8061/100000 [4:25:15<38:16:52,  1.50s/it]                                                            8%|▊         | 8061/100000 [4:25:15<38:16:52,  1.50s/it]  8%|▊         | 8062/100000 [4:25:17<37:38:24,  1.47s/it]                                                            8%|▊         | 8062/100000 [4:25:17<37:38:24,  1.47s/it]  8%|▊         | 8063/100000 [4:25:18<37:00:27,  1.45s/it]                                                            8%|▊         | 8063/100000 [4:25:18<37:00:27,  1.45s/it]  8%|▊         | 8064/100000 [4:25:19<36:11:38,  1.42s/it]                                                            8%|▊         | 8064/100000 [4:25:19<36:11:38,  1.42s/it]  8%|▊         | 8065/100000 [4:25:21<35:43:57,  1.40s/it]                                                            8%|▊         | 8065/100000 [4:25:21<35:43:57,  1.40s/it]  8%|▊         | 8066/100000 [4:25:22<35:10:10,  1.38s/it]                                                            8%|▊         | 8066/100000 [4:25:22<35:10:10,  1.38s/it]  8%|▊         | 8067/100000 [4:25:23<34:46:09,  1.36s/it]                                                            8%|▊         | 8067/100000 [4:25:23<34:46:09,  1.36s/it]  8%|▊         | 8068/100000 [4:25:25<33:58:34,  1.33s/it]                                                            8%|▊         | 8068/100000 [4:25:25<33:58:34,  1.33s/it]  8%|▊         | 8069/100000 [4:25:26<33:33:34,  1.31s/it]                                                            8%|▊         | 8069/100000 [4:25:26<33:33:34,  1.31s/it]  8%|▊         | 8070/100000 [4:25:27<33:04:30,  1.30s/it]                                                            8%|▊         | 8070/100000 [4:25:27<33:04:30,  1.30s/it]  8%|▊         | 8071/100000 [4:25:28<32:20:29,  1.27s/it]                                                            8%|▊         | 8071/100000 [4:25:28<32:20:29,  1.27s/it]  8%|▊         | 8072/100000 [4:25:30<31:57:50,  1.25s/it]                                                            8%|▊         | 8072/100000 [4:25:30<31:57:50,  1.25s/it]  8%|▊         | 8073/100000 [4:25:31<31:25:04,  1.23s/it]                                                            8%|▊         | 8073/100000 [4:25:31<31:25:04,  1.23s/it]  8%|▊         | 8074/100000 [4:25:32<31:00:47,  1.21s/it]                                                            8%|▊         | 8074/100000 [4:25:32<31:00:47,  1.21s/it]  8%|▊         | 8075/100000 [4:25:33<30:41:01,  1.20s/it]                                                            8%|▊         | 8075/100000 [4:25:33<30:41:01,  1.20s/it]  8%|▊         | 8076/100000 [4:25:34<30:35:19,  1.20s/it]                                                            8%|▊         | 8076/100000 [4:25:34<30:35:19,  1.20s/it]  8%|▊         | 8077/100000 [4:25:35<30:12:00,  1.18s/it]                                                            8%|▊         | 8077/100000 [4:25:35<30:12:00,  1.18s/it]  8%|▊         | 8078/100000 [4:25:37<29:32:52,  1.16s/it]                                                            8%|▊         | 8078/100000 [4:25:37<29:32:52,  1.16s/it]  8%|▊         | 8079/100000 [4:25:38<29:00:57,  1.14s/it]                                                            8%|▊         | 8079/100000 [4:25:38<29:00:57,  1.14s/it]  8%|▊         | 8080/100000 [4:25:39<28:29:55,  1.12s/it]                                                            8%|▊         | 8080/100000 [4:25:39<28:29:55,  1.12s/it]  8%|▊         | 8081/100000 [4:25:40<28:07:39,  1.10s/it]                                                            8%|▊         | 8081/100000 [4:25:40<28:07:39,  1.10s/it]  8%|▊         | 8082/100000 [4:25:41<27:48:34,  1.09s/it]                                                          {'eval_loss': 0.31252992153167725, 'eval_wer': 0.38468917881811204, 'eval_cer': 0.1098841278481997, 'eval_runtime': 16.3111, 'eval_samples_per_second': 18.638, 'eval_steps_per_second': 0.613, 'epoch': 14.76}
+{'loss': 0.0576, 'grad_norm': 0.43701910972595215, 'learning_rate': 2.3993999999999998e-05, 'epoch': 14.76}
+{'loss': 0.0971, 'grad_norm': 0.7060490250587463, 'learning_rate': 2.3997e-05, 'epoch': 14.76}
+{'loss': 0.0305, 'grad_norm': 0.3635128140449524, 'learning_rate': 2.4e-05, 'epoch': 14.77}
+{'loss': 0.0637, 'grad_norm': 0.3958315849304199, 'learning_rate': 2.4003e-05, 'epoch': 14.77}
+{'loss': 0.0186, 'grad_norm': 0.3374282121658325, 'learning_rate': 2.4006e-05, 'epoch': 14.77}
+{'loss': 0.0136, 'grad_norm': 0.3075411915779114, 'learning_rate': 2.4009e-05, 'epoch': 14.77}
+{'loss': 0.0266, 'grad_norm': 0.6738809943199158, 'learning_rate': 2.4012e-05, 'epoch': 14.77}
+{'loss': 0.012, 'grad_norm': 0.1647556722164154, 'learning_rate': 2.4015e-05, 'epoch': 14.78}
+{'loss': 0.0206, 'grad_norm': 0.3219056725502014, 'learning_rate': 2.4018e-05, 'epoch': 14.78}
+{'loss': 0.0144, 'grad_norm': 0.341482937335968, 'learning_rate': 2.4021e-05, 'epoch': 14.78}
+{'loss': 0.0141, 'grad_norm': 0.24657687544822693, 'learning_rate': 2.4024e-05, 'epoch': 14.78}
+{'loss': 0.0137, 'grad_norm': 0.4916836619377136, 'learning_rate': 2.4027e-05, 'epoch': 14.78}
+{'loss': 0.0184, 'grad_norm': 1.4418329000473022, 'learning_rate': 2.4030000000000002e-05, 'epoch': 14.78}
+{'loss': 0.0108, 'grad_norm': 0.2875135540962219, 'learning_rate': 2.4033000000000002e-05, 'epoch': 14.79}
+{'loss': 0.0152, 'grad_norm': 0.3412550389766693, 'learning_rate': 2.4036e-05, 'epoch': 14.79}
+{'loss': 0.0202, 'grad_norm': 0.5497750043869019, 'learning_rate': 2.4039e-05, 'epoch': 14.79}
+{'loss': 0.0145, 'grad_norm': 0.32832539081573486, 'learning_rate': 2.4042e-05, 'epoch': 14.79}
+{'loss': 0.0151, 'grad_norm': 0.2167942225933075, 'learning_rate': 2.4045e-05, 'epoch': 14.79}
+{'loss': 0.0123, 'grad_norm': 0.36289235949516296, 'learning_rate': 2.4048e-05, 'epoch': 14.8}
+{'loss': 0.0097, 'grad_norm': 0.3763875961303711, 'learning_rate': 2.4051e-05, 'epoch': 14.8}
+{'loss': 0.0125, 'grad_norm': 0.5189347863197327, 'learning_rate': 2.4054e-05, 'epoch': 14.8}
+{'loss': 0.0184, 'grad_norm': 0.2630421817302704, 'learning_rate': 2.4057e-05, 'epoch': 14.8}
+{'loss': 0.0161, 'grad_norm': 0.6870790123939514, 'learning_rate': 2.4060000000000003e-05, 'epoch': 14.8}
+{'loss': 0.0193, 'grad_norm': 0.65828537940979, 'learning_rate': 2.4063000000000003e-05, 'epoch': 14.81}
+{'loss': 0.0123, 'grad_norm': 0.34641534090042114, 'learning_rate': 2.4066000000000003e-05, 'epoch': 14.81}
+{'loss': 0.0111, 'grad_norm': 0.24606692790985107, 'learning_rate': 2.4069e-05, 'epoch': 14.81}
+{'loss': 0.0243, 'grad_norm': 0.5390129685401917, 'learning_rate': 2.4072e-05, 'epoch': 14.81}
+{'loss': 0.021, 'grad_norm': 0.5146270394325256, 'learning_rate': 2.4075e-05, 'epoch': 14.81}
+{'loss': 0.0277, 'grad_norm': 0.6502516865730286, 'learning_rate': 2.4078e-05, 'epoch': 14.81}
+{'loss': 0.0205, 'grad_norm': 0.4489519000053406, 'learning_rate': 2.4081e-05, 'epoch': 14.82}
+{'loss': 0.0226, 'grad_norm': 0.9653266072273254, 'learning_rate': 2.4084e-05, 'epoch': 14.82}
+{'loss': 0.0192, 'grad_norm': 0.6530783772468567, 'learning_rate': 2.4086999999999998e-05, 'epoch': 14.82}
+{'loss': 0.0247, 'grad_norm': 0.5835822224617004, 'learning_rate': 2.409e-05, 'epoch': 14.82}
+{'loss': 0.031, 'grad_norm': 0.6050820350646973, 'learning_rate': 2.4093e-05, 'epoch': 14.82}
+{'loss': 0.0263, 'grad_norm': 0.5342754125595093, 'learning_rate': 2.4096e-05, 'epoch': 14.83}
+{'loss': 0.0365, 'grad_norm': 0.792512059211731, 'learning_rate': 2.4099e-05, 'epoch': 14.83}
+{'loss': 0.0271, 'grad_norm': 0.5477274656295776, 'learning_rate': 2.4102e-05, 'epoch': 14.83}
+{'loss': 0.0362, 'grad_norm': 0.6358621120452881, 'learning_rate': 2.4105e-05, 'epoch': 14.83}
+{'loss': 0.1902, 'grad_norm': 0.8861833810806274, 'learning_rate': 2.4108e-05, 'epoch': 14.83}
+{'loss': 0.1701, 'grad_norm': 0.7224254608154297, 'learning_rate': 2.4111e-05, 'epoch': 14.83}
+{'loss': 0.1845, 'grad_norm': 0.6825087070465088, 'learning_rate': 2.4114e-05, 'epoch': 14.84}
+{'loss': 0.1565, 'grad_norm': 0.6417450904846191, 'learning_rate': 2.4117e-05, 'epoch': 14.84}
+{'loss': 0.1841, 'grad_norm': 0.884933352470398, 'learning_rate': 2.4120000000000003e-05, 'epoch': 14.84}
+{'loss': 0.0914, 'grad_norm': 0.6482926607131958, 'learning_rate': 2.4123000000000003e-05, 'epoch': 14.84}
+{'loss': 0.0925, 'grad_norm': 0.5458600521087646, 'learning_rate': 2.4126000000000002e-05, 'epoch': 14.84}
+{'loss': 0.0796, 'grad_norm': 0.7142218947410583, 'learning_rate': 2.4129000000000002e-05, 'epoch': 14.85}
+{'loss': 0.0939, 'grad_norm': 0.5783588290214539, 'learning_rate': 2.4132000000000002e-05, 'epoch': 14.85}
+{'loss': 0.0602, 'grad_norm': 0.6058603525161743, 'learning_rate': 2.4135000000000002e-05, 'epoch': 14.85}
+{'loss': 0.0614, 'grad_norm': 0.743747889995575, 'learning_rate': 2.4138e-05, 'epoch': 14.85}
+{'loss': 0.0833, 'grad_norm': 0.6152564287185669, 'learning_rate': 2.4140999999999998e-05, 'epoch': 14.85}
+{'loss': 0.0513, 'grad_norm': 0.5742655992507935, 'learning_rate': 2.4143999999999998e-05, 'epoch': 14.86}
+{'loss': 0.0243, 'grad_norm': 0.29754096269607544, 'learning_rate': 2.4146999999999998e-05, 'epoch': 14.86}
+{'loss': 0.0397, 'grad_norm': 0.3988395929336548, 'learning_rate': 2.415e-05, 'epoch': 14.86}
+{'loss': 0.0843, 'grad_norm': 0.6038896441459656, 'learning_rate': 2.4153e-05, 'epoch': 14.86}
+{'loss': 0.0268, 'grad_norm': 0.4392443597316742, 'learning_rate': 2.4156e-05, 'epoch': 14.86}
+{'loss': 0.0246, 'grad_norm': 0.35345086455345154, 'learning_rate': 2.4159e-05, 'epoch': 14.86}
+{'loss': 0.0501, 'grad_norm': 0.40793344378471375, 'learning_rate': 2.4162e-05, 'epoch': 14.87}
+{'loss': 0.0521, 'grad_norm': 0.3084394633769989, 'learning_rate': 2.4165e-05, 'epoch': 14.87}
+{'loss': 0.0158, 'grad_norm': 0.26706284284591675, 'learning_rate': 2.4168e-05, 'epoch': 14.87}
+{'loss': 0.0191, 'grad_norm': 0.19276896119117737, 'learning_rate': 2.4171e-05, 'epoch': 14.87}
+{'loss': 0.0155, 'grad_norm': 0.3058687746524811, 'learning_rate': 2.4174e-05, 'epoch': 14.87}
+{'loss': 0.0197, 'grad_norm': 0.35725489258766174, 'learning_rate': 2.4177e-05, 'epoch': 14.88}
+{'loss': 0.0093, 'grad_norm': 0.26820647716522217, 'learning_rate': 2.4180000000000002e-05, 'epoch': 14.88}
+{'loss': 0.0145, 'grad_norm': 0.2957378625869751, 'learning_rate': 2.4183000000000002e-05, 'epoch': 14.88}
+{'loss': 0.0141, 'grad_norm': 0.3385465145111084, 'learning_rate': 2.4186000000000002e-05, 'epoch': 14.88}
+{'loss': 0.0143, 'grad_norm': 0.40991589426994324, 'learning_rate': 2.4189e-05, 'epoch': 14.88}
+{'loss': 0.0063, 'grad_norm': 0.43255510926246643, 'learning_rate': 2.4192e-05, 'epoch': 14.88}
+{'loss': 0.0127, 'grad_norm': 0.34434038400650024, 'learning_rate': 2.4195e-05, 'epoch': 14.89}
+{'loss': 0.0153, 'grad_norm': 0.506460964679718, 'learning_rate': 2.4198e-05, 'epoch': 14.89}
+{'loss': 0.0255, 'grad_norm': 0.7858155369758606, 'learning_rate': 2.4201e-05, 'epoch': 14.89}
+{'loss': 0.012, 'grad_norm': 0.48727911710739136, 'learning_rate': 2.4204e-05, 'epoch': 14.89}
+{'loss': 0.0118, 'grad_norm': 0.26856595277786255, 'learning_rate': 2.4207e-05, 'epoch': 14.89}
+{'loss': 0.017, 'grad_norm': 0.4287573993206024, 'learning_rate': 2.4210000000000004e-05, 'epoch': 14.9}
+{'loss': 0.0061, 'grad_norm': 0.3845706284046173, 'learning_rate': 2.4213000000000003e-05, 'epoch': 14.9}
+{'loss': 0.0209, 'grad_norm': 0.9846393465995789, 'learning_rate': 2.4216e-05, 'epoch': 14.9}
+{'loss': 0.037, 'grad_norm': 0.48798713088035583, 'learning_rate': 2.4219e-05, 'epoch': 14.9}
+{'loss': 0.0244, 'grad_norm': 0.658402144908905, 'learning_rate': 2.4222e-05, 'epoch': 14.9}
+{'loss': 0.0245, 'grad_norm': 0.47966620326042175, 'learning_rate': 2.4225e-05, 'epoch': 14.9}
+{'loss': 0.0347, 'grad_norm': 0.7510401606559753, 'learning_rate': 2.4228e-05, 'epoch': 14.91}
+{'loss': 0.0092, 'grad_norm': 0.24847644567489624, 'learning_rate': 2.4231e-05, 'epoch': 14.91}
+{'loss': 0.0249, 'grad_norm': 0.6264692544937134, 'learning_rate': 2.4234e-05, 'epoch': 14.91}
+  8%|▊         | 8082/100000 [4:25:41<27:48:34,  1.09s/it]  8%|▊         | 8083/100000 [4:25:42<27:21:38,  1.07s/it]                                                            8%|▊         | 8083/100000 [4:25:42<27:21:38,  1.07s/it]  8%|▊         | 8084/100000 [4:25:43<26:29:28,  1.04s/it]                                                            8%|▊         | 8084/100000 [4:25:43<26:29:28,  1.04s/it]  8%|▊         | 8085/100000 [4:25:44<25:41:35,  1.01s/it]                                                            8%|▊         | 8085/100000 [4:25:44<25:41:35,  1.01s/it]  8%|▊         | 8086/100000 [4:25:45<25:00:34,  1.02it/s]                                                            8%|▊         | 8086/100000 [4:25:45<25:00:34,  1.02it/s]  8%|▊         | 8087/100000 [4:25:46<24:31:21,  1.04it/s]                                                            8%|▊         | 8087/100000 [4:25:46<24:31:21,  1.04it/s]  8%|▊         | 8088/100000 [4:25:46<23:25:35,  1.09it/s]                                                            8%|▊         | 8088/100000 [4:25:46<23:25:35,  1.09it/s]  8%|▊         | 8089/100000 [4:25:57<100:47:38,  3.95s/it]                                                             8%|▊         | 8089/100000 [4:25:57<100:47:38,  3.95s/it]  8%|▊         | 8090/100000 [4:26:03<109:46:50,  4.30s/it]                                                             8%|▊         | 8090/100000 [4:26:03<109:46:50,  4.30s/it]  8%|▊         | 8091/100000 [4:26:07<107:59:05,  4.23s/it]                                                             8%|▊         | 8091/100000 [4:26:07<107:59:05,  4.23s/it]  8%|▊         | 8092/100000 [4:26:10<103:45:35,  4.06s/it]                                                             8%|▊         | 8092/100000 [4:26:10<103:45:35,  4.06s/it]  8%|▊         | 8093/100000 [4:26:14<97:56:24,  3.84s/it]                                                             8%|▊         | 8093/100000 [4:26:14<97:56:24,  3.84s/it]  8%|▊         | 8094/100000 [4:26:16<90:20:04,  3.54s/it]                                                            8%|▊         | 8094/100000 [4:26:16<90:20:04,  3.54s/it]  8%|▊         | 8095/100000 [4:26:19<83:29:46,  3.27s/it]                                                            8%|▊         | 8095/100000 [4:26:19<83:29:46,  3.27s/it]  8%|▊         | 8096/100000 [4:26:21<75:36:45,  2.96s/it]                                                            8%|▊         | 8096/100000 [4:26:21<75:36:45,  2.96s/it]  8%|▊         | 8097/100000 [4:26:23<69:36:52,  2.73s/it]                                                            8%|▊         | 8097/100000 [4:26:24<69:36:52,  2.73s/it]  8%|▊         | 8098/100000 [4:26:26<64:13:36,  2.52s/it]                                                            8%|▊         | 8098/100000 [4:26:26<64:13:36,  2.52s/it]  8%|▊         | 8099/100000 [4:26:27<59:22:06,  2.33s/it]                                                            8%|▊         | 8099/100000 [4:26:27<59:22:06,  2.33s/it]  8%|▊         | 8100/100000 [4:26:29<54:28:55,  2.13s/it]                                                            8%|▊         | 8100/100000 [4:26:29<54:28:55,  2.13s/it]  8%|▊         | 8101/100000 [4:26:31<50:12:42,  1.97s/it]                                                            8%|▊         | 8101/100000 [4:26:31<50:12:42,  1.97s/it]  8%|▊         | 8102/100000 [4:26:32<47:28:46,  1.86s/it]                                                            8%|▊         | 8102/100000 [4:26:32<47:28:46,  1.86s/it]  8%|▊         | 8103/100000 [4:26:34<45:01:14,  1.76s/it]                                                            8%|▊         | 8103/100000 [4:26:34<45:01:14,  1.76s/it]  8%|▊         | 8104/100000 [4:26:35<42:57:21,  1.68s/it]                                                            8%|▊         | 8104/100000 [4:26:35<42:57:21,  1.68s/it]  8%|▊         | 8105/100000 [4:26:37<41:05:45,  1.61s/it]                                                            8%|▊         | 8105/100000 [4:26:37<41:05:45,  1.61s/it]  8%|▊         | 8106/100000 [4:26:38<39:47:00,  1.56s/it]                                                            8%|▊         | 8106/100000 [4:26:38<39:47:00,  1.56s/it]  8%|▊         | 8107/100000 [4:26:40<38:47:47,  1.52s/it]                                                            8%|▊         | 8107/100000 [4:26:40<38:47:47,  1.52s/it]  8%|▊         | 8108/100000 [4:26:41<37:41:49,  1.48s/it]                                                            8%|▊         | 8108/100000 [4:26:41<37:41:49,  1.48s/it]  8%|▊         | 8109/100000 [4:26:42<36:29:28,  1.43s/it]                                                            8%|▊         | 8109/100000 [4:26:42<36:29:28,  1.43s/it]  8%|▊         | 8110/100000 [4:26:44<35:46:08,  1.40s/it]                                                            8%|▊         | 8110/100000 [4:26:44<35:46:08,  1.40s/it]  8%|▊         | 8111/100000 [4:26:45<34:54:21,  1.37s/it]                                                            8%|▊         | 8111/100000 [4:26:45<34:54:21,  1.37s/it]  8%|▊         | 8112/100000 [4:26:46<34:02:33,  1.33s/it]                                                            8%|▊         | 8112/100000 [4:26:46<34:02:33,  1.33s/it]  8%|▊         | 8113/100000 [4:26:47<33:29:20,  1.31s/it]                                                            8%|▊         | 8113/100000 [4:26:47<33:29:20,  1.31s/it]  8%|▊         | 8114/100000 [4:26:49<32:46:22,  1.28s/it]                                                            8%|▊         | 8114/100000 [4:26:49<32:46:22,  1.28s/it]  8%|▊         | 8115/100000 [4:26:50<32:30:07,  1.27s/it]                                                            8%|▊         | 8115/100000 [4:26:50<32:30:07,  1.27s/it]  8%|▊         | 8116/100000 [4:26:51<31:49:58,  1.25s/it]                                                            8%|▊         | 8116/100000 [4:26:51<31:49:58,  1.25s/it]  8%|▊         | 8117/100000 [4:26:52<30:55:46,  1.21s/it]                                                            8%|▊         | 8117/100000 [4:26:52<30:55:46,  1.21s/it]  8%|▊         | 8118/100000 [4:26:53<30:21:37,  1.19s/it]                                                            8%|▊         | 8118/100000 [4:26:53<30:21:37,  1.19s/it]  8%|▊         | 8119/100000 [4:26:55<29:51:14,  1.17s/it]                                                            8%|▊         | 8119/100000 [4:26:55<29:51:14,  1.17s/it]  8%|▊         | 8120/100000 [4:26:56<29:25:50,  1.15s/it]                                                            8%|▊         | 8120/100000 [4:26:56<29:25:50,  1.15s/it]  8%|▊         | 8121/100000 [4:26:57<29:05:44,  1.14s/it]                                                            8%|▊         | 8121/100000 [4:26:57<29:05:44,  1.14s/it]  8%|▊         | 8122/100000 [4:26:58<28:49:43,  1.13s/it]                                                            8%|▊         | 8122/100000 [4:26:58<28:49:43,  1.13s/it]  8%|▊         | 8123/100000 [4:26:59<28:30:54,  1.12s/it]                                                            8%|▊         | 8123/100000 [4:26:59<28:30:54,  1.12s/it]  8%|▊         | 8124/100000 [4:27:00<27:54:09,  1.09s/it]                                                            8%|▊         | 8124/100000 [4:27:00<27:54:09,  1.09s/it]  8%|▊         | 8125/100000 [4:27:01<27:36:07,  1.08s/it]                                                            8%|▊         | 8125/100000 [4:27:01<27:36:07,  1.08s/it]  8%|▊         | 8126/100000 [4:27:02<27:01:11,  1.06s/it]                                                            8%|▊         | 8126/100000 [4:27:02<27:01:11,  1.06s/it]  8%|▊         | 8127/100000 [4:27:03<26:21:09,  1.03s/it]                                                            8%|▊         | 8127/100000 [4:27:03<26:21:09,  1.03s/it]  8%|▊         | 8128/100000 [4:27:04<26:13:38,  1.03s/it]                                                            8%|▊         | 8128/100000 [4:27:04<26:13:38,  1.03s/it]  8%|▊         | 8129/100000 [4:27:05<25:57:29,  1.02s/it]                                                            8%|▊         | 8129/100000 [4:27:05<25:57:29,  1.02s/it]  8%|▊         | 8130/100000 [4:27:06<24:03:50,  1.06it/s]                                                            8%|▊         | 8130/100000 [4:27:06<24:03:50,  1.06it/s]{'loss': 0.0277, 'grad_norm': 0.5359593033790588, 'learning_rate': 2.4237e-05, 'epoch': 14.91}
+{'loss': 0.0192, 'grad_norm': 0.4312509000301361, 'learning_rate': 2.4240000000000002e-05, 'epoch': 14.91}
+{'loss': 0.014, 'grad_norm': 0.44593143463134766, 'learning_rate': 2.4243e-05, 'epoch': 14.92}
+{'loss': 0.0323, 'grad_norm': 0.4584122598171234, 'learning_rate': 2.4246e-05, 'epoch': 14.92}
+{'loss': 0.0281, 'grad_norm': 0.5289592742919922, 'learning_rate': 2.4249e-05, 'epoch': 14.92}
+{'loss': 0.0157, 'grad_norm': 0.32490670680999756, 'learning_rate': 2.4252e-05, 'epoch': 14.92}
+{'loss': 0.028, 'grad_norm': 0.43771255016326904, 'learning_rate': 2.4255e-05, 'epoch': 14.92}
+{'loss': 0.2859, 'grad_norm': 1.3917237520217896, 'learning_rate': 2.4258e-05, 'epoch': 14.93}
+{'loss': 0.1646, 'grad_norm': 0.5033819079399109, 'learning_rate': 2.4261e-05, 'epoch': 14.93}
+{'loss': 0.1251, 'grad_norm': 0.5540380477905273, 'learning_rate': 2.4264e-05, 'epoch': 14.93}
+{'loss': 0.0993, 'grad_norm': 0.6526817083358765, 'learning_rate': 2.4267e-05, 'epoch': 14.93}
+{'loss': 0.1988, 'grad_norm': 0.8004580140113831, 'learning_rate': 2.4270000000000003e-05, 'epoch': 14.93}
+{'loss': 0.0718, 'grad_norm': 0.46787190437316895, 'learning_rate': 2.4273000000000003e-05, 'epoch': 14.93}
+{'loss': 0.1238, 'grad_norm': 0.6435708999633789, 'learning_rate': 2.4276000000000003e-05, 'epoch': 14.94}
+{'loss': 0.0728, 'grad_norm': 0.506477952003479, 'learning_rate': 2.4279000000000003e-05, 'epoch': 14.94}
+{'loss': 0.0505, 'grad_norm': 0.6455765962600708, 'learning_rate': 2.4282000000000002e-05, 'epoch': 14.94}
+{'loss': 0.1329, 'grad_norm': 0.7211839556694031, 'learning_rate': 2.4285000000000002e-05, 'epoch': 14.94}
+{'loss': 0.0469, 'grad_norm': 0.4941684305667877, 'learning_rate': 2.4288e-05, 'epoch': 14.94}
+{'loss': 0.0281, 'grad_norm': 0.8883525133132935, 'learning_rate': 2.4291e-05, 'epoch': 14.95}
+{'loss': 0.0234, 'grad_norm': 0.5026273131370544, 'learning_rate': 2.4293999999999998e-05, 'epoch': 14.95}
+{'loss': 0.0339, 'grad_norm': 0.3770243227481842, 'learning_rate': 2.4296999999999998e-05, 'epoch': 14.95}
+{'loss': 0.0166, 'grad_norm': 0.2530992031097412, 'learning_rate': 2.43e-05, 'epoch': 14.95}
+{'loss': 0.0198, 'grad_norm': 0.3264380395412445, 'learning_rate': 2.4303e-05, 'epoch': 14.95}
+{'loss': 0.0234, 'grad_norm': 0.6021093130111694, 'learning_rate': 2.4306e-05, 'epoch': 14.95}
+{'loss': 0.0212, 'grad_norm': 0.39788442850112915, 'learning_rate': 2.4309e-05, 'epoch': 14.96}
+{'loss': 0.019, 'grad_norm': 0.39071908593177795, 'learning_rate': 2.4312e-05, 'epoch': 14.96}
+{'loss': 0.0152, 'grad_norm': 0.3165871202945709, 'learning_rate': 2.4315e-05, 'epoch': 14.96}
+{'loss': 0.0207, 'grad_norm': 0.3403398096561432, 'learning_rate': 2.4318e-05, 'epoch': 14.96}
+{'loss': 0.0117, 'grad_norm': 0.5380444526672363, 'learning_rate': 2.4321e-05, 'epoch': 14.96}
+{'loss': 0.022, 'grad_norm': 0.43799179792404175, 'learning_rate': 2.4324e-05, 'epoch': 14.97}
+{'loss': 0.0156, 'grad_norm': 1.1583491563796997, 'learning_rate': 2.4327e-05, 'epoch': 14.97}
+{'loss': 0.0137, 'grad_norm': 0.3655841052532196, 'learning_rate': 2.4330000000000003e-05, 'epoch': 14.97}
+{'loss': 0.0192, 'grad_norm': 0.5397698283195496, 'learning_rate': 2.4333000000000002e-05, 'epoch': 14.97}
+{'loss': 0.0102, 'grad_norm': 0.33571380376815796, 'learning_rate': 2.4336000000000002e-05, 'epoch': 14.97}
+{'loss': 0.0122, 'grad_norm': 0.3407282829284668, 'learning_rate': 2.4339000000000002e-05, 'epoch': 14.98}
+{'loss': 0.0198, 'grad_norm': 0.6962429285049438, 'learning_rate': 2.4342000000000002e-05, 'epoch': 14.98}
+{'loss': 0.0195, 'grad_norm': 0.5999586582183838, 'learning_rate': 2.4345e-05, 'epoch': 14.98}
+{'loss': 0.027, 'grad_norm': 0.6077821254730225, 'learning_rate': 2.4348e-05, 'epoch': 14.98}
+{'loss': 0.0174, 'grad_norm': 0.6994907259941101, 'learning_rate': 2.4351e-05, 'epoch': 14.98}
+{'loss': 0.0163, 'grad_norm': 0.5564958453178406, 'learning_rate': 2.4354e-05, 'epoch': 14.98}
+{'loss': 0.0126, 'grad_norm': 0.3990434408187866, 'learning_rate': 2.4357e-05, 'epoch': 14.99}
+{'loss': 0.0144, 'grad_norm': 0.608258843421936, 'learning_rate': 2.4360000000000004e-05, 'epoch': 14.99}
+{'loss': 0.0243, 'grad_norm': 0.524206280708313, 'learning_rate': 2.4363e-05, 'epoch': 14.99}
+{'loss': 0.0215, 'grad_norm': 0.4362499713897705, 'learning_rate': 2.4366e-05, 'epoch': 14.99}
+{'loss': 0.0185, 'grad_norm': 0.8296584486961365, 'learning_rate': 2.4369e-05, 'epoch': 14.99}
+{'loss': 0.0166, 'grad_norm': 0.41815313696861267, 'learning_rate': 2.4372e-05, 'epoch': 15.0}
+{'loss': 0.01, 'grad_norm': 0.3036484718322754, 'learning_rate': 2.4375e-05, 'epoch': 15.0}
+{'loss': 0.0215, 'grad_norm': 0.6441636681556702, 'learning_rate': 2.4378e-05, 'epoch': 15.0}
+{'loss': 0.0189, 'grad_norm': 0.900398313999176, 'learning_rate': 2.4381e-05, 'epoch': 15.0}
+  8%|▊         | 8131/100000 [4:27:24<158:43:55,  6.22s/it]                                                             8%|▊         | 8131/100000 [4:27:24<158:43:55,  6.22s/it]  8%|▊         | 8132/100000 [4:27:30<157:01:17,  6.15s/it]                                                             8%|▊         | 8132/100000 [4:27:30<157:01:17,  6.15s/it]  8%|▊         | 8133/100000 [4:27:35<148:12:05,  5.81s/it]                                                             8%|▊         | 8133/100000 [4:27:35<148:12:05,  5.81s/it]  8%|▊         | 8134/100000 [4:27:39<135:20:52,  5.30s/it]                                                             8%|▊         | 8134/100000 [4:27:39<135:20:52,  5.30s/it]  8%|▊         | 8135/100000 [4:27:43<121:40:33,  4.77s/it]                                                             8%|▊         | 8135/100000 [4:27:43<121:40:33,  4.77s/it]  8%|▊         | 8136/100000 [4:27:46<110:08:27,  4.32s/it]                                                             8%|▊         | 8136/100000 [4:27:46<110:08:27,  4.32s/it]  8%|▊         | 8137/100000 [4:27:49<99:40:15,  3.91s/it]                                                             8%|▊         | 8137/100000 [4:27:49<99:40:15,  3.91s/it]  8%|▊         | 8138/100000 [4:27:52<90:33:50,  3.55s/it]                                                            8%|▊         | 8138/100000 [4:27:52<90:33:50,  3.55s/it]  8%|▊         | 8139/100000 [4:27:54<82:52:44,  3.25s/it]                                                            8%|▊         | 8139/100000 [4:27:54<82:52:44,  3.25s/it]  8%|▊         | 8140/100000 [4:27:57<75:58:17,  2.98s/it]                                                            8%|▊         | 8140/100000 [4:27:57<75:58:17,  2.98s/it]  8%|▊         | 8141/100000 [4:27:59<69:53:34,  2.74s/it]                                                            8%|▊         | 8141/100000 [4:27:59<69:53:34,  2.74s/it]  8%|▊         | 8142/100000 [4:28:01<64:36:44,  2.53s/it]                                                            8%|▊         | 8142/100000 [4:28:01<64:36:44,  2.53s/it]  8%|▊         | 8143/100000 [4:28:03<60:15:59,  2.36s/it]                                                            8%|▊         | 8143/100000 [4:28:03<60:15:59,  2.36s/it]  8%|▊         | 8144/100000 [4:28:05<55:45:11,  2.19s/it]                                                            8%|▊         | 8144/100000 [4:28:05<55:45:11,  2.19s/it]  8%|▊         | 8145/100000 [4:28:06<51:53:37,  2.03s/it]                                                            8%|▊         | 8145/100000 [4:28:06<51:53:37,  2.03s/it]  8%|▊         | 8146/100000 [4:28:08<49:17:19,  1.93s/it]                                                            8%|▊         | 8146/100000 [4:28:08<49:17:19,  1.93s/it]  8%|▊         | 8147/100000 [4:28:10<46:49:29,  1.84s/it]                                                            8%|▊         | 8147/100000 [4:28:10<46:49:29,  1.84s/it]  8%|▊         | 8148/100000 [4:28:11<44:54:28,  1.76s/it]                                                            8%|▊         | 8148/100000 [4:28:11<44:54:28,  1.76s/it]  8%|▊         | 8149/100000 [4:28:13<43:14:50,  1.70s/it]                                                            8%|▊         | 8149/100000 [4:28:13<43:14:50,  1.70s/it]  8%|▊         | 8150/100000 [4:28:14<41:34:50,  1.63s/it]                                                            8%|▊         | 8150/100000 [4:28:14<41:34:50,  1.63s/it]  8%|▊         | 8151/100000 [4:28:16<40:02:12,  1.57s/it]                                                            8%|▊         | 8151/100000 [4:28:16<40:02:12,  1.57s/it]  8%|▊         | 8152/100000 [4:28:17<39:07:54,  1.53s/it]                                                            8%|▊         | 8152/100000 [4:28:17<39:07:54,  1.53s/it]  8%|▊         | 8153/100000 [4:28:19<38:11:29,  1.50s/it]                                                            8%|▊         | 8153/100000 [4:28:19<38:11:29,  1.50s/it]  8%|▊         | 8154/100000 [4:28:20<37:03:10,  1.45s/it]                                                            8%|▊         | 8154/100000 [4:28:20<37:03:10,  1.45s/it]  8%|▊         | 8155/100000 [4:28:21<36:22:07,  1.43s/it]                                                            8%|▊         | 8155/100000 [4:28:21<36:22:07,  1.43s/it]  8%|▊         | 8156/100000 [4:28:23<35:12:55,  1.38s/it]                                                            8%|▊         | 8156/100000 [4:28:23<35:12:55,  1.38s/it]  8%|▊         | 8157/100000 [4:28:24<34:50:28,  1.37s/it]                                                            8%|▊         | 8157/100000 [4:28:24<34:50:28,  1.37s/it]  8%|▊         | 8158/100000 [4:28:25<33:53:52,  1.33s/it]                                                            8%|▊         | 8158/100000 [4:28:25<33:53:52,  1.33s/it]  8%|▊         | 8159/100000 [4:28:26<33:35:12,  1.32s/it]                                                            8%|▊         | 8159/100000 [4:28:26<33:35:12,  1.32s/it]  8%|▊         | 8160/100000 [4:28:28<33:19:34,  1.31s/it]                                                            8%|▊         | 8160/100000 [4:28:28<33:19:34,  1.31s/it]  8%|▊         | 8161/100000 [4:28:29<32:52:46,  1.29s/it]                                                            8%|▊         | 8161/100000 [4:28:29<32:52:46,  1.29s/it]  8%|▊         | 8162/100000 [4:28:30<32:10:44,  1.26s/it]                                                            8%|▊         | 8162/100000 [4:28:30<32:10:44,  1.26s/it]  8%|▊         | 8163/100000 [4:28:31<31:52:43,  1.25s/it]                                                            8%|▊         | 8163/100000 [4:28:31<31:52:43,  1.25s/it]  8%|▊         | 8164/100000 [4:28:33<31:09:03,  1.22s/it]                                                            8%|▊         | 8164/100000 [4:28:33<31:09:03,  1.22s/it]  8%|▊         | 8165/100000 [4:28:34<30:44:04,  1.20s/it]                                                            8%|▊         | 8165/100000 [4:28:34<30:44:04,  1.20s/it]  8%|▊         | 8166/100000 [4:28:35<30:20:19,  1.19s/it]                                                            8%|▊         | 8166/100000 [4:28:35<30:20:19,  1.19s/it]  8%|▊         | 8167/100000 [4:28:36<29:48:55,  1.17s/it]                                                            8%|▊         | 8167/100000 [4:28:36<29:48:55,  1.17s/it]  8%|▊         | 8168/100000 [4:28:37<29:30:24,  1.16s/it]                                                            8%|▊         | 8168/100000 [4:28:37<29:30:24,  1.16s/it]  8%|▊         | 8169/100000 [4:28:38<28:49:29,  1.13s/it]                                                            8%|▊         | 8169/100000 [4:28:38<28:49:29,  1.13s/it]  8%|▊         | 8170/100000 [4:28:39<28:32:37,  1.12s/it]                                                            8%|▊         | 8170/100000 [4:28:39<28:32:37,  1.12s/it]  8%|▊         | 8171/100000 [4:28:40<28:11:30,  1.11s/it]                                                            8%|▊         | 8171/100000 [4:28:40<28:11:30,  1.11s/it]  8%|▊         | 8172/100000 [4:28:41<27:54:36,  1.09s/it]                                                            8%|▊         | 8172/100000 [4:28:41<27:54:36,  1.09s/it]  8%|▊         | 8173/100000 [4:28:42<27:35:08,  1.08s/it]                                                            8%|▊         | 8173/100000 [4:28:42<27:35:08,  1.08s/it]  8%|▊         | 8174/100000 [4:28:44<27:20:46,  1.07s/it]                                                            8%|▊         | 8174/100000 [4:28:44<27:20:46,  1.07s/it]  8%|▊         | 8175/100000 [4:28:45<27:01:19,  1.06s/it]                                                            8%|▊         | 8175/100000 [4:28:45<27:01:19,  1.06s/it]  8%|▊         | 8176/100000 [4:28:46<27:42:35,  1.09s/it]                                                            8%|▊         | 8176/100000 [4:28:46<27:42:35,  1.09s/it]  8%|▊         | 8177/100000 [4:28:47<26:47:48,  1.05s/it]                                                            8%|▊         | 8177/100000 [4:28:47<26:47:48,  1.05s/it]  8%|▊         | 8178/100000 [4:28:48<26:06:24,  1.02s/it]                                                            8%|▊         | 8178/100000 [4:28:48<26:06:24,  1.02s/it]  8%|▊         | 8179/100000 [4:28:49<25:30:03,  1.00it/s]                                                            8%|▊         | 8179/100000 [4:28:49<25:30:03,  1.00it/s]  8%|▊         | 8180/100000 [4:28:50<24:51:09,  1.03it/s]                                                            8%|▊         | 8180/100000 [4:28:50<24:51:09,  1.03it/s]  8%|▊         | 8181/100000 [4:29:00<98:44:00,  3.87s/it]                                                            8%|▊         | 8181/100000 [4:29:00<98:44:00,  3.87s/it]  8%|▊         | 8182/100000 [4:29:06<112:25:01,  4.41s/it]                                                             8%|▊         | 8182/100000 [4:29:06<112:25:01,  4.41s/it]  8%|▊         | 8183/100000 [4:29:11<115:44:31,  4.54s/it]                                                             8%|▊         | 8183/100000 [4:29:11<115:44:31,  4.54s/it]  8%|▊         | 8184/100000 [4:29:15<113:31:08,  4.45s/it]                                                             8%|▊         | 8184/100000 [4:29:15<113:31:08,  4.45s/it]  8%|▊         | 8185/100000 [4:29:19<108:28:58,  4.25s/it]                                                             8%|▊         | 8185/100000 [4:29:19<108:28:58,  4.25s/it]  8%|▊         | 8186/100000 [4:29:22<100:59:14,  3.96s/it]                                                             8%|▊         | 8186/100000 [4:29:22<100:59:14,  3.96s/it]  8%|▊         | 8187/100000 [4:29:25<94:55:09,  3.72s/it]                                                             8%|▊         | 8187/100000 [4:29:25<94:55:09,  3.72s/it]  8%|▊         | 8188/100000 [4:29:28<88:37:13,  3.47s/it]                                                            8%|▊         | 8188/100000 [4:29:28<88:37:13,  3.47s/it]  8%|▊         | 8189/100000 [4:29:31<81:17:49,  3.19s/it]                                                            8%|▊         | 8189/100000 [4:29:31<81:17:49,  3.19s/it]  8%|▊         | 8190/100000 [4:29:33<75:26:10,  2.96s/it]                                                            8%|▊         | 8190/100000 [4:29:33<75:26:10,  2.96s/it]  8%|▊         | 8191/100000 [4:29:35<69:28:33,  2.72s/it]                                                            8%|▊         | 8191/100000 [4:29:35<69:28:33,  2.72s/it]  8%|▊         | 8192/100000 [4:29:37<64:37:46,  2.53s/it]                                                            8%|▊         | 8192/100000 [4:29:37<64:37:46,  2.53s/it]  8%|▊         | 8193/100000 [4:29:39<60:35:22,  2.38s/it]                                                            8%|▊         | 8193/100000 [4:29:39<60:35:22,  2.38s/it]  8%|▊         | 8194/100000 [4:29:41<56:59:00,  2.23s/it]                                                            8%|▊         | 8194/100000 [4:29:41<56:59:00,  2.23s/it]  8%|▊         | 8195/100000 [4:29:43<53:41:55,  2.11s/it]                                                            8%|▊         | 8195/100000 [4:29:43<53:41:55,  2.11s/it]  8%|▊         | 8196/100000 [4:29:45<50:54:59,  2.00s/it]                                                            8%|▊         | 8196/100000 [4:29:45<50:54:59,  2.00s/it]  8%|▊         | 8197/100000 [4:29:46<48:23:57,  1.90s/it]                                                            8%|▊         | 8197/100000 [4:29:46<48:23:57,  1.90s/it]  8%|▊         | 8198/100000 [4:29:48<46:17:03,  1.82s/it]                                                            8%|▊         | 8198/100000 [4:29:48<46:17:03,  1.82s/it]  8%|▊         | 8199/100000 [4:29:50<44:13:53,  1.73s/it]                                                            8%|▊         | 8199/100000 [4:29:50<44:13:53,  1.73s/it]  8%|▊         | 8200/100000 [4:29:51<42:29:40,  1.67s/it]                                                            8%|▊         | 8200/100000 [4:29:51<42:29:40,  1.67s/it]  8%|▊         | 8201/100000 [4:29:53<41:01:39,  1.61s/it]                                                            8%|▊         | 8201/100000 [4:29:53<41:01:39,  1.61s/it]  8%|▊         | 8202/100000 [4:29:54<39:51:27,  1.56s/it]                                                            8%|▊         | 8202/100000 [4:29:54<39:51:27,  1.56s/it]  8%|▊         | 8203/100000 [4:29:55<38:43:15,  1.52s/it]                                                            8%|▊         | 8203/100000 [4:29:55<38:43:15,  1.52s/it]  8%|▊         | 8204/100000 [4:29:57<37:53:23,  1.49s/it]                                                            8%|▊         | 8204/100000 [4:29:57<37:53:23,  1.49s/it]  8%|▊         | 8205/100000 [4:29:58<37:04:43,  1.45s/it]                                                            8%|▊         | 8205/100000 [4:29:58<37:04:43,  1.45s/it]  8%|▊         | 8206/100000 [4:30:00<36:17:45,  1.42s/it]                                                            8%|▊         | 8206/100000 [4:30:00<36:17:45,  1.42s/it]  8%|▊         | 8207/100000 [4:30:01<35:32:22,  1.39s/it]                                                            8%|▊         | 8207/100000 [4:30:01<35:32:22,  1.39s/it]  8%|▊         | 8208/100000 [4:30:02<34:51:02,  1.37s/it]                                                            8%|▊         | 8208/100000 [4:30:02<34:51:02,  1.37s/it]  8%|▊         | 8209/100000 [4:30:03<34:02:31,  1.34s/it]                                                            8%|▊         | 8209/100000 [4:30:03<34:02:31,  1.34s/it]  8%|▊         | 8210/100000 [4:30:05<33:31:11,  1.31s/it]                                                            8%|▊         | 8210/100000 [4:30:05<33:31:11,  1.31s/it]  8%|▊         | 8211/100000 [4:30:06<33:13:49,  1.30s/it]                                                            8%|▊         | 8211/100000 [4:30:06<33:13:49,  1.30s/it]  8%|▊         | 8212/100000 [4:30:07<32:22:40,  1.27s/it]                                                            8%|▊         | 8212/100000 [4:30:07<32:22:40,  1.27s/it]  8%|▊         | 8213/100000 [4:30:08<32:05:20,  1.26s/it]                                                            8%|▊         | 8213/100000 [4:30:08<32:05:20,  1.26s/it]  8%|▊         | 8214/100000 [4:30:10<31:37:31,  1.24s/it]                                                          {'loss': 0.213, 'grad_norm': 1.1221733093261719, 'learning_rate': 2.4384e-05, 'epoch': 15.0}
+{'loss': 0.2084, 'grad_norm': 1.017161250114441, 'learning_rate': 2.4387e-05, 'epoch': 15.0}
+{'loss': 0.1478, 'grad_norm': 0.7330501675605774, 'learning_rate': 2.439e-05, 'epoch': 15.01}
+{'loss': 0.1205, 'grad_norm': 0.568026065826416, 'learning_rate': 2.4393000000000002e-05, 'epoch': 15.01}
+{'loss': 0.1764, 'grad_norm': 0.6616817116737366, 'learning_rate': 2.4396e-05, 'epoch': 15.01}
+{'loss': 0.0941, 'grad_norm': 0.5726966857910156, 'learning_rate': 2.4399e-05, 'epoch': 15.01}
+{'loss': 0.1011, 'grad_norm': 0.6629717350006104, 'learning_rate': 2.4402e-05, 'epoch': 15.01}
+{'loss': 0.099, 'grad_norm': 0.5155584216117859, 'learning_rate': 2.4405e-05, 'epoch': 15.01}
+{'loss': 0.0914, 'grad_norm': 0.6650702953338623, 'learning_rate': 2.4408e-05, 'epoch': 15.02}
+{'loss': 0.0997, 'grad_norm': 0.6222261190414429, 'learning_rate': 2.4411e-05, 'epoch': 15.02}
+{'loss': 0.0588, 'grad_norm': 0.6313560009002686, 'learning_rate': 2.4414e-05, 'epoch': 15.02}
+{'loss': 0.0533, 'grad_norm': 0.46788403391838074, 'learning_rate': 2.4417e-05, 'epoch': 15.02}
+{'loss': 0.0355, 'grad_norm': 0.569367527961731, 'learning_rate': 2.442e-05, 'epoch': 15.02}
+{'loss': 0.062, 'grad_norm': 0.5730012059211731, 'learning_rate': 2.4423000000000003e-05, 'epoch': 15.03}
+{'loss': 0.0679, 'grad_norm': 0.4984351396560669, 'learning_rate': 2.4426000000000003e-05, 'epoch': 15.03}
+{'loss': 0.038, 'grad_norm': 1.6580547094345093, 'learning_rate': 2.4429000000000003e-05, 'epoch': 15.03}
+{'loss': 0.0143, 'grad_norm': 0.21034662425518036, 'learning_rate': 2.4432000000000003e-05, 'epoch': 15.03}
+{'loss': 0.0212, 'grad_norm': 0.3205229938030243, 'learning_rate': 2.4435e-05, 'epoch': 15.03}
+{'loss': 0.0437, 'grad_norm': 0.41856059432029724, 'learning_rate': 2.4438e-05, 'epoch': 15.04}
+{'loss': 0.0165, 'grad_norm': 0.4145803451538086, 'learning_rate': 2.4441e-05, 'epoch': 15.04}
+{'loss': 0.0091, 'grad_norm': 0.18975673615932465, 'learning_rate': 2.4444e-05, 'epoch': 15.04}
+{'loss': 0.0151, 'grad_norm': 0.3147350251674652, 'learning_rate': 2.4446999999999998e-05, 'epoch': 15.04}
+{'loss': 0.0121, 'grad_norm': 0.27458664774894714, 'learning_rate': 2.4449999999999998e-05, 'epoch': 15.04}
+{'loss': 0.0168, 'grad_norm': 0.35295307636260986, 'learning_rate': 2.4453e-05, 'epoch': 15.04}
+{'loss': 0.0208, 'grad_norm': 0.5425369143486023, 'learning_rate': 2.4456e-05, 'epoch': 15.05}
+{'loss': 0.0103, 'grad_norm': 0.4190623462200165, 'learning_rate': 2.4459e-05, 'epoch': 15.05}
+{'loss': 0.0246, 'grad_norm': 1.073426604270935, 'learning_rate': 2.4462e-05, 'epoch': 15.05}
+{'loss': 0.0177, 'grad_norm': 0.29241880774497986, 'learning_rate': 2.4465e-05, 'epoch': 15.05}
+{'loss': 0.0212, 'grad_norm': 0.3127516806125641, 'learning_rate': 2.4468e-05, 'epoch': 15.05}
+{'loss': 0.0134, 'grad_norm': 0.5754639506340027, 'learning_rate': 2.4471e-05, 'epoch': 15.06}
+{'loss': 0.0163, 'grad_norm': 0.7174379825592041, 'learning_rate': 2.4474e-05, 'epoch': 15.06}
+{'loss': 0.0129, 'grad_norm': 0.4467093348503113, 'learning_rate': 2.4477e-05, 'epoch': 15.06}
+{'loss': 0.0077, 'grad_norm': 0.3584469258785248, 'learning_rate': 2.448e-05, 'epoch': 15.06}
+{'loss': 0.0103, 'grad_norm': 0.26156914234161377, 'learning_rate': 2.4483000000000003e-05, 'epoch': 15.06}
+{'loss': 0.0195, 'grad_norm': 0.4861030578613281, 'learning_rate': 2.4486000000000002e-05, 'epoch': 15.06}
+{'loss': 0.0056, 'grad_norm': 0.31749069690704346, 'learning_rate': 2.4489000000000002e-05, 'epoch': 15.07}
+{'loss': 0.0115, 'grad_norm': 0.4234580993652344, 'learning_rate': 2.4492000000000002e-05, 'epoch': 15.07}
+{'loss': 0.0101, 'grad_norm': 0.3904325067996979, 'learning_rate': 2.4495000000000002e-05, 'epoch': 15.07}
+{'loss': 0.0173, 'grad_norm': 0.7674003839492798, 'learning_rate': 2.4498e-05, 'epoch': 15.07}
+{'loss': 0.012, 'grad_norm': 0.21063567698001862, 'learning_rate': 2.4501e-05, 'epoch': 15.07}
+{'loss': 0.0196, 'grad_norm': 0.3684234023094177, 'learning_rate': 2.4504e-05, 'epoch': 15.08}
+{'loss': 0.0079, 'grad_norm': 1.3102104663848877, 'learning_rate': 2.4507e-05, 'epoch': 15.08}
+{'loss': 0.013, 'grad_norm': 0.29982709884643555, 'learning_rate': 2.4509999999999997e-05, 'epoch': 15.08}
+{'loss': 0.0137, 'grad_norm': 0.40088796615600586, 'learning_rate': 2.4513e-05, 'epoch': 15.08}
+{'loss': 0.0173, 'grad_norm': 0.5310261249542236, 'learning_rate': 2.4516e-05, 'epoch': 15.08}
+{'loss': 0.0104, 'grad_norm': 0.54770427942276, 'learning_rate': 2.4519e-05, 'epoch': 15.08}
+{'loss': 0.0115, 'grad_norm': 0.6323532462120056, 'learning_rate': 2.4522e-05, 'epoch': 15.09}
+{'loss': 0.0084, 'grad_norm': 0.6644243597984314, 'learning_rate': 2.4525e-05, 'epoch': 15.09}
+{'loss': 0.0122, 'grad_norm': 0.450868159532547, 'learning_rate': 2.4528e-05, 'epoch': 15.09}
+{'loss': 0.0095, 'grad_norm': 0.47782060503959656, 'learning_rate': 2.4531e-05, 'epoch': 15.09}
+{'loss': 0.1596, 'grad_norm': 0.7100746035575867, 'learning_rate': 2.4534e-05, 'epoch': 15.09}
+{'loss': 0.2233, 'grad_norm': 0.7997457981109619, 'learning_rate': 2.4537e-05, 'epoch': 15.1}
+{'loss': 0.1357, 'grad_norm': 0.6452318429946899, 'learning_rate': 2.454e-05, 'epoch': 15.1}
+{'loss': 0.1706, 'grad_norm': 0.780385434627533, 'learning_rate': 2.4543000000000002e-05, 'epoch': 15.1}
+{'loss': 0.1229, 'grad_norm': 0.5169774889945984, 'learning_rate': 2.4546000000000002e-05, 'epoch': 15.1}
+{'loss': 0.153, 'grad_norm': 0.630163848400116, 'learning_rate': 2.4549e-05, 'epoch': 15.1}
+{'loss': 0.1634, 'grad_norm': 0.8105989098548889, 'learning_rate': 2.4552e-05, 'epoch': 15.11}
+{'loss': 0.0631, 'grad_norm': 0.4336480498313904, 'learning_rate': 2.4555e-05, 'epoch': 15.11}
+{'loss': 0.1063, 'grad_norm': 0.5514599680900574, 'learning_rate': 2.4558e-05, 'epoch': 15.11}
+{'loss': 0.0588, 'grad_norm': 0.37652090191841125, 'learning_rate': 2.4561e-05, 'epoch': 15.11}
+{'loss': 0.0622, 'grad_norm': 0.5351255536079407, 'learning_rate': 2.4564e-05, 'epoch': 15.11}
+{'loss': 0.041, 'grad_norm': 0.35973745584487915, 'learning_rate': 2.4567e-05, 'epoch': 15.11}
+{'loss': 0.0948, 'grad_norm': 2.9132304191589355, 'learning_rate': 2.457e-05, 'epoch': 15.12}
+{'loss': 0.027, 'grad_norm': 0.2675500512123108, 'learning_rate': 2.4573000000000003e-05, 'epoch': 15.12}
+{'loss': 0.0556, 'grad_norm': 0.38470208644866943, 'learning_rate': 2.4576000000000003e-05, 'epoch': 15.12}
+{'loss': 0.049, 'grad_norm': 0.5402805209159851, 'learning_rate': 2.4579000000000003e-05, 'epoch': 15.12}
+{'loss': 0.0499, 'grad_norm': 0.2357839196920395, 'learning_rate': 2.4582000000000003e-05, 'epoch': 15.12}
+{'loss': 0.0178, 'grad_norm': 0.40822380781173706, 'learning_rate': 2.4585e-05, 'epoch': 15.13}
+{'loss': 0.0195, 'grad_norm': 0.2533171772956848, 'learning_rate': 2.4588e-05, 'epoch': 15.13}
+{'loss': 0.0238, 'grad_norm': 0.305999755859375, 'learning_rate': 2.4591e-05, 'epoch': 15.13}
+{'loss': 0.0509, 'grad_norm': 0.470662385225296, 'learning_rate': 2.4594e-05, 'epoch': 15.13}
+{'loss': 0.0165, 'grad_norm': 0.26189985871315, 'learning_rate': 2.4597e-05, 'epoch': 15.13}
+{'loss': 0.0425, 'grad_norm': 1.0813108682632446, 'learning_rate': 2.4599999999999998e-05, 'epoch': 15.13}
+{'loss': 0.0088, 'grad_norm': 0.33218902349472046, 'learning_rate': 2.4603e-05, 'epoch': 15.14}
+{'loss': 0.0087, 'grad_norm': 0.22756680846214294, 'learning_rate': 2.4606e-05, 'epoch': 15.14}
+{'loss': 0.0082, 'grad_norm': 0.34461233019828796, 'learning_rate': 2.4609e-05, 'epoch': 15.14}
+{'loss': 0.0142, 'grad_norm': 0.5454093217849731, 'learning_rate': 2.4612e-05, 'epoch': 15.14}
+{'loss': 0.0128, 'grad_norm': 0.30798277258872986, 'learning_rate': 2.4615e-05, 'epoch': 15.14}
+{'loss': 0.0336, 'grad_norm': 0.4576432704925537, 'learning_rate': 2.4618e-05, 'epoch': 15.15}
+{'loss': 0.0112, 'grad_norm': 0.247364342212677, 'learning_rate': 2.4621e-05, 'epoch': 15.15}
+{'loss': 0.0118, 'grad_norm': 0.614842414855957, 'learning_rate': 2.4624e-05, 'epoch': 15.15}
+{'loss': 0.0135, 'grad_norm': 0.5782668590545654, 'learning_rate': 2.4627e-05, 'epoch': 15.15}
+{'loss': 0.016, 'grad_norm': 0.4947219491004944, 'learning_rate': 2.463e-05, 'epoch': 15.15}
+  8%|▊         | 8214/100000 [4:30:10<31:37:31,  1.24s/it]  8%|▊         | 8215/100000 [4:30:11<30:52:19,  1.21s/it]                                                            8%|▊         | 8215/100000 [4:30:11<30:52:19,  1.21s/it]  8%|▊         | 8216/100000 [4:30:12<30:28:35,  1.20s/it]                                                            8%|▊         | 8216/100000 [4:30:12<30:28:35,  1.20s/it]  8%|▊         | 8217/100000 [4:30:13<29:49:11,  1.17s/it]                                                            8%|▊         | 8217/100000 [4:30:13<29:49:11,  1.17s/it]  8%|▊         | 8218/100000 [4:30:14<29:29:37,  1.16s/it]                                                            8%|▊         | 8218/100000 [4:30:14<29:29:37,  1.16s/it]  8%|▊         | 8219/100000 [4:30:15<29:11:17,  1.14s/it]                                                            8%|▊         | 8219/100000 [4:30:15<29:11:17,  1.14s/it]  8%|▊         | 8220/100000 [4:30:16<28:31:01,  1.12s/it]                                                            8%|▊         | 8220/100000 [4:30:16<28:31:01,  1.12s/it]  8%|▊         | 8221/100000 [4:30:17<28:17:07,  1.11s/it]                                                            8%|▊         | 8221/100000 [4:30:17<28:17:07,  1.11s/it]  8%|▊         | 8222/100000 [4:30:18<27:57:39,  1.10s/it]                                                            8%|▊         | 8222/100000 [4:30:18<27:57:39,  1.10s/it]  8%|▊         | 8223/100000 [4:30:19<27:41:41,  1.09s/it]                                                            8%|▊         | 8223/100000 [4:30:20<27:41:41,  1.09s/it]  8%|▊         | 8224/100000 [4:30:21<27:21:50,  1.07s/it]                                                            8%|▊         | 8224/100000 [4:30:21<27:21:50,  1.07s/it]  8%|▊         | 8225/100000 [4:30:22<27:02:50,  1.06s/it]                                                            8%|▊         | 8225/100000 [4:30:22<27:02:50,  1.06s/it]  8%|▊         | 8226/100000 [4:30:23<26:37:04,  1.04s/it]                                                            8%|▊         | 8226/100000 [4:30:23<26:37:04,  1.04s/it]  8%|▊         | 8227/100000 [4:30:24<26:10:05,  1.03s/it]                                                            8%|▊         | 8227/100000 [4:30:24<26:10:05,  1.03s/it]  8%|▊         | 8228/100000 [4:30:25<25:42:30,  1.01s/it]                                                            8%|▊         | 8228/100000 [4:30:25<25:42:30,  1.01s/it]  8%|▊         | 8229/100000 [4:30:25<25:07:46,  1.01it/s]                                                            8%|▊         | 8229/100000 [4:30:25<25:07:46,  1.01it/s]  8%|▊         | 8230/100000 [4:30:26<24:15:17,  1.05it/s]                                                            8%|▊         | 8230/100000 [4:30:26<24:15:17,  1.05it/s]  8%|▊         | 8231/100000 [4:30:38<106:55:06,  4.19s/it]                                                             8%|▊         | 8231/100000 [4:30:38<106:55:06,  4.19s/it]  8%|▊         | 8232/100000 [4:30:44<116:58:38,  4.59s/it]                                                             8%|▊         | 8232/100000 [4:30:44<116:58:38,  4.59s/it]  8%|▊         | 8233/100000 [4:30:48<116:03:03,  4.55s/it]                                                             8%|▊         | 8233/100000 [4:30:48<116:03:03,  4.55s/it]  8%|▊         | 8234/100000 [4:30:52<112:50:12,  4.43s/it]                                                             8%|▊         | 8234/100000 [4:30:52<112:50:12,  4.43s/it]  8%|▊         | 8235/100000 [4:30:56<106:58:10,  4.20s/it]                                                             8%|▊         | 8235/100000 [4:30:56<106:58:10,  4.20s/it]  8%|▊         | 8236/100000 [4:30:59<99:58:17,  3.92s/it]                                                             8%|▊         | 8236/100000 [4:30:59<99:58:17,  3.92s/it]  8%|▊         | 8237/100000 [4:31:02<93:04:21,  3.65s/it]                                                            8%|▊         | 8237/100000 [4:31:02<93:04:21,  3.65s/it]  8%|▊         | 8238/100000 [4:31:05<85:07:19,  3.34s/it]                                                            8%|▊         | 8238/100000 [4:31:05<85:07:19,  3.34s/it]  8%|▊         | 8239/100000 [4:31:07<78:31:29,  3.08s/it]                                                            8%|▊         | 8239/100000 [4:31:07<78:31:29,  3.08s/it]  8%|▊         | 8240/100000 [4:31:10<72:40:18,  2.85s/it]                                                            8%|▊         | 8240/100000 [4:31:10<72:40:18,  2.85s/it]  8%|▊         | 8241/100000 [4:31:12<67:07:08,  2.63s/it]                                                            8%|▊         | 8241/100000 [4:31:12<67:07:08,  2.63s/it]  8%|▊         | 8242/100000 [4:31:14<61:56:35,  2.43s/it]                                                            8%|▊         | 8242/100000 [4:31:14<61:56:35,  2.43s/it]  8%|▊         | 8243/100000 [4:31:16<57:59:45,  2.28s/it]                                                            8%|▊         | 8243/100000 [4:31:16<57:59:45,  2.28s/it]  8%|▊         | 8244/100000 [4:31:17<54:12:07,  2.13s/it]                                                            8%|▊         | 8244/100000 [4:31:17<54:12:07,  2.13s/it]  8%|▊         | 8245/100000 [4:31:19<51:03:27,  2.00s/it]                                                            8%|▊         | 8245/100000 [4:31:19<51:03:27,  2.00s/it]  8%|▊         | 8246/100000 [4:31:21<48:27:21,  1.90s/it]                                                            8%|▊         | 8246/100000 [4:31:21<48:27:21,  1.90s/it]  8%|▊         | 8247/100000 [4:31:22<46:17:20,  1.82s/it]                                                            8%|▊         | 8247/100000 [4:31:22<46:17:20,  1.82s/it]  8%|▊         | 8248/100000 [4:31:24<44:02:07,  1.73s/it]                                                            8%|▊         | 8248/100000 [4:31:24<44:02:07,  1.73s/it]  8%|▊         | 8249/100000 [4:31:25<42:33:53,  1.67s/it]                                                            8%|▊         | 8249/100000 [4:31:25<42:33:53,  1.67s/it]  8%|▊         | 8250/100000 [4:31:27<41:09:11,  1.61s/it]                                                            8%|▊         | 8250/100000 [4:31:27<41:09:11,  1.61s/it]  8%|▊         | 8251/100000 [4:31:28<39:35:26,  1.55s/it]                                                            8%|▊         | 8251/100000 [4:31:28<39:35:26,  1.55s/it]  8%|▊         | 8252/100000 [4:31:30<38:19:20,  1.50s/it]                                                            8%|▊         | 8252/100000 [4:31:30<38:19:20,  1.50s/it]  8%|▊         | 8253/100000 [4:31:31<37:35:21,  1.47s/it]                                                            8%|▊         | 8253/100000 [4:31:31<37:35:21,  1.47s/it]  8%|▊         | 8254/100000 [4:31:32<36:36:30,  1.44s/it]                                                            8%|▊         | 8254/100000 [4:31:32<36:36:30,  1.44s/it]  8%|▊         | 8255/100000 [4:31:34<36:04:37,  1.42s/it]                                                            8%|▊         | 8255/100000 [4:31:34<36:04:37,  1.42s/it]  8%|▊         | 8256/100000 [4:31:35<35:30:53,  1.39s/it]                                                            8%|▊         | 8256/100000 [4:31:35<35:30:53,  1.39s/it]  8%|▊         | 8257/100000 [4:31:36<35:00:13,  1.37s/it]                                                            8%|▊         | 8257/100000 [4:31:36<35:00:13,  1.37s/it]  8%|▊         | 8258/100000 [4:31:38<34:32:09,  1.36s/it]                                                            8%|▊         | 8258/100000 [4:31:38<34:32:09,  1.36s/it]  8%|▊         | 8259/100000 [4:31:39<33:48:41,  1.33s/it]                                                            8%|▊         | 8259/100000 [4:31:39<33:48:41,  1.33s/it]  8%|▊         | 8260/100000 [4:31:40<33:24:27,  1.31s/it]                                                            8%|▊         | 8260/100000 [4:31:40<33:24:27,  1.31s/it]  8%|▊         | 8261/100000 [4:31:42<32:41:30,  1.28s/it]                                                            8%|▊         | 8261/100000 [4:31:42<32:41:30,  1.28s/it]  8%|▊         | 8262/100000 [4:31:43<32:09:28,  1.26s/it]                                                            8%|▊         | 8262/100000 [4:31:43<32:09:28,  1.26s/it]  8%|▊         | 8263/100000 [4:31:44<31:49:12,  1.25s/it]                                                            8%|▊         | 8263/100000 [4:31:44<31:49:12,  1.25s/it]  8%|▊         | 8264/100000 [4:31:45<31:13:31,  1.23s/it]                                                            8%|▊         | 8264/100000 [4:31:45<31:13:31,  1.23s/it]  8%|▊         | 8265/100000 [4:31:46<30:45:17,  1.21s/it]                                                            8%|▊         | 8265/100000 [4:31:46<30:45:17,  1.21s/it]  8%|▊         | 8266/100000 [4:31:47<30:18:12,  1.19s/it]                                                            8%|▊         | 8266/100000 [4:31:47<30:18:12,  1.19s/it]  8%|▊         | 8267/100000 [4:31:49<29:48:46,  1.17s/it]                                                            8%|▊         | 8267/100000 [4:31:49<29:48:46,  1.17s/it]  8%|▊         | 8268/100000 [4:31:50<29:25:08,  1.15s/it]                                                            8%|▊         | 8268/100000 [4:31:50<29:25:08,  1.15s/it]  8%|▊         | 8269/100000 [4:31:51<28:52:07,  1.13s/it]                                                            8%|▊         | 8269/100000 [4:31:51<28:52:07,  1.13s/it]  8%|▊         | 8270/100000 [4:31:52<28:31:16,  1.12s/it]                                                            8%|▊         | 8270/100000 [4:31:52<28:31:16,  1.12s/it]  8%|▊         | 8271/100000 [4:31:53<28:07:42,  1.10s/it]                                                            8%|▊         | 8271/100000 [4:31:53<28:07:42,  1.10s/it]  8%|▊         | 8272/100000 [4:31:54<27:51:12,  1.09s/it]                                                            8%|▊         | 8272/100000 [4:31:54<27:51:12,  1.09s/it]  8%|▊         | 8273/100000 [4:31:55<27:26:05,  1.08s/it]                                                            8%|▊         | 8273/100000 [4:31:55<27:26:05,  1.08s/it]  8%|▊         | 8274/100000 [4:31:56<27:08:59,  1.07s/it]                                                            8%|▊         | 8274/100000 [4:31:56<27:08:59,  1.07s/it]  8%|▊         | 8275/100000 [4:31:57<26:40:29,  1.05s/it]                                                            8%|▊         | 8275/100000 [4:31:57<26:40:29,  1.05s/it]  8%|▊         | 8276/100000 [4:31:58<26:15:11,  1.03s/it]                                                            8%|▊         | 8276/100000 [4:31:58<26:15:11,  1.03s/it]  8%|▊         | 8277/100000 [4:31:59<25:52:34,  1.02s/it]                                                            8%|▊         | 8277/100000 [4:31:59<25:52:34,  1.02s/it]  8%|▊         | 8278/100000 [4:32:00<25:30:20,  1.00s/it]                                                            8%|▊         | 8278/100000 [4:32:00<25:30:20,  1.00s/it]  8%|▊         | 8279/100000 [4:32:01<24:59:23,  1.02it/s]                                                            8%|▊         | 8279/100000 [4:32:01<24:59:23,  1.02it/s]  8%|▊         | 8280/100000 [4:32:02<24:04:08,  1.06it/s]                                                            8%|▊         | 8280/100000 [4:32:02<24:04:08,  1.06it/s]  8%|▊         | 8281/100000 [4:32:13<102:22:49,  4.02s/it]                                                             8%|▊         | 8281/100000 [4:32:13<102:22:49,  4.02s/it]  8%|▊         | 8282/100000 [4:32:18<112:39:51,  4.42s/it]                                                             8%|▊         | 8282/100000 [4:32:18<112:39:51,  4.42s/it]  8%|▊         | 8283/100000 [4:32:23<111:58:44,  4.40s/it]                                                             8%|▊         | 8283/100000 [4:32:23<111:58:44,  4.40s/it]  8%|▊         | 8284/100000 [4:32:27<107:30:40,  4.22s/it]                                                             8%|▊         | 8284/100000 [4:32:27<107:30:40,  4.22s/it]  8%|▊         | 8285/100000 [4:32:30<101:40:47,  3.99s/it]                                                             8%|▊         | 8285/100000 [4:32:30<101:40:47,  3.99s/it]  8%|▊         | 8286/100000 [4:32:33<96:31:42,  3.79s/it]                                                             8%|▊         | 8286/100000 [4:32:33<96:31:42,  3.79s/it]  8%|▊         | 8287/100000 [4:32:36<90:20:42,  3.55s/it]                                                            8%|▊         | 8287/100000 [4:32:36<90:20:42,  3.55s/it]  8%|▊         | 8288/100000 [4:32:39<84:36:15,  3.32s/it]                                                            8%|▊         | 8288/100000 [4:32:39<84:36:15,  3.32s/it]  8%|▊         | 8289/100000 [4:32:42<78:25:49,  3.08s/it]                                                            8%|▊         | 8289/100000 [4:32:42<78:25:49,  3.08s/it]  8%|▊         | 8290/100000 [4:32:44<72:35:33,  2.85s/it]                                                            8%|▊         | 8290/100000 [4:32:44<72:35:33,  2.85s/it]  8%|▊         | 8291/100000 [4:32:46<67:28:50,  2.65s/it]                                                            8%|▊         | 8291/100000 [4:32:46<67:28:50,  2.65s/it]  8%|▊         | 8292/100000 [4:32:48<62:49:11,  2.47s/it]                                                            8%|▊         | 8292/100000 [4:32:48<62:49:11,  2.47s/it]  8%|▊         | 8293/100000 [4:32:50<58:31:39,  2.30s/it]                                                            8%|▊         | 8293/100000 [4:32:50<58:31:39,  2.30s/it]  8%|▊         | 8294/100000 [4:32:52<54:40:32,  2.15s/it]                                                            8%|▊         | 8294/100000 [4:32:52<54:40:32,  2.15s/it]  8%|▊         | 8295/100000 [4:32:54<51:28:31,  2.02s/it]                                                            8%|▊         | 8295/100000 [4:32:54<51:28:31,  2.02s/it]  8%|▊         | 8296/100000 [4:32:55<48:47:55,  1.92s/it]                                                          {'loss': 0.012, 'grad_norm': 0.33534643054008484, 'learning_rate': 2.4633000000000003e-05, 'epoch': 15.16}
+{'loss': 0.0101, 'grad_norm': 0.2798976004123688, 'learning_rate': 2.4636000000000003e-05, 'epoch': 15.16}
+{'loss': 0.0207, 'grad_norm': 0.5524477362632751, 'learning_rate': 2.4639000000000002e-05, 'epoch': 15.16}
+{'loss': 0.0116, 'grad_norm': 0.3597121238708496, 'learning_rate': 2.4642000000000002e-05, 'epoch': 15.16}
+{'loss': 0.0115, 'grad_norm': 0.5381467938423157, 'learning_rate': 2.4645000000000002e-05, 'epoch': 15.16}
+{'loss': 0.0178, 'grad_norm': 0.48072612285614014, 'learning_rate': 2.4648000000000002e-05, 'epoch': 15.16}
+{'loss': 0.0215, 'grad_norm': 0.9097961187362671, 'learning_rate': 2.4651e-05, 'epoch': 15.17}
+{'loss': 0.0224, 'grad_norm': 0.6664448976516724, 'learning_rate': 2.4654e-05, 'epoch': 15.17}
+{'loss': 0.0062, 'grad_norm': 0.20867213606834412, 'learning_rate': 2.4656999999999998e-05, 'epoch': 15.17}
+{'loss': 0.0171, 'grad_norm': 0.3724096715450287, 'learning_rate': 2.4659999999999998e-05, 'epoch': 15.17}
+{'loss': 0.0147, 'grad_norm': 0.5794903635978699, 'learning_rate': 2.4663e-05, 'epoch': 15.17}
+{'loss': 0.0137, 'grad_norm': 0.9206926822662354, 'learning_rate': 2.4666e-05, 'epoch': 15.18}
+{'loss': 0.014, 'grad_norm': 0.4412376880645752, 'learning_rate': 2.4669e-05, 'epoch': 15.18}
+{'loss': 0.0171, 'grad_norm': 0.5383925437927246, 'learning_rate': 2.4672e-05, 'epoch': 15.18}
+{'loss': 0.0146, 'grad_norm': 0.5624282360076904, 'learning_rate': 2.4675e-05, 'epoch': 15.18}
+{'loss': 0.0174, 'grad_norm': 0.6234703660011292, 'learning_rate': 2.4678e-05, 'epoch': 15.18}
+{'loss': 0.0164, 'grad_norm': 0.9138628840446472, 'learning_rate': 2.4681e-05, 'epoch': 15.18}
+{'loss': 0.2855, 'grad_norm': 1.2404528856277466, 'learning_rate': 2.4684e-05, 'epoch': 15.19}
+{'loss': 0.1642, 'grad_norm': 0.7322246432304382, 'learning_rate': 2.4687e-05, 'epoch': 15.19}
+{'loss': 0.1234, 'grad_norm': 0.6022248864173889, 'learning_rate': 2.469e-05, 'epoch': 15.19}
+{'loss': 0.1583, 'grad_norm': 0.5909581780433655, 'learning_rate': 2.4693000000000002e-05, 'epoch': 15.19}
+{'loss': 0.1112, 'grad_norm': 0.560417652130127, 'learning_rate': 2.4696000000000002e-05, 'epoch': 15.19}
+{'loss': 0.105, 'grad_norm': 0.5888610482215881, 'learning_rate': 2.4699000000000002e-05, 'epoch': 15.2}
+{'loss': 0.107, 'grad_norm': 0.945635199546814, 'learning_rate': 2.4702e-05, 'epoch': 15.2}
+{'loss': 0.0957, 'grad_norm': 0.6924152374267578, 'learning_rate': 2.4705e-05, 'epoch': 15.2}
+{'loss': 0.0823, 'grad_norm': 0.4013981521129608, 'learning_rate': 2.4708e-05, 'epoch': 15.2}
+{'loss': 0.0763, 'grad_norm': 0.5373607277870178, 'learning_rate': 2.4711e-05, 'epoch': 15.2}
+{'loss': 0.087, 'grad_norm': 0.7776703238487244, 'learning_rate': 2.4714e-05, 'epoch': 15.2}
+{'loss': 0.0799, 'grad_norm': 0.4090069532394409, 'learning_rate': 2.4717e-05, 'epoch': 15.21}
+{'loss': 0.0332, 'grad_norm': 0.43735113739967346, 'learning_rate': 2.472e-05, 'epoch': 15.21}
+{'loss': 0.0261, 'grad_norm': 0.3009633421897888, 'learning_rate': 2.4723000000000004e-05, 'epoch': 15.21}
+{'loss': 0.0317, 'grad_norm': 0.42820805311203003, 'learning_rate': 2.4726000000000003e-05, 'epoch': 15.21}
+{'loss': 0.0215, 'grad_norm': 0.4590342044830322, 'learning_rate': 2.4729000000000003e-05, 'epoch': 15.21}
+{'loss': 0.0199, 'grad_norm': 0.5674740076065063, 'learning_rate': 2.4732e-05, 'epoch': 15.22}
+{'loss': 0.0201, 'grad_norm': 0.677531898021698, 'learning_rate': 2.4735e-05, 'epoch': 15.22}
+{'loss': 0.0202, 'grad_norm': 0.3279813826084137, 'learning_rate': 2.4738e-05, 'epoch': 15.22}
+{'loss': 0.0164, 'grad_norm': 0.3743285536766052, 'learning_rate': 2.4741e-05, 'epoch': 15.22}
+{'loss': 0.0164, 'grad_norm': 0.5781236290931702, 'learning_rate': 2.4744e-05, 'epoch': 15.22}
+{'loss': 0.0157, 'grad_norm': 0.47307130694389343, 'learning_rate': 2.4747e-05, 'epoch': 15.23}
+{'loss': 0.0109, 'grad_norm': 0.3261812925338745, 'learning_rate': 2.475e-05, 'epoch': 15.23}
+{'loss': 0.0216, 'grad_norm': 0.6554425954818726, 'learning_rate': 2.4753e-05, 'epoch': 15.23}
+{'loss': 0.0221, 'grad_norm': 0.3593559265136719, 'learning_rate': 2.4756e-05, 'epoch': 15.23}
+{'loss': 0.0117, 'grad_norm': 0.3336569368839264, 'learning_rate': 2.4759e-05, 'epoch': 15.23}
+{'loss': 0.0199, 'grad_norm': 1.3743199110031128, 'learning_rate': 2.4762e-05, 'epoch': 15.23}
+{'loss': 0.0083, 'grad_norm': 0.25178849697113037, 'learning_rate': 2.4765e-05, 'epoch': 15.24}
+{'loss': 0.0118, 'grad_norm': 0.37484949827194214, 'learning_rate': 2.4768e-05, 'epoch': 15.24}
+{'loss': 0.0663, 'grad_norm': 0.46891501545906067, 'learning_rate': 2.4771e-05, 'epoch': 15.24}
+{'loss': 0.0222, 'grad_norm': 0.4010298252105713, 'learning_rate': 2.4774e-05, 'epoch': 15.24}
+{'loss': 0.0121, 'grad_norm': 0.4214724600315094, 'learning_rate': 2.4777e-05, 'epoch': 15.24}
+{'loss': 0.0178, 'grad_norm': 0.29846876859664917, 'learning_rate': 2.478e-05, 'epoch': 15.25}
+{'loss': 0.0109, 'grad_norm': 0.2897872030735016, 'learning_rate': 2.4783e-05, 'epoch': 15.25}
+{'loss': 0.0195, 'grad_norm': 0.5751253366470337, 'learning_rate': 2.4786000000000003e-05, 'epoch': 15.25}
+{'loss': 0.0142, 'grad_norm': 0.3264547288417816, 'learning_rate': 2.4789000000000003e-05, 'epoch': 15.25}
+{'loss': 0.0166, 'grad_norm': 0.5448217988014221, 'learning_rate': 2.4792000000000003e-05, 'epoch': 15.25}
+{'loss': 0.0176, 'grad_norm': 0.4921300411224365, 'learning_rate': 2.4795000000000002e-05, 'epoch': 15.25}
+{'loss': 0.0248, 'grad_norm': 0.522863507270813, 'learning_rate': 2.4798000000000002e-05, 'epoch': 15.26}
+{'loss': 0.0174, 'grad_norm': 0.6211817264556885, 'learning_rate': 2.4801000000000002e-05, 'epoch': 15.26}
+{'loss': 0.0082, 'grad_norm': 0.48236003518104553, 'learning_rate': 2.4804e-05, 'epoch': 15.26}
+{'loss': 0.0151, 'grad_norm': 0.27671054005622864, 'learning_rate': 2.4806999999999998e-05, 'epoch': 15.26}
+{'loss': 0.0204, 'grad_norm': 0.6454673409461975, 'learning_rate': 2.4809999999999998e-05, 'epoch': 15.26}
+{'loss': 0.0149, 'grad_norm': 0.5842491388320923, 'learning_rate': 2.4812999999999998e-05, 'epoch': 15.27}
+{'loss': 0.0142, 'grad_norm': 0.42065128684043884, 'learning_rate': 2.4816e-05, 'epoch': 15.27}
+{'loss': 0.0245, 'grad_norm': 0.5586716532707214, 'learning_rate': 2.4819e-05, 'epoch': 15.27}
+{'loss': 0.0293, 'grad_norm': 0.6155346632003784, 'learning_rate': 2.4822e-05, 'epoch': 15.27}
+{'loss': 0.0101, 'grad_norm': 0.33992999792099, 'learning_rate': 2.4825e-05, 'epoch': 15.27}
+{'loss': 0.0123, 'grad_norm': 0.25734278559684753, 'learning_rate': 2.4828e-05, 'epoch': 15.28}
+{'loss': 0.0196, 'grad_norm': 2.350486993789673, 'learning_rate': 2.4831e-05, 'epoch': 15.28}
+{'loss': 0.1937, 'grad_norm': 0.7939901947975159, 'learning_rate': 2.4834e-05, 'epoch': 15.28}
+{'loss': 0.2262, 'grad_norm': 1.1575547456741333, 'learning_rate': 2.4837e-05, 'epoch': 15.28}
+{'loss': 0.2102, 'grad_norm': 0.9486008882522583, 'learning_rate': 2.484e-05, 'epoch': 15.28}
+{'loss': 0.1015, 'grad_norm': 0.4723045229911804, 'learning_rate': 2.4843e-05, 'epoch': 15.28}
+{'loss': 0.1094, 'grad_norm': 0.8471699953079224, 'learning_rate': 2.4846000000000002e-05, 'epoch': 15.29}
+{'loss': 0.0808, 'grad_norm': 0.7257476449012756, 'learning_rate': 2.4849000000000002e-05, 'epoch': 15.29}
+{'loss': 0.0707, 'grad_norm': 0.6892672777175903, 'learning_rate': 2.4852000000000002e-05, 'epoch': 15.29}
+{'loss': 0.0887, 'grad_norm': 0.5333134531974792, 'learning_rate': 2.4855000000000002e-05, 'epoch': 15.29}
+{'loss': 0.0717, 'grad_norm': 0.4352606534957886, 'learning_rate': 2.4858e-05, 'epoch': 15.29}
+{'loss': 0.0879, 'grad_norm': 0.5483019948005676, 'learning_rate': 2.4861e-05, 'epoch': 15.3}
+{'loss': 0.043, 'grad_norm': 0.37380048632621765, 'learning_rate': 2.4864e-05, 'epoch': 15.3}
+{'loss': 0.0515, 'grad_norm': 0.4453401565551758, 'learning_rate': 2.4867e-05, 'epoch': 15.3}
+{'loss': 0.0563, 'grad_norm': 0.45170173048973083, 'learning_rate': 2.487e-05, 'epoch': 15.3}
+{'loss': 0.0672, 'grad_norm': 0.4668281674385071, 'learning_rate': 2.4873e-05, 'epoch': 15.3}
+{'loss': 0.0483, 'grad_norm': 0.3134375810623169, 'learning_rate': 2.4876000000000004e-05, 'epoch': 15.3}
+  8%|▊         | 8296/100000 [4:32:55<48:47:55,  1.92s/it]  8%|▊         | 8297/100000 [4:32:57<46:36:16,  1.83s/it]                                                            8%|▊         | 8297/100000 [4:32:57<46:36:16,  1.83s/it]  8%|▊         | 8298/100000 [4:32:58<44:47:16,  1.76s/it]                                                            8%|▊         | 8298/100000 [4:32:58<44:47:16,  1.76s/it]  8%|▊         | 8299/100000 [4:33:00<43:12:20,  1.70s/it]                                                            8%|▊         | 8299/100000 [4:33:00<43:12:20,  1.70s/it]  8%|▊         | 8300/100000 [4:33:01<41:20:56,  1.62s/it]                                                            8%|▊         | 8300/100000 [4:33:01<41:20:56,  1.62s/it]  8%|▊         | 8301/100000 [4:33:03<40:08:01,  1.58s/it]                                                            8%|▊         | 8301/100000 [4:33:03<40:08:01,  1.58s/it]  8%|▊         | 8302/100000 [4:33:04<39:32:21,  1.55s/it]                                                            8%|▊         | 8302/100000 [4:33:04<39:32:21,  1.55s/it]  8%|▊         | 8303/100000 [4:33:06<38:31:17,  1.51s/it]                                                            8%|▊         | 8303/100000 [4:33:06<38:31:17,  1.51s/it]  8%|▊         | 8304/100000 [4:33:07<37:36:40,  1.48s/it]                                                            8%|▊         | 8304/100000 [4:33:07<37:36:40,  1.48s/it]  8%|▊         | 8305/100000 [4:33:09<36:33:29,  1.44s/it]                                                            8%|▊         | 8305/100000 [4:33:09<36:33:29,  1.44s/it]  8%|▊         | 8306/100000 [4:33:10<35:31:34,  1.39s/it]                                                            8%|▊         | 8306/100000 [4:33:10<35:31:34,  1.39s/it]  8%|▊         | 8307/100000 [4:33:11<34:53:22,  1.37s/it]                                                            8%|▊         | 8307/100000 [4:33:11<34:53:22,  1.37s/it]  8%|▊         | 8308/100000 [4:33:12<33:55:50,  1.33s/it]                                                            8%|▊         | 8308/100000 [4:33:12<33:55:50,  1.33s/it]  8%|▊         | 8309/100000 [4:33:14<33:23:19,  1.31s/it]                                                            8%|▊         | 8309/100000 [4:33:14<33:23:19,  1.31s/it]  8%|▊         | 8310/100000 [4:33:15<32:50:58,  1.29s/it]                                                            8%|▊         | 8310/100000 [4:33:15<32:50:58,  1.29s/it]  8%|▊         | 8311/100000 [4:33:16<32:26:40,  1.27s/it]                                                            8%|▊         | 8311/100000 [4:33:16<32:26:40,  1.27s/it]  8%|▊         | 8312/100000 [4:33:17<32:04:37,  1.26s/it]                                                            8%|▊         | 8312/100000 [4:33:17<32:04:37,  1.26s/it]  8%|▊         | 8313/100000 [4:33:19<31:41:10,  1.24s/it]                                                            8%|▊         | 8313/100000 [4:33:19<31:41:10,  1.24s/it]  8%|▊         | 8314/100000 [4:33:20<31:24:59,  1.23s/it]                                                            8%|▊         | 8314/100000 [4:33:20<31:24:59,  1.23s/it]  8%|▊         | 8315/100000 [4:33:21<30:28:10,  1.20s/it]                                                            8%|▊         | 8315/100000 [4:33:21<30:28:10,  1.20s/it]  8%|▊         | 8316/100000 [4:33:22<29:59:46,  1.18s/it]                                                            8%|▊         | 8316/100000 [4:33:22<29:59:46,  1.18s/it]  8%|▊         | 8317/100000 [4:33:23<29:22:01,  1.15s/it]                                                            8%|▊         | 8317/100000 [4:33:23<29:22:01,  1.15s/it]  8%|▊         | 8318/100000 [4:33:24<29:16:06,  1.15s/it]                                                            8%|▊         | 8318/100000 [4:33:24<29:16:06,  1.15s/it]  8%|▊         | 8319/100000 [4:33:25<28:51:26,  1.13s/it]                                                            8%|▊         | 8319/100000 [4:33:25<28:51:26,  1.13s/it]  8%|▊         | 8320/100000 [4:33:26<28:34:26,  1.12s/it]                                                            8%|▊         | 8320/100000 [4:33:26<28:34:26,  1.12s/it]  8%|▊         | 8321/100000 [4:33:28<28:03:00,  1.10s/it]                                                            8%|▊         | 8321/100000 [4:33:28<28:03:00,  1.10s/it]  8%|▊         | 8322/100000 [4:33:29<27:55:23,  1.10s/it]                                                            8%|▊         | 8322/100000 [4:33:29<27:55:23,  1.10s/it]  8%|▊         | 8323/100000 [4:33:30<27:33:59,  1.08s/it]                                                            8%|▊         | 8323/100000 [4:33:30<27:33:59,  1.08s/it]  8%|▊         | 8324/100000 [4:33:31<27:11:11,  1.07s/it]                                                            8%|▊         | 8324/100000 [4:33:31<27:11:11,  1.07s/it]  8%|▊         | 8325/100000 [4:33:32<26:16:22,  1.03s/it]                                                            8%|▊         | 8325/100000 [4:33:32<26:16:22,  1.03s/it]  8%|▊         | 8326/100000 [4:33:33<25:42:26,  1.01s/it]                                                            8%|▊         | 8326/100000 [4:33:33<25:42:26,  1.01s/it]  8%|▊         | 8327/100000 [4:33:34<25:10:20,  1.01it/s]                                                            8%|▊         | 8327/100000 [4:33:34<25:10:20,  1.01it/s]  8%|▊         | 8328/100000 [4:33:34<24:59:03,  1.02it/s]                                                            8%|▊         | 8328/100000 [4:33:34<24:59:03,  1.02it/s]  8%|▊         | 8329/100000 [4:33:35<24:12:13,  1.05it/s]                                                            8%|▊         | 8329/100000 [4:33:35<24:12:13,  1.05it/s]  8%|▊         | 8330/100000 [4:33:36<23:01:08,  1.11it/s]                                                            8%|▊         | 8330/100000 [4:33:36<23:01:08,  1.11it/s]  8%|▊         | 8331/100000 [4:33:45<86:38:42,  3.40s/it]                                                            8%|▊         | 8331/100000 [4:33:45<86:38:42,  3.40s/it]  8%|▊         | 8332/100000 [4:33:51<103:33:58,  4.07s/it]                                                             8%|▊         | 8332/100000 [4:33:51<103:33:58,  4.07s/it]  8%|▊         | 8333/100000 [4:33:55<106:35:54,  4.19s/it]                                                             8%|▊         | 8333/100000 [4:33:55<106:35:54,  4.19s/it]  8%|▊         | 8334/100000 [4:33:59<104:59:22,  4.12s/it]                                                             8%|▊         | 8334/100000 [4:33:59<104:59:22,  4.12s/it]  8%|▊         | 8335/100000 [4:34:03<99:53:06,  3.92s/it]                                                             8%|▊         | 8335/100000 [4:34:03<99:53:06,  3.92s/it]  8%|▊         | 8336/100000 [4:34:06<94:18:42,  3.70s/it]                                                            8%|▊         | 8336/100000 [4:34:06<94:18:42,  3.70s/it]  8%|▊         | 8337/100000 [4:34:09<89:08:42,  3.50s/it]                                                            8%|▊         | 8337/100000 [4:34:09<89:08:42,  3.50s/it]  8%|▊         | 8338/100000 [4:34:12<83:29:55,  3.28s/it]                                                            8%|▊         | 8338/100000 [4:34:12<83:29:55,  3.28s/it]  8%|▊         | 8339/100000 [4:34:14<77:34:39,  3.05s/it]                                                            8%|▊         | 8339/100000 [4:34:14<77:34:39,  3.05s/it]  8%|▊         | 8340/100000 [4:34:17<72:00:23,  2.83s/it]                                                            8%|▊         | 8340/100000 [4:34:17<72:00:23,  2.83s/it]  8%|▊         | 8341/100000 [4:34:19<66:20:40,  2.61s/it]                                                            8%|▊         | 8341/100000 [4:34:19<66:20:40,  2.61s/it]  8%|▊         | 8342/100000 [4:34:21<61:36:10,  2.42s/it]                                                            8%|▊         | 8342/100000 [4:34:21<61:36:10,  2.42s/it]  8%|▊         | 8343/100000 [4:34:23<57:48:47,  2.27s/it]                                                            8%|▊         | 8343/100000 [4:34:23<57:48:47,  2.27s/it]  8%|▊         | 8344/100000 [4:34:25<54:13:22,  2.13s/it]                                                            8%|▊         | 8344/100000 [4:34:25<54:13:22,  2.13s/it]  8%|▊         | 8345/100000 [4:34:26<51:13:28,  2.01s/it]                                                            8%|▊         | 8345/100000 [4:34:26<51:13:28,  2.01s/it]  8%|▊         | 8346/100000 [4:34:28<48:04:47,  1.89s/it]                                                            8%|▊         | 8346/100000 [4:34:28<48:04:47,  1.89s/it]  8%|▊         | 8347/100000 [4:34:29<45:44:33,  1.80s/it]                                                            8%|▊         | 8347/100000 [4:34:29<45:44:33,  1.80s/it]  8%|▊         | 8348/100000 [4:34:31<44:06:00,  1.73s/it]                                                            8%|▊         | 8348/100000 [4:34:31<44:06:00,  1.73s/it]  8%|▊         | 8349/100000 [4:34:33<42:18:10,  1.66s/it]                                                            8%|▊         | 8349/100000 [4:34:33<42:18:10,  1.66s/it]  8%|▊         | 8350/100000 [4:34:34<40:30:23,  1.59s/it]                                                            8%|▊         | 8350/100000 [4:34:34<40:30:23,  1.59s/it]  8%|▊         | 8351/100000 [4:34:35<39:19:44,  1.54s/it]                                                            8%|▊         | 8351/100000 [4:34:35<39:19:44,  1.54s/it]  8%|▊         | 8352/100000 [4:34:37<38:05:53,  1.50s/it]                                                            8%|▊         | 8352/100000 [4:34:37<38:05:53,  1.50s/it]  8%|▊         | 8353/100000 [4:34:38<37:05:10,  1.46s/it]                                                            8%|▊         | 8353/100000 [4:34:38<37:05:10,  1.46s/it]  8%|▊         | 8354/100000 [4:34:39<36:27:24,  1.43s/it]                                                            8%|▊         | 8354/100000 [4:34:39<36:27:24,  1.43s/it]  8%|▊         | 8355/100000 [4:34:41<35:20:27,  1.39s/it]                                                            8%|▊         | 8355/100000 [4:34:41<35:20:27,  1.39s/it]  8%|▊         | 8356/100000 [4:34:42<35:02:29,  1.38s/it]                                                            8%|▊         | 8356/100000 [4:34:42<35:02:29,  1.38s/it]  8%|▊         | 8357/100000 [4:34:43<34:40:08,  1.36s/it]                                                            8%|▊         | 8357/100000 [4:34:43<34:40:08,  1.36s/it]  8%|▊         | 8358/100000 [4:34:45<33:58:23,  1.33s/it]                                                            8%|▊         | 8358/100000 [4:34:45<33:58:23,  1.33s/it]  8%|▊         | 8359/100000 [4:34:46<33:25:53,  1.31s/it]                                                            8%|▊         | 8359/100000 [4:34:46<33:25:53,  1.31s/it]  8%|▊         | 8360/100000 [4:34:47<33:08:30,  1.30s/it]                                                            8%|▊         | 8360/100000 [4:34:47<33:08:30,  1.30s/it]  8%|▊         | 8361/100000 [4:34:49<32:43:11,  1.29s/it]                                                            8%|▊         | 8361/100000 [4:34:49<32:43:11,  1.29s/it]  8%|▊         | 8362/100000 [4:34:50<32:19:41,  1.27s/it]                                                            8%|▊         | 8362/100000 [4:34:50<32:19:41,  1.27s/it]  8%|▊         | 8363/100000 [4:34:51<31:58:14,  1.26s/it]                                                            8%|▊         | 8363/100000 [4:34:51<31:58:14,  1.26s/it]  8%|▊         | 8364/100000 [4:34:52<31:24:16,  1.23s/it]                                                            8%|▊         | 8364/100000 [4:34:52<31:24:16,  1.23s/it]  8%|▊         | 8365/100000 [4:34:53<30:51:28,  1.21s/it]                                                            8%|▊         | 8365/100000 [4:34:53<30:51:28,  1.21s/it]  8%|▊         | 8366/100000 [4:34:54<30:21:04,  1.19s/it]                                                            8%|▊         | 8366/100000 [4:34:54<30:21:04,  1.19s/it]  8%|▊         | 8367/100000 [4:34:56<30:00:57,  1.18s/it]                                                            8%|▊         | 8367/100000 [4:34:56<30:00:57,  1.18s/it]  8%|▊         | 8368/100000 [4:34:57<29:24:03,  1.16s/it]                                                            8%|▊         | 8368/100000 [4:34:57<29:24:03,  1.16s/it]  8%|▊         | 8369/100000 [4:34:58<29:03:34,  1.14s/it]                                                            8%|▊         | 8369/100000 [4:34:58<29:03:34,  1.14s/it]  8%|▊         | 8370/100000 [4:34:59<28:44:03,  1.13s/it]                                                            8%|▊         | 8370/100000 [4:34:59<28:44:03,  1.13s/it]  8%|▊         | 8371/100000 [4:35:00<28:23:59,  1.12s/it]                                                            8%|▊         | 8371/100000 [4:35:00<28:23:59,  1.12s/it]  8%|▊         | 8372/100000 [4:35:01<28:07:20,  1.10s/it]                                                            8%|▊         | 8372/100000 [4:35:01<28:07:20,  1.10s/it]  8%|▊         | 8373/100000 [4:35:02<27:43:17,  1.09s/it]                                                            8%|▊         | 8373/100000 [4:35:02<27:43:17,  1.09s/it]  8%|▊         | 8374/100000 [4:35:03<27:17:52,  1.07s/it]                                                            8%|▊         | 8374/100000 [4:35:03<27:17:52,  1.07s/it]  8%|▊         | 8375/100000 [4:35:04<26:44:13,  1.05s/it]                                                            8%|▊         | 8375/100000 [4:35:04<26:44:13,  1.05s/it]  8%|▊         | 8376/100000 [4:35:05<26:08:58,  1.03s/it]                                                            8%|▊         | 8376/100000 [4:35:05<26:08:58,  1.03s/it]  8%|▊         | 8377/100000 [4:35:06<25:36:07,  1.01s/it]                                                            8%|▊         | 8377/100000 [4:35:06<25:36:07,  1.01s/it]  8%|▊         | 8378/100000 [4:35:07<24:59:31,  1.02it/s]                                                            8%|▊         | 8378/100000 [4:35:07<24:59:31,  1.02it/s]  8%|▊         | 8379/100000 [4:35:08<24:36:25,  1.03it/s]                                                          {'loss': 0.0176, 'grad_norm': 0.4253406524658203, 'learning_rate': 2.4879e-05, 'epoch': 15.31}
+{'loss': 0.0227, 'grad_norm': 0.6559887528419495, 'learning_rate': 2.4882e-05, 'epoch': 15.31}
+{'loss': 0.0298, 'grad_norm': 0.4013559818267822, 'learning_rate': 2.4885e-05, 'epoch': 15.31}
+{'loss': 0.0187, 'grad_norm': 0.5104976296424866, 'learning_rate': 2.4888e-05, 'epoch': 15.31}
+{'loss': 0.0326, 'grad_norm': 0.3234640657901764, 'learning_rate': 2.4891e-05, 'epoch': 15.31}
+{'loss': 0.0245, 'grad_norm': 0.3353601396083832, 'learning_rate': 2.4894e-05, 'epoch': 15.32}
+{'loss': 0.0093, 'grad_norm': 0.4961949288845062, 'learning_rate': 2.4897e-05, 'epoch': 15.32}
+{'loss': 0.0193, 'grad_norm': 0.5354464054107666, 'learning_rate': 2.49e-05, 'epoch': 15.32}
+{'loss': 0.0211, 'grad_norm': 0.53691166639328, 'learning_rate': 2.4903e-05, 'epoch': 15.32}
+{'loss': 0.0073, 'grad_norm': 0.22957701981067657, 'learning_rate': 2.4906000000000002e-05, 'epoch': 15.32}
+{'loss': 0.0119, 'grad_norm': 0.2727436125278473, 'learning_rate': 2.4909e-05, 'epoch': 15.33}
+{'loss': 0.0152, 'grad_norm': 0.25763967633247375, 'learning_rate': 2.4912e-05, 'epoch': 15.33}
+{'loss': 0.0519, 'grad_norm': 0.36578795313835144, 'learning_rate': 2.4915e-05, 'epoch': 15.33}
+{'loss': 0.0198, 'grad_norm': 0.45741453766822815, 'learning_rate': 2.4918e-05, 'epoch': 15.33}
+{'loss': 0.0141, 'grad_norm': 0.2624121606349945, 'learning_rate': 2.4921e-05, 'epoch': 15.33}
+{'loss': 0.0151, 'grad_norm': 3.8751049041748047, 'learning_rate': 2.4924e-05, 'epoch': 15.33}
+{'loss': 0.0326, 'grad_norm': 0.37224772572517395, 'learning_rate': 2.4927e-05, 'epoch': 15.34}
+{'loss': 0.0277, 'grad_norm': 1.0172438621520996, 'learning_rate': 2.493e-05, 'epoch': 15.34}
+{'loss': 0.029, 'grad_norm': 5.484036922454834, 'learning_rate': 2.4933e-05, 'epoch': 15.34}
+{'loss': 0.009, 'grad_norm': 0.3800578713417053, 'learning_rate': 2.4936000000000003e-05, 'epoch': 15.34}
+{'loss': 0.0097, 'grad_norm': 0.3240329921245575, 'learning_rate': 2.4939000000000003e-05, 'epoch': 15.34}
+{'loss': 0.0205, 'grad_norm': 0.6319631338119507, 'learning_rate': 2.4942000000000003e-05, 'epoch': 15.35}
+{'loss': 0.0226, 'grad_norm': 0.4132469892501831, 'learning_rate': 2.4945000000000003e-05, 'epoch': 15.35}
+{'loss': 0.0103, 'grad_norm': 0.41254034638404846, 'learning_rate': 2.4948000000000002e-05, 'epoch': 15.35}
+{'loss': 0.0195, 'grad_norm': 0.705245852470398, 'learning_rate': 2.4951e-05, 'epoch': 15.35}
+{'loss': 0.0222, 'grad_norm': 0.988831102848053, 'learning_rate': 2.4954e-05, 'epoch': 15.35}
+{'loss': 0.0228, 'grad_norm': 0.5189151167869568, 'learning_rate': 2.4957e-05, 'epoch': 15.35}
+{'loss': 0.0218, 'grad_norm': 0.41819465160369873, 'learning_rate': 2.4959999999999998e-05, 'epoch': 15.36}
+{'loss': 0.0126, 'grad_norm': 0.2617114186286926, 'learning_rate': 2.4962999999999998e-05, 'epoch': 15.36}
+{'loss': 0.0208, 'grad_norm': 0.5680693984031677, 'learning_rate': 2.4966e-05, 'epoch': 15.36}
+{'loss': 0.0187, 'grad_norm': 3.6656782627105713, 'learning_rate': 2.4969e-05, 'epoch': 15.36}
+{'loss': 0.0178, 'grad_norm': 0.5825662612915039, 'learning_rate': 2.4972e-05, 'epoch': 15.36}
+{'loss': 0.0168, 'grad_norm': 0.4422478973865509, 'learning_rate': 2.4975e-05, 'epoch': 15.37}
+{'loss': 0.0232, 'grad_norm': 0.7485823035240173, 'learning_rate': 2.4978e-05, 'epoch': 15.37}
+{'loss': 0.0386, 'grad_norm': 0.7661342620849609, 'learning_rate': 2.4981e-05, 'epoch': 15.37}
+{'loss': 0.1895, 'grad_norm': 0.7451789975166321, 'learning_rate': 2.4984e-05, 'epoch': 15.37}
+{'loss': 0.1275, 'grad_norm': 0.7402056455612183, 'learning_rate': 2.4987e-05, 'epoch': 15.37}
+{'loss': 0.2129, 'grad_norm': 0.7276471257209778, 'learning_rate': 2.499e-05, 'epoch': 15.37}
+{'loss': 0.1199, 'grad_norm': 0.6210782527923584, 'learning_rate': 2.4993e-05, 'epoch': 15.38}
+{'loss': 0.1289, 'grad_norm': 0.7629683017730713, 'learning_rate': 2.4996000000000003e-05, 'epoch': 15.38}
+{'loss': 0.1173, 'grad_norm': 0.5822878479957581, 'learning_rate': 2.4999000000000002e-05, 'epoch': 15.38}
+{'loss': 0.0899, 'grad_norm': 0.551585853099823, 'learning_rate': 2.5002000000000002e-05, 'epoch': 15.38}
+{'loss': 0.0821, 'grad_norm': 0.48120298981666565, 'learning_rate': 2.5005000000000002e-05, 'epoch': 15.38}
+{'loss': 0.0939, 'grad_norm': 0.6678263545036316, 'learning_rate': 2.5008000000000002e-05, 'epoch': 15.39}
+{'loss': 0.068, 'grad_norm': 0.4962681233882904, 'learning_rate': 2.5011e-05, 'epoch': 15.39}
+{'loss': 0.0482, 'grad_norm': 0.4213404059410095, 'learning_rate': 2.5014e-05, 'epoch': 15.39}
+{'loss': 0.066, 'grad_norm': 0.5263739228248596, 'learning_rate': 2.5017e-05, 'epoch': 15.39}
+{'loss': 0.0465, 'grad_norm': 0.45648154616355896, 'learning_rate': 2.502e-05, 'epoch': 15.39}
+{'loss': 0.0305, 'grad_norm': 0.33768972754478455, 'learning_rate': 2.5023e-05, 'epoch': 15.4}
+{'loss': 0.0504, 'grad_norm': 0.42431968450546265, 'learning_rate': 2.5026e-05, 'epoch': 15.4}
+{'loss': 0.0166, 'grad_norm': 0.25444427132606506, 'learning_rate': 2.5029e-05, 'epoch': 15.4}
+{'loss': 0.0172, 'grad_norm': 0.41962170600891113, 'learning_rate': 2.5032e-05, 'epoch': 15.4}
+{'loss': 0.0227, 'grad_norm': 0.7231307029724121, 'learning_rate': 2.5035e-05, 'epoch': 15.4}
+{'loss': 0.0197, 'grad_norm': 0.4448593556880951, 'learning_rate': 2.5038e-05, 'epoch': 15.4}
+{'loss': 0.0768, 'grad_norm': 3.519976854324341, 'learning_rate': 2.5041e-05, 'epoch': 15.41}
+{'loss': 0.0219, 'grad_norm': 0.3873467743396759, 'learning_rate': 2.5044e-05, 'epoch': 15.41}
+{'loss': 0.0239, 'grad_norm': 0.2840051054954529, 'learning_rate': 2.5047e-05, 'epoch': 15.41}
+{'loss': 0.0164, 'grad_norm': 0.43799832463264465, 'learning_rate': 2.505e-05, 'epoch': 15.41}
+{'loss': 0.0175, 'grad_norm': 0.4558172821998596, 'learning_rate': 2.5053e-05, 'epoch': 15.41}
+{'loss': 0.0132, 'grad_norm': 0.2507631778717041, 'learning_rate': 2.5056000000000002e-05, 'epoch': 15.42}
+{'loss': 0.0132, 'grad_norm': 0.2601400315761566, 'learning_rate': 2.5059000000000002e-05, 'epoch': 15.42}
+{'loss': 0.0118, 'grad_norm': 0.3279007077217102, 'learning_rate': 2.5062e-05, 'epoch': 15.42}
+{'loss': 0.0134, 'grad_norm': 0.36395788192749023, 'learning_rate': 2.5065e-05, 'epoch': 15.42}
+{'loss': 0.0233, 'grad_norm': 0.6187348365783691, 'learning_rate': 2.5068e-05, 'epoch': 15.42}
+{'loss': 0.0133, 'grad_norm': 0.6799266338348389, 'learning_rate': 2.5071e-05, 'epoch': 15.42}
+{'loss': 0.0264, 'grad_norm': 0.9328656196594238, 'learning_rate': 2.5074e-05, 'epoch': 15.43}
+{'loss': 0.0151, 'grad_norm': 0.4898659288883209, 'learning_rate': 2.5077e-05, 'epoch': 15.43}
+{'loss': 0.0189, 'grad_norm': 0.6099836230278015, 'learning_rate': 2.508e-05, 'epoch': 15.43}
+{'loss': 0.0081, 'grad_norm': 0.23199789226055145, 'learning_rate': 2.5083e-05, 'epoch': 15.43}
+{'loss': 0.0095, 'grad_norm': 0.24271805584430695, 'learning_rate': 2.5086000000000003e-05, 'epoch': 15.43}
+{'loss': 0.0161, 'grad_norm': 0.37805840373039246, 'learning_rate': 2.5089000000000003e-05, 'epoch': 15.44}
+{'loss': 0.0079, 'grad_norm': 0.49491918087005615, 'learning_rate': 2.5092000000000003e-05, 'epoch': 15.44}
+{'loss': 0.0227, 'grad_norm': 0.7112870216369629, 'learning_rate': 2.5095000000000003e-05, 'epoch': 15.44}
+{'loss': 0.01, 'grad_norm': 0.4112222492694855, 'learning_rate': 2.5098000000000003e-05, 'epoch': 15.44}
+{'loss': 0.0222, 'grad_norm': 0.6659647226333618, 'learning_rate': 2.5101e-05, 'epoch': 15.44}
+{'loss': 0.0133, 'grad_norm': 0.4516090452671051, 'learning_rate': 2.5104e-05, 'epoch': 15.45}
+{'loss': 0.018, 'grad_norm': 0.7286649942398071, 'learning_rate': 2.5107e-05, 'epoch': 15.45}
+{'loss': 0.0234, 'grad_norm': 0.6150336265563965, 'learning_rate': 2.511e-05, 'epoch': 15.45}
+{'loss': 0.0122, 'grad_norm': 0.266416072845459, 'learning_rate': 2.5112999999999998e-05, 'epoch': 15.45}
+{'loss': 0.0112, 'grad_norm': 0.26499465107917786, 'learning_rate': 2.5116e-05, 'epoch': 15.45}
+{'loss': 0.0175, 'grad_norm': 0.5799499154090881, 'learning_rate': 2.5119e-05, 'epoch': 15.45}
+{'loss': 0.0204, 'grad_norm': 0.625869631767273, 'learning_rate': 2.5122e-05, 'epoch': 15.46}
+{'loss': 0.039, 'grad_norm': 0.6527268886566162, 'learning_rate': 2.5125e-05, 'epoch': 15.46}
+  8%|▊         | 8379/100000 [4:35:08<24:36:25,  1.03it/s]  8%|▊         | 8380/100000 [4:35:09<23:57:24,  1.06it/s]                                                            8%|▊         | 8380/100000 [4:35:09<23:57:24,  1.06it/s]  8%|▊         | 8381/100000 [4:35:20<99:10:28,  3.90s/it]                                                            8%|▊         | 8381/100000 [4:35:20<99:10:28,  3.90s/it]  8%|▊         | 8382/100000 [4:35:25<109:44:28,  4.31s/it]                                                             8%|▊         | 8382/100000 [4:35:25<109:44:28,  4.31s/it]  8%|▊         | 8383/100000 [4:35:30<112:19:12,  4.41s/it]                                                             8%|▊         | 8383/100000 [4:35:30<112:19:12,  4.41s/it]  8%|▊         | 8384/100000 [4:35:34<109:24:39,  4.30s/it]                                                             8%|▊         | 8384/100000 [4:35:34<109:24:39,  4.30s/it]  8%|▊         | 8385/100000 [4:35:37<103:26:34,  4.06s/it]                                                             8%|▊         | 8385/100000 [4:35:37<103:26:34,  4.06s/it]  8%|▊         | 8386/100000 [4:35:40<96:59:03,  3.81s/it]                                                             8%|▊         | 8386/100000 [4:35:40<96:59:03,  3.81s/it]  8%|▊         | 8387/100000 [4:35:43<89:41:59,  3.52s/it]                                                            8%|▊         | 8387/100000 [4:35:43<89:41:59,  3.52s/it]  8%|▊         | 8388/100000 [4:35:46<84:07:35,  3.31s/it]                                                            8%|▊         | 8388/100000 [4:35:46<84:07:35,  3.31s/it]  8%|▊         | 8389/100000 [4:35:49<78:11:07,  3.07s/it]                                                            8%|▊         | 8389/100000 [4:35:49<78:11:07,  3.07s/it]  8%|▊         | 8390/100000 [4:35:51<72:41:17,  2.86s/it]                                                            8%|▊         | 8390/100000 [4:35:51<72:41:17,  2.86s/it]  8%|▊         | 8391/100000 [4:35:53<67:23:06,  2.65s/it]                                                            8%|▊         | 8391/100000 [4:35:53<67:23:06,  2.65s/it]  8%|▊         | 8392/100000 [4:35:55<62:16:29,  2.45s/it]                                                            8%|▊         | 8392/100000 [4:35:55<62:16:29,  2.45s/it]  8%|▊         | 8393/100000 [4:35:57<58:01:46,  2.28s/it]                                                            8%|▊         | 8393/100000 [4:35:57<58:01:46,  2.28s/it]  8%|▊         | 8394/100000 [4:35:59<54:08:32,  2.13s/it]                                                            8%|▊         | 8394/100000 [4:35:59<54:08:32,  2.13s/it]  8%|▊         | 8395/100000 [4:36:00<51:14:40,  2.01s/it]                                                            8%|▊         | 8395/100000 [4:36:00<51:14:40,  2.01s/it]  8%|▊         | 8396/100000 [4:36:02<48:41:55,  1.91s/it]                                                            8%|▊         | 8396/100000 [4:36:02<48:41:55,  1.91s/it]  8%|▊         | 8397/100000 [4:36:04<46:02:24,  1.81s/it]                                                            8%|▊         | 8397/100000 [4:36:04<46:02:24,  1.81s/it]  8%|▊         | 8398/100000 [4:36:05<44:19:15,  1.74s/it]                                                            8%|▊         | 8398/100000 [4:36:05<44:19:15,  1.74s/it]  8%|▊         | 8399/100000 [4:36:07<42:48:05,  1.68s/it]                                                            8%|▊         | 8399/100000 [4:36:07<42:48:05,  1.68s/it]  8%|▊         | 8400/100000 [4:36:08<41:15:08,  1.62s/it]                                                            8%|▊         | 8400/100000 [4:36:08<41:15:08,  1.62s/it]  8%|▊         | 8401/100000 [4:36:10<40:05:29,  1.58s/it]                                                            8%|▊         | 8401/100000 [4:36:10<40:05:29,  1.58s/it]  8%|▊         | 8402/100000 [4:36:11<38:41:22,  1.52s/it]                                                            8%|▊         | 8402/100000 [4:36:11<38:41:22,  1.52s/it]  8%|▊         | 8403/100000 [4:36:13<37:51:17,  1.49s/it]                                                            8%|▊         | 8403/100000 [4:36:13<37:51:17,  1.49s/it]  8%|▊         | 8404/100000 [4:36:14<37:07:39,  1.46s/it]                                                            8%|▊         | 8404/100000 [4:36:14<37:07:39,  1.46s/it]  8%|▊         | 8405/100000 [4:36:15<36:25:54,  1.43s/it]                                                            8%|▊         | 8405/100000 [4:36:15<36:25:54,  1.43s/it]  8%|▊         | 8406/100000 [4:36:17<35:45:18,  1.41s/it]                                                            8%|▊         | 8406/100000 [4:36:17<35:45:18,  1.41s/it]  8%|▊         | 8407/100000 [4:36:18<35:06:33,  1.38s/it]                                                            8%|▊         | 8407/100000 [4:36:18<35:06:33,  1.38s/it]  8%|▊         | 8408/100000 [4:36:19<34:34:29,  1.36s/it]                                                            8%|▊         | 8408/100000 [4:36:19<34:34:29,  1.36s/it]  8%|▊         | 8409/100000 [4:36:21<33:46:35,  1.33s/it]                                                            8%|▊         | 8409/100000 [4:36:21<33:46:35,  1.33s/it]  8%|▊         | 8410/100000 [4:36:22<33:15:21,  1.31s/it]                                                            8%|▊         | 8410/100000 [4:36:22<33:15:21,  1.31s/it]  8%|▊         | 8411/100000 [4:36:23<32:55:58,  1.29s/it]                                                            8%|▊         | 8411/100000 [4:36:23<32:55:58,  1.29s/it]  8%|▊         | 8412/100000 [4:36:24<32:13:08,  1.27s/it]                                                            8%|▊         | 8412/100000 [4:36:24<32:13:08,  1.27s/it]  8%|▊         | 8413/100000 [4:36:25<31:51:05,  1.25s/it]                                                            8%|▊         | 8413/100000 [4:36:25<31:51:05,  1.25s/it]  8%|▊         | 8414/100000 [4:36:27<31:20:15,  1.23s/it]                                                            8%|▊         | 8414/100000 [4:36:27<31:20:15,  1.23s/it]  8%|▊         | 8415/100000 [4:36:28<30:46:53,  1.21s/it]                                                            8%|▊         | 8415/100000 [4:36:28<30:46:53,  1.21s/it]  8%|▊         | 8416/100000 [4:36:29<30:09:39,  1.19s/it]                                                            8%|▊         | 8416/100000 [4:36:29<30:09:39,  1.19s/it]  8%|▊         | 8417/100000 [4:36:30<29:48:10,  1.17s/it]                                                            8%|▊         | 8417/100000 [4:36:30<29:48:10,  1.17s/it]  8%|▊         | 8418/100000 [4:36:31<29:23:29,  1.16s/it]                                                            8%|▊         | 8418/100000 [4:36:31<29:23:29,  1.16s/it]  8%|▊         | 8419/100000 [4:36:32<28:59:18,  1.14s/it]                                                            8%|▊         | 8419/100000 [4:36:32<28:59:18,  1.14s/it]  8%|▊         | 8420/100000 [4:36:33<28:37:05,  1.12s/it]                                                            8%|▊         | 8420/100000 [4:36:33<28:37:05,  1.12s/it]  8%|▊         | 8421/100000 [4:36:34<28:18:16,  1.11s/it]                                                            8%|▊         | 8421/100000 [4:36:34<28:18:16,  1.11s/it]  8%|▊         | 8422/100000 [4:36:36<27:59:37,  1.10s/it]                                                            8%|▊         | 8422/100000 [4:36:36<27:59:37,  1.10s/it]  8%|▊         | 8423/100000 [4:36:37<27:37:40,  1.09s/it]                                                            8%|▊         | 8423/100000 [4:36:37<27:37:40,  1.09s/it]  8%|▊         | 8424/100000 [4:36:38<27:13:47,  1.07s/it]                                                            8%|▊         | 8424/100000 [4:36:38<27:13:47,  1.07s/it]  8%|▊         | 8425/100000 [4:36:39<26:44:25,  1.05s/it]                                                            8%|▊         | 8425/100000 [4:36:39<26:44:25,  1.05s/it]  8%|▊         | 8426/100000 [4:36:40<26:08:04,  1.03s/it]                                                            8%|▊         | 8426/100000 [4:36:40<26:08:04,  1.03s/it]  8%|▊         | 8427/100000 [4:36:41<25:37:34,  1.01s/it]                                                            8%|▊         | 8427/100000 [4:36:41<25:37:34,  1.01s/it]  8%|▊         | 8428/100000 [4:36:42<25:10:15,  1.01it/s]                                                            8%|▊         | 8428/100000 [4:36:42<25:10:15,  1.01it/s]  8%|▊         | 8429/100000 [4:36:42<24:32:24,  1.04it/s]                                                            8%|▊         | 8429/100000 [4:36:42<24:32:24,  1.04it/s]  8%|▊         | 8430/100000 [4:36:43<24:12:45,  1.05it/s]                                                            8%|▊         | 8430/100000 [4:36:43<24:12:45,  1.05it/s]  8%|▊         | 8431/100000 [4:36:55<107:16:11,  4.22s/it]                                                             8%|▊         | 8431/100000 [4:36:55<107:16:11,  4.22s/it]  8%|▊         | 8432/100000 [4:37:01<117:22:10,  4.61s/it]                                                             8%|▊         | 8432/100000 [4:37:01<117:22:10,  4.61s/it]  8%|▊         | 8433/100000 [4:37:05<117:08:32,  4.61s/it]                                                             8%|▊         | 8433/100000 [4:37:05<117:08:32,  4.61s/it]  8%|▊         | 8434/100000 [4:37:09<112:43:54,  4.43s/it]                                                             8%|▊         | 8434/100000 [4:37:09<112:43:54,  4.43s/it]  8%|▊         | 8435/100000 [4:37:13<106:05:59,  4.17s/it]                                                             8%|▊         | 8435/100000 [4:37:13<106:05:59,  4.17s/it]  8%|▊         | 8436/100000 [4:37:16<98:50:48,  3.89s/it]                                                             8%|▊         | 8436/100000 [4:37:16<98:50:48,  3.89s/it]  8%|▊         | 8437/100000 [4:37:19<90:31:06,  3.56s/it]                                                            8%|▊         | 8437/100000 [4:37:19<90:31:06,  3.56s/it]  8%|▊         | 8438/100000 [4:37:22<84:24:44,  3.32s/it]                                                            8%|▊         | 8438/100000 [4:37:22<84:24:44,  3.32s/it]  8%|▊         | 8439/100000 [4:37:24<77:57:42,  3.07s/it]                                                            8%|▊         | 8439/100000 [4:37:24<77:57:42,  3.07s/it]  8%|▊         | 8440/100000 [4:37:26<72:17:19,  2.84s/it]                                                            8%|▊         | 8440/100000 [4:37:26<72:17:19,  2.84s/it]  8%|▊         | 8441/100000 [4:37:29<66:48:31,  2.63s/it]                                                            8%|▊         | 8441/100000 [4:37:29<66:48:31,  2.63s/it]  8%|▊         | 8442/100000 [4:37:31<61:56:31,  2.44s/it]                                                            8%|▊         | 8442/100000 [4:37:31<61:56:31,  2.44s/it]  8%|▊         | 8443/100000 [4:37:32<57:30:51,  2.26s/it]                                                            8%|▊         | 8443/100000 [4:37:32<57:30:51,  2.26s/it]  8%|▊         | 8444/100000 [4:37:34<53:36:35,  2.11s/it]                                                            8%|▊         | 8444/100000 [4:37:34<53:36:35,  2.11s/it]  8%|▊         | 8445/100000 [4:37:36<50:27:57,  1.98s/it]                                                            8%|▊         | 8445/100000 [4:37:36<50:27:57,  1.98s/it]  8%|▊         | 8446/100000 [4:37:38<47:49:40,  1.88s/it]                                                            8%|▊         | 8446/100000 [4:37:38<47:49:40,  1.88s/it]  8%|▊         | 8447/100000 [4:37:39<45:14:39,  1.78s/it]                                                            8%|▊         | 8447/100000 [4:37:39<45:14:39,  1.78s/it]  8%|▊         | 8448/100000 [4:37:41<43:28:57,  1.71s/it]                                                            8%|▊         | 8448/100000 [4:37:41<43:28:57,  1.71s/it]  8%|▊         | 8449/100000 [4:37:42<41:52:34,  1.65s/it]                                                            8%|▊         | 8449/100000 [4:37:42<41:52:34,  1.65s/it]  8%|▊         | 8450/100000 [4:37:44<40:11:30,  1.58s/it]                                                            8%|▊         | 8450/100000 [4:37:44<40:11:30,  1.58s/it]  8%|▊         | 8451/100000 [4:37:45<39:05:40,  1.54s/it]                                                            8%|▊         | 8451/100000 [4:37:45<39:05:40,  1.54s/it]  8%|▊         | 8452/100000 [4:37:46<38:10:04,  1.50s/it]                                                            8%|▊         | 8452/100000 [4:37:46<38:10:04,  1.50s/it]  8%|▊         | 8453/100000 [4:37:48<37:05:20,  1.46s/it]                                                            8%|▊         | 8453/100000 [4:37:48<37:05:20,  1.46s/it]  8%|▊         | 8454/100000 [4:37:49<36:15:37,  1.43s/it]                                                            8%|▊         | 8454/100000 [4:37:49<36:15:37,  1.43s/it]  8%|▊         | 8455/100000 [4:37:50<35:47:49,  1.41s/it]                                                            8%|▊         | 8455/100000 [4:37:50<35:47:49,  1.41s/it]  8%|▊         | 8456/100000 [4:37:52<35:16:08,  1.39s/it]                                                            8%|▊         | 8456/100000 [4:37:52<35:16:08,  1.39s/it]  8%|▊         | 8457/100000 [4:37:53<34:24:56,  1.35s/it]                                                            8%|▊         | 8457/100000 [4:37:53<34:24:56,  1.35s/it]  8%|▊         | 8458/100000 [4:37:54<33:57:19,  1.34s/it]                                                            8%|▊         | 8458/100000 [4:37:54<33:57:19,  1.34s/it]  8%|▊         | 8459/100000 [4:37:56<33:19:52,  1.31s/it]                                                            8%|▊         | 8459/100000 [4:37:56<33:19:52,  1.31s/it]  8%|▊         | 8460/100000 [4:37:57<32:50:34,  1.29s/it]                                                            8%|▊         | 8460/100000 [4:37:57<32:50:34,  1.29s/it]  8%|▊         | 8461/100000 [4:37:58<32:31:54,  1.28s/it]                                                            8%|▊         | 8461/100000 [4:37:58<32:31:54,  1.28s/it]  8%|▊         | 8462/100000 [4:37:59<31:54:28,  1.25s/it]                                                          {'loss': 0.0231, 'grad_norm': 1.0619781017303467, 'learning_rate': 2.5128e-05, 'epoch': 15.46}
+{'loss': 0.0252, 'grad_norm': 0.5146917700767517, 'learning_rate': 2.5131e-05, 'epoch': 15.46}
+{'loss': 0.2758, 'grad_norm': 0.8048033118247986, 'learning_rate': 2.5134e-05, 'epoch': 15.46}
+{'loss': 0.1736, 'grad_norm': 0.56715989112854, 'learning_rate': 2.5137e-05, 'epoch': 15.47}
+{'loss': 0.1227, 'grad_norm': 1.2161662578582764, 'learning_rate': 2.514e-05, 'epoch': 15.47}
+{'loss': 0.1131, 'grad_norm': 0.6002994775772095, 'learning_rate': 2.5143e-05, 'epoch': 15.47}
+{'loss': 0.1846, 'grad_norm': 0.6885210871696472, 'learning_rate': 2.5146e-05, 'epoch': 15.47}
+{'loss': 0.0912, 'grad_norm': 0.5307503342628479, 'learning_rate': 2.5149000000000003e-05, 'epoch': 15.47}
+{'loss': 0.0671, 'grad_norm': 0.35235410928726196, 'learning_rate': 2.5152000000000002e-05, 'epoch': 15.47}
+{'loss': 0.1021, 'grad_norm': 0.6050505638122559, 'learning_rate': 2.5155000000000002e-05, 'epoch': 15.48}
+{'loss': 0.0765, 'grad_norm': 0.526045024394989, 'learning_rate': 2.5158000000000002e-05, 'epoch': 15.48}
+{'loss': 0.0586, 'grad_norm': 0.36944779753685, 'learning_rate': 2.5161000000000002e-05, 'epoch': 15.48}
+{'loss': 0.052, 'grad_norm': 0.41731560230255127, 'learning_rate': 2.5164e-05, 'epoch': 15.48}
+{'loss': 0.0673, 'grad_norm': 0.8687494397163391, 'learning_rate': 2.5167e-05, 'epoch': 15.48}
+{'loss': 0.0602, 'grad_norm': 0.6858538389205933, 'learning_rate': 2.517e-05, 'epoch': 15.49}
+{'loss': 0.0459, 'grad_norm': 1.1235566139221191, 'learning_rate': 2.5172999999999998e-05, 'epoch': 15.49}
+{'loss': 0.0571, 'grad_norm': 0.41303691267967224, 'learning_rate': 2.5175999999999997e-05, 'epoch': 15.49}
+{'loss': 0.0399, 'grad_norm': 0.5385510325431824, 'learning_rate': 2.5179e-05, 'epoch': 15.49}
+{'loss': 0.0363, 'grad_norm': 0.3182043731212616, 'learning_rate': 2.5182e-05, 'epoch': 15.49}
+{'loss': 0.0111, 'grad_norm': 0.24598966538906097, 'learning_rate': 2.5185e-05, 'epoch': 15.49}
+{'loss': 0.0207, 'grad_norm': 0.40207529067993164, 'learning_rate': 2.5188e-05, 'epoch': 15.5}
+{'loss': 0.0587, 'grad_norm': 0.5250248312950134, 'learning_rate': 2.5191e-05, 'epoch': 15.5}
+{'loss': 0.0199, 'grad_norm': 0.33213678002357483, 'learning_rate': 2.5194e-05, 'epoch': 15.5}
+{'loss': 0.0081, 'grad_norm': 0.17228974401950836, 'learning_rate': 2.5197e-05, 'epoch': 15.5}
+{'loss': 0.0109, 'grad_norm': 0.3369840383529663, 'learning_rate': 2.52e-05, 'epoch': 15.5}
+{'loss': 0.0113, 'grad_norm': 0.31128376722335815, 'learning_rate': 2.5203e-05, 'epoch': 15.51}
+{'loss': 0.0221, 'grad_norm': 0.36564984917640686, 'learning_rate': 2.5206e-05, 'epoch': 15.51}
+{'loss': 0.0188, 'grad_norm': 0.6158779859542847, 'learning_rate': 2.5209000000000002e-05, 'epoch': 15.51}
+{'loss': 0.0254, 'grad_norm': 0.4490515887737274, 'learning_rate': 2.5212000000000002e-05, 'epoch': 15.51}
+{'loss': 0.0178, 'grad_norm': 0.4023129642009735, 'learning_rate': 2.5215e-05, 'epoch': 15.51}
+{'loss': 0.0323, 'grad_norm': 0.7977317571640015, 'learning_rate': 2.5218e-05, 'epoch': 15.52}
+{'loss': 0.016, 'grad_norm': 0.8370609283447266, 'learning_rate': 2.5221e-05, 'epoch': 15.52}
+{'loss': 0.0407, 'grad_norm': 0.512177586555481, 'learning_rate': 2.5224e-05, 'epoch': 15.52}
+{'loss': 0.0131, 'grad_norm': 0.4275936186313629, 'learning_rate': 2.5227e-05, 'epoch': 15.52}
+{'loss': 0.0088, 'grad_norm': 0.22574132680892944, 'learning_rate': 2.523e-05, 'epoch': 15.52}
+{'loss': 0.0085, 'grad_norm': 0.2435065507888794, 'learning_rate': 2.5233e-05, 'epoch': 15.52}
+{'loss': 0.0204, 'grad_norm': 0.6562572717666626, 'learning_rate': 2.5236e-05, 'epoch': 15.53}
+{'loss': 0.006, 'grad_norm': 0.3493426442146301, 'learning_rate': 2.5239000000000003e-05, 'epoch': 15.53}
+{'loss': 0.0384, 'grad_norm': 0.3053175210952759, 'learning_rate': 2.5242000000000003e-05, 'epoch': 15.53}
+{'loss': 0.0208, 'grad_norm': 0.4377683699131012, 'learning_rate': 2.5245000000000003e-05, 'epoch': 15.53}
+{'loss': 0.0177, 'grad_norm': 0.35627028346061707, 'learning_rate': 2.5248e-05, 'epoch': 15.53}
+{'loss': 0.0101, 'grad_norm': 0.33622390031814575, 'learning_rate': 2.5251e-05, 'epoch': 15.54}
+{'loss': 0.0137, 'grad_norm': 0.40122103691101074, 'learning_rate': 2.5254e-05, 'epoch': 15.54}
+{'loss': 0.0162, 'grad_norm': 0.44825655221939087, 'learning_rate': 2.5257e-05, 'epoch': 15.54}
+{'loss': 0.0148, 'grad_norm': 0.32165566086769104, 'learning_rate': 2.526e-05, 'epoch': 15.54}
+{'loss': 0.0132, 'grad_norm': 0.43938520550727844, 'learning_rate': 2.5263e-05, 'epoch': 15.54}
+{'loss': 0.0166, 'grad_norm': 0.36822405457496643, 'learning_rate': 2.5266e-05, 'epoch': 15.54}
+{'loss': 0.0244, 'grad_norm': 0.7597044706344604, 'learning_rate': 2.5269e-05, 'epoch': 15.55}
+{'loss': 0.0175, 'grad_norm': 0.6303825378417969, 'learning_rate': 2.5272e-05, 'epoch': 15.55}
+{'loss': 0.0105, 'grad_norm': 0.38170045614242554, 'learning_rate': 2.5275e-05, 'epoch': 15.55}
+{'loss': 0.0149, 'grad_norm': 0.5360559225082397, 'learning_rate': 2.5278e-05, 'epoch': 15.55}
+{'loss': 0.0233, 'grad_norm': 0.6139945983886719, 'learning_rate': 2.5281e-05, 'epoch': 15.55}
+{'loss': 0.2325, 'grad_norm': 0.8562393188476562, 'learning_rate': 2.5284e-05, 'epoch': 15.56}
+{'loss': 0.1774, 'grad_norm': 1.1304420232772827, 'learning_rate': 2.5287e-05, 'epoch': 15.56}
+{'loss': 0.166, 'grad_norm': 1.1057580709457397, 'learning_rate': 2.529e-05, 'epoch': 15.56}
+{'loss': 0.1355, 'grad_norm': 0.7534903287887573, 'learning_rate': 2.5293e-05, 'epoch': 15.56}
+{'loss': 0.1177, 'grad_norm': 0.6858900785446167, 'learning_rate': 2.5296e-05, 'epoch': 15.56}
+{'loss': 0.098, 'grad_norm': 0.4988061785697937, 'learning_rate': 2.5299000000000003e-05, 'epoch': 15.57}
+{'loss': 0.1319, 'grad_norm': 0.6958936452865601, 'learning_rate': 2.5302000000000003e-05, 'epoch': 15.57}
+{'loss': 0.1212, 'grad_norm': 0.7454564571380615, 'learning_rate': 2.5305000000000003e-05, 'epoch': 15.57}
+{'loss': 0.0711, 'grad_norm': 0.7997215390205383, 'learning_rate': 2.5308000000000002e-05, 'epoch': 15.57}
+{'loss': 0.113, 'grad_norm': 0.5632338523864746, 'learning_rate': 2.5311000000000002e-05, 'epoch': 15.57}
+{'loss': 0.0797, 'grad_norm': 0.759938657283783, 'learning_rate': 2.5314000000000002e-05, 'epoch': 15.57}
+{'loss': 0.1144, 'grad_norm': 1.036684513092041, 'learning_rate': 2.5317000000000002e-05, 'epoch': 15.58}
+{'loss': 0.0285, 'grad_norm': 0.31157785654067993, 'learning_rate': 2.5319999999999998e-05, 'epoch': 15.58}
+{'loss': 0.0345, 'grad_norm': 0.3606410324573517, 'learning_rate': 2.5322999999999998e-05, 'epoch': 15.58}
+{'loss': 0.026, 'grad_norm': 0.3788275420665741, 'learning_rate': 2.5325999999999998e-05, 'epoch': 15.58}
+{'loss': 0.0198, 'grad_norm': 0.30666303634643555, 'learning_rate': 2.5329e-05, 'epoch': 15.58}
+{'loss': 0.0227, 'grad_norm': 0.7083009481430054, 'learning_rate': 2.5332e-05, 'epoch': 15.59}
+{'loss': 0.014, 'grad_norm': 0.21037326753139496, 'learning_rate': 2.5335e-05, 'epoch': 15.59}
+{'loss': 0.0089, 'grad_norm': 0.3480874300003052, 'learning_rate': 2.5338e-05, 'epoch': 15.59}
+{'loss': 0.0191, 'grad_norm': 0.843414306640625, 'learning_rate': 2.5341e-05, 'epoch': 15.59}
+{'loss': 0.0163, 'grad_norm': 0.8120933175086975, 'learning_rate': 2.5344e-05, 'epoch': 15.59}
+{'loss': 0.0201, 'grad_norm': 0.38233235478401184, 'learning_rate': 2.5347e-05, 'epoch': 15.59}
+{'loss': 0.0105, 'grad_norm': 0.289878785610199, 'learning_rate': 2.535e-05, 'epoch': 15.6}
+{'loss': 0.0175, 'grad_norm': 0.35070326924324036, 'learning_rate': 2.5353e-05, 'epoch': 15.6}
+{'loss': 0.0099, 'grad_norm': 0.40063390135765076, 'learning_rate': 2.5356e-05, 'epoch': 15.6}
+{'loss': 0.0083, 'grad_norm': 0.18869224190711975, 'learning_rate': 2.5359000000000002e-05, 'epoch': 15.6}
+{'loss': 0.0146, 'grad_norm': 0.39934617280960083, 'learning_rate': 2.5362000000000002e-05, 'epoch': 15.6}
+{'loss': 0.0167, 'grad_norm': 0.4403945803642273, 'learning_rate': 2.5365000000000002e-05, 'epoch': 15.61}
+{'loss': 0.0118, 'grad_norm': 0.39084070920944214, 'learning_rate': 2.5368000000000002e-05, 'epoch': 15.61}
+{'loss': 0.0245, 'grad_norm': 0.7717267870903015, 'learning_rate': 2.5371e-05, 'epoch': 15.61}
+{'loss': 0.0112, 'grad_norm': 0.38657015562057495, 'learning_rate': 2.5374e-05, 'epoch': 15.61}
+  8%|▊         | 8462/100000 [4:37:59<31:54:28,  1.25s/it]  8%|▊         | 8463/100000 [4:38:01<31:44:18,  1.25s/it]                                                            8%|▊         | 8463/100000 [4:38:01<31:44:18,  1.25s/it]  8%|▊         | 8464/100000 [4:38:02<31:08:24,  1.22s/it]                                                            8%|▊         | 8464/100000 [4:38:02<31:08:24,  1.22s/it]  8%|▊         | 8465/100000 [4:38:03<30:39:38,  1.21s/it]                                                            8%|▊         | 8465/100000 [4:38:03<30:39:38,  1.21s/it]  8%|▊         | 8466/100000 [4:38:04<30:14:52,  1.19s/it]                                                            8%|▊         | 8466/100000 [4:38:04<30:14:52,  1.19s/it]  8%|▊         | 8467/100000 [4:38:05<29:52:25,  1.17s/it]                                                            8%|▊         | 8467/100000 [4:38:05<29:52:25,  1.17s/it]  8%|▊         | 8468/100000 [4:38:06<29:28:31,  1.16s/it]                                                            8%|▊         | 8468/100000 [4:38:06<29:28:31,  1.16s/it]  8%|▊         | 8469/100000 [4:38:07<28:58:04,  1.14s/it]                                                            8%|▊         | 8469/100000 [4:38:07<28:58:04,  1.14s/it]  8%|▊         | 8470/100000 [4:38:09<28:41:14,  1.13s/it]                                                            8%|▊         | 8470/100000 [4:38:09<28:41:14,  1.13s/it]  8%|▊         | 8471/100000 [4:38:10<28:10:52,  1.11s/it]                                                            8%|▊         | 8471/100000 [4:38:10<28:10:52,  1.11s/it]  8%|▊         | 8472/100000 [4:38:11<27:57:11,  1.10s/it]                                                            8%|▊         | 8472/100000 [4:38:11<27:57:11,  1.10s/it]  8%|▊         | 8473/100000 [4:38:12<27:36:17,  1.09s/it]                                                            8%|▊         | 8473/100000 [4:38:12<27:36:17,  1.09s/it]  8%|▊         | 8474/100000 [4:38:13<27:16:26,  1.07s/it]                                                            8%|▊         | 8474/100000 [4:38:13<27:16:26,  1.07s/it]  8%|▊         | 8475/100000 [4:38:14<26:43:50,  1.05s/it]                                                            8%|▊         | 8475/100000 [4:38:14<26:43:50,  1.05s/it]  8%|▊         | 8476/100000 [4:38:15<26:12:08,  1.03s/it]                                                            8%|▊         | 8476/100000 [4:38:15<26:12:08,  1.03s/it]  8%|▊         | 8477/100000 [4:38:16<26:43:32,  1.05s/it]                                                            8%|▊         | 8477/100000 [4:38:16<26:43:32,  1.05s/it]  8%|▊         | 8478/100000 [4:38:17<26:13:50,  1.03s/it]                                                            8%|▊         | 8478/100000 [4:38:17<26:13:50,  1.03s/it]  8%|▊         | 8479/100000 [4:38:18<25:40:01,  1.01s/it]                                                            8%|▊         | 8479/100000 [4:38:18<25:40:01,  1.01s/it]  8%|▊         | 8480/100000 [4:38:19<24:51:31,  1.02it/s]                                                            8%|▊         | 8480/100000 [4:38:19<24:51:31,  1.02it/s]  8%|▊         | 8481/100000 [4:38:29<98:26:05,  3.87s/it]                                                            8%|▊         | 8481/100000 [4:38:29<98:26:05,  3.87s/it]  8%|▊         | 8482/100000 [4:38:35<111:53:44,  4.40s/it]                                                             8%|▊         | 8482/100000 [4:38:35<111:53:44,  4.40s/it]  8%|▊         | 8483/100000 [4:38:40<114:07:35,  4.49s/it]                                                             8%|▊         | 8483/100000 [4:38:40<114:07:35,  4.49s/it]  8%|▊         | 8484/100000 [4:38:44<110:30:43,  4.35s/it]                                                             8%|▊         | 8484/100000 [4:38:44<110:30:43,  4.35s/it]  8%|▊         | 8485/100000 [4:38:47<105:13:43,  4.14s/it]                                                             8%|▊         | 8485/100000 [4:38:47<105:13:43,  4.14s/it]  8%|▊         | 8486/100000 [4:38:51<98:26:01,  3.87s/it]                                                             8%|▊         | 8486/100000 [4:38:51<98:26:01,  3.87s/it]  8%|▊         | 8487/100000 [4:38:54<91:53:42,  3.62s/it]                                                            8%|▊         | 8487/100000 [4:38:54<91:53:42,  3.62s/it]  8%|▊         | 8488/100000 [4:38:56<85:38:19,  3.37s/it]                                                            8%|▊         | 8488/100000 [4:38:56<85:38:19,  3.37s/it]  8%|▊         | 8489/100000 [4:38:59<79:19:20,  3.12s/it]                                                            8%|▊         | 8489/100000 [4:38:59<79:19:20,  3.12s/it]  8%|▊         | 8490/100000 [4:39:01<73:42:06,  2.90s/it]                                                            8%|▊         | 8490/100000 [4:39:01<73:42:06,  2.90s/it]  8%|▊         | 8491/100000 [4:39:04<68:40:43,  2.70s/it]                                                            8%|▊         | 8491/100000 [4:39:04<68:40:43,  2.70s/it]  8%|▊         | 8492/100000 [4:39:06<63:25:49,  2.50s/it]                                                            8%|▊         | 8492/100000 [4:39:06<63:25:49,  2.50s/it]  8%|▊         | 8493/100000 [4:39:07<58:49:40,  2.31s/it]                                                            8%|▊         | 8493/100000 [4:39:07<58:49:40,  2.31s/it]  8%|▊         | 8494/100000 [4:39:09<55:23:15,  2.18s/it]                                                            8%|▊         | 8494/100000 [4:39:09<55:23:15,  2.18s/it]  8%|▊         | 8495/100000 [4:39:11<52:13:19,  2.05s/it]                                                            8%|▊         | 8495/100000 [4:39:11<52:13:19,  2.05s/it]  8%|▊         | 8496/100000 [4:39:13<49:04:19,  1.93s/it]                                                            8%|▊         | 8496/100000 [4:39:13<49:04:19,  1.93s/it]  8%|▊         | 8497/100000 [4:39:14<46:48:52,  1.84s/it]                                                            8%|▊         | 8497/100000 [4:39:14<46:48:52,  1.84s/it]  8%|▊         | 8498/100000 [4:39:16<45:00:05,  1.77s/it]                                                            8%|▊         | 8498/100000 [4:39:16<45:00:05,  1.77s/it]  8%|▊         | 8499/100000 [4:39:17<43:23:31,  1.71s/it]                                                            8%|▊         | 8499/100000 [4:39:17<43:23:31,  1.71s/it]  8%|▊         | 8500/100000 [4:39:19<41:49:16,  1.65s/it]                                                            8%|▊         | 8500/100000 [4:39:19<41:49:16,  1.65s/it]  9%|▊         | 8501/100000 [4:39:20<40:10:13,  1.58s/it]                                                            9%|▊         | 8501/100000 [4:39:20<40:10:13,  1.58s/it]  9%|▊         | 8502/100000 [4:39:22<39:08:31,  1.54s/it]                                                            9%|▊         | 8502/100000 [4:39:22<39:08:31,  1.54s/it]  9%|▊         | 8503/100000 [4:39:23<38:12:15,  1.50s/it]                                                            9%|▊         | 8503/100000 [4:39:23<38:12:15,  1.50s/it]  9%|▊         | 8504/100000 [4:39:25<37:06:42,  1.46s/it]                                                            9%|▊         | 8504/100000 [4:39:25<37:06:42,  1.46s/it]  9%|▊         | 8505/100000 [4:39:26<36:34:06,  1.44s/it]                                                            9%|▊         | 8505/100000 [4:39:26<36:34:06,  1.44s/it]  9%|▊         | 8506/100000 [4:39:27<36:01:33,  1.42s/it]                                                            9%|▊         | 8506/100000 [4:39:27<36:01:33,  1.42s/it]  9%|▊         | 8507/100000 [4:39:29<35:26:17,  1.39s/it]                                                            9%|▊         | 8507/100000 [4:39:29<35:26:17,  1.39s/it]  9%|▊         | 8508/100000 [4:39:30<34:43:18,  1.37s/it]                                                            9%|▊         | 8508/100000 [4:39:30<34:43:18,  1.37s/it]  9%|▊         | 8509/100000 [4:39:31<34:12:26,  1.35s/it]                                                            9%|▊         | 8509/100000 [4:39:31<34:12:26,  1.35s/it]  9%|▊         | 8510/100000 [4:39:33<33:29:44,  1.32s/it]                                                            9%|▊         | 8510/100000 [4:39:33<33:29:44,  1.32s/it]  9%|▊         | 8511/100000 [4:39:34<33:12:15,  1.31s/it]                                                            9%|▊         | 8511/100000 [4:39:34<33:12:15,  1.31s/it]  9%|▊         | 8512/100000 [4:39:35<32:28:13,  1.28s/it]                                                            9%|▊         | 8512/100000 [4:39:35<32:28:13,  1.28s/it]  9%|▊         | 8513/100000 [4:39:36<32:06:59,  1.26s/it]                                                            9%|▊         | 8513/100000 [4:39:36<32:06:59,  1.26s/it]  9%|▊         | 8514/100000 [4:39:38<31:49:16,  1.25s/it]                                                            9%|▊         | 8514/100000 [4:39:38<31:49:16,  1.25s/it]  9%|▊         | 8515/100000 [4:39:39<31:01:21,  1.22s/it]                                                            9%|▊         | 8515/100000 [4:39:39<31:01:21,  1.22s/it]  9%|▊         | 8516/100000 [4:39:40<30:33:59,  1.20s/it]                                                            9%|▊         | 8516/100000 [4:39:40<30:33:59,  1.20s/it]  9%|▊         | 8517/100000 [4:39:41<30:08:51,  1.19s/it]                                                            9%|▊         | 8517/100000 [4:39:41<30:08:51,  1.19s/it]  9%|▊         | 8518/100000 [4:39:42<29:44:53,  1.17s/it]                                                            9%|▊         | 8518/100000 [4:39:42<29:44:53,  1.17s/it]  9%|▊         | 8519/100000 [4:39:43<29:23:07,  1.16s/it]                                                            9%|▊         | 8519/100000 [4:39:43<29:23:07,  1.16s/it]  9%|▊         | 8520/100000 [4:39:44<28:59:38,  1.14s/it]                                                            9%|▊         | 8520/100000 [4:39:44<28:59:38,  1.14s/it]  9%|▊         | 8521/100000 [4:39:45<28:41:17,  1.13s/it]                                                            9%|▊         | 8521/100000 [4:39:45<28:41:17,  1.13s/it]  9%|▊         | 8522/100000 [4:39:47<28:16:52,  1.11s/it]                                                            9%|▊         | 8522/100000 [4:39:47<28:16:52,  1.11s/it]  9%|▊         | 8523/100000 [4:39:48<27:46:27,  1.09s/it]                                                            9%|▊         | 8523/100000 [4:39:48<27:46:27,  1.09s/it]  9%|▊         | 8524/100000 [4:39:49<27:21:13,  1.08s/it]                                                            9%|▊         | 8524/100000 [4:39:49<27:21:13,  1.08s/it]  9%|▊         | 8525/100000 [4:39:50<26:41:33,  1.05s/it]                                                            9%|▊         | 8525/100000 [4:39:50<26:41:33,  1.05s/it]  9%|▊         | 8526/100000 [4:39:51<26:07:51,  1.03s/it]                                                            9%|▊         | 8526/100000 [4:39:51<26:07:51,  1.03s/it]  9%|▊         | 8527/100000 [4:39:52<25:44:23,  1.01s/it]                                                            9%|▊         | 8527/100000 [4:39:52<25:44:23,  1.01s/it]  9%|▊         | 8528/100000 [4:39:53<25:12:36,  1.01it/s]                                                            9%|▊         | 8528/100000 [4:39:53<25:12:36,  1.01it/s]  9%|▊         | 8529/100000 [4:39:53<24:41:45,  1.03it/s]                                                            9%|▊         | 8529/100000 [4:39:53<24:41:45,  1.03it/s]  9%|▊         | 8530/100000 [4:39:54<23:56:13,  1.06it/s]                                                            9%|▊         | 8530/100000 [4:39:54<23:56:13,  1.06it/s]  9%|▊         | 8531/100000 [4:40:06<106:31:33,  4.19s/it]                                                             9%|▊         | 8531/100000 [4:40:06<106:31:33,  4.19s/it]  9%|▊         | 8532/100000 [4:40:12<115:59:04,  4.56s/it]                                                             9%|▊         | 8532/100000 [4:40:12<115:59:04,  4.56s/it]  9%|▊         | 8533/100000 [4:40:16<115:26:48,  4.54s/it]                                                             9%|▊         | 8533/100000 [4:40:16<115:26:48,  4.54s/it]  9%|▊         | 8534/100000 [4:40:20<109:43:55,  4.32s/it]                                                             9%|▊         | 8534/100000 [4:40:20<109:43:55,  4.32s/it]  9%|▊         | 8535/100000 [4:40:23<102:57:16,  4.05s/it]                                                             9%|▊         | 8535/100000 [4:40:23<102:57:16,  4.05s/it]  9%|▊         | 8536/100000 [4:40:26<94:33:32,  3.72s/it]                                                             9%|▊         | 8536/100000 [4:40:26<94:33:32,  3.72s/it]  9%|▊         | 8537/100000 [4:40:29<87:16:49,  3.44s/it]                                                            9%|▊         | 8537/100000 [4:40:29<87:16:49,  3.44s/it]  9%|▊         | 8538/100000 [4:40:32<80:48:18,  3.18s/it]                                                            9%|▊         | 8538/100000 [4:40:32<80:48:18,  3.18s/it]  9%|▊         | 8539/100000 [4:40:34<74:39:52,  2.94s/it]                                                            9%|▊         | 8539/100000 [4:40:34<74:39:52,  2.94s/it]  9%|▊         | 8540/100000 [4:40:36<69:12:41,  2.72s/it]                                                            9%|▊         | 8540/100000 [4:40:36<69:12:41,  2.72s/it]  9%|▊         | 8541/100000 [4:40:38<64:08:23,  2.52s/it]                                                            9%|▊         | 8541/100000 [4:40:38<64:08:23,  2.52s/it]  9%|▊         | 8542/100000 [4:40:40<59:29:36,  2.34s/it]                                                            9%|▊         | 8542/100000 [4:40:40<59:29:36,  2.34s/it]  9%|▊         | 8543/100000 [4:40:42<56:08:19,  2.21s/it]                                                            9%|▊         | 8543/100000 [4:40:42<56:08:19,  2.21s/it]  9%|▊         | 8544/100000 [4:40:44<52:25:53,  2.06s/it]                                                            9%|▊         | 8544/100000 [4:40:44<52:25:53,  2.06s/it]  9%|▊         | 8545/100000 [4:40:45<49:47:39,  1.96s/it]                                                          {'loss': 0.0134, 'grad_norm': 0.28539496660232544, 'learning_rate': 2.5377e-05, 'epoch': 15.61}
+{'loss': 0.0148, 'grad_norm': 0.3543245494365692, 'learning_rate': 2.538e-05, 'epoch': 15.61}
+{'loss': 0.0177, 'grad_norm': 0.3170192241668701, 'learning_rate': 2.5383e-05, 'epoch': 15.62}
+{'loss': 0.0139, 'grad_norm': 0.5334312915802002, 'learning_rate': 2.5386e-05, 'epoch': 15.62}
+{'loss': 0.0322, 'grad_norm': 0.700171947479248, 'learning_rate': 2.5389000000000004e-05, 'epoch': 15.62}
+{'loss': 0.0183, 'grad_norm': 0.6469569206237793, 'learning_rate': 2.5392000000000004e-05, 'epoch': 15.62}
+{'loss': 0.0204, 'grad_norm': 0.9562910199165344, 'learning_rate': 2.5395e-05, 'epoch': 15.62}
+{'loss': 0.012, 'grad_norm': 0.4306713938713074, 'learning_rate': 2.5398e-05, 'epoch': 15.63}
+{'loss': 0.0265, 'grad_norm': 1.4701281785964966, 'learning_rate': 2.5401e-05, 'epoch': 15.63}
+{'loss': 0.0154, 'grad_norm': 0.3720110058784485, 'learning_rate': 2.5404e-05, 'epoch': 15.63}
+{'loss': 0.0166, 'grad_norm': 0.4950038492679596, 'learning_rate': 2.5407e-05, 'epoch': 15.63}
+{'loss': 0.0178, 'grad_norm': 0.5569928288459778, 'learning_rate': 2.541e-05, 'epoch': 15.63}
+{'loss': 0.0121, 'grad_norm': 0.33441534638404846, 'learning_rate': 2.5413e-05, 'epoch': 15.64}
+{'loss': 0.0163, 'grad_norm': 0.2959272563457489, 'learning_rate': 2.5416e-05, 'epoch': 15.64}
+{'loss': 0.0141, 'grad_norm': 0.4156274199485779, 'learning_rate': 2.5419000000000002e-05, 'epoch': 15.64}
+{'loss': 0.0313, 'grad_norm': 0.4267812669277191, 'learning_rate': 2.5422e-05, 'epoch': 15.64}
+{'loss': 0.0209, 'grad_norm': 0.5098170042037964, 'learning_rate': 2.5425e-05, 'epoch': 15.64}
+{'loss': 0.014, 'grad_norm': 0.3128315806388855, 'learning_rate': 2.5428e-05, 'epoch': 15.64}
+{'loss': 0.0429, 'grad_norm': 1.0015007257461548, 'learning_rate': 2.5431e-05, 'epoch': 15.65}
+{'loss': 0.2054, 'grad_norm': 1.4465745687484741, 'learning_rate': 2.5434e-05, 'epoch': 15.65}
+{'loss': 0.2016, 'grad_norm': 0.8323967456817627, 'learning_rate': 2.5437e-05, 'epoch': 15.65}
+{'loss': 0.0936, 'grad_norm': 0.5159797668457031, 'learning_rate': 2.544e-05, 'epoch': 15.65}
+{'loss': 0.1431, 'grad_norm': 0.5815988183021545, 'learning_rate': 2.5443e-05, 'epoch': 15.65}
+{'loss': 0.1107, 'grad_norm': 0.6828600168228149, 'learning_rate': 2.5446e-05, 'epoch': 15.66}
+{'loss': 0.1151, 'grad_norm': 0.6418094635009766, 'learning_rate': 2.5449000000000003e-05, 'epoch': 15.66}
+{'loss': 0.1149, 'grad_norm': 0.5052107572555542, 'learning_rate': 2.5452000000000003e-05, 'epoch': 15.66}
+{'loss': 0.1143, 'grad_norm': 0.4315268099308014, 'learning_rate': 2.5455000000000003e-05, 'epoch': 15.66}
+{'loss': 0.0622, 'grad_norm': 0.49266499280929565, 'learning_rate': 2.5458000000000003e-05, 'epoch': 15.66}
+{'loss': 0.0626, 'grad_norm': 1.084386944770813, 'learning_rate': 2.5461000000000002e-05, 'epoch': 15.66}
+{'loss': 0.0729, 'grad_norm': 0.5839085578918457, 'learning_rate': 2.5464000000000002e-05, 'epoch': 15.67}
+{'loss': 0.0823, 'grad_norm': 0.5455254316329956, 'learning_rate': 2.5467e-05, 'epoch': 15.67}
+{'loss': 0.1319, 'grad_norm': 1.681470513343811, 'learning_rate': 2.547e-05, 'epoch': 15.67}
+{'loss': 0.0468, 'grad_norm': 0.481160432100296, 'learning_rate': 2.5472999999999998e-05, 'epoch': 15.67}
+{'loss': 0.0352, 'grad_norm': 0.4013616442680359, 'learning_rate': 2.5475999999999998e-05, 'epoch': 15.67}
+{'loss': 0.046, 'grad_norm': 2.3175511360168457, 'learning_rate': 2.5479e-05, 'epoch': 15.68}
+{'loss': 0.0217, 'grad_norm': 0.27709218859672546, 'learning_rate': 2.5482e-05, 'epoch': 15.68}
+{'loss': 0.0275, 'grad_norm': 0.4663790762424469, 'learning_rate': 2.5485e-05, 'epoch': 15.68}
+{'loss': 0.0344, 'grad_norm': 0.40022438764572144, 'learning_rate': 2.5488e-05, 'epoch': 15.68}
+{'loss': 0.0146, 'grad_norm': 0.29696258902549744, 'learning_rate': 2.5491e-05, 'epoch': 15.68}
+{'loss': 0.0199, 'grad_norm': 0.22244930267333984, 'learning_rate': 2.5494e-05, 'epoch': 15.69}
+{'loss': 0.0203, 'grad_norm': 0.2986993193626404, 'learning_rate': 2.5497e-05, 'epoch': 15.69}
+{'loss': 0.0247, 'grad_norm': 0.7852336764335632, 'learning_rate': 2.55e-05, 'epoch': 15.69}
+{'loss': 0.037, 'grad_norm': 0.6283233761787415, 'learning_rate': 2.5503e-05, 'epoch': 15.69}
+{'loss': 0.0193, 'grad_norm': 0.544381320476532, 'learning_rate': 2.5506e-05, 'epoch': 15.69}
+{'loss': 0.0537, 'grad_norm': 0.7549434304237366, 'learning_rate': 2.5509e-05, 'epoch': 15.69}
+{'loss': 0.0351, 'grad_norm': 0.407317191362381, 'learning_rate': 2.5512000000000002e-05, 'epoch': 15.7}
+{'loss': 0.0156, 'grad_norm': 0.3477088510990143, 'learning_rate': 2.5515000000000002e-05, 'epoch': 15.7}
+{'loss': 0.0121, 'grad_norm': 0.2679806351661682, 'learning_rate': 2.5518000000000002e-05, 'epoch': 15.7}
+{'loss': 0.013, 'grad_norm': 0.42538949847221375, 'learning_rate': 2.5521000000000002e-05, 'epoch': 15.7}
+{'loss': 0.0166, 'grad_norm': 0.5099429488182068, 'learning_rate': 2.5524e-05, 'epoch': 15.7}
+{'loss': 0.0109, 'grad_norm': 0.26436755061149597, 'learning_rate': 2.5527e-05, 'epoch': 15.71}
+{'loss': 0.0149, 'grad_norm': 0.28746193647384644, 'learning_rate': 2.553e-05, 'epoch': 15.71}
+{'loss': 0.014, 'grad_norm': 0.48255273699760437, 'learning_rate': 2.5533e-05, 'epoch': 15.71}
+{'loss': 0.0217, 'grad_norm': 0.7732357978820801, 'learning_rate': 2.5536e-05, 'epoch': 15.71}
+{'loss': 0.0213, 'grad_norm': 0.40901118516921997, 'learning_rate': 2.5539e-05, 'epoch': 15.71}
+{'loss': 0.0158, 'grad_norm': 0.4318062365055084, 'learning_rate': 2.5542e-05, 'epoch': 15.71}
+{'loss': 0.0102, 'grad_norm': 0.5730619430541992, 'learning_rate': 2.5545e-05, 'epoch': 15.72}
+{'loss': 0.0291, 'grad_norm': 0.5702316761016846, 'learning_rate': 2.5548e-05, 'epoch': 15.72}
+{'loss': 0.016, 'grad_norm': 0.4010271728038788, 'learning_rate': 2.5551e-05, 'epoch': 15.72}
+{'loss': 0.0295, 'grad_norm': 0.5954778790473938, 'learning_rate': 2.5554e-05, 'epoch': 15.72}
+{'loss': 0.0097, 'grad_norm': 0.2628062963485718, 'learning_rate': 2.5557e-05, 'epoch': 15.72}
+{'loss': 0.0128, 'grad_norm': 0.8188832998275757, 'learning_rate': 2.556e-05, 'epoch': 15.73}
+{'loss': 0.0184, 'grad_norm': 0.6020427346229553, 'learning_rate': 2.5563e-05, 'epoch': 15.73}
+{'loss': 0.0136, 'grad_norm': 0.31666770577430725, 'learning_rate': 2.5566e-05, 'epoch': 15.73}
+{'loss': 0.0218, 'grad_norm': 0.6543294787406921, 'learning_rate': 2.5569e-05, 'epoch': 15.73}
+{'loss': 0.0089, 'grad_norm': 0.3938964903354645, 'learning_rate': 2.5572000000000002e-05, 'epoch': 15.73}
+{'loss': 0.0204, 'grad_norm': 0.43330466747283936, 'learning_rate': 2.5575e-05, 'epoch': 15.73}
+{'loss': 0.02, 'grad_norm': 0.834074079990387, 'learning_rate': 2.5578e-05, 'epoch': 15.74}
+{'loss': 0.0343, 'grad_norm': 1.3514752388000488, 'learning_rate': 2.5581e-05, 'epoch': 15.74}
+{'loss': 0.2363, 'grad_norm': 1.174109935760498, 'learning_rate': 2.5584e-05, 'epoch': 15.74}
+{'loss': 0.2025, 'grad_norm': 0.7513344883918762, 'learning_rate': 2.5587e-05, 'epoch': 15.74}
+{'loss': 0.1719, 'grad_norm': 0.631834089756012, 'learning_rate': 2.559e-05, 'epoch': 15.74}
+{'loss': 0.1275, 'grad_norm': 0.7519591450691223, 'learning_rate': 2.5593e-05, 'epoch': 15.75}
+{'loss': 0.1259, 'grad_norm': 0.5671206712722778, 'learning_rate': 2.5596e-05, 'epoch': 15.75}
+{'loss': 0.1023, 'grad_norm': 0.6367517113685608, 'learning_rate': 2.5599e-05, 'epoch': 15.75}
+{'loss': 0.0637, 'grad_norm': 0.4786352515220642, 'learning_rate': 2.5602000000000003e-05, 'epoch': 15.75}
+{'loss': 0.0849, 'grad_norm': 0.5861334204673767, 'learning_rate': 2.5605000000000003e-05, 'epoch': 15.75}
+{'loss': 0.1039, 'grad_norm': 0.9659382700920105, 'learning_rate': 2.5608000000000003e-05, 'epoch': 15.76}
+{'loss': 0.061, 'grad_norm': 0.48477768898010254, 'learning_rate': 2.5611000000000003e-05, 'epoch': 15.76}
+{'loss': 0.0569, 'grad_norm': 0.4459925591945648, 'learning_rate': 2.5614000000000002e-05, 'epoch': 15.76}
+{'loss': 0.0975, 'grad_norm': 0.7846724390983582, 'learning_rate': 2.5617e-05, 'epoch': 15.76}
+{'loss': 0.0602, 'grad_norm': 0.4942132830619812, 'learning_rate': 2.562e-05, 'epoch': 15.76}
+{'loss': 0.0484, 'grad_norm': 0.47594746947288513, 'learning_rate': 2.5623e-05, 'epoch': 15.76}
+  9%|▊         | 8545/100000 [4:40:45<49:47:39,  1.96s/it]  9%|▊         | 8546/100000 [4:40:47<47:05:42,  1.85s/it]                                                            9%|▊         | 8546/100000 [4:40:47<47:05:42,  1.85s/it]  9%|▊         | 8547/100000 [4:40:49<45:20:06,  1.78s/it]                                                            9%|▊         | 8547/100000 [4:40:49<45:20:06,  1.78s/it]  9%|▊         | 8548/100000 [4:40:50<43:51:42,  1.73s/it]                                                            9%|▊         | 8548/100000 [4:40:50<43:51:42,  1.73s/it]  9%|▊         | 8549/100000 [4:40:52<42:21:59,  1.67s/it]                                                            9%|▊         | 8549/100000 [4:40:52<42:21:59,  1.67s/it]  9%|▊         | 8550/100000 [4:40:53<40:57:53,  1.61s/it]                                                            9%|▊         | 8550/100000 [4:40:53<40:57:53,  1.61s/it]  9%|▊         | 8551/100000 [4:40:55<39:25:28,  1.55s/it]                                                            9%|▊         | 8551/100000 [4:40:55<39:25:28,  1.55s/it]  9%|▊         | 8552/100000 [4:40:56<38:27:56,  1.51s/it]                                                            9%|▊         | 8552/100000 [4:40:56<38:27:56,  1.51s/it]  9%|▊         | 8553/100000 [4:40:58<37:42:07,  1.48s/it]                                                            9%|▊         | 8553/100000 [4:40:58<37:42:07,  1.48s/it]  9%|▊         | 8554/100000 [4:40:59<36:40:12,  1.44s/it]                                                            9%|▊         | 8554/100000 [4:40:59<36:40:12,  1.44s/it]  9%|▊         | 8555/100000 [4:41:00<36:10:18,  1.42s/it]                                                            9%|▊         | 8555/100000 [4:41:00<36:10:18,  1.42s/it]  9%|▊         | 8556/100000 [4:41:02<35:15:03,  1.39s/it]                                                            9%|▊         | 8556/100000 [4:41:02<35:15:03,  1.39s/it]  9%|▊         | 8557/100000 [4:41:03<34:52:35,  1.37s/it]                                                            9%|▊         | 8557/100000 [4:41:03<34:52:35,  1.37s/it]  9%|▊         | 8558/100000 [4:41:04<34:04:44,  1.34s/it]                                                            9%|▊         | 8558/100000 [4:41:04<34:04:44,  1.34s/it]  9%|▊         | 8559/100000 [4:41:05<33:33:51,  1.32s/it]                                                            9%|▊         | 8559/100000 [4:41:05<33:33:51,  1.32s/it]  9%|▊         | 8560/100000 [4:41:07<32:57:52,  1.30s/it]                                                            9%|▊         | 8560/100000 [4:41:07<32:57:52,  1.30s/it]  9%|▊         | 8561/100000 [4:41:08<32:36:02,  1.28s/it]                                                            9%|▊         | 8561/100000 [4:41:08<32:36:02,  1.28s/it]  9%|▊         | 8562/100000 [4:41:09<32:00:49,  1.26s/it]                                                            9%|▊         | 8562/100000 [4:41:09<32:00:49,  1.26s/it]  9%|▊         | 8563/100000 [4:41:10<31:48:33,  1.25s/it]                                                            9%|▊         | 8563/100000 [4:41:10<31:48:33,  1.25s/it]  9%|▊         | 8564/100000 [4:41:12<31:20:16,  1.23s/it]                                                            9%|▊         | 8564/100000 [4:41:12<31:20:16,  1.23s/it]  9%|▊         | 8565/100000 [4:41:13<30:52:13,  1.22s/it]                                                            9%|▊         | 8565/100000 [4:41:13<30:52:13,  1.22s/it]  9%|▊         | 8566/100000 [4:41:14<30:22:42,  1.20s/it]                                                            9%|▊         | 8566/100000 [4:41:14<30:22:42,  1.20s/it]  9%|▊         | 8567/100000 [4:41:15<29:58:19,  1.18s/it]                                                            9%|▊         | 8567/100000 [4:41:15<29:58:19,  1.18s/it]  9%|▊         | 8568/100000 [4:41:16<29:31:24,  1.16s/it]                                                            9%|▊         | 8568/100000 [4:41:16<29:31:24,  1.16s/it]  9%|▊         | 8569/100000 [4:41:17<28:59:18,  1.14s/it]                                                            9%|▊         | 8569/100000 [4:41:17<28:59:18,  1.14s/it]  9%|▊         | 8570/100000 [4:41:18<28:39:21,  1.13s/it]                                                            9%|▊         | 8570/100000 [4:41:18<28:39:21,  1.13s/it]  9%|▊         | 8571/100000 [4:41:19<28:12:43,  1.11s/it]                                                            9%|▊         | 8571/100000 [4:41:19<28:12:43,  1.11s/it]  9%|▊         | 8572/100000 [4:41:20<27:53:06,  1.10s/it]                                                            9%|▊         | 8572/100000 [4:41:20<27:53:06,  1.10s/it]  9%|▊         | 8573/100000 [4:41:22<27:25:57,  1.08s/it]                                                            9%|▊         | 8573/100000 [4:41:22<27:25:57,  1.08s/it]  9%|▊         | 8574/100000 [4:41:23<27:00:40,  1.06s/it]                                                            9%|▊         | 8574/100000 [4:41:23<27:00:40,  1.06s/it]  9%|▊         | 8575/100000 [4:41:24<26:20:17,  1.04s/it]                                                            9%|▊         | 8575/100000 [4:41:24<26:20:17,  1.04s/it]  9%|▊         | 8576/100000 [4:41:25<25:59:05,  1.02s/it]                                                            9%|▊         | 8576/100000 [4:41:25<25:59:05,  1.02s/it]  9%|▊         | 8577/100000 [4:41:25<25:35:44,  1.01s/it]                                                            9%|▊         | 8577/100000 [4:41:25<25:35:44,  1.01s/it]  9%|▊         | 8578/100000 [4:41:26<25:03:06,  1.01it/s]                                                            9%|▊         | 8578/100000 [4:41:26<25:03:06,  1.01it/s]  9%|▊         | 8579/100000 [4:41:27<24:50:34,  1.02it/s]                                                            9%|▊         | 8579/100000 [4:41:27<24:50:34,  1.02it/s]  9%|▊         | 8580/100000 [4:41:28<23:54:07,  1.06it/s]                                                            9%|▊         | 8580/100000 [4:41:28<23:54:07,  1.06it/s]  9%|▊         | 8581/100000 [4:41:39<102:13:30,  4.03s/it]                                                             9%|▊         | 8581/100000 [4:41:39<102:13:30,  4.03s/it]  9%|▊         | 8582/100000 [4:41:45<116:08:23,  4.57s/it]                                                             9%|▊         | 8582/100000 [4:41:45<116:08:23,  4.57s/it]  9%|▊         | 8583/100000 [4:41:50<117:00:59,  4.61s/it]                                                             9%|▊         | 8583/100000 [4:41:50<117:00:59,  4.61s/it]  9%|▊         | 8584/100000 [4:41:54<110:23:37,  4.35s/it]                                                             9%|▊         | 8584/100000 [4:41:54<110:23:37,  4.35s/it]  9%|▊         | 8585/100000 [4:41:58<106:05:12,  4.18s/it]                                                             9%|▊         | 8585/100000 [4:41:58<106:05:12,  4.18s/it]  9%|▊         | 8586/100000 [4:42:01<98:43:20,  3.89s/it]                                                             9%|▊         | 8586/100000 [4:42:01<98:43:20,  3.89s/it]  9%|▊         | 8587/100000 [4:42:04<91:48:39,  3.62s/it]                                                            9%|▊         | 8587/100000 [4:42:04<91:48:39,  3.62s/it]  9%|▊         | 8588/100000 [4:42:06<84:54:28,  3.34s/it]                                                            9%|▊         | 8588/100000 [4:42:06<84:54:28,  3.34s/it]  9%|▊         | 8589/100000 [4:42:09<78:24:42,  3.09s/it]                                                            9%|▊         | 8589/100000 [4:42:09<78:24:42,  3.09s/it]  9%|▊         | 8590/100000 [4:42:11<72:41:24,  2.86s/it]                                                            9%|▊         | 8590/100000 [4:42:11<72:41:24,  2.86s/it]  9%|▊         | 8591/100000 [4:42:13<67:27:53,  2.66s/it]                                                            9%|▊         | 8591/100000 [4:42:13<67:27:53,  2.66s/it]  9%|▊         | 8592/100000 [4:42:15<62:13:26,  2.45s/it]                                                            9%|▊         | 8592/100000 [4:42:15<62:13:26,  2.45s/it]  9%|▊         | 8593/100000 [4:42:17<57:51:37,  2.28s/it]                                                            9%|▊         | 8593/100000 [4:42:17<57:51:37,  2.28s/it]  9%|▊         | 8594/100000 [4:42:19<53:45:30,  2.12s/it]                                                            9%|▊         | 8594/100000 [4:42:19<53:45:30,  2.12s/it]  9%|▊         | 8595/100000 [4:42:21<50:31:50,  1.99s/it]                                                            9%|▊         | 8595/100000 [4:42:21<50:31:50,  1.99s/it]  9%|▊         | 8596/100000 [4:42:22<47:35:37,  1.87s/it]                                                            9%|▊         | 8596/100000 [4:42:22<47:35:37,  1.87s/it]  9%|▊         | 8597/100000 [4:42:24<45:08:48,  1.78s/it]                                                            9%|▊         | 8597/100000 [4:42:24<45:08:48,  1.78s/it]  9%|▊         | 8598/100000 [4:42:25<43:12:19,  1.70s/it]                                                            9%|▊         | 8598/100000 [4:42:25<43:12:19,  1.70s/it]  9%|▊         | 8599/100000 [4:42:27<41:26:10,  1.63s/it]                                                            9%|▊         | 8599/100000 [4:42:27<41:26:10,  1.63s/it]  9%|▊         | 8600/100000 [4:42:28<40:16:23,  1.59s/it]                                                            9%|▊         | 8600/100000 [4:42:28<40:16:23,  1.59s/it]  9%|▊         | 8601/100000 [4:42:30<38:48:10,  1.53s/it]                                                            9%|▊         | 8601/100000 [4:42:30<38:48:10,  1.53s/it]  9%|▊         | 8602/100000 [4:42:31<38:02:45,  1.50s/it]                                                            9%|▊         | 8602/100000 [4:42:31<38:02:45,  1.50s/it]  9%|▊         | 8603/100000 [4:42:33<37:18:47,  1.47s/it]                                                            9%|▊         | 8603/100000 [4:42:33<37:18:47,  1.47s/it]  9%|▊         | 8604/100000 [4:42:34<36:36:18,  1.44s/it]                                                            9%|▊         | 8604/100000 [4:42:34<36:36:18,  1.44s/it]  9%|▊         | 8605/100000 [4:42:35<35:36:16,  1.40s/it]                                                            9%|▊         | 8605/100000 [4:42:35<35:36:16,  1.40s/it]  9%|▊         | 8606/100000 [4:42:37<35:14:32,  1.39s/it]                                                            9%|▊         | 8606/100000 [4:42:37<35:14:32,  1.39s/it]  9%|▊         | 8607/100000 [4:42:38<34:48:10,  1.37s/it]                                                            9%|▊         | 8607/100000 [4:42:38<34:48:10,  1.37s/it]  9%|▊         | 8608/100000 [4:42:39<34:11:53,  1.35s/it]                                                            9%|▊         | 8608/100000 [4:42:39<34:11:53,  1.35s/it]  9%|▊         | 8609/100000 [4:42:41<33:43:14,  1.33s/it]                                                            9%|▊         | 8609/100000 [4:42:41<33:43:14,  1.33s/it]  9%|▊         | 8610/100000 [4:42:42<33:22:44,  1.31s/it]                                                            9%|▊         | 8610/100000 [4:42:42<33:22:44,  1.31s/it]  9%|▊         | 8611/100000 [4:42:43<32:50:08,  1.29s/it]                                                            9%|▊         | 8611/100000 [4:42:43<32:50:08,  1.29s/it]  9%|▊         | 8612/100000 [4:42:44<32:05:14,  1.26s/it]                                                            9%|▊         | 8612/100000 [4:42:44<32:05:14,  1.26s/it]  9%|▊         | 8613/100000 [4:42:45<31:45:26,  1.25s/it]                                                            9%|▊         | 8613/100000 [4:42:45<31:45:26,  1.25s/it]  9%|▊         | 8614/100000 [4:42:47<30:58:38,  1.22s/it]                                                            9%|▊         | 8614/100000 [4:42:47<30:58:38,  1.22s/it]  9%|▊         | 8615/100000 [4:42:48<30:26:08,  1.20s/it]                                                            9%|▊         | 8615/100000 [4:42:48<30:26:08,  1.20s/it]  9%|▊         | 8616/100000 [4:42:49<30:04:44,  1.18s/it]                                                            9%|▊         | 8616/100000 [4:42:49<30:04:44,  1.18s/it]  9%|▊         | 8617/100000 [4:42:50<29:48:16,  1.17s/it]                                                            9%|▊         | 8617/100000 [4:42:50<29:48:16,  1.17s/it]  9%|▊         | 8618/100000 [4:42:51<29:30:31,  1.16s/it]                                                            9%|▊         | 8618/100000 [4:42:51<29:30:31,  1.16s/it]  9%|▊         | 8619/100000 [4:42:52<28:59:52,  1.14s/it]                                                            9%|▊         | 8619/100000 [4:42:52<28:59:52,  1.14s/it]  9%|▊         | 8620/100000 [4:42:53<28:37:30,  1.13s/it]                                                            9%|▊         | 8620/100000 [4:42:53<28:37:30,  1.13s/it]  9%|▊         | 8621/100000 [4:42:54<28:17:31,  1.11s/it]                                                            9%|▊         | 8621/100000 [4:42:54<28:17:31,  1.11s/it]  9%|▊         | 8622/100000 [4:42:56<27:58:08,  1.10s/it]                                                            9%|▊         | 8622/100000 [4:42:56<27:58:08,  1.10s/it]  9%|▊         | 8623/100000 [4:42:57<27:40:16,  1.09s/it]                                                            9%|▊         | 8623/100000 [4:42:57<27:40:16,  1.09s/it]  9%|▊         | 8624/100000 [4:42:58<27:15:58,  1.07s/it]                                                            9%|▊         | 8624/100000 [4:42:58<27:15:58,  1.07s/it]  9%|▊         | 8625/100000 [4:42:59<26:41:31,  1.05s/it]                                                            9%|▊         | 8625/100000 [4:42:59<26:41:31,  1.05s/it]  9%|▊         | 8626/100000 [4:43:00<26:09:27,  1.03s/it]                                                            9%|▊         | 8626/100000 [4:43:00<26:09:27,  1.03s/it]  9%|▊         | 8627/100000 [4:43:01<25:36:32,  1.01s/it]                                                            9%|▊         | 8627/100000 [4:43:01<25:36:32,  1.01s/it]  9%|▊         | 8628/100000 [4:43:02<25:16:19,  1.00it/s]                                                          {'loss': 0.031, 'grad_norm': 0.2541988492012024, 'learning_rate': 2.5625999999999998e-05, 'epoch': 15.77}
+{'loss': 0.0276, 'grad_norm': 0.37014615535736084, 'learning_rate': 2.5628999999999998e-05, 'epoch': 15.77}
+{'loss': 0.0331, 'grad_norm': 0.47405698895454407, 'learning_rate': 2.5632e-05, 'epoch': 15.77}
+{'loss': 0.0446, 'grad_norm': 0.3453981578350067, 'learning_rate': 2.5635e-05, 'epoch': 15.77}
+{'loss': 0.0215, 'grad_norm': 0.5440641045570374, 'learning_rate': 2.5638e-05, 'epoch': 15.77}
+{'loss': 0.0206, 'grad_norm': 0.20974309742450714, 'learning_rate': 2.5641e-05, 'epoch': 15.78}
+{'loss': 0.028, 'grad_norm': 0.6189224123954773, 'learning_rate': 2.5644e-05, 'epoch': 15.78}
+{'loss': 0.0184, 'grad_norm': 0.48690396547317505, 'learning_rate': 2.5647e-05, 'epoch': 15.78}
+{'loss': 0.025, 'grad_norm': 0.593185544013977, 'learning_rate': 2.565e-05, 'epoch': 15.78}
+{'loss': 0.0218, 'grad_norm': 1.684084415435791, 'learning_rate': 2.5653e-05, 'epoch': 15.78}
+{'loss': 0.0134, 'grad_norm': 0.21022409200668335, 'learning_rate': 2.5656e-05, 'epoch': 15.78}
+{'loss': 0.0152, 'grad_norm': 0.37620681524276733, 'learning_rate': 2.5659e-05, 'epoch': 15.79}
+{'loss': 0.0231, 'grad_norm': 0.2804875671863556, 'learning_rate': 2.5662000000000003e-05, 'epoch': 15.79}
+{'loss': 0.0104, 'grad_norm': 0.25551798939704895, 'learning_rate': 2.5665000000000002e-05, 'epoch': 15.79}
+{'loss': 0.0161, 'grad_norm': 0.3816471993923187, 'learning_rate': 2.5668000000000002e-05, 'epoch': 15.79}
+{'loss': 0.0188, 'grad_norm': 0.6349307298660278, 'learning_rate': 2.5671000000000002e-05, 'epoch': 15.79}
+{'loss': 0.041, 'grad_norm': 0.37047889828681946, 'learning_rate': 2.5674000000000002e-05, 'epoch': 15.8}
+{'loss': 0.0179, 'grad_norm': 0.6681861877441406, 'learning_rate': 2.5677e-05, 'epoch': 15.8}
+{'loss': 0.0259, 'grad_norm': 0.661729633808136, 'learning_rate': 2.568e-05, 'epoch': 15.8}
+{'loss': 0.0194, 'grad_norm': 0.3159634470939636, 'learning_rate': 2.5683e-05, 'epoch': 15.8}
+{'loss': 0.0103, 'grad_norm': 0.30529919266700745, 'learning_rate': 2.5686e-05, 'epoch': 15.8}
+{'loss': 0.0195, 'grad_norm': 0.4781964421272278, 'learning_rate': 2.5688999999999997e-05, 'epoch': 15.81}
+{'loss': 0.0169, 'grad_norm': 0.3040353059768677, 'learning_rate': 2.5692e-05, 'epoch': 15.81}
+{'loss': 0.0193, 'grad_norm': 0.6087676882743835, 'learning_rate': 2.5695e-05, 'epoch': 15.81}
+{'loss': 0.0268, 'grad_norm': 0.5178345441818237, 'learning_rate': 2.5698e-05, 'epoch': 15.81}
+{'loss': 0.0255, 'grad_norm': 0.3992609679698944, 'learning_rate': 2.5701e-05, 'epoch': 15.81}
+{'loss': 0.0186, 'grad_norm': 0.404962956905365, 'learning_rate': 2.5704e-05, 'epoch': 15.81}
+{'loss': 0.0143, 'grad_norm': 0.4101698696613312, 'learning_rate': 2.5707e-05, 'epoch': 15.82}
+{'loss': 0.0072, 'grad_norm': 0.34589701890945435, 'learning_rate': 2.571e-05, 'epoch': 15.82}
+{'loss': 0.0127, 'grad_norm': 0.33388593792915344, 'learning_rate': 2.5713e-05, 'epoch': 15.82}
+{'loss': 0.0251, 'grad_norm': 0.5369555354118347, 'learning_rate': 2.5716e-05, 'epoch': 15.82}
+{'loss': 0.0163, 'grad_norm': 0.7632960677146912, 'learning_rate': 2.5719e-05, 'epoch': 15.82}
+{'loss': 0.013, 'grad_norm': 0.38925424218177795, 'learning_rate': 2.5722000000000002e-05, 'epoch': 15.83}
+{'loss': 0.026, 'grad_norm': 0.43634846806526184, 'learning_rate': 2.5725000000000002e-05, 'epoch': 15.83}
+{'loss': 0.0209, 'grad_norm': 0.60167396068573, 'learning_rate': 2.5728e-05, 'epoch': 15.83}
+{'loss': 0.0264, 'grad_norm': 2.016740322113037, 'learning_rate': 2.5731e-05, 'epoch': 15.83}
+{'loss': 0.1981, 'grad_norm': 0.6113871932029724, 'learning_rate': 2.5734e-05, 'epoch': 15.83}
+{'loss': 0.1967, 'grad_norm': 0.5366085767745972, 'learning_rate': 2.5737e-05, 'epoch': 15.83}
+{'loss': 0.1343, 'grad_norm': 0.720666229724884, 'learning_rate': 2.574e-05, 'epoch': 15.84}
+{'loss': 0.1563, 'grad_norm': 0.5490646958351135, 'learning_rate': 2.5743e-05, 'epoch': 15.84}
+{'loss': 0.1194, 'grad_norm': 1.0201573371887207, 'learning_rate': 2.5746e-05, 'epoch': 15.84}
+{'loss': 0.1354, 'grad_norm': 0.49989888072013855, 'learning_rate': 2.5749e-05, 'epoch': 15.84}
+{'loss': 0.0918, 'grad_norm': 0.3904455602169037, 'learning_rate': 2.5752000000000003e-05, 'epoch': 15.84}
+{'loss': 0.0916, 'grad_norm': 0.5409448146820068, 'learning_rate': 2.5755000000000003e-05, 'epoch': 15.85}
+{'loss': 0.113, 'grad_norm': 0.6536295413970947, 'learning_rate': 2.5758000000000003e-05, 'epoch': 15.85}
+{'loss': 0.0632, 'grad_norm': 0.5758427381515503, 'learning_rate': 2.5761000000000003e-05, 'epoch': 15.85}
+{'loss': 0.0726, 'grad_norm': 0.7237721085548401, 'learning_rate': 2.5764e-05, 'epoch': 15.85}
+{'loss': 0.0357, 'grad_norm': 0.30059942603111267, 'learning_rate': 2.5767e-05, 'epoch': 15.85}
+{'loss': 0.0456, 'grad_norm': 0.26866260170936584, 'learning_rate': 2.577e-05, 'epoch': 15.86}
+{'loss': 0.0887, 'grad_norm': 0.506643533706665, 'learning_rate': 2.5773e-05, 'epoch': 15.86}
+{'loss': 0.0334, 'grad_norm': 0.31971853971481323, 'learning_rate': 2.5776e-05, 'epoch': 15.86}
+{'loss': 0.045, 'grad_norm': 0.30274417996406555, 'learning_rate': 2.5779e-05, 'epoch': 15.86}
+{'loss': 0.0305, 'grad_norm': 0.44081827998161316, 'learning_rate': 2.5782e-05, 'epoch': 15.86}
+{'loss': 0.0405, 'grad_norm': 0.6209914684295654, 'learning_rate': 2.5785e-05, 'epoch': 15.86}
+{'loss': 0.0168, 'grad_norm': 1.5701161623001099, 'learning_rate': 2.5788e-05, 'epoch': 15.87}
+{'loss': 0.0203, 'grad_norm': 0.6633787155151367, 'learning_rate': 2.5791e-05, 'epoch': 15.87}
+{'loss': 0.0113, 'grad_norm': 0.3315002918243408, 'learning_rate': 2.5794e-05, 'epoch': 15.87}
+{'loss': 0.0359, 'grad_norm': 0.44118741154670715, 'learning_rate': 2.5797e-05, 'epoch': 15.87}
+{'loss': 0.0212, 'grad_norm': 0.8586814999580383, 'learning_rate': 2.58e-05, 'epoch': 15.87}
+{'loss': 0.0188, 'grad_norm': 0.6964927911758423, 'learning_rate': 2.5803e-05, 'epoch': 15.88}
+{'loss': 0.0134, 'grad_norm': 0.4353424608707428, 'learning_rate': 2.5806e-05, 'epoch': 15.88}
+{'loss': 0.0218, 'grad_norm': 0.43677806854248047, 'learning_rate': 2.5809e-05, 'epoch': 15.88}
+{'loss': 0.0115, 'grad_norm': 0.41412249207496643, 'learning_rate': 2.5812000000000003e-05, 'epoch': 15.88}
+{'loss': 0.0131, 'grad_norm': 0.3291482627391815, 'learning_rate': 2.5815000000000003e-05, 'epoch': 15.88}
+{'loss': 0.0141, 'grad_norm': 0.683460533618927, 'learning_rate': 2.5818000000000003e-05, 'epoch': 15.88}
+{'loss': 0.0231, 'grad_norm': 0.6479490995407104, 'learning_rate': 2.5821000000000002e-05, 'epoch': 15.89}
+{'loss': 0.0112, 'grad_norm': 0.259980171918869, 'learning_rate': 2.5824000000000002e-05, 'epoch': 15.89}
+{'loss': 0.0096, 'grad_norm': 0.2572813630104065, 'learning_rate': 2.5827000000000002e-05, 'epoch': 15.89}
+{'loss': 0.0119, 'grad_norm': 0.45563334226608276, 'learning_rate': 2.5830000000000002e-05, 'epoch': 15.89}
+{'loss': 0.0119, 'grad_norm': 0.31853538751602173, 'learning_rate': 2.5833e-05, 'epoch': 15.89}
+{'loss': 0.014, 'grad_norm': 0.2511363923549652, 'learning_rate': 2.5835999999999998e-05, 'epoch': 15.9}
+{'loss': 0.0103, 'grad_norm': 0.24003857374191284, 'learning_rate': 2.5838999999999998e-05, 'epoch': 15.9}
+{'loss': 0.0221, 'grad_norm': 0.3936110734939575, 'learning_rate': 2.5842e-05, 'epoch': 15.9}
+{'loss': 0.0199, 'grad_norm': 0.519484281539917, 'learning_rate': 2.5845e-05, 'epoch': 15.9}
+{'loss': 0.022, 'grad_norm': 0.9927149415016174, 'learning_rate': 2.5848e-05, 'epoch': 15.9}
+{'loss': 0.0233, 'grad_norm': 0.8863538503646851, 'learning_rate': 2.5851e-05, 'epoch': 15.9}
+{'loss': 0.012, 'grad_norm': 0.2927561402320862, 'learning_rate': 2.5854e-05, 'epoch': 15.91}
+{'loss': 0.0304, 'grad_norm': 0.6133517026901245, 'learning_rate': 2.5857e-05, 'epoch': 15.91}
+{'loss': 0.0228, 'grad_norm': 0.5118392109870911, 'learning_rate': 2.586e-05, 'epoch': 15.91}
+{'loss': 0.0119, 'grad_norm': 0.42478421330451965, 'learning_rate': 2.5863e-05, 'epoch': 15.91}
+{'loss': 0.0203, 'grad_norm': 0.46227601170539856, 'learning_rate': 2.5866e-05, 'epoch': 15.91}
+{'loss': 0.014, 'grad_norm': 0.6137253642082214, 'learning_rate': 2.5869e-05, 'epoch': 15.92}
+{'loss': 0.0196, 'grad_norm': 0.7873435616493225, 'learning_rate': 2.5872000000000002e-05, 'epoch': 15.92}
+  9%|▊         | 8628/100000 [4:43:02<25:16:19,  1.00it/s]  9%|▊         | 8629/100000 [4:43:02<24:42:36,  1.03it/s]                                                            9%|▊         | 8629/100000 [4:43:02<24:42:36,  1.03it/s]  9%|▊         | 8630/100000 [4:43:03<23:46:25,  1.07it/s]                                                            9%|▊         | 8630/100000 [4:43:03<23:46:25,  1.07it/s]  9%|▊         | 8631/100000 [4:43:15<102:08:07,  4.02s/it]                                                             9%|▊         | 8631/100000 [4:43:15<102:08:07,  4.02s/it]  9%|▊         | 8632/100000 [4:43:20<111:14:58,  4.38s/it]                                                             9%|▊         | 8632/100000 [4:43:20<111:14:58,  4.38s/it]  9%|▊         | 8633/100000 [4:43:24<110:49:53,  4.37s/it]                                                             9%|▊         | 8633/100000 [4:43:24<110:49:53,  4.37s/it]  9%|▊         | 8634/100000 [4:43:28<106:11:57,  4.18s/it]                                                             9%|▊         | 8634/100000 [4:43:28<106:11:57,  4.18s/it]  9%|▊         | 8635/100000 [4:43:31<100:07:47,  3.95s/it]                                                             9%|▊         | 8635/100000 [4:43:31<100:07:47,  3.95s/it]  9%|▊         | 8636/100000 [4:43:34<92:11:19,  3.63s/it]                                                             9%|▊         | 8636/100000 [4:43:34<92:11:19,  3.63s/it]  9%|▊         | 8637/100000 [4:43:37<85:10:24,  3.36s/it]                                                            9%|▊         | 8637/100000 [4:43:37<85:10:24,  3.36s/it]  9%|▊         | 8638/100000 [4:43:39<78:34:09,  3.10s/it]                                                            9%|▊         | 8638/100000 [4:43:39<78:34:09,  3.10s/it]  9%|▊         | 8639/100000 [4:43:42<72:22:18,  2.85s/it]                                                            9%|▊         | 8639/100000 [4:43:42<72:22:18,  2.85s/it]  9%|▊         | 8640/100000 [4:43:44<66:54:22,  2.64s/it]                                                            9%|▊         | 8640/100000 [4:43:44<66:54:22,  2.64s/it]  9%|▊         | 8641/100000 [4:43:46<61:48:14,  2.44s/it]                                                            9%|▊         | 8641/100000 [4:43:46<61:48:14,  2.44s/it]  9%|▊         | 8642/100000 [4:43:48<57:06:07,  2.25s/it]                                                            9%|▊         | 8642/100000 [4:43:48<57:06:07,  2.25s/it]  9%|▊         | 8643/100000 [4:43:49<53:00:28,  2.09s/it]                                                            9%|▊         | 8643/100000 [4:43:49<53:00:28,  2.09s/it]  9%|▊         | 8644/100000 [4:43:51<49:21:48,  1.95s/it]                                                            9%|▊         | 8644/100000 [4:43:51<49:21:48,  1.95s/it]  9%|▊         | 8645/100000 [4:43:52<46:33:52,  1.83s/it]                                                            9%|▊         | 8645/100000 [4:43:52<46:33:52,  1.83s/it]  9%|▊         | 8646/100000 [4:43:54<44:06:57,  1.74s/it]                                                            9%|▊         | 8646/100000 [4:43:54<44:06:57,  1.74s/it]  9%|▊         | 8647/100000 [4:43:55<41:45:08,  1.65s/it]                                                            9%|▊         | 8647/100000 [4:43:55<41:45:08,  1.65s/it]  9%|▊         | 8648/100000 [4:43:57<39:59:53,  1.58s/it]                                                            9%|▊         | 8648/100000 [4:43:57<39:59:53,  1.58s/it]  9%|▊         | 8649/100000 [4:43:58<38:35:29,  1.52s/it]                                                            9%|▊         | 8649/100000 [4:43:58<38:35:29,  1.52s/it]  9%|▊         | 8650/100000 [4:44:00<37:14:49,  1.47s/it]                                                            9%|▊         | 8650/100000 [4:44:00<37:14:49,  1.47s/it]  9%|▊         | 8651/100000 [4:44:01<35:54:39,  1.42s/it]                                                            9%|▊         | 8651/100000 [4:44:01<35:54:39,  1.42s/it]  9%|▊         | 8652/100000 [4:44:02<35:14:54,  1.39s/it]                                                            9%|▊         | 8652/100000 [4:44:02<35:14:54,  1.39s/it]  9%|▊         | 8653/100000 [4:44:03<34:41:14,  1.37s/it]                                                            9%|▊         | 8653/100000 [4:44:03<34:41:14,  1.37s/it]  9%|▊         | 8654/100000 [4:44:05<34:07:23,  1.34s/it]                                                            9%|▊         | 8654/100000 [4:44:05<34:07:23,  1.34s/it]  9%|▊         | 8655/100000 [4:44:06<33:21:48,  1.31s/it]                                                            9%|▊         | 8655/100000 [4:44:06<33:21:48,  1.31s/it]  9%|▊         | 8656/100000 [4:44:07<32:45:46,  1.29s/it]                                                            9%|▊         | 8656/100000 [4:44:07<32:45:46,  1.29s/it]  9%|▊         | 8657/100000 [4:44:08<32:08:30,  1.27s/it]                                                            9%|▊         | 8657/100000 [4:44:08<32:08:30,  1.27s/it]  9%|▊         | 8658/100000 [4:44:10<31:50:44,  1.26s/it]                                                            9%|▊         | 8658/100000 [4:44:10<31:50:44,  1.26s/it]  9%|▊         | 8659/100000 [4:44:11<30:54:35,  1.22s/it]                                                            9%|▊         | 8659/100000 [4:44:11<30:54:35,  1.22s/it]  9%|▊         | 8660/100000 [4:44:12<30:24:04,  1.20s/it]                                                            9%|▊         | 8660/100000 [4:44:12<30:24:04,  1.20s/it]  9%|▊         | 8661/100000 [4:44:13<29:41:00,  1.17s/it]                                                            9%|▊         | 8661/100000 [4:44:13<29:41:00,  1.17s/it]  9%|▊         | 8662/100000 [4:44:14<29:05:43,  1.15s/it]                                                            9%|▊         | 8662/100000 [4:44:14<29:05:43,  1.15s/it]  9%|▊         | 8663/100000 [4:44:15<28:26:08,  1.12s/it]                                                            9%|▊         | 8663/100000 [4:44:15<28:26:08,  1.12s/it]  9%|▊         | 8664/100000 [4:44:16<28:01:39,  1.10s/it]                                                            9%|▊         | 8664/100000 [4:44:16<28:01:39,  1.10s/it]  9%|▊         | 8665/100000 [4:44:17<27:43:04,  1.09s/it]                                                            9%|▊         | 8665/100000 [4:44:17<27:43:04,  1.09s/it]  9%|▊         | 8666/100000 [4:44:18<27:18:15,  1.08s/it]                                                            9%|▊         | 8666/100000 [4:44:18<27:18:15,  1.08s/it]  9%|▊         | 8667/100000 [4:44:19<26:38:55,  1.05s/it]                                                            9%|▊         | 8667/100000 [4:44:19<26:38:55,  1.05s/it]  9%|▊         | 8668/100000 [4:44:20<25:59:21,  1.02s/it]                                                            9%|▊         | 8668/100000 [4:44:20<25:59:21,  1.02s/it]  9%|▊         | 8669/100000 [4:44:21<25:11:55,  1.01it/s]                                                            9%|▊         | 8669/100000 [4:44:21<25:11:55,  1.01it/s]  9%|▊         | 8670/100000 [4:44:22<24:38:32,  1.03it/s]                                                            9%|▊         | 8670/100000 [4:44:22<24:38:32,  1.03it/s]  9%|▊         | 8671/100000 [4:44:23<23:43:27,  1.07it/s]                                                            9%|▊         | 8671/100000 [4:44:23<23:43:27,  1.07it/s]  9%|▊         | 8672/100000 [4:44:24<22:25:04,  1.13it/s]                                                            9%|▊         | 8672/100000 [4:44:24<22:25:04,  1.13it/s]{'loss': 0.0282, 'grad_norm': 1.0679621696472168, 'learning_rate': 2.5875000000000002e-05, 'epoch': 15.92}
+{'loss': 0.0101, 'grad_norm': 0.3143375813961029, 'learning_rate': 2.5878000000000002e-05, 'epoch': 15.92}
+{'loss': 0.0225, 'grad_norm': 1.0865501165390015, 'learning_rate': 2.5881000000000002e-05, 'epoch': 15.92}
+{'loss': 0.2034, 'grad_norm': 1.2255518436431885, 'learning_rate': 2.5884e-05, 'epoch': 15.93}
+{'loss': 0.1659, 'grad_norm': 0.8532062768936157, 'learning_rate': 2.5887e-05, 'epoch': 15.93}
+{'loss': 0.1113, 'grad_norm': 0.46837377548217773, 'learning_rate': 2.589e-05, 'epoch': 15.93}
+{'loss': 0.1057, 'grad_norm': 0.45477795600891113, 'learning_rate': 2.5893e-05, 'epoch': 15.93}
+{'loss': 0.1335, 'grad_norm': 0.715966522693634, 'learning_rate': 2.5896e-05, 'epoch': 15.93}
+{'loss': 0.0844, 'grad_norm': 0.5230908989906311, 'learning_rate': 2.5899e-05, 'epoch': 15.93}
+{'loss': 0.0792, 'grad_norm': 0.49790942668914795, 'learning_rate': 2.5902e-05, 'epoch': 15.94}
+{'loss': 0.0816, 'grad_norm': 0.6336291432380676, 'learning_rate': 2.5905000000000004e-05, 'epoch': 15.94}
+{'loss': 0.0695, 'grad_norm': 0.4619077444076538, 'learning_rate': 2.5908000000000003e-05, 'epoch': 15.94}
+{'loss': 0.0567, 'grad_norm': 0.4522983431816101, 'learning_rate': 2.5911e-05, 'epoch': 15.94}
+{'loss': 0.0483, 'grad_norm': 0.4374760687351227, 'learning_rate': 2.5914e-05, 'epoch': 15.94}
+{'loss': 0.0285, 'grad_norm': 0.36170950531959534, 'learning_rate': 2.5917e-05, 'epoch': 15.95}
+{'loss': 0.0634, 'grad_norm': 0.39567574858665466, 'learning_rate': 2.592e-05, 'epoch': 15.95}
+{'loss': 0.0238, 'grad_norm': 0.4324873089790344, 'learning_rate': 2.5923e-05, 'epoch': 15.95}
+{'loss': 0.0155, 'grad_norm': 0.4158211648464203, 'learning_rate': 2.5926e-05, 'epoch': 15.95}
+{'loss': 0.0335, 'grad_norm': 0.45500287413597107, 'learning_rate': 2.5929e-05, 'epoch': 15.95}
+{'loss': 0.0179, 'grad_norm': 0.3046945035457611, 'learning_rate': 2.5932e-05, 'epoch': 15.95}
+{'loss': 0.0238, 'grad_norm': 0.4032018780708313, 'learning_rate': 2.5935e-05, 'epoch': 15.96}
+{'loss': 0.0231, 'grad_norm': 0.3440537750720978, 'learning_rate': 2.5938e-05, 'epoch': 15.96}
+{'loss': 0.0209, 'grad_norm': 0.5092036724090576, 'learning_rate': 2.5941e-05, 'epoch': 15.96}
+{'loss': 0.0182, 'grad_norm': 0.3283311128616333, 'learning_rate': 2.5944e-05, 'epoch': 15.96}
+{'loss': 0.0148, 'grad_norm': 0.3121730387210846, 'learning_rate': 2.5947e-05, 'epoch': 15.96}
+{'loss': 0.0242, 'grad_norm': 0.9534308314323425, 'learning_rate': 2.595e-05, 'epoch': 15.97}
+{'loss': 0.0173, 'grad_norm': 0.47783422470092773, 'learning_rate': 2.5953e-05, 'epoch': 15.97}
+{'loss': 0.0154, 'grad_norm': 0.43015190958976746, 'learning_rate': 2.5956e-05, 'epoch': 15.97}
+{'loss': 0.0139, 'grad_norm': 0.25951239466667175, 'learning_rate': 2.5959e-05, 'epoch': 15.97}
+{'loss': 0.0122, 'grad_norm': 0.45808809995651245, 'learning_rate': 2.5962e-05, 'epoch': 15.97}
+{'loss': 0.0117, 'grad_norm': 0.4710130989551544, 'learning_rate': 2.5965000000000003e-05, 'epoch': 15.98}
+{'loss': 0.0205, 'grad_norm': 0.3743680715560913, 'learning_rate': 2.5968000000000003e-05, 'epoch': 15.98}
+{'loss': 0.0124, 'grad_norm': 0.24802172183990479, 'learning_rate': 2.5971000000000003e-05, 'epoch': 15.98}
+{'loss': 0.018, 'grad_norm': 0.5540706515312195, 'learning_rate': 2.5974000000000002e-05, 'epoch': 15.98}
+{'loss': 0.0117, 'grad_norm': 0.45025646686553955, 'learning_rate': 2.5977000000000002e-05, 'epoch': 15.98}
+{'loss': 0.0216, 'grad_norm': 0.5681506991386414, 'learning_rate': 2.5980000000000002e-05, 'epoch': 15.98}
+{'loss': 0.007, 'grad_norm': 0.23212771117687225, 'learning_rate': 2.5983000000000002e-05, 'epoch': 15.99}
+{'loss': 0.021, 'grad_norm': 0.7229043841362, 'learning_rate': 2.5985999999999998e-05, 'epoch': 15.99}
+{'loss': 0.0144, 'grad_norm': 0.3772416412830353, 'learning_rate': 2.5988999999999998e-05, 'epoch': 15.99}
+{'loss': 0.0222, 'grad_norm': 0.4555790424346924, 'learning_rate': 2.5991999999999998e-05, 'epoch': 15.99}
+{'loss': 0.0156, 'grad_norm': 0.5141981244087219, 'learning_rate': 2.5995e-05, 'epoch': 15.99}
+{'loss': 0.0207, 'grad_norm': 0.7101907730102539, 'learning_rate': 2.5998e-05, 'epoch': 16.0}
+{'loss': 0.0159, 'grad_norm': 0.2490791529417038, 'learning_rate': 2.6001e-05, 'epoch': 16.0}
+{'loss': 0.0144, 'grad_norm': 0.40662047266960144, 'learning_rate': 2.6004e-05, 'epoch': 16.0}
+{'loss': 0.0078, 'grad_norm': 0.4492111802101135, 'learning_rate': 2.6007e-05, 'epoch': 16.0}
+  9%|▊         | 8673/100000 [4:44:42<150:43:44,  5.94s/it]                                                             9%|▊         | 8673/100000 [4:44:42<150:43:44,  5.94s/it]  9%|▊         | 8674/100000 [4:44:47<150:30:37,  5.93s/it]                                                             9%|▊         | 8674/100000 [4:44:47<150:30:37,  5.93s/it]  9%|▊         | 8675/100000 [4:44:52<142:10:23,  5.60s/it]                                                             9%|▊         | 8675/100000 [4:44:52<142:10:23,  5.60s/it]  9%|▊         | 8676/100000 [4:44:56<128:59:50,  5.09s/it]                                                             9%|▊         | 8676/100000 [4:44:56<128:59:50,  5.09s/it]  9%|▊         | 8677/100000 [4:45:00<117:56:08,  4.65s/it]                                                             9%|▊         | 8677/100000 [4:45:00<117:56:08,  4.65s/it]  9%|▊         | 8678/100000 [4:45:03<107:41:09,  4.25s/it]                                                             9%|▊         | 8678/100000 [4:45:03<107:41:09,  4.25s/it]  9%|▊         | 8679/100000 [4:45:06<97:37:30,  3.85s/it]                                                             9%|▊         | 8679/100000 [4:45:06<97:37:30,  3.85s/it]  9%|▊         | 8680/100000 [4:45:09<89:01:35,  3.51s/it]                                                            9%|▊         | 8680/100000 [4:45:09<89:01:35,  3.51s/it]  9%|▊         | 8681/100000 [4:45:11<81:49:58,  3.23s/it]                                                            9%|▊         | 8681/100000 [4:45:11<81:49:58,  3.23s/it]  9%|▊         | 8682/100000 [4:45:14<75:22:04,  2.97s/it]                                                            9%|▊         | 8682/100000 [4:45:14<75:22:04,  2.97s/it]  9%|▊         | 8683/100000 [4:45:16<69:37:09,  2.74s/it]                                                            9%|▊         | 8683/100000 [4:45:16<69:37:09,  2.74s/it]  9%|▊         | 8684/100000 [4:45:18<64:19:58,  2.54s/it]                                                            9%|▊         | 8684/100000 [4:45:18<64:19:58,  2.54s/it]  9%|▊         | 8685/100000 [4:45:20<59:42:53,  2.35s/it]                                                            9%|���         | 8685/100000 [4:45:20<59:42:53,  2.35s/it]  9%|▊         | 8686/100000 [4:45:22<55:56:16,  2.21s/it]                                                            9%|▊         | 8686/100000 [4:45:22<55:56:16,  2.21s/it]  9%|▊         | 8687/100000 [4:45:23<52:27:49,  2.07s/it]                                                            9%|▊         | 8687/100000 [4:45:23<52:27:49,  2.07s/it]  9%|▊         | 8688/100000 [4:45:25<49:31:55,  1.95s/it]                                                            9%|▊         | 8688/100000 [4:45:25<49:31:55,  1.95s/it]  9%|▊         | 8689/100000 [4:45:27<46:38:02,  1.84s/it]                                                            9%|▊         | 8689/100000 [4:45:27<46:38:02,  1.84s/it]  9%|▊         | 8690/100000 [4:45:28<44:40:53,  1.76s/it]                                                            9%|▊         | 8690/100000 [4:45:28<44:40:53,  1.76s/it]  9%|▊         | 8691/100000 [4:45:30<43:02:15,  1.70s/it]                                                            9%|▊         | 8691/100000 [4:45:30<43:02:15,  1.70s/it]  9%|▊         | 8692/100000 [4:45:31<41:25:33,  1.63s/it]                                                            9%|▊         | 8692/100000 [4:45:31<41:25:33,  1.63s/it]  9%|▊         | 8693/100000 [4:45:33<39:58:17,  1.58s/it]                                                            9%|▊         | 8693/100000 [4:45:33<39:58:17,  1.58s/it]  9%|▊         | 8694/100000 [4:45:34<38:19:59,  1.51s/it]                                                            9%|▊         | 8694/100000 [4:45:34<38:19:59,  1.51s/it]  9%|▊         | 8695/100000 [4:45:36<37:24:30,  1.47s/it]                                                            9%|▊         | 8695/100000 [4:45:36<37:24:30,  1.47s/it]  9%|▊         | 8696/100000 [4:45:37<36:22:35,  1.43s/it]                                                            9%|▊         | 8696/100000 [4:45:37<36:22:35,  1.43s/it]  9%|▊         | 8697/100000 [4:45:38<35:57:29,  1.42s/it]                                                            9%|▊         | 8697/100000 [4:45:38<35:57:29,  1.42s/it]  9%|▊         | 8698/100000 [4:45:40<35:24:48,  1.40s/it]                                                            9%|▊         | 8698/100000 [4:45:40<35:24:48,  1.40s/it]  9%|▊         | 8699/100000 [4:45:41<34:35:40,  1.36s/it]                                                            9%|▊         | 8699/100000 [4:45:41<34:35:40,  1.36s/it]  9%|▊         | 8700/100000 [4:45:42<34:09:17,  1.35s/it]                                                            9%|▊         | 8700/100000 [4:45:42<34:09:17,  1.35s/it]  9%|▊         | 8701/100000 [4:45:43<33:37:08,  1.33s/it]                                                            9%|▊         | 8701/100000 [4:45:43<33:37:08,  1.33s/it]  9%|▊         | 8702/100000 [4:45:45<32:48:12,  1.29s/it]                                                            9%|▊         | 8702/100000 [4:45:45<32:48:12,  1.29s/it]  9%|▊         | 8703/100000 [4:45:46<32:40:24,  1.29s/it]                                                            9%|▊         | 8703/100000 [4:45:46<32:40:24,  1.29s/it]  9%|▊         | 8704/100000 [4:45:47<32:01:31,  1.26s/it]                                                            9%|▊         | 8704/100000 [4:45:47<32:01:31,  1.26s/it]  9%|▊         | 8705/100000 [4:45:48<31:49:18,  1.25s/it]                                                            9%|▊         | 8705/100000 [4:45:48<31:49:18,  1.25s/it]  9%|▊         | 8706/100000 [4:45:50<31:32:18,  1.24s/it]                                                            9%|▊         | 8706/100000 [4:45:50<31:32:18,  1.24s/it]  9%|▊         | 8707/100000 [4:45:51<30:43:33,  1.21s/it]                                                            9%|▊         | 8707/100000 [4:45:51<30:43:33,  1.21s/it]  9%|▊         | 8708/100000 [4:45:52<30:20:55,  1.20s/it]                                                            9%|▊         | 8708/100000 [4:45:52<30:20:55,  1.20s/it]  9%|▊         | 8709/100000 [4:45:53<29:36:25,  1.17s/it]                                                            9%|▊         | 8709/100000 [4:45:53<29:36:25,  1.17s/it]  9%|▊         | 8710/100000 [4:45:54<29:26:49,  1.16s/it]                                                            9%|▊         | 8710/100000 [4:45:54<29:26:49,  1.16s/it]  9%|▊         | 8711/100000 [4:45:55<28:58:05,  1.14s/it]                                                            9%|▊         | 8711/100000 [4:45:55<28:58:05,  1.14s/it]  9%|▊         | 8712/100000 [4:45:56<28:46:58,  1.14s/it]                                                            9%|▊         | 8712/100000 [4:45:56<28:46:58,  1.14s/it]  9%|▊         | 8713/100000 [4:45:58<28:31:21,  1.12s/it]                                                            9%|▊         | 8713/100000 [4:45:58<28:31:21,  1.12s/it]  9%|▊         | 8714/100000 [4:45:59<28:07:38,  1.11s/it]                                                            9%|▊         | 8714/100000 [4:45:59<28:07:38,  1.11s/it]  9%|▊         | 8715/100000 [4:46:00<27:31:45,  1.09s/it]                                                            9%|▊         | 8715/100000 [4:46:00<27:31:45,  1.09s/it]  9%|▊         | 8716/100000 [4:46:01<27:11:42,  1.07s/it]                                                            9%|▊         | 8716/100000 [4:46:01<27:11:42,  1.07s/it]  9%|▊         | 8717/100000 [4:46:02<26:33:37,  1.05s/it]                                                            9%|▊         | 8717/100000 [4:46:02<26:33:37,  1.05s/it]  9%|▊         | 8718/100000 [4:46:03<26:09:53,  1.03s/it]                                                            9%|▊         | 8718/100000 [4:46:03<26:09:53,  1.03s/it]  9%|▊         | 8719/100000 [4:46:04<25:48:23,  1.02s/it]                                                            9%|▊         | 8719/100000 [4:46:04<25:48:23,  1.02s/it]  9%|▊         | 8720/100000 [4:46:05<25:26:43,  1.00s/it]                                                            9%|▊         | 8720/100000 [4:46:05<25:26:43,  1.00s/it]  9%|▊         | 8721/100000 [4:46:05<24:44:22,  1.02it/s]                                                            9%|▊         | 8721/100000 [4:46:06<24:44:22,  1.02it/s]  9%|▊         | 8722/100000 [4:46:06<24:27:49,  1.04it/s]                                                            9%|▊         | 8722/100000 [4:46:06<24:27:49,  1.04it/s]  9%|▊         | 8723/100000 [4:46:18<102:04:47,  4.03s/it]                                                             9%|▊         | 8723/100000 [4:46:18<102:04:47,  4.03s/it]  9%|▊         | 8724/100000 [4:46:23<113:25:59,  4.47s/it]                                                             9%|▊         | 8724/100000 [4:46:23<113:25:59,  4.47s/it]  9%|▊         | 8725/100000 [4:46:28<115:16:35,  4.55s/it]                                                             9%|▊         | 8725/100000 [4:46:28<115:16:35,  4.55s/it]  9%|▊         | 8726/100000 [4:46:32<109:29:43,  4.32s/it]                                                             9%|▊         | 8726/100000 [4:46:32<109:29:43,  4.32s/it]  9%|▊         | 8727/100000 [4:46:35<102:30:04,  4.04s/it]                                                             9%|▊         | 8727/100000 [4:46:35<102:30:04,  4.04s/it]  9%|▊         | 8728/100000 [4:46:38<97:02:37,  3.83s/it]                                                             9%|▊         | 8728/100000 [4:46:38<97:02:37,  3.83s/it]  9%|▊         | 8729/100000 [4:46:41<90:43:39,  3.58s/it]                                                            9%|▊         | 8729/100000 [4:46:41<90:43:39,  3.58s/it]  9%|▊         | 8730/100000 [4:46:44<84:20:14,  3.33s/it]                                                            9%|▊         | 8730/100000 [4:46:44<84:20:14,  3.33s/it]  9%|▊         | 8731/100000 [4:46:47<77:42:17,  3.06s/it]                                                            9%|▊         | 8731/100000 [4:46:47<77:42:17,  3.06s/it]  9%|▊         | 8732/100000 [4:46:49<72:10:58,  2.85s/it]                                                            9%|▊         | 8732/100000 [4:46:49<72:10:58,  2.85s/it]  9%|▊         | 8733/100000 [4:46:51<66:35:26,  2.63s/it]                                                            9%|▊         | 8733/100000 [4:46:51<66:35:26,  2.63s/it]  9%|▊         | 8734/100000 [4:46:53<62:01:35,  2.45s/it]                                                            9%|▊         | 8734/100000 [4:46:53<62:01:35,  2.45s/it]  9%|▊         | 8735/100000 [4:46:55<58:11:42,  2.30s/it]                                                            9%|▊         | 8735/100000 [4:46:55<58:11:42,  2.30s/it]  9%|▊         | 8736/100000 [4:46:57<54:08:08,  2.14s/it]                                                            9%|▊         | 8736/100000 [4:46:57<54:08:08,  2.14s/it]  9%|▊         | 8737/100000 [4:46:58<50:38:34,  2.00s/it]                                                            9%|▊         | 8737/100000 [4:46:58<50:38:34,  2.00s/it]  9%|▊         | 8738/100000 [4:47:00<48:16:19,  1.90s/it]                                                            9%|▊         | 8738/100000 [4:47:00<48:16:19,  1.90s/it]  9%|▊         | 8739/100000 [4:47:02<45:26:11,  1.79s/it]                                                            9%|▊         | 8739/100000 [4:47:02<45:26:11,  1.79s/it]  9%|▊         | 8740/100000 [4:47:03<43:54:30,  1.73s/it]                                                            9%|▊         | 8740/100000 [4:47:03<43:54:30,  1.73s/it]  9%|▊         | 8741/100000 [4:47:05<42:12:12,  1.66s/it]                                                            9%|▊         | 8741/100000 [4:47:05<42:12:12,  1.66s/it]  9%|▊         | 8742/100000 [4:47:06<40:33:37,  1.60s/it]                                                            9%|▊         | 8742/100000 [4:47:06<40:33:37,  1.60s/it]  9%|▊         | 8743/100000 [4:47:08<39:09:56,  1.55s/it]                                                            9%|▊         | 8743/100000 [4:47:08<39:09:56,  1.55s/it]  9%|▊         | 8744/100000 [4:47:09<38:10:44,  1.51s/it]                                                            9%|▊         | 8744/100000 [4:47:09<38:10:44,  1.51s/it]  9%|▊         | 8745/100000 [4:47:10<37:29:50,  1.48s/it]                                                            9%|▊         | 8745/100000 [4:47:10<37:29:50,  1.48s/it]  9%|▊         | 8746/100000 [4:47:12<36:42:01,  1.45s/it]                                                            9%|▊         | 8746/100000 [4:47:12<36:42:01,  1.45s/it]  9%|▊         | 8747/100000 [4:47:13<36:00:32,  1.42s/it]                                                            9%|▊         | 8747/100000 [4:47:13<36:00:32,  1.42s/it]  9%|▊         | 8748/100000 [4:47:14<35:02:31,  1.38s/it]                                                            9%|▊         | 8748/100000 [4:47:14<35:02:31,  1.38s/it]  9%|▊         | 8749/100000 [4:47:16<34:28:22,  1.36s/it]                                                            9%|▊         | 8749/100000 [4:47:16<34:28:22,  1.36s/it]  9%|▉         | 8750/100000 [4:47:17<34:02:49,  1.34s/it]                                                            9%|▉         | 8750/100000 [4:47:17<34:02:49,  1.34s/it]  9%|▉         | 8751/100000 [4:47:18<33:35:55,  1.33s/it]                                                            9%|▉         | 8751/100000 [4:47:18<33:35:55,  1.33s/it]  9%|▉         | 8752/100000 [4:47:20<32:59:25,  1.30s/it]                                                            9%|▉         | 8752/100000 [4:47:20<32:59:25,  1.30s/it]  9%|▉         | 8753/100000 [4:47:21<32:31:50,  1.28s/it]                                                            9%|▉         | 8753/100000 [4:47:21<32:31:50,  1.28s/it]  9%|▉         | 8754/100000 [4:47:22<32:10:29,  1.27s/it]                                                            9%|▉         | 8754/100000 [4:47:22<32:10:29,  1.27s/it]  9%|▉         | 8755/100000 [4:47:23<31:50:26,  1.26s/it]                                                            9%|▉         | 8755/100000 [4:47:23<31:50:26,  1.26s/it]  9%|▉         | 8756/100000 [4:47:24<31:10:42,  1.23s/it]                                                          {'loss': 0.2018, 'grad_norm': 0.644540548324585, 'learning_rate': 2.601e-05, 'epoch': 16.0}
+{'loss': 0.1662, 'grad_norm': 0.6267561316490173, 'learning_rate': 2.6013e-05, 'epoch': 16.0}
+{'loss': 0.1051, 'grad_norm': 0.4369864761829376, 'learning_rate': 2.6016e-05, 'epoch': 16.01}
+{'loss': 0.119, 'grad_norm': 0.6001611948013306, 'learning_rate': 2.6019e-05, 'epoch': 16.01}
+{'loss': 0.0915, 'grad_norm': 0.46866223216056824, 'learning_rate': 2.6022e-05, 'epoch': 16.01}
+{'loss': 0.0853, 'grad_norm': 0.42183881998062134, 'learning_rate': 2.6025000000000002e-05, 'epoch': 16.01}
+{'loss': 0.1073, 'grad_norm': 0.6449214816093445, 'learning_rate': 2.6028000000000002e-05, 'epoch': 16.01}
+{'loss': 0.0924, 'grad_norm': 0.7335696816444397, 'learning_rate': 2.6031000000000002e-05, 'epoch': 16.01}
+{'loss': 0.1016, 'grad_norm': 0.7378032803535461, 'learning_rate': 2.6034000000000002e-05, 'epoch': 16.02}
+{'loss': 0.045, 'grad_norm': 0.6013514399528503, 'learning_rate': 2.6037e-05, 'epoch': 16.02}
+{'loss': 0.0536, 'grad_norm': 0.36441826820373535, 'learning_rate': 2.604e-05, 'epoch': 16.02}
+{'loss': 0.0506, 'grad_norm': 0.41581907868385315, 'learning_rate': 2.6043e-05, 'epoch': 16.02}
+{'loss': 0.0389, 'grad_norm': 0.29539382457733154, 'learning_rate': 2.6046e-05, 'epoch': 16.02}
+{'loss': 0.0536, 'grad_norm': 0.45296069979667664, 'learning_rate': 2.6049e-05, 'epoch': 16.03}
+{'loss': 0.0438, 'grad_norm': 0.5271998643875122, 'learning_rate': 2.6052e-05, 'epoch': 16.03}
+{'loss': 0.0438, 'grad_norm': 0.3643032908439636, 'learning_rate': 2.6055000000000004e-05, 'epoch': 16.03}
+{'loss': 0.0265, 'grad_norm': 0.3770063817501068, 'learning_rate': 2.6058e-05, 'epoch': 16.03}
+{'loss': 0.0203, 'grad_norm': 0.33927151560783386, 'learning_rate': 2.6061e-05, 'epoch': 16.03}
+{'loss': 0.0275, 'grad_norm': 0.34185677766799927, 'learning_rate': 2.6064e-05, 'epoch': 16.04}
+{'loss': 0.035, 'grad_norm': 0.26765990257263184, 'learning_rate': 2.6067e-05, 'epoch': 16.04}
+{'loss': 0.0165, 'grad_norm': 0.64670729637146, 'learning_rate': 2.607e-05, 'epoch': 16.04}
+{'loss': 0.0191, 'grad_norm': 0.32306674122810364, 'learning_rate': 2.6073e-05, 'epoch': 16.04}
+{'loss': 0.0151, 'grad_norm': 0.283189982175827, 'learning_rate': 2.6076e-05, 'epoch': 16.04}
+{'loss': 0.0103, 'grad_norm': 0.21966862678527832, 'learning_rate': 2.6079e-05, 'epoch': 16.04}
+{'loss': 0.0099, 'grad_norm': 0.30473917722702026, 'learning_rate': 2.6082e-05, 'epoch': 16.05}
+{'loss': 0.0066, 'grad_norm': 0.2754177451133728, 'learning_rate': 2.6085000000000002e-05, 'epoch': 16.05}
+{'loss': 0.0134, 'grad_norm': 0.2849455773830414, 'learning_rate': 2.6088e-05, 'epoch': 16.05}
+{'loss': 0.0099, 'grad_norm': 0.519327700138092, 'learning_rate': 2.6091e-05, 'epoch': 16.05}
+{'loss': 0.0102, 'grad_norm': 0.5305798649787903, 'learning_rate': 2.6094e-05, 'epoch': 16.05}
+{'loss': 0.0127, 'grad_norm': 0.7305449843406677, 'learning_rate': 2.6097e-05, 'epoch': 16.06}
+{'loss': 0.0167, 'grad_norm': 0.3311886787414551, 'learning_rate': 2.61e-05, 'epoch': 16.06}
+{'loss': 0.0069, 'grad_norm': 0.20189516246318817, 'learning_rate': 2.6103e-05, 'epoch': 16.06}
+{'loss': 0.0057, 'grad_norm': 0.2906367778778076, 'learning_rate': 2.6106e-05, 'epoch': 16.06}
+{'loss': 0.0093, 'grad_norm': 0.3915349543094635, 'learning_rate': 2.6109e-05, 'epoch': 16.06}
+{'loss': 0.0176, 'grad_norm': 0.3892596364021301, 'learning_rate': 2.6112e-05, 'epoch': 16.06}
+{'loss': 0.0191, 'grad_norm': 0.5112737417221069, 'learning_rate': 2.6115000000000003e-05, 'epoch': 16.07}
+{'loss': 0.0106, 'grad_norm': 0.5281062722206116, 'learning_rate': 2.6118000000000003e-05, 'epoch': 16.07}
+{'loss': 0.0182, 'grad_norm': 0.7477819919586182, 'learning_rate': 2.6121000000000003e-05, 'epoch': 16.07}
+{'loss': 0.0159, 'grad_norm': 0.43619078397750854, 'learning_rate': 2.6124000000000003e-05, 'epoch': 16.07}
+{'loss': 0.0111, 'grad_norm': 0.44052207469940186, 'learning_rate': 2.6127000000000002e-05, 'epoch': 16.07}
+{'loss': 0.0176, 'grad_norm': 0.3810107111930847, 'learning_rate': 2.6130000000000002e-05, 'epoch': 16.08}
+{'loss': 0.0149, 'grad_norm': 0.2601052224636078, 'learning_rate': 2.6133e-05, 'epoch': 16.08}
+{'loss': 0.0082, 'grad_norm': 0.40293899178504944, 'learning_rate': 2.6136e-05, 'epoch': 16.08}
+{'loss': 0.0122, 'grad_norm': 0.4989589750766754, 'learning_rate': 2.6138999999999998e-05, 'epoch': 16.08}
+{'loss': 0.0185, 'grad_norm': 0.9980294108390808, 'learning_rate': 2.6141999999999998e-05, 'epoch': 16.08}
+{'loss': 0.0106, 'grad_norm': 0.363986611366272, 'learning_rate': 2.6145e-05, 'epoch': 16.08}
+{'loss': 0.0043, 'grad_norm': 0.21164149045944214, 'learning_rate': 2.6148e-05, 'epoch': 16.09}
+{'loss': 0.0127, 'grad_norm': 0.41821521520614624, 'learning_rate': 2.6151e-05, 'epoch': 16.09}
+{'loss': 0.0104, 'grad_norm': 0.3259578049182892, 'learning_rate': 2.6154e-05, 'epoch': 16.09}
+{'loss': 0.0095, 'grad_norm': 0.6169150471687317, 'learning_rate': 2.6157e-05, 'epoch': 16.09}
+{'loss': 0.2042, 'grad_norm': 0.8425424695014954, 'learning_rate': 2.616e-05, 'epoch': 16.09}
+{'loss': 0.1881, 'grad_norm': 0.7024513483047485, 'learning_rate': 2.6163e-05, 'epoch': 16.1}
+{'loss': 0.1639, 'grad_norm': 0.7537822723388672, 'learning_rate': 2.6166e-05, 'epoch': 16.1}
+{'loss': 0.1255, 'grad_norm': 0.47779718041419983, 'learning_rate': 2.6169e-05, 'epoch': 16.1}
+{'loss': 0.1821, 'grad_norm': 0.6427140235900879, 'learning_rate': 2.6172e-05, 'epoch': 16.1}
+{'loss': 0.0879, 'grad_norm': 0.7359801530838013, 'learning_rate': 2.6175000000000003e-05, 'epoch': 16.1}
+{'loss': 0.0853, 'grad_norm': 0.5765436887741089, 'learning_rate': 2.6178000000000002e-05, 'epoch': 16.11}
+{'loss': 0.0957, 'grad_norm': 0.7798746824264526, 'learning_rate': 2.6181000000000002e-05, 'epoch': 16.11}
+{'loss': 0.081, 'grad_norm': 0.49390435218811035, 'learning_rate': 2.6184000000000002e-05, 'epoch': 16.11}
+{'loss': 0.0444, 'grad_norm': 0.403861403465271, 'learning_rate': 2.6187000000000002e-05, 'epoch': 16.11}
+{'loss': 0.0694, 'grad_norm': 0.43862980604171753, 'learning_rate': 2.619e-05, 'epoch': 16.11}
+{'loss': 0.049, 'grad_norm': 0.6070998311042786, 'learning_rate': 2.6193e-05, 'epoch': 16.11}
+{'loss': 0.0496, 'grad_norm': 0.32739898562431335, 'learning_rate': 2.6196e-05, 'epoch': 16.12}
+{'loss': 0.0236, 'grad_norm': 0.46069347858428955, 'learning_rate': 2.6199e-05, 'epoch': 16.12}
+{'loss': 0.0266, 'grad_norm': 0.3739839196205139, 'learning_rate': 2.6202e-05, 'epoch': 16.12}
+{'loss': 0.0486, 'grad_norm': 0.27839231491088867, 'learning_rate': 2.6205e-05, 'epoch': 16.12}
+{'loss': 0.0198, 'grad_norm': 0.3901972472667694, 'learning_rate': 2.6208e-05, 'epoch': 16.12}
+{'loss': 0.0236, 'grad_norm': 0.25915515422821045, 'learning_rate': 2.6211e-05, 'epoch': 16.13}
+{'loss': 0.0165, 'grad_norm': 0.29264405369758606, 'learning_rate': 2.6214e-05, 'epoch': 16.13}
+{'loss': 0.0152, 'grad_norm': 0.2875673472881317, 'learning_rate': 2.6217e-05, 'epoch': 16.13}
+{'loss': 0.0146, 'grad_norm': 0.38900938630104065, 'learning_rate': 2.622e-05, 'epoch': 16.13}
+{'loss': 0.024, 'grad_norm': 0.23090846836566925, 'learning_rate': 2.6223e-05, 'epoch': 16.13}
+{'loss': 0.0101, 'grad_norm': 0.34287866950035095, 'learning_rate': 2.6226e-05, 'epoch': 16.13}
+{'loss': 0.0152, 'grad_norm': 0.398605078458786, 'learning_rate': 2.6229e-05, 'epoch': 16.14}
+{'loss': 0.011, 'grad_norm': 0.4421793520450592, 'learning_rate': 2.6232e-05, 'epoch': 16.14}
+{'loss': 0.0113, 'grad_norm': 0.42159032821655273, 'learning_rate': 2.6235000000000002e-05, 'epoch': 16.14}
+{'loss': 0.0111, 'grad_norm': 0.5255663990974426, 'learning_rate': 2.6238000000000002e-05, 'epoch': 16.14}
+{'loss': 0.0276, 'grad_norm': 0.593675971031189, 'learning_rate': 2.6241e-05, 'epoch': 16.14}
+{'loss': 0.0132, 'grad_norm': 0.4048978090286255, 'learning_rate': 2.6244e-05, 'epoch': 16.15}
+{'loss': 0.0096, 'grad_norm': 0.252643883228302, 'learning_rate': 2.6247e-05, 'epoch': 16.15}
+{'loss': 0.0143, 'grad_norm': 0.5537533760070801, 'learning_rate': 2.625e-05, 'epoch': 16.15}
+{'loss': 0.0175, 'grad_norm': 0.4042913019657135, 'learning_rate': 2.6253e-05, 'epoch': 16.15}
+{'loss': 0.0095, 'grad_norm': 0.2454013079404831, 'learning_rate': 2.6256e-05, 'epoch': 16.15}
+  9%|▉         | 8756/100000 [4:47:24<31:10:42,  1.23s/it]  9%|▉         | 8757/100000 [4:47:26<30:39:11,  1.21s/it]                                                            9%|▉         | 8757/100000 [4:47:26<30:39:11,  1.21s/it]  9%|▉         | 8758/100000 [4:47:27<30:15:16,  1.19s/it]                                                            9%|▉         | 8758/100000 [4:47:27<30:15:16,  1.19s/it]  9%|▉         | 8759/100000 [4:47:28<29:29:04,  1.16s/it]                                                            9%|▉         | 8759/100000 [4:47:28<29:29:04,  1.16s/it]  9%|▉         | 8760/100000 [4:47:29<29:11:22,  1.15s/it]                                                            9%|▉         | 8760/100000 [4:47:29<29:11:22,  1.15s/it]  9%|▉         | 8761/100000 [4:47:30<28:40:43,  1.13s/it]                                                            9%|▉         | 8761/100000 [4:47:30<28:40:43,  1.13s/it]  9%|▉         | 8762/100000 [4:47:31<28:25:52,  1.12s/it]                                                            9%|▉         | 8762/100000 [4:47:31<28:25:52,  1.12s/it]  9%|▉         | 8763/100000 [4:47:32<27:59:30,  1.10s/it]                                                            9%|▉         | 8763/100000 [4:47:32<27:59:30,  1.10s/it]  9%|▉         | 8764/100000 [4:47:33<27:39:26,  1.09s/it]                                                            9%|▉         | 8764/100000 [4:47:33<27:39:26,  1.09s/it]  9%|▉         | 8765/100000 [4:47:34<27:14:20,  1.07s/it]                                                            9%|▉         | 8765/100000 [4:47:34<27:14:20,  1.07s/it]  9%|▉         | 8766/100000 [4:47:35<26:53:02,  1.06s/it]                                                            9%|▉         | 8766/100000 [4:47:35<26:53:02,  1.06s/it]  9%|▉         | 8767/100000 [4:47:36<26:40:50,  1.05s/it]                                                            9%|▉         | 8767/100000 [4:47:36<26:40:50,  1.05s/it]  9%|▉         | 8768/100000 [4:47:37<26:07:51,  1.03s/it]                                                            9%|▉         | 8768/100000 [4:47:37<26:07:51,  1.03s/it]  9%|▉         | 8769/100000 [4:47:38<25:26:46,  1.00s/it]                                                            9%|▉         | 8769/100000 [4:47:38<25:26:46,  1.00s/it]  9%|▉         | 8770/100000 [4:47:39<24:49:29,  1.02it/s]                                                            9%|▉         | 8770/100000 [4:47:39<24:49:29,  1.02it/s]  9%|▉         | 8771/100000 [4:47:40<24:40:48,  1.03it/s]                                                            9%|▉         | 8771/100000 [4:47:40<24:40:48,  1.03it/s]  9%|▉         | 8772/100000 [4:47:41<24:05:48,  1.05it/s]                                                            9%|▉         | 8772/100000 [4:47:41<24:05:48,  1.05it/s]  9%|▉         | 8773/100000 [4:47:52<96:55:19,  3.82s/it]                                                            9%|▉         | 8773/100000 [4:47:52<96:55:19,  3.82s/it]  9%|▉         | 8774/100000 [4:47:57<110:33:58,  4.36s/it]                                                             9%|▉         | 8774/100000 [4:47:57<110:33:58,  4.36s/it]  9%|▉         | 8775/100000 [4:48:02<113:10:40,  4.47s/it]                                                             9%|▉         | 8775/100000 [4:48:02<113:10:40,  4.47s/it]  9%|▉         | 8776/100000 [4:48:06<108:33:11,  4.28s/it]                                                             9%|▉         | 8776/100000 [4:48:06<108:33:11,  4.28s/it]  9%|▉         | 8777/100000 [4:48:09<101:55:22,  4.02s/it]                                                             9%|▉         | 8777/100000 [4:48:09<101:55:22,  4.02s/it]  9%|▉         | 8778/100000 [4:48:13<96:28:09,  3.81s/it]                                                             9%|▉         | 8778/100000 [4:48:13<96:28:09,  3.81s/it]  9%|▉         | 8779/100000 [4:48:16<90:32:30,  3.57s/it]                                                            9%|▉         | 8779/100000 [4:48:16<90:32:30,  3.57s/it]  9%|▉         | 8780/100000 [4:48:18<84:25:55,  3.33s/it]                                                            9%|▉         | 8780/100000 [4:48:18<84:25:55,  3.33s/it]  9%|▉         | 8781/100000 [4:48:21<78:37:25,  3.10s/it]                                                            9%|▉         | 8781/100000 [4:48:21<78:37:25,  3.10s/it]  9%|▉         | 8782/100000 [4:48:23<72:50:57,  2.88s/it]                                                            9%|▉         | 8782/100000 [4:48:23<72:50:57,  2.88s/it]  9%|▉         | 8783/100000 [4:48:25<68:03:31,  2.69s/it]                                                            9%|▉         | 8783/100000 [4:48:26<68:03:31,  2.69s/it]  9%|▉         | 8784/100000 [4:48:28<63:41:10,  2.51s/it]                                                            9%|▉         | 8784/100000 [4:48:28<63:41:10,  2.51s/it]  9%|▉         | 8785/100000 [4:48:30<59:44:19,  2.36s/it]                                                            9%|▉         | 8785/100000 [4:48:30<59:44:19,  2.36s/it]  9%|▉         | 8786/100000 [4:48:31<56:10:35,  2.22s/it]                                                            9%|▉         | 8786/100000 [4:48:31<56:10:35,  2.22s/it]  9%|▉         | 8787/100000 [4:48:33<52:44:50,  2.08s/it]                                                            9%|▉         | 8787/100000 [4:48:33<52:44:50,  2.08s/it]  9%|▉         | 8788/100000 [4:48:35<49:23:23,  1.95s/it]                                                            9%|▉         | 8788/100000 [4:48:35<49:23:23,  1.95s/it]  9%|▉         | 8789/100000 [4:48:37<46:59:27,  1.85s/it]                                                            9%|▉         | 8789/100000 [4:48:37<46:59:27,  1.85s/it]  9%|▉         | 8790/100000 [4:48:38<45:45:03,  1.81s/it]                                                            9%|▉         | 8790/100000 [4:48:38<45:45:03,  1.81s/it]  9%|▉         | 8791/100000 [4:48:40<43:33:41,  1.72s/it]                                                            9%|▉         | 8791/100000 [4:48:40<43:33:41,  1.72s/it]  9%|▉         | 8792/100000 [4:48:41<41:52:46,  1.65s/it]                                                            9%|▉         | 8792/100000 [4:48:41<41:52:46,  1.65s/it]  9%|▉         | 8793/100000 [4:48:43<40:26:13,  1.60s/it]                                                            9%|▉         | 8793/100000 [4:48:43<40:26:13,  1.60s/it]  9%|▉         | 8794/100000 [4:48:44<39:14:11,  1.55s/it]                                                            9%|▉         | 8794/100000 [4:48:44<39:14:11,  1.55s/it]  9%|▉         | 8795/100000 [4:48:46<37:55:12,  1.50s/it]                                                            9%|▉         | 8795/100000 [4:48:46<37:55:12,  1.50s/it]  9%|▉         | 8796/100000 [4:48:47<37:09:38,  1.47s/it]                                                            9%|▉         | 8796/100000 [4:48:47<37:09:38,  1.47s/it]  9%|▉         | 8797/100000 [4:48:48<36:30:05,  1.44s/it]                                                            9%|▉         | 8797/100000 [4:48:48<36:30:05,  1.44s/it]  9%|▉         | 8798/100000 [4:48:50<35:33:50,  1.40s/it]                                                            9%|▉         | 8798/100000 [4:48:50<35:33:50,  1.40s/it]  9%|▉         | 8799/100000 [4:48:51<35:02:35,  1.38s/it]                                                            9%|▉         | 8799/100000 [4:48:51<35:02:35,  1.38s/it]  9%|▉         | 8800/100000 [4:48:52<34:32:09,  1.36s/it]                                                            9%|▉         | 8800/100000 [4:48:52<34:32:09,  1.36s/it]  9%|▉         | 8801/100000 [4:48:54<34:01:12,  1.34s/it]                                                            9%|▉         | 8801/100000 [4:48:54<34:01:12,  1.34s/it]  9%|▉         | 8802/100000 [4:48:55<33:35:45,  1.33s/it]                                                            9%|▉         | 8802/100000 [4:48:55<33:35:45,  1.33s/it]  9%|▉         | 8803/100000 [4:48:56<33:07:21,  1.31s/it]                                                            9%|▉         | 8803/100000 [4:48:56<33:07:21,  1.31s/it]  9%|▉         | 8804/100000 [4:48:57<32:24:26,  1.28s/it]                                                            9%|▉         | 8804/100000 [4:48:57<32:24:26,  1.28s/it]  9%|▉         | 8805/100000 [4:48:59<32:02:47,  1.27s/it]                                                            9%|▉         | 8805/100000 [4:48:59<32:02:47,  1.27s/it]  9%|▉         | 8806/100000 [4:49:00<31:39:24,  1.25s/it]                                                            9%|▉         | 8806/100000 [4:49:00<31:39:24,  1.25s/it]  9%|▉         | 8807/100000 [4:49:01<30:52:46,  1.22s/it]                                                            9%|▉         | 8807/100000 [4:49:01<30:52:46,  1.22s/it]  9%|▉         | 8808/100000 [4:49:02<30:28:17,  1.20s/it]                                                            9%|▉         | 8808/100000 [4:49:02<30:28:17,  1.20s/it]  9%|▉         | 8809/100000 [4:49:03<29:54:38,  1.18s/it]                                                            9%|▉         | 8809/100000 [4:49:03<29:54:38,  1.18s/it]  9%|▉         | 8810/100000 [4:49:04<29:31:20,  1.17s/it]                                                            9%|▉         | 8810/100000 [4:49:04<29:31:20,  1.17s/it]  9%|▉         | 8811/100000 [4:49:05<29:05:42,  1.15s/it]                                                            9%|▉         | 8811/100000 [4:49:05<29:05:42,  1.15s/it]  9%|▉         | 8812/100000 [4:49:07<28:42:33,  1.13s/it]                                                            9%|▉         | 8812/100000 [4:49:07<28:42:33,  1.13s/it]  9%|▉         | 8813/100000 [4:49:08<28:15:33,  1.12s/it]                                                            9%|▉         | 8813/100000 [4:49:08<28:15:33,  1.12s/it]  9%|▉         | 8814/100000 [4:49:09<27:52:03,  1.10s/it]                                                            9%|▉         | 8814/100000 [4:49:09<27:52:03,  1.10s/it]  9%|▉         | 8815/100000 [4:49:10<27:29:13,  1.09s/it]                                                            9%|▉         | 8815/100000 [4:49:10<27:29:13,  1.09s/it]  9%|▉         | 8816/100000 [4:49:11<27:15:00,  1.08s/it]                                                            9%|▉         | 8816/100000 [4:49:11<27:15:00,  1.08s/it]  9%|▉         | 8817/100000 [4:49:12<26:48:07,  1.06s/it]                                                            9%|▉         | 8817/100000 [4:49:12<26:48:07,  1.06s/it]  9%|▉         | 8818/100000 [4:49:13<26:17:40,  1.04s/it]                                                            9%|▉         | 8818/100000 [4:49:13<26:17:40,  1.04s/it]  9%|▉         | 8819/100000 [4:49:14<25:48:37,  1.02s/it]                                                            9%|▉         | 8819/100000 [4:49:14<25:48:37,  1.02s/it]  9%|▉         | 8820/100000 [4:49:15<25:22:55,  1.00s/it]                                                            9%|▉         | 8820/100000 [4:49:15<25:22:55,  1.00s/it]  9%|▉         | 8821/100000 [4:49:16<24:39:23,  1.03it/s]                                                            9%|▉         | 8821/100000 [4:49:16<24:39:23,  1.03it/s]  9%|▉         | 8822/100000 [4:49:17<24:12:26,  1.05it/s]                                                            9%|▉         | 8822/100000 [4:49:17<24:12:26,  1.05it/s]  9%|▉         | 8823/100000 [4:49:29<109:11:42,  4.31s/it]                                                             9%|▉         | 8823/100000 [4:49:29<109:11:42,  4.31s/it]  9%|▉         | 8824/100000 [4:49:34<120:35:37,  4.76s/it]                                                             9%|▉         | 8824/100000 [4:49:35<120:35:37,  4.76s/it]  9%|▉         | 8825/100000 [4:49:39<120:16:02,  4.75s/it]                                                             9%|▉         | 8825/100000 [4:49:39<120:16:02,  4.75s/it]  9%|▉         | 8826/100000 [4:49:43<114:15:26,  4.51s/it]                                                             9%|▉         | 8826/100000 [4:49:43<114:15:26,  4.51s/it]  9%|▉         | 8827/100000 [4:49:47<108:25:18,  4.28s/it]                                                             9%|▉         | 8827/100000 [4:49:47<108:25:18,  4.28s/it]  9%|▉         | 8828/100000 [4:49:50<100:25:23,  3.97s/it]                                                             9%|▉         | 8828/100000 [4:49:50<100:25:23,  3.97s/it]  9%|▉         | 8829/100000 [4:49:53<93:17:58,  3.68s/it]                                                             9%|▉         | 8829/100000 [4:49:53<93:17:58,  3.68s/it]  9%|▉         | 8830/100000 [4:49:56<87:12:34,  3.44s/it]                                                            9%|▉         | 8830/100000 [4:49:56<87:12:34,  3.44s/it]  9%|▉         | 8831/100000 [4:49:59<80:31:57,  3.18s/it]                                                            9%|▉         | 8831/100000 [4:49:59<80:31:57,  3.18s/it]  9%|▉         | 8832/100000 [4:50:01<74:45:06,  2.95s/it]                                                            9%|▉         | 8832/100000 [4:50:01<74:45:06,  2.95s/it]  9%|▉         | 8833/100000 [4:50:03<69:56:33,  2.76s/it]                                                            9%|▉         | 8833/100000 [4:50:03<69:56:33,  2.76s/it]  9%|▉         | 8834/100000 [4:50:06<65:13:57,  2.58s/it]                                                            9%|▉         | 8834/100000 [4:50:06<65:13:57,  2.58s/it]  9%|▉         | 8835/100000 [4:50:08<60:56:13,  2.41s/it]                                                            9%|▉         | 8835/100000 [4:50:08<60:56:13,  2.41s/it]  9%|▉         | 8836/100000 [4:50:09<57:04:00,  2.25s/it]                                                            9%|▉         | 8836/100000 [4:50:09<57:04:00,  2.25s/it]  9%|▉         | 8837/100000 [4:50:11<53:28:01,  2.11s/it]                                                            9%|▉         | 8837/100000 [4:50:11<53:28:01,  2.11s/it]  9%|▉         | 8838/100000 [4:50:13<50:22:29,  1.99s/it]                                                          {'loss': 0.0148, 'grad_norm': 0.3569791913032532, 'learning_rate': 2.6259e-05, 'epoch': 16.16}
+{'loss': 0.0113, 'grad_norm': 0.2660028040409088, 'learning_rate': 2.6262e-05, 'epoch': 16.16}
+{'loss': 0.0132, 'grad_norm': 0.2081262171268463, 'learning_rate': 2.6265e-05, 'epoch': 16.16}
+{'loss': 0.0068, 'grad_norm': 0.42625632882118225, 'learning_rate': 2.6268000000000003e-05, 'epoch': 16.16}
+{'loss': 0.0067, 'grad_norm': 0.20090582966804504, 'learning_rate': 2.6271000000000003e-05, 'epoch': 16.16}
+{'loss': 0.0099, 'grad_norm': 0.2835046947002411, 'learning_rate': 2.6274000000000003e-05, 'epoch': 16.16}
+{'loss': 0.0142, 'grad_norm': 0.8398069739341736, 'learning_rate': 2.6277000000000003e-05, 'epoch': 16.17}
+{'loss': 0.0073, 'grad_norm': 0.25367045402526855, 'learning_rate': 2.628e-05, 'epoch': 16.17}
+{'loss': 0.0086, 'grad_norm': 0.30854055285453796, 'learning_rate': 2.6283e-05, 'epoch': 16.17}
+{'loss': 0.0124, 'grad_norm': 0.5980221033096313, 'learning_rate': 2.6286e-05, 'epoch': 16.17}
+{'loss': 0.0119, 'grad_norm': 0.38559502363204956, 'learning_rate': 2.6289e-05, 'epoch': 16.17}
+{'loss': 0.0109, 'grad_norm': 0.3606363534927368, 'learning_rate': 2.6292e-05, 'epoch': 16.18}
+{'loss': 0.0133, 'grad_norm': 0.4450051486492157, 'learning_rate': 2.6294999999999998e-05, 'epoch': 16.18}
+{'loss': 0.0103, 'grad_norm': 0.412380576133728, 'learning_rate': 2.6298e-05, 'epoch': 16.18}
+{'loss': 0.012, 'grad_norm': 0.5443732738494873, 'learning_rate': 2.6301e-05, 'epoch': 16.18}
+{'loss': 0.0083, 'grad_norm': 0.8527624011039734, 'learning_rate': 2.6304e-05, 'epoch': 16.18}
+{'loss': 0.016, 'grad_norm': 0.6248682737350464, 'learning_rate': 2.6307e-05, 'epoch': 16.18}
+{'loss': 0.2052, 'grad_norm': 0.609694242477417, 'learning_rate': 2.631e-05, 'epoch': 16.19}
+{'loss': 0.2287, 'grad_norm': 1.0320067405700684, 'learning_rate': 2.6313e-05, 'epoch': 16.19}
+{'loss': 0.1232, 'grad_norm': 0.5504393577575684, 'learning_rate': 2.6316e-05, 'epoch': 16.19}
+{'loss': 0.1213, 'grad_norm': 0.5152016878128052, 'learning_rate': 2.6319e-05, 'epoch': 16.19}
+{'loss': 0.1493, 'grad_norm': 0.5570312738418579, 'learning_rate': 2.6322e-05, 'epoch': 16.19}
+{'loss': 0.1012, 'grad_norm': 0.4364548623561859, 'learning_rate': 2.6325e-05, 'epoch': 16.2}
+{'loss': 0.1013, 'grad_norm': 0.4299827218055725, 'learning_rate': 2.6328000000000003e-05, 'epoch': 16.2}
+{'loss': 0.0621, 'grad_norm': 0.4067482054233551, 'learning_rate': 2.6331000000000003e-05, 'epoch': 16.2}
+{'loss': 0.0927, 'grad_norm': 0.5066156387329102, 'learning_rate': 2.6334000000000002e-05, 'epoch': 16.2}
+{'loss': 0.1129, 'grad_norm': 0.5903967618942261, 'learning_rate': 2.6337000000000002e-05, 'epoch': 16.2}
+{'loss': 0.0623, 'grad_norm': 0.3994077146053314, 'learning_rate': 2.6340000000000002e-05, 'epoch': 16.2}
+{'loss': 0.0591, 'grad_norm': 0.3687579333782196, 'learning_rate': 2.6343000000000002e-05, 'epoch': 16.21}
+{'loss': 0.0368, 'grad_norm': 0.4481465816497803, 'learning_rate': 2.6346e-05, 'epoch': 16.21}
+{'loss': 0.0353, 'grad_norm': 0.5493351221084595, 'learning_rate': 2.6349e-05, 'epoch': 16.21}
+{'loss': 0.0393, 'grad_norm': 0.47865021228790283, 'learning_rate': 2.6351999999999998e-05, 'epoch': 16.21}
+{'loss': 0.0197, 'grad_norm': 0.6238217353820801, 'learning_rate': 2.6354999999999998e-05, 'epoch': 16.21}
+{'loss': 0.0289, 'grad_norm': 0.4697655141353607, 'learning_rate': 2.6358e-05, 'epoch': 16.22}
+{'loss': 0.0179, 'grad_norm': 0.573111355304718, 'learning_rate': 2.6361e-05, 'epoch': 16.22}
+{'loss': 0.0134, 'grad_norm': 0.20533904433250427, 'learning_rate': 2.6364e-05, 'epoch': 16.22}
+{'loss': 0.0392, 'grad_norm': 0.37425920367240906, 'learning_rate': 2.6367e-05, 'epoch': 16.22}
+{'loss': 0.0111, 'grad_norm': 0.3609694540500641, 'learning_rate': 2.637e-05, 'epoch': 16.22}
+{'loss': 0.0086, 'grad_norm': 0.2295820564031601, 'learning_rate': 2.6373e-05, 'epoch': 16.23}
+{'loss': 0.015, 'grad_norm': 0.43150201439857483, 'learning_rate': 2.6376e-05, 'epoch': 16.23}
+{'loss': 0.0154, 'grad_norm': 0.2645535469055176, 'learning_rate': 2.6379e-05, 'epoch': 16.23}
+{'loss': 0.0157, 'grad_norm': 0.26752784848213196, 'learning_rate': 2.6382e-05, 'epoch': 16.23}
+{'loss': 0.0194, 'grad_norm': 0.34007754921913147, 'learning_rate': 2.6385e-05, 'epoch': 16.23}
+{'loss': 0.0145, 'grad_norm': 0.29169556498527527, 'learning_rate': 2.6388000000000002e-05, 'epoch': 16.23}
+{'loss': 0.0115, 'grad_norm': 0.234590083360672, 'learning_rate': 2.6391000000000002e-05, 'epoch': 16.24}
+{'loss': 0.0135, 'grad_norm': 0.684226930141449, 'learning_rate': 2.6394000000000002e-05, 'epoch': 16.24}
+{'loss': 0.0207, 'grad_norm': 0.3227801024913788, 'learning_rate': 2.6397e-05, 'epoch': 16.24}
+{'loss': 0.0195, 'grad_norm': 0.930953323841095, 'learning_rate': 2.64e-05, 'epoch': 16.24}
+{'loss': 0.0184, 'grad_norm': 0.6033096313476562, 'learning_rate': 2.6403e-05, 'epoch': 16.24}
+{'loss': 0.0099, 'grad_norm': 0.3899700343608856, 'learning_rate': 2.6406e-05, 'epoch': 16.25}
+{'loss': 0.0079, 'grad_norm': 0.3385612666606903, 'learning_rate': 2.6409e-05, 'epoch': 16.25}
+{'loss': 0.0113, 'grad_norm': 0.7180120348930359, 'learning_rate': 2.6412e-05, 'epoch': 16.25}
+{'loss': 0.0125, 'grad_norm': 0.42312514781951904, 'learning_rate': 2.6415e-05, 'epoch': 16.25}
+{'loss': 0.0124, 'grad_norm': 0.291399747133255, 'learning_rate': 2.6418000000000004e-05, 'epoch': 16.25}
+{'loss': 0.0105, 'grad_norm': 0.33661431074142456, 'learning_rate': 2.6421000000000003e-05, 'epoch': 16.25}
+{'loss': 0.0066, 'grad_norm': 0.24821096658706665, 'learning_rate': 2.6424000000000003e-05, 'epoch': 16.26}
+{'loss': 0.0142, 'grad_norm': 0.3174000680446625, 'learning_rate': 2.6427e-05, 'epoch': 16.26}
+{'loss': 0.0081, 'grad_norm': 0.5178481340408325, 'learning_rate': 2.643e-05, 'epoch': 16.26}
+{'loss': 0.0206, 'grad_norm': 0.6077439188957214, 'learning_rate': 2.6433e-05, 'epoch': 16.26}
+{'loss': 0.0069, 'grad_norm': 0.33663487434387207, 'learning_rate': 2.6436e-05, 'epoch': 16.26}
+{'loss': 0.0187, 'grad_norm': 0.5525741577148438, 'learning_rate': 2.6439e-05, 'epoch': 16.27}
+{'loss': 0.0064, 'grad_norm': 0.4057387709617615, 'learning_rate': 2.6442e-05, 'epoch': 16.27}
+{'loss': 0.0158, 'grad_norm': 0.36393001675605774, 'learning_rate': 2.6445e-05, 'epoch': 16.27}
+{'loss': 0.0094, 'grad_norm': 0.3587076663970947, 'learning_rate': 2.6448e-05, 'epoch': 16.27}
+{'loss': 0.011, 'grad_norm': 0.24401932954788208, 'learning_rate': 2.6451e-05, 'epoch': 16.27}
+{'loss': 0.017, 'grad_norm': 0.5385698676109314, 'learning_rate': 2.6454e-05, 'epoch': 16.28}
+{'loss': 0.0077, 'grad_norm': 0.22548331320285797, 'learning_rate': 2.6457e-05, 'epoch': 16.28}
+{'loss': 0.2099, 'grad_norm': 0.8914181590080261, 'learning_rate': 2.646e-05, 'epoch': 16.28}
+{'loss': 0.1274, 'grad_norm': 0.6201906204223633, 'learning_rate': 2.6463e-05, 'epoch': 16.28}
+{'loss': 0.1219, 'grad_norm': 0.7464452385902405, 'learning_rate': 2.6466e-05, 'epoch': 16.28}
+{'loss': 0.1038, 'grad_norm': 0.5396767854690552, 'learning_rate': 2.6469e-05, 'epoch': 16.28}
+{'loss': 0.1185, 'grad_norm': 0.7753463983535767, 'learning_rate': 2.6472e-05, 'epoch': 16.29}
+{'loss': 0.0847, 'grad_norm': 0.47809740900993347, 'learning_rate': 2.6475e-05, 'epoch': 16.29}
+{'loss': 0.1215, 'grad_norm': 0.614112913608551, 'learning_rate': 2.6478000000000003e-05, 'epoch': 16.29}
+{'loss': 0.0517, 'grad_norm': 0.6368290781974792, 'learning_rate': 2.6481000000000003e-05, 'epoch': 16.29}
+{'loss': 0.0946, 'grad_norm': 0.6140844225883484, 'learning_rate': 2.6484000000000003e-05, 'epoch': 16.29}
+{'loss': 0.09, 'grad_norm': 0.5148943662643433, 'learning_rate': 2.6487000000000002e-05, 'epoch': 16.3}
+{'loss': 0.0596, 'grad_norm': 0.5340912342071533, 'learning_rate': 2.6490000000000002e-05, 'epoch': 16.3}
+{'loss': 0.0451, 'grad_norm': 0.43576526641845703, 'learning_rate': 2.6493000000000002e-05, 'epoch': 16.3}
+{'loss': 0.0455, 'grad_norm': 0.5544477105140686, 'learning_rate': 2.6496000000000002e-05, 'epoch': 16.3}
+{'loss': 0.0667, 'grad_norm': 0.4253067672252655, 'learning_rate': 2.6499e-05, 'epoch': 16.3}
+{'loss': 0.0404, 'grad_norm': 0.36090901494026184, 'learning_rate': 2.6501999999999998e-05, 'epoch': 16.3}
+  9%|▉         | 8838/100000 [4:50:13<50:22:29,  1.99s/it]  9%|▉         | 8839/100000 [4:50:14<47:27:00,  1.87s/it]                                                            9%|▉         | 8839/100000 [4:50:15<47:27:00,  1.87s/it]  9%|▉         | 8840/100000 [4:50:16<45:15:49,  1.79s/it]                                                            9%|▉         | 8840/100000 [4:50:16<45:15:49,  1.79s/it]  9%|▉         | 8841/100000 [4:50:18<43:31:04,  1.72s/it]                                                            9%|▉         | 8841/100000 [4:50:18<43:31:04,  1.72s/it]  9%|▉         | 8842/100000 [4:50:19<41:39:01,  1.64s/it]                                                            9%|▉         | 8842/100000 [4:50:19<41:39:01,  1.64s/it]  9%|▉         | 8843/100000 [4:50:21<40:07:47,  1.58s/it]                                                            9%|▉         | 8843/100000 [4:50:21<40:07:47,  1.58s/it]  9%|▉         | 8844/100000 [4:50:22<38:51:43,  1.53s/it]                                                            9%|▉         | 8844/100000 [4:50:22<38:51:43,  1.53s/it]  9%|▉         | 8845/100000 [4:50:23<37:53:03,  1.50s/it]                                                            9%|▉         | 8845/100000 [4:50:23<37:53:03,  1.50s/it]  9%|▉         | 8846/100000 [4:50:25<36:49:58,  1.45s/it]                                                            9%|▉         | 8846/100000 [4:50:25<36:49:58,  1.45s/it]  9%|▉         | 8847/100000 [4:50:26<36:12:54,  1.43s/it]                                                            9%|▉         | 8847/100000 [4:50:26<36:12:54,  1.43s/it]  9%|▉         | 8848/100000 [4:50:27<35:26:20,  1.40s/it]                                                            9%|▉         | 8848/100000 [4:50:27<35:26:20,  1.40s/it]  9%|▉         | 8849/100000 [4:50:29<34:53:50,  1.38s/it]                                                            9%|▉         | 8849/100000 [4:50:29<34:53:50,  1.38s/it]  9%|▉         | 8850/100000 [4:50:30<34:21:02,  1.36s/it]                                                            9%|▉         | 8850/100000 [4:50:30<34:21:02,  1.36s/it]  9%|▉         | 8851/100000 [4:50:31<33:52:59,  1.34s/it]                                                            9%|▉         | 8851/100000 [4:50:31<33:52:59,  1.34s/it]  9%|▉         | 8852/100000 [4:50:33<32:59:49,  1.30s/it]                                                            9%|▉         | 8852/100000 [4:50:33<32:59:49,  1.30s/it]  9%|▉         | 8853/100000 [4:50:34<32:49:08,  1.30s/it]                                                            9%|▉         | 8853/100000 [4:50:34<32:49:08,  1.30s/it]  9%|▉         | 8854/100000 [4:50:35<32:07:16,  1.27s/it]                                                            9%|▉         | 8854/100000 [4:50:35<32:07:16,  1.27s/it]  9%|▉         | 8855/100000 [4:50:36<31:42:13,  1.25s/it]                                                            9%|▉         | 8855/100000 [4:50:36<31:42:13,  1.25s/it]  9%|▉         | 8856/100000 [4:50:38<31:21:25,  1.24s/it]                                                            9%|▉         | 8856/100000 [4:50:38<31:21:25,  1.24s/it]  9%|▉         | 8857/100000 [4:50:39<30:33:35,  1.21s/it]                                                            9%|▉         | 8857/100000 [4:50:39<30:33:35,  1.21s/it]  9%|▉         | 8858/100000 [4:50:40<30:10:03,  1.19s/it]                                                            9%|▉         | 8858/100000 [4:50:40<30:10:03,  1.19s/it]  9%|▉         | 8859/100000 [4:50:41<29:48:57,  1.18s/it]                                                            9%|▉         | 8859/100000 [4:50:41<29:48:57,  1.18s/it]  9%|▉         | 8860/100000 [4:50:42<29:21:33,  1.16s/it]                                                            9%|▉         | 8860/100000 [4:50:42<29:21:33,  1.16s/it]  9%|▉         | 8861/100000 [4:50:43<28:50:58,  1.14s/it]                                                            9%|▉         | 8861/100000 [4:50:43<28:50:58,  1.14s/it]  9%|▉         | 8862/100000 [4:50:44<28:26:52,  1.12s/it]                                                            9%|▉         | 8862/100000 [4:50:44<28:26:52,  1.12s/it]  9%|▉         | 8863/100000 [4:50:45<28:15:28,  1.12s/it]                                                            9%|▉         | 8863/100000 [4:50:45<28:15:28,  1.12s/it]  9%|▉         | 8864/100000 [4:50:46<27:57:24,  1.10s/it]                                                            9%|▉         | 8864/100000 [4:50:46<27:57:24,  1.10s/it]  9%|▉         | 8865/100000 [4:50:47<27:25:50,  1.08s/it]                                                            9%|▉         | 8865/100000 [4:50:47<27:25:50,  1.08s/it]  9%|▉         | 8866/100000 [4:50:48<27:08:23,  1.07s/it]                                                            9%|▉         | 8866/100000 [4:50:48<27:08:23,  1.07s/it]  9%|▉         | 8867/100000 [4:50:49<26:36:34,  1.05s/it]                                                            9%|▉         | 8867/100000 [4:50:49<26:36:34,  1.05s/it]  9%|▉         | 8868/100000 [4:50:50<26:12:05,  1.04s/it]                                                            9%|▉         | 8868/100000 [4:50:50<26:12:05,  1.04s/it]  9%|▉         | 8869/100000 [4:50:51<25:51:03,  1.02s/it]                                                            9%|▉         | 8869/100000 [4:50:51<25:51:03,  1.02s/it]  9%|▉         | 8870/100000 [4:50:52<25:26:55,  1.01s/it]                                                            9%|▉         | 8870/100000 [4:50:52<25:26:55,  1.01s/it]  9%|▉         | 8871/100000 [4:50:53<25:08:47,  1.01it/s]                                                            9%|▉         | 8871/100000 [4:50:53<25:08:47,  1.01it/s]  9%|▉         | 8872/100000 [4:50:54<24:37:55,  1.03it/s]                                                            9%|▉         | 8872/100000 [4:50:54<24:37:55,  1.03it/s]  9%|▉         | 8873/100000 [4:51:05<97:34:56,  3.86s/it]                                                            9%|▉         | 8873/100000 [4:51:05<97:34:56,  3.86s/it]  9%|▉         | 8874/100000 [4:51:11<111:52:15,  4.42s/it]                                                             9%|▉         | 8874/100000 [4:51:11<111:52:15,  4.42s/it]  9%|▉         | 8875/100000 [4:51:15<112:49:16,  4.46s/it]                                                             9%|▉         | 8875/100000 [4:51:15<112:49:16,  4.46s/it]  9%|▉         | 8876/100000 [4:51:19<107:52:58,  4.26s/it]                                                             9%|▉         | 8876/100000 [4:51:19<107:52:58,  4.26s/it]  9%|▉         | 8877/100000 [4:51:23<102:15:29,  4.04s/it]                                                             9%|▉         | 8877/100000 [4:51:23<102:15:29,  4.04s/it]  9%|▉         | 8878/100000 [4:51:26<95:34:19,  3.78s/it]                                                             9%|▉         | 8878/100000 [4:51:26<95:34:19,  3.78s/it]  9%|▉         | 8879/100000 [4:51:29<89:32:41,  3.54s/it]                                                            9%|▉         | 8879/100000 [4:51:29<89:32:41,  3.54s/it]  9%|▉         | 8880/100000 [4:51:31<83:25:21,  3.30s/it]                                                            9%|▉         | 8880/100000 [4:51:31<83:25:21,  3.30s/it]  9%|▉         | 8881/100000 [4:51:34<77:32:35,  3.06s/it]                                                            9%|▉         | 8881/100000 [4:51:34<77:32:35,  3.06s/it]  9%|▉         | 8882/100000 [4:51:36<71:09:09,  2.81s/it]                                                            9%|▉         | 8882/100000 [4:51:36<71:09:09,  2.81s/it]  9%|▉         | 8883/100000 [4:51:38<65:57:44,  2.61s/it]                                                            9%|▉         | 8883/100000 [4:51:38<65:57:44,  2.61s/it]  9%|▉         | 8884/100000 [4:51:40<60:56:43,  2.41s/it]                                                            9%|▉         | 8884/100000 [4:51:40<60:56:43,  2.41s/it]  9%|▉         | 8885/100000 [4:51:42<57:11:17,  2.26s/it]                                                            9%|▉         | 8885/100000 [4:51:42<57:11:17,  2.26s/it]  9%|▉         | 8886/100000 [4:51:44<52:41:46,  2.08s/it]                                                            9%|▉         | 8886/100000 [4:51:44<52:41:46,  2.08s/it]  9%|▉         | 8887/100000 [4:51:46<49:50:54,  1.97s/it]                                                            9%|▉         | 8887/100000 [4:51:46<49:50:54,  1.97s/it]  9%|▉         | 8888/100000 [4:51:47<47:20:36,  1.87s/it]                                                            9%|▉         | 8888/100000 [4:51:47<47:20:36,  1.87s/it]  9%|▉         | 8889/100000 [4:51:49<45:18:45,  1.79s/it]                                                            9%|▉         | 8889/100000 [4:51:49<45:18:45,  1.79s/it]  9%|▉         | 8890/100000 [4:51:50<43:38:29,  1.72s/it]                                                            9%|▉         | 8890/100000 [4:51:50<43:38:29,  1.72s/it]  9%|▉         | 8891/100000 [4:51:52<42:02:37,  1.66s/it]                                                            9%|▉         | 8891/100000 [4:51:52<42:02:37,  1.66s/it]  9%|▉         | 8892/100000 [4:51:53<40:34:00,  1.60s/it]                                                            9%|▉         | 8892/100000 [4:51:53<40:34:00,  1.60s/it]  9%|▉         | 8893/100000 [4:51:55<39:23:04,  1.56s/it]                                                            9%|▉         | 8893/100000 [4:51:55<39:23:04,  1.56s/it]  9%|▉         | 8894/100000 [4:51:56<37:59:34,  1.50s/it]                                                            9%|▉         | 8894/100000 [4:51:56<37:59:34,  1.50s/it]  9%|▉         | 8895/100000 [4:51:58<37:16:11,  1.47s/it]                                                            9%|▉         | 8895/100000 [4:51:58<37:16:11,  1.47s/it]  9%|▉         | 8896/100000 [4:51:59<36:33:13,  1.44s/it]                                                            9%|▉         | 8896/100000 [4:51:59<36:33:13,  1.44s/it]  9%|▉         | 8897/100000 [4:52:00<35:25:49,  1.40s/it]                                                            9%|▉         | 8897/100000 [4:52:00<35:25:49,  1.40s/it]  9%|▉         | 8898/100000 [4:52:02<34:52:54,  1.38s/it]                                                            9%|▉         | 8898/100000 [4:52:02<34:52:54,  1.38s/it]  9%|▉         | 8899/100000 [4:52:03<34:01:05,  1.34s/it]                                                            9%|▉         | 8899/100000 [4:52:03<34:01:05,  1.34s/it]  9%|▉         | 8900/100000 [4:52:04<33:38:48,  1.33s/it]                                                            9%|▉         | 8900/100000 [4:52:04<33:38:48,  1.33s/it]  9%|▉         | 8901/100000 [4:52:05<32:54:35,  1.30s/it]                                                            9%|▉         | 8901/100000 [4:52:05<32:54:35,  1.30s/it]  9%|▉         | 8902/100000 [4:52:07<32:49:17,  1.30s/it]                                                            9%|▉         | 8902/100000 [4:52:07<32:49:17,  1.30s/it]  9%|▉         | 8903/100000 [4:52:08<32:26:11,  1.28s/it]                                                            9%|▉         | 8903/100000 [4:52:08<32:26:11,  1.28s/it]  9%|▉         | 8904/100000 [4:52:09<31:46:54,  1.26s/it]                                                            9%|���         | 8904/100000 [4:52:09<31:46:54,  1.26s/it]  9%|▉         | 8905/100000 [4:52:10<31:33:24,  1.25s/it]                                                            9%|▉         | 8905/100000 [4:52:10<31:33:24,  1.25s/it]  9%|▉         | 8906/100000 [4:52:11<30:51:50,  1.22s/it]                                                            9%|▉         | 8906/100000 [4:52:11<30:51:50,  1.22s/it]  9%|▉         | 8907/100000 [4:52:13<30:13:58,  1.19s/it]                                                            9%|▉         | 8907/100000 [4:52:13<30:13:58,  1.19s/it]  9%|▉         | 8908/100000 [4:52:14<29:42:02,  1.17s/it]                                                            9%|▉         | 8908/100000 [4:52:14<29:42:02,  1.17s/it]  9%|▉         | 8909/100000 [4:52:15<29:12:43,  1.15s/it]                                                            9%|▉         | 8909/100000 [4:52:15<29:12:43,  1.15s/it]  9%|▉         | 8910/100000 [4:52:16<28:58:14,  1.14s/it]                                                            9%|▉         | 8910/100000 [4:52:16<28:58:14,  1.14s/it]  9%|▉         | 8911/100000 [4:52:17<28:33:39,  1.13s/it]                                                            9%|▉         | 8911/100000 [4:52:17<28:33:39,  1.13s/it]  9%|▉         | 8912/100000 [4:52:18<28:09:57,  1.11s/it]                                                            9%|▉         | 8912/100000 [4:52:18<28:09:57,  1.11s/it]  9%|▉         | 8913/100000 [4:52:19<27:29:22,  1.09s/it]                                                            9%|▉         | 8913/100000 [4:52:19<27:29:22,  1.09s/it]  9%|▉         | 8914/100000 [4:52:20<27:22:03,  1.08s/it]                                                            9%|▉         | 8914/100000 [4:52:20<27:22:03,  1.08s/it]  9%|▉         | 8915/100000 [4:52:21<27:03:25,  1.07s/it]                                                            9%|▉         | 8915/100000 [4:52:21<27:03:25,  1.07s/it]  9%|▉         | 8916/100000 [4:52:22<26:40:51,  1.05s/it]                                                            9%|▉         | 8916/100000 [4:52:22<26:40:51,  1.05s/it]  9%|▉         | 8917/100000 [4:52:23<26:10:41,  1.03s/it]                                                            9%|▉         | 8917/100000 [4:52:23<26:10:41,  1.03s/it]  9%|▉         | 8918/100000 [4:52:24<25:37:44,  1.01s/it]                                                            9%|▉         | 8918/100000 [4:52:24<25:37:44,  1.01s/it]  9%|▉         | 8919/100000 [4:52:25<25:17:46,  1.00it/s]                                                            9%|▉         | 8919/100000 [4:52:25<25:17:46,  1.00it/s]  9%|▉         | 8920/100000 [4:52:26<24:47:53,  1.02it/s]                                                            9%|▉         | 8920/100000 [4:52:26<24:47:53,  1.02it/s]  9%|▉         | 8921/100000 [4:52:27<23:46:54,  1.06it/s]                                                          {'loss': 0.0379, 'grad_norm': 0.39279404282569885, 'learning_rate': 2.6504999999999998e-05, 'epoch': 16.31}
+{'loss': 0.0238, 'grad_norm': 0.3534673750400543, 'learning_rate': 2.6508e-05, 'epoch': 16.31}
+{'loss': 0.0186, 'grad_norm': 0.25616320967674255, 'learning_rate': 2.6511e-05, 'epoch': 16.31}
+{'loss': 0.0112, 'grad_norm': 0.16772395372390747, 'learning_rate': 2.6514e-05, 'epoch': 16.31}
+{'loss': 0.0131, 'grad_norm': 0.30720284581184387, 'learning_rate': 2.6517e-05, 'epoch': 16.31}
+{'loss': 0.0222, 'grad_norm': 0.25934576988220215, 'learning_rate': 2.652e-05, 'epoch': 16.32}
+{'loss': 0.0266, 'grad_norm': 0.4097827076911926, 'learning_rate': 2.6523e-05, 'epoch': 16.32}
+{'loss': 0.0156, 'grad_norm': 0.4845149517059326, 'learning_rate': 2.6526e-05, 'epoch': 16.32}
+{'loss': 0.0152, 'grad_norm': 0.2271205484867096, 'learning_rate': 2.6529e-05, 'epoch': 16.32}
+{'loss': 0.011, 'grad_norm': 0.2507508397102356, 'learning_rate': 2.6532e-05, 'epoch': 16.32}
+{'loss': 0.0114, 'grad_norm': 0.22607016563415527, 'learning_rate': 2.6535e-05, 'epoch': 16.33}
+{'loss': 0.0227, 'grad_norm': 0.2688290774822235, 'learning_rate': 2.6538000000000002e-05, 'epoch': 16.33}
+{'loss': 0.0137, 'grad_norm': 0.39142295718193054, 'learning_rate': 2.6541000000000002e-05, 'epoch': 16.33}
+{'loss': 0.0078, 'grad_norm': 0.20058947801589966, 'learning_rate': 2.6544000000000002e-05, 'epoch': 16.33}
+{'loss': 0.0075, 'grad_norm': 0.1827445924282074, 'learning_rate': 2.6547000000000002e-05, 'epoch': 16.33}
+{'loss': 0.0049, 'grad_norm': 0.2042992264032364, 'learning_rate': 2.655e-05, 'epoch': 16.33}
+{'loss': 0.0413, 'grad_norm': 0.7434996962547302, 'learning_rate': 2.6553e-05, 'epoch': 16.34}
+{'loss': 0.0115, 'grad_norm': 0.274636447429657, 'learning_rate': 2.6556e-05, 'epoch': 16.34}
+{'loss': 0.0116, 'grad_norm': 0.31662482023239136, 'learning_rate': 2.6559e-05, 'epoch': 16.34}
+{'loss': 0.0123, 'grad_norm': 0.3444797992706299, 'learning_rate': 2.6562e-05, 'epoch': 16.34}
+{'loss': 0.0088, 'grad_norm': 0.2661111652851105, 'learning_rate': 2.6565e-05, 'epoch': 16.34}
+{'loss': 0.0146, 'grad_norm': 0.6574168801307678, 'learning_rate': 2.6568000000000004e-05, 'epoch': 16.35}
+{'loss': 0.0088, 'grad_norm': 0.3464463949203491, 'learning_rate': 2.6571000000000004e-05, 'epoch': 16.35}
+{'loss': 0.0107, 'grad_norm': 0.35741615295410156, 'learning_rate': 2.6574e-05, 'epoch': 16.35}
+{'loss': 0.0141, 'grad_norm': 0.4415765702724457, 'learning_rate': 2.6577e-05, 'epoch': 16.35}
+{'loss': 0.0076, 'grad_norm': 0.23338951170444489, 'learning_rate': 2.658e-05, 'epoch': 16.35}
+{'loss': 0.0111, 'grad_norm': 0.3000146448612213, 'learning_rate': 2.6583e-05, 'epoch': 16.35}
+{'loss': 0.0096, 'grad_norm': 0.29810795187950134, 'learning_rate': 2.6586e-05, 'epoch': 16.36}
+{'loss': 0.0066, 'grad_norm': 0.21178984642028809, 'learning_rate': 2.6589e-05, 'epoch': 16.36}
+{'loss': 0.0226, 'grad_norm': 1.2656605243682861, 'learning_rate': 2.6592e-05, 'epoch': 16.36}
+{'loss': 0.01, 'grad_norm': 0.2447841763496399, 'learning_rate': 2.6595e-05, 'epoch': 16.36}
+{'loss': 0.0142, 'grad_norm': 0.34307822585105896, 'learning_rate': 2.6598000000000002e-05, 'epoch': 16.36}
+{'loss': 0.0089, 'grad_norm': 0.7280043363571167, 'learning_rate': 2.6601e-05, 'epoch': 16.37}
+{'loss': 0.0217, 'grad_norm': 0.504188060760498, 'learning_rate': 2.6604e-05, 'epoch': 16.37}
+{'loss': 0.0127, 'grad_norm': 0.6764096617698669, 'learning_rate': 2.6607e-05, 'epoch': 16.37}
+{'loss': 0.1713, 'grad_norm': 0.5507748126983643, 'learning_rate': 2.661e-05, 'epoch': 16.37}
+{'loss': 0.1514, 'grad_norm': 1.3963656425476074, 'learning_rate': 2.6613e-05, 'epoch': 16.37}
+{'loss': 0.1285, 'grad_norm': 0.575821042060852, 'learning_rate': 2.6616e-05, 'epoch': 16.37}
+{'loss': 0.1011, 'grad_norm': 0.543881893157959, 'learning_rate': 2.6619e-05, 'epoch': 16.38}
+{'loss': 0.143, 'grad_norm': 0.5799001455307007, 'learning_rate': 2.6622e-05, 'epoch': 16.38}
+{'loss': 0.0985, 'grad_norm': 0.5811880230903625, 'learning_rate': 2.6625e-05, 'epoch': 16.38}
+{'loss': 0.0882, 'grad_norm': 0.6220884919166565, 'learning_rate': 2.6628e-05, 'epoch': 16.38}
+{'loss': 0.0702, 'grad_norm': 0.8949848413467407, 'learning_rate': 2.6631000000000003e-05, 'epoch': 16.38}
+{'loss': 0.0712, 'grad_norm': 0.5241614580154419, 'learning_rate': 2.6634000000000003e-05, 'epoch': 16.39}
+{'loss': 0.0976, 'grad_norm': 0.703456461429596, 'learning_rate': 2.6637000000000003e-05, 'epoch': 16.39}
+{'loss': 0.0355, 'grad_norm': 0.3968183398246765, 'learning_rate': 2.6640000000000002e-05, 'epoch': 16.39}
+{'loss': 0.0638, 'grad_norm': 0.6287881135940552, 'learning_rate': 2.6643000000000002e-05, 'epoch': 16.39}
+{'loss': 0.0287, 'grad_norm': 0.44642600417137146, 'learning_rate': 2.6646000000000002e-05, 'epoch': 16.39}
+{'loss': 0.0444, 'grad_norm': 0.7361428737640381, 'learning_rate': 2.6649e-05, 'epoch': 16.4}
+{'loss': 0.0413, 'grad_norm': 0.3432881832122803, 'learning_rate': 2.6651999999999998e-05, 'epoch': 16.4}
+{'loss': 0.0439, 'grad_norm': 0.38371410965919495, 'learning_rate': 2.6654999999999998e-05, 'epoch': 16.4}
+{'loss': 0.0178, 'grad_norm': 0.45330309867858887, 'learning_rate': 2.6657999999999998e-05, 'epoch': 16.4}
+{'loss': 0.0224, 'grad_norm': 0.33713167905807495, 'learning_rate': 2.6661e-05, 'epoch': 16.4}
+{'loss': 0.0105, 'grad_norm': 0.2396007478237152, 'learning_rate': 2.6664e-05, 'epoch': 16.4}
+{'loss': 0.037, 'grad_norm': 0.2867899537086487, 'learning_rate': 2.6667e-05, 'epoch': 16.41}
+{'loss': 0.0145, 'grad_norm': 0.32196927070617676, 'learning_rate': 2.667e-05, 'epoch': 16.41}
+{'loss': 0.0302, 'grad_norm': 0.38088223338127136, 'learning_rate': 2.6673e-05, 'epoch': 16.41}
+{'loss': 0.0101, 'grad_norm': 0.22422203421592712, 'learning_rate': 2.6676e-05, 'epoch': 16.41}
+{'loss': 0.0165, 'grad_norm': 0.3829784393310547, 'learning_rate': 2.6679e-05, 'epoch': 16.41}
+{'loss': 0.0166, 'grad_norm': 0.44792550802230835, 'learning_rate': 2.6682e-05, 'epoch': 16.42}
+{'loss': 0.0354, 'grad_norm': 0.5492526292800903, 'learning_rate': 2.6685e-05, 'epoch': 16.42}
+{'loss': 0.0148, 'grad_norm': 0.3540531396865845, 'learning_rate': 2.6688e-05, 'epoch': 16.42}
+{'loss': 0.0078, 'grad_norm': 0.1499744951725006, 'learning_rate': 2.6691000000000002e-05, 'epoch': 16.42}
+{'loss': 0.0083, 'grad_norm': 0.14010149240493774, 'learning_rate': 2.6694000000000002e-05, 'epoch': 16.42}
+{'loss': 0.0167, 'grad_norm': 0.6157842874526978, 'learning_rate': 2.6697000000000002e-05, 'epoch': 16.42}
+{'loss': 0.0094, 'grad_norm': 0.20352981984615326, 'learning_rate': 2.6700000000000002e-05, 'epoch': 16.43}
+{'loss': 0.0177, 'grad_norm': 0.27032119035720825, 'learning_rate': 2.6703e-05, 'epoch': 16.43}
+{'loss': 0.0202, 'grad_norm': 0.5394765138626099, 'learning_rate': 2.6706e-05, 'epoch': 16.43}
+{'loss': 0.0122, 'grad_norm': 0.34230151772499084, 'learning_rate': 2.6709e-05, 'epoch': 16.43}
+{'loss': 0.0166, 'grad_norm': 0.8664721250534058, 'learning_rate': 2.6712e-05, 'epoch': 16.43}
+{'loss': 0.0111, 'grad_norm': 0.41157254576683044, 'learning_rate': 2.6715e-05, 'epoch': 16.44}
+{'loss': 0.0133, 'grad_norm': 0.38635289669036865, 'learning_rate': 2.6718e-05, 'epoch': 16.44}
+{'loss': 0.0139, 'grad_norm': 0.47712311148643494, 'learning_rate': 2.6721e-05, 'epoch': 16.44}
+{'loss': 0.0093, 'grad_norm': 0.2243277132511139, 'learning_rate': 2.6724e-05, 'epoch': 16.44}
+{'loss': 0.0191, 'grad_norm': 0.396609365940094, 'learning_rate': 2.6727e-05, 'epoch': 16.44}
+{'loss': 0.0263, 'grad_norm': 0.7725248336791992, 'learning_rate': 2.673e-05, 'epoch': 16.45}
+{'loss': 0.0075, 'grad_norm': 0.2902774512767792, 'learning_rate': 2.6733e-05, 'epoch': 16.45}
+{'loss': 0.0075, 'grad_norm': 0.31212446093559265, 'learning_rate': 2.6736e-05, 'epoch': 16.45}
+{'loss': 0.0095, 'grad_norm': 0.27319321036338806, 'learning_rate': 2.6739e-05, 'epoch': 16.45}
+{'loss': 0.0152, 'grad_norm': 0.42757007479667664, 'learning_rate': 2.6742e-05, 'epoch': 16.45}
+{'loss': 0.009, 'grad_norm': 0.2784916162490845, 'learning_rate': 2.6745e-05, 'epoch': 16.45}
+{'loss': 0.0113, 'grad_norm': 0.6861608028411865, 'learning_rate': 2.6748e-05, 'epoch': 16.46}
+{'loss': 0.0332, 'grad_norm': 0.4131728410720825, 'learning_rate': 2.6751000000000002e-05, 'epoch': 16.46}
+  9%|▉         | 8921/100000 [4:52:27<23:46:54,  1.06it/s]  9%|▉         | 8922/100000 [4:52:28<23:14:23,  1.09it/s]                                                            9%|▉         | 8922/100000 [4:52:28<23:14:23,  1.09it/s]  9%|▉         | 8923/100000 [4:52:40<107:39:14,  4.26s/it]                                                             9%|▉         | 8923/100000 [4:52:40<107:39:14,  4.26s/it]  9%|▉         | 8924/100000 [4:52:45<117:11:38,  4.63s/it]                                                             9%|▉         | 8924/100000 [4:52:45<117:11:38,  4.63s/it]  9%|▉         | 8925/100000 [4:52:50<115:17:22,  4.56s/it]                                                             9%|▉         | 8925/100000 [4:52:50<115:17:22,  4.56s/it]  9%|▉         | 8926/100000 [4:52:54<111:27:25,  4.41s/it]                                                             9%|▉         | 8926/100000 [4:52:54<111:27:25,  4.41s/it]  9%|▉         | 8927/100000 [4:52:57<105:43:31,  4.18s/it]                                                             9%|▉         | 8927/100000 [4:52:57<105:43:31,  4.18s/it]  9%|▉         | 8928/100000 [4:53:01<98:31:57,  3.89s/it]                                                             9%|▉         | 8928/100000 [4:53:01<98:31:57,  3.89s/it]  9%|▉         | 8929/100000 [4:53:04<91:32:26,  3.62s/it]                                                            9%|▉         | 8929/100000 [4:53:04<91:32:26,  3.62s/it]  9%|▉         | 8930/100000 [4:53:06<84:11:22,  3.33s/it]                                                            9%|▉         | 8930/100000 [4:53:06<84:11:22,  3.33s/it]  9%|▉         | 8931/100000 [4:53:09<78:00:56,  3.08s/it]                                                            9%|▉         | 8931/100000 [4:53:09<78:00:56,  3.08s/it]  9%|▉         | 8932/100000 [4:53:11<72:05:45,  2.85s/it]                                                            9%|▉         | 8932/100000 [4:53:11<72:05:45,  2.85s/it]  9%|▉         | 8933/100000 [4:53:13<66:45:10,  2.64s/it]                                                            9%|▉         | 8933/100000 [4:53:13<66:45:10,  2.64s/it]  9%|▉         | 8934/100000 [4:53:15<62:15:38,  2.46s/it]                                                            9%|▉         | 8934/100000 [4:53:15<62:15:38,  2.46s/it]  9%|▉         | 8935/100000 [4:53:17<57:50:06,  2.29s/it]                                                            9%|▉         | 8935/100000 [4:53:17<57:50:06,  2.29s/it]  9%|▉         | 8936/100000 [4:53:19<54:10:20,  2.14s/it]                                                            9%|▉         | 8936/100000 [4:53:19<54:10:20,  2.14s/it]  9%|▉         | 8937/100000 [4:53:21<50:44:08,  2.01s/it]                                                            9%|▉         | 8937/100000 [4:53:21<50:44:08,  2.01s/it]  9%|▉         | 8938/100000 [4:53:22<48:10:29,  1.90s/it]                                                            9%|▉         | 8938/100000 [4:53:22<48:10:29,  1.90s/it]  9%|▉         | 8939/100000 [4:53:24<45:57:09,  1.82s/it]                                                            9%|▉         | 8939/100000 [4:53:24<45:57:09,  1.82s/it]  9%|▉         | 8940/100000 [4:53:26<44:15:52,  1.75s/it]                                                            9%|▉         | 8940/100000 [4:53:26<44:15:52,  1.75s/it]  9%|▉         | 8941/100000 [4:53:27<42:39:36,  1.69s/it]                                                            9%|▉         | 8941/100000 [4:53:27<42:39:36,  1.69s/it]  9%|▉         | 8942/100000 [4:53:29<41:03:26,  1.62s/it]                                                            9%|▉         | 8942/100000 [4:53:29<41:03:26,  1.62s/it]  9%|▉         | 8943/100000 [4:53:30<39:26:16,  1.56s/it]                                                            9%|▉         | 8943/100000 [4:53:30<39:26:16,  1.56s/it]  9%|▉         | 8944/100000 [4:53:31<38:18:26,  1.51s/it]                                                            9%|▉         | 8944/100000 [4:53:31<38:18:26,  1.51s/it]  9%|▉         | 8945/100000 [4:53:33<37:32:13,  1.48s/it]                                                            9%|▉         | 8945/100000 [4:53:33<37:32:13,  1.48s/it]  9%|▉         | 8946/100000 [4:53:34<36:30:32,  1.44s/it]                                                            9%|▉         | 8946/100000 [4:53:34<36:30:32,  1.44s/it]  9%|▉         | 8947/100000 [4:53:36<35:47:00,  1.41s/it]                                                            9%|▉         | 8947/100000 [4:53:36<35:47:00,  1.41s/it]  9%|▉         | 8948/100000 [4:53:37<34:47:47,  1.38s/it]                                                            9%|▉         | 8948/100000 [4:53:37<34:47:47,  1.38s/it]  9%|▉         | 8949/100000 [4:53:38<34:29:48,  1.36s/it]                                                            9%|▉         | 8949/100000 [4:53:38<34:29:48,  1.36s/it]  9%|▉         | 8950/100000 [4:53:39<33:49:42,  1.34s/it]                                                            9%|▉         | 8950/100000 [4:53:39<33:49:42,  1.34s/it]  9%|▉         | 8951/100000 [4:53:41<33:18:16,  1.32s/it]                                                            9%|▉         | 8951/100000 [4:53:41<33:18:16,  1.32s/it]  9%|▉         | 8952/100000 [4:53:42<32:51:12,  1.30s/it]                                                            9%|▉         | 8952/100000 [4:53:42<32:51:12,  1.30s/it]  9%|▉         | 8953/100000 [4:53:43<32:29:05,  1.28s/it]                                                            9%|▉         | 8953/100000 [4:53:43<32:29:05,  1.28s/it]  9%|▉         | 8954/100000 [4:53:44<31:57:14,  1.26s/it]                                                            9%|▉         | 8954/100000 [4:53:44<31:57:14,  1.26s/it]  9%|▉         | 8955/100000 [4:53:46<31:39:24,  1.25s/it]                                                            9%|▉         | 8955/100000 [4:53:46<31:39:24,  1.25s/it]  9%|▉         | 8956/100000 [4:53:47<31:19:38,  1.24s/it]                                                            9%|▉         | 8956/100000 [4:53:47<31:19:38,  1.24s/it]  9%|▉         | 8957/100000 [4:53:48<30:34:58,  1.21s/it]                                                            9%|▉         | 8957/100000 [4:53:48<30:34:58,  1.21s/it]  9%|▉         | 8958/100000 [4:53:49<31:20:16,  1.24s/it]                                                            9%|▉         | 8958/100000 [4:53:49<31:20:16,  1.24s/it]  9%|▉         | 8959/100000 [4:53:50<30:20:42,  1.20s/it]                                                            9%|▉         | 8959/100000 [4:53:50<30:20:42,  1.20s/it]  9%|▉         | 8960/100000 [4:53:52<29:52:12,  1.18s/it]                                                            9%|▉         | 8960/100000 [4:53:52<29:52:12,  1.18s/it]  9%|▉         | 8961/100000 [4:53:53<28:57:19,  1.14s/it]                                                            9%|▉         | 8961/100000 [4:53:53<28:57:19,  1.14s/it]  9%|▉         | 8962/100000 [4:53:54<28:29:55,  1.13s/it]                                                            9%|▉         | 8962/100000 [4:53:54<28:29:55,  1.13s/it]  9%|▉         | 8963/100000 [4:53:55<27:47:29,  1.10s/it]                                                            9%|▉         | 8963/100000 [4:53:55<27:47:29,  1.10s/it]  9%|▉         | 8964/100000 [4:53:56<27:35:12,  1.09s/it]                                                            9%|▉         | 8964/100000 [4:53:56<27:35:12,  1.09s/it]  9%|▉         | 8965/100000 [4:53:57<27:17:29,  1.08s/it]                                                            9%|▉         | 8965/100000 [4:53:57<27:17:29,  1.08s/it]  9%|▉         | 8966/100000 [4:53:58<26:52:58,  1.06s/it]                                                            9%|▉         | 8966/100000 [4:53:58<26:52:58,  1.06s/it]  9%|▉         | 8967/100000 [4:53:59<26:30:53,  1.05s/it]                                                            9%|▉         | 8967/100000 [4:53:59<26:30:53,  1.05s/it]  9%|▉         | 8968/100000 [4:54:00<26:10:00,  1.03s/it]                                                            9%|▉         | 8968/100000 [4:54:00<26:10:00,  1.03s/it]  9%|▉         | 8969/100000 [4:54:01<25:52:06,  1.02s/it]                                                            9%|▉         | 8969/100000 [4:54:01<25:52:06,  1.02s/it]  9%|▉         | 8970/100000 [4:54:02<25:07:37,  1.01it/s]                                                            9%|▉         | 8970/100000 [4:54:02<25:07:37,  1.01it/s]  9%|▉         | 8971/100000 [4:54:03<24:28:45,  1.03it/s]                                                            9%|▉         | 8971/100000 [4:54:03<24:28:45,  1.03it/s]  9%|▉         | 8972/100000 [4:54:04<23:40:58,  1.07it/s]                                                            9%|▉         | 8972/100000 [4:54:04<23:40:58,  1.07it/s]  9%|▉         | 8973/100000 [4:54:16<107:22:06,  4.25s/it]                                                             9%|▉         | 8973/100000 [4:54:16<107:22:06,  4.25s/it]  9%|▉         | 8974/100000 [4:54:21<116:19:58,  4.60s/it]                                                             9%|▉         | 8974/100000 [4:54:21<116:19:58,  4.60s/it]  9%|▉         | 8975/100000 [4:54:26<117:23:04,  4.64s/it]                                                             9%|▉         | 8975/100000 [4:54:26<117:23:04,  4.64s/it]  9%|▉         | 8976/100000 [4:54:30<113:22:24,  4.48s/it]                                                             9%|▉         | 8976/100000 [4:54:30<113:22:24,  4.48s/it]  9%|▉         | 8977/100000 [4:54:33<106:48:20,  4.22s/it]                                                             9%|▉         | 8977/100000 [4:54:33<106:48:20,  4.22s/it]  9%|▉         | 8978/100000 [4:54:37<99:18:29,  3.93s/it]                                                             9%|▉         | 8978/100000 [4:54:37<99:18:29,  3.93s/it]  9%|▉         | 8979/100000 [4:54:40<91:50:42,  3.63s/it]                                                            9%|▉         | 8979/100000 [4:54:40<91:50:42,  3.63s/it]  9%|▉         | 8980/100000 [4:54:42<84:35:39,  3.35s/it]                                                            9%|▉         | 8980/100000 [4:54:42<84:35:39,  3.35s/it]  9%|▉         | 8981/100000 [4:54:45<77:26:22,  3.06s/it]                                                            9%|▉         | 8981/100000 [4:54:45<77:26:22,  3.06s/it]  9%|▉         | 8982/100000 [4:54:47<71:39:00,  2.83s/it]                                                            9%|▉         | 8982/100000 [4:54:47<71:39:00,  2.83s/it]  9%|▉         | 8983/100000 [4:54:49<66:19:08,  2.62s/it]                                                            9%|▉         | 8983/100000 [4:54:49<66:19:08,  2.62s/it]  9%|▉         | 8984/100000 [4:54:51<61:48:24,  2.44s/it]                                                            9%|▉         | 8984/100000 [4:54:51<61:48:24,  2.44s/it]  9%|▉         | 8985/100000 [4:54:53<57:43:33,  2.28s/it]                                                            9%|▉         | 8985/100000 [4:54:53<57:43:33,  2.28s/it]  9%|▉         | 8986/100000 [4:54:55<54:08:01,  2.14s/it]                                                            9%|▉         | 8986/100000 [4:54:55<54:08:01,  2.14s/it]  9%|▉         | 8987/100000 [4:54:57<50:42:08,  2.01s/it]                                                            9%|▉         | 8987/100000 [4:54:57<50:42:08,  2.01s/it]  9%|▉         | 8988/100000 [4:54:58<48:13:29,  1.91s/it]                                                            9%|▉         | 8988/100000 [4:54:58<48:13:29,  1.91s/it]  9%|▉         | 8989/100000 [4:55:00<46:02:10,  1.82s/it]                                                            9%|▉         | 8989/100000 [4:55:00<46:02:10,  1.82s/it]  9%|▉         | 8990/100000 [4:55:01<44:14:11,  1.75s/it]                                                            9%|▉         | 8990/100000 [4:55:01<44:14:11,  1.75s/it]  9%|▉         | 8991/100000 [4:55:03<42:15:27,  1.67s/it]                                                            9%|▉         | 8991/100000 [4:55:03<42:15:27,  1.67s/it]  9%|▉         | 8992/100000 [4:55:04<40:41:08,  1.61s/it]                                                            9%|▉         | 8992/100000 [4:55:04<40:41:08,  1.61s/it]  9%|▉         | 8993/100000 [4:55:06<39:23:36,  1.56s/it]                                                            9%|▉         | 8993/100000 [4:55:06<39:23:36,  1.56s/it]  9%|▉         | 8994/100000 [4:55:07<38:03:36,  1.51s/it]                                                            9%|▉         | 8994/100000 [4:55:07<38:03:36,  1.51s/it]  9%|▉         | 8995/100000 [4:55:09<36:57:45,  1.46s/it]                                                            9%|▉         | 8995/100000 [4:55:09<36:57:45,  1.46s/it]  9%|▉         | 8996/100000 [4:55:10<36:06:39,  1.43s/it]                                                            9%|▉         | 8996/100000 [4:55:10<36:06:39,  1.43s/it]  9%|▉         | 8997/100000 [4:55:11<35:28:43,  1.40s/it]                                                            9%|▉         | 8997/100000 [4:55:11<35:28:43,  1.40s/it]  9%|▉         | 8998/100000 [4:55:13<35:01:06,  1.39s/it]                                                            9%|▉         | 8998/100000 [4:55:13<35:01:06,  1.39s/it]  9%|▉         | 8999/100000 [4:55:14<34:31:15,  1.37s/it]                                                            9%|▉         | 8999/100000 [4:55:14<34:31:15,  1.37s/it]  9%|▉         | 9000/100000 [4:55:15<34:00:04,  1.35s/it]                                                            9%|▉         | 9000/100000 [4:55:15<34:00:04,  1.35s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0233, 'grad_norm': 0.7632374167442322, 'learning_rate': 2.6754e-05, 'epoch': 16.46}
+{'loss': 0.0177, 'grad_norm': 0.908040463924408, 'learning_rate': 2.6757e-05, 'epoch': 16.46}
+{'loss': 0.2018, 'grad_norm': 1.1065903902053833, 'learning_rate': 2.676e-05, 'epoch': 16.46}
+{'loss': 0.2644, 'grad_norm': 0.8847578167915344, 'learning_rate': 2.6763e-05, 'epoch': 16.47}
+{'loss': 0.0949, 'grad_norm': 0.45100724697113037, 'learning_rate': 2.6766e-05, 'epoch': 16.47}
+{'loss': 0.1164, 'grad_norm': 0.5411179065704346, 'learning_rate': 2.6769e-05, 'epoch': 16.47}
+{'loss': 0.0827, 'grad_norm': 0.4566073417663574, 'learning_rate': 2.6772e-05, 'epoch': 16.47}
+{'loss': 0.0678, 'grad_norm': 0.539164662361145, 'learning_rate': 2.6775e-05, 'epoch': 16.47}
+{'loss': 0.1078, 'grad_norm': 1.2484465837478638, 'learning_rate': 2.6778e-05, 'epoch': 16.47}
+{'loss': 0.0881, 'grad_norm': 0.6017367243766785, 'learning_rate': 2.6781000000000003e-05, 'epoch': 16.48}
+{'loss': 0.067, 'grad_norm': 0.5592476725578308, 'learning_rate': 2.6784000000000003e-05, 'epoch': 16.48}
+{'loss': 0.0652, 'grad_norm': 0.46658194065093994, 'learning_rate': 2.6787000000000003e-05, 'epoch': 16.48}
+{'loss': 0.0648, 'grad_norm': 0.6025909781455994, 'learning_rate': 2.6790000000000003e-05, 'epoch': 16.48}
+{'loss': 0.0394, 'grad_norm': 0.3990728259086609, 'learning_rate': 2.6793000000000002e-05, 'epoch': 16.48}
+{'loss': 0.0596, 'grad_norm': 0.46543025970458984, 'learning_rate': 2.6796e-05, 'epoch': 16.49}
+{'loss': 0.0499, 'grad_norm': 0.49842751026153564, 'learning_rate': 2.6799e-05, 'epoch': 16.49}
+{'loss': 0.0232, 'grad_norm': 0.38525688648223877, 'learning_rate': 2.6802e-05, 'epoch': 16.49}
+{'loss': 0.0166, 'grad_norm': 0.2686164081096649, 'learning_rate': 2.6805e-05, 'epoch': 16.49}
+{'loss': 0.0144, 'grad_norm': 0.37435072660446167, 'learning_rate': 2.6807999999999998e-05, 'epoch': 16.49}
+{'loss': 0.02, 'grad_norm': 0.37180137634277344, 'learning_rate': 2.6811e-05, 'epoch': 16.49}
+{'loss': 0.0186, 'grad_norm': 0.36476054787635803, 'learning_rate': 2.6814e-05, 'epoch': 16.5}
+{'loss': 0.0202, 'grad_norm': 0.5643298625946045, 'learning_rate': 2.6817e-05, 'epoch': 16.5}
+{'loss': 0.0094, 'grad_norm': 0.3396724462509155, 'learning_rate': 2.682e-05, 'epoch': 16.5}
+{'loss': 0.0142, 'grad_norm': 0.29790958762168884, 'learning_rate': 2.6823e-05, 'epoch': 16.5}
+{'loss': 0.0153, 'grad_norm': 0.29155367612838745, 'learning_rate': 2.6826e-05, 'epoch': 16.5}
+{'loss': 0.0105, 'grad_norm': 0.5531447529792786, 'learning_rate': 2.6829e-05, 'epoch': 16.51}
+{'loss': 0.0206, 'grad_norm': 0.40035152435302734, 'learning_rate': 2.6832e-05, 'epoch': 16.51}
+{'loss': 0.0121, 'grad_norm': 0.3767993152141571, 'learning_rate': 2.6835e-05, 'epoch': 16.51}
+{'loss': 0.0166, 'grad_norm': 0.32723501324653625, 'learning_rate': 2.6838e-05, 'epoch': 16.51}
+{'loss': 0.0453, 'grad_norm': 0.2774938642978668, 'learning_rate': 2.6841000000000003e-05, 'epoch': 16.51}
+{'loss': 0.017, 'grad_norm': 0.6788330674171448, 'learning_rate': 2.6844000000000003e-05, 'epoch': 16.52}
+{'loss': 0.0142, 'grad_norm': 0.7191709280014038, 'learning_rate': 2.6847000000000002e-05, 'epoch': 16.52}
+{'loss': 0.0089, 'grad_norm': 0.2165871262550354, 'learning_rate': 2.6850000000000002e-05, 'epoch': 16.52}
+{'loss': 0.0141, 'grad_norm': 0.4514833092689514, 'learning_rate': 2.6853000000000002e-05, 'epoch': 16.52}
+{'loss': 0.0066, 'grad_norm': 0.245515376329422, 'learning_rate': 2.6856000000000002e-05, 'epoch': 16.52}
+{'loss': 0.0116, 'grad_norm': 0.600486159324646, 'learning_rate': 2.6859e-05, 'epoch': 16.52}
+{'loss': 0.0099, 'grad_norm': 0.27086642384529114, 'learning_rate': 2.6862e-05, 'epoch': 16.53}
+{'loss': 0.0167, 'grad_norm': 0.4400690197944641, 'learning_rate': 2.6865e-05, 'epoch': 16.53}
+{'loss': 0.0111, 'grad_norm': 0.661552369594574, 'learning_rate': 2.6867999999999998e-05, 'epoch': 16.53}
+{'loss': 0.0387, 'grad_norm': 0.4757016599178314, 'learning_rate': 2.6871e-05, 'epoch': 16.53}
+{'loss': 0.0171, 'grad_norm': 0.5109610557556152, 'learning_rate': 2.6874e-05, 'epoch': 16.53}
+{'loss': 0.0185, 'grad_norm': 0.5325073599815369, 'learning_rate': 2.6877e-05, 'epoch': 16.54}
+{'loss': 0.0185, 'grad_norm': 0.6453657150268555, 'learning_rate': 2.688e-05, 'epoch': 16.54}
+{'loss': 0.025, 'grad_norm': 0.6359427571296692, 'learning_rate': 2.6883e-05, 'epoch': 16.54}
+{'loss': 0.0146, 'grad_norm': 0.7388697862625122, 'learning_rate': 2.6886e-05, 'epoch': 16.54}
+{'loss': 0.0075, 'grad_norm': 0.21786294877529144, 'learning_rate': 2.6889e-05, 'epoch': 16.54}
+{'loss': 0.0137, 'grad_norm': 0.5282310843467712, 'learning_rate': 2.6892e-05, 'epoch': 16.54}
+{'loss': 0.0152, 'grad_norm': 0.3669258654117584, 'learning_rate': 2.6895e-05, 'epoch': 16.55}
+{'loss': 0.0108, 'grad_norm': 0.6105878353118896, 'learning_rate': 2.6898e-05, 'epoch': 16.55}
+{'loss': 0.0152, 'grad_norm': 0.23995943367481232, 'learning_rate': 2.6901000000000002e-05, 'epoch': 16.55}
+{'loss': 0.0079, 'grad_norm': 0.43827906250953674, 'learning_rate': 2.6904000000000002e-05, 'epoch': 16.55}
+{'loss': 0.0357, 'grad_norm': 0.7252397537231445, 'learning_rate': 2.6907000000000002e-05, 'epoch': 16.55}
+{'loss': 0.2199, 'grad_norm': 0.651902437210083, 'learning_rate': 2.691e-05, 'epoch': 16.56}
+{'loss': 0.1116, 'grad_norm': 0.4844575822353363, 'learning_rate': 2.6913e-05, 'epoch': 16.56}
+{'loss': 0.1731, 'grad_norm': 0.6385934352874756, 'learning_rate': 2.6916e-05, 'epoch': 16.56}
+{'loss': 0.141, 'grad_norm': 0.5000412464141846, 'learning_rate': 2.6919e-05, 'epoch': 16.56}
+{'loss': 0.0896, 'grad_norm': 0.7032834887504578, 'learning_rate': 2.6922e-05, 'epoch': 16.56}
+{'loss': 0.1414, 'grad_norm': 0.5850236415863037, 'learning_rate': 2.6925e-05, 'epoch': 16.57}
+{'loss': 0.0648, 'grad_norm': 0.44791483879089355, 'learning_rate': 2.6928e-05, 'epoch': 16.57}
+{'loss': 0.082, 'grad_norm': 0.576742947101593, 'learning_rate': 2.6931000000000004e-05, 'epoch': 16.57}
+{'loss': 0.0532, 'grad_norm': 0.6310506463050842, 'learning_rate': 2.6934000000000003e-05, 'epoch': 16.57}
+{'loss': 0.0754, 'grad_norm': 0.6527665257453918, 'learning_rate': 2.6937000000000003e-05, 'epoch': 16.57}
+{'loss': 0.0793, 'grad_norm': 0.7429980039596558, 'learning_rate': 2.6940000000000003e-05, 'epoch': 16.57}
+{'loss': 0.1071, 'grad_norm': 0.7954683303833008, 'learning_rate': 2.6943e-05, 'epoch': 16.58}
+{'loss': 0.0265, 'grad_norm': 0.3820796608924866, 'learning_rate': 2.6946e-05, 'epoch': 16.58}
+{'loss': 0.0859, 'grad_norm': 0.5825003981590271, 'learning_rate': 2.6949e-05, 'epoch': 16.58}
+{'loss': 0.0692, 'grad_norm': 0.45463883876800537, 'learning_rate': 2.6952e-05, 'epoch': 16.58}
+{'loss': 0.0134, 'grad_norm': 0.1894882619380951, 'learning_rate': 2.6955e-05, 'epoch': 16.58}
+{'loss': 0.0163, 'grad_norm': 0.3609786033630371, 'learning_rate': 2.6958e-05, 'epoch': 16.59}
+{'loss': 0.0289, 'grad_norm': 0.7221500277519226, 'learning_rate': 2.6961e-05, 'epoch': 16.59}
+{'loss': 0.0236, 'grad_norm': 0.5865622758865356, 'learning_rate': 2.6964e-05, 'epoch': 16.59}
+{'loss': 0.0117, 'grad_norm': 0.2695974111557007, 'learning_rate': 2.6967e-05, 'epoch': 16.59}
+{'loss': 0.0111, 'grad_norm': 0.30907437205314636, 'learning_rate': 2.697e-05, 'epoch': 16.59}
+{'loss': 0.0141, 'grad_norm': 0.3169298768043518, 'learning_rate': 2.6973e-05, 'epoch': 16.59}
+{'loss': 0.0227, 'grad_norm': 0.739950954914093, 'learning_rate': 2.6976e-05, 'epoch': 16.6}
+{'loss': 0.0109, 'grad_norm': 0.3569239377975464, 'learning_rate': 2.6979e-05, 'epoch': 16.6}
+{'loss': 0.0196, 'grad_norm': 0.5756157636642456, 'learning_rate': 2.6982e-05, 'epoch': 16.6}
+{'loss': 0.0209, 'grad_norm': 0.661070704460144, 'learning_rate': 2.6985e-05, 'epoch': 16.6}
+{'loss': 0.0138, 'grad_norm': 0.4226855933666229, 'learning_rate': 2.6988e-05, 'epoch': 16.6}
+{'loss': 0.0205, 'grad_norm': 0.5164405107498169, 'learning_rate': 2.6991000000000003e-05, 'epoch': 16.61}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.47it/s][A
+ 30%|███       | 3/10 [00:01<00:05,  1.33it/s][A
+ 40%|████      | 4/10 [00:02<00:03,  1.55it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.05s/it][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.13it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.07s/it][A
+ 80%|████████  | 8/10 [00:06<00:01,  1.11it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.10s/it][A
+100%|██████████| 10/10 [00:08<00:00,  1.13it/s][A                                                          
+                                               [A  9%|▉         | 9000/100000 [4:55:48<34:00:04,  1.35s/it]
+100%|██████████| 10/10 [00:09<00:00,  1.13it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-7000] due to args.save_total_limit
+  9%|▉         | 9001/100000 [4:56:01<374:08:42, 14.80s/it]                                                             9%|▉         | 9001/100000 [4:56:01<374:08:42, 14.80s/it]  9%|▉         | 9002/100000 [4:56:03<271:25:31, 10.74s/it]                                                             9%|▉         | 9002/100000 [4:56:03<271:25:31, 10.74s/it]  9%|▉         | 9003/100000 [4:56:04<199:25:57,  7.89s/it]                                                             9%|▉         | 9003/100000 [4:56:04<199:25:57,  7.89s/it]  9%|▉         | 9004/100000 [4:56:05<148:43:28,  5.88s/it]                                                             9%|▉         | 9004/100000 [4:56:05<148:43:28,  5.88s/it]  9%|▉         | 9005/100000 [4:56:06<113:16:20,  4.48s/it]                                                             9%|▉         | 9005/100000 [4:56:06<113:16:20,  4.48s/it]  9%|▉         | 9006/100000 [4:56:08<88:05:43,  3.49s/it]                                                             9%|▉         | 9006/100000 [4:56:08<88:05:43,  3.49s/it]  9%|▉         | 9007/100000 [4:56:09<70:32:30,  2.79s/it]                                                            9%|▉         | 9007/100000 [4:56:09<70:32:30,  2.79s/it]  9%|▉         | 9008/100000 [4:56:10<57:57:43,  2.29s/it]                                                            9%|▉         | 9008/100000 [4:56:10<57:57:43,  2.29s/it]  9%|▉         | 9009/100000 [4:56:11<49:17:12,  1.95s/it]                                                            9%|▉         | 9009/100000 [4:56:11<49:17:12,  1.95s/it]  9%|▉         | 9010/100000 [4:56:12<43:02:11,  1.70s/it]                                                            9%|▉         | 9010/100000 [4:56:12<43:02:11,  1.70s/it]  9%|▉         | 9011/100000 [4:56:13<38:22:54,  1.52s/it]                                                            9%|▉         | 9011/100000 [4:56:13<38:22:54,  1.52s/it]  9%|▉         | 9012/100000 [4:56:14<35:34:03,  1.41s/it]                                                            9%|▉         | 9012/100000 [4:56:14<35:34:03,  1.41s/it]  9%|▉         | 9013/100000 [4:56:15<33:10:56,  1.31s/it]                                                            9%|▉         | 9013/100000 [4:56:15<33:10:56,  1.31s/it]  9%|▉         | 9014/100000 [4:56:17<31:33:44,  1.25s/it]                                                            9%|▉         | 9014/100000 [4:56:17<31:33:44,  1.25s/it]  9%|▉         | 9015/100000 [4:56:18<30:05:52,  1.19s/it]                                                            9%|▉         | 9015/100000 [4:56:18<30:05:52,  1.19s/it]  9%|▉         | 9016/100000 [4:56:19<29:14:19,  1.16s/it]                                                            9%|▉         | 9016/100000 [4:56:19<29:14:19,  1.16s/it]  9%|▉         | 9017/100000 [4:56:20<28:10:54,  1.12s/it]                                                            9%|▉         | 9017/100000 [4:56:20<28:10:54,  1.12s/it]  9%|▉         | 9018/100000 [4:56:21<27:26:20,  1.09s/it]                                                            9%|▉         | 9018/100000 [4:56:21<27:26:20,  1.09s/it]  9%|▉         | 9019/100000 [4:56:22<26:48:59,  1.06s/it]                                                            9%|▉         | 9019/100000 [4:56:22<26:48:59,  1.06s/it]  9%|▉         | 9020/100000 [4:56:23<26:16:50,  1.04s/it]                                                            9%|▉         | 9020/100000 [4:56:23<26:16:50,  1.04s/it]  9%|▉         | 9021/100000 [4:56:24<25:55:00,  1.03s/it]                                                            9%|▉         | 9021/100000 [4:56:24<25:55:00,  1.03s/it]  9%|▉         | 9022/100000 [4:56:25<25:27:30,  1.01s/it]                                                            9%|▉         | 9022/100000 [4:56:25<25:27:30,  1.01s/it]  9%|▉         | 9023/100000 [4:56:36<101:52:13,  4.03s/it]                                                             9%|▉         | 9023/100000 [4:56:36<101:52:13,  4.03s/it]  9%|▉         | 9024/100000 [4:56:41<113:12:30,  4.48s/it]                                                             9%|▉         | 9024/100000 [4:56:41<113:12:30,  4.48s/it]  9%|▉         | 9025/100000 [4:56:46<115:33:43,  4.57s/it]                                                             9%|▉         | 9025/100000 [4:56:46<115:33:43,  4.57s/it]  9%|▉         | 9026/100000 [4:56:50<112:04:02,  4.43s/it]                                                             9%|▉         | 9026/100000 [4:56:50<112:04:02,  4.43s/it]  9%|▉         | 9027/100000 [4:56:54<105:50:59,  4.19s/it]                                                             9%|▉         | 9027/100000 [4:56:54<105:50:59,  4.19s/it]  9%|▉         | 9028/100000 [4:56:57<99:17:03,  3.93s/it]                                                             9%|▉         | 9028/100000 [4:56:57<99:17:03,  3.93s/it]  9%|▉         | 9029/100000 [4:57:00<92:04:20,  3.64s/it]                                                            9%|▉         | 9029/100000 [4:57:00<92:04:20,  3.64s/it]  9%|▉         | 9030/100000 [4:57:03<85:20:55,  3.38s/it]                                                            9%|▉         | 9030/100000 [4:57:03<85:20:55,  3.38s/it]  9%|▉         | 9031/100000 [4:57:05<78:43:46,  3.12s/it]                                                            9%|▉         | 9031/100000 [4:57:05<78:43:46,  3.12s/it]  9%|▉         | 9032/100000 [4:57:08<72:40:39,  2.88s/it]                                                            9%|▉         | 9032/100000 [4:57:08<72:40:39,  2.88s/it]  9%|▉         | 9033/100000 [4:57:10<67:13:28,  2.66s/it]                                                            9%|▉         | 9033/100000 [4:57:10<67:13:28,  2.66s/it]  9%|▉         | 9034/100000 [4:57:12<62:40:34,  2.48s/it]                                                            9%|▉         | 9034/100000 [4:57:12<62:40:34,  2.48s/it]  9%|▉         | 9035/100000 [4:57:14<58:10:31,  2.30s/it]                                                            9%|▉         | 9035/100000 [4:57:14<58:10:31,  2.30s/it]  9%|▉         | 9036/100000 [4:57:16<54:05:12,  2.14s/it]                                                            9%|▉         | 9036/100000 [4:57:16<54:05:12,  2.14s/it]  9%|▉         | 9037/100000 [4:57:17<50:42:26,  2.01s/it]                                                            9%|▉         | 9037/100000 [4:57:17<50:42:26,  2.01s/it]  9%|▉         | 9038/100000 [4:57:19<47:42:52,  1.89s/it]                                                            9%|▉         | 9038/100000 [4:57:19<47:42:52,  1.89s/it]  9%|▉         | 9039/100000 [4:57:20<45:47:15,  1.81s/it]                                                            9%|▉         | 9039/100000 [4:57:20<45:47:15,  1.81s/it]  9%|▉         | 9040/100000 [4:57:22<43:45:46,  1.73s/it]                                                            9%|▉         | 9040/100000 [4:57:22<43:45:46,  1.73s/it]  9%|▉         | 9041/100000 [4:57:24<42:22:43,  1.68s/it]                                                            9%|▉         | 9041/100000 [4:57:24<42:22:43,  1.68s/it]  9%|▉         | 9042/100000 [4:57:25<42:04:56,  1.67s/it]                                                            9%|▉         | 9042/100000 [4:57:25<42:04:56,  1.67s/it]  9%|▉         | 9043/100000 [4:57:27<40:15:13,  1.59s/it]                                                            9%|▉         | 9043/100000 [4:57:27<40:15:13,  1.59s/it]  9%|▉         | 9044/100000 [4:57:28<39:01:06,  1.54s/it]                                                            9%|▉         | 9044/100000 [4:57:28<39:01:06,  1.54s/it]  9%|▉         | 9045/100000 [4:57:29<37:44:07,  1.49s/it]                                                            9%|▉         | 9045/100000 [4:57:29<37:44:07,  1.49s/it]  9%|▉         | 9046/100000 [4:57:31<37:13:03,  1.47s/it]                                                            9%|▉         | 9046/100000 [4:57:31<37:13:03,  1.47s/it]  9%|▉         | 9047/100000 [4:57:32<36:32:07,  1.45s/it]                                                            9%|▉         | 9047/100000 [4:57:32<36:32:07,  1.45s/it]  9%|▉         | 9048/100000 [4:57:34<35:50:32,  1.42s/it]                                                            9%|▉         | 9048/100000 [4:57:34<35:50:32,  1.42s/it]  9%|▉         | 9049/100000 [4:57:35<35:14:31,  1.39s/it]                                                            9%|▉         | 9049/100000 [4:57:35<35:14:31,  1.39s/it]  9%|▉         | 9050/100000 [4:57:36<34:20:12,  1.36s/it]                                                            9%|▉         | 9050/100000 [4:57:36<34:20:12,  1.36s/it]  9%|▉         | 9051/100000 [4:57:37<33:51:24,  1.34s/it]                                                            9%|▉         | 9051/100000 [4:57:37<33:51:24,  1.34s/it]  9%|▉         | 9052/100000 [4:57:39<33:19:42,  1.32s/it]                                                            9%|▉         | 9052/100000 [4:57:39<33:19:42,  1.32s/it]  9%|▉         | 9053/100000 [4:57:40<32:55:16,  1.30s/it]                                                            9%|▉         | 9053/100000 [4:57:40<32:55:16,  1.30s/it]  9%|▉         | 9054/100000 [4:57:41<32:01:47,  1.27s/it]                                                            9%|▉         | 9054/100000 [4:57:41<32:01:47,  1.27s/it]  9%|▉         | 9055/100000 [4:57:42<31:41:31,  1.25s/it]                                                            9%|▉         | 9055/100000 [4:57:42<31:41:31,  1.25s/it]  9%|▉         | 9056/100000 [4:57:44<31:17:21,  1.24s/it]                                                            9%|▉         | 9056/100000 [4:57:44<31:17:21,  1.24s/it]  9%|▉         | 9057/100000 [4:57:45<30:46:06,  1.22s/it]                                                            9%|▉         | 9057/100000 [4:57:45<30:46:06,  1.22s/it]  9%|▉         | 9058/100000 [4:57:46<30:11:20,  1.20s/it]                                                            9%|▉         | 9058/100000 [4:57:46<30:11:20,  1.20s/it]  9%|▉         | 9059/100000 [4:57:47<29:40:35,  1.17s/it]                                                            9%|▉         | 9059/100000 [4:57:47<29:40:35,  1.17s/it]  9%|▉         | 9060/100000 [4:57:48<29:19:13,  1.16s/it]                                                            9%|▉         | 9060/100000 [4:57:48<29:19:13,  1.16s/it]  9%|▉         | 9061/100000 [4:57:49<28:56:42,  1.15s/it]                                                            9%|▉         | 9061/100000 [4:57:49<28:56:42,  1.15s/it]  9%|▉         | 9062/100000 [4:57:50<28:20:34,  1.12s/it]                                                            9%|▉         | 9062/100000 [4:57:50<28:20:34,  1.12s/it]  9%|▉         | 9063/100000 [4:57:51<27:59:15,  1.11s/it]                                                            9%|▉         | 9063/100000 [4:57:51<27:59:15,  1.11s/it]  9%|▉         | 9064/100000 [4:57:53<27:59:09,  1.11s/it]                                                            9%|▉         | 9064/100000 [4:57:53<27:59:09,  1.11s/it]  9%|▉         | 9065/100000 [4:57:54<27:38:02,  1.09s/it]                                                            9%|▉         | 9065/100000 [4:57:54<27:38:02,  1.09s/it]  9%|▉         | 9066/100000 [4:57:55<27:20:45,  1.08s/it]                                                            9%|▉         | 9066/100000 [4:57:55<27:20:45,  1.08s/it]  9%|▉         | 9067/100000 [4:57:56<26:59:38,  1.07s/it]                                                            9%|▉         | 9067/100000 [4:57:56<26:59:38,  1.07s/it]  9%|▉         | 9068/100000 [4:57:57<26:50:10,  1.06s/it]                                                            9%|▉         | 9068/100000 [4:57:57<26:50:10,  1.06s/it]  9%|▉         | 9069/100000 [4:57:58<26:32:23,  1.05s/it]                                                            9%|▉         | 9069/100000 [4:57:58<26:32:23,  1.05s/it]  9%|▉         | 9070/100000 [4:57:59<26:09:07,  1.04s/it]                                                            9%|▉         | 9070/100000 [4:57:59<26:09:07,  1.04s/it]  9%|▉         | 9071/100000 [4:58:00<25:59:55,  1.03s/it]                                                            9%|▉         | 9071/100000 [4:58:00<25:59:55,  1.03s/it]  9%|▉         | 9072/100000 [4:58:01<25:20:15,  1.00s/it]                                                            9%|▉         | 9072/100000 [4:58:01<25:20:15,  1.00s/it]  9%|▉         | 9073/100000 [4:58:12<100:06:53,  3.96s/it]                                                             9%|▉         | 9073/100000 [4:58:12<100:06:53,  3.96s/it]  9%|▉         | 9074/100000 [4:58:17<110:14:48,  4.36s/it]                                                             9%|▉         | 9074/100000 [4:58:17<110:14:48,  4.36s/it]  9%|▉         | 9075/100000 [4:58:21<109:50:12,  4.35s/it]                                                             9%|▉         | 9075/100000 [4:58:21<109:50:12,  4.35s/it]  9%|▉         | 9076/100000 [4:58:25<107:17:36,  4.25s/it]                                                             9%|▉         | 9076/100000 [4:58:25<107:17:36,  4.25s/it]  9%|▉         | 9077/100000 [4:58:29<101:11:14,  4.01s/it]                                                             9%|▉         | 9077/100000 [4:58:29<101:11:14,  4.01s/it]  9%|▉         | 9078/100000 [4:58:32<93:34:12,  3.70s/it]                                                             9%|▉         | 9078/100000 [4:58:32<93:34:12,  3.70s/it]  9%|▉         | 9079/100000 [4:58:35<87:29:04,  3.46s/it]                                                            9%|▉         | 9079/100000 [4:58:35<87:29:04,  3.46s/it]  9%|▉         | 9080/100000 [4:58:37<81:20:27,  3.22s/it]                                                            9%|▉         | 9080/100000 [4:58:37<81:20:27,  3.22s/it]  9%|▉         | 9081/100000 [4:58:40<75:14:26,  2.98s/it]                                                          {'eval_loss': 0.3083859980106354, 'eval_wer': 0.39102072141212585, 'eval_cer': 0.11260595691733416, 'eval_runtime': 15.9192, 'eval_samples_per_second': 19.096, 'eval_steps_per_second': 0.628, 'epoch': 16.61}
+{'loss': 0.0159, 'grad_norm': 0.32492971420288086, 'learning_rate': 2.6994000000000003e-05, 'epoch': 16.61}
+{'loss': 0.0065, 'grad_norm': 0.30137714743614197, 'learning_rate': 2.6997000000000003e-05, 'epoch': 16.61}
+{'loss': 0.0154, 'grad_norm': 0.6133913993835449, 'learning_rate': 2.7000000000000002e-05, 'epoch': 16.61}
+{'loss': 0.0207, 'grad_norm': 0.3343926668167114, 'learning_rate': 2.7003000000000002e-05, 'epoch': 16.61}
+{'loss': 0.0181, 'grad_norm': 0.7353482246398926, 'learning_rate': 2.7006000000000002e-05, 'epoch': 16.61}
+{'loss': 0.0143, 'grad_norm': 0.6952447891235352, 'learning_rate': 2.7009000000000002e-05, 'epoch': 16.62}
+{'loss': 0.0133, 'grad_norm': 0.27672079205513, 'learning_rate': 2.7012e-05, 'epoch': 16.62}
+{'loss': 0.0108, 'grad_norm': 0.2262832075357437, 'learning_rate': 2.7015e-05, 'epoch': 16.62}
+{'loss': 0.0131, 'grad_norm': 0.7397500276565552, 'learning_rate': 2.7017999999999998e-05, 'epoch': 16.62}
+{'loss': 0.0147, 'grad_norm': 0.2488490790128708, 'learning_rate': 2.7020999999999998e-05, 'epoch': 16.62}
+{'loss': 0.0199, 'grad_norm': 0.7176915407180786, 'learning_rate': 2.7024e-05, 'epoch': 16.63}
+{'loss': 0.021, 'grad_norm': 0.34909358620643616, 'learning_rate': 2.7027e-05, 'epoch': 16.63}
+{'loss': 0.0236, 'grad_norm': 0.45952746272087097, 'learning_rate': 2.703e-05, 'epoch': 16.63}
+{'loss': 0.0224, 'grad_norm': 0.5121981501579285, 'learning_rate': 2.7033e-05, 'epoch': 16.63}
+{'loss': 0.0103, 'grad_norm': 0.3115614950656891, 'learning_rate': 2.7036e-05, 'epoch': 16.63}
+{'loss': 0.0198, 'grad_norm': 0.40834179520606995, 'learning_rate': 2.7039e-05, 'epoch': 16.64}
+{'loss': 0.015, 'grad_norm': 0.29144415259361267, 'learning_rate': 2.7042e-05, 'epoch': 16.64}
+{'loss': 0.0197, 'grad_norm': 0.535346269607544, 'learning_rate': 2.7045e-05, 'epoch': 16.64}
+{'loss': 0.0367, 'grad_norm': 0.6192907094955444, 'learning_rate': 2.7048e-05, 'epoch': 16.64}
+{'loss': 0.0191, 'grad_norm': 0.31909242272377014, 'learning_rate': 2.7051e-05, 'epoch': 16.64}
+{'loss': 0.0174, 'grad_norm': 0.43197062611579895, 'learning_rate': 2.7054000000000002e-05, 'epoch': 16.64}
+{'loss': 0.0128, 'grad_norm': 0.3951015770435333, 'learning_rate': 2.7057000000000002e-05, 'epoch': 16.65}
+{'loss': 0.2058, 'grad_norm': 0.775962233543396, 'learning_rate': 2.7060000000000002e-05, 'epoch': 16.65}
+{'loss': 0.1974, 'grad_norm': 0.6837390661239624, 'learning_rate': 2.7063e-05, 'epoch': 16.65}
+{'loss': 0.1654, 'grad_norm': 0.499403715133667, 'learning_rate': 2.7066e-05, 'epoch': 16.65}
+{'loss': 0.1186, 'grad_norm': 0.5308801531791687, 'learning_rate': 2.7069e-05, 'epoch': 16.65}
+{'loss': 0.1018, 'grad_norm': 0.5072598457336426, 'learning_rate': 2.7072e-05, 'epoch': 16.66}
+{'loss': 0.1102, 'grad_norm': 0.5138546824455261, 'learning_rate': 2.7075e-05, 'epoch': 16.66}
+{'loss': 0.0695, 'grad_norm': 0.49401623010635376, 'learning_rate': 2.7078e-05, 'epoch': 16.66}
+{'loss': 0.0837, 'grad_norm': 0.47299742698669434, 'learning_rate': 2.7081e-05, 'epoch': 16.66}
+{'loss': 0.0639, 'grad_norm': 0.39474567770957947, 'learning_rate': 2.7084000000000004e-05, 'epoch': 16.66}
+{'loss': 0.1129, 'grad_norm': 0.4763193726539612, 'learning_rate': 2.7087000000000003e-05, 'epoch': 16.66}
+{'loss': 0.047, 'grad_norm': 0.6414193511009216, 'learning_rate': 2.709e-05, 'epoch': 16.67}
+{'loss': 0.0435, 'grad_norm': 0.4468953609466553, 'learning_rate': 2.7093e-05, 'epoch': 16.67}
+{'loss': 0.0754, 'grad_norm': 0.6856594681739807, 'learning_rate': 2.7096e-05, 'epoch': 16.67}
+{'loss': 0.0332, 'grad_norm': 0.2718965709209442, 'learning_rate': 2.7099e-05, 'epoch': 16.67}
+{'loss': 0.0433, 'grad_norm': 0.28632283210754395, 'learning_rate': 2.7102e-05, 'epoch': 16.67}
+{'loss': 0.0345, 'grad_norm': 0.4210139214992523, 'learning_rate': 2.7105e-05, 'epoch': 16.68}
+{'loss': 0.0247, 'grad_norm': 0.3410778343677521, 'learning_rate': 2.7108e-05, 'epoch': 16.68}
+{'loss': 0.0153, 'grad_norm': 0.4439637362957001, 'learning_rate': 2.7111e-05, 'epoch': 16.68}
+{'loss': 0.0107, 'grad_norm': 0.9153331518173218, 'learning_rate': 2.7114e-05, 'epoch': 16.68}
+{'loss': 0.0122, 'grad_norm': 0.3366173505783081, 'learning_rate': 2.7117e-05, 'epoch': 16.68}
+{'loss': 0.0175, 'grad_norm': 0.20940084755420685, 'learning_rate': 2.712e-05, 'epoch': 16.69}
+{'loss': 0.0342, 'grad_norm': 0.861236572265625, 'learning_rate': 2.7123e-05, 'epoch': 16.69}
+{'loss': 0.0277, 'grad_norm': 0.41026780009269714, 'learning_rate': 2.7126e-05, 'epoch': 16.69}
+{'loss': 0.0119, 'grad_norm': 0.24577605724334717, 'learning_rate': 2.7129e-05, 'epoch': 16.69}
+{'loss': 0.0131, 'grad_norm': 0.33204078674316406, 'learning_rate': 2.7132e-05, 'epoch': 16.69}
+{'loss': 0.0093, 'grad_norm': 0.1572006791830063, 'learning_rate': 2.7135e-05, 'epoch': 16.69}
+{'loss': 0.0179, 'grad_norm': 0.6033346652984619, 'learning_rate': 2.7138e-05, 'epoch': 16.7}
+{'loss': 0.011, 'grad_norm': 0.31534436345100403, 'learning_rate': 2.7141e-05, 'epoch': 16.7}
+{'loss': 0.0254, 'grad_norm': 0.29961878061294556, 'learning_rate': 2.7144000000000003e-05, 'epoch': 16.7}
+{'loss': 0.0121, 'grad_norm': 0.263561487197876, 'learning_rate': 2.7147000000000003e-05, 'epoch': 16.7}
+{'loss': 0.0079, 'grad_norm': 0.28035175800323486, 'learning_rate': 2.7150000000000003e-05, 'epoch': 16.7}
+{'loss': 0.0226, 'grad_norm': 0.43491461873054504, 'learning_rate': 2.7153000000000002e-05, 'epoch': 16.71}
+{'loss': 0.0108, 'grad_norm': 0.2045207917690277, 'learning_rate': 2.7156000000000002e-05, 'epoch': 16.71}
+{'loss': 0.0138, 'grad_norm': 0.35303208231925964, 'learning_rate': 2.7159000000000002e-05, 'epoch': 16.71}
+{'loss': 0.0126, 'grad_norm': 0.24313557147979736, 'learning_rate': 2.7162000000000002e-05, 'epoch': 16.71}
+{'loss': 0.0184, 'grad_norm': 0.4155482351779938, 'learning_rate': 2.7164999999999998e-05, 'epoch': 16.71}
+{'loss': 0.0127, 'grad_norm': 0.35526689887046814, 'learning_rate': 2.7167999999999998e-05, 'epoch': 16.71}
+{'loss': 0.0127, 'grad_norm': 1.286755084991455, 'learning_rate': 2.7170999999999998e-05, 'epoch': 16.72}
+{'loss': 0.018, 'grad_norm': 0.4949331283569336, 'learning_rate': 2.7174e-05, 'epoch': 16.72}
+{'loss': 0.0107, 'grad_norm': 0.2951291501522064, 'learning_rate': 2.7177e-05, 'epoch': 16.72}
+{'loss': 0.0178, 'grad_norm': 0.29090291261672974, 'learning_rate': 2.718e-05, 'epoch': 16.72}
+{'loss': 0.0122, 'grad_norm': 0.4155007600784302, 'learning_rate': 2.7183e-05, 'epoch': 16.72}
+{'loss': 0.012, 'grad_norm': 0.5140042901039124, 'learning_rate': 2.7186e-05, 'epoch': 16.73}
+{'loss': 0.0278, 'grad_norm': 0.6684512495994568, 'learning_rate': 2.7189e-05, 'epoch': 16.73}
+{'loss': 0.0111, 'grad_norm': 0.5385333895683289, 'learning_rate': 2.7192e-05, 'epoch': 16.73}
+{'loss': 0.0127, 'grad_norm': 0.5201623439788818, 'learning_rate': 2.7195e-05, 'epoch': 16.73}
+{'loss': 0.0092, 'grad_norm': 0.353179395198822, 'learning_rate': 2.7198e-05, 'epoch': 16.73}
+{'loss': 0.0141, 'grad_norm': 0.3160616159439087, 'learning_rate': 2.7201e-05, 'epoch': 16.73}
+{'loss': 0.0079, 'grad_norm': 0.21332009136676788, 'learning_rate': 2.7204000000000002e-05, 'epoch': 16.74}
+{'loss': 0.029, 'grad_norm': 0.6301090121269226, 'learning_rate': 2.7207000000000002e-05, 'epoch': 16.74}
+{'loss': 0.2004, 'grad_norm': 0.8239292502403259, 'learning_rate': 2.7210000000000002e-05, 'epoch': 16.74}
+{'loss': 0.1969, 'grad_norm': 0.6537140011787415, 'learning_rate': 2.7213000000000002e-05, 'epoch': 16.74}
+{'loss': 0.1587, 'grad_norm': 0.6992922425270081, 'learning_rate': 2.7216e-05, 'epoch': 16.74}
+{'loss': 0.0969, 'grad_norm': 0.5989820957183838, 'learning_rate': 2.7219e-05, 'epoch': 16.75}
+{'loss': 0.0913, 'grad_norm': 0.440569132566452, 'learning_rate': 2.7222e-05, 'epoch': 16.75}
+{'loss': 0.0934, 'grad_norm': 0.41203105449676514, 'learning_rate': 2.7225e-05, 'epoch': 16.75}
+{'loss': 0.1059, 'grad_norm': 0.4103984534740448, 'learning_rate': 2.7228e-05, 'epoch': 16.75}
+{'loss': 0.0839, 'grad_norm': 0.4278160035610199, 'learning_rate': 2.7231e-05, 'epoch': 16.75}
+  9%|▉         | 9081/100000 [4:58:40<75:14:26,  2.98s/it]  9%|▉         | 9082/100000 [4:58:42<68:58:32,  2.73s/it]                                                            9%|▉         | 9082/100000 [4:58:42<68:58:32,  2.73s/it]  9%|▉         | 9083/100000 [4:58:44<64:12:45,  2.54s/it]                                                            9%|▉         | 9083/100000 [4:58:44<64:12:45,  2.54s/it]  9%|▉         | 9084/100000 [4:58:46<59:56:07,  2.37s/it]                                                            9%|▉         | 9084/100000 [4:58:46<59:56:07,  2.37s/it]  9%|▉         | 9085/100000 [4:58:48<56:06:02,  2.22s/it]                                                            9%|▉         | 9085/100000 [4:58:48<56:06:02,  2.22s/it]  9%|▉         | 9086/100000 [4:58:50<52:41:21,  2.09s/it]                                                            9%|▉         | 9086/100000 [4:58:50<52:41:21,  2.09s/it]  9%|▉         | 9087/100000 [4:58:51<49:55:41,  1.98s/it]                                                            9%|▉         | 9087/100000 [4:58:51<49:55:41,  1.98s/it]  9%|▉         | 9088/100000 [4:58:53<47:40:34,  1.89s/it]                                                            9%|▉         | 9088/100000 [4:58:53<47:40:34,  1.89s/it]  9%|▉         | 9089/100000 [4:58:55<45:45:39,  1.81s/it]                                                            9%|▉         | 9089/100000 [4:58:55<45:45:39,  1.81s/it]  9%|▉         | 9090/100000 [4:58:56<43:40:14,  1.73s/it]                                                            9%|▉         | 9090/100000 [4:58:56<43:40:14,  1.73s/it]  9%|▉         | 9091/100000 [4:58:58<42:14:25,  1.67s/it]                                                            9%|▉         | 9091/100000 [4:58:58<42:14:25,  1.67s/it]  9%|▉         | 9092/100000 [4:58:59<40:47:54,  1.62s/it]                                                            9%|▉         | 9092/100000 [4:58:59<40:47:54,  1.62s/it]  9%|▉         | 9093/100000 [4:59:01<40:41:38,  1.61s/it]                                                            9%|▉         | 9093/100000 [4:59:01<40:41:38,  1.61s/it]  9%|▉         | 9094/100000 [4:59:02<39:02:21,  1.55s/it]                                                            9%|▉         | 9094/100000 [4:59:02<39:02:21,  1.55s/it]  9%|▉         | 9095/100000 [4:59:04<38:06:30,  1.51s/it]                                                            9%|▉         | 9095/100000 [4:59:04<38:06:30,  1.51s/it]  9%|▉         | 9096/100000 [4:59:05<37:12:19,  1.47s/it]                                                            9%|▉         | 9096/100000 [4:59:05<37:12:19,  1.47s/it]  9%|▉         | 9097/100000 [4:59:06<36:36:12,  1.45s/it]                                                            9%|▉         | 9097/100000 [4:59:06<36:36:12,  1.45s/it]  9%|▉         | 9098/100000 [4:59:08<35:57:21,  1.42s/it]                                                            9%|▉         | 9098/100000 [4:59:08<35:57:21,  1.42s/it]  9%|▉         | 9099/100000 [4:59:09<35:14:54,  1.40s/it]                                                            9%|▉         | 9099/100000 [4:59:09<35:14:54,  1.40s/it]  9%|▉         | 9100/100000 [4:59:10<34:25:36,  1.36s/it]                                                            9%|▉         | 9100/100000 [4:59:10<34:25:36,  1.36s/it]  9%|▉         | 9101/100000 [4:59:12<33:45:54,  1.34s/it]                                                            9%|▉         | 9101/100000 [4:59:12<33:45:54,  1.34s/it]  9%|▉         | 9102/100000 [4:59:13<32:50:20,  1.30s/it]                                                            9%|▉         | 9102/100000 [4:59:13<32:50:20,  1.30s/it]  9%|▉         | 9103/100000 [4:59:14<32:37:28,  1.29s/it]                                                            9%|▉         | 9103/100000 [4:59:14<32:37:28,  1.29s/it]  9%|▉         | 9104/100000 [4:59:15<32:12:20,  1.28s/it]                                                            9%|▉         | 9104/100000 [4:59:15<32:12:20,  1.28s/it]  9%|▉         | 9105/100000 [4:59:17<31:55:43,  1.26s/it]                                                            9%|▉         | 9105/100000 [4:59:17<31:55:43,  1.26s/it]  9%|▉         | 9106/100000 [4:59:18<31:35:20,  1.25s/it]                                                            9%|▉         | 9106/100000 [4:59:18<31:35:20,  1.25s/it]  9%|▉         | 9107/100000 [4:59:19<31:02:36,  1.23s/it]                                                            9%|▉         | 9107/100000 [4:59:19<31:02:36,  1.23s/it]  9%|▉         | 9108/100000 [4:59:20<30:38:25,  1.21s/it]                                                            9%|▉         | 9108/100000 [4:59:20<30:38:25,  1.21s/it]  9%|▉         | 9109/100000 [4:59:21<30:11:57,  1.20s/it]                                                            9%|▉         | 9109/100000 [4:59:21<30:11:57,  1.20s/it]  9%|▉         | 9110/100000 [4:59:22<29:39:58,  1.18s/it]                                                            9%|▉         | 9110/100000 [4:59:22<29:39:58,  1.18s/it]  9%|▉         | 9111/100000 [4:59:23<29:02:06,  1.15s/it]                                                            9%|▉         | 9111/100000 [4:59:23<29:02:06,  1.15s/it]  9%|▉         | 9112/100000 [4:59:25<28:44:18,  1.14s/it]                                                            9%|▉         | 9112/100000 [4:59:25<28:44:18,  1.14s/it]  9%|▉         | 9113/100000 [4:59:26<28:11:52,  1.12s/it]                                                            9%|▉         | 9113/100000 [4:59:26<28:11:52,  1.12s/it]  9%|▉         | 9114/100000 [4:59:27<28:06:41,  1.11s/it]                                                            9%|▉         | 9114/100000 [4:59:27<28:06:41,  1.11s/it]  9%|▉         | 9115/100000 [4:59:28<27:30:35,  1.09s/it]                                                            9%|▉         | 9115/100000 [4:59:28<27:30:35,  1.09s/it]  9%|▉         | 9116/100000 [4:59:29<27:03:27,  1.07s/it]                                                            9%|▉         | 9116/100000 [4:59:29<27:03:27,  1.07s/it]  9%|▉         | 9117/100000 [4:59:30<26:35:45,  1.05s/it]                                                            9%|▉         | 9117/100000 [4:59:30<26:35:45,  1.05s/it]  9%|▉         | 9118/100000 [4:59:31<26:07:10,  1.03s/it]                                                            9%|▉         | 9118/100000 [4:59:31<26:07:10,  1.03s/it]  9%|▉         | 9119/100000 [4:59:32<25:34:24,  1.01s/it]                                                            9%|▉         | 9119/100000 [4:59:32<25:34:24,  1.01s/it]  9%|▉         | 9120/100000 [4:59:33<25:35:49,  1.01s/it]                                                            9%|▉         | 9120/100000 [4:59:33<25:35:49,  1.01s/it]  9%|▉         | 9121/100000 [4:59:34<25:19:15,  1.00s/it]                                                            9%|▉         | 9121/100000 [4:59:34<25:19:15,  1.00s/it]  9%|▉         | 9122/100000 [4:59:35<24:45:17,  1.02it/s]                                                            9%|▉         | 9122/100000 [4:59:35<24:45:17,  1.02it/s]  9%|▉         | 9123/100000 [4:59:45<97:15:20,  3.85s/it]                                                            9%|▉         | 9123/100000 [4:59:45<97:15:20,  3.85s/it]  9%|▉         | 9124/100000 [4:59:51<111:19:13,  4.41s/it]                                                             9%|▉         | 9124/100000 [4:59:51<111:19:13,  4.41s/it]  9%|▉         | 9125/100000 [4:59:55<111:59:35,  4.44s/it]                                                             9%|▉         | 9125/100000 [4:59:56<111:59:35,  4.44s/it]  9%|▉         | 9126/100000 [4:59:59<107:50:05,  4.27s/it]                                                             9%|▉         | 9126/100000 [4:59:59<107:50:05,  4.27s/it]  9%|▉         | 9127/100000 [5:00:03<102:02:16,  4.04s/it]                                                             9%|▉         | 9127/100000 [5:00:03<102:02:16,  4.04s/it]  9%|▉         | 9128/100000 [5:00:06<96:16:58,  3.81s/it]                                                             9%|▉         | 9128/100000 [5:00:06<96:16:58,  3.81s/it]  9%|▉         | 9129/100000 [5:00:09<90:19:04,  3.58s/it]                                                            9%|▉         | 9129/100000 [5:00:09<90:19:04,  3.58s/it]  9%|▉         | 9130/100000 [5:00:12<83:51:10,  3.32s/it]                                                            9%|▉         | 9130/100000 [5:00:12<83:51:10,  3.32s/it]  9%|▉         | 9131/100000 [5:00:14<77:40:00,  3.08s/it]                                                            9%|▉         | 9131/100000 [5:00:14<77:40:00,  3.08s/it]  9%|▉         | 9132/100000 [5:00:17<72:04:33,  2.86s/it]                                                            9%|▉         | 9132/100000 [5:00:17<72:04:33,  2.86s/it]  9%|▉         | 9133/100000 [5:00:19<66:47:03,  2.65s/it]                                                            9%|▉         | 9133/100000 [5:00:19<66:47:03,  2.65s/it]  9%|▉         | 9134/100000 [5:00:21<62:17:40,  2.47s/it]                                                            9%|▉         | 9134/100000 [5:00:21<62:17:40,  2.47s/it]  9%|▉         | 9135/100000 [5:00:23<58:23:39,  2.31s/it]                                                            9%|▉         | 9135/100000 [5:00:23<58:23:39,  2.31s/it]  9%|▉         | 9136/100000 [5:00:25<54:41:34,  2.17s/it]                                                            9%|▉         | 9136/100000 [5:00:25<54:41:34,  2.17s/it]  9%|▉         | 9137/100000 [5:00:26<51:21:36,  2.03s/it]                                                            9%|▉         | 9137/100000 [5:00:26<51:21:36,  2.03s/it]  9%|▉         | 9138/100000 [5:00:28<48:39:28,  1.93s/it]                                                            9%|▉         | 9138/100000 [5:00:28<48:39:28,  1.93s/it]  9%|▉         | 9139/100000 [5:00:30<46:11:35,  1.83s/it]                                                            9%|▉         | 9139/100000 [5:00:30<46:11:35,  1.83s/it]  9%|▉         | 9140/100000 [5:00:31<44:21:43,  1.76s/it]                                                            9%|▉         | 9140/100000 [5:00:31<44:21:43,  1.76s/it]  9%|▉         | 9141/100000 [5:00:33<42:40:10,  1.69s/it]                                                            9%|▉         | 9141/100000 [5:00:33<42:40:10,  1.69s/it]  9%|▉         | 9142/100000 [5:00:34<40:56:14,  1.62s/it]                                                            9%|▉         | 9142/100000 [5:00:34<40:56:14,  1.62s/it]  9%|▉         | 9143/100000 [5:00:36<39:43:42,  1.57s/it]                                                            9%|▉         | 9143/100000 [5:00:36<39:43:42,  1.57s/it]  9%|▉         | 9144/100000 [5:00:37<38:37:53,  1.53s/it]                                                            9%|▉         | 9144/100000 [5:00:37<38:37:53,  1.53s/it]  9%|▉         | 9145/100000 [5:00:39<37:42:41,  1.49s/it]                                                            9%|▉         | 9145/100000 [5:00:39<37:42:41,  1.49s/it]  9%|▉         | 9146/100000 [5:00:40<36:34:53,  1.45s/it]                                                            9%|▉         | 9146/100000 [5:00:40<36:34:53,  1.45s/it]  9%|▉         | 9147/100000 [5:00:41<35:38:10,  1.41s/it]                                                            9%|▉         | 9147/100000 [5:00:41<35:38:10,  1.41s/it]  9%|▉         | 9148/100000 [5:00:43<35:00:22,  1.39s/it]                                                            9%|▉         | 9148/100000 [5:00:43<35:00:22,  1.39s/it]  9%|▉         | 9149/100000 [5:00:44<34:33:32,  1.37s/it]                                                            9%|▉         | 9149/100000 [5:00:44<34:33:32,  1.37s/it]  9%|▉         | 9150/100000 [5:00:45<33:59:54,  1.35s/it]                                                            9%|▉         | 9150/100000 [5:00:45<33:59:54,  1.35s/it]  9%|▉         | 9151/100000 [5:00:47<33:22:16,  1.32s/it]                                                            9%|▉         | 9151/100000 [5:00:47<33:22:16,  1.32s/it]  9%|▉         | 9152/100000 [5:00:48<32:57:29,  1.31s/it]                                                            9%|▉         | 9152/100000 [5:00:48<32:57:29,  1.31s/it]  9%|▉         | 9153/100000 [5:00:49<32:29:53,  1.29s/it]                                                            9%|▉         | 9153/100000 [5:00:49<32:29:53,  1.29s/it]  9%|▉         | 9154/100000 [5:00:50<31:51:21,  1.26s/it]                                                            9%|▉         | 9154/100000 [5:00:50<31:51:21,  1.26s/it]  9%|▉         | 9155/100000 [5:00:51<31:34:00,  1.25s/it]                                                            9%|▉         | 9155/100000 [5:00:51<31:34:00,  1.25s/it]  9%|▉         | 9156/100000 [5:00:53<30:54:06,  1.22s/it]                                                            9%|▉         | 9156/100000 [5:00:53<30:54:06,  1.22s/it]  9%|▉         | 9157/100000 [5:00:54<30:26:10,  1.21s/it]                                                            9%|▉         | 9157/100000 [5:00:54<30:26:10,  1.21s/it]  9%|▉         | 9158/100000 [5:00:55<29:49:31,  1.18s/it]                                                            9%|▉         | 9158/100000 [5:00:55<29:49:31,  1.18s/it]  9%|▉         | 9159/100000 [5:00:56<29:29:28,  1.17s/it]                                                            9%|▉         | 9159/100000 [5:00:56<29:29:28,  1.17s/it]  9%|▉         | 9160/100000 [5:00:57<29:05:04,  1.15s/it]                                                            9%|▉         | 9160/100000 [5:00:57<29:05:04,  1.15s/it]  9%|▉         | 9161/100000 [5:00:58<28:43:12,  1.14s/it]                                                            9%|▉         | 9161/100000 [5:00:58<28:43:12,  1.14s/it]  9%|▉         | 9162/100000 [5:00:59<28:22:39,  1.12s/it]                                                            9%|▉         | 9162/100000 [5:00:59<28:22:39,  1.12s/it]  9%|▉         | 9163/100000 [5:01:00<28:02:57,  1.11s/it]                                                            9%|▉         | 9163/100000 [5:01:00<28:02:57,  1.11s/it]  9%|▉         | 9164/100000 [5:01:02<27:41:04,  1.10s/it]                                                          {'loss': 0.0509, 'grad_norm': 0.4500424563884735, 'learning_rate': 2.7234000000000004e-05, 'epoch': 16.76}
+{'loss': 0.0625, 'grad_norm': 0.4022199809551239, 'learning_rate': 2.7237e-05, 'epoch': 16.76}
+{'loss': 0.0718, 'grad_norm': 0.41468554735183716, 'learning_rate': 2.724e-05, 'epoch': 16.76}
+{'loss': 0.0631, 'grad_norm': 0.6440789699554443, 'learning_rate': 2.7243e-05, 'epoch': 16.76}
+{'loss': 0.0454, 'grad_norm': 0.6056049466133118, 'learning_rate': 2.7246e-05, 'epoch': 16.76}
+{'loss': 0.0418, 'grad_norm': 0.47346749901771545, 'learning_rate': 2.7249e-05, 'epoch': 16.76}
+{'loss': 0.0327, 'grad_norm': 0.3096546232700348, 'learning_rate': 2.7252e-05, 'epoch': 16.77}
+{'loss': 0.0147, 'grad_norm': 0.17871594429016113, 'learning_rate': 2.7255e-05, 'epoch': 16.77}
+{'loss': 0.0307, 'grad_norm': 0.3867637813091278, 'learning_rate': 2.7258e-05, 'epoch': 16.77}
+{'loss': 0.0482, 'grad_norm': 0.46113646030426025, 'learning_rate': 2.7261e-05, 'epoch': 16.77}
+{'loss': 0.0398, 'grad_norm': 0.5311370491981506, 'learning_rate': 2.7264000000000002e-05, 'epoch': 16.77}
+{'loss': 0.079, 'grad_norm': 0.3156410753726959, 'learning_rate': 2.7267e-05, 'epoch': 16.78}
+{'loss': 0.0261, 'grad_norm': 0.38590025901794434, 'learning_rate': 2.727e-05, 'epoch': 16.78}
+{'loss': 0.0094, 'grad_norm': 0.24432797729969025, 'learning_rate': 2.7273e-05, 'epoch': 16.78}
+{'loss': 0.0119, 'grad_norm': 0.2722245454788208, 'learning_rate': 2.7276e-05, 'epoch': 16.78}
+{'loss': 0.0155, 'grad_norm': 0.31428173184394836, 'learning_rate': 2.7279e-05, 'epoch': 16.78}
+{'loss': 0.026, 'grad_norm': 0.41833361983299255, 'learning_rate': 2.7282e-05, 'epoch': 16.78}
+{'loss': 0.0102, 'grad_norm': 0.21867933869361877, 'learning_rate': 2.7285e-05, 'epoch': 16.79}
+{'loss': 0.0162, 'grad_norm': 0.3054670989513397, 'learning_rate': 2.7288e-05, 'epoch': 16.79}
+{'loss': 0.0175, 'grad_norm': 0.26028329133987427, 'learning_rate': 2.7291e-05, 'epoch': 16.79}
+{'loss': 0.0083, 'grad_norm': 0.26109904050827026, 'learning_rate': 2.7294000000000003e-05, 'epoch': 16.79}
+{'loss': 0.0109, 'grad_norm': 0.3616829514503479, 'learning_rate': 2.7297000000000003e-05, 'epoch': 16.79}
+{'loss': 0.0127, 'grad_norm': 0.3457438349723816, 'learning_rate': 2.7300000000000003e-05, 'epoch': 16.8}
+{'loss': 0.0143, 'grad_norm': 0.32503554224967957, 'learning_rate': 2.7303000000000003e-05, 'epoch': 16.8}
+{'loss': 0.0073, 'grad_norm': 0.17920361459255219, 'learning_rate': 2.7306000000000002e-05, 'epoch': 16.8}
+{'loss': 0.0028, 'grad_norm': 0.0969751626253128, 'learning_rate': 2.7309000000000002e-05, 'epoch': 16.8}
+{'loss': 0.0101, 'grad_norm': 0.25758984684944153, 'learning_rate': 2.7312e-05, 'epoch': 16.8}
+{'loss': 0.0104, 'grad_norm': 0.33695298433303833, 'learning_rate': 2.7315e-05, 'epoch': 16.81}
+{'loss': 0.0117, 'grad_norm': 0.8208706974983215, 'learning_rate': 2.7318e-05, 'epoch': 16.81}
+{'loss': 0.0106, 'grad_norm': 0.3066198527812958, 'learning_rate': 2.7320999999999998e-05, 'epoch': 16.81}
+{'loss': 0.031, 'grad_norm': 0.9490204453468323, 'learning_rate': 2.7324e-05, 'epoch': 16.81}
+{'loss': 0.0114, 'grad_norm': 0.344614177942276, 'learning_rate': 2.7327e-05, 'epoch': 16.81}
+{'loss': 0.0085, 'grad_norm': 0.27744945883750916, 'learning_rate': 2.733e-05, 'epoch': 16.81}
+{'loss': 0.0129, 'grad_norm': 0.3573910593986511, 'learning_rate': 2.7333e-05, 'epoch': 16.82}
+{'loss': 0.0201, 'grad_norm': 0.44293442368507385, 'learning_rate': 2.7336e-05, 'epoch': 16.82}
+{'loss': 0.0124, 'grad_norm': 0.5297267436981201, 'learning_rate': 2.7339e-05, 'epoch': 16.82}
+{'loss': 0.0143, 'grad_norm': 0.33147096633911133, 'learning_rate': 2.7342e-05, 'epoch': 16.82}
+{'loss': 0.0164, 'grad_norm': 0.36776602268218994, 'learning_rate': 2.7345e-05, 'epoch': 16.82}
+{'loss': 0.011, 'grad_norm': 0.3640115559101105, 'learning_rate': 2.7348e-05, 'epoch': 16.83}
+{'loss': 0.0157, 'grad_norm': 0.4329957962036133, 'learning_rate': 2.7351e-05, 'epoch': 16.83}
+{'loss': 0.0122, 'grad_norm': 0.9924282431602478, 'learning_rate': 2.7354000000000003e-05, 'epoch': 16.83}
+{'loss': 0.0295, 'grad_norm': 0.8403156399726868, 'learning_rate': 2.7357000000000003e-05, 'epoch': 16.83}
+{'loss': 0.2257, 'grad_norm': 0.7272826433181763, 'learning_rate': 2.7360000000000002e-05, 'epoch': 16.83}
+{'loss': 0.1599, 'grad_norm': 0.512742280960083, 'learning_rate': 2.7363000000000002e-05, 'epoch': 16.83}
+{'loss': 0.1199, 'grad_norm': 0.5445821285247803, 'learning_rate': 2.7366000000000002e-05, 'epoch': 16.84}
+{'loss': 0.1051, 'grad_norm': 0.57929927110672, 'learning_rate': 2.7369000000000002e-05, 'epoch': 16.84}
+{'loss': 0.1466, 'grad_norm': 0.5976483225822449, 'learning_rate': 2.7372e-05, 'epoch': 16.84}
+{'loss': 0.0952, 'grad_norm': 0.6029165983200073, 'learning_rate': 2.7375e-05, 'epoch': 16.84}
+{'loss': 0.1068, 'grad_norm': 0.47818711400032043, 'learning_rate': 2.7378e-05, 'epoch': 16.84}
+{'loss': 0.0641, 'grad_norm': 0.351434588432312, 'learning_rate': 2.7381e-05, 'epoch': 16.85}
+{'loss': 0.0618, 'grad_norm': 0.4097804129123688, 'learning_rate': 2.7383999999999997e-05, 'epoch': 16.85}
+{'loss': 0.0526, 'grad_norm': 0.41000524163246155, 'learning_rate': 2.7387e-05, 'epoch': 16.85}
+{'loss': 0.0473, 'grad_norm': 0.4092511236667633, 'learning_rate': 2.739e-05, 'epoch': 16.85}
+{'loss': 0.0966, 'grad_norm': 0.5258705019950867, 'learning_rate': 2.7393e-05, 'epoch': 16.85}
+{'loss': 0.0614, 'grad_norm': 0.7498922944068909, 'learning_rate': 2.7396e-05, 'epoch': 16.86}
+{'loss': 0.0303, 'grad_norm': 0.4262339770793915, 'learning_rate': 2.7399e-05, 'epoch': 16.86}
+{'loss': 0.034, 'grad_norm': 0.45660534501075745, 'learning_rate': 2.7402e-05, 'epoch': 16.86}
+{'loss': 0.0176, 'grad_norm': 0.34982824325561523, 'learning_rate': 2.7405e-05, 'epoch': 16.86}
+{'loss': 0.0548, 'grad_norm': 0.6266517639160156, 'learning_rate': 2.7408e-05, 'epoch': 16.86}
+{'loss': 0.0214, 'grad_norm': 0.26492610573768616, 'learning_rate': 2.7411e-05, 'epoch': 16.86}
+{'loss': 0.0197, 'grad_norm': 0.3128187954425812, 'learning_rate': 2.7414e-05, 'epoch': 16.87}
+{'loss': 0.0205, 'grad_norm': 0.4308634102344513, 'learning_rate': 2.7417000000000002e-05, 'epoch': 16.87}
+{'loss': 0.0178, 'grad_norm': 0.319132924079895, 'learning_rate': 2.7420000000000002e-05, 'epoch': 16.87}
+{'loss': 0.0097, 'grad_norm': 0.2279515415430069, 'learning_rate': 2.7423e-05, 'epoch': 16.87}
+{'loss': 0.014, 'grad_norm': 0.2076783925294876, 'learning_rate': 2.7426e-05, 'epoch': 16.87}
+{'loss': 0.0168, 'grad_norm': 0.38339874148368835, 'learning_rate': 2.7429e-05, 'epoch': 16.88}
+{'loss': 0.0216, 'grad_norm': 0.476095974445343, 'learning_rate': 2.7432e-05, 'epoch': 16.88}
+{'loss': 0.0108, 'grad_norm': 0.25043198466300964, 'learning_rate': 2.7435e-05, 'epoch': 16.88}
+{'loss': 0.0111, 'grad_norm': 0.4922471344470978, 'learning_rate': 2.7438e-05, 'epoch': 16.88}
+{'loss': 0.0192, 'grad_norm': 0.2648068964481354, 'learning_rate': 2.7441e-05, 'epoch': 16.88}
+{'loss': 0.017, 'grad_norm': 0.47534462809562683, 'learning_rate': 2.7444e-05, 'epoch': 16.88}
+{'loss': 0.0418, 'grad_norm': 0.37938153743743896, 'learning_rate': 2.7447000000000003e-05, 'epoch': 16.89}
+{'loss': 0.0161, 'grad_norm': 0.3794781267642975, 'learning_rate': 2.7450000000000003e-05, 'epoch': 16.89}
+{'loss': 0.0089, 'grad_norm': 0.21170689165592194, 'learning_rate': 2.7453000000000003e-05, 'epoch': 16.89}
+{'loss': 0.0131, 'grad_norm': 0.3793889880180359, 'learning_rate': 2.7456000000000003e-05, 'epoch': 16.89}
+{'loss': 0.0116, 'grad_norm': 0.40929901599884033, 'learning_rate': 2.7459e-05, 'epoch': 16.89}
+{'loss': 0.015, 'grad_norm': 0.8098201751708984, 'learning_rate': 2.7462e-05, 'epoch': 16.9}
+{'loss': 0.0117, 'grad_norm': 0.2994246482849121, 'learning_rate': 2.7465e-05, 'epoch': 16.9}
+{'loss': 0.0389, 'grad_norm': 0.8491688370704651, 'learning_rate': 2.7468e-05, 'epoch': 16.9}
+{'loss': 0.0126, 'grad_norm': 0.29761558771133423, 'learning_rate': 2.7471e-05, 'epoch': 16.9}
+{'loss': 0.0154, 'grad_norm': 0.2771746814250946, 'learning_rate': 2.7473999999999998e-05, 'epoch': 16.9}
+{'loss': 0.0131, 'grad_norm': 0.19669193029403687, 'learning_rate': 2.7477e-05, 'epoch': 16.9}
+{'loss': 0.0165, 'grad_norm': 0.42978933453559875, 'learning_rate': 2.748e-05, 'epoch': 16.91}
+  9%|▉         | 9164/100000 [5:01:02<27:41:04,  1.10s/it]  9%|▉         | 9165/100000 [5:01:03<27:19:23,  1.08s/it]                                                            9%|▉         | 9165/100000 [5:01:03<27:19:23,  1.08s/it]  9%|▉         | 9166/100000 [5:01:04<27:00:51,  1.07s/it]                                                            9%|▉         | 9166/100000 [5:01:04<27:00:51,  1.07s/it]  9%|▉         | 9167/100000 [5:01:05<26:37:38,  1.06s/it]                                                            9%|▉         | 9167/100000 [5:01:05<26:37:38,  1.06s/it]  9%|▉         | 9168/100000 [5:01:06<26:08:48,  1.04s/it]                                                            9%|▉         | 9168/100000 [5:01:06<26:08:48,  1.04s/it]  9%|▉         | 9169/100000 [5:01:07<25:43:49,  1.02s/it]                                                            9%|▉         | 9169/100000 [5:01:07<25:43:49,  1.02s/it]  9%|▉         | 9170/100000 [5:01:08<25:15:27,  1.00s/it]                                                            9%|▉         | 9170/100000 [5:01:08<25:15:27,  1.00s/it]  9%|▉         | 9171/100000 [5:01:08<24:40:11,  1.02it/s]                                                            9%|▉         | 9171/100000 [5:01:08<24:40:11,  1.02it/s]  9%|▉         | 9172/100000 [5:01:09<24:04:29,  1.05it/s]                                                            9%|▉         | 9172/100000 [5:01:09<24:04:29,  1.05it/s]  9%|▉         | 9173/100000 [5:01:20<97:56:19,  3.88s/it]                                                            9%|▉         | 9173/100000 [5:01:20<97:56:19,  3.88s/it]  9%|▉         | 9174/100000 [5:01:25<107:51:21,  4.28s/it]                                                             9%|▉         | 9174/100000 [5:01:25<107:51:21,  4.28s/it]  9%|▉         | 9175/100000 [5:01:30<109:39:01,  4.35s/it]                                                             9%|▉         | 9175/100000 [5:01:30<109:39:01,  4.35s/it]  9%|▉         | 9176/100000 [5:01:34<104:57:35,  4.16s/it]                                                             9%|▉         | 9176/100000 [5:01:34<104:57:35,  4.16s/it]  9%|▉         | 9177/100000 [5:01:37<97:43:25,  3.87s/it]                                                             9%|▉         | 9177/100000 [5:01:37<97:43:25,  3.87s/it]  9%|▉         | 9178/100000 [5:01:40<90:40:55,  3.59s/it]                                                            9%|▉         | 9178/100000 [5:01:40<90:40:55,  3.59s/it]  9%|▉         | 9179/100000 [5:01:42<83:30:08,  3.31s/it]                                                            9%|▉         | 9179/100000 [5:01:42<83:30:08,  3.31s/it]  9%|▉         | 9180/100000 [5:01:45<76:38:09,  3.04s/it]                                                            9%|▉         | 9180/100000 [5:01:45<76:38:09,  3.04s/it]  9%|▉         | 9181/100000 [5:01:47<70:28:00,  2.79s/it]                                                            9%|▉         | 9181/100000 [5:01:47<70:28:00,  2.79s/it]  9%|▉         | 9182/100000 [5:01:49<64:46:45,  2.57s/it]                                                            9%|▉         | 9182/100000 [5:01:49<64:46:45,  2.57s/it]  9%|▉         | 9183/100000 [5:01:51<59:47:47,  2.37s/it]                                                            9%|▉         | 9183/100000 [5:01:51<59:47:47,  2.37s/it]  9%|▉         | 9184/100000 [5:01:53<55:10:38,  2.19s/it]                                                            9%|▉         | 9184/100000 [5:01:53<55:10:38,  2.19s/it]  9%|▉         | 9185/100000 [5:01:54<51:24:59,  2.04s/it]                                                            9%|▉         | 9185/100000 [5:01:54<51:24:59,  2.04s/it]  9%|▉         | 9186/100000 [5:01:56<48:16:11,  1.91s/it]                                                            9%|▉         | 9186/100000 [5:01:56<48:16:11,  1.91s/it]  9%|▉         | 9187/100000 [5:01:58<45:46:55,  1.81s/it]                                                            9%|▉         | 9187/100000 [5:01:58<45:46:55,  1.81s/it]  9%|▉         | 9188/100000 [5:01:59<43:26:12,  1.72s/it]                                                            9%|▉         | 9188/100000 [5:01:59<43:26:12,  1.72s/it]  9%|▉         | 9189/100000 [5:02:00<41:11:29,  1.63s/it]                                                            9%|▉         | 9189/100000 [5:02:00<41:11:29,  1.63s/it]  9%|▉         | 9190/100000 [5:02:02<39:40:55,  1.57s/it]                                                            9%|▉         | 9190/100000 [5:02:02<39:40:55,  1.57s/it]  9%|▉         | 9191/100000 [5:02:03<38:30:19,  1.53s/it]                                                            9%|▉         | 9191/100000 [5:02:03<38:30:19,  1.53s/it]  9%|▉         | 9192/100000 [5:02:05<37:07:11,  1.47s/it]                                                            9%|▉         | 9192/100000 [5:02:05<37:07:11,  1.47s/it]  9%|▉         | 9193/100000 [5:02:06<36:13:41,  1.44s/it]                                                            9%|▉         | 9193/100000 [5:02:06<36:13:41,  1.44s/it]  9%|▉         | 9194/100000 [5:02:07<35:08:15,  1.39s/it]                                                            9%|▉         | 9194/100000 [5:02:07<35:08:15,  1.39s/it]  9%|▉         | 9195/100000 [5:02:09<34:26:52,  1.37s/it]                                                            9%|▉         | 9195/100000 [5:02:09<34:26:52,  1.37s/it]  9%|▉         | 9196/100000 [5:02:10<33:51:59,  1.34s/it]                                                            9%|▉         | 9196/100000 [5:02:10<33:51:59,  1.34s/it]  9%|▉         | 9197/100000 [5:02:11<33:11:17,  1.32s/it]                                                            9%|▉         | 9197/100000 [5:02:11<33:11:17,  1.32s/it]  9%|▉         | 9198/100000 [5:02:12<32:20:26,  1.28s/it]                                                            9%|▉         | 9198/100000 [5:02:12<32:20:26,  1.28s/it]  9%|▉         | 9199/100000 [5:02:14<31:53:29,  1.26s/it]                                                            9%|▉         | 9199/100000 [5:02:14<31:53:29,  1.26s/it]  9%|▉         | 9200/100000 [5:02:15<31:19:12,  1.24s/it]                                                            9%|▉         | 9200/100000 [5:02:15<31:19:12,  1.24s/it]  9%|▉         | 9201/100000 [5:02:16<30:34:56,  1.21s/it]                                                            9%|▉         | 9201/100000 [5:02:16<30:34:56,  1.21s/it]  9%|▉         | 9202/100000 [5:02:17<29:56:06,  1.19s/it]                                                            9%|▉         | 9202/100000 [5:02:17<29:56:06,  1.19s/it]  9%|▉         | 9203/100000 [5:02:18<29:33:35,  1.17s/it]                                                            9%|▉         | 9203/100000 [5:02:18<29:33:35,  1.17s/it]  9%|▉         | 9204/100000 [5:02:19<28:58:33,  1.15s/it]                                                            9%|▉         | 9204/100000 [5:02:19<28:58:33,  1.15s/it]  9%|▉         | 9205/100000 [5:02:20<28:15:04,  1.12s/it]                                                            9%|▉         | 9205/100000 [5:02:20<28:15:04,  1.12s/it]  9%|▉         | 9206/100000 [5:02:21<27:27:58,  1.09s/it]                                                            9%|▉         | 9206/100000 [5:02:21<27:27:58,  1.09s/it]  9%|▉         | 9207/100000 [5:02:22<27:02:51,  1.07s/it]                                                            9%|▉         | 9207/100000 [5:02:22<27:02:51,  1.07s/it]  9%|▉         | 9208/100000 [5:02:23<26:28:00,  1.05s/it]                                                            9%|▉         | 9208/100000 [5:02:23<26:28:00,  1.05s/it]  9%|▉         | 9209/100000 [5:02:24<26:12:17,  1.04s/it]                                                            9%|▉         | 9209/100000 [5:02:24<26:12:17,  1.04s/it]  9%|▉         | 9210/100000 [5:02:25<25:38:44,  1.02s/it]                                                            9%|▉         | 9210/100000 [5:02:25<25:38:44,  1.02s/it]  9%|▉         | 9211/100000 [5:02:26<25:28:09,  1.01s/it]                                                            9%|▉         | 9211/100000 [5:02:26<25:28:09,  1.01s/it]  9%|▉         | 9212/100000 [5:02:27<25:06:29,  1.00it/s]                                                            9%|▉         | 9212/100000 [5:02:27<25:06:29,  1.00it/s]  9%|▉         | 9213/100000 [5:02:28<24:34:21,  1.03it/s]                                                            9%|▉         | 9213/100000 [5:02:28<24:34:21,  1.03it/s]  9%|▉         | 9214/100000 [5:02:29<22:33:40,  1.12it/s]                                                            9%|▉         | 9214/100000 [5:02:29<22:33:40,  1.12it/s]{'loss': 0.0127, 'grad_norm': 0.48822492361068726, 'learning_rate': 2.7483e-05, 'epoch': 16.91}
+{'loss': 0.0119, 'grad_norm': 0.3552548587322235, 'learning_rate': 2.7486e-05, 'epoch': 16.91}
+{'loss': 0.0135, 'grad_norm': 0.48361822962760925, 'learning_rate': 2.7489e-05, 'epoch': 16.91}
+{'loss': 0.008, 'grad_norm': 0.2711721956729889, 'learning_rate': 2.7492e-05, 'epoch': 16.91}
+{'loss': 0.0142, 'grad_norm': 0.41434890031814575, 'learning_rate': 2.7495e-05, 'epoch': 16.92}
+{'loss': 0.0163, 'grad_norm': 0.3995231091976166, 'learning_rate': 2.7498e-05, 'epoch': 16.92}
+{'loss': 0.0163, 'grad_norm': 0.6402641534805298, 'learning_rate': 2.7501e-05, 'epoch': 16.92}
+{'loss': 0.0152, 'grad_norm': 0.46368321776390076, 'learning_rate': 2.7504e-05, 'epoch': 16.92}
+{'loss': 0.0247, 'grad_norm': 0.36163800954818726, 'learning_rate': 2.7507000000000003e-05, 'epoch': 16.92}
+{'loss': 0.1281, 'grad_norm': 0.6181609034538269, 'learning_rate': 2.7510000000000003e-05, 'epoch': 16.93}
+{'loss': 0.14, 'grad_norm': 0.7446320056915283, 'learning_rate': 2.7513000000000002e-05, 'epoch': 16.93}
+{'loss': 0.1675, 'grad_norm': 0.6812530755996704, 'learning_rate': 2.7516000000000002e-05, 'epoch': 16.93}
+{'loss': 0.1464, 'grad_norm': 0.6202914714813232, 'learning_rate': 2.7519000000000002e-05, 'epoch': 16.93}
+{'loss': 0.0624, 'grad_norm': 0.4810855984687805, 'learning_rate': 2.7522000000000002e-05, 'epoch': 16.93}
+{'loss': 0.0846, 'grad_norm': 0.6213238835334778, 'learning_rate': 2.7525e-05, 'epoch': 16.93}
+{'loss': 0.1087, 'grad_norm': 1.0476669073104858, 'learning_rate': 2.7528e-05, 'epoch': 16.94}
+{'loss': 0.0478, 'grad_norm': 0.5438078045845032, 'learning_rate': 2.7531e-05, 'epoch': 16.94}
+{'loss': 0.0393, 'grad_norm': 0.6464812159538269, 'learning_rate': 2.7533999999999998e-05, 'epoch': 16.94}
+{'loss': 0.0671, 'grad_norm': 0.8130463361740112, 'learning_rate': 2.7537e-05, 'epoch': 16.94}
+{'loss': 0.071, 'grad_norm': 0.4148968756198883, 'learning_rate': 2.754e-05, 'epoch': 16.94}
+{'loss': 0.0552, 'grad_norm': 0.4553473889827728, 'learning_rate': 2.7543e-05, 'epoch': 16.95}
+{'loss': 0.0193, 'grad_norm': 0.4178435802459717, 'learning_rate': 2.7546e-05, 'epoch': 16.95}
+{'loss': 0.0186, 'grad_norm': 0.4120926856994629, 'learning_rate': 2.7549e-05, 'epoch': 16.95}
+{'loss': 0.0131, 'grad_norm': 0.1929618865251541, 'learning_rate': 2.7552e-05, 'epoch': 16.95}
+{'loss': 0.0126, 'grad_norm': 0.387055367231369, 'learning_rate': 2.7555e-05, 'epoch': 16.95}
+{'loss': 0.0131, 'grad_norm': 0.17407526075839996, 'learning_rate': 2.7558e-05, 'epoch': 16.95}
+{'loss': 0.0164, 'grad_norm': 0.24599270522594452, 'learning_rate': 2.7561e-05, 'epoch': 16.96}
+{'loss': 0.0093, 'grad_norm': 0.19677557051181793, 'learning_rate': 2.7564e-05, 'epoch': 16.96}
+{'loss': 0.0147, 'grad_norm': 0.465720534324646, 'learning_rate': 2.7567000000000002e-05, 'epoch': 16.96}
+{'loss': 0.0268, 'grad_norm': 0.8160534501075745, 'learning_rate': 2.7570000000000002e-05, 'epoch': 16.96}
+{'loss': 0.008, 'grad_norm': 0.19757269322872162, 'learning_rate': 2.7573000000000002e-05, 'epoch': 16.96}
+{'loss': 0.0165, 'grad_norm': 0.3500001132488251, 'learning_rate': 2.7576e-05, 'epoch': 16.97}
+{'loss': 0.0607, 'grad_norm': 0.5525098443031311, 'learning_rate': 2.7579e-05, 'epoch': 16.97}
+{'loss': 0.0248, 'grad_norm': 0.6156070828437805, 'learning_rate': 2.7582e-05, 'epoch': 16.97}
+{'loss': 0.0157, 'grad_norm': 0.4163903594017029, 'learning_rate': 2.7585e-05, 'epoch': 16.97}
+{'loss': 0.0099, 'grad_norm': 0.3857148289680481, 'learning_rate': 2.7588e-05, 'epoch': 16.97}
+{'loss': 0.0098, 'grad_norm': 0.27057746052742004, 'learning_rate': 2.7591e-05, 'epoch': 16.98}
+{'loss': 0.0134, 'grad_norm': 0.4757899045944214, 'learning_rate': 2.7594e-05, 'epoch': 16.98}
+{'loss': 0.0117, 'grad_norm': 0.4091153144836426, 'learning_rate': 2.7597000000000004e-05, 'epoch': 16.98}
+{'loss': 0.0082, 'grad_norm': 0.16787925362586975, 'learning_rate': 2.7600000000000003e-05, 'epoch': 16.98}
+{'loss': 0.0098, 'grad_norm': 0.2270852029323578, 'learning_rate': 2.7603000000000003e-05, 'epoch': 16.98}
+{'loss': 0.0173, 'grad_norm': 0.2602526843547821, 'learning_rate': 2.7606e-05, 'epoch': 16.98}
+{'loss': 0.0138, 'grad_norm': 0.3468780219554901, 'learning_rate': 2.7609e-05, 'epoch': 16.99}
+{'loss': 0.0096, 'grad_norm': 0.1793440729379654, 'learning_rate': 2.7612e-05, 'epoch': 16.99}
+{'loss': 0.0139, 'grad_norm': 0.35675808787345886, 'learning_rate': 2.7615e-05, 'epoch': 16.99}
+{'loss': 0.0157, 'grad_norm': 0.7460472583770752, 'learning_rate': 2.7618e-05, 'epoch': 16.99}
+{'loss': 0.0165, 'grad_norm': 0.8922962546348572, 'learning_rate': 2.7621e-05, 'epoch': 16.99}
+{'loss': 0.0157, 'grad_norm': 0.4702712893486023, 'learning_rate': 2.7624e-05, 'epoch': 17.0}
+{'loss': 0.0223, 'grad_norm': 0.8927752375602722, 'learning_rate': 2.7627e-05, 'epoch': 17.0}
+{'loss': 0.0123, 'grad_norm': 0.5239241123199463, 'learning_rate': 2.763e-05, 'epoch': 17.0}
+{'loss': 0.0427, 'grad_norm': 1.5342310667037964, 'learning_rate': 2.7633e-05, 'epoch': 17.0}
+  9%|▉         | 9215/100000 [5:02:47<154:49:19,  6.14s/it]                                                             9%|▉         | 9215/100000 [5:02:47<154:49:19,  6.14s/it]  9%|▉         | 9216/100000 [5:02:53<153:01:34,  6.07s/it]                                                             9%|▉         | 9216/100000 [5:02:53<153:01:34,  6.07s/it]  9%|▉         | 9217/100000 [5:02:58<142:25:12,  5.65s/it]                                                             9%|▉         | 9217/100000 [5:02:58<142:25:12,  5.65s/it]  9%|▉         | 9218/100000 [5:03:02<129:38:49,  5.14s/it]                                                             9%|▉         | 9218/100000 [5:03:02<129:38:49,  5.14s/it]  9%|▉         | 9219/100000 [5:03:05<116:29:10,  4.62s/it]                                                             9%|▉         | 9219/100000 [5:03:05<116:29:10,  4.62s/it]  9%|▉         | 9220/100000 [5:03:09<106:09:28,  4.21s/it]                                                             9%|▉         | 9220/100000 [5:03:09<106:09:28,  4.21s/it]  9%|▉         | 9221/100000 [5:03:12<97:26:31,  3.86s/it]                                                             9%|▉         | 9221/100000 [5:03:12<97:26:31,  3.86s/it]  9%|▉         | 9222/100000 [5:03:14<88:19:45,  3.50s/it]                                                            9%|▉         | 9222/100000 [5:03:14<88:19:45,  3.50s/it]  9%|▉         | 9223/100000 [5:03:17<81:42:22,  3.24s/it]                                                            9%|▉         | 9223/100000 [5:03:17<81:42:22,  3.24s/it]  9%|▉         | 9224/100000 [5:03:19<75:36:32,  3.00s/it]                                                            9%|▉         | 9224/100000 [5:03:19<75:36:32,  3.00s/it]  9%|▉         | 9225/100000 [5:03:22<69:55:02,  2.77s/it]                                                            9%|▉         | 9225/100000 [5:03:22<69:55:02,  2.77s/it]  9%|▉         | 9226/100000 [5:03:24<64:57:52,  2.58s/it]                                                            9%|▉         | 9226/100000 [5:03:24<64:57:52,  2.58s/it]  9%|▉         | 9227/100000 [5:03:26<60:26:06,  2.40s/it]                                                            9%|▉         | 9227/100000 [5:03:26<60:26:06,  2.40s/it]  9%|▉         | 9228/100000 [5:03:27<56:12:49,  2.23s/it]                                                            9%|▉         | 9228/100000 [5:03:27<56:12:49,  2.23s/it]  9%|▉         | 9229/100000 [5:03:29<51:55:18,  2.06s/it]                                                            9%|▉         | 9229/100000 [5:03:29<51:55:18,  2.06s/it]  9%|▉         | 9230/100000 [5:03:31<49:02:59,  1.95s/it]                                                            9%|▉         | 9230/100000 [5:03:31<49:02:59,  1.95s/it]  9%|▉         | 9231/100000 [5:03:32<46:32:06,  1.85s/it]                                                            9%|▉         | 9231/100000 [5:03:32<46:32:06,  1.85s/it]  9%|▉         | 9232/100000 [5:03:34<44:39:46,  1.77s/it]                                                            9%|▉         | 9232/100000 [5:03:34<44:39:46,  1.77s/it]  9%|▉         | 9233/100000 [5:03:36<43:04:21,  1.71s/it]                                                            9%|▉         | 9233/100000 [5:03:36<43:04:21,  1.71s/it]  9%|▉         | 9234/100000 [5:03:37<41:32:17,  1.65s/it]                                                            9%|▉         | 9234/100000 [5:03:37<41:32:17,  1.65s/it]  9%|▉         | 9235/100000 [5:03:39<40:00:00,  1.59s/it]                                                            9%|▉         | 9235/100000 [5:03:39<40:00:00,  1.59s/it]  9%|▉         | 9236/100000 [5:03:40<38:50:15,  1.54s/it]                                                            9%|▉         | 9236/100000 [5:03:40<38:50:15,  1.54s/it]  9%|▉         | 9237/100000 [5:03:41<37:59:07,  1.51s/it]                                                            9%|▉         | 9237/100000 [5:03:41<37:59:07,  1.51s/it]  9%|▉         | 9238/100000 [5:03:43<37:13:25,  1.48s/it]                                                            9%|▉         | 9238/100000 [5:03:43<37:13:25,  1.48s/it]  9%|▉         | 9239/100000 [5:03:44<36:34:52,  1.45s/it]                                                            9%|▉         | 9239/100000 [5:03:44<36:34:52,  1.45s/it]  9%|▉         | 9240/100000 [5:03:46<35:56:23,  1.43s/it]                                                            9%|▉         | 9240/100000 [5:03:46<35:56:23,  1.43s/it]  9%|▉         | 9241/100000 [5:03:47<35:03:53,  1.39s/it]                                                            9%|▉         | 9241/100000 [5:03:47<35:03:53,  1.39s/it]  9%|▉         | 9242/100000 [5:03:48<34:33:45,  1.37s/it]                                                            9%|▉         | 9242/100000 [5:03:48<34:33:45,  1.37s/it]  9%|▉         | 9243/100000 [5:03:50<34:06:28,  1.35s/it]                                                            9%|▉         | 9243/100000 [5:03:50<34:06:28,  1.35s/it]  9%|▉         | 9244/100000 [5:03:51<33:37:17,  1.33s/it]                                                            9%|▉         | 9244/100000 [5:03:51<33:37:17,  1.33s/it]  9%|▉         | 9245/100000 [5:03:52<33:00:58,  1.31s/it]                                                            9%|▉         | 9245/100000 [5:03:52<33:00:58,  1.31s/it]  9%|▉         | 9246/100000 [5:03:53<32:30:36,  1.29s/it]                                                            9%|▉         | 9246/100000 [5:03:53<32:30:36,  1.29s/it]  9%|▉         | 9247/100000 [5:03:55<32:01:12,  1.27s/it]                                                            9%|▉         | 9247/100000 [5:03:55<32:01:12,  1.27s/it]  9%|▉         | 9248/100000 [5:03:56<31:42:59,  1.26s/it]                                                            9%|▉         | 9248/100000 [5:03:56<31:42:59,  1.26s/it]  9%|▉         | 9249/100000 [5:03:57<30:59:45,  1.23s/it]                                                            9%|▉         | 9249/100000 [5:03:57<30:59:45,  1.23s/it]  9%|▉         | 9250/100000 [5:03:58<30:29:58,  1.21s/it]                                                            9%|▉         | 9250/100000 [5:03:58<30:29:58,  1.21s/it]  9%|▉         | 9251/100000 [5:03:59<30:05:04,  1.19s/it]                                                            9%|▉         | 9251/100000 [5:03:59<30:05:04,  1.19s/it]  9%|▉         | 9252/100000 [5:04:00<29:41:52,  1.18s/it]                                                            9%|▉         | 9252/100000 [5:04:00<29:41:52,  1.18s/it]  9%|▉         | 9253/100000 [5:04:01<29:15:49,  1.16s/it]                                                            9%|▉         | 9253/100000 [5:04:01<29:15:49,  1.16s/it]  9%|▉         | 9254/100000 [5:04:03<28:50:38,  1.14s/it]                                                            9%|▉         | 9254/100000 [5:04:03<28:50:38,  1.14s/it]  9%|▉         | 9255/100000 [5:04:04<28:30:01,  1.13s/it]                                                            9%|▉         | 9255/100000 [5:04:04<28:30:01,  1.13s/it]  9%|▉         | 9256/100000 [5:04:05<28:01:34,  1.11s/it]                                                            9%|▉         | 9256/100000 [5:04:05<28:01:34,  1.11s/it]  9%|▉         | 9257/100000 [5:04:06<27:45:39,  1.10s/it]                                                            9%|▉         | 9257/100000 [5:04:06<27:45:39,  1.10s/it]  9%|▉         | 9258/100000 [5:04:07<27:14:19,  1.08s/it]                                                            9%|▉         | 9258/100000 [5:04:07<27:14:19,  1.08s/it]  9%|▉         | 9259/100000 [5:04:08<26:53:29,  1.07s/it]                                                            9%|▉         | 9259/100000 [5:04:08<26:53:29,  1.07s/it]  9%|▉         | 9260/100000 [5:04:09<26:28:27,  1.05s/it]                                                            9%|▉         | 9260/100000 [5:04:09<26:28:27,  1.05s/it]  9%|▉         | 9261/100000 [5:04:10<26:03:06,  1.03s/it]                                                            9%|▉         | 9261/100000 [5:04:10<26:03:06,  1.03s/it]  9%|▉         | 9262/100000 [5:04:11<25:29:30,  1.01s/it]                                                            9%|▉         | 9262/100000 [5:04:11<25:29:30,  1.01s/it]  9%|▉         | 9263/100000 [5:04:12<25:58:32,  1.03s/it]                                                            9%|▉         | 9263/100000 [5:04:12<25:58:32,  1.03s/it]  9%|▉         | 9264/100000 [5:04:13<24:59:57,  1.01it/s]                                                            9%|▉         | 9264/100000 [5:04:13<24:59:57,  1.01it/s]  9%|▉         | 9265/100000 [5:04:24<104:51:39,  4.16s/it]                                                             9%|▉         | 9265/100000 [5:04:24<104:51:39,  4.16s/it]  9%|▉         | 9266/100000 [5:04:30<115:33:23,  4.58s/it]                                                             9%|▉         | 9266/100000 [5:04:30<115:33:23,  4.58s/it]  9%|▉         | 9267/100000 [5:04:35<117:10:59,  4.65s/it]                                                             9%|▉         | 9267/100000 [5:04:35<117:10:59,  4.65s/it]  9%|▉         | 9268/100000 [5:04:39<111:39:11,  4.43s/it]                                                             9%|▉         | 9268/100000 [5:04:39<111:39:11,  4.43s/it]  9%|▉         | 9269/100000 [5:04:42<105:40:17,  4.19s/it]                                                             9%|▉         | 9269/100000 [5:04:42<105:40:17,  4.19s/it]  9%|▉         | 9270/100000 [5:04:46<99:23:50,  3.94s/it]                                                             9%|▉         | 9270/100000 [5:04:46<99:23:50,  3.94s/it]  9%|▉         | 9271/100000 [5:04:49<92:57:40,  3.69s/it]                                                            9%|▉         | 9271/100000 [5:04:49<92:57:40,  3.69s/it]  9%|▉         | 9272/100000 [5:04:51<85:18:48,  3.39s/it]                                                            9%|▉         | 9272/100000 [5:04:51<85:18:48,  3.39s/it]  9%|▉         | 9273/100000 [5:04:54<78:26:50,  3.11s/it]                                                            9%|▉         | 9273/100000 [5:04:54<78:26:50,  3.11s/it]  9%|▉         | 9274/100000 [5:04:56<72:43:30,  2.89s/it]                                                            9%|▉         | 9274/100000 [5:04:56<72:43:30,  2.89s/it]  9%|▉         | 9275/100000 [5:04:59<67:59:48,  2.70s/it]                                                            9%|▉         | 9275/100000 [5:04:59<67:59:48,  2.70s/it]  9%|▉         | 9276/100000 [5:05:01<63:15:14,  2.51s/it]                                                            9%|▉         | 9276/100000 [5:05:01<63:15:14,  2.51s/it]  9%|▉         | 9277/100000 [5:05:03<59:21:01,  2.36s/it]                                                            9%|▉         | 9277/100000 [5:05:03<59:21:01,  2.36s/it]  9%|▉         | 9278/100000 [5:05:05<55:42:18,  2.21s/it]                                                            9%|▉         | 9278/100000 [5:05:05<55:42:18,  2.21s/it]  9%|▉         | 9279/100000 [5:05:06<52:18:47,  2.08s/it]                                                            9%|▉         | 9279/100000 [5:05:06<52:18:47,  2.08s/it]  9%|▉         | 9280/100000 [5:05:08<48:39:29,  1.93s/it]                                                            9%|▉         | 9280/100000 [5:05:08<48:39:29,  1.93s/it]  9%|▉         | 9281/100000 [5:05:09<46:26:10,  1.84s/it]                                                            9%|▉         | 9281/100000 [5:05:10<46:26:10,  1.84s/it]  9%|▉         | 9282/100000 [5:05:11<44:12:11,  1.75s/it]                                                            9%|▉         | 9282/100000 [5:05:11<44:12:11,  1.75s/it]  9%|▉         | 9283/100000 [5:05:13<42:25:30,  1.68s/it]                                                            9%|▉         | 9283/100000 [5:05:13<42:25:30,  1.68s/it]  9%|▉         | 9284/100000 [5:05:14<41:02:58,  1.63s/it]                                                            9%|▉         | 9284/100000 [5:05:14<41:02:58,  1.63s/it]  9%|▉         | 9285/100000 [5:05:15<39:21:12,  1.56s/it]                                                            9%|▉         | 9285/100000 [5:05:15<39:21:12,  1.56s/it]  9%|▉         | 9286/100000 [5:05:17<38:30:51,  1.53s/it]                                                            9%|▉         | 9286/100000 [5:05:17<38:30:51,  1.53s/it]  9%|▉         | 9287/100000 [5:05:18<37:23:18,  1.48s/it]                                                            9%|▉         | 9287/100000 [5:05:18<37:23:18,  1.48s/it]  9%|▉         | 9288/100000 [5:05:20<36:41:09,  1.46s/it]                                                            9%|▉         | 9288/100000 [5:05:20<36:41:09,  1.46s/it]  9%|▉         | 9289/100000 [5:05:21<36:01:00,  1.43s/it]                                                            9%|▉         | 9289/100000 [5:05:21<36:01:00,  1.43s/it]  9%|▉         | 9290/100000 [5:05:22<35:05:41,  1.39s/it]                                                            9%|▉         | 9290/100000 [5:05:22<35:05:41,  1.39s/it]  9%|▉         | 9291/100000 [5:05:24<34:35:39,  1.37s/it]                                                            9%|▉         | 9291/100000 [5:05:24<34:35:39,  1.37s/it]  9%|▉         | 9292/100000 [5:05:25<33:42:43,  1.34s/it]                                                            9%|▉         | 9292/100000 [5:05:25<33:42:43,  1.34s/it]  9%|▉         | 9293/100000 [5:05:26<33:21:09,  1.32s/it]                                                            9%|▉         | 9293/100000 [5:05:26<33:21:09,  1.32s/it]  9%|▉         | 9294/100000 [5:05:27<32:42:28,  1.30s/it]                                                            9%|▉         | 9294/100000 [5:05:27<32:42:28,  1.30s/it]  9%|▉         | 9295/100000 [5:05:29<32:24:40,  1.29s/it]                                                            9%|▉         | 9295/100000 [5:05:29<32:24:40,  1.29s/it]  9%|▉         | 9296/100000 [5:05:30<31:48:28,  1.26s/it]                                                            9%|▉         | 9296/100000 [5:05:30<31:48:28,  1.26s/it]  9%|▉         | 9297/100000 [5:05:31<31:24:26,  1.25s/it]                                                          {'loss': 0.2042, 'grad_norm': 1.8125861883163452, 'learning_rate': 2.7636e-05, 'epoch': 17.0}
+{'loss': 0.1342, 'grad_norm': 0.9332644939422607, 'learning_rate': 2.7639e-05, 'epoch': 17.0}
+{'loss': 0.2083, 'grad_norm': 1.0487055778503418, 'learning_rate': 2.7642e-05, 'epoch': 17.01}
+{'loss': 0.1001, 'grad_norm': 0.5406859517097473, 'learning_rate': 2.7645e-05, 'epoch': 17.01}
+{'loss': 0.1462, 'grad_norm': 0.8032557964324951, 'learning_rate': 2.7648e-05, 'epoch': 17.01}
+{'loss': 0.0841, 'grad_norm': 0.7021965980529785, 'learning_rate': 2.7651e-05, 'epoch': 17.01}
+{'loss': 0.0954, 'grad_norm': 0.5755544900894165, 'learning_rate': 2.7654e-05, 'epoch': 17.01}
+{'loss': 0.0837, 'grad_norm': 0.6425787210464478, 'learning_rate': 2.7657000000000003e-05, 'epoch': 17.01}
+{'loss': 0.0527, 'grad_norm': 0.41704753041267395, 'learning_rate': 2.7660000000000003e-05, 'epoch': 17.02}
+{'loss': 0.0558, 'grad_norm': 0.5317704677581787, 'learning_rate': 2.7663000000000003e-05, 'epoch': 17.02}
+{'loss': 0.1217, 'grad_norm': 0.7003104090690613, 'learning_rate': 2.7666000000000002e-05, 'epoch': 17.02}
+{'loss': 0.0473, 'grad_norm': 0.38377368450164795, 'learning_rate': 2.7669000000000002e-05, 'epoch': 17.02}
+{'loss': 0.0967, 'grad_norm': 0.8063497543334961, 'learning_rate': 2.7672000000000002e-05, 'epoch': 17.02}
+{'loss': 0.1003, 'grad_norm': 0.7322953343391418, 'learning_rate': 2.7675000000000002e-05, 'epoch': 17.03}
+{'loss': 0.0507, 'grad_norm': 2.8443334102630615, 'learning_rate': 2.7678e-05, 'epoch': 17.03}
+{'loss': 0.0211, 'grad_norm': 0.2949460744857788, 'learning_rate': 2.7680999999999998e-05, 'epoch': 17.03}
+{'loss': 0.0123, 'grad_norm': 0.22077718377113342, 'learning_rate': 2.7683999999999998e-05, 'epoch': 17.03}
+{'loss': 0.0154, 'grad_norm': 0.21740186214447021, 'learning_rate': 2.7687e-05, 'epoch': 17.03}
+{'loss': 0.0352, 'grad_norm': 0.33870649337768555, 'learning_rate': 2.769e-05, 'epoch': 17.04}
+{'loss': 0.0124, 'grad_norm': 0.28785428404808044, 'learning_rate': 2.7693e-05, 'epoch': 17.04}
+{'loss': 0.0099, 'grad_norm': 0.25172266364097595, 'learning_rate': 2.7696e-05, 'epoch': 17.04}
+{'loss': 0.0116, 'grad_norm': 0.29542961716651917, 'learning_rate': 2.7699e-05, 'epoch': 17.04}
+{'loss': 0.0155, 'grad_norm': 0.3282698690891266, 'learning_rate': 2.7702e-05, 'epoch': 17.04}
+{'loss': 0.0243, 'grad_norm': 0.4257015883922577, 'learning_rate': 2.7705e-05, 'epoch': 17.04}
+{'loss': 0.0111, 'grad_norm': 0.22363309562206268, 'learning_rate': 2.7708e-05, 'epoch': 17.05}
+{'loss': 0.0154, 'grad_norm': 0.37432435154914856, 'learning_rate': 2.7711e-05, 'epoch': 17.05}
+{'loss': 0.0076, 'grad_norm': 0.27944135665893555, 'learning_rate': 2.7714e-05, 'epoch': 17.05}
+{'loss': 0.0108, 'grad_norm': 0.3036108911037445, 'learning_rate': 2.7717000000000002e-05, 'epoch': 17.05}
+{'loss': 0.013, 'grad_norm': 0.34930723905563354, 'learning_rate': 2.7720000000000002e-05, 'epoch': 17.05}
+{'loss': 0.0098, 'grad_norm': 0.3175663948059082, 'learning_rate': 2.7723000000000002e-05, 'epoch': 17.06}
+{'loss': 0.0155, 'grad_norm': 0.36189937591552734, 'learning_rate': 2.7726000000000002e-05, 'epoch': 17.06}
+{'loss': 0.0073, 'grad_norm': 0.2590970993041992, 'learning_rate': 2.7729e-05, 'epoch': 17.06}
+{'loss': 0.0042, 'grad_norm': 0.16251273453235626, 'learning_rate': 2.7732e-05, 'epoch': 17.06}
+{'loss': 0.009, 'grad_norm': 0.28405195474624634, 'learning_rate': 2.7735e-05, 'epoch': 17.06}
+{'loss': 0.0104, 'grad_norm': 0.3556298613548279, 'learning_rate': 2.7738e-05, 'epoch': 17.06}
+{'loss': 0.0141, 'grad_norm': 0.2897495627403259, 'learning_rate': 2.7741e-05, 'epoch': 17.07}
+{'loss': 0.0099, 'grad_norm': 0.5381990075111389, 'learning_rate': 2.7744e-05, 'epoch': 17.07}
+{'loss': 0.0105, 'grad_norm': 0.2446378916501999, 'learning_rate': 2.7747000000000004e-05, 'epoch': 17.07}
+{'loss': 0.0113, 'grad_norm': 0.4810533821582794, 'learning_rate': 2.7750000000000004e-05, 'epoch': 17.07}
+{'loss': 0.0106, 'grad_norm': 0.3621048629283905, 'learning_rate': 2.7753e-05, 'epoch': 17.07}
+{'loss': 0.0132, 'grad_norm': 0.2906154990196228, 'learning_rate': 2.7756e-05, 'epoch': 17.08}
+{'loss': 0.006, 'grad_norm': 0.240259051322937, 'learning_rate': 2.7759e-05, 'epoch': 17.08}
+{'loss': 0.0107, 'grad_norm': 0.35923489928245544, 'learning_rate': 2.7762e-05, 'epoch': 17.08}
+{'loss': 0.0044, 'grad_norm': 0.30543577671051025, 'learning_rate': 2.7765e-05, 'epoch': 17.08}
+{'loss': 0.0119, 'grad_norm': 0.3810657858848572, 'learning_rate': 2.7768e-05, 'epoch': 17.08}
+{'loss': 0.0096, 'grad_norm': 0.2955728769302368, 'learning_rate': 2.7771e-05, 'epoch': 17.08}
+{'loss': 0.0328, 'grad_norm': 0.9007036089897156, 'learning_rate': 2.7774e-05, 'epoch': 17.09}
+{'loss': 0.009, 'grad_norm': 0.3021596074104309, 'learning_rate': 2.7777e-05, 'epoch': 17.09}
+{'loss': 0.0103, 'grad_norm': 0.39645281434059143, 'learning_rate': 2.778e-05, 'epoch': 17.09}
+{'loss': 0.0064, 'grad_norm': 0.45379069447517395, 'learning_rate': 2.7783e-05, 'epoch': 17.09}
+{'loss': 0.1849, 'grad_norm': 0.7573075294494629, 'learning_rate': 2.7786e-05, 'epoch': 17.09}
+{'loss': 0.1987, 'grad_norm': 0.6216201186180115, 'learning_rate': 2.7789e-05, 'epoch': 17.1}
+{'loss': 0.1449, 'grad_norm': 0.5163629651069641, 'learning_rate': 2.7792e-05, 'epoch': 17.1}
+{'loss': 0.1147, 'grad_norm': 0.5870918035507202, 'learning_rate': 2.7795e-05, 'epoch': 17.1}
+{'loss': 0.1186, 'grad_norm': 0.5727010369300842, 'learning_rate': 2.7798e-05, 'epoch': 17.1}
+{'loss': 0.0816, 'grad_norm': 0.4444744884967804, 'learning_rate': 2.7801e-05, 'epoch': 17.1}
+{'loss': 0.0998, 'grad_norm': 0.5740081071853638, 'learning_rate': 2.7804e-05, 'epoch': 17.11}
+{'loss': 0.0796, 'grad_norm': 0.3582746684551239, 'learning_rate': 2.7807e-05, 'epoch': 17.11}
+{'loss': 0.0924, 'grad_norm': 0.5588990449905396, 'learning_rate': 2.7810000000000003e-05, 'epoch': 17.11}
+{'loss': 0.0601, 'grad_norm': 0.31783145666122437, 'learning_rate': 2.7813000000000003e-05, 'epoch': 17.11}
+{'loss': 0.0395, 'grad_norm': 0.553686797618866, 'learning_rate': 2.7816000000000003e-05, 'epoch': 17.11}
+{'loss': 0.0467, 'grad_norm': 0.28794318437576294, 'learning_rate': 2.7819000000000002e-05, 'epoch': 17.11}
+{'loss': 0.0312, 'grad_norm': 1.769435167312622, 'learning_rate': 2.7822000000000002e-05, 'epoch': 17.12}
+{'loss': 0.0172, 'grad_norm': 0.4049617350101471, 'learning_rate': 2.7825000000000002e-05, 'epoch': 17.12}
+{'loss': 0.0386, 'grad_norm': 0.41664329171180725, 'learning_rate': 2.7828e-05, 'epoch': 17.12}
+{'loss': 0.0355, 'grad_norm': 0.31309565901756287, 'learning_rate': 2.7831e-05, 'epoch': 17.12}
+{'loss': 0.0302, 'grad_norm': 0.26691946387290955, 'learning_rate': 2.7833999999999998e-05, 'epoch': 17.12}
+{'loss': 0.0172, 'grad_norm': 0.3606624901294708, 'learning_rate': 2.7836999999999998e-05, 'epoch': 17.13}
+{'loss': 0.016, 'grad_norm': 0.29028576612472534, 'learning_rate': 2.784e-05, 'epoch': 17.13}
+{'loss': 0.0746, 'grad_norm': 0.32634156942367554, 'learning_rate': 2.7843e-05, 'epoch': 17.13}
+{'loss': 0.0164, 'grad_norm': 0.297480970621109, 'learning_rate': 2.7846e-05, 'epoch': 17.13}
+{'loss': 0.0116, 'grad_norm': 0.3533071279525757, 'learning_rate': 2.7849e-05, 'epoch': 17.13}
+{'loss': 0.0139, 'grad_norm': 0.33252015709877014, 'learning_rate': 2.7852e-05, 'epoch': 17.13}
+{'loss': 0.0167, 'grad_norm': 0.5829310417175293, 'learning_rate': 2.7855e-05, 'epoch': 17.14}
+{'loss': 0.0258, 'grad_norm': 0.5431162118911743, 'learning_rate': 2.7858e-05, 'epoch': 17.14}
+{'loss': 0.0136, 'grad_norm': 0.279328852891922, 'learning_rate': 2.7861e-05, 'epoch': 17.14}
+{'loss': 0.0082, 'grad_norm': 0.31380873918533325, 'learning_rate': 2.7864e-05, 'epoch': 17.14}
+{'loss': 0.0074, 'grad_norm': 0.4092232286930084, 'learning_rate': 2.7867e-05, 'epoch': 17.14}
+{'loss': 0.0088, 'grad_norm': 0.29413503408432007, 'learning_rate': 2.7870000000000003e-05, 'epoch': 17.15}
+{'loss': 0.0103, 'grad_norm': 0.23219628632068634, 'learning_rate': 2.7873000000000002e-05, 'epoch': 17.15}
+{'loss': 0.0213, 'grad_norm': 1.2620007991790771, 'learning_rate': 2.7876000000000002e-05, 'epoch': 17.15}
+{'loss': 0.0053, 'grad_norm': 0.24481666088104248, 'learning_rate': 2.7879000000000002e-05, 'epoch': 17.15}
+  9%|▉         | 9297/100000 [5:05:31<31:24:26,  1.25s/it]  9%|▉         | 9298/100000 [5:05:32<30:52:06,  1.23s/it]                                                            9%|▉         | 9298/100000 [5:05:32<30:52:06,  1.23s/it]  9%|▉         | 9299/100000 [5:05:33<30:10:29,  1.20s/it]                                                            9%|▉         | 9299/100000 [5:05:33<30:10:29,  1.20s/it]  9%|▉         | 9300/100000 [5:05:35<29:53:48,  1.19s/it]                                                            9%|▉         | 9300/100000 [5:05:35<29:53:48,  1.19s/it]  9%|▉         | 9301/100000 [5:05:36<29:25:25,  1.17s/it]                                                            9%|▉         | 9301/100000 [5:05:36<29:25:25,  1.17s/it]  9%|▉         | 9302/100000 [5:05:37<29:03:39,  1.15s/it]                                                            9%|▉         | 9302/100000 [5:05:37<29:03:39,  1.15s/it]  9%|▉         | 9303/100000 [5:05:38<28:34:03,  1.13s/it]                                                            9%|▉         | 9303/100000 [5:05:38<28:34:03,  1.13s/it]  9%|▉         | 9304/100000 [5:05:39<28:18:19,  1.12s/it]                                                            9%|▉         | 9304/100000 [5:05:39<28:18:19,  1.12s/it]  9%|▉         | 9305/100000 [5:05:40<27:51:52,  1.11s/it]                                                            9%|▉         | 9305/100000 [5:05:40<27:51:52,  1.11s/it]  9%|▉         | 9306/100000 [5:05:41<27:36:44,  1.10s/it]                                                            9%|▉         | 9306/100000 [5:05:41<27:36:44,  1.10s/it]  9%|▉         | 9307/100000 [5:05:42<27:12:17,  1.08s/it]                                                            9%|▉         | 9307/100000 [5:05:42<27:12:17,  1.08s/it]  9%|▉         | 9308/100000 [5:05:43<26:40:02,  1.06s/it]                                                            9%|▉         | 9308/100000 [5:05:43<26:40:02,  1.06s/it]  9%|▉         | 9309/100000 [5:05:44<25:47:03,  1.02s/it]                                                            9%|▉         | 9309/100000 [5:05:44<25:47:03,  1.02s/it]  9%|▉         | 9310/100000 [5:05:45<25:04:19,  1.00it/s]                                                            9%|▉         | 9310/100000 [5:05:45<25:04:19,  1.00it/s]  9%|▉         | 9311/100000 [5:05:46<24:43:13,  1.02it/s]                                                            9%|▉         | 9311/100000 [5:05:46<24:43:13,  1.02it/s]  9%|▉         | 9312/100000 [5:05:47<24:19:48,  1.04it/s]                                                            9%|▉         | 9312/100000 [5:05:47<24:19:48,  1.04it/s]  9%|▉         | 9313/100000 [5:05:48<23:56:26,  1.05it/s]                                                            9%|▉         | 9313/100000 [5:05:48<23:56:26,  1.05it/s]  9%|▉         | 9314/100000 [5:05:49<23:41:02,  1.06it/s]                                                            9%|▉         | 9314/100000 [5:05:49<23:41:02,  1.06it/s]  9%|▉         | 9315/100000 [5:06:00<98:39:16,  3.92s/it]                                                            9%|▉         | 9315/100000 [5:06:00<98:39:16,  3.92s/it]  9%|▉         | 9316/100000 [5:06:05<112:40:16,  4.47s/it]                                                             9%|▉         | 9316/100000 [5:06:05<112:40:16,  4.47s/it]  9%|▉         | 9317/100000 [5:06:10<115:43:27,  4.59s/it]                                                             9%|▉         | 9317/100000 [5:06:10<115:43:27,  4.59s/it]  9%|▉         | 9318/100000 [5:06:14<111:31:04,  4.43s/it]                                                             9%|▉         | 9318/100000 [5:06:14<111:31:04,  4.43s/it]  9%|▉         | 9319/100000 [5:06:18<105:56:09,  4.21s/it]                                                             9%|▉         | 9319/100000 [5:06:18<105:56:09,  4.21s/it]  9%|▉         | 9320/100000 [5:06:21<99:23:59,  3.95s/it]                                                             9%|▉         | 9320/100000 [5:06:21<99:23:59,  3.95s/it]  9%|▉         | 9321/100000 [5:06:24<92:35:38,  3.68s/it]                                                            9%|▉         | 9321/100000 [5:06:24<92:35:38,  3.68s/it]  9%|▉         | 9322/100000 [5:06:27<85:44:26,  3.40s/it]                                                            9%|▉         | 9322/100000 [5:06:27<85:44:26,  3.40s/it]  9%|▉         | 9323/100000 [5:06:30<79:19:40,  3.15s/it]                                                            9%|▉         | 9323/100000 [5:06:30<79:19:40,  3.15s/it]  9%|▉         | 9324/100000 [5:06:32<72:57:55,  2.90s/it]                                                            9%|▉         | 9324/100000 [5:06:32<72:57:55,  2.90s/it]  9%|▉         | 9325/100000 [5:06:34<67:27:54,  2.68s/it]                                                            9%|▉         | 9325/100000 [5:06:34<67:27:54,  2.68s/it]  9%|▉         | 9326/100000 [5:06:36<62:51:50,  2.50s/it]                                                            9%|▉         | 9326/100000 [5:06:36<62:51:50,  2.50s/it]  9%|▉         | 9327/100000 [5:06:38<58:30:25,  2.32s/it]                                                            9%|▉         | 9327/100000 [5:06:38<58:30:25,  2.32s/it]  9%|▉         | 9328/100000 [5:06:40<54:35:28,  2.17s/it]                                                            9%|▉         | 9328/100000 [5:06:40<54:35:28,  2.17s/it]  9%|▉         | 9329/100000 [5:06:42<51:18:14,  2.04s/it]                                                            9%|▉         | 9329/100000 [5:06:42<51:18:14,  2.04s/it]  9%|▉         | 9330/100000 [5:06:43<48:35:28,  1.93s/it]                                                            9%|▉         | 9330/100000 [5:06:43<48:35:28,  1.93s/it]  9%|▉         | 9331/100000 [5:06:45<46:15:08,  1.84s/it]                                                            9%|▉         | 9331/100000 [5:06:45<46:15:08,  1.84s/it]  9%|▉         | 9332/100000 [5:06:47<44:09:12,  1.75s/it]                                                            9%|▉         | 9332/100000 [5:06:47<44:09:12,  1.75s/it]  9%|▉         | 9333/100000 [5:06:48<42:41:18,  1.69s/it]                                                            9%|▉         | 9333/100000 [5:06:48<42:41:18,  1.69s/it]  9%|▉         | 9334/100000 [5:06:50<40:44:41,  1.62s/it]                                                            9%|▉         | 9334/100000 [5:06:50<40:44:41,  1.62s/it]  9%|▉         | 9335/100000 [5:06:51<39:14:30,  1.56s/it]                                                            9%|▉         | 9335/100000 [5:06:51<39:14:30,  1.56s/it]  9%|▉         | 9336/100000 [5:06:52<38:13:18,  1.52s/it]                                                            9%|▉         | 9336/100000 [5:06:52<38:13:18,  1.52s/it]  9%|▉         | 9337/100000 [5:06:54<37:23:09,  1.48s/it]                                                            9%|▉         | 9337/100000 [5:06:54<37:23:09,  1.48s/it]  9%|▉         | 9338/100000 [5:06:55<36:19:15,  1.44s/it]                                                            9%|▉         | 9338/100000 [5:06:55<36:19:15,  1.44s/it]  9%|▉         | 9339/100000 [5:06:57<35:46:42,  1.42s/it]                                                            9%|▉         | 9339/100000 [5:06:57<35:46:42,  1.42s/it]  9%|▉         | 9340/100000 [5:06:58<35:11:35,  1.40s/it]                                                            9%|▉         | 9340/100000 [5:06:58<35:11:35,  1.40s/it]  9%|▉         | 9341/100000 [5:06:59<34:39:07,  1.38s/it]                                                            9%|▉         | 9341/100000 [5:06:59<34:39:07,  1.38s/it]  9%|▉         | 9342/100000 [5:07:01<34:09:15,  1.36s/it]                                                            9%|▉         | 9342/100000 [5:07:01<34:09:15,  1.36s/it]  9%|▉         | 9343/100000 [5:07:02<33:41:08,  1.34s/it]                                                            9%|▉         | 9343/100000 [5:07:02<33:41:08,  1.34s/it]  9%|▉         | 9344/100000 [5:07:03<33:11:46,  1.32s/it]                                                            9%|▉         | 9344/100000 [5:07:03<33:11:46,  1.32s/it]  9%|▉         | 9345/100000 [5:07:04<32:39:50,  1.30s/it]                                                            9%|▉         | 9345/100000 [5:07:04<32:39:50,  1.30s/it]  9%|▉         | 9346/100000 [5:07:06<31:57:53,  1.27s/it]                                                            9%|▉         | 9346/100000 [5:07:06<31:57:53,  1.27s/it]  9%|▉         | 9347/100000 [5:07:07<31:31:44,  1.25s/it]                                                            9%|▉         | 9347/100000 [5:07:07<31:31:44,  1.25s/it]  9%|▉         | 9348/100000 [5:07:08<30:56:00,  1.23s/it]                                                            9%|▉         | 9348/100000 [5:07:08<30:56:00,  1.23s/it]  9%|▉         | 9349/100000 [5:07:09<30:13:45,  1.20s/it]                                                            9%|▉         | 9349/100000 [5:07:09<30:13:45,  1.20s/it]  9%|▉         | 9350/100000 [5:07:10<29:59:32,  1.19s/it]                                                            9%|▉         | 9350/100000 [5:07:10<29:59:32,  1.19s/it]  9%|▉         | 9351/100000 [5:07:11<29:33:54,  1.17s/it]                                                            9%|▉         | 9351/100000 [5:07:11<29:33:54,  1.17s/it]  9%|▉         | 9352/100000 [5:07:13<29:15:23,  1.16s/it]                                                            9%|▉         | 9352/100000 [5:07:13<29:15:23,  1.16s/it]  9%|▉         | 9353/100000 [5:07:14<28:50:26,  1.15s/it]                                                            9%|▉         | 9353/100000 [5:07:14<28:50:26,  1.15s/it]  9%|▉         | 9354/100000 [5:07:15<28:28:30,  1.13s/it]                                                            9%|▉         | 9354/100000 [5:07:15<28:28:30,  1.13s/it]  9%|▉         | 9355/100000 [5:07:16<27:58:21,  1.11s/it]                                                            9%|▉         | 9355/100000 [5:07:16<27:58:21,  1.11s/it]  9%|▉         | 9356/100000 [5:07:17<27:43:04,  1.10s/it]                                                            9%|▉         | 9356/100000 [5:07:17<27:43:04,  1.10s/it]  9%|▉         | 9357/100000 [5:07:18<27:19:45,  1.09s/it]                                                            9%|▉         | 9357/100000 [5:07:18<27:19:45,  1.09s/it]  9%|▉         | 9358/100000 [5:07:19<26:57:36,  1.07s/it]                                                            9%|▉         | 9358/100000 [5:07:19<26:57:36,  1.07s/it]  9%|▉         | 9359/100000 [5:07:20<26:22:24,  1.05s/it]                                                            9%|▉         | 9359/100000 [5:07:20<26:22:24,  1.05s/it]  9%|▉         | 9360/100000 [5:07:21<25:38:10,  1.02s/it]                                                            9%|▉         | 9360/100000 [5:07:21<25:38:10,  1.02s/it]  9%|▉         | 9361/100000 [5:07:22<25:12:27,  1.00s/it]                                                            9%|▉         | 9361/100000 [5:07:22<25:12:27,  1.00s/it]  9%|▉         | 9362/100000 [5:07:23<24:37:31,  1.02it/s]                                                            9%|▉         | 9362/100000 [5:07:23<24:37:31,  1.02it/s]  9%|▉         | 9363/100000 [5:07:24<23:52:34,  1.05it/s]                                                            9%|▉         | 9363/100000 [5:07:24<23:52:34,  1.05it/s]  9%|▉         | 9364/100000 [5:07:25<23:16:49,  1.08it/s]                                                            9%|▉         | 9364/100000 [5:07:25<23:16:49,  1.08it/s]  9%|▉         | 9365/100000 [5:07:36<99:18:20,  3.94s/it]                                                            9%|▉         | 9365/100000 [5:07:36<99:18:20,  3.94s/it]  9%|▉         | 9366/100000 [5:07:41<111:12:35,  4.42s/it]                                                             9%|▉         | 9366/100000 [5:07:41<111:12:35,  4.42s/it]  9%|▉         | 9367/100000 [5:07:45<111:17:34,  4.42s/it]                                                             9%|▉         | 9367/100000 [5:07:46<111:17:34,  4.42s/it]  9%|▉         | 9368/100000 [5:07:50<108:23:00,  4.31s/it]                                                             9%|▉         | 9368/100000 [5:07:50<108:23:00,  4.31s/it]  9%|▉         | 9369/100000 [5:07:53<102:42:14,  4.08s/it]                                                             9%|▉         | 9369/100000 [5:07:53<102:42:14,  4.08s/it]  9%|▉         | 9370/100000 [5:07:56<95:22:46,  3.79s/it]                                                             9%|▉         | 9370/100000 [5:07:56<95:22:46,  3.79s/it]  9%|▉         | 9371/100000 [5:07:59<88:49:15,  3.53s/it]                                                            9%|▉         | 9371/100000 [5:07:59<88:49:15,  3.53s/it]  9%|▉         | 9372/100000 [5:08:02<82:40:21,  3.28s/it]                                                            9%|▉         | 9372/100000 [5:08:02<82:40:21,  3.28s/it]  9%|▉         | 9373/100000 [5:08:04<75:35:02,  3.00s/it]                                                            9%|▉         | 9373/100000 [5:08:04<75:35:02,  3.00s/it]  9%|▉         | 9374/100000 [5:08:06<70:20:41,  2.79s/it]                                                            9%|▉         | 9374/100000 [5:08:06<70:20:41,  2.79s/it]  9%|▉         | 9375/100000 [5:08:09<65:25:35,  2.60s/it]                                                            9%|▉         | 9375/100000 [5:08:09<65:25:35,  2.60s/it]  9%|▉         | 9376/100000 [5:08:11<60:52:35,  2.42s/it]                                                            9%|▉         | 9376/100000 [5:08:11<60:52:35,  2.42s/it]  9%|▉         | 9377/100000 [5:08:13<56:55:32,  2.26s/it]                                                            9%|▉         | 9377/100000 [5:08:13<56:55:32,  2.26s/it]  9%|▉         | 9378/100000 [5:08:14<53:27:28,  2.12s/it]                                                            9%|▉         | 9378/100000 [5:08:14<53:27:28,  2.12s/it]  9%|▉         | 9379/100000 [5:08:16<50:32:58,  2.01s/it]                                                            9%|▉         | 9379/100000 [5:08:16<50:32:58,  2.01s/it]  9%|▉         | 9380/100000 [5:08:18<47:30:54,  1.89s/it]                                                          {'loss': 0.0088, 'grad_norm': 0.30119237303733826, 'learning_rate': 2.7882000000000002e-05, 'epoch': 17.15}
+{'loss': 0.0179, 'grad_norm': 0.6697653532028198, 'learning_rate': 2.7885e-05, 'epoch': 17.16}
+{'loss': 0.0159, 'grad_norm': 0.3480161726474762, 'learning_rate': 2.7888e-05, 'epoch': 17.16}
+{'loss': 0.0094, 'grad_norm': 0.22501026093959808, 'learning_rate': 2.7891e-05, 'epoch': 17.16}
+{'loss': 0.0166, 'grad_norm': 0.37073078751564026, 'learning_rate': 2.7894e-05, 'epoch': 17.16}
+{'loss': 0.0103, 'grad_norm': 0.34021317958831787, 'learning_rate': 2.7897e-05, 'epoch': 17.16}
+{'loss': 0.0143, 'grad_norm': 0.7827439308166504, 'learning_rate': 2.79e-05, 'epoch': 17.16}
+{'loss': 0.0173, 'grad_norm': 0.39998817443847656, 'learning_rate': 2.7903e-05, 'epoch': 17.17}
+{'loss': 0.0089, 'grad_norm': 0.3274659812450409, 'learning_rate': 2.7906e-05, 'epoch': 17.17}
+{'loss': 0.0118, 'grad_norm': 0.2546210289001465, 'learning_rate': 2.7909e-05, 'epoch': 17.17}
+{'loss': 0.0078, 'grad_norm': 0.26053136587142944, 'learning_rate': 2.7912e-05, 'epoch': 17.17}
+{'loss': 0.0164, 'grad_norm': 0.4792042374610901, 'learning_rate': 2.7915e-05, 'epoch': 17.17}
+{'loss': 0.0245, 'grad_norm': 0.540781557559967, 'learning_rate': 2.7918e-05, 'epoch': 17.18}
+{'loss': 0.0173, 'grad_norm': 0.5518727898597717, 'learning_rate': 2.7921e-05, 'epoch': 17.18}
+{'loss': 0.0098, 'grad_norm': 0.5841360092163086, 'learning_rate': 2.7924e-05, 'epoch': 17.18}
+{'loss': 0.0153, 'grad_norm': 0.9632762670516968, 'learning_rate': 2.7927e-05, 'epoch': 17.18}
+{'loss': 0.0097, 'grad_norm': 0.4417622983455658, 'learning_rate': 2.7930000000000002e-05, 'epoch': 17.18}
+{'loss': 0.0261, 'grad_norm': 0.6527366042137146, 'learning_rate': 2.7933000000000002e-05, 'epoch': 17.18}
+{'loss': 0.3008, 'grad_norm': 0.8529950976371765, 'learning_rate': 2.7936e-05, 'epoch': 17.19}
+{'loss': 0.1189, 'grad_norm': 0.5253120064735413, 'learning_rate': 2.7939e-05, 'epoch': 17.19}
+{'loss': 0.1442, 'grad_norm': 0.4528539776802063, 'learning_rate': 2.7942e-05, 'epoch': 17.19}
+{'loss': 0.153, 'grad_norm': 0.7505183219909668, 'learning_rate': 2.7945e-05, 'epoch': 17.19}
+{'loss': 0.1751, 'grad_norm': 0.831365168094635, 'learning_rate': 2.7948e-05, 'epoch': 17.19}
+{'loss': 0.1076, 'grad_norm': 0.8180812001228333, 'learning_rate': 2.7951e-05, 'epoch': 17.2}
+{'loss': 0.0991, 'grad_norm': 0.5121163725852966, 'learning_rate': 2.7954e-05, 'epoch': 17.2}
+{'loss': 0.0564, 'grad_norm': 0.3973347544670105, 'learning_rate': 2.7957e-05, 'epoch': 17.2}
+{'loss': 0.0696, 'grad_norm': 0.5886101126670837, 'learning_rate': 2.7960000000000003e-05, 'epoch': 17.2}
+{'loss': 0.0792, 'grad_norm': 0.38349026441574097, 'learning_rate': 2.7963000000000003e-05, 'epoch': 17.2}
+{'loss': 0.0519, 'grad_norm': 0.4047221541404724, 'learning_rate': 2.7966000000000003e-05, 'epoch': 17.2}
+{'loss': 0.0392, 'grad_norm': 0.3595011532306671, 'learning_rate': 2.7969000000000003e-05, 'epoch': 17.21}
+{'loss': 0.0484, 'grad_norm': 0.294626384973526, 'learning_rate': 2.7972000000000003e-05, 'epoch': 17.21}
+{'loss': 0.0366, 'grad_norm': 0.3707464933395386, 'learning_rate': 2.7975e-05, 'epoch': 17.21}
+{'loss': 0.0371, 'grad_norm': 0.3111836314201355, 'learning_rate': 2.7978e-05, 'epoch': 17.21}
+{'loss': 0.0243, 'grad_norm': 0.19050897657871246, 'learning_rate': 2.7981e-05, 'epoch': 17.21}
+{'loss': 0.0133, 'grad_norm': 0.2788408100605011, 'learning_rate': 2.7984e-05, 'epoch': 17.22}
+{'loss': 0.0149, 'grad_norm': 0.3897608518600464, 'learning_rate': 2.7986999999999998e-05, 'epoch': 17.22}
+{'loss': 0.0417, 'grad_norm': 0.24043641984462738, 'learning_rate': 2.799e-05, 'epoch': 17.22}
+{'loss': 0.0124, 'grad_norm': 0.3331644833087921, 'learning_rate': 2.7993e-05, 'epoch': 17.22}
+{'loss': 0.012, 'grad_norm': 0.2830711901187897, 'learning_rate': 2.7996e-05, 'epoch': 17.22}
+{'loss': 0.0065, 'grad_norm': 0.21424072980880737, 'learning_rate': 2.7999e-05, 'epoch': 17.23}
+{'loss': 0.0103, 'grad_norm': 0.6466320753097534, 'learning_rate': 2.8002e-05, 'epoch': 17.23}
+{'loss': 0.01, 'grad_norm': 0.2295599728822708, 'learning_rate': 2.8005e-05, 'epoch': 17.23}
+{'loss': 0.0096, 'grad_norm': 0.2938486635684967, 'learning_rate': 2.8008e-05, 'epoch': 17.23}
+{'loss': 0.0069, 'grad_norm': 0.17863905429840088, 'learning_rate': 2.8011e-05, 'epoch': 17.23}
+{'loss': 0.0125, 'grad_norm': 0.1935294270515442, 'learning_rate': 2.8014e-05, 'epoch': 17.23}
+{'loss': 0.0269, 'grad_norm': 0.9676811099052429, 'learning_rate': 2.8017e-05, 'epoch': 17.24}
+{'loss': 0.0171, 'grad_norm': 0.45683619379997253, 'learning_rate': 2.8020000000000003e-05, 'epoch': 17.24}
+{'loss': 0.0114, 'grad_norm': 0.40154099464416504, 'learning_rate': 2.8023000000000003e-05, 'epoch': 17.24}
+{'loss': 0.0365, 'grad_norm': 0.4316021203994751, 'learning_rate': 2.8026000000000002e-05, 'epoch': 17.24}
+{'loss': 0.0118, 'grad_norm': 0.3077472448348999, 'learning_rate': 2.8029000000000002e-05, 'epoch': 17.24}
+{'loss': 0.0107, 'grad_norm': 0.49241816997528076, 'learning_rate': 2.8032000000000002e-05, 'epoch': 17.25}
+{'loss': 0.0114, 'grad_norm': 0.3258560299873352, 'learning_rate': 2.8035000000000002e-05, 'epoch': 17.25}
+{'loss': 0.0141, 'grad_norm': 0.33918431401252747, 'learning_rate': 2.8038e-05, 'epoch': 17.25}
+{'loss': 0.0134, 'grad_norm': 0.29143860936164856, 'learning_rate': 2.8041e-05, 'epoch': 17.25}
+{'loss': 0.0145, 'grad_norm': 0.39543747901916504, 'learning_rate': 2.8044e-05, 'epoch': 17.25}
+{'loss': 0.0113, 'grad_norm': 0.2542322874069214, 'learning_rate': 2.8047e-05, 'epoch': 17.25}
+{'loss': 0.0063, 'grad_norm': 0.28918883204460144, 'learning_rate': 2.805e-05, 'epoch': 17.26}
+{'loss': 0.0175, 'grad_norm': 0.5130068063735962, 'learning_rate': 2.8053e-05, 'epoch': 17.26}
+{'loss': 0.0121, 'grad_norm': 0.6604469418525696, 'learning_rate': 2.8056e-05, 'epoch': 17.26}
+{'loss': 0.0078, 'grad_norm': 0.21387112140655518, 'learning_rate': 2.8059e-05, 'epoch': 17.26}
+{'loss': 0.022, 'grad_norm': 0.7465587854385376, 'learning_rate': 2.8062e-05, 'epoch': 17.26}
+{'loss': 0.0261, 'grad_norm': 0.9279031157493591, 'learning_rate': 2.8065e-05, 'epoch': 17.27}
+{'loss': 0.0071, 'grad_norm': 0.23070333898067474, 'learning_rate': 2.8068e-05, 'epoch': 17.27}
+{'loss': 0.0152, 'grad_norm': 0.3000924587249756, 'learning_rate': 2.8071e-05, 'epoch': 17.27}
+{'loss': 0.0099, 'grad_norm': 0.36132705211639404, 'learning_rate': 2.8074e-05, 'epoch': 17.27}
+{'loss': 0.0123, 'grad_norm': 0.3235369920730591, 'learning_rate': 2.8077e-05, 'epoch': 17.27}
+{'loss': 0.0307, 'grad_norm': 3.1168806552886963, 'learning_rate': 2.8080000000000002e-05, 'epoch': 17.28}
+{'loss': 0.0152, 'grad_norm': 0.44572263956069946, 'learning_rate': 2.8083000000000002e-05, 'epoch': 17.28}
+{'loss': 0.1906, 'grad_norm': 1.7113220691680908, 'learning_rate': 2.8086000000000002e-05, 'epoch': 17.28}
+{'loss': 0.1274, 'grad_norm': 0.5876774191856384, 'learning_rate': 2.8089e-05, 'epoch': 17.28}
+{'loss': 0.1518, 'grad_norm': 0.8600068688392639, 'learning_rate': 2.8092e-05, 'epoch': 17.28}
+{'loss': 0.0893, 'grad_norm': 0.47339197993278503, 'learning_rate': 2.8095e-05, 'epoch': 17.28}
+{'loss': 0.0815, 'grad_norm': 0.4132726192474365, 'learning_rate': 2.8098e-05, 'epoch': 17.29}
+{'loss': 0.0712, 'grad_norm': 0.4227193295955658, 'learning_rate': 2.8101e-05, 'epoch': 17.29}
+{'loss': 0.0947, 'grad_norm': 0.45899859070777893, 'learning_rate': 2.8104e-05, 'epoch': 17.29}
+{'loss': 0.0745, 'grad_norm': 0.4160376489162445, 'learning_rate': 2.8107e-05, 'epoch': 17.29}
+{'loss': 0.0645, 'grad_norm': 0.3612839877605438, 'learning_rate': 2.8110000000000004e-05, 'epoch': 17.29}
+{'loss': 0.0461, 'grad_norm': 0.34148138761520386, 'learning_rate': 2.8113000000000003e-05, 'epoch': 17.3}
+{'loss': 0.1095, 'grad_norm': 0.4269258975982666, 'learning_rate': 2.8116000000000003e-05, 'epoch': 17.3}
+{'loss': 0.0368, 'grad_norm': 0.3814285695552826, 'learning_rate': 2.8119000000000003e-05, 'epoch': 17.3}
+{'loss': 0.0425, 'grad_norm': 0.7113535404205322, 'learning_rate': 2.8122e-05, 'epoch': 17.3}
+{'loss': 0.0601, 'grad_norm': 0.40248632431030273, 'learning_rate': 2.8125e-05, 'epoch': 17.3}
+{'loss': 0.0527, 'grad_norm': 0.3561994433403015, 'learning_rate': 2.8128e-05, 'epoch': 17.3}
+  9%|▉         | 9380/100000 [5:08:18<47:30:54,  1.89s/it]  9%|▉         | 9381/100000 [5:08:19<45:31:15,  1.81s/it]                                                            9%|▉         | 9381/100000 [5:08:19<45:31:15,  1.81s/it]  9%|▉         | 9382/100000 [5:08:21<43:47:30,  1.74s/it]                                                            9%|▉         | 9382/100000 [5:08:21<43:47:30,  1.74s/it]  9%|▉         | 9383/100000 [5:08:22<42:17:46,  1.68s/it]                                                            9%|▉         | 9383/100000 [5:08:22<42:17:46,  1.68s/it]  9%|▉         | 9384/100000 [5:08:24<40:46:42,  1.62s/it]                                                            9%|▉         | 9384/100000 [5:08:24<40:46:42,  1.62s/it]  9%|▉         | 9385/100000 [5:08:25<39:24:41,  1.57s/it]                                                            9%|▉         | 9385/100000 [5:08:25<39:24:41,  1.57s/it]  9%|▉         | 9386/100000 [5:08:27<38:19:52,  1.52s/it]                                                            9%|▉         | 9386/100000 [5:08:27<38:19:52,  1.52s/it]  9%|▉         | 9387/100000 [5:08:28<37:18:02,  1.48s/it]                                                            9%|▉         | 9387/100000 [5:08:28<37:18:02,  1.48s/it]  9%|▉         | 9388/100000 [5:08:30<36:34:05,  1.45s/it]                                                            9%|▉         | 9388/100000 [5:08:30<36:34:05,  1.45s/it]  9%|▉         | 9389/100000 [5:08:31<36:00:58,  1.43s/it]                                                            9%|▉         | 9389/100000 [5:08:31<36:00:58,  1.43s/it]  9%|▉         | 9390/100000 [5:08:32<35:29:02,  1.41s/it]                                                            9%|▉         | 9390/100000 [5:08:32<35:29:02,  1.41s/it]  9%|▉         | 9391/100000 [5:08:34<34:50:52,  1.38s/it]                                                            9%|▉         | 9391/100000 [5:08:34<34:50:52,  1.38s/it]  9%|▉         | 9392/100000 [5:08:35<34:15:11,  1.36s/it]                                                            9%|▉         | 9392/100000 [5:08:35<34:15:11,  1.36s/it]  9%|▉         | 9393/100000 [5:08:36<33:41:24,  1.34s/it]                                                            9%|▉         | 9393/100000 [5:08:36<33:41:24,  1.34s/it]  9%|▉         | 9394/100000 [5:08:37<33:15:42,  1.32s/it]                                                            9%|▉         | 9394/100000 [5:08:37<33:15:42,  1.32s/it]  9%|▉         | 9395/100000 [5:08:39<32:44:32,  1.30s/it]                                                            9%|▉         | 9395/100000 [5:08:39<32:44:32,  1.30s/it]  9%|▉         | 9396/100000 [5:08:40<32:01:43,  1.27s/it]                                                            9%|▉         | 9396/100000 [5:08:40<32:01:43,  1.27s/it]  9%|▉         | 9397/100000 [5:08:41<31:37:34,  1.26s/it]                                                            9%|▉         | 9397/100000 [5:08:41<31:37:34,  1.26s/it]  9%|▉         | 9398/100000 [5:08:42<31:00:44,  1.23s/it]                                                            9%|▉         | 9398/100000 [5:08:42<31:00:44,  1.23s/it]  9%|▉         | 9399/100000 [5:08:43<30:28:33,  1.21s/it]                                                            9%|▉         | 9399/100000 [5:08:43<30:28:33,  1.21s/it]  9%|▉         | 9400/100000 [5:08:45<30:04:07,  1.19s/it]                                                            9%|▉         | 9400/100000 [5:08:45<30:04:07,  1.19s/it]  9%|▉         | 9401/100000 [5:08:46<29:29:52,  1.17s/it]                                                            9%|▉         | 9401/100000 [5:08:46<29:29:52,  1.17s/it]  9%|▉         | 9402/100000 [5:08:47<28:59:45,  1.15s/it]                                                            9%|▉         | 9402/100000 [5:08:47<28:59:45,  1.15s/it]  9%|▉         | 9403/100000 [5:08:48<28:29:46,  1.13s/it]                                                            9%|▉         | 9403/100000 [5:08:48<28:29:46,  1.13s/it]  9%|▉         | 9404/100000 [5:08:49<28:05:46,  1.12s/it]                                                            9%|▉         | 9404/100000 [5:08:49<28:05:46,  1.12s/it]  9%|▉         | 9405/100000 [5:08:50<27:43:10,  1.10s/it]                                                            9%|▉         | 9405/100000 [5:08:50<27:43:10,  1.10s/it]  9%|▉         | 9406/100000 [5:08:51<27:32:25,  1.09s/it]                                                            9%|▉         | 9406/100000 [5:08:51<27:32:25,  1.09s/it]  9%|▉         | 9407/100000 [5:08:52<27:09:07,  1.08s/it]                                                            9%|▉         | 9407/100000 [5:08:52<27:09:07,  1.08s/it]  9%|▉         | 9408/100000 [5:08:53<26:54:12,  1.07s/it]                                                            9%|▉         | 9408/100000 [5:08:53<26:54:12,  1.07s/it]  9%|▉         | 9409/100000 [5:08:54<26:28:35,  1.05s/it]                                                            9%|▉         | 9409/100000 [5:08:54<26:28:35,  1.05s/it]  9%|▉         | 9410/100000 [5:08:55<26:02:42,  1.04s/it]                                                            9%|▉         | 9410/100000 [5:08:55<26:02:42,  1.04s/it]  9%|▉         | 9411/100000 [5:08:56<25:34:30,  1.02s/it]                                                            9%|▉         | 9411/100000 [5:08:56<25:34:30,  1.02s/it]  9%|▉         | 9412/100000 [5:08:57<25:11:43,  1.00s/it]                                                            9%|▉         | 9412/100000 [5:08:57<25:11:43,  1.00s/it]  9%|▉         | 9413/100000 [5:08:58<24:50:09,  1.01it/s]                                                            9%|▉         | 9413/100000 [5:08:58<24:50:09,  1.01it/s]  9%|▉         | 9414/100000 [5:08:59<24:01:08,  1.05it/s]                                                            9%|▉         | 9414/100000 [5:08:59<24:01:08,  1.05it/s]  9%|▉         | 9415/100000 [5:09:11<107:08:13,  4.26s/it]                                                             9%|▉         | 9415/100000 [5:09:11<107:08:13,  4.26s/it]  9%|▉         | 9416/100000 [5:09:17<117:10:41,  4.66s/it]                                                             9%|▉         | 9416/100000 [5:09:17<117:10:41,  4.66s/it]  9%|▉         | 9417/100000 [5:09:21<116:53:56,  4.65s/it]                                                             9%|▉         | 9417/100000 [5:09:21<116:53:56,  4.65s/it]  9%|▉         | 9418/100000 [5:09:25<112:04:04,  4.45s/it]                                                             9%|▉         | 9418/100000 [5:09:25<112:04:04,  4.45s/it]  9%|▉         | 9419/100000 [5:09:29<104:10:46,  4.14s/it]                                                             9%|▉         | 9419/100000 [5:09:29<104:10:46,  4.14s/it]  9%|▉         | 9420/100000 [5:09:32<96:46:12,  3.85s/it]                                                             9%|▉         | 9420/100000 [5:09:32<96:46:12,  3.85s/it]  9%|▉         | 9421/100000 [5:09:35<90:01:53,  3.58s/it]                                                            9%|▉         | 9421/100000 [5:09:35<90:01:53,  3.58s/it]  9%|▉         | 9422/100000 [5:09:37<83:21:02,  3.31s/it]                                                            9%|▉         | 9422/100000 [5:09:37<83:21:02,  3.31s/it]  9%|▉         | 9423/100000 [5:09:40<77:13:51,  3.07s/it]                                                            9%|▉         | 9423/100000 [5:09:40<77:13:51,  3.07s/it]  9%|▉         | 9424/100000 [5:09:42<71:30:07,  2.84s/it]                                                            9%|▉         | 9424/100000 [5:09:42<71:30:07,  2.84s/it]  9%|▉         | 9425/100000 [5:09:44<66:19:28,  2.64s/it]                                                            9%|▉         | 9425/100000 [5:09:44<66:19:28,  2.64s/it]  9%|▉         | 9426/100000 [5:09:46<61:48:46,  2.46s/it]                                                            9%|▉         | 9426/100000 [5:09:46<61:48:46,  2.46s/it]  9%|▉         | 9427/100000 [5:09:48<57:50:50,  2.30s/it]                                                            9%|▉         | 9427/100000 [5:09:48<57:50:50,  2.30s/it]  9%|▉         | 9428/100000 [5:09:50<53:59:54,  2.15s/it]                                                            9%|▉         | 9428/100000 [5:09:50<53:59:54,  2.15s/it]  9%|▉         | 9429/100000 [5:09:52<50:49:20,  2.02s/it]                                                            9%|▉         | 9429/100000 [5:09:52<50:49:20,  2.02s/it]  9%|▉         | 9430/100000 [5:09:53<47:43:56,  1.90s/it]                                                            9%|▉         | 9430/100000 [5:09:54<47:43:56,  1.90s/it]  9%|▉         | 9431/100000 [5:09:55<45:37:29,  1.81s/it]                                                            9%|▉         | 9431/100000 [5:09:55<45:37:29,  1.81s/it]  9%|▉         | 9432/100000 [5:09:57<43:46:48,  1.74s/it]                                                            9%|▉         | 9432/100000 [5:09:57<43:46:48,  1.74s/it]  9%|▉         | 9433/100000 [5:09:58<41:32:22,  1.65s/it]                                                            9%|▉         | 9433/100000 [5:09:58<41:32:22,  1.65s/it]  9%|▉         | 9434/100000 [5:10:00<40:15:57,  1.60s/it]                                                            9%|▉         | 9434/100000 [5:10:00<40:15:57,  1.60s/it]  9%|▉         | 9435/100000 [5:10:01<39:06:22,  1.55s/it]                                                            9%|▉         | 9435/100000 [5:10:01<39:06:22,  1.55s/it]  9%|▉         | 9436/100000 [5:10:02<37:48:39,  1.50s/it]                                                            9%|▉         | 9436/100000 [5:10:02<37:48:39,  1.50s/it]  9%|▉         | 9437/100000 [5:10:04<37:05:55,  1.47s/it]                                                            9%|▉         | 9437/100000 [5:10:04<37:05:55,  1.47s/it]  9%|▉         | 9438/100000 [5:10:05<36:13:19,  1.44s/it]                                                            9%|▉         | 9438/100000 [5:10:05<36:13:19,  1.44s/it]  9%|▉         | 9439/100000 [5:10:07<35:23:01,  1.41s/it]                                                            9%|▉         | 9439/100000 [5:10:07<35:23:01,  1.41s/it]  9%|▉         | 9440/100000 [5:10:08<34:51:42,  1.39s/it]                                                            9%|▉         | 9440/100000 [5:10:08<34:51:42,  1.39s/it]  9%|▉         | 9441/100000 [5:10:09<34:01:25,  1.35s/it]                                                            9%|▉         | 9441/100000 [5:10:09<34:01:25,  1.35s/it]  9%|▉         | 9442/100000 [5:10:10<33:26:25,  1.33s/it]                                                            9%|▉         | 9442/100000 [5:10:10<33:26:25,  1.33s/it]  9%|▉         | 9443/100000 [5:10:12<32:56:32,  1.31s/it]                                                            9%|▉         | 9443/100000 [5:10:12<32:56:32,  1.31s/it]  9%|▉         | 9444/100000 [5:10:13<32:40:33,  1.30s/it]                                                            9%|▉         | 9444/100000 [5:10:13<32:40:33,  1.30s/it]  9%|▉         | 9445/100000 [5:10:14<32:17:49,  1.28s/it]                                                            9%|▉         | 9445/100000 [5:10:14<32:17:49,  1.28s/it]  9%|▉         | 9446/100000 [5:10:15<31:54:33,  1.27s/it]                                                            9%|▉         | 9446/100000 [5:10:15<31:54:33,  1.27s/it]  9%|▉         | 9447/100000 [5:10:17<31:29:45,  1.25s/it]                                                            9%|▉         | 9447/100000 [5:10:17<31:29:45,  1.25s/it]  9%|▉         | 9448/100000 [5:10:18<30:57:24,  1.23s/it]                                                            9%|▉         | 9448/100000 [5:10:18<30:57:24,  1.23s/it]  9%|▉         | 9449/100000 [5:10:19<30:08:43,  1.20s/it]                                                            9%|▉         | 9449/100000 [5:10:19<30:08:43,  1.20s/it]  9%|▉         | 9450/100000 [5:10:20<29:48:53,  1.19s/it]                                                            9%|▉         | 9450/100000 [5:10:20<29:48:53,  1.19s/it]  9%|▉         | 9451/100000 [5:10:21<29:20:28,  1.17s/it]                                                            9%|▉         | 9451/100000 [5:10:21<29:20:28,  1.17s/it]  9%|▉         | 9452/100000 [5:10:22<28:56:37,  1.15s/it]                                                            9%|▉         | 9452/100000 [5:10:22<28:56:37,  1.15s/it]  9%|▉         | 9453/100000 [5:10:23<28:26:39,  1.13s/it]                                                            9%|▉         | 9453/100000 [5:10:23<28:26:39,  1.13s/it]  9%|▉         | 9454/100000 [5:10:25<28:13:43,  1.12s/it]                                                            9%|▉         | 9454/100000 [5:10:25<28:13:43,  1.12s/it]  9%|▉         | 9455/100000 [5:10:26<27:52:19,  1.11s/it]                                                            9%|▉         | 9455/100000 [5:10:26<27:52:19,  1.11s/it]  9%|▉         | 9456/100000 [5:10:27<27:36:40,  1.10s/it]                                                            9%|▉         | 9456/100000 [5:10:27<27:36:40,  1.10s/it]  9%|▉         | 9457/100000 [5:10:28<27:08:54,  1.08s/it]                                                            9%|▉         | 9457/100000 [5:10:28<27:08:54,  1.08s/it]  9%|▉         | 9458/100000 [5:10:29<26:48:45,  1.07s/it]                                                            9%|▉         | 9458/100000 [5:10:29<26:48:45,  1.07s/it]  9%|▉         | 9459/100000 [5:10:30<26:15:00,  1.04s/it]                                                            9%|▉         | 9459/100000 [5:10:30<26:15:00,  1.04s/it]  9%|▉         | 9460/100000 [5:10:31<25:51:16,  1.03s/it]                                                            9%|▉         | 9460/100000 [5:10:31<25:51:16,  1.03s/it]  9%|▉         | 9461/100000 [5:10:32<25:28:01,  1.01s/it]                                                            9%|▉         | 9461/100000 [5:10:32<25:28:01,  1.01s/it]  9%|▉         | 9462/100000 [5:10:33<24:59:04,  1.01it/s]                                                            9%|▉         | 9462/100000 [5:10:33<24:59:04,  1.01it/s]  9%|▉         | 9463/100000 [5:10:34<24:35:04,  1.02it/s]                                                          {'loss': 0.0346, 'grad_norm': 0.21789389848709106, 'learning_rate': 2.8131e-05, 'epoch': 17.31}
+{'loss': 0.0165, 'grad_norm': 0.4023694396018982, 'learning_rate': 2.8134e-05, 'epoch': 17.31}
+{'loss': 0.0317, 'grad_norm': 0.5231220722198486, 'learning_rate': 2.8137e-05, 'epoch': 17.31}
+{'loss': 0.0127, 'grad_norm': 0.3214775025844574, 'learning_rate': 2.8139999999999998e-05, 'epoch': 17.31}
+{'loss': 0.0223, 'grad_norm': 0.2625340223312378, 'learning_rate': 2.8143e-05, 'epoch': 17.31}
+{'loss': 0.0202, 'grad_norm': 0.41229403018951416, 'learning_rate': 2.8146e-05, 'epoch': 17.32}
+{'loss': 0.0201, 'grad_norm': 0.37261727452278137, 'learning_rate': 2.8149e-05, 'epoch': 17.32}
+{'loss': 0.0102, 'grad_norm': 0.16855792701244354, 'learning_rate': 2.8152e-05, 'epoch': 17.32}
+{'loss': 0.0155, 'grad_norm': 0.3535830080509186, 'learning_rate': 2.8155e-05, 'epoch': 17.32}
+{'loss': 0.02, 'grad_norm': 0.3080908954143524, 'learning_rate': 2.8158e-05, 'epoch': 17.32}
+{'loss': 0.0166, 'grad_norm': 0.32726743817329407, 'learning_rate': 2.8161e-05, 'epoch': 17.33}
+{'loss': 0.0222, 'grad_norm': 1.4310134649276733, 'learning_rate': 2.8164e-05, 'epoch': 17.33}
+{'loss': 0.0298, 'grad_norm': 0.4071342349052429, 'learning_rate': 2.8167e-05, 'epoch': 17.33}
+{'loss': 0.0117, 'grad_norm': 0.2208002209663391, 'learning_rate': 2.817e-05, 'epoch': 17.33}
+{'loss': 0.0147, 'grad_norm': 0.3327980637550354, 'learning_rate': 2.8173000000000003e-05, 'epoch': 17.33}
+{'loss': 0.0258, 'grad_norm': 0.7948895692825317, 'learning_rate': 2.8176000000000003e-05, 'epoch': 17.33}
+{'loss': 0.0074, 'grad_norm': 0.2921746075153351, 'learning_rate': 2.8179000000000002e-05, 'epoch': 17.34}
+{'loss': 0.0144, 'grad_norm': 0.6576547622680664, 'learning_rate': 2.8182000000000002e-05, 'epoch': 17.34}
+{'loss': 0.0158, 'grad_norm': 0.41292092204093933, 'learning_rate': 2.8185000000000002e-05, 'epoch': 17.34}
+{'loss': 0.0077, 'grad_norm': 0.2634788453578949, 'learning_rate': 2.8188000000000002e-05, 'epoch': 17.34}
+{'loss': 0.0092, 'grad_norm': 0.42348232865333557, 'learning_rate': 2.8191e-05, 'epoch': 17.34}
+{'loss': 0.0156, 'grad_norm': 0.7069520354270935, 'learning_rate': 2.8194e-05, 'epoch': 17.35}
+{'loss': 0.0219, 'grad_norm': 0.6102639436721802, 'learning_rate': 2.8196999999999998e-05, 'epoch': 17.35}
+{'loss': 0.0192, 'grad_norm': 0.5276309251785278, 'learning_rate': 2.8199999999999998e-05, 'epoch': 17.35}
+{'loss': 0.0119, 'grad_norm': 0.24854065477848053, 'learning_rate': 2.8203e-05, 'epoch': 17.35}
+{'loss': 0.0199, 'grad_norm': 0.7557331919670105, 'learning_rate': 2.8206e-05, 'epoch': 17.35}
+{'loss': 0.0141, 'grad_norm': 0.5607580542564392, 'learning_rate': 2.8209e-05, 'epoch': 17.35}
+{'loss': 0.0179, 'grad_norm': 0.6083971858024597, 'learning_rate': 2.8212e-05, 'epoch': 17.36}
+{'loss': 0.0138, 'grad_norm': 0.517368733882904, 'learning_rate': 2.8215e-05, 'epoch': 17.36}
+{'loss': 0.0079, 'grad_norm': 0.20876462757587433, 'learning_rate': 2.8218e-05, 'epoch': 17.36}
+{'loss': 0.0075, 'grad_norm': 0.28480789065361023, 'learning_rate': 2.8221e-05, 'epoch': 17.36}
+{'loss': 0.0121, 'grad_norm': 0.3195708692073822, 'learning_rate': 2.8224e-05, 'epoch': 17.36}
+{'loss': 0.0279, 'grad_norm': 0.6342963576316833, 'learning_rate': 2.8227e-05, 'epoch': 17.37}
+{'loss': 0.0132, 'grad_norm': 0.44565221667289734, 'learning_rate': 2.823e-05, 'epoch': 17.37}
+{'loss': 0.031, 'grad_norm': 1.350311517715454, 'learning_rate': 2.8233000000000002e-05, 'epoch': 17.37}
+{'loss': 0.2402, 'grad_norm': 0.8127965331077576, 'learning_rate': 2.8236000000000002e-05, 'epoch': 17.37}
+{'loss': 0.2571, 'grad_norm': 0.6130790710449219, 'learning_rate': 2.8239000000000002e-05, 'epoch': 17.37}
+{'loss': 0.1271, 'grad_norm': 0.7279358506202698, 'learning_rate': 2.8242e-05, 'epoch': 17.37}
+{'loss': 0.112, 'grad_norm': 0.730381429195404, 'learning_rate': 2.8245e-05, 'epoch': 17.38}
+{'loss': 0.092, 'grad_norm': 0.5133957266807556, 'learning_rate': 2.8248e-05, 'epoch': 17.38}
+{'loss': 0.1239, 'grad_norm': 0.6243531107902527, 'learning_rate': 2.8251e-05, 'epoch': 17.38}
+{'loss': 0.0683, 'grad_norm': 0.536197304725647, 'learning_rate': 2.8254e-05, 'epoch': 17.38}
+{'loss': 0.061, 'grad_norm': 0.5808553099632263, 'learning_rate': 2.8257e-05, 'epoch': 17.38}
+{'loss': 0.087, 'grad_norm': 0.5259320139884949, 'learning_rate': 2.826e-05, 'epoch': 17.39}
+{'loss': 0.049, 'grad_norm': 0.3729979991912842, 'learning_rate': 2.8263000000000004e-05, 'epoch': 17.39}
+{'loss': 0.0563, 'grad_norm': 0.4005459249019623, 'learning_rate': 2.8266000000000003e-05, 'epoch': 17.39}
+{'loss': 0.0378, 'grad_norm': 0.8215917348861694, 'learning_rate': 2.8269e-05, 'epoch': 17.39}
+{'loss': 0.1099, 'grad_norm': 1.047788381576538, 'learning_rate': 2.8272e-05, 'epoch': 17.39}
+{'loss': 0.0354, 'grad_norm': 0.41913044452667236, 'learning_rate': 2.8275e-05, 'epoch': 17.4}
+{'loss': 0.0308, 'grad_norm': 0.29535073041915894, 'learning_rate': 2.8278e-05, 'epoch': 17.4}
+{'loss': 0.0184, 'grad_norm': 0.43361786007881165, 'learning_rate': 2.8281e-05, 'epoch': 17.4}
+{'loss': 0.0098, 'grad_norm': 0.2104760706424713, 'learning_rate': 2.8284e-05, 'epoch': 17.4}
+{'loss': 0.0366, 'grad_norm': 0.640812337398529, 'learning_rate': 2.8287e-05, 'epoch': 17.4}
+{'loss': 0.0237, 'grad_norm': 0.6072062253952026, 'learning_rate': 2.829e-05, 'epoch': 17.4}
+{'loss': 0.0106, 'grad_norm': 0.22999133169651031, 'learning_rate': 2.8293e-05, 'epoch': 17.41}
+{'loss': 0.0168, 'grad_norm': 0.360470712184906, 'learning_rate': 2.8296e-05, 'epoch': 17.41}
+{'loss': 0.0184, 'grad_norm': 0.22122471034526825, 'learning_rate': 2.8299e-05, 'epoch': 17.41}
+{'loss': 0.0137, 'grad_norm': 0.23513934016227722, 'learning_rate': 2.8302e-05, 'epoch': 17.41}
+{'loss': 0.0186, 'grad_norm': 0.4968354403972626, 'learning_rate': 2.8305e-05, 'epoch': 17.41}
+{'loss': 0.0163, 'grad_norm': 0.4751613438129425, 'learning_rate': 2.8308e-05, 'epoch': 17.42}
+{'loss': 0.0131, 'grad_norm': 0.3601779043674469, 'learning_rate': 2.8311e-05, 'epoch': 17.42}
+{'loss': 0.0195, 'grad_norm': 1.2434005737304688, 'learning_rate': 2.8314e-05, 'epoch': 17.42}
+{'loss': 0.0097, 'grad_norm': 0.6260395646095276, 'learning_rate': 2.8317e-05, 'epoch': 17.42}
+{'loss': 0.0171, 'grad_norm': 0.3804498612880707, 'learning_rate': 2.832e-05, 'epoch': 17.42}
+{'loss': 0.0204, 'grad_norm': 0.6318892240524292, 'learning_rate': 2.8323000000000003e-05, 'epoch': 17.42}
+{'loss': 0.0147, 'grad_norm': 0.48028627038002014, 'learning_rate': 2.8326000000000003e-05, 'epoch': 17.43}
+{'loss': 0.0088, 'grad_norm': 0.19748181104660034, 'learning_rate': 2.8329000000000003e-05, 'epoch': 17.43}
+{'loss': 0.0116, 'grad_norm': 0.23807014524936676, 'learning_rate': 2.8332000000000002e-05, 'epoch': 17.43}
+{'loss': 0.0096, 'grad_norm': 0.4963562786579132, 'learning_rate': 2.8335000000000002e-05, 'epoch': 17.43}
+{'loss': 0.0139, 'grad_norm': 0.5319734811782837, 'learning_rate': 2.8338000000000002e-05, 'epoch': 17.43}
+{'loss': 0.0092, 'grad_norm': 0.3593072295188904, 'learning_rate': 2.8341000000000002e-05, 'epoch': 17.44}
+{'loss': 0.0127, 'grad_norm': 0.40505778789520264, 'learning_rate': 2.8344e-05, 'epoch': 17.44}
+{'loss': 0.0099, 'grad_norm': 0.321172297000885, 'learning_rate': 2.8346999999999998e-05, 'epoch': 17.44}
+{'loss': 0.0113, 'grad_norm': 0.26844117045402527, 'learning_rate': 2.8349999999999998e-05, 'epoch': 17.44}
+{'loss': 0.0162, 'grad_norm': 0.40463778376579285, 'learning_rate': 2.8353e-05, 'epoch': 17.44}
+{'loss': 0.0275, 'grad_norm': 0.5917307734489441, 'learning_rate': 2.8356e-05, 'epoch': 17.45}
+{'loss': 0.0157, 'grad_norm': 0.5759962201118469, 'learning_rate': 2.8359e-05, 'epoch': 17.45}
+{'loss': 0.0129, 'grad_norm': 0.252387672662735, 'learning_rate': 2.8362e-05, 'epoch': 17.45}
+{'loss': 0.0172, 'grad_norm': 0.5068285465240479, 'learning_rate': 2.8365e-05, 'epoch': 17.45}
+{'loss': 0.016, 'grad_norm': 0.2979760468006134, 'learning_rate': 2.8368e-05, 'epoch': 17.45}
+{'loss': 0.0218, 'grad_norm': 0.557605504989624, 'learning_rate': 2.8371e-05, 'epoch': 17.45}
+{'loss': 0.0126, 'grad_norm': 0.6038251519203186, 'learning_rate': 2.8374e-05, 'epoch': 17.46}
+{'loss': 0.0425, 'grad_norm': 1.0946751832962036, 'learning_rate': 2.8377e-05, 'epoch': 17.46}
+  9%|▉         | 9463/100000 [5:10:34<24:35:04,  1.02it/s]  9%|▉         | 9464/100000 [5:10:34<23:41:17,  1.06it/s]                                                            9%|▉         | 9464/100000 [5:10:34<23:41:17,  1.06it/s]  9%|▉         | 9465/100000 [5:10:44<91:29:34,  3.64s/it]                                                            9%|▉         | 9465/100000 [5:10:44<91:29:34,  3.64s/it]  9%|▉         | 9466/100000 [5:10:50<108:00:15,  4.29s/it]                                                             9%|▉         | 9466/100000 [5:10:50<108:00:15,  4.29s/it]  9%|▉         | 9467/100000 [5:10:55<110:59:00,  4.41s/it]                                                             9%|▉         | 9467/100000 [5:10:55<110:59:00,  4.41s/it]  9%|▉         | 9468/100000 [5:10:59<108:02:28,  4.30s/it]                                                             9%|▉         | 9468/100000 [5:10:59<108:02:28,  4.30s/it]  9%|▉         | 9469/100000 [5:11:03<102:47:00,  4.09s/it]                                                             9%|▉         | 9469/100000 [5:11:03<102:47:00,  4.09s/it]  9%|▉         | 9470/100000 [5:11:06<96:19:07,  3.83s/it]                                                             9%|▉         | 9470/100000 [5:11:06<96:19:07,  3.83s/it]  9%|▉         | 9471/100000 [5:11:09<89:42:47,  3.57s/it]                                                            9%|▉         | 9471/100000 [5:11:09<89:42:47,  3.57s/it]  9%|▉         | 9472/100000 [5:11:11<82:55:54,  3.30s/it]                                                            9%|▉         | 9472/100000 [5:11:11<82:55:54,  3.30s/it]  9%|▉         | 9473/100000 [5:11:14<76:23:17,  3.04s/it]                                                            9%|▉         | 9473/100000 [5:11:14<76:23:17,  3.04s/it]  9%|▉         | 9474/100000 [5:11:16<70:47:50,  2.82s/it]                                                            9%|▉         | 9474/100000 [5:11:16<70:47:50,  2.82s/it]  9%|▉         | 9475/100000 [5:11:18<65:28:48,  2.60s/it]                                                            9%|▉         | 9475/100000 [5:11:18<65:28:48,  2.60s/it]  9%|▉         | 9476/100000 [5:11:20<60:23:34,  2.40s/it]                                                            9%|▉         | 9476/100000 [5:11:20<60:23:34,  2.40s/it]  9%|▉         | 9477/100000 [5:11:22<56:18:07,  2.24s/it]                                                            9%|▉         | 9477/100000 [5:11:22<56:18:07,  2.24s/it]  9%|▉         | 9478/100000 [5:11:24<52:46:29,  2.10s/it]                                                            9%|▉         | 9478/100000 [5:11:24<52:46:29,  2.10s/it]  9%|▉         | 9479/100000 [5:11:25<49:48:51,  1.98s/it]                                                            9%|▉         | 9479/100000 [5:11:26<49:48:51,  1.98s/it]  9%|▉         | 9480/100000 [5:11:27<47:22:15,  1.88s/it]                                                            9%|▉         | 9480/100000 [5:11:27<47:22:15,  1.88s/it]  9%|▉         | 9481/100000 [5:11:29<45:17:44,  1.80s/it]                                                            9%|▉         | 9481/100000 [5:11:29<45:17:44,  1.80s/it]  9%|▉         | 9482/100000 [5:11:30<43:14:05,  1.72s/it]                                                            9%|▉         | 9482/100000 [5:11:30<43:14:05,  1.72s/it]  9%|▉         | 9483/100000 [5:11:32<41:48:02,  1.66s/it]                                                            9%|▉         | 9483/100000 [5:11:32<41:48:02,  1.66s/it]  9%|▉         | 9484/100000 [5:11:33<40:18:17,  1.60s/it]                                                            9%|▉         | 9484/100000 [5:11:33<40:18:17,  1.60s/it]  9%|▉         | 9485/100000 [5:11:35<39:05:28,  1.55s/it]                                                            9%|▉         | 9485/100000 [5:11:35<39:05:28,  1.55s/it]  9%|▉         | 9486/100000 [5:11:36<37:52:06,  1.51s/it]                                                            9%|▉         | 9486/100000 [5:11:36<37:52:06,  1.51s/it]  9%|▉         | 9487/100000 [5:11:38<37:09:57,  1.48s/it]                                                            9%|▉         | 9487/100000 [5:11:38<37:09:57,  1.48s/it]  9%|▉         | 9488/100000 [5:11:39<36:15:15,  1.44s/it]                                                            9%|▉         | 9488/100000 [5:11:39<36:15:15,  1.44s/it]  9%|▉         | 9489/100000 [5:11:40<35:41:49,  1.42s/it]                                                            9%|▉         | 9489/100000 [5:11:40<35:41:49,  1.42s/it]  9%|▉         | 9490/100000 [5:11:42<35:10:25,  1.40s/it]                                                            9%|▉         | 9490/100000 [5:11:42<35:10:25,  1.40s/it]  9%|▉         | 9491/100000 [5:11:43<34:38:25,  1.38s/it]                                                            9%|▉         | 9491/100000 [5:11:43<34:38:25,  1.38s/it]  9%|▉         | 9492/100000 [5:11:44<34:03:16,  1.35s/it]                                                            9%|▉         | 9492/100000 [5:11:44<34:03:16,  1.35s/it]  9%|▉         | 9493/100000 [5:11:46<33:24:22,  1.33s/it]                                                            9%|▉         | 9493/100000 [5:11:46<33:24:22,  1.33s/it]  9%|▉         | 9494/100000 [5:11:47<33:05:05,  1.32s/it]                                                            9%|▉         | 9494/100000 [5:11:47<33:05:05,  1.32s/it]  9%|▉         | 9495/100000 [5:11:48<32:34:39,  1.30s/it]                                                            9%|▉         | 9495/100000 [5:11:48<32:34:39,  1.30s/it]  9%|▉         | 9496/100000 [5:11:49<32:07:54,  1.28s/it]                                                            9%|▉         | 9496/100000 [5:11:49<32:07:54,  1.28s/it]  9%|▉         | 9497/100000 [5:11:50<31:42:01,  1.26s/it]                                                            9%|▉         | 9497/100000 [5:11:50<31:42:01,  1.26s/it]  9%|▉         | 9498/100000 [5:11:52<30:47:10,  1.22s/it]                                                            9%|▉         | 9498/100000 [5:11:52<30:47:10,  1.22s/it]  9%|▉         | 9499/100000 [5:11:53<30:26:26,  1.21s/it]                                                            9%|▉         | 9499/100000 [5:11:53<30:26:26,  1.21s/it] 10%|▉         | 9500/100000 [5:11:54<29:54:05,  1.19s/it]                                                           10%|▉         | 9500/100000 [5:11:54<29:54:05,  1.19s/it] 10%|▉         | 9501/100000 [5:11:55<29:21:11,  1.17s/it]                                                           10%|▉         | 9501/100000 [5:11:55<29:21:11,  1.17s/it] 10%|▉         | 9502/100000 [5:11:56<29:05:12,  1.16s/it]                                                           10%|▉         | 9502/100000 [5:11:56<29:05:12,  1.16s/it] 10%|▉         | 9503/100000 [5:11:57<28:48:18,  1.15s/it]                                                           10%|▉         | 9503/100000 [5:11:57<28:48:18,  1.15s/it] 10%|▉         | 9504/100000 [5:11:58<28:15:44,  1.12s/it]                                                           10%|▉         | 9504/100000 [5:11:58<28:15:44,  1.12s/it] 10%|▉         | 9505/100000 [5:11:59<27:50:11,  1.11s/it]                                                           10%|▉         | 9505/100000 [5:11:59<27:50:11,  1.11s/it] 10%|▉         | 9506/100000 [5:12:01<27:26:50,  1.09s/it]                                                           10%|▉         | 9506/100000 [5:12:01<27:26:50,  1.09s/it] 10%|▉         | 9507/100000 [5:12:02<27:09:27,  1.08s/it]                                                           10%|▉         | 9507/100000 [5:12:02<27:09:27,  1.08s/it] 10%|▉         | 9508/100000 [5:12:03<26:47:42,  1.07s/it]                                                           10%|▉         | 9508/100000 [5:12:03<26:47:42,  1.07s/it] 10%|▉         | 9509/100000 [5:12:04<26:26:46,  1.05s/it]                                                           10%|▉         | 9509/100000 [5:12:04<26:26:46,  1.05s/it] 10%|▉         | 9510/100000 [5:12:05<26:00:46,  1.03s/it]                                                           10%|▉         | 9510/100000 [5:12:05<26:00:46,  1.03s/it] 10%|▉         | 9511/100000 [5:12:06<25:36:45,  1.02s/it]                                                           10%|▉         | 9511/100000 [5:12:06<25:36:45,  1.02s/it] 10%|▉         | 9512/100000 [5:12:07<25:19:47,  1.01s/it]                                                           10%|▉         | 9512/100000 [5:12:07<25:19:47,  1.01s/it] 10%|▉         | 9513/100000 [5:12:08<24:48:44,  1.01it/s]                                                           10%|▉         | 9513/100000 [5:12:08<24:48:44,  1.01it/s] 10%|▉         | 9514/100000 [5:12:08<24:14:34,  1.04it/s]                                                           10%|▉         | 9514/100000 [5:12:08<24:14:34,  1.04it/s] 10%|▉         | 9515/100000 [5:12:21<111:02:11,  4.42s/it]                                                            10%|▉         | 9515/100000 [5:12:21<111:02:11,  4.42s/it] 10%|▉         | 9516/100000 [5:12:27<120:05:04,  4.78s/it]                                                            10%|▉         | 9516/100000 [5:12:27<120:05:04,  4.78s/it] 10%|▉         | 9517/100000 [5:12:31<118:40:29,  4.72s/it]                                                            10%|▉         | 9517/100000 [5:12:31<118:40:29,  4.72s/it] 10%|▉         | 9518/100000 [5:12:35<113:08:36,  4.50s/it]                                                            10%|▉         | 9518/100000 [5:12:35<113:08:36,  4.50s/it] 10%|▉         | 9519/100000 [5:12:39<105:21:10,  4.19s/it]                                                            10%|▉         | 9519/100000 [5:12:39<105:21:10,  4.19s/it] 10%|▉         | 9520/100000 [5:12:42<97:47:36,  3.89s/it]                                                            10%|▉         | 9520/100000 [5:12:42<97:47:36,  3.89s/it] 10%|▉         | 9521/100000 [5:12:45<90:15:58,  3.59s/it]                                                           10%|▉         | 9521/100000 [5:12:45<90:15:58,  3.59s/it] 10%|▉         | 9522/100000 [5:12:47<83:18:39,  3.31s/it]                                                           10%|▉         | 9522/100000 [5:12:47<83:18:39,  3.31s/it] 10%|▉         | 9523/100000 [5:12:50<76:33:42,  3.05s/it]                                                           10%|▉         | 9523/100000 [5:12:50<76:33:42,  3.05s/it] 10%|▉         | 9524/100000 [5:12:52<70:31:04,  2.81s/it]                                                           10%|▉         | 9524/100000 [5:12:52<70:31:04,  2.81s/it] 10%|▉         | 9525/100000 [5:12:54<65:11:06,  2.59s/it]                                                           10%|▉         | 9525/100000 [5:12:54<65:11:06,  2.59s/it] 10%|▉         | 9526/100000 [5:12:56<60:54:10,  2.42s/it]                                                           10%|▉         | 9526/100000 [5:12:56<60:54:10,  2.42s/it] 10%|▉         | 9527/100000 [5:12:58<57:16:58,  2.28s/it]                                                           10%|▉         | 9527/100000 [5:12:58<57:16:58,  2.28s/it] 10%|▉         | 9528/100000 [5:13:00<53:20:47,  2.12s/it]                                                           10%|▉         | 9528/100000 [5:13:00<53:20:47,  2.12s/it] 10%|▉         | 9529/100000 [5:13:02<50:28:47,  2.01s/it]                                                           10%|▉         | 9529/100000 [5:13:02<50:28:47,  2.01s/it] 10%|▉         | 9530/100000 [5:13:03<47:41:14,  1.90s/it]                                                           10%|▉         | 9530/100000 [5:13:03<47:41:14,  1.90s/it] 10%|▉         | 9531/100000 [5:13:05<45:35:46,  1.81s/it]                                                           10%|▉         | 9531/100000 [5:13:05<45:35:46,  1.81s/it] 10%|▉         | 9532/100000 [5:13:06<43:43:53,  1.74s/it]                                                           10%|▉         | 9532/100000 [5:13:06<43:43:53,  1.74s/it] 10%|▉         | 9533/100000 [5:13:08<41:37:56,  1.66s/it]                                                           10%|▉         | 9533/100000 [5:13:08<41:37:56,  1.66s/it] 10%|▉         | 9534/100000 [5:13:09<39:58:37,  1.59s/it]                                                           10%|▉         | 9534/100000 [5:13:09<39:58:37,  1.59s/it] 10%|▉         | 9535/100000 [5:13:11<38:56:19,  1.55s/it]                                                           10%|▉         | 9535/100000 [5:13:11<38:56:19,  1.55s/it] 10%|▉         | 9536/100000 [5:13:12<37:58:53,  1.51s/it]                                                           10%|▉         | 9536/100000 [5:13:12<37:58:53,  1.51s/it] 10%|▉         | 9537/100000 [5:13:14<37:09:40,  1.48s/it]                                                           10%|▉         | 9537/100000 [5:13:14<37:09:40,  1.48s/it] 10%|▉         | 9538/100000 [5:13:15<36:34:02,  1.46s/it]                                                           10%|▉         | 9538/100000 [5:13:15<36:34:02,  1.46s/it] 10%|▉         | 9539/100000 [5:13:16<35:54:02,  1.43s/it]                                                           10%|▉         | 9539/100000 [5:13:16<35:54:02,  1.43s/it] 10%|▉         | 9540/100000 [5:13:18<35:18:59,  1.41s/it]                                                           10%|▉         | 9540/100000 [5:13:18<35:18:59,  1.41s/it] 10%|▉         | 9541/100000 [5:13:19<34:41:12,  1.38s/it]                                                           10%|▉         | 9541/100000 [5:13:19<34:41:12,  1.38s/it] 10%|▉         | 9542/100000 [5:13:20<34:10:48,  1.36s/it]                                                           10%|▉         | 9542/100000 [5:13:20<34:10:48,  1.36s/it] 10%|▉         | 9543/100000 [5:13:22<33:31:38,  1.33s/it]                                                           10%|▉         | 9543/100000 [5:13:22<33:31:38,  1.33s/it] 10%|▉         | 9544/100000 [5:13:23<33:14:40,  1.32s/it]                                                           10%|▉         | 9544/100000 [5:13:23<33:14:40,  1.32s/it] 10%|▉         | 9545/100000 [5:13:24<32:46:53,  1.30s/it]                                                           10%|▉         | 9545/100000 [5:13:24<32:46:53,  1.30s/it] 10%|▉         | 9546/100000 [5:13:25<32:07:43,  1.28s/it]                                                          {'loss': 0.0178, 'grad_norm': 0.39458906650543213, 'learning_rate': 2.838e-05, 'epoch': 17.46}
+{'loss': 0.0131, 'grad_norm': 0.388188898563385, 'learning_rate': 2.8383000000000003e-05, 'epoch': 17.46}
+{'loss': 0.2015, 'grad_norm': 1.3474907875061035, 'learning_rate': 2.8386000000000002e-05, 'epoch': 17.46}
+{'loss': 0.1534, 'grad_norm': 0.6771953105926514, 'learning_rate': 2.8389000000000002e-05, 'epoch': 17.47}
+{'loss': 0.144, 'grad_norm': 0.586620032787323, 'learning_rate': 2.8392000000000002e-05, 'epoch': 17.47}
+{'loss': 0.1074, 'grad_norm': 0.5955852270126343, 'learning_rate': 2.8395000000000002e-05, 'epoch': 17.47}
+{'loss': 0.0898, 'grad_norm': 0.7881993055343628, 'learning_rate': 2.8398e-05, 'epoch': 17.47}
+{'loss': 0.0669, 'grad_norm': 0.502046525478363, 'learning_rate': 2.8401e-05, 'epoch': 17.47}
+{'loss': 0.079, 'grad_norm': 0.42128366231918335, 'learning_rate': 2.8404e-05, 'epoch': 17.47}
+{'loss': 0.0523, 'grad_norm': 0.5567536354064941, 'learning_rate': 2.8407e-05, 'epoch': 17.48}
+{'loss': 0.0686, 'grad_norm': 0.5962188839912415, 'learning_rate': 2.841e-05, 'epoch': 17.48}
+{'loss': 0.08, 'grad_norm': 0.5559502840042114, 'learning_rate': 2.8413000000000004e-05, 'epoch': 17.48}
+{'loss': 0.0555, 'grad_norm': 0.5045327544212341, 'learning_rate': 2.8416e-05, 'epoch': 17.48}
+{'loss': 0.0283, 'grad_norm': 0.9575005173683167, 'learning_rate': 2.8419e-05, 'epoch': 17.48}
+{'loss': 0.0452, 'grad_norm': 0.6482095718383789, 'learning_rate': 2.8422e-05, 'epoch': 17.49}
+{'loss': 0.0209, 'grad_norm': 0.3243868350982666, 'learning_rate': 2.8425e-05, 'epoch': 17.49}
+{'loss': 0.0162, 'grad_norm': 0.32968437671661377, 'learning_rate': 2.8428e-05, 'epoch': 17.49}
+{'loss': 0.0213, 'grad_norm': 0.4083661437034607, 'learning_rate': 2.8431e-05, 'epoch': 17.49}
+{'loss': 0.0141, 'grad_norm': 0.3611833453178406, 'learning_rate': 2.8434e-05, 'epoch': 17.49}
+{'loss': 0.018, 'grad_norm': 0.3172003924846649, 'learning_rate': 2.8437e-05, 'epoch': 17.49}
+{'loss': 0.0171, 'grad_norm': 0.25099191069602966, 'learning_rate': 2.844e-05, 'epoch': 17.5}
+{'loss': 0.042, 'grad_norm': 0.417826384305954, 'learning_rate': 2.8443000000000002e-05, 'epoch': 17.5}
+{'loss': 0.0366, 'grad_norm': 0.5361323356628418, 'learning_rate': 2.8446000000000002e-05, 'epoch': 17.5}
+{'loss': 0.0089, 'grad_norm': 0.2949165999889374, 'learning_rate': 2.8449e-05, 'epoch': 17.5}
+{'loss': 0.0176, 'grad_norm': 0.434059739112854, 'learning_rate': 2.8452e-05, 'epoch': 17.5}
+{'loss': 0.0235, 'grad_norm': 0.3568911850452423, 'learning_rate': 2.8455e-05, 'epoch': 17.51}
+{'loss': 0.0091, 'grad_norm': 0.4586827754974365, 'learning_rate': 2.8458e-05, 'epoch': 17.51}
+{'loss': 0.03, 'grad_norm': 0.38927754759788513, 'learning_rate': 2.8461e-05, 'epoch': 17.51}
+{'loss': 0.0111, 'grad_norm': 0.27216121554374695, 'learning_rate': 2.8464e-05, 'epoch': 17.51}
+{'loss': 0.0134, 'grad_norm': 0.3073829710483551, 'learning_rate': 2.8467e-05, 'epoch': 17.51}
+{'loss': 0.0128, 'grad_norm': 0.3827543556690216, 'learning_rate': 2.847e-05, 'epoch': 17.52}
+{'loss': 0.012, 'grad_norm': 0.3475456237792969, 'learning_rate': 2.8473000000000003e-05, 'epoch': 17.52}
+{'loss': 0.0063, 'grad_norm': 0.21921490132808685, 'learning_rate': 2.8476000000000003e-05, 'epoch': 17.52}
+{'loss': 0.0162, 'grad_norm': 0.5031759738922119, 'learning_rate': 2.8479000000000003e-05, 'epoch': 17.52}
+{'loss': 0.0096, 'grad_norm': 0.3823947310447693, 'learning_rate': 2.8482000000000003e-05, 'epoch': 17.52}
+{'loss': 0.0133, 'grad_norm': 0.3628939688205719, 'learning_rate': 2.8485000000000003e-05, 'epoch': 17.52}
+{'loss': 0.0157, 'grad_norm': 0.5429162383079529, 'learning_rate': 2.8488000000000002e-05, 'epoch': 17.53}
+{'loss': 0.0076, 'grad_norm': 0.27803874015808105, 'learning_rate': 2.8491e-05, 'epoch': 17.53}
+{'loss': 0.0097, 'grad_norm': 0.4344504773616791, 'learning_rate': 2.8494e-05, 'epoch': 17.53}
+{'loss': 0.0138, 'grad_norm': 0.2885424494743347, 'learning_rate': 2.8497e-05, 'epoch': 17.53}
+{'loss': 0.0264, 'grad_norm': 0.6529332399368286, 'learning_rate': 2.8499999999999998e-05, 'epoch': 17.53}
+{'loss': 0.014, 'grad_norm': 1.1576621532440186, 'learning_rate': 2.8502999999999998e-05, 'epoch': 17.54}
+{'loss': 0.0119, 'grad_norm': 0.26482293009757996, 'learning_rate': 2.8506e-05, 'epoch': 17.54}
+{'loss': 0.0078, 'grad_norm': 0.21488991379737854, 'learning_rate': 2.8509e-05, 'epoch': 17.54}
+{'loss': 0.0124, 'grad_norm': 0.6642892360687256, 'learning_rate': 2.8512e-05, 'epoch': 17.54}
+{'loss': 0.0181, 'grad_norm': 0.669625461101532, 'learning_rate': 2.8515e-05, 'epoch': 17.54}
+{'loss': 0.0132, 'grad_norm': 0.5279157161712646, 'learning_rate': 2.8518e-05, 'epoch': 17.54}
+{'loss': 0.0156, 'grad_norm': 0.320911705493927, 'learning_rate': 2.8521e-05, 'epoch': 17.55}
+{'loss': 0.0176, 'grad_norm': 0.6547080278396606, 'learning_rate': 2.8524e-05, 'epoch': 17.55}
+{'loss': 0.0144, 'grad_norm': 0.2697703242301941, 'learning_rate': 2.8527e-05, 'epoch': 17.55}
+{'loss': 0.0069, 'grad_norm': 0.33988258242607117, 'learning_rate': 2.853e-05, 'epoch': 17.55}
+{'loss': 0.0201, 'grad_norm': 0.9230872392654419, 'learning_rate': 2.8533e-05, 'epoch': 17.55}
+{'loss': 0.1457, 'grad_norm': 0.6196572780609131, 'learning_rate': 2.8536000000000003e-05, 'epoch': 17.56}
+{'loss': 0.1609, 'grad_norm': 0.86606365442276, 'learning_rate': 2.8539000000000002e-05, 'epoch': 17.56}
+{'loss': 0.1303, 'grad_norm': 0.7880556583404541, 'learning_rate': 2.8542000000000002e-05, 'epoch': 17.56}
+{'loss': 0.0967, 'grad_norm': 0.5721180438995361, 'learning_rate': 2.8545000000000002e-05, 'epoch': 17.56}
+{'loss': 0.1203, 'grad_norm': 0.5649641752243042, 'learning_rate': 2.8548000000000002e-05, 'epoch': 17.56}
+{'loss': 0.0973, 'grad_norm': 0.49527832865715027, 'learning_rate': 2.8551e-05, 'epoch': 17.57}
+{'loss': 0.0727, 'grad_norm': 0.4757789373397827, 'learning_rate': 2.8554e-05, 'epoch': 17.57}
+{'loss': 0.106, 'grad_norm': 0.4874994456768036, 'learning_rate': 2.8557e-05, 'epoch': 17.57}
+{'loss': 0.0565, 'grad_norm': 0.76370769739151, 'learning_rate': 2.856e-05, 'epoch': 17.57}
+{'loss': 0.0506, 'grad_norm': 0.6513908505439758, 'learning_rate': 2.8563e-05, 'epoch': 17.57}
+{'loss': 0.0472, 'grad_norm': 0.4472300410270691, 'learning_rate': 2.8566e-05, 'epoch': 17.57}
+{'loss': 0.0625, 'grad_norm': 0.5632028579711914, 'learning_rate': 2.8569e-05, 'epoch': 17.58}
+{'loss': 0.0989, 'grad_norm': 0.5988933444023132, 'learning_rate': 2.8572e-05, 'epoch': 17.58}
+{'loss': 0.0573, 'grad_norm': 0.8819764256477356, 'learning_rate': 2.8575e-05, 'epoch': 17.58}
+{'loss': 0.038, 'grad_norm': 0.9006199836730957, 'learning_rate': 2.8578e-05, 'epoch': 17.58}
+{'loss': 0.0131, 'grad_norm': 0.674299955368042, 'learning_rate': 2.8581e-05, 'epoch': 17.58}
+{'loss': 0.02, 'grad_norm': 0.38229405879974365, 'learning_rate': 2.8584e-05, 'epoch': 17.59}
+{'loss': 0.0299, 'grad_norm': 1.4004647731781006, 'learning_rate': 2.8587e-05, 'epoch': 17.59}
+{'loss': 0.0347, 'grad_norm': 0.3553142547607422, 'learning_rate': 2.859e-05, 'epoch': 17.59}
+{'loss': 0.0148, 'grad_norm': 0.2724413573741913, 'learning_rate': 2.8593e-05, 'epoch': 17.59}
+{'loss': 0.0416, 'grad_norm': 0.7119773626327515, 'learning_rate': 2.8596000000000002e-05, 'epoch': 17.59}
+{'loss': 0.0197, 'grad_norm': 0.44424229860305786, 'learning_rate': 2.8599000000000002e-05, 'epoch': 17.59}
+{'loss': 0.009, 'grad_norm': 0.2880791425704956, 'learning_rate': 2.8602e-05, 'epoch': 17.6}
+{'loss': 0.0145, 'grad_norm': 0.3062593936920166, 'learning_rate': 2.8605e-05, 'epoch': 17.6}
+{'loss': 0.0128, 'grad_norm': 0.31058281660079956, 'learning_rate': 2.8608e-05, 'epoch': 17.6}
+{'loss': 0.0419, 'grad_norm': 0.4950855076313019, 'learning_rate': 2.8611e-05, 'epoch': 17.6}
+{'loss': 0.0425, 'grad_norm': 0.16567905247211456, 'learning_rate': 2.8614e-05, 'epoch': 17.6}
+{'loss': 0.0199, 'grad_norm': 0.3481304943561554, 'learning_rate': 2.8617e-05, 'epoch': 17.61}
+{'loss': 0.0083, 'grad_norm': 0.20209775865077972, 'learning_rate': 2.862e-05, 'epoch': 17.61}
+{'loss': 0.0081, 'grad_norm': 0.29109519720077515, 'learning_rate': 2.8623e-05, 'epoch': 17.61}
+{'loss': 0.0224, 'grad_norm': 0.47210419178009033, 'learning_rate': 2.8626000000000003e-05, 'epoch': 17.61}
+ 10%|▉         | 9546/100000 [5:13:25<32:07:43,  1.28s/it] 10%|▉         | 9547/100000 [5:13:27<31:43:02,  1.26s/it]                                                           10%|▉         | 9547/100000 [5:13:27<31:43:02,  1.26s/it] 10%|▉         | 9548/100000 [5:13:28<31:06:07,  1.24s/it]                                                           10%|▉         | 9548/100000 [5:13:28<31:06:07,  1.24s/it] 10%|▉         | 9549/100000 [5:13:29<30:34:44,  1.22s/it]                                                           10%|▉         | 9549/100000 [5:13:29<30:34:44,  1.22s/it] 10%|▉         | 9550/100000 [5:13:30<30:08:28,  1.20s/it]                                                           10%|▉         | 9550/100000 [5:13:30<30:08:28,  1.20s/it] 10%|▉         | 9551/100000 [5:13:31<29:44:38,  1.18s/it]                                                           10%|▉         | 9551/100000 [5:13:31<29:44:38,  1.18s/it] 10%|▉         | 9552/100000 [5:13:32<29:19:43,  1.17s/it]                                                           10%|▉         | 9552/100000 [5:13:32<29:19:43,  1.17s/it] 10%|▉         | 9553/100000 [5:13:33<28:52:05,  1.15s/it]                                                           10%|▉         | 9553/100000 [5:13:33<28:52:05,  1.15s/it] 10%|▉         | 9554/100000 [5:13:35<28:34:29,  1.14s/it]                                                           10%|▉         | 9554/100000 [5:13:35<28:34:29,  1.14s/it] 10%|▉         | 9555/100000 [5:13:36<28:17:19,  1.13s/it]                                                           10%|▉         | 9555/100000 [5:13:36<28:17:19,  1.13s/it] 10%|▉         | 9556/100000 [5:13:37<28:07:52,  1.12s/it]                                                           10%|▉         | 9556/100000 [5:13:37<28:07:52,  1.12s/it] 10%|▉         | 9557/100000 [5:13:38<27:41:26,  1.10s/it]                                                           10%|▉         | 9557/100000 [5:13:38<27:41:26,  1.10s/it] 10%|▉         | 9558/100000 [5:13:39<27:14:36,  1.08s/it]                                                           10%|▉         | 9558/100000 [5:13:39<27:14:36,  1.08s/it] 10%|▉         | 9559/100000 [5:13:40<26:42:52,  1.06s/it]                                                           10%|▉         | 9559/100000 [5:13:40<26:42:52,  1.06s/it] 10%|▉         | 9560/100000 [5:13:41<26:03:09,  1.04s/it]                                                           10%|▉         | 9560/100000 [5:13:41<26:03:09,  1.04s/it] 10%|▉         | 9561/100000 [5:13:42<25:31:23,  1.02s/it]                                                           10%|▉         | 9561/100000 [5:13:42<25:31:23,  1.02s/it] 10%|▉         | 9562/100000 [5:13:43<25:10:08,  1.00s/it]                                                           10%|▉         | 9562/100000 [5:13:43<25:10:08,  1.00s/it] 10%|▉         | 9563/100000 [5:13:44<24:28:19,  1.03it/s]                                                           10%|▉         | 9563/100000 [5:13:44<24:28:19,  1.03it/s] 10%|▉         | 9564/100000 [5:13:45<23:34:30,  1.07it/s]                                                           10%|▉         | 9564/100000 [5:13:45<23:34:30,  1.07it/s] 10%|▉         | 9565/100000 [5:13:56<102:47:29,  4.09s/it]                                                            10%|▉         | 9565/100000 [5:13:56<102:47:29,  4.09s/it] 10%|▉         | 9566/100000 [5:14:02<113:13:50,  4.51s/it]                                                            10%|▉         | 9566/100000 [5:14:02<113:13:50,  4.51s/it] 10%|▉         | 9567/100000 [5:14:06<112:55:58,  4.50s/it]                                                            10%|▉         | 9567/100000 [5:14:06<112:55:58,  4.50s/it] 10%|▉         | 9568/100000 [5:14:10<109:28:22,  4.36s/it]                                                            10%|▉         | 9568/100000 [5:14:10<109:28:22,  4.36s/it] 10%|▉         | 9569/100000 [5:14:14<102:55:41,  4.10s/it]                                                            10%|▉         | 9569/100000 [5:14:14<102:55:41,  4.10s/it] 10%|▉         | 9570/100000 [5:14:17<96:28:08,  3.84s/it]                                                            10%|▉         | 9570/100000 [5:14:17<96:28:08,  3.84s/it] 10%|▉         | 9571/100000 [5:14:20<90:21:12,  3.60s/it]                                                           10%|▉         | 9571/100000 [5:14:20<90:21:12,  3.60s/it] 10%|▉         | 9572/100000 [5:14:23<83:50:02,  3.34s/it]                                                           10%|▉         | 9572/100000 [5:14:23<83:50:02,  3.34s/it] 10%|▉         | 9573/100000 [5:14:25<77:25:14,  3.08s/it]                                                           10%|▉         | 9573/100000 [5:14:25<77:25:14,  3.08s/it] 10%|▉         | 9574/100000 [5:14:27<71:48:35,  2.86s/it]                                                           10%|▉         | 9574/100000 [5:14:27<71:48:35,  2.86s/it] 10%|▉         | 9575/100000 [5:14:30<66:40:54,  2.65s/it]                                                           10%|▉         | 9575/100000 [5:14:30<66:40:54,  2.65s/it] 10%|▉         | 9576/100000 [5:14:32<62:18:31,  2.48s/it]                                                           10%|▉         | 9576/100000 [5:14:32<62:18:31,  2.48s/it] 10%|▉         | 9577/100000 [5:14:34<58:16:17,  2.32s/it]                                                           10%|▉         | 9577/100000 [5:14:34<58:16:17,  2.32s/it] 10%|▉         | 9578/100000 [5:14:35<55:13:56,  2.20s/it]                                                           10%|▉         | 9578/100000 [5:14:35<55:13:56,  2.20s/it] 10%|▉         | 9579/100000 [5:14:37<51:49:13,  2.06s/it]                                                           10%|▉         | 9579/100000 [5:14:37<51:49:13,  2.06s/it] 10%|▉         | 9580/100000 [5:14:39<48:43:21,  1.94s/it]                                                           10%|▉         | 9580/100000 [5:14:39<48:43:21,  1.94s/it] 10%|▉         | 9581/100000 [5:14:40<46:26:21,  1.85s/it]                                                           10%|▉         | 9581/100000 [5:14:40<46:26:21,  1.85s/it] 10%|▉         | 9582/100000 [5:14:42<44:34:05,  1.77s/it]                                                           10%|▉         | 9582/100000 [5:14:42<44:34:05,  1.77s/it] 10%|▉         | 9583/100000 [5:14:44<43:05:55,  1.72s/it]                                                           10%|▉         | 9583/100000 [5:14:44<43:05:55,  1.72s/it] 10%|▉         | 9584/100000 [5:14:45<41:23:21,  1.65s/it]                                                           10%|▉         | 9584/100000 [5:14:45<41:23:21,  1.65s/it] 10%|▉         | 9585/100000 [5:14:47<39:44:29,  1.58s/it]                                                           10%|▉         | 9585/100000 [5:14:47<39:44:29,  1.58s/it] 10%|▉         | 9586/100000 [5:14:48<38:34:02,  1.54s/it]                                                           10%|▉         | 9586/100000 [5:14:48<38:34:02,  1.54s/it] 10%|▉         | 9587/100000 [5:14:49<37:41:31,  1.50s/it]                                                           10%|▉         | 9587/100000 [5:14:49<37:41:31,  1.50s/it] 10%|▉         | 9588/100000 [5:14:51<36:36:29,  1.46s/it]                                                           10%|▉         | 9588/100000 [5:14:51<36:36:29,  1.46s/it] 10%|▉         | 9589/100000 [5:14:52<35:46:04,  1.42s/it]                                                           10%|▉         | 9589/100000 [5:14:52<35:46:04,  1.42s/it] 10%|▉         | 9590/100000 [5:14:54<35:24:15,  1.41s/it]                                                           10%|▉         | 9590/100000 [5:14:54<35:24:15,  1.41s/it] 10%|▉         | 9591/100000 [5:14:55<34:49:49,  1.39s/it]                                                           10%|▉         | 9591/100000 [5:14:55<34:49:49,  1.39s/it] 10%|▉         | 9592/100000 [5:14:56<34:07:36,  1.36s/it]                                                           10%|▉         | 9592/100000 [5:14:56<34:07:36,  1.36s/it] 10%|▉         | 9593/100000 [5:14:57<33:44:58,  1.34s/it]                                                           10%|▉         | 9593/100000 [5:14:57<33:44:58,  1.34s/it] 10%|▉         | 9594/100000 [5:14:59<33:25:22,  1.33s/it]                                                           10%|▉         | 9594/100000 [5:14:59<33:25:22,  1.33s/it] 10%|▉         | 9595/100000 [5:15:00<32:59:42,  1.31s/it]                                                           10%|▉         | 9595/100000 [5:15:00<32:59:42,  1.31s/it] 10%|▉         | 9596/100000 [5:15:01<32:14:35,  1.28s/it]                                                           10%|▉         | 9596/100000 [5:15:01<32:14:35,  1.28s/it] 10%|▉         | 9597/100000 [5:15:02<31:51:27,  1.27s/it]                                                           10%|▉         | 9597/100000 [5:15:02<31:51:27,  1.27s/it] 10%|▉         | 9598/100000 [5:15:04<31:22:37,  1.25s/it]                                                           10%|▉         | 9598/100000 [5:15:04<31:22:37,  1.25s/it] 10%|▉         | 9599/100000 [5:15:05<30:26:53,  1.21s/it]                                                           10%|▉         | 9599/100000 [5:15:05<30:26:53,  1.21s/it] 10%|▉         | 9600/100000 [5:15:06<30:04:31,  1.20s/it]                                                           10%|▉         | 9600/100000 [5:15:06<30:04:31,  1.20s/it] 10%|▉         | 9601/100000 [5:15:07<29:32:49,  1.18s/it]                                                           10%|▉         | 9601/100000 [5:15:07<29:32:49,  1.18s/it] 10%|▉         | 9602/100000 [5:15:08<29:13:50,  1.16s/it]                                                           10%|▉         | 9602/100000 [5:15:08<29:13:50,  1.16s/it] 10%|▉         | 9603/100000 [5:15:09<28:36:13,  1.14s/it]                                                           10%|▉         | 9603/100000 [5:15:09<28:36:13,  1.14s/it] 10%|▉         | 9604/100000 [5:15:10<28:19:58,  1.13s/it]                                                           10%|▉         | 9604/100000 [5:15:10<28:19:58,  1.13s/it] 10%|▉         | 9605/100000 [5:15:11<27:55:18,  1.11s/it]                                                           10%|▉         | 9605/100000 [5:15:11<27:55:18,  1.11s/it] 10%|▉         | 9606/100000 [5:15:13<27:39:40,  1.10s/it]                                                           10%|▉         | 9606/100000 [5:15:13<27:39:40,  1.10s/it] 10%|▉         | 9607/100000 [5:15:14<27:18:59,  1.09s/it]                                                           10%|▉         | 9607/100000 [5:15:14<27:18:59,  1.09s/it] 10%|▉         | 9608/100000 [5:15:15<27:02:56,  1.08s/it]                                                           10%|▉         | 9608/100000 [5:15:15<27:02:56,  1.08s/it] 10%|▉         | 9609/100000 [5:15:16<26:31:49,  1.06s/it]                                                           10%|▉         | 9609/100000 [5:15:16<26:31:49,  1.06s/it] 10%|▉         | 9610/100000 [5:15:17<25:57:42,  1.03s/it]                                                           10%|▉         | 9610/100000 [5:15:17<25:57:42,  1.03s/it] 10%|▉         | 9611/100000 [5:15:18<25:29:17,  1.02s/it]                                                           10%|▉         | 9611/100000 [5:15:18<25:29:17,  1.02s/it] 10%|▉         | 9612/100000 [5:15:19<25:04:23,  1.00it/s]                                                           10%|▉         | 9612/100000 [5:15:19<25:04:23,  1.00it/s] 10%|▉         | 9613/100000 [5:15:20<24:33:10,  1.02it/s]                                                           10%|▉         | 9613/100000 [5:15:20<24:33:10,  1.02it/s] 10%|▉         | 9614/100000 [5:15:20<23:51:24,  1.05it/s]                                                           10%|▉         | 9614/100000 [5:15:20<23:51:24,  1.05it/s] 10%|▉         | 9615/100000 [5:15:31<99:55:54,  3.98s/it]                                                           10%|▉         | 9615/100000 [5:15:31<99:55:54,  3.98s/it] 10%|▉         | 9616/100000 [5:15:37<108:52:48,  4.34s/it]                                                            10%|▉         | 9616/100000 [5:15:37<108:52:48,  4.34s/it] 10%|▉         | 9617/100000 [5:15:41<109:53:14,  4.38s/it]                                                            10%|▉         | 9617/100000 [5:15:41<109:53:14,  4.38s/it] 10%|▉         | 9618/100000 [5:15:45<106:21:30,  4.24s/it]                                                            10%|▉         | 9618/100000 [5:15:45<106:21:30,  4.24s/it] 10%|▉         | 9619/100000 [5:15:48<99:33:40,  3.97s/it]                                                            10%|▉         | 9619/100000 [5:15:48<99:33:40,  3.97s/it] 10%|▉         | 9620/100000 [5:15:52<93:49:45,  3.74s/it]                                                           10%|▉         | 9620/100000 [5:15:52<93:49:45,  3.74s/it] 10%|▉         | 9621/100000 [5:15:54<86:53:47,  3.46s/it]                                                           10%|▉         | 9621/100000 [5:15:54<86:53:47,  3.46s/it] 10%|▉         | 9622/100000 [5:15:57<81:24:00,  3.24s/it]                                                           10%|▉         | 9622/100000 [5:15:57<81:24:00,  3.24s/it] 10%|▉         | 9623/100000 [5:16:00<76:09:27,  3.03s/it]                                                           10%|▉         | 9623/100000 [5:16:00<76:09:27,  3.03s/it] 10%|▉         | 9624/100000 [5:16:02<71:08:30,  2.83s/it]                                                           10%|▉         | 9624/100000 [5:16:02<71:08:30,  2.83s/it] 10%|▉         | 9625/100000 [5:16:04<66:24:17,  2.65s/it]                                                           10%|▉         | 9625/100000 [5:16:04<66:24:17,  2.65s/it] 10%|▉         | 9626/100000 [5:16:06<61:59:45,  2.47s/it]                                                           10%|▉         | 9626/100000 [5:16:06<61:59:45,  2.47s/it] 10%|▉         | 9627/100000 [5:16:08<57:54:20,  2.31s/it]                                                           10%|▉         | 9627/100000 [5:16:08<57:54:20,  2.31s/it] 10%|▉         | 9628/100000 [5:16:10<53:58:35,  2.15s/it]                                                          {'loss': 0.015, 'grad_norm': 0.3226254880428314, 'learning_rate': 2.8629000000000003e-05, 'epoch': 17.61}
+{'loss': 0.0182, 'grad_norm': 0.3622691035270691, 'learning_rate': 2.8632000000000003e-05, 'epoch': 17.61}
+{'loss': 0.0168, 'grad_norm': 0.4353501498699188, 'learning_rate': 2.8635000000000003e-05, 'epoch': 17.62}
+{'loss': 0.0134, 'grad_norm': 0.2856418192386627, 'learning_rate': 2.8638e-05, 'epoch': 17.62}
+{'loss': 0.0168, 'grad_norm': 0.3683633506298065, 'learning_rate': 2.8641e-05, 'epoch': 17.62}
+{'loss': 0.0121, 'grad_norm': 0.36736348271369934, 'learning_rate': 2.8644e-05, 'epoch': 17.62}
+{'loss': 0.0149, 'grad_norm': 0.5249360203742981, 'learning_rate': 2.8647e-05, 'epoch': 17.62}
+{'loss': 0.0119, 'grad_norm': 0.4789264500141144, 'learning_rate': 2.865e-05, 'epoch': 17.63}
+{'loss': 0.0246, 'grad_norm': 0.6176832914352417, 'learning_rate': 2.8652999999999998e-05, 'epoch': 17.63}
+{'loss': 0.0178, 'grad_norm': 0.562190592288971, 'learning_rate': 2.8656e-05, 'epoch': 17.63}
+{'loss': 0.0157, 'grad_norm': 0.6893006563186646, 'learning_rate': 2.8659e-05, 'epoch': 17.63}
+{'loss': 0.0269, 'grad_norm': 0.7275405526161194, 'learning_rate': 2.8662e-05, 'epoch': 17.63}
+{'loss': 0.012, 'grad_norm': 0.494080126285553, 'learning_rate': 2.8665e-05, 'epoch': 17.64}
+{'loss': 0.0185, 'grad_norm': 0.32813942432403564, 'learning_rate': 2.8668e-05, 'epoch': 17.64}
+{'loss': 0.0114, 'grad_norm': 0.3075019121170044, 'learning_rate': 2.8671e-05, 'epoch': 17.64}
+{'loss': 0.0175, 'grad_norm': 0.9370800852775574, 'learning_rate': 2.8674e-05, 'epoch': 17.64}
+{'loss': 0.0043, 'grad_norm': 0.16680116951465607, 'learning_rate': 2.8677e-05, 'epoch': 17.64}
+{'loss': 0.009, 'grad_norm': 0.4168938994407654, 'learning_rate': 2.868e-05, 'epoch': 17.64}
+{'loss': 0.0097, 'grad_norm': 0.3269334137439728, 'learning_rate': 2.8683e-05, 'epoch': 17.65}
+{'loss': 0.2211, 'grad_norm': 1.061153531074524, 'learning_rate': 2.8686000000000003e-05, 'epoch': 17.65}
+{'loss': 0.1503, 'grad_norm': 0.823059618473053, 'learning_rate': 2.8689000000000003e-05, 'epoch': 17.65}
+{'loss': 0.0934, 'grad_norm': 0.634117066860199, 'learning_rate': 2.8692000000000002e-05, 'epoch': 17.65}
+{'loss': 0.1134, 'grad_norm': 0.6172256469726562, 'learning_rate': 2.8695000000000002e-05, 'epoch': 17.65}
+{'loss': 0.1427, 'grad_norm': 0.7339869141578674, 'learning_rate': 2.8698000000000002e-05, 'epoch': 17.66}
+{'loss': 0.1562, 'grad_norm': 0.6254228353500366, 'learning_rate': 2.8701000000000002e-05, 'epoch': 17.66}
+{'loss': 0.0843, 'grad_norm': 0.6750670671463013, 'learning_rate': 2.8704e-05, 'epoch': 17.66}
+{'loss': 0.0835, 'grad_norm': 0.6463918089866638, 'learning_rate': 2.8707e-05, 'epoch': 17.66}
+{'loss': 0.0705, 'grad_norm': 0.5513696074485779, 'learning_rate': 2.871e-05, 'epoch': 17.66}
+{'loss': 0.0536, 'grad_norm': 0.8210604190826416, 'learning_rate': 2.8712999999999998e-05, 'epoch': 17.66}
+{'loss': 0.0537, 'grad_norm': 0.5390028953552246, 'learning_rate': 2.8716e-05, 'epoch': 17.67}
+{'loss': 0.058, 'grad_norm': 0.3856324255466461, 'learning_rate': 2.8719e-05, 'epoch': 17.67}
+{'loss': 0.0483, 'grad_norm': 0.5079103708267212, 'learning_rate': 2.8722e-05, 'epoch': 17.67}
+{'loss': 0.0329, 'grad_norm': 0.4683472812175751, 'learning_rate': 2.8725e-05, 'epoch': 17.67}
+{'loss': 0.0681, 'grad_norm': 0.5738013982772827, 'learning_rate': 2.8728e-05, 'epoch': 17.67}
+{'loss': 0.039, 'grad_norm': 0.5303285717964172, 'learning_rate': 2.8731e-05, 'epoch': 17.68}
+{'loss': 0.0169, 'grad_norm': 0.2283354550600052, 'learning_rate': 2.8734e-05, 'epoch': 17.68}
+{'loss': 0.0121, 'grad_norm': 0.22478586435317993, 'learning_rate': 2.8737e-05, 'epoch': 17.68}
+{'loss': 0.0164, 'grad_norm': 0.22185231745243073, 'learning_rate': 2.874e-05, 'epoch': 17.68}
+{'loss': 0.0185, 'grad_norm': 0.29085099697113037, 'learning_rate': 2.8743e-05, 'epoch': 17.68}
+{'loss': 0.0191, 'grad_norm': 0.5266684293746948, 'learning_rate': 2.8746000000000002e-05, 'epoch': 17.69}
+{'loss': 0.0095, 'grad_norm': 0.20346860587596893, 'learning_rate': 2.8749000000000002e-05, 'epoch': 17.69}
+{'loss': 0.029, 'grad_norm': 0.5799970626831055, 'learning_rate': 2.8752000000000002e-05, 'epoch': 17.69}
+{'loss': 0.0166, 'grad_norm': 0.29750967025756836, 'learning_rate': 2.8755e-05, 'epoch': 17.69}
+{'loss': 0.0159, 'grad_norm': 0.2990019619464874, 'learning_rate': 2.8758e-05, 'epoch': 17.69}
+{'loss': 0.0129, 'grad_norm': 0.3774636685848236, 'learning_rate': 2.8761e-05, 'epoch': 17.69}
+{'loss': 0.0114, 'grad_norm': 0.2095613330602646, 'learning_rate': 2.8764e-05, 'epoch': 17.7}
+{'loss': 0.0167, 'grad_norm': 0.3799412250518799, 'learning_rate': 2.8767e-05, 'epoch': 17.7}
+{'loss': 0.0128, 'grad_norm': 0.29384300112724304, 'learning_rate': 2.877e-05, 'epoch': 17.7}
+{'loss': 0.0683, 'grad_norm': 0.5691142082214355, 'learning_rate': 2.8773e-05, 'epoch': 17.7}
+{'loss': 0.0142, 'grad_norm': 0.3275772035121918, 'learning_rate': 2.8776000000000004e-05, 'epoch': 17.7}
+{'loss': 0.0159, 'grad_norm': 0.27224838733673096, 'learning_rate': 2.8779000000000003e-05, 'epoch': 17.71}
+{'loss': 0.01, 'grad_norm': 0.3701270520687103, 'learning_rate': 2.8782000000000003e-05, 'epoch': 17.71}
+{'loss': 0.0122, 'grad_norm': 0.35283249616622925, 'learning_rate': 2.8785e-05, 'epoch': 17.71}
+{'loss': 0.0115, 'grad_norm': 0.28894442319869995, 'learning_rate': 2.8788e-05, 'epoch': 17.71}
+{'loss': 0.01, 'grad_norm': 0.4092564582824707, 'learning_rate': 2.8791e-05, 'epoch': 17.71}
+{'loss': 0.0087, 'grad_norm': 0.40917760133743286, 'learning_rate': 2.8794e-05, 'epoch': 17.71}
+{'loss': 0.0039, 'grad_norm': 0.26291561126708984, 'learning_rate': 2.8797e-05, 'epoch': 17.72}
+{'loss': 0.018, 'grad_norm': 0.501798152923584, 'learning_rate': 2.88e-05, 'epoch': 17.72}
+{'loss': 0.0089, 'grad_norm': 0.25262412428855896, 'learning_rate': 2.8803e-05, 'epoch': 17.72}
+{'loss': 0.0166, 'grad_norm': 0.5903002023696899, 'learning_rate': 2.8806e-05, 'epoch': 17.72}
+{'loss': 0.0163, 'grad_norm': 0.5660081505775452, 'learning_rate': 2.8809e-05, 'epoch': 17.72}
+{'loss': 0.0173, 'grad_norm': 0.5993664860725403, 'learning_rate': 2.8812e-05, 'epoch': 17.73}
+{'loss': 0.0205, 'grad_norm': 0.45771902799606323, 'learning_rate': 2.8815e-05, 'epoch': 17.73}
+{'loss': 0.0167, 'grad_norm': 0.3490065932273865, 'learning_rate': 2.8818e-05, 'epoch': 17.73}
+{'loss': 0.0231, 'grad_norm': 0.8391483426094055, 'learning_rate': 2.8821e-05, 'epoch': 17.73}
+{'loss': 0.0104, 'grad_norm': 0.3549315929412842, 'learning_rate': 2.8824e-05, 'epoch': 17.73}
+{'loss': 0.0121, 'grad_norm': 0.4805821478366852, 'learning_rate': 2.8827e-05, 'epoch': 17.73}
+{'loss': 0.0255, 'grad_norm': 0.6108695864677429, 'learning_rate': 2.883e-05, 'epoch': 17.74}
+{'loss': 0.0245, 'grad_norm': 0.6562829613685608, 'learning_rate': 2.8833e-05, 'epoch': 17.74}
+{'loss': 0.1794, 'grad_norm': 0.6468729376792908, 'learning_rate': 2.8836000000000003e-05, 'epoch': 17.74}
+{'loss': 0.1674, 'grad_norm': 0.5797168612480164, 'learning_rate': 2.8839000000000003e-05, 'epoch': 17.74}
+{'loss': 0.1372, 'grad_norm': 0.498214989900589, 'learning_rate': 2.8842000000000003e-05, 'epoch': 17.74}
+{'loss': 0.1131, 'grad_norm': 0.42887386679649353, 'learning_rate': 2.8845000000000003e-05, 'epoch': 17.75}
+{'loss': 0.0786, 'grad_norm': 0.4448026418685913, 'learning_rate': 2.8848000000000002e-05, 'epoch': 17.75}
+{'loss': 0.0993, 'grad_norm': 0.734890341758728, 'learning_rate': 2.8851000000000002e-05, 'epoch': 17.75}
+{'loss': 0.0839, 'grad_norm': 0.5033615827560425, 'learning_rate': 2.8854000000000002e-05, 'epoch': 17.75}
+{'loss': 0.054, 'grad_norm': 0.42628228664398193, 'learning_rate': 2.8857000000000002e-05, 'epoch': 17.75}
+{'loss': 0.0717, 'grad_norm': 0.46170705556869507, 'learning_rate': 2.8859999999999998e-05, 'epoch': 17.76}
+{'loss': 0.1043, 'grad_norm': 0.5042704939842224, 'learning_rate': 2.8862999999999998e-05, 'epoch': 17.76}
+{'loss': 0.0452, 'grad_norm': 0.5552589893341064, 'learning_rate': 2.8866e-05, 'epoch': 17.76}
+{'loss': 0.0418, 'grad_norm': 0.29673290252685547, 'learning_rate': 2.8869e-05, 'epoch': 17.76}
+{'loss': 0.0462, 'grad_norm': 0.5385515689849854, 'learning_rate': 2.8872e-05, 'epoch': 17.76}
+ 10%|▉         | 9628/100000 [5:16:10<53:58:35,  2.15s/it] 10%|▉         | 9629/100000 [5:16:12<50:53:16,  2.03s/it]                                                           10%|▉         | 9629/100000 [5:16:12<50:53:16,  2.03s/it] 10%|▉         | 9630/100000 [5:16:13<48:08:50,  1.92s/it]                                                           10%|▉         | 9630/100000 [5:16:13<48:08:50,  1.92s/it] 10%|▉         | 9631/100000 [5:16:15<45:37:52,  1.82s/it]                                                           10%|▉         | 9631/100000 [5:16:15<45:37:52,  1.82s/it] 10%|▉         | 9632/100000 [5:16:16<43:19:01,  1.73s/it]                                                           10%|▉         | 9632/100000 [5:16:16<43:19:01,  1.73s/it] 10%|▉         | 9633/100000 [5:16:18<41:44:59,  1.66s/it]                                                           10%|▉         | 9633/100000 [5:16:18<41:44:59,  1.66s/it] 10%|▉         | 9634/100000 [5:16:19<40:17:46,  1.61s/it]                                                           10%|▉         | 9634/100000 [5:16:19<40:17:46,  1.61s/it] 10%|▉         | 9635/100000 [5:16:21<39:04:46,  1.56s/it]                                                           10%|▉         | 9635/100000 [5:16:21<39:04:46,  1.56s/it] 10%|▉         | 9636/100000 [5:16:22<38:04:39,  1.52s/it]                                                           10%|▉         | 9636/100000 [5:16:22<38:04:39,  1.52s/it] 10%|▉         | 9637/100000 [5:16:24<37:10:17,  1.48s/it]                                                           10%|▉         | 9637/100000 [5:16:24<37:10:17,  1.48s/it] 10%|▉         | 9638/100000 [5:16:25<36:23:38,  1.45s/it]                                                           10%|▉         | 9638/100000 [5:16:25<36:23:38,  1.45s/it] 10%|▉         | 9639/100000 [5:16:26<35:26:02,  1.41s/it]                                                           10%|▉         | 9639/100000 [5:16:26<35:26:02,  1.41s/it] 10%|▉         | 9640/100000 [5:16:28<34:55:57,  1.39s/it]                                                           10%|▉         | 9640/100000 [5:16:28<34:55:57,  1.39s/it] 10%|▉         | 9641/100000 [5:16:29<34:26:59,  1.37s/it]                                                           10%|▉         | 9641/100000 [5:16:29<34:26:59,  1.37s/it] 10%|▉         | 9642/100000 [5:16:30<33:55:09,  1.35s/it]                                                           10%|▉         | 9642/100000 [5:16:30<33:55:09,  1.35s/it] 10%|▉         | 9643/100000 [5:16:32<33:29:42,  1.33s/it]                                                           10%|▉         | 9643/100000 [5:16:32<33:29:42,  1.33s/it] 10%|▉         | 9644/100000 [5:16:33<33:03:37,  1.32s/it]                                                           10%|▉         | 9644/100000 [5:16:33<33:03:37,  1.32s/it] 10%|▉         | 9645/100000 [5:16:34<32:31:56,  1.30s/it]                                                           10%|▉         | 9645/100000 [5:16:34<32:31:56,  1.30s/it] 10%|▉         | 9646/100000 [5:16:35<32:03:09,  1.28s/it]                                                           10%|▉         | 9646/100000 [5:16:35<32:03:09,  1.28s/it] 10%|▉         | 9647/100000 [5:16:37<31:38:26,  1.26s/it]                                                           10%|▉         | 9647/100000 [5:16:37<31:38:26,  1.26s/it] 10%|▉         | 9648/100000 [5:16:38<30:55:04,  1.23s/it]                                                           10%|▉         | 9648/100000 [5:16:38<30:55:04,  1.23s/it] 10%|▉         | 9649/100000 [5:16:39<30:23:52,  1.21s/it]                                                           10%|▉         | 9649/100000 [5:16:39<30:23:52,  1.21s/it] 10%|▉         | 9650/100000 [5:16:40<29:57:06,  1.19s/it]                                                           10%|▉         | 9650/100000 [5:16:40<29:57:06,  1.19s/it] 10%|▉         | 9651/100000 [5:16:41<29:23:24,  1.17s/it]                                                           10%|▉         | 9651/100000 [5:16:41<29:23:24,  1.17s/it] 10%|▉         | 9652/100000 [5:16:42<29:00:43,  1.16s/it]                                                           10%|▉         | 9652/100000 [5:16:42<29:00:43,  1.16s/it] 10%|▉         | 9653/100000 [5:16:43<28:13:59,  1.12s/it]                                                           10%|▉         | 9653/100000 [5:16:43<28:13:59,  1.12s/it] 10%|▉         | 9654/100000 [5:16:45<27:54:01,  1.11s/it]                                                           10%|▉         | 9654/100000 [5:16:45<27:54:01,  1.11s/it] 10%|▉         | 9655/100000 [5:16:46<27:48:13,  1.11s/it]                                                           10%|▉         | 9655/100000 [5:16:46<27:48:13,  1.11s/it] 10%|▉         | 9656/100000 [5:16:47<27:31:17,  1.10s/it]                                                           10%|▉         | 9656/100000 [5:16:47<27:31:17,  1.10s/it] 10%|▉         | 9657/100000 [5:16:48<27:05:56,  1.08s/it]                                                           10%|▉         | 9657/100000 [5:16:48<27:05:56,  1.08s/it] 10%|▉         | 9658/100000 [5:16:49<26:46:24,  1.07s/it]                                                           10%|▉         | 9658/100000 [5:16:49<26:46:24,  1.07s/it] 10%|▉         | 9659/100000 [5:16:50<26:13:08,  1.04s/it]                                                           10%|▉         | 9659/100000 [5:16:50<26:13:08,  1.04s/it] 10%|▉         | 9660/100000 [5:16:51<25:33:12,  1.02s/it]                                                           10%|▉         | 9660/100000 [5:16:51<25:33:12,  1.02s/it] 10%|▉         | 9661/100000 [5:16:52<25:05:16,  1.00it/s]                                                           10%|▉         | 9661/100000 [5:16:52<25:05:16,  1.00it/s] 10%|▉         | 9662/100000 [5:16:53<24:56:05,  1.01it/s]                                                           10%|▉         | 9662/100000 [5:16:53<24:56:05,  1.01it/s] 10%|▉         | 9663/100000 [5:16:54<24:30:04,  1.02it/s]                                                           10%|▉         | 9663/100000 [5:16:54<24:30:04,  1.02it/s] 10%|▉         | 9664/100000 [5:16:54<23:39:00,  1.06it/s]                                                           10%|▉         | 9664/100000 [5:16:54<23:39:00,  1.06it/s] 10%|▉         | 9665/100000 [5:17:05<99:08:47,  3.95s/it]                                                           10%|▉         | 9665/100000 [5:17:05<99:08:47,  3.95s/it] 10%|▉         | 9666/100000 [5:17:11<111:54:51,  4.46s/it]                                                            10%|▉         | 9666/100000 [5:17:11<111:54:51,  4.46s/it] 10%|▉         | 9667/100000 [5:17:16<113:46:41,  4.53s/it]                                                            10%|▉         | 9667/100000 [5:17:16<113:46:41,  4.53s/it] 10%|▉         | 9668/100000 [5:17:20<110:56:51,  4.42s/it]                                                            10%|▉         | 9668/100000 [5:17:20<110:56:51,  4.42s/it] 10%|▉         | 9669/100000 [5:17:23<104:06:05,  4.15s/it]                                                            10%|▉         | 9669/100000 [5:17:23<104:06:05,  4.15s/it] 10%|▉         | 9670/100000 [5:17:27<97:37:32,  3.89s/it]                                                            10%|▉         | 9670/100000 [5:17:27<97:37:32,  3.89s/it] 10%|▉         | 9671/100000 [5:17:30<90:46:13,  3.62s/it]                                                           10%|▉         | 9671/100000 [5:17:30<90:46:13,  3.62s/it] 10%|▉         | 9672/100000 [5:17:32<83:42:25,  3.34s/it]                                                           10%|▉         | 9672/100000 [5:17:32<83:42:25,  3.34s/it] 10%|▉         | 9673/100000 [5:17:35<77:02:35,  3.07s/it]                                                           10%|▉         | 9673/100000 [5:17:35<77:02:35,  3.07s/it] 10%|▉         | 9674/100000 [5:17:37<71:43:08,  2.86s/it]                                                           10%|▉         | 9674/100000 [5:17:37<71:43:08,  2.86s/it] 10%|▉         | 9675/100000 [5:17:39<65:48:40,  2.62s/it]                                                           10%|▉         | 9675/100000 [5:17:39<65:48:40,  2.62s/it] 10%|▉         | 9676/100000 [5:17:41<60:48:13,  2.42s/it]                                                           10%|▉         | 9676/100000 [5:17:41<60:48:13,  2.42s/it] 10%|▉         | 9677/100000 [5:17:43<57:10:21,  2.28s/it]                                                           10%|▉         | 9677/100000 [5:17:43<57:10:21,  2.28s/it] 10%|▉         | 9678/100000 [5:17:45<53:43:56,  2.14s/it]                                                           10%|▉         | 9678/100000 [5:17:45<53:43:56,  2.14s/it] 10%|▉         | 9679/100000 [5:17:47<50:19:09,  2.01s/it]                                                           10%|▉         | 9679/100000 [5:17:47<50:19:09,  2.01s/it] 10%|▉         | 9680/100000 [5:17:48<47:48:38,  1.91s/it]                                                           10%|▉         | 9680/100000 [5:17:48<47:48:38,  1.91s/it] 10%|▉         | 9681/100000 [5:17:50<45:17:05,  1.80s/it]                                                           10%|▉         | 9681/100000 [5:17:50<45:17:05,  1.80s/it] 10%|▉         | 9682/100000 [5:17:52<43:40:13,  1.74s/it]                                                           10%|▉         | 9682/100000 [5:17:52<43:40:13,  1.74s/it] 10%|▉         | 9683/100000 [5:17:53<42:04:20,  1.68s/it]                                                           10%|▉         | 9683/100000 [5:17:53<42:04:20,  1.68s/it] 10%|▉         | 9684/100000 [5:17:55<40:31:22,  1.62s/it]                                                           10%|▉         | 9684/100000 [5:17:55<40:31:22,  1.62s/it] 10%|▉         | 9685/100000 [5:17:56<39:25:53,  1.57s/it]                                                           10%|▉         | 9685/100000 [5:17:56<39:25:53,  1.57s/it] 10%|▉         | 9686/100000 [5:17:57<38:03:15,  1.52s/it]                                                           10%|▉         | 9686/100000 [5:17:57<38:03:15,  1.52s/it] 10%|▉         | 9687/100000 [5:17:59<37:03:14,  1.48s/it]                                                           10%|▉         | 9687/100000 [5:17:59<37:03:14,  1.48s/it] 10%|▉         | 9688/100000 [5:18:00<36:28:08,  1.45s/it]                                                           10%|▉         | 9688/100000 [5:18:00<36:28:08,  1.45s/it] 10%|▉         | 9689/100000 [5:18:02<35:47:15,  1.43s/it]                                                           10%|▉         | 9689/100000 [5:18:02<35:47:15,  1.43s/it] 10%|▉         | 9690/100000 [5:18:03<35:11:08,  1.40s/it]                                                           10%|▉         | 9690/100000 [5:18:03<35:11:08,  1.40s/it] 10%|▉         | 9691/100000 [5:18:04<34:42:31,  1.38s/it]                                                           10%|▉         | 9691/100000 [5:18:04<34:42:31,  1.38s/it] 10%|▉         | 9692/100000 [5:18:06<33:55:33,  1.35s/it]                                                           10%|▉         | 9692/100000 [5:18:06<33:55:33,  1.35s/it] 10%|▉         | 9693/100000 [5:18:07<33:25:45,  1.33s/it]                                                           10%|▉         | 9693/100000 [5:18:07<33:25:45,  1.33s/it] 10%|▉         | 9694/100000 [5:18:08<32:48:14,  1.31s/it]                                                           10%|▉         | 9694/100000 [5:18:08<32:48:14,  1.31s/it] 10%|▉         | 9695/100000 [5:18:09<32:16:58,  1.29s/it]                                                           10%|▉         | 9695/100000 [5:18:09<32:16:58,  1.29s/it] 10%|▉         | 9696/100000 [5:18:10<31:37:00,  1.26s/it]                                                           10%|▉         | 9696/100000 [5:18:10<31:37:00,  1.26s/it] 10%|▉         | 9697/100000 [5:18:12<31:17:12,  1.25s/it]                                                           10%|▉         | 9697/100000 [5:18:12<31:17:12,  1.25s/it] 10%|▉         | 9698/100000 [5:18:13<30:45:29,  1.23s/it]                                                           10%|▉         | 9698/100000 [5:18:13<30:45:29,  1.23s/it] 10%|▉         | 9699/100000 [5:18:14<30:11:15,  1.20s/it]                                                           10%|▉         | 9699/100000 [5:18:14<30:11:15,  1.20s/it] 10%|▉         | 9700/100000 [5:18:15<29:30:59,  1.18s/it]                                                           10%|▉         | 9700/100000 [5:18:15<29:30:59,  1.18s/it] 10%|▉         | 9701/100000 [5:18:16<29:09:22,  1.16s/it]                                                           10%|▉         | 9701/100000 [5:18:16<29:09:22,  1.16s/it] 10%|▉         | 9702/100000 [5:18:17<28:37:49,  1.14s/it]                                                           10%|▉         | 9702/100000 [5:18:17<28:37:49,  1.14s/it] 10%|▉         | 9703/100000 [5:18:18<28:10:58,  1.12s/it]                                                           10%|▉         | 9703/100000 [5:18:18<28:10:58,  1.12s/it] 10%|▉         | 9704/100000 [5:18:20<27:47:38,  1.11s/it]                                                           10%|▉         | 9704/100000 [5:18:20<27:47:38,  1.11s/it] 10%|▉         | 9705/100000 [5:18:21<27:14:20,  1.09s/it]                                                           10%|▉         | 9705/100000 [5:18:21<27:14:20,  1.09s/it] 10%|▉         | 9706/100000 [5:18:22<26:55:52,  1.07s/it]                                                           10%|▉         | 9706/100000 [5:18:22<26:55:52,  1.07s/it] 10%|▉         | 9707/100000 [5:18:23<26:38:23,  1.06s/it]                                                           10%|▉         | 9707/100000 [5:18:23<26:38:23,  1.06s/it] 10%|▉         | 9708/100000 [5:18:24<26:21:00,  1.05s/it]                                                           10%|▉         | 9708/100000 [5:18:24<26:21:00,  1.05s/it] 10%|▉         | 9709/100000 [5:18:25<26:01:31,  1.04s/it]                                                           10%|▉         | 9709/100000 [5:18:25<26:01:31,  1.04s/it] 10%|▉         | 9710/100000 [5:18:26<25:30:31,  1.02s/it]                                                           10%|▉         | 9710/100000 [5:18:26<25:30:31,  1.02s/it] 10%|▉         | 9711/100000 [5:18:27<25:20:28,  1.01s/it]                                                          {'loss': 0.0458, 'grad_norm': 0.32758527994155884, 'learning_rate': 2.8875e-05, 'epoch': 17.76}
+{'loss': 0.0291, 'grad_norm': 0.2771989107131958, 'learning_rate': 2.8878e-05, 'epoch': 17.77}
+{'loss': 0.024, 'grad_norm': 0.34781336784362793, 'learning_rate': 2.8881e-05, 'epoch': 17.77}
+{'loss': 0.0178, 'grad_norm': 0.39459630846977234, 'learning_rate': 2.8884e-05, 'epoch': 17.77}
+{'loss': 0.027, 'grad_norm': 0.34889426827430725, 'learning_rate': 2.8887e-05, 'epoch': 17.77}
+{'loss': 0.0182, 'grad_norm': 0.21631485223770142, 'learning_rate': 2.889e-05, 'epoch': 17.77}
+{'loss': 0.034, 'grad_norm': 0.24801243841648102, 'learning_rate': 2.8893e-05, 'epoch': 17.78}
+{'loss': 0.0091, 'grad_norm': 0.270134836435318, 'learning_rate': 2.8896e-05, 'epoch': 17.78}
+{'loss': 0.0151, 'grad_norm': 0.594982922077179, 'learning_rate': 2.8899000000000002e-05, 'epoch': 17.78}
+{'loss': 0.0184, 'grad_norm': 0.6876816749572754, 'learning_rate': 2.8902000000000002e-05, 'epoch': 17.78}
+{'loss': 0.0071, 'grad_norm': 0.3381214439868927, 'learning_rate': 2.8905000000000002e-05, 'epoch': 17.78}
+{'loss': 0.0143, 'grad_norm': 0.4301603436470032, 'learning_rate': 2.8908000000000002e-05, 'epoch': 17.78}
+{'loss': 0.0147, 'grad_norm': 0.40740901231765747, 'learning_rate': 2.8911e-05, 'epoch': 17.79}
+{'loss': 0.0196, 'grad_norm': 0.5560108423233032, 'learning_rate': 2.8914e-05, 'epoch': 17.79}
+{'loss': 0.0083, 'grad_norm': 0.18544799089431763, 'learning_rate': 2.8917e-05, 'epoch': 17.79}
+{'loss': 0.0136, 'grad_norm': 0.36729657649993896, 'learning_rate': 2.892e-05, 'epoch': 17.79}
+{'loss': 0.0356, 'grad_norm': 0.24889634549617767, 'learning_rate': 2.8923e-05, 'epoch': 17.79}
+{'loss': 0.0085, 'grad_norm': 0.26268625259399414, 'learning_rate': 2.8926e-05, 'epoch': 17.8}
+{'loss': 0.0075, 'grad_norm': 0.1501934677362442, 'learning_rate': 2.8929000000000004e-05, 'epoch': 17.8}
+{'loss': 0.0234, 'grad_norm': 0.3604651391506195, 'learning_rate': 2.8932e-05, 'epoch': 17.8}
+{'loss': 0.0105, 'grad_norm': 0.25846487283706665, 'learning_rate': 2.8935e-05, 'epoch': 17.8}
+{'loss': 0.0067, 'grad_norm': 0.29089727997779846, 'learning_rate': 2.8938e-05, 'epoch': 17.8}
+{'loss': 0.0068, 'grad_norm': 0.32083141803741455, 'learning_rate': 2.8941e-05, 'epoch': 17.81}
+{'loss': 0.0216, 'grad_norm': 0.5071612000465393, 'learning_rate': 2.8944e-05, 'epoch': 17.81}
+{'loss': 0.0446, 'grad_norm': 0.4766952097415924, 'learning_rate': 2.8947e-05, 'epoch': 17.81}
+{'loss': 0.0128, 'grad_norm': 0.32992035150527954, 'learning_rate': 2.895e-05, 'epoch': 17.81}
+{'loss': 0.0113, 'grad_norm': 0.2831116020679474, 'learning_rate': 2.8953e-05, 'epoch': 17.81}
+{'loss': 0.0155, 'grad_norm': 0.45260798931121826, 'learning_rate': 2.8956e-05, 'epoch': 17.81}
+{'loss': 0.0217, 'grad_norm': 0.46074360609054565, 'learning_rate': 2.8959000000000002e-05, 'epoch': 17.82}
+{'loss': 0.015, 'grad_norm': 1.0912634134292603, 'learning_rate': 2.8962e-05, 'epoch': 17.82}
+{'loss': 0.0103, 'grad_norm': 0.34561482071876526, 'learning_rate': 2.8965e-05, 'epoch': 17.82}
+{'loss': 0.0138, 'grad_norm': 0.4716539978981018, 'learning_rate': 2.8968e-05, 'epoch': 17.82}
+{'loss': 0.0166, 'grad_norm': 0.5009711980819702, 'learning_rate': 2.8971e-05, 'epoch': 17.82}
+{'loss': 0.0167, 'grad_norm': 0.3603162169456482, 'learning_rate': 2.8974e-05, 'epoch': 17.83}
+{'loss': 0.0149, 'grad_norm': 0.4746507406234741, 'learning_rate': 2.8977e-05, 'epoch': 17.83}
+{'loss': 0.0243, 'grad_norm': 0.6108738780021667, 'learning_rate': 2.898e-05, 'epoch': 17.83}
+{'loss': 0.0122, 'grad_norm': 0.5035948753356934, 'learning_rate': 2.8983e-05, 'epoch': 17.83}
+{'loss': 0.1685, 'grad_norm': 0.535803496837616, 'learning_rate': 2.8986e-05, 'epoch': 17.83}
+{'loss': 0.1759, 'grad_norm': 0.7792430520057678, 'learning_rate': 2.8989000000000003e-05, 'epoch': 17.83}
+{'loss': 0.1387, 'grad_norm': 0.44851070642471313, 'learning_rate': 2.8992000000000003e-05, 'epoch': 17.84}
+{'loss': 0.1089, 'grad_norm': 0.531370222568512, 'learning_rate': 2.8995000000000003e-05, 'epoch': 17.84}
+{'loss': 0.1063, 'grad_norm': 0.4909587800502777, 'learning_rate': 2.8998000000000003e-05, 'epoch': 17.84}
+{'loss': 0.088, 'grad_norm': 0.4452713429927826, 'learning_rate': 2.9001000000000002e-05, 'epoch': 17.84}
+{'loss': 0.1129, 'grad_norm': 1.0999737977981567, 'learning_rate': 2.9004000000000002e-05, 'epoch': 17.84}
+{'loss': 0.1001, 'grad_norm': 0.7121695280075073, 'learning_rate': 2.9007e-05, 'epoch': 17.85}
+{'loss': 0.0658, 'grad_norm': 0.39976316690444946, 'learning_rate': 2.901e-05, 'epoch': 17.85}
+{'loss': 0.0482, 'grad_norm': 0.4128870964050293, 'learning_rate': 2.9012999999999998e-05, 'epoch': 17.85}
+{'loss': 0.0511, 'grad_norm': 0.9304009079933167, 'learning_rate': 2.9015999999999998e-05, 'epoch': 17.85}
+{'loss': 0.0375, 'grad_norm': 1.323746919631958, 'learning_rate': 2.9019e-05, 'epoch': 17.85}
+{'loss': 0.039, 'grad_norm': 0.467035174369812, 'learning_rate': 2.9022e-05, 'epoch': 17.86}
+{'loss': 0.0258, 'grad_norm': 0.37897157669067383, 'learning_rate': 2.9025e-05, 'epoch': 17.86}
+{'loss': 0.033, 'grad_norm': 0.4991145730018616, 'learning_rate': 2.9028e-05, 'epoch': 17.86}
+{'loss': 0.0419, 'grad_norm': 0.44403761625289917, 'learning_rate': 2.9031e-05, 'epoch': 17.86}
+{'loss': 0.0222, 'grad_norm': 0.37267547845840454, 'learning_rate': 2.9034e-05, 'epoch': 17.86}
+{'loss': 0.0163, 'grad_norm': 0.31096506118774414, 'learning_rate': 2.9037e-05, 'epoch': 17.86}
+{'loss': 0.0174, 'grad_norm': 0.3130188584327698, 'learning_rate': 2.904e-05, 'epoch': 17.87}
+{'loss': 0.0079, 'grad_norm': 0.22604769468307495, 'learning_rate': 2.9043e-05, 'epoch': 17.87}
+{'loss': 0.0237, 'grad_norm': 0.35768184065818787, 'learning_rate': 2.9046e-05, 'epoch': 17.87}
+{'loss': 0.0148, 'grad_norm': 0.2845885753631592, 'learning_rate': 2.9049000000000003e-05, 'epoch': 17.87}
+{'loss': 0.0163, 'grad_norm': 0.5197261571884155, 'learning_rate': 2.9052000000000002e-05, 'epoch': 17.87}
+{'loss': 0.0166, 'grad_norm': 0.3724684715270996, 'learning_rate': 2.9055000000000002e-05, 'epoch': 17.88}
+{'loss': 0.0115, 'grad_norm': 0.3093060851097107, 'learning_rate': 2.9058000000000002e-05, 'epoch': 17.88}
+{'loss': 0.023, 'grad_norm': 0.5066264867782593, 'learning_rate': 2.9061000000000002e-05, 'epoch': 17.88}
+{'loss': 0.0149, 'grad_norm': 0.32835444808006287, 'learning_rate': 2.9064e-05, 'epoch': 17.88}
+{'loss': 0.008, 'grad_norm': 0.23925748467445374, 'learning_rate': 2.9067e-05, 'epoch': 17.88}
+{'loss': 0.0075, 'grad_norm': 0.21648789942264557, 'learning_rate': 2.907e-05, 'epoch': 17.88}
+{'loss': 0.015, 'grad_norm': 0.3470613360404968, 'learning_rate': 2.9073e-05, 'epoch': 17.89}
+{'loss': 0.0048, 'grad_norm': 0.2070864886045456, 'learning_rate': 2.9076e-05, 'epoch': 17.89}
+{'loss': 0.0105, 'grad_norm': 0.48686373233795166, 'learning_rate': 2.9079e-05, 'epoch': 17.89}
+{'loss': 0.0092, 'grad_norm': 0.29262134432792664, 'learning_rate': 2.9082e-05, 'epoch': 17.89}
+{'loss': 0.0098, 'grad_norm': 0.3679444193840027, 'learning_rate': 2.9085e-05, 'epoch': 17.89}
+{'loss': 0.0052, 'grad_norm': 0.224870502948761, 'learning_rate': 2.9088e-05, 'epoch': 17.9}
+{'loss': 0.0115, 'grad_norm': 0.35356229543685913, 'learning_rate': 2.9091e-05, 'epoch': 17.9}
+{'loss': 0.0201, 'grad_norm': 0.3993721902370453, 'learning_rate': 2.9094e-05, 'epoch': 17.9}
+{'loss': 0.0096, 'grad_norm': 0.2684133052825928, 'learning_rate': 2.9097e-05, 'epoch': 17.9}
+{'loss': 0.0139, 'grad_norm': 0.3427678346633911, 'learning_rate': 2.91e-05, 'epoch': 17.9}
+{'loss': 0.0096, 'grad_norm': 0.36482563614845276, 'learning_rate': 2.9103e-05, 'epoch': 17.9}
+{'loss': 0.014, 'grad_norm': 0.40752437710762024, 'learning_rate': 2.9106e-05, 'epoch': 17.91}
+{'loss': 0.0208, 'grad_norm': 1.0441960096359253, 'learning_rate': 2.9109000000000002e-05, 'epoch': 17.91}
+{'loss': 0.0083, 'grad_norm': 0.2949042320251465, 'learning_rate': 2.9112000000000002e-05, 'epoch': 17.91}
+{'loss': 0.0062, 'grad_norm': 0.2150924652814865, 'learning_rate': 2.9115e-05, 'epoch': 17.91}
+{'loss': 0.018, 'grad_norm': 0.8675482869148254, 'learning_rate': 2.9118e-05, 'epoch': 17.91}
+{'loss': 0.0155, 'grad_norm': 0.7008863091468811, 'learning_rate': 2.9121e-05, 'epoch': 17.92}
+ 10%|▉         | 9711/100000 [5:18:27<25:20:28,  1.01s/it] 10%|▉         | 9712/100000 [5:18:28<25:08:28,  1.00s/it]                                                           10%|▉         | 9712/100000 [5:18:28<25:08:28,  1.00s/it] 10%|▉         | 9713/100000 [5:18:29<24:38:05,  1.02it/s]                                                           10%|▉         | 9713/100000 [5:18:29<24:38:05,  1.02it/s] 10%|▉         | 9714/100000 [5:18:29<23:53:34,  1.05it/s]                                                           10%|▉         | 9714/100000 [5:18:29<23:53:34,  1.05it/s] 10%|▉         | 9715/100000 [5:18:40<98:41:25,  3.94s/it]                                                           10%|▉         | 9715/100000 [5:18:40<98:41:25,  3.94s/it] 10%|▉         | 9716/100000 [5:18:46<111:45:54,  4.46s/it]                                                            10%|▉         | 9716/100000 [5:18:46<111:45:54,  4.46s/it] 10%|▉         | 9717/100000 [5:18:50<111:50:30,  4.46s/it]                                                            10%|▉         | 9717/100000 [5:18:50<111:50:30,  4.46s/it] 10%|▉         | 9718/100000 [5:18:54<106:13:45,  4.24s/it]                                                            10%|▉         | 9718/100000 [5:18:54<106:13:45,  4.24s/it] 10%|▉         | 9719/100000 [5:18:57<99:10:52,  3.95s/it]                                                            10%|▉         | 9719/100000 [5:18:57<99:10:52,  3.95s/it] 10%|▉         | 9720/100000 [5:19:01<92:27:50,  3.69s/it]                                                           10%|▉         | 9720/100000 [5:19:01<92:27:50,  3.69s/it] 10%|▉         | 9721/100000 [5:19:03<86:17:20,  3.44s/it]                                                           10%|▉         | 9721/100000 [5:19:03<86:17:20,  3.44s/it] 10%|▉         | 9722/100000 [5:19:06<79:34:35,  3.17s/it]                                                           10%|▉         | 9722/100000 [5:19:06<79:34:35,  3.17s/it] 10%|▉         | 9723/100000 [5:19:08<73:12:49,  2.92s/it]                                                           10%|▉         | 9723/100000 [5:19:08<73:12:49,  2.92s/it] 10%|▉         | 9724/100000 [5:19:10<67:23:02,  2.69s/it]                                                           10%|▉         | 9724/100000 [5:19:10<67:23:02,  2.69s/it] 10%|▉         | 9725/100000 [5:19:12<62:04:14,  2.48s/it]                                                           10%|▉         | 9725/100000 [5:19:12<62:04:14,  2.48s/it] 10%|▉         | 9726/100000 [5:19:14<57:19:01,  2.29s/it]                                                           10%|▉         | 9726/100000 [5:19:14<57:19:01,  2.29s/it] 10%|▉         | 9727/100000 [5:19:16<52:58:47,  2.11s/it]                                                           10%|▉         | 9727/100000 [5:19:16<52:58:47,  2.11s/it] 10%|▉         | 9728/100000 [5:19:18<49:26:29,  1.97s/it]                                                           10%|▉         | 9728/100000 [5:19:18<49:26:29,  1.97s/it] 10%|▉         | 9729/100000 [5:19:19<46:35:59,  1.86s/it]                                                           10%|▉         | 9729/100000 [5:19:19<46:35:59,  1.86s/it] 10%|▉         | 9730/100000 [5:19:21<44:15:48,  1.77s/it]                                                           10%|▉         | 9730/100000 [5:19:21<44:15:48,  1.77s/it] 10%|▉         | 9731/100000 [5:19:22<41:51:33,  1.67s/it]                                                           10%|▉         | 9731/100000 [5:19:22<41:51:33,  1.67s/it] 10%|▉         | 9732/100000 [5:19:24<39:50:02,  1.59s/it]                                                           10%|▉         | 9732/100000 [5:19:24<39:50:02,  1.59s/it] 10%|▉         | 9733/100000 [5:19:25<38:25:09,  1.53s/it]                                                           10%|▉         | 9733/100000 [5:19:25<38:25:09,  1.53s/it] 10%|▉         | 9734/100000 [5:19:26<37:22:01,  1.49s/it]                                                           10%|▉         | 9734/100000 [5:19:26<37:22:01,  1.49s/it] 10%|▉         | 9735/100000 [5:19:28<36:19:42,  1.45s/it]                                                           10%|▉         | 9735/100000 [5:19:28<36:19:42,  1.45s/it] 10%|▉         | 9736/100000 [5:19:29<35:20:50,  1.41s/it]                                                           10%|▉         | 9736/100000 [5:19:29<35:20:50,  1.41s/it] 10%|▉         | 9737/100000 [5:19:30<34:26:53,  1.37s/it]                                                           10%|▉         | 9737/100000 [5:19:30<34:26:53,  1.37s/it] 10%|▉         | 9738/100000 [5:19:32<33:32:20,  1.34s/it]                                                           10%|▉         | 9738/100000 [5:19:32<33:32:20,  1.34s/it] 10%|▉         | 9739/100000 [5:19:33<32:59:09,  1.32s/it]                                                           10%|▉         | 9739/100000 [5:19:33<32:59:09,  1.32s/it] 10%|▉         | 9740/100000 [5:19:34<32:19:06,  1.29s/it]                                                           10%|▉         | 9740/100000 [5:19:34<32:19:06,  1.29s/it] 10%|▉         | 9741/100000 [5:19:35<31:51:25,  1.27s/it]                                                           10%|▉         | 9741/100000 [5:19:35<31:51:25,  1.27s/it] 10%|▉         | 9742/100000 [5:19:37<31:17:51,  1.25s/it]                                                           10%|▉         | 9742/100000 [5:19:37<31:17:51,  1.25s/it] 10%|▉         | 9743/100000 [5:19:38<30:38:05,  1.22s/it]                                                           10%|▉         | 9743/100000 [5:19:38<30:38:05,  1.22s/it] 10%|▉         | 9744/100000 [5:19:39<29:46:58,  1.19s/it]                                                           10%|▉         | 9744/100000 [5:19:39<29:46:58,  1.19s/it] 10%|▉         | 9745/100000 [5:19:40<29:23:53,  1.17s/it]                                                           10%|▉         | 9745/100000 [5:19:40<29:23:53,  1.17s/it] 10%|▉         | 9746/100000 [5:19:41<28:33:39,  1.14s/it]                                                           10%|▉         | 9746/100000 [5:19:41<28:33:39,  1.14s/it] 10%|▉         | 9747/100000 [5:19:42<27:57:58,  1.12s/it]                                                           10%|▉         | 9747/100000 [5:19:42<27:57:58,  1.12s/it] 10%|▉         | 9748/100000 [5:19:43<27:26:50,  1.09s/it]                                                           10%|▉         | 9748/100000 [5:19:43<27:26:50,  1.09s/it] 10%|▉         | 9749/100000 [5:19:44<27:07:45,  1.08s/it]                                                           10%|▉         | 9749/100000 [5:19:44<27:07:45,  1.08s/it] 10%|▉         | 9750/100000 [5:19:45<26:35:39,  1.06s/it]                                                           10%|▉         | 9750/100000 [5:19:45<26:35:39,  1.06s/it] 10%|▉         | 9751/100000 [5:19:46<27:12:40,  1.09s/it]                                                           10%|▉         | 9751/100000 [5:19:46<27:12:40,  1.09s/it] 10%|▉         | 9752/100000 [5:19:47<26:21:08,  1.05s/it]                                                           10%|▉         | 9752/100000 [5:19:47<26:21:08,  1.05s/it] 10%|▉         | 9753/100000 [5:19:48<25:25:05,  1.01s/it]                                                           10%|▉         | 9753/100000 [5:19:48<25:25:05,  1.01s/it] 10%|▉         | 9754/100000 [5:19:49<24:34:03,  1.02it/s]                                                           10%|▉         | 9754/100000 [5:19:49<24:34:03,  1.02it/s] 10%|▉         | 9755/100000 [5:19:50<23:42:09,  1.06it/s]                                                           10%|▉         | 9755/100000 [5:19:50<23:42:09,  1.06it/s] 10%|▉         | 9756/100000 [5:19:51<22:43:39,  1.10it/s]                                                           10%|▉         | 9756/100000 [5:19:51<22:43:39,  1.10it/s]{'loss': 0.0142, 'grad_norm': 0.4291934370994568, 'learning_rate': 2.9124e-05, 'epoch': 17.92}
+{'loss': 0.0225, 'grad_norm': 0.8048538565635681, 'learning_rate': 2.9127e-05, 'epoch': 17.92}
+{'loss': 0.0074, 'grad_norm': 0.35469120740890503, 'learning_rate': 2.913e-05, 'epoch': 17.92}
+{'loss': 0.0212, 'grad_norm': 0.8907756209373474, 'learning_rate': 2.9133e-05, 'epoch': 17.92}
+{'loss': 0.1914, 'grad_norm': 1.0798656940460205, 'learning_rate': 2.9136e-05, 'epoch': 17.93}
+{'loss': 0.1628, 'grad_norm': 0.8650581240653992, 'learning_rate': 2.9139000000000003e-05, 'epoch': 17.93}
+{'loss': 0.1243, 'grad_norm': 0.8818985819816589, 'learning_rate': 2.9142000000000003e-05, 'epoch': 17.93}
+{'loss': 0.1201, 'grad_norm': 0.9086804986000061, 'learning_rate': 2.9145000000000003e-05, 'epoch': 17.93}
+{'loss': 0.0855, 'grad_norm': 0.5983270406723022, 'learning_rate': 2.9148000000000003e-05, 'epoch': 17.93}
+{'loss': 0.0799, 'grad_norm': 0.6448835730552673, 'learning_rate': 2.9151000000000003e-05, 'epoch': 17.93}
+{'loss': 0.1022, 'grad_norm': 0.9719138145446777, 'learning_rate': 2.9154e-05, 'epoch': 17.94}
+{'loss': 0.0639, 'grad_norm': 0.4985361397266388, 'learning_rate': 2.9157e-05, 'epoch': 17.94}
+{'loss': 0.0661, 'grad_norm': 0.5949772000312805, 'learning_rate': 2.916e-05, 'epoch': 17.94}
+{'loss': 0.0676, 'grad_norm': 0.4565816819667816, 'learning_rate': 2.9163e-05, 'epoch': 17.94}
+{'loss': 0.0749, 'grad_norm': 0.7509490847587585, 'learning_rate': 2.9165999999999998e-05, 'epoch': 17.94}
+{'loss': 0.0221, 'grad_norm': 0.3464672565460205, 'learning_rate': 2.9169e-05, 'epoch': 17.95}
+{'loss': 0.0294, 'grad_norm': 0.39118891954421997, 'learning_rate': 2.9172e-05, 'epoch': 17.95}
+{'loss': 0.0638, 'grad_norm': 0.7514564394950867, 'learning_rate': 2.9175e-05, 'epoch': 17.95}
+{'loss': 0.025, 'grad_norm': 0.35066482424736023, 'learning_rate': 2.9178e-05, 'epoch': 17.95}
+{'loss': 0.0182, 'grad_norm': 0.4681917130947113, 'learning_rate': 2.9181e-05, 'epoch': 17.95}
+{'loss': 0.0193, 'grad_norm': 0.44393619894981384, 'learning_rate': 2.9184e-05, 'epoch': 17.95}
+{'loss': 0.0113, 'grad_norm': 0.31914278864860535, 'learning_rate': 2.9187e-05, 'epoch': 17.96}
+{'loss': 0.0123, 'grad_norm': 0.23968352377414703, 'learning_rate': 2.919e-05, 'epoch': 17.96}
+{'loss': 0.0124, 'grad_norm': 0.5183699131011963, 'learning_rate': 2.9193e-05, 'epoch': 17.96}
+{'loss': 0.008, 'grad_norm': 0.19911415874958038, 'learning_rate': 2.9196e-05, 'epoch': 17.96}
+{'loss': 0.0245, 'grad_norm': 0.5218525528907776, 'learning_rate': 2.9199000000000003e-05, 'epoch': 17.96}
+{'loss': 0.0136, 'grad_norm': 0.25067374110221863, 'learning_rate': 2.9202000000000003e-05, 'epoch': 17.97}
+{'loss': 0.0185, 'grad_norm': 0.3637305796146393, 'learning_rate': 2.9205000000000002e-05, 'epoch': 17.97}
+{'loss': 0.0206, 'grad_norm': 0.6495672464370728, 'learning_rate': 2.9208000000000002e-05, 'epoch': 17.97}
+{'loss': 0.0179, 'grad_norm': 0.589525043964386, 'learning_rate': 2.9211000000000002e-05, 'epoch': 17.97}
+{'loss': 0.0257, 'grad_norm': 0.46126195788383484, 'learning_rate': 2.9214000000000002e-05, 'epoch': 17.97}
+{'loss': 0.0114, 'grad_norm': 0.24324364960193634, 'learning_rate': 2.9217e-05, 'epoch': 17.98}
+{'loss': 0.0161, 'grad_norm': 0.44025933742523193, 'learning_rate': 2.922e-05, 'epoch': 17.98}
+{'loss': 0.0143, 'grad_norm': 0.3250148892402649, 'learning_rate': 2.9223e-05, 'epoch': 17.98}
+{'loss': 0.0188, 'grad_norm': 0.5272476673126221, 'learning_rate': 2.9226e-05, 'epoch': 17.98}
+{'loss': 0.0309, 'grad_norm': 2.31430983543396, 'learning_rate': 2.9229e-05, 'epoch': 17.98}
+{'loss': 0.0054, 'grad_norm': 0.20313288271427155, 'learning_rate': 2.9232e-05, 'epoch': 17.98}
+{'loss': 0.0069, 'grad_norm': 0.17994390428066254, 'learning_rate': 2.9235e-05, 'epoch': 17.99}
+{'loss': 0.0066, 'grad_norm': 0.675997257232666, 'learning_rate': 2.9238e-05, 'epoch': 17.99}
+{'loss': 0.0153, 'grad_norm': 0.5051863193511963, 'learning_rate': 2.9241e-05, 'epoch': 17.99}
+{'loss': 0.0179, 'grad_norm': 0.46311643719673157, 'learning_rate': 2.9244e-05, 'epoch': 17.99}
+{'loss': 0.0125, 'grad_norm': 0.38243719935417175, 'learning_rate': 2.9247e-05, 'epoch': 17.99}
+{'loss': 0.034, 'grad_norm': 0.46555525064468384, 'learning_rate': 2.925e-05, 'epoch': 18.0}
+{'loss': 0.0154, 'grad_norm': 0.41126081347465515, 'learning_rate': 2.9253e-05, 'epoch': 18.0}
+{'loss': 0.0344, 'grad_norm': 0.7898223996162415, 'learning_rate': 2.9256e-05, 'epoch': 18.0}
+{'loss': 0.0256, 'grad_norm': 0.8481200933456421, 'learning_rate': 2.9259e-05, 'epoch': 18.0}
+ 10%|▉         | 9757/100000 [5:20:09<149:47:17,  5.98s/it]                                                            10%|▉         | 9757/100000 [5:20:09<149:47:17,  5.98s/it] 10%|▉         | 9758/100000 [5:20:14<143:02:20,  5.71s/it]                                                            10%|▉         | 9758/100000 [5:20:14<143:02:20,  5.71s/it] 10%|▉         | 9759/100000 [5:20:18<134:41:28,  5.37s/it]                                                            10%|▉         | 9759/100000 [5:20:18<134:41:28,  5.37s/it] 10%|▉         | 9760/100000 [5:20:22<124:09:56,  4.95s/it]                                                            10%|▉         | 9760/100000 [5:20:22<124:09:56,  4.95s/it] 10%|▉         | 9761/100000 [5:20:26<113:14:48,  4.52s/it]                                                            10%|▉         | 9761/100000 [5:20:26<113:14:48,  4.52s/it] 10%|▉         | 9762/100000 [5:20:29<102:08:54,  4.08s/it]                                                            10%|▉         | 9762/100000 [5:20:29<102:08:54,  4.08s/it] 10%|▉         | 9763/100000 [5:20:32<94:01:00,  3.75s/it]                                                            10%|▉         | 9763/100000 [5:20:32<94:01:00,  3.75s/it] 10%|▉         | 9764/100000 [5:20:34<85:53:49,  3.43s/it]                                                           10%|▉         | 9764/100000 [5:20:34<85:53:49,  3.43s/it] 10%|▉         | 9765/100000 [5:20:37<78:57:45,  3.15s/it]                                                           10%|▉         | 9765/100000 [5:20:37<78:57:45,  3.15s/it] 10%|▉         | 9766/100000 [5:20:39<72:56:24,  2.91s/it]                                                           10%|▉         | 9766/100000 [5:20:39<72:56:24,  2.91s/it] 10%|▉         | 9767/100000 [5:20:41<67:20:13,  2.69s/it]                                                           10%|▉         | 9767/100000 [5:20:41<67:20:13,  2.69s/it] 10%|▉         | 9768/100000 [5:20:43<62:22:58,  2.49s/it]                                                           10%|▉         | 9768/100000 [5:20:43<62:22:58,  2.49s/it] 10%|▉         | 9769/100000 [5:20:45<57:39:01,  2.30s/it]                                                           10%|▉         | 9769/100000 [5:20:45<57:39:01,  2.30s/it] 10%|▉         | 9770/100000 [5:20:47<54:06:48,  2.16s/it]                                                           10%|▉         | 9770/100000 [5:20:47<54:06:48,  2.16s/it] 10%|▉         | 9771/100000 [5:20:49<50:09:08,  2.00s/it]                                                           10%|▉         | 9771/100000 [5:20:49<50:09:08,  2.00s/it] 10%|▉         | 9772/100000 [5:20:50<47:43:19,  1.90s/it]                                                           10%|▉         | 9772/100000 [5:20:50<47:43:19,  1.90s/it] 10%|▉         | 9773/100000 [5:20:52<45:10:25,  1.80s/it]                                                           10%|▉         | 9773/100000 [5:20:52<45:10:25,  1.80s/it] 10%|▉         | 9774/100000 [5:20:54<43:32:25,  1.74s/it]                                                           10%|▉         | 9774/100000 [5:20:54<43:32:25,  1.74s/it] 10%|▉         | 9775/100000 [5:20:55<42:04:32,  1.68s/it]                                                           10%|▉         | 9775/100000 [5:20:55<42:04:32,  1.68s/it] 10%|▉         | 9776/100000 [5:20:57<40:19:50,  1.61s/it]                                                           10%|▉         | 9776/100000 [5:20:57<40:19:50,  1.61s/it] 10%|▉         | 9777/100000 [5:20:58<39:12:17,  1.56s/it]                                                           10%|▉         | 9777/100000 [5:20:58<39:12:17,  1.56s/it] 10%|▉         | 9778/100000 [5:20:59<37:55:10,  1.51s/it]                                                           10%|▉         | 9778/100000 [5:20:59<37:55:10,  1.51s/it] 10%|▉         | 9779/100000 [5:21:01<37:00:38,  1.48s/it]                                                           10%|▉         | 9779/100000 [5:21:01<37:00:38,  1.48s/it] 10%|▉         | 9780/100000 [5:21:02<36:29:33,  1.46s/it]                                                           10%|▉         | 9780/100000 [5:21:02<36:29:33,  1.46s/it] 10%|▉         | 9781/100000 [5:21:04<35:37:08,  1.42s/it]                                                           10%|▉         | 9781/100000 [5:21:04<35:37:08,  1.42s/it] 10%|▉         | 9782/100000 [5:21:05<34:40:30,  1.38s/it]                                                           10%|▉         | 9782/100000 [5:21:05<34:40:30,  1.38s/it] 10%|▉         | 9783/100000 [5:21:06<34:24:13,  1.37s/it]                                                           10%|▉         | 9783/100000 [5:21:06<34:24:13,  1.37s/it] 10%|▉         | 9784/100000 [5:21:08<33:33:08,  1.34s/it]                                                           10%|▉         | 9784/100000 [5:21:08<33:33:08,  1.34s/it] 10%|▉         | 9785/100000 [5:21:09<33:00:33,  1.32s/it]                                                           10%|▉         | 9785/100000 [5:21:09<33:00:33,  1.32s/it] 10%|▉         | 9786/100000 [5:21:10<32:31:06,  1.30s/it]                                                           10%|▉         | 9786/100000 [5:21:10<32:31:06,  1.30s/it] 10%|▉         | 9787/100000 [5:21:11<32:12:45,  1.29s/it]                                                           10%|▉         | 9787/100000 [5:21:11<32:12:45,  1.29s/it] 10%|▉         | 9788/100000 [5:21:12<31:33:57,  1.26s/it]                                                           10%|▉         | 9788/100000 [5:21:12<31:33:57,  1.26s/it] 10%|▉         | 9789/100000 [5:21:14<31:04:45,  1.24s/it]                                                           10%|▉         | 9789/100000 [5:21:14<31:04:45,  1.24s/it] 10%|▉         | 9790/100000 [5:21:15<30:20:27,  1.21s/it]                                                           10%|▉         | 9790/100000 [5:21:15<30:20:27,  1.21s/it] 10%|▉         | 9791/100000 [5:21:16<30:05:02,  1.20s/it]                                                           10%|▉         | 9791/100000 [5:21:16<30:05:02,  1.20s/it] 10%|▉         | 9792/100000 [5:21:17<29:45:43,  1.19s/it]                                                           10%|▉         | 9792/100000 [5:21:17<29:45:43,  1.19s/it] 10%|▉         | 9793/100000 [5:21:18<29:27:19,  1.18s/it]                                                           10%|▉         | 9793/100000 [5:21:18<29:27:19,  1.18s/it] 10%|▉         | 9794/100000 [5:21:19<28:58:27,  1.16s/it]                                                           10%|▉         | 9794/100000 [5:21:19<28:58:27,  1.16s/it] 10%|▉         | 9795/100000 [5:21:21<28:29:12,  1.14s/it]                                                           10%|▉         | 9795/100000 [5:21:21<28:29:12,  1.14s/it] 10%|▉         | 9796/100000 [5:21:22<28:00:02,  1.12s/it]                                                           10%|▉         | 9796/100000 [5:21:22<28:00:02,  1.12s/it] 10%|▉         | 9797/100000 [5:21:23<27:25:00,  1.09s/it]                                                           10%|▉         | 9797/100000 [5:21:23<27:25:00,  1.09s/it] 10%|▉         | 9798/100000 [5:21:24<27:07:15,  1.08s/it]                                                           10%|▉         | 9798/100000 [5:21:24<27:07:15,  1.08s/it] 10%|▉         | 9799/100000 [5:21:25<26:41:38,  1.07s/it]                                                           10%|▉         | 9799/100000 [5:21:25<26:41:38,  1.07s/it] 10%|▉         | 9800/100000 [5:21:26<26:12:09,  1.05s/it]                                                           10%|▉         | 9800/100000 [5:21:26<26:12:09,  1.05s/it] 10%|▉         | 9801/100000 [5:21:27<25:31:58,  1.02s/it]                                                           10%|▉         | 9801/100000 [5:21:27<25:31:58,  1.02s/it] 10%|▉         | 9802/100000 [5:21:28<25:15:06,  1.01s/it]                                                           10%|▉         | 9802/100000 [5:21:28<25:15:06,  1.01s/it] 10%|▉         | 9803/100000 [5:21:29<24:56:48,  1.00it/s]                                                           10%|▉         | 9803/100000 [5:21:29<24:56:48,  1.00it/s] 10%|▉         | 9804/100000 [5:21:30<24:26:42,  1.02it/s]                                                           10%|▉         | 9804/100000 [5:21:30<24:26:42,  1.02it/s] 10%|▉         | 9805/100000 [5:21:30<23:58:05,  1.05it/s]                                                           10%|▉         | 9805/100000 [5:21:30<23:58:05,  1.05it/s] 10%|▉         | 9806/100000 [5:21:31<23:06:39,  1.08it/s]                                                           10%|▉         | 9806/100000 [5:21:31<23:06:39,  1.08it/s] 10%|▉         | 9807/100000 [5:21:42<96:54:00,  3.87s/it]                                                           10%|▉         | 9807/100000 [5:21:42<96:54:00,  3.87s/it] 10%|▉         | 9808/100000 [5:21:47<108:48:45,  4.34s/it]                                                            10%|▉         | 9808/100000 [5:21:48<108:48:45,  4.34s/it] 10%|▉         | 9809/100000 [5:21:52<112:47:30,  4.50s/it]                                                            10%|▉         | 9809/100000 [5:21:52<112:47:30,  4.50s/it] 10%|▉         | 9810/100000 [5:21:56<109:56:40,  4.39s/it]                                                            10%|▉         | 9810/100000 [5:21:57<109:56:40,  4.39s/it] 10%|▉         | 9811/100000 [5:22:00<104:36:01,  4.18s/it]                                                            10%|▉         | 9811/100000 [5:22:00<104:36:01,  4.18s/it] 10%|▉         | 9812/100000 [5:22:04<98:24:52,  3.93s/it]                                                            10%|▉         | 9812/100000 [5:22:04<98:24:52,  3.93s/it] 10%|▉         | 9813/100000 [5:22:07<91:18:57,  3.65s/it]                                                           10%|▉         | 9813/100000 [5:22:07<91:18:57,  3.65s/it] 10%|▉         | 9814/100000 [5:22:09<84:42:41,  3.38s/it]                                                           10%|▉         | 9814/100000 [5:22:09<84:42:41,  3.38s/it] 10%|▉         | 9815/100000 [5:22:12<78:01:13,  3.11s/it]                                                           10%|▉         | 9815/100000 [5:22:12<78:01:13,  3.11s/it] 10%|▉         | 9816/100000 [5:22:14<71:22:20,  2.85s/it]                                                           10%|▉         | 9816/100000 [5:22:14<71:22:20,  2.85s/it] 10%|▉         | 9817/100000 [5:22:16<65:35:24,  2.62s/it]                                                           10%|▉         | 9817/100000 [5:22:16<65:35:24,  2.62s/it] 10%|▉         | 9818/100000 [5:22:18<60:47:47,  2.43s/it]                                                           10%|▉         | 9818/100000 [5:22:18<60:47:47,  2.43s/it] 10%|▉         | 9819/100000 [5:22:20<56:47:19,  2.27s/it]                                                           10%|▉         | 9819/100000 [5:22:20<56:47:19,  2.27s/it] 10%|▉         | 9820/100000 [5:22:22<53:19:45,  2.13s/it]                                                           10%|▉         | 9820/100000 [5:22:22<53:19:45,  2.13s/it] 10%|▉         | 9821/100000 [5:22:23<50:11:44,  2.00s/it]                                                           10%|▉         | 9821/100000 [5:22:23<50:11:44,  2.00s/it] 10%|▉         | 9822/100000 [5:22:25<47:36:20,  1.90s/it]                                                           10%|▉         | 9822/100000 [5:22:25<47:36:20,  1.90s/it] 10%|▉         | 9823/100000 [5:22:27<45:26:03,  1.81s/it]                                                           10%|▉         | 9823/100000 [5:22:27<45:26:03,  1.81s/it] 10%|▉         | 9824/100000 [5:22:28<43:44:55,  1.75s/it]                                                           10%|▉         | 9824/100000 [5:22:28<43:44:55,  1.75s/it] 10%|▉         | 9825/100000 [5:22:30<42:14:07,  1.69s/it]                                                           10%|▉         | 9825/100000 [5:22:30<42:14:07,  1.69s/it] 10%|▉         | 9826/100000 [5:22:31<40:34:37,  1.62s/it]                                                           10%|▉         | 9826/100000 [5:22:31<40:34:37,  1.62s/it] 10%|▉         | 9827/100000 [5:22:33<39:07:28,  1.56s/it]                                                           10%|▉         | 9827/100000 [5:22:33<39:07:28,  1.56s/it] 10%|▉         | 9828/100000 [5:22:34<37:49:47,  1.51s/it]                                                           10%|▉         | 9828/100000 [5:22:34<37:49:47,  1.51s/it] 10%|▉         | 9829/100000 [5:22:36<37:07:52,  1.48s/it]                                                           10%|▉         | 9829/100000 [5:22:36<37:07:52,  1.48s/it] 10%|▉         | 9830/100000 [5:22:37<36:11:20,  1.44s/it]                                                           10%|▉         | 9830/100000 [5:22:37<36:11:20,  1.44s/it] 10%|▉         | 9831/100000 [5:22:38<35:36:18,  1.42s/it]                                                           10%|▉         | 9831/100000 [5:22:38<35:36:18,  1.42s/it] 10%|▉         | 9832/100000 [5:22:40<34:48:47,  1.39s/it]                                                           10%|▉         | 9832/100000 [5:22:40<34:48:47,  1.39s/it] 10%|▉         | 9833/100000 [5:22:41<34:09:14,  1.36s/it]                                                           10%|▉         | 9833/100000 [5:22:41<34:09:14,  1.36s/it] 10%|▉         | 9834/100000 [5:22:42<33:52:59,  1.35s/it]                                                           10%|▉         | 9834/100000 [5:22:42<33:52:59,  1.35s/it] 10%|▉         | 9835/100000 [5:22:43<33:05:54,  1.32s/it]                                                           10%|▉         | 9835/100000 [5:22:43<33:05:54,  1.32s/it] 10%|▉         | 9836/100000 [5:22:45<32:45:00,  1.31s/it]                                                           10%|▉         | 9836/100000 [5:22:45<32:45:00,  1.31s/it] 10%|▉         | 9837/100000 [5:22:46<32:16:53,  1.29s/it]                                                           10%|▉         | 9837/100000 [5:22:46<32:16:53,  1.29s/it] 10%|▉         | 9838/100000 [5:22:47<31:33:51,  1.26s/it]                                                           10%|▉         | 9838/100000 [5:22:47<31:33:51,  1.26s/it] 10%|▉         | 9839/100000 [5:22:48<30:57:21,  1.24s/it]                                                           10%|▉         | 9839/100000 [5:22:48<30:57:21,  1.24s/it] 10%|▉         | 9840/100000 [5:22:50<30:28:05,  1.22s/it]                                                          {'loss': 0.2025, 'grad_norm': 0.9342116713523865, 'learning_rate': 2.9262000000000002e-05, 'epoch': 18.0}
+{'loss': 0.1379, 'grad_norm': 0.6150652170181274, 'learning_rate': 2.9265000000000002e-05, 'epoch': 18.0}
+{'loss': 0.2386, 'grad_norm': 0.7522546052932739, 'learning_rate': 2.9268e-05, 'epoch': 18.01}
+{'loss': 0.1439, 'grad_norm': 1.3952076435089111, 'learning_rate': 2.9271e-05, 'epoch': 18.01}
+{'loss': 0.1604, 'grad_norm': 1.392382025718689, 'learning_rate': 2.9274e-05, 'epoch': 18.01}
+{'loss': 0.1213, 'grad_norm': 0.8652476072311401, 'learning_rate': 2.9277e-05, 'epoch': 18.01}
+{'loss': 0.0917, 'grad_norm': 0.510383665561676, 'learning_rate': 2.928e-05, 'epoch': 18.01}
+{'loss': 0.1355, 'grad_norm': 0.7107333540916443, 'learning_rate': 2.9283e-05, 'epoch': 18.01}
+{'loss': 0.0964, 'grad_norm': 0.5975661277770996, 'learning_rate': 2.9286e-05, 'epoch': 18.02}
+{'loss': 0.0617, 'grad_norm': 0.6261776089668274, 'learning_rate': 2.9289e-05, 'epoch': 18.02}
+{'loss': 0.0557, 'grad_norm': 0.3411554992198944, 'learning_rate': 2.9292000000000003e-05, 'epoch': 18.02}
+{'loss': 0.049, 'grad_norm': 0.7305089235305786, 'learning_rate': 2.9295000000000003e-05, 'epoch': 18.02}
+{'loss': 0.0273, 'grad_norm': 0.506694495677948, 'learning_rate': 2.9298000000000003e-05, 'epoch': 18.02}
+{'loss': 0.1094, 'grad_norm': 0.5924853682518005, 'learning_rate': 2.9301e-05, 'epoch': 18.03}
+{'loss': 0.0271, 'grad_norm': 0.35882166028022766, 'learning_rate': 2.9304e-05, 'epoch': 18.03}
+{'loss': 0.0165, 'grad_norm': 0.44903764128685, 'learning_rate': 2.9307e-05, 'epoch': 18.03}
+{'loss': 0.0156, 'grad_norm': 0.36786243319511414, 'learning_rate': 2.931e-05, 'epoch': 18.03}
+{'loss': 0.0079, 'grad_norm': 0.1827472448348999, 'learning_rate': 2.9313e-05, 'epoch': 18.03}
+{'loss': 0.0158, 'grad_norm': 0.36526259779930115, 'learning_rate': 2.9316e-05, 'epoch': 18.04}
+{'loss': 0.0098, 'grad_norm': 0.23194356262683868, 'learning_rate': 2.9318999999999998e-05, 'epoch': 18.04}
+{'loss': 0.0213, 'grad_norm': 0.6627047657966614, 'learning_rate': 2.9322e-05, 'epoch': 18.04}
+{'loss': 0.0105, 'grad_norm': 0.22040517628192902, 'learning_rate': 2.9325e-05, 'epoch': 18.04}
+{'loss': 0.0093, 'grad_norm': 0.223483607172966, 'learning_rate': 2.9328e-05, 'epoch': 18.04}
+{'loss': 0.0142, 'grad_norm': 0.6126001477241516, 'learning_rate': 2.9331e-05, 'epoch': 18.04}
+{'loss': 0.0172, 'grad_norm': 0.2615165114402771, 'learning_rate': 2.9334e-05, 'epoch': 18.05}
+{'loss': 0.0118, 'grad_norm': 0.3288552761077881, 'learning_rate': 2.9337e-05, 'epoch': 18.05}
+{'loss': 0.009, 'grad_norm': 0.1888730674982071, 'learning_rate': 2.934e-05, 'epoch': 18.05}
+{'loss': 0.0089, 'grad_norm': 0.3395959138870239, 'learning_rate': 2.9343e-05, 'epoch': 18.05}
+{'loss': 0.0043, 'grad_norm': 0.1359689086675644, 'learning_rate': 2.9346e-05, 'epoch': 18.05}
+{'loss': 0.0145, 'grad_norm': 0.3583788573741913, 'learning_rate': 2.9349e-05, 'epoch': 18.06}
+{'loss': 0.0089, 'grad_norm': 0.34380096197128296, 'learning_rate': 2.9352000000000003e-05, 'epoch': 18.06}
+{'loss': 0.0098, 'grad_norm': 0.2520500123500824, 'learning_rate': 2.9355000000000003e-05, 'epoch': 18.06}
+{'loss': 0.0146, 'grad_norm': 0.6030365824699402, 'learning_rate': 2.9358000000000003e-05, 'epoch': 18.06}
+{'loss': 0.004, 'grad_norm': 0.29205048084259033, 'learning_rate': 2.9361000000000002e-05, 'epoch': 18.06}
+{'loss': 0.0091, 'grad_norm': 0.3522581458091736, 'learning_rate': 2.9364000000000002e-05, 'epoch': 18.06}
+{'loss': 0.0066, 'grad_norm': 0.25486263632774353, 'learning_rate': 2.9367000000000002e-05, 'epoch': 18.07}
+{'loss': 0.012, 'grad_norm': 0.2006990760564804, 'learning_rate': 2.9370000000000002e-05, 'epoch': 18.07}
+{'loss': 0.0101, 'grad_norm': 0.19068430364131927, 'learning_rate': 2.9373e-05, 'epoch': 18.07}
+{'loss': 0.0086, 'grad_norm': 0.2882688045501709, 'learning_rate': 2.9375999999999998e-05, 'epoch': 18.07}
+{'loss': 0.0172, 'grad_norm': 0.27749103307724, 'learning_rate': 2.9378999999999998e-05, 'epoch': 18.07}
+{'loss': 0.0081, 'grad_norm': 0.29392507672309875, 'learning_rate': 2.9382e-05, 'epoch': 18.08}
+{'loss': 0.0278, 'grad_norm': 0.7844383120536804, 'learning_rate': 2.9385e-05, 'epoch': 18.08}
+{'loss': 0.0053, 'grad_norm': 0.18613365292549133, 'learning_rate': 2.9388e-05, 'epoch': 18.08}
+{'loss': 0.0109, 'grad_norm': 0.3608344793319702, 'learning_rate': 2.9391e-05, 'epoch': 18.08}
+{'loss': 0.008, 'grad_norm': 0.32925644516944885, 'learning_rate': 2.9394e-05, 'epoch': 18.08}
+{'loss': 0.0091, 'grad_norm': 0.21824046969413757, 'learning_rate': 2.9397e-05, 'epoch': 18.08}
+{'loss': 0.0125, 'grad_norm': 0.36572808027267456, 'learning_rate': 2.94e-05, 'epoch': 18.09}
+{'loss': 0.0148, 'grad_norm': 0.40578538179397583, 'learning_rate': 2.9403e-05, 'epoch': 18.09}
+{'loss': 0.0146, 'grad_norm': 0.4316546320915222, 'learning_rate': 2.9406e-05, 'epoch': 18.09}
+{'loss': 0.007, 'grad_norm': 0.383820503950119, 'learning_rate': 2.9409e-05, 'epoch': 18.09}
+{'loss': 0.2356, 'grad_norm': 0.9452648162841797, 'learning_rate': 2.9412000000000002e-05, 'epoch': 18.09}
+{'loss': 0.1892, 'grad_norm': 0.7241860628128052, 'learning_rate': 2.9415000000000002e-05, 'epoch': 18.1}
+{'loss': 0.0974, 'grad_norm': 1.6240252256393433, 'learning_rate': 2.9418000000000002e-05, 'epoch': 18.1}
+{'loss': 0.133, 'grad_norm': 0.9428126811981201, 'learning_rate': 2.9421000000000002e-05, 'epoch': 18.1}
+{'loss': 0.1401, 'grad_norm': 0.7279912233352661, 'learning_rate': 2.9424e-05, 'epoch': 18.1}
+{'loss': 0.0827, 'grad_norm': 0.5566812753677368, 'learning_rate': 2.9427e-05, 'epoch': 18.1}
+{'loss': 0.0868, 'grad_norm': 0.34377196431159973, 'learning_rate': 2.943e-05, 'epoch': 18.11}
+{'loss': 0.0655, 'grad_norm': 0.39494451880455017, 'learning_rate': 2.9433e-05, 'epoch': 18.11}
+{'loss': 0.0541, 'grad_norm': 0.5374976396560669, 'learning_rate': 2.9436e-05, 'epoch': 18.11}
+{'loss': 0.0617, 'grad_norm': 0.5303835272789001, 'learning_rate': 2.9439e-05, 'epoch': 18.11}
+{'loss': 0.0652, 'grad_norm': 0.4022885859012604, 'learning_rate': 2.9442000000000004e-05, 'epoch': 18.11}
+{'loss': 0.0368, 'grad_norm': 0.3138822019100189, 'learning_rate': 2.9445000000000004e-05, 'epoch': 18.11}
+{'loss': 0.0383, 'grad_norm': 0.4218757450580597, 'learning_rate': 2.9448e-05, 'epoch': 18.12}
+{'loss': 0.0613, 'grad_norm': 1.328559398651123, 'learning_rate': 2.9451e-05, 'epoch': 18.12}
+{'loss': 0.0326, 'grad_norm': 0.26926133036613464, 'learning_rate': 2.9454e-05, 'epoch': 18.12}
+{'loss': 0.0215, 'grad_norm': 0.36706602573394775, 'learning_rate': 2.9457e-05, 'epoch': 18.12}
+{'loss': 0.0217, 'grad_norm': 0.5583202838897705, 'learning_rate': 2.946e-05, 'epoch': 18.12}
+{'loss': 0.0223, 'grad_norm': 0.38190707564353943, 'learning_rate': 2.9463e-05, 'epoch': 18.13}
+{'loss': 0.0485, 'grad_norm': 0.4724488854408264, 'learning_rate': 2.9466e-05, 'epoch': 18.13}
+{'loss': 0.0307, 'grad_norm': 0.3241349458694458, 'learning_rate': 2.9469e-05, 'epoch': 18.13}
+{'loss': 0.0056, 'grad_norm': 0.12482421100139618, 'learning_rate': 2.9472000000000002e-05, 'epoch': 18.13}
+{'loss': 0.0254, 'grad_norm': 0.2672232985496521, 'learning_rate': 2.9475e-05, 'epoch': 18.13}
+{'loss': 0.0135, 'grad_norm': 0.27123939990997314, 'learning_rate': 2.9478e-05, 'epoch': 18.13}
+{'loss': 0.0118, 'grad_norm': 0.25711241364479065, 'learning_rate': 2.9481e-05, 'epoch': 18.14}
+{'loss': 0.0175, 'grad_norm': 0.540631115436554, 'learning_rate': 2.9484e-05, 'epoch': 18.14}
+{'loss': 0.0123, 'grad_norm': 0.517338216304779, 'learning_rate': 2.9487e-05, 'epoch': 18.14}
+{'loss': 0.0072, 'grad_norm': 0.19550421833992004, 'learning_rate': 2.949e-05, 'epoch': 18.14}
+{'loss': 0.008, 'grad_norm': 0.24754598736763, 'learning_rate': 2.9493e-05, 'epoch': 18.14}
+{'loss': 0.0108, 'grad_norm': 0.18133080005645752, 'learning_rate': 2.9496e-05, 'epoch': 18.15}
+{'loss': 0.0143, 'grad_norm': 0.27041253447532654, 'learning_rate': 2.9499e-05, 'epoch': 18.15}
+{'loss': 0.0075, 'grad_norm': 0.22081269323825836, 'learning_rate': 2.9502000000000003e-05, 'epoch': 18.15}
+{'loss': 0.0077, 'grad_norm': 0.37559419870376587, 'learning_rate': 2.9505000000000003e-05, 'epoch': 18.15}
+{'loss': 0.0108, 'grad_norm': 0.22016127407550812, 'learning_rate': 2.9508000000000003e-05, 'epoch': 18.15}
+ 10%|▉         | 9840/100000 [5:22:50<30:28:05,  1.22s/it] 10%|▉         | 9841/100000 [5:22:51<29:48:13,  1.19s/it]                                                           10%|▉         | 9841/100000 [5:22:51<29:48:13,  1.19s/it] 10%|▉         | 9842/100000 [5:22:52<29:32:32,  1.18s/it]                                                           10%|▉         | 9842/100000 [5:22:52<29:32:32,  1.18s/it] 10%|▉         | 9843/100000 [5:22:53<29:13:08,  1.17s/it]                                                           10%|▉         | 9843/100000 [5:22:53<29:13:08,  1.17s/it] 10%|▉         | 9844/100000 [5:22:54<28:46:30,  1.15s/it]                                                           10%|▉         | 9844/100000 [5:22:54<28:46:30,  1.15s/it] 10%|▉         | 9845/100000 [5:22:55<28:16:01,  1.13s/it]                                                           10%|▉         | 9845/100000 [5:22:55<28:16:01,  1.13s/it] 10%|▉         | 9846/100000 [5:22:56<27:49:17,  1.11s/it]                                                           10%|▉         | 9846/100000 [5:22:56<27:49:17,  1.11s/it] 10%|▉         | 9847/100000 [5:22:57<27:24:26,  1.09s/it]                                                           10%|▉         | 9847/100000 [5:22:57<27:24:26,  1.09s/it] 10%|▉         | 9848/100000 [5:22:58<27:02:02,  1.08s/it]                                                           10%|▉         | 9848/100000 [5:22:58<27:02:02,  1.08s/it] 10%|▉         | 9849/100000 [5:22:59<26:52:37,  1.07s/it]                                                           10%|▉         | 9849/100000 [5:22:59<26:52:37,  1.07s/it] 10%|▉         | 9850/100000 [5:23:00<26:33:05,  1.06s/it]                                                           10%|▉         | 9850/100000 [5:23:00<26:33:05,  1.06s/it] 10%|▉         | 9851/100000 [5:23:01<26:05:54,  1.04s/it]                                                           10%|▉         | 9851/100000 [5:23:01<26:05:54,  1.04s/it] 10%|▉         | 9852/100000 [5:23:02<25:44:42,  1.03s/it]                                                           10%|▉         | 9852/100000 [5:23:02<25:44:42,  1.03s/it] 10%|▉         | 9853/100000 [5:23:03<25:24:44,  1.01s/it]                                                           10%|▉         | 9853/100000 [5:23:03<25:24:44,  1.01s/it] 10%|▉         | 9854/100000 [5:23:04<24:38:34,  1.02it/s]                                                           10%|▉         | 9854/100000 [5:23:04<24:38:34,  1.02it/s] 10%|▉         | 9855/100000 [5:23:05<23:50:24,  1.05it/s]                                                           10%|▉         | 9855/100000 [5:23:05<23:50:24,  1.05it/s] 10%|▉         | 9856/100000 [5:23:06<23:14:36,  1.08it/s]                                                           10%|▉         | 9856/100000 [5:23:06<23:14:36,  1.08it/s] 10%|▉         | 9857/100000 [5:23:18<106:27:14,  4.25s/it]                                                            10%|▉         | 9857/100000 [5:23:18<106:27:14,  4.25s/it] 10%|▉         | 9858/100000 [5:23:24<119:12:08,  4.76s/it]                                                            10%|▉         | 9858/100000 [5:23:24<119:12:08,  4.76s/it] 10%|▉         | 9859/100000 [5:23:29<119:02:38,  4.75s/it]                                                            10%|▉         | 9859/100000 [5:23:29<119:02:38,  4.75s/it] 10%|▉         | 9860/100000 [5:23:33<113:28:40,  4.53s/it]                                                            10%|▉         | 9860/100000 [5:23:33<113:28:40,  4.53s/it] 10%|▉         | 9861/100000 [5:23:36<106:18:33,  4.25s/it]                                                            10%|▉         | 9861/100000 [5:23:36<106:18:33,  4.25s/it] 10%|▉         | 9862/100000 [5:23:40<99:21:54,  3.97s/it]                                                            10%|▉         | 9862/100000 [5:23:40<99:21:54,  3.97s/it] 10%|▉         | 9863/100000 [5:23:43<92:35:22,  3.70s/it]                                                           10%|▉         | 9863/100000 [5:23:43<92:35:22,  3.70s/it] 10%|▉         | 9864/100000 [5:23:46<86:15:48,  3.45s/it]                                                           10%|▉         | 9864/100000 [5:23:46<86:15:48,  3.45s/it] 10%|▉         | 9865/100000 [5:23:48<79:42:38,  3.18s/it]                                                           10%|▉         | 9865/100000 [5:23:48<79:42:38,  3.18s/it] 10%|▉         | 9866/100000 [5:23:50<73:11:33,  2.92s/it]                                                           10%|▉         | 9866/100000 [5:23:50<73:11:33,  2.92s/it] 10%|▉         | 9867/100000 [5:23:53<68:03:27,  2.72s/it]                                                           10%|▉         | 9867/100000 [5:23:53<68:03:27,  2.72s/it] 10%|▉         | 9868/100000 [5:23:55<63:22:17,  2.53s/it]                                                           10%|▉         | 9868/100000 [5:23:55<63:22:17,  2.53s/it] 10%|▉         | 9869/100000 [5:23:57<58:47:36,  2.35s/it]                                                           10%|▉         | 9869/100000 [5:23:57<58:47:36,  2.35s/it] 10%|▉         | 9870/100000 [5:23:59<54:59:02,  2.20s/it]                                                           10%|▉         | 9870/100000 [5:23:59<54:59:02,  2.20s/it] 10%|▉         | 9871/100000 [5:24:00<51:21:22,  2.05s/it]                                                           10%|▉         | 9871/100000 [5:24:00<51:21:22,  2.05s/it] 10%|▉         | 9872/100000 [5:24:02<48:53:14,  1.95s/it]                                                           10%|▉         | 9872/100000 [5:24:02<48:53:14,  1.95s/it] 10%|▉         | 9873/100000 [5:24:04<46:32:03,  1.86s/it]                                                           10%|▉         | 9873/100000 [5:24:04<46:32:03,  1.86s/it] 10%|▉         | 9874/100000 [5:24:05<44:38:58,  1.78s/it]                                                           10%|▉         | 9874/100000 [5:24:05<44:38:58,  1.78s/it] 10%|▉         | 9875/100000 [5:24:07<42:39:36,  1.70s/it]                                                           10%|▉         | 9875/100000 [5:24:07<42:39:36,  1.70s/it] 10%|▉         | 9876/100000 [5:24:08<40:41:26,  1.63s/it]                                                           10%|▉         | 9876/100000 [5:24:08<40:41:26,  1.63s/it] 10%|▉         | 9877/100000 [5:24:10<39:13:54,  1.57s/it]                                                           10%|▉         | 9877/100000 [5:24:10<39:13:54,  1.57s/it] 10%|▉         | 9878/100000 [5:24:11<38:01:01,  1.52s/it]                                                           10%|▉         | 9878/100000 [5:24:11<38:01:01,  1.52s/it] 10%|▉         | 9879/100000 [5:24:12<37:11:59,  1.49s/it]                                                           10%|▉         | 9879/100000 [5:24:12<37:11:59,  1.49s/it] 10%|▉         | 9880/100000 [5:24:14<35:56:51,  1.44s/it]                                                           10%|▉         | 9880/100000 [5:24:14<35:56:51,  1.44s/it] 10%|▉         | 9881/100000 [5:24:15<35:17:23,  1.41s/it]                                                           10%|▉         | 9881/100000 [5:24:15<35:17:23,  1.41s/it] 10%|▉         | 9882/100000 [5:24:16<34:53:28,  1.39s/it]                                                           10%|▉         | 9882/100000 [5:24:16<34:53:28,  1.39s/it] 10%|▉         | 9883/100000 [5:24:18<34:10:51,  1.37s/it]                                                           10%|▉         | 9883/100000 [5:24:18<34:10:51,  1.37s/it] 10%|▉         | 9884/100000 [5:24:19<33:48:17,  1.35s/it]                                                           10%|▉         | 9884/100000 [5:24:19<33:48:17,  1.35s/it] 10%|▉         | 9885/100000 [5:24:20<33:14:33,  1.33s/it]                                                           10%|▉         | 9885/100000 [5:24:20<33:14:33,  1.33s/it] 10%|▉         | 9886/100000 [5:24:22<32:42:47,  1.31s/it]                                                           10%|▉         | 9886/100000 [5:24:22<32:42:47,  1.31s/it] 10%|▉         | 9887/100000 [5:24:23<32:21:44,  1.29s/it]                                                           10%|▉         | 9887/100000 [5:24:23<32:21:44,  1.29s/it] 10%|▉         | 9888/100000 [5:24:24<31:45:13,  1.27s/it]                                                           10%|▉         | 9888/100000 [5:24:24<31:45:13,  1.27s/it] 10%|▉         | 9889/100000 [5:24:25<31:26:39,  1.26s/it]                                                           10%|▉         | 9889/100000 [5:24:25<31:26:39,  1.26s/it] 10%|▉         | 9890/100000 [5:24:27<30:58:02,  1.24s/it]                                                           10%|▉         | 9890/100000 [5:24:27<30:58:02,  1.24s/it] 10%|▉         | 9891/100000 [5:24:28<30:17:35,  1.21s/it]                                                           10%|▉         | 9891/100000 [5:24:28<30:17:35,  1.21s/it] 10%|▉         | 9892/100000 [5:24:29<29:46:08,  1.19s/it]                                                           10%|▉         | 9892/100000 [5:24:29<29:46:08,  1.19s/it] 10%|▉         | 9893/100000 [5:24:30<29:28:29,  1.18s/it]                                                           10%|▉         | 9893/100000 [5:24:30<29:28:29,  1.18s/it] 10%|▉         | 9894/100000 [5:24:31<29:05:53,  1.16s/it]                                                           10%|▉         | 9894/100000 [5:24:31<29:05:53,  1.16s/it] 10%|▉         | 9895/100000 [5:24:32<28:15:54,  1.13s/it]                                                           10%|▉         | 9895/100000 [5:24:32<28:15:54,  1.13s/it] 10%|▉         | 9896/100000 [5:24:33<27:51:40,  1.11s/it]                                                           10%|▉         | 9896/100000 [5:24:33<27:51:40,  1.11s/it] 10%|▉         | 9897/100000 [5:24:34<27:19:19,  1.09s/it]                                                           10%|▉         | 9897/100000 [5:24:34<27:19:19,  1.09s/it] 10%|▉         | 9898/100000 [5:24:35<26:57:12,  1.08s/it]                                                           10%|▉         | 9898/100000 [5:24:35<26:57:12,  1.08s/it] 10%|▉         | 9899/100000 [5:24:36<26:47:33,  1.07s/it]                                                           10%|▉         | 9899/100000 [5:24:36<26:47:33,  1.07s/it] 10%|▉         | 9900/100000 [5:24:37<26:38:17,  1.06s/it]                                                           10%|▉         | 9900/100000 [5:24:37<26:38:17,  1.06s/it] 10%|▉         | 9901/100000 [5:24:38<26:21:17,  1.05s/it]                                                           10%|▉         | 9901/100000 [5:24:38<26:21:17,  1.05s/it] 10%|▉         | 9902/100000 [5:24:39<25:40:53,  1.03s/it]                                                           10%|▉         | 9902/100000 [5:24:39<25:40:53,  1.03s/it] 10%|▉         | 9903/100000 [5:24:40<25:07:15,  1.00s/it]                                                           10%|▉         | 9903/100000 [5:24:40<25:07:15,  1.00s/it] 10%|▉         | 9904/100000 [5:24:41<24:35:50,  1.02it/s]                                                           10%|▉         | 9904/100000 [5:24:41<24:35:50,  1.02it/s] 10%|▉         | 9905/100000 [5:24:42<24:18:24,  1.03it/s]                                                           10%|▉         | 9905/100000 [5:24:42<24:18:24,  1.03it/s] 10%|▉         | 9906/100000 [5:24:43<23:24:59,  1.07it/s]                                                           10%|▉         | 9906/100000 [5:24:43<23:24:59,  1.07it/s] 10%|▉         | 9907/100000 [5:24:53<93:21:38,  3.73s/it]                                                           10%|▉         | 9907/100000 [5:24:53<93:21:38,  3.73s/it] 10%|▉         | 9908/100000 [5:24:59<108:49:14,  4.35s/it]                                                            10%|▉         | 9908/100000 [5:24:59<108:49:14,  4.35s/it] 10%|▉         | 9909/100000 [5:25:04<111:19:38,  4.45s/it]                                                            10%|▉         | 9909/100000 [5:25:04<111:19:38,  4.45s/it] 10%|▉         | 9910/100000 [5:25:08<108:09:44,  4.32s/it]                                                            10%|▉         | 9910/100000 [5:25:08<108:09:44,  4.32s/it] 10%|▉         | 9911/100000 [5:25:11<102:36:37,  4.10s/it]                                                            10%|▉         | 9911/100000 [5:25:11<102:36:37,  4.10s/it] 10%|▉         | 9912/100000 [5:25:15<96:20:28,  3.85s/it]                                                            10%|▉         | 9912/100000 [5:25:15<96:20:28,  3.85s/it] 10%|▉         | 9913/100000 [5:25:18<89:48:26,  3.59s/it]                                                           10%|▉         | 9913/100000 [5:25:18<89:48:26,  3.59s/it] 10%|▉         | 9914/100000 [5:25:20<83:37:13,  3.34s/it]                                                           10%|▉         | 9914/100000 [5:25:20<83:37:13,  3.34s/it] 10%|▉         | 9915/100000 [5:25:23<77:50:27,  3.11s/it]                                                           10%|▉         | 9915/100000 [5:25:23<77:50:27,  3.11s/it] 10%|▉         | 9916/100000 [5:25:25<72:18:36,  2.89s/it]                                                           10%|▉         | 9916/100000 [5:25:25<72:18:36,  2.89s/it] 10%|▉         | 9917/100000 [5:25:28<67:24:34,  2.69s/it]                                                           10%|▉         | 9917/100000 [5:25:28<67:24:34,  2.69s/it] 10%|▉         | 9918/100000 [5:25:30<62:42:37,  2.51s/it]                                                           10%|▉         | 9918/100000 [5:25:30<62:42:37,  2.51s/it] 10%|▉         | 9919/100000 [5:25:32<58:33:40,  2.34s/it]                                                           10%|▉         | 9919/100000 [5:25:32<58:33:40,  2.34s/it] 10%|▉         | 9920/100000 [5:25:33<54:37:29,  2.18s/it]                                                           10%|▉         | 9920/100000 [5:25:33<54:37:29,  2.18s/it] 10%|▉         | 9921/100000 [5:25:35<50:31:43,  2.02s/it]                                                           10%|▉         | 9921/100000 [5:25:35<50:31:43,  2.02s/it] 10%|▉         | 9922/100000 [5:25:37<47:47:46,  1.91s/it]                                                           10%|▉         | 9922/100000 [5:25:37<47:47:46,  1.91s/it] 10%|▉         | 9923/100000 [5:25:38<45:14:28,  1.81s/it]                                                          {'loss': 0.0069, 'grad_norm': 0.26403334736824036, 'learning_rate': 2.9511000000000003e-05, 'epoch': 18.16}
+{'loss': 0.0201, 'grad_norm': 0.6012740731239319, 'learning_rate': 2.9514000000000002e-05, 'epoch': 18.16}
+{'loss': 0.0085, 'grad_norm': 0.3800670802593231, 'learning_rate': 2.9517000000000002e-05, 'epoch': 18.16}
+{'loss': 0.0101, 'grad_norm': 0.3758285343647003, 'learning_rate': 2.9520000000000002e-05, 'epoch': 18.16}
+{'loss': 0.0115, 'grad_norm': 0.2834491729736328, 'learning_rate': 2.9523e-05, 'epoch': 18.16}
+{'loss': 0.0082, 'grad_norm': 0.3003970682621002, 'learning_rate': 2.9525999999999998e-05, 'epoch': 18.16}
+{'loss': 0.0191, 'grad_norm': 0.4620857238769531, 'learning_rate': 2.9528999999999998e-05, 'epoch': 18.17}
+{'loss': 0.0079, 'grad_norm': 0.27000996470451355, 'learning_rate': 2.9532e-05, 'epoch': 18.17}
+{'loss': 0.007, 'grad_norm': 0.33361855149269104, 'learning_rate': 2.9535e-05, 'epoch': 18.17}
+{'loss': 0.0095, 'grad_norm': 0.3398788571357727, 'learning_rate': 2.9538e-05, 'epoch': 18.17}
+{'loss': 0.0032, 'grad_norm': 0.17393405735492706, 'learning_rate': 2.9541e-05, 'epoch': 18.17}
+{'loss': 0.0094, 'grad_norm': 0.3088524341583252, 'learning_rate': 2.9544e-05, 'epoch': 18.18}
+{'loss': 0.0119, 'grad_norm': 1.077933430671692, 'learning_rate': 2.9547e-05, 'epoch': 18.18}
+{'loss': 0.0057, 'grad_norm': 0.48251262307167053, 'learning_rate': 2.955e-05, 'epoch': 18.18}
+{'loss': 0.0137, 'grad_norm': 0.5218617916107178, 'learning_rate': 2.9553e-05, 'epoch': 18.18}
+{'loss': 0.0169, 'grad_norm': 0.6712053418159485, 'learning_rate': 2.9556e-05, 'epoch': 18.18}
+{'loss': 0.0415, 'grad_norm': 1.1995861530303955, 'learning_rate': 2.9559e-05, 'epoch': 18.18}
+{'loss': 0.1692, 'grad_norm': 0.5802194476127625, 'learning_rate': 2.9562000000000003e-05, 'epoch': 18.19}
+{'loss': 0.142, 'grad_norm': 0.6861435174942017, 'learning_rate': 2.9565000000000002e-05, 'epoch': 18.19}
+{'loss': 0.1626, 'grad_norm': 0.7514278888702393, 'learning_rate': 2.9568000000000002e-05, 'epoch': 18.19}
+{'loss': 0.0996, 'grad_norm': 0.5463578104972839, 'learning_rate': 2.9571000000000002e-05, 'epoch': 18.19}
+{'loss': 0.075, 'grad_norm': 0.6229665875434875, 'learning_rate': 2.9574000000000002e-05, 'epoch': 18.19}
+{'loss': 0.1555, 'grad_norm': 0.8171252012252808, 'learning_rate': 2.9577e-05, 'epoch': 18.2}
+{'loss': 0.0936, 'grad_norm': 0.4324992001056671, 'learning_rate': 2.958e-05, 'epoch': 18.2}
+{'loss': 0.077, 'grad_norm': 0.7613241672515869, 'learning_rate': 2.9583e-05, 'epoch': 18.2}
+{'loss': 0.0599, 'grad_norm': 0.3602001368999481, 'learning_rate': 2.9586e-05, 'epoch': 18.2}
+{'loss': 0.0588, 'grad_norm': 0.4885939359664917, 'learning_rate': 2.9589e-05, 'epoch': 18.2}
+{'loss': 0.061, 'grad_norm': 0.5051184892654419, 'learning_rate': 2.9592000000000004e-05, 'epoch': 18.2}
+{'loss': 0.0352, 'grad_norm': 0.34616658091545105, 'learning_rate': 2.9595e-05, 'epoch': 18.21}
+{'loss': 0.0965, 'grad_norm': 0.5483611226081848, 'learning_rate': 2.9598e-05, 'epoch': 18.21}
+{'loss': 0.0315, 'grad_norm': 0.45261475443840027, 'learning_rate': 2.9601e-05, 'epoch': 18.21}
+{'loss': 0.0235, 'grad_norm': 0.3057132363319397, 'learning_rate': 2.9604e-05, 'epoch': 18.21}
+{'loss': 0.0176, 'grad_norm': 0.20985980331897736, 'learning_rate': 2.9607e-05, 'epoch': 18.21}
+{'loss': 0.0464, 'grad_norm': 0.3141608238220215, 'learning_rate': 2.961e-05, 'epoch': 18.22}
+{'loss': 0.0201, 'grad_norm': 0.5170801281929016, 'learning_rate': 2.9613e-05, 'epoch': 18.22}
+{'loss': 0.0407, 'grad_norm': 0.8139154314994812, 'learning_rate': 2.9616e-05, 'epoch': 18.22}
+{'loss': 0.0155, 'grad_norm': 0.22715677320957184, 'learning_rate': 2.9619e-05, 'epoch': 18.22}
+{'loss': 0.0189, 'grad_norm': 0.33089739084243774, 'learning_rate': 2.9622000000000002e-05, 'epoch': 18.22}
+{'loss': 0.0154, 'grad_norm': 0.8802370429039001, 'learning_rate': 2.9625000000000002e-05, 'epoch': 18.23}
+{'loss': 0.0113, 'grad_norm': 0.2362622320652008, 'learning_rate': 2.9628e-05, 'epoch': 18.23}
+{'loss': 0.0074, 'grad_norm': 0.21023108065128326, 'learning_rate': 2.9631e-05, 'epoch': 18.23}
+{'loss': 0.011, 'grad_norm': 0.39017900824546814, 'learning_rate': 2.9634e-05, 'epoch': 18.23}
+{'loss': 0.0085, 'grad_norm': 0.31846851110458374, 'learning_rate': 2.9637e-05, 'epoch': 18.23}
+{'loss': 0.0197, 'grad_norm': 0.32058441638946533, 'learning_rate': 2.964e-05, 'epoch': 18.23}
+{'loss': 0.0448, 'grad_norm': 0.27096280455589294, 'learning_rate': 2.9643e-05, 'epoch': 18.24}
+{'loss': 0.012, 'grad_norm': 0.28840863704681396, 'learning_rate': 2.9646e-05, 'epoch': 18.24}
+{'loss': 0.0074, 'grad_norm': 0.2708560824394226, 'learning_rate': 2.9649e-05, 'epoch': 18.24}
+{'loss': 0.0113, 'grad_norm': 0.3992142677307129, 'learning_rate': 2.9652e-05, 'epoch': 18.24}
+{'loss': 0.0167, 'grad_norm': 0.2929539978504181, 'learning_rate': 2.9655000000000003e-05, 'epoch': 18.24}
+{'loss': 0.0103, 'grad_norm': 0.4625506103038788, 'learning_rate': 2.9658000000000003e-05, 'epoch': 18.25}
+{'loss': 0.0091, 'grad_norm': 0.2780413329601288, 'learning_rate': 2.9661000000000003e-05, 'epoch': 18.25}
+{'loss': 0.006, 'grad_norm': 0.26614031195640564, 'learning_rate': 2.9664000000000003e-05, 'epoch': 18.25}
+{'loss': 0.0069, 'grad_norm': 0.3119448125362396, 'learning_rate': 2.9667000000000002e-05, 'epoch': 18.25}
+{'loss': 0.0091, 'grad_norm': 0.4528767466545105, 'learning_rate': 2.967e-05, 'epoch': 18.25}
+{'loss': 0.0085, 'grad_norm': 0.24236981570720673, 'learning_rate': 2.9673e-05, 'epoch': 18.25}
+{'loss': 0.01, 'grad_norm': 0.31961968541145325, 'learning_rate': 2.9676e-05, 'epoch': 18.26}
+{'loss': 0.018, 'grad_norm': 0.5327759385108948, 'learning_rate': 2.9678999999999998e-05, 'epoch': 18.26}
+{'loss': 0.0066, 'grad_norm': 0.2756796181201935, 'learning_rate': 2.9681999999999998e-05, 'epoch': 18.26}
+{'loss': 0.0067, 'grad_norm': 0.2694704234600067, 'learning_rate': 2.9685e-05, 'epoch': 18.26}
+{'loss': 0.0263, 'grad_norm': 0.877261757850647, 'learning_rate': 2.9688e-05, 'epoch': 18.26}
+{'loss': 0.0065, 'grad_norm': 0.18148718774318695, 'learning_rate': 2.9691e-05, 'epoch': 18.27}
+{'loss': 0.0051, 'grad_norm': 0.17909610271453857, 'learning_rate': 2.9694e-05, 'epoch': 18.27}
+{'loss': 0.0084, 'grad_norm': 0.2902460992336273, 'learning_rate': 2.9697e-05, 'epoch': 18.27}
+{'loss': 0.0147, 'grad_norm': 0.45404717326164246, 'learning_rate': 2.97e-05, 'epoch': 18.27}
+{'loss': 0.0103, 'grad_norm': 0.3529004454612732, 'learning_rate': 2.9703e-05, 'epoch': 18.27}
+{'loss': 0.0074, 'grad_norm': 0.30562788248062134, 'learning_rate': 2.9706e-05, 'epoch': 18.28}
+{'loss': 0.0108, 'grad_norm': 0.3384891748428345, 'learning_rate': 2.9709e-05, 'epoch': 18.28}
+{'loss': 0.1869, 'grad_norm': 0.6173661351203918, 'learning_rate': 2.9712e-05, 'epoch': 18.28}
+{'loss': 0.1286, 'grad_norm': 0.5092833042144775, 'learning_rate': 2.9715000000000003e-05, 'epoch': 18.28}
+{'loss': 0.1219, 'grad_norm': 0.58086758852005, 'learning_rate': 2.9718000000000002e-05, 'epoch': 18.28}
+{'loss': 0.1325, 'grad_norm': 3.074801206588745, 'learning_rate': 2.9721000000000002e-05, 'epoch': 18.28}
+{'loss': 0.1242, 'grad_norm': 0.6098874807357788, 'learning_rate': 2.9724000000000002e-05, 'epoch': 18.29}
+{'loss': 0.049, 'grad_norm': 0.6750804781913757, 'learning_rate': 2.9727000000000002e-05, 'epoch': 18.29}
+{'loss': 0.0865, 'grad_norm': 0.7178696990013123, 'learning_rate': 2.973e-05, 'epoch': 18.29}
+{'loss': 0.0552, 'grad_norm': 0.43659573793411255, 'learning_rate': 2.9733e-05, 'epoch': 18.29}
+{'loss': 0.0653, 'grad_norm': 0.4207955002784729, 'learning_rate': 2.9736e-05, 'epoch': 18.29}
+{'loss': 0.0325, 'grad_norm': 0.3190794885158539, 'learning_rate': 2.9739e-05, 'epoch': 18.3}
+{'loss': 0.0386, 'grad_norm': 0.27810654044151306, 'learning_rate': 2.9742e-05, 'epoch': 18.3}
+{'loss': 0.0791, 'grad_norm': 0.6035851240158081, 'learning_rate': 2.9745e-05, 'epoch': 18.3}
+{'loss': 0.0429, 'grad_norm': 0.36111941933631897, 'learning_rate': 2.9748e-05, 'epoch': 18.3}
+{'loss': 0.0245, 'grad_norm': 0.2906637191772461, 'learning_rate': 2.9751e-05, 'epoch': 18.3}
+{'loss': 0.0273, 'grad_norm': 0.3560005724430084, 'learning_rate': 2.9754e-05, 'epoch': 18.3}
+{'loss': 0.0217, 'grad_norm': 0.3637906312942505, 'learning_rate': 2.9757e-05, 'epoch': 18.31}
+ 10%|▉         | 9923/100000 [5:25:38<45:14:28,  1.81s/it] 10%|▉         | 9924/100000 [5:25:40<43:33:55,  1.74s/it]                                                           10%|▉         | 9924/100000 [5:25:40<43:33:55,  1.74s/it] 10%|▉         | 9925/100000 [5:25:41<42:00:39,  1.68s/it]                                                           10%|▉         | 9925/100000 [5:25:41<42:00:39,  1.68s/it] 10%|▉         | 9926/100000 [5:25:43<40:28:27,  1.62s/it]                                                           10%|▉         | 9926/100000 [5:25:43<40:28:27,  1.62s/it] 10%|▉         | 9927/100000 [5:25:44<38:54:36,  1.56s/it]                                                           10%|▉         | 9927/100000 [5:25:44<38:54:36,  1.56s/it] 10%|▉         | 9928/100000 [5:25:46<37:23:48,  1.49s/it]                                                           10%|▉         | 9928/100000 [5:25:46<37:23:48,  1.49s/it] 10%|▉         | 9929/100000 [5:25:47<36:46:53,  1.47s/it]                                                           10%|▉         | 9929/100000 [5:25:47<36:46:53,  1.47s/it] 10%|▉         | 9930/100000 [5:25:48<35:54:30,  1.44s/it]                                                           10%|▉         | 9930/100000 [5:25:48<35:54:30,  1.44s/it] 10%|▉         | 9931/100000 [5:25:50<35:23:39,  1.41s/it]                                                           10%|▉         | 9931/100000 [5:25:50<35:23:39,  1.41s/it] 10%|▉         | 9932/100000 [5:25:51<34:57:51,  1.40s/it]                                                           10%|▉         | 9932/100000 [5:25:51<34:57:51,  1.40s/it] 10%|▉         | 9933/100000 [5:25:52<34:26:02,  1.38s/it]                                                           10%|▉         | 9933/100000 [5:25:52<34:26:02,  1.38s/it] 10%|▉         | 9934/100000 [5:25:54<33:49:06,  1.35s/it]                                                           10%|▉         | 9934/100000 [5:25:54<33:49:06,  1.35s/it] 10%|▉         | 9935/100000 [5:25:55<33:14:37,  1.33s/it]                                                           10%|▉         | 9935/100000 [5:25:55<33:14:37,  1.33s/it] 10%|▉         | 9936/100000 [5:25:56<32:51:55,  1.31s/it]                                                           10%|▉         | 9936/100000 [5:25:56<32:51:55,  1.31s/it] 10%|▉         | 9937/100000 [5:25:58<32:27:06,  1.30s/it]                                                           10%|▉         | 9937/100000 [5:25:58<32:27:06,  1.30s/it] 10%|▉         | 9938/100000 [5:25:59<31:37:10,  1.26s/it]                                                           10%|▉         | 9938/100000 [5:25:59<31:37:10,  1.26s/it] 10%|▉         | 9939/100000 [5:26:00<31:17:50,  1.25s/it]                                                           10%|▉         | 9939/100000 [5:26:00<31:17:50,  1.25s/it] 10%|▉         | 9940/100000 [5:26:01<30:24:59,  1.22s/it]                                                           10%|▉         | 9940/100000 [5:26:01<30:24:59,  1.22s/it] 10%|▉         | 9941/100000 [5:26:02<30:06:56,  1.20s/it]                                                           10%|▉         | 9941/100000 [5:26:02<30:06:56,  1.20s/it] 10%|▉         | 9942/100000 [5:26:03<29:46:50,  1.19s/it]                                                           10%|▉         | 9942/100000 [5:26:03<29:46:50,  1.19s/it] 10%|▉         | 9943/100000 [5:26:05<29:18:12,  1.17s/it]                                                           10%|▉         | 9943/100000 [5:26:05<29:18:12,  1.17s/it] 10%|▉         | 9944/100000 [5:26:06<28:45:04,  1.15s/it]                                                           10%|▉         | 9944/100000 [5:26:06<28:45:04,  1.15s/it] 10%|▉         | 9945/100000 [5:26:07<28:32:06,  1.14s/it]                                                           10%|▉         | 9945/100000 [5:26:07<28:32:06,  1.14s/it] 10%|▉         | 9946/100000 [5:26:08<28:12:28,  1.13s/it]                                                           10%|▉         | 9946/100000 [5:26:08<28:12:28,  1.13s/it] 10%|▉         | 9947/100000 [5:26:09<27:42:19,  1.11s/it]                                                           10%|▉         | 9947/100000 [5:26:09<27:42:19,  1.11s/it] 10%|▉         | 9948/100000 [5:26:10<27:29:45,  1.10s/it]                                                           10%|▉         | 9948/100000 [5:26:10<27:29:45,  1.10s/it] 10%|▉         | 9949/100000 [5:26:11<27:05:04,  1.08s/it]                                                           10%|▉         | 9949/100000 [5:26:11<27:05:04,  1.08s/it] 10%|▉         | 9950/100000 [5:26:12<26:47:09,  1.07s/it]                                                           10%|▉         | 9950/100000 [5:26:12<26:47:09,  1.07s/it] 10%|▉         | 9951/100000 [5:26:13<26:29:03,  1.06s/it]                                                           10%|▉         | 9951/100000 [5:26:13<26:29:03,  1.06s/it] 10%|▉         | 9952/100000 [5:26:14<25:56:24,  1.04s/it]                                                           10%|▉         | 9952/100000 [5:26:14<25:56:24,  1.04s/it] 10%|▉         | 9953/100000 [5:26:15<25:34:12,  1.02s/it]                                                           10%|▉         | 9953/100000 [5:26:15<25:34:12,  1.02s/it] 10%|▉         | 9954/100000 [5:26:16<25:01:03,  1.00s/it]                                                           10%|▉         | 9954/100000 [5:26:16<25:01:03,  1.00s/it] 10%|▉         | 9955/100000 [5:26:17<24:32:06,  1.02it/s]                                                           10%|▉         | 9955/100000 [5:26:17<24:32:06,  1.02it/s] 10%|▉         | 9956/100000 [5:26:18<23:51:03,  1.05it/s]                                                           10%|▉         | 9956/100000 [5:26:18<23:51:03,  1.05it/s] 10%|▉         | 9957/100000 [5:26:28<95:18:45,  3.81s/it]                                                           10%|▉         | 9957/100000 [5:26:28<95:18:45,  3.81s/it] 10%|▉         | 9958/100000 [5:26:34<109:55:50,  4.40s/it]                                                            10%|▉         | 9958/100000 [5:26:34<109:55:50,  4.40s/it] 10%|▉         | 9959/100000 [5:26:39<112:22:00,  4.49s/it]                                                            10%|▉         | 9959/100000 [5:26:39<112:22:00,  4.49s/it] 10%|▉         | 9960/100000 [5:26:43<108:04:34,  4.32s/it]                                                            10%|▉         | 9960/100000 [5:26:43<108:04:34,  4.32s/it] 10%|▉         | 9961/100000 [5:26:46<100:50:57,  4.03s/it]                                                            10%|▉         | 9961/100000 [5:26:46<100:50:57,  4.03s/it] 10%|▉         | 9962/100000 [5:26:49<94:30:18,  3.78s/it]                                                            10%|▉         | 9962/100000 [5:26:49<94:30:18,  3.78s/it] 10%|▉         | 9963/100000 [5:26:52<88:57:17,  3.56s/it]                                                           10%|▉         | 9963/100000 [5:26:52<88:57:17,  3.56s/it] 10%|▉         | 9964/100000 [5:26:55<82:48:57,  3.31s/it]                                                           10%|▉         | 9964/100000 [5:26:55<82:48:57,  3.31s/it] 10%|▉         | 9965/100000 [5:26:58<77:01:00,  3.08s/it]                                                           10%|▉         | 9965/100000 [5:26:58<77:01:00,  3.08s/it] 10%|▉         | 9966/100000 [5:27:00<71:25:34,  2.86s/it]                                                           10%|▉         | 9966/100000 [5:27:00<71:25:34,  2.86s/it] 10%|▉         | 9967/100000 [5:27:02<66:20:15,  2.65s/it]                                                           10%|▉         | 9967/100000 [5:27:02<66:20:15,  2.65s/it] 10%|▉         | 9968/100000 [5:27:04<61:15:18,  2.45s/it]                                                           10%|▉         | 9968/100000 [5:27:04<61:15:18,  2.45s/it] 10%|▉         | 9969/100000 [5:27:06<57:06:49,  2.28s/it]                                                           10%|▉         | 9969/100000 [5:27:06<57:06:49,  2.28s/it] 10%|▉         | 9970/100000 [5:27:08<53:30:40,  2.14s/it]                                                           10%|▉         | 9970/100000 [5:27:08<53:30:40,  2.14s/it] 10%|▉         | 9971/100000 [5:27:10<50:14:23,  2.01s/it]                                                           10%|▉         | 9971/100000 [5:27:10<50:14:23,  2.01s/it] 10%|▉         | 9972/100000 [5:27:11<47:39:56,  1.91s/it]                                                           10%|▉         | 9972/100000 [5:27:11<47:39:56,  1.91s/it] 10%|▉         | 9973/100000 [5:27:13<45:27:05,  1.82s/it]                                                           10%|▉         | 9973/100000 [5:27:13<45:27:05,  1.82s/it] 10%|▉         | 9974/100000 [5:27:14<43:29:34,  1.74s/it]                                                           10%|▉         | 9974/100000 [5:27:14<43:29:34,  1.74s/it] 10%|▉         | 9975/100000 [5:27:16<41:41:59,  1.67s/it]                                                           10%|▉         | 9975/100000 [5:27:16<41:41:59,  1.67s/it] 10%|▉         | 9976/100000 [5:27:17<39:54:57,  1.60s/it]                                                           10%|▉         | 9976/100000 [5:27:17<39:54:57,  1.60s/it] 10%|▉         | 9977/100000 [5:27:19<38:43:47,  1.55s/it]                                                           10%|▉         | 9977/100000 [5:27:19<38:43:47,  1.55s/it] 10%|▉         | 9978/100000 [5:27:20<37:25:20,  1.50s/it]                                                           10%|▉         | 9978/100000 [5:27:20<37:25:20,  1.50s/it] 10%|▉         | 9979/100000 [5:27:22<36:46:41,  1.47s/it]                                                           10%|▉         | 9979/100000 [5:27:22<36:46:41,  1.47s/it] 10%|▉         | 9980/100000 [5:27:23<35:48:04,  1.43s/it]                                                           10%|▉         | 9980/100000 [5:27:23<35:48:04,  1.43s/it] 10%|▉         | 9981/100000 [5:27:24<35:03:50,  1.40s/it]                                                           10%|▉         | 9981/100000 [5:27:24<35:03:50,  1.40s/it] 10%|▉         | 9982/100000 [5:27:26<34:22:32,  1.37s/it]                                                           10%|▉         | 9982/100000 [5:27:26<34:22:32,  1.37s/it] 10%|▉         | 9983/100000 [5:27:27<34:07:23,  1.36s/it]                                                           10%|▉         | 9983/100000 [5:27:27<34:07:23,  1.36s/it] 10%|▉         | 9984/100000 [5:27:28<33:37:14,  1.34s/it]                                                           10%|▉         | 9984/100000 [5:27:28<33:37:14,  1.34s/it] 10%|▉         | 9985/100000 [5:27:29<32:55:02,  1.32s/it]                                                           10%|▉         | 9985/100000 [5:27:29<32:55:02,  1.32s/it] 10%|▉         | 9986/100000 [5:27:31<32:35:13,  1.30s/it]                                                           10%|▉         | 9986/100000 [5:27:31<32:35:13,  1.30s/it] 10%|▉         | 9987/100000 [5:27:32<32:07:08,  1.28s/it]                                                           10%|▉         | 9987/100000 [5:27:32<32:07:08,  1.28s/it] 10%|▉         | 9988/100000 [5:27:33<31:33:38,  1.26s/it]                                                           10%|▉         | 9988/100000 [5:27:33<31:33:38,  1.26s/it] 10%|▉         | 9989/100000 [5:27:34<31:08:34,  1.25s/it]                                                           10%|▉         | 9989/100000 [5:27:34<31:08:34,  1.25s/it] 10%|▉         | 9990/100000 [5:27:36<30:42:43,  1.23s/it]                                                           10%|▉         | 9990/100000 [5:27:36<30:42:43,  1.23s/it] 10%|▉         | 9991/100000 [5:27:37<30:13:28,  1.21s/it]                                                           10%|▉         | 9991/100000 [5:27:37<30:13:28,  1.21s/it] 10%|▉         | 9992/100000 [5:27:38<29:38:31,  1.19s/it]                                                           10%|▉         | 9992/100000 [5:27:38<29:38:31,  1.19s/it] 10%|▉         | 9993/100000 [5:27:39<29:17:43,  1.17s/it]                                                           10%|▉         | 9993/100000 [5:27:39<29:17:43,  1.17s/it] 10%|▉         | 9994/100000 [5:27:40<28:54:55,  1.16s/it]                                                           10%|▉         | 9994/100000 [5:27:40<28:54:55,  1.16s/it] 10%|▉         | 9995/100000 [5:27:41<28:24:35,  1.14s/it]                                                           10%|▉         | 9995/100000 [5:27:41<28:24:35,  1.14s/it] 10%|▉         | 9996/100000 [5:27:42<28:10:21,  1.13s/it]                                                           10%|▉         | 9996/100000 [5:27:42<28:10:21,  1.13s/it] 10%|▉         | 9997/100000 [5:27:43<27:52:31,  1.11s/it]                                                           10%|▉         | 9997/100000 [5:27:43<27:52:31,  1.11s/it] 10%|▉         | 9998/100000 [5:27:44<27:27:47,  1.10s/it]                                                           10%|▉         | 9998/100000 [5:27:44<27:27:47,  1.10s/it] 10%|▉         | 9999/100000 [5:27:45<27:01:10,  1.08s/it]                                                           10%|▉         | 9999/100000 [5:27:45<27:01:10,  1.08s/it] 10%|█         | 10000/100000 [5:27:47<26:44:49,  1.07s/it]                                                            10%|█         | 10000/100000 [5:27:47<26:44:49,  1.07s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0131, 'grad_norm': 0.2707814574241638, 'learning_rate': 2.976e-05, 'epoch': 18.31}
+{'loss': 0.0129, 'grad_norm': 0.4414331018924713, 'learning_rate': 2.9763e-05, 'epoch': 18.31}
+{'loss': 0.014, 'grad_norm': 0.3390336334705353, 'learning_rate': 2.9766e-05, 'epoch': 18.31}
+{'loss': 0.0123, 'grad_norm': 0.35256242752075195, 'learning_rate': 2.9769e-05, 'epoch': 18.31}
+{'loss': 0.0143, 'grad_norm': 0.2255878895521164, 'learning_rate': 2.9772e-05, 'epoch': 18.32}
+{'loss': 0.0119, 'grad_norm': 0.19617587327957153, 'learning_rate': 2.9775000000000002e-05, 'epoch': 18.32}
+{'loss': 0.0222, 'grad_norm': 0.5293916463851929, 'learning_rate': 2.9778000000000002e-05, 'epoch': 18.32}
+{'loss': 0.0119, 'grad_norm': 0.3983894884586334, 'learning_rate': 2.9781e-05, 'epoch': 18.32}
+{'loss': 0.008, 'grad_norm': 0.1999145895242691, 'learning_rate': 2.9784e-05, 'epoch': 18.32}
+{'loss': 0.0083, 'grad_norm': 0.21079927682876587, 'learning_rate': 2.9787e-05, 'epoch': 18.33}
+{'loss': 0.0102, 'grad_norm': 0.18804602324962616, 'learning_rate': 2.979e-05, 'epoch': 18.33}
+{'loss': 0.0094, 'grad_norm': 0.2636594772338867, 'learning_rate': 2.9793e-05, 'epoch': 18.33}
+{'loss': 0.0278, 'grad_norm': 0.22981365025043488, 'learning_rate': 2.9796e-05, 'epoch': 18.33}
+{'loss': 0.0121, 'grad_norm': 0.2265322506427765, 'learning_rate': 2.9799e-05, 'epoch': 18.33}
+{'loss': 0.0338, 'grad_norm': 0.2998930513858795, 'learning_rate': 2.9802e-05, 'epoch': 18.33}
+{'loss': 0.0103, 'grad_norm': 0.44089028239250183, 'learning_rate': 2.9805000000000003e-05, 'epoch': 18.34}
+{'loss': 0.0167, 'grad_norm': 0.36817842721939087, 'learning_rate': 2.9808000000000003e-05, 'epoch': 18.34}
+{'loss': 0.0089, 'grad_norm': 0.17441830039024353, 'learning_rate': 2.9811000000000003e-05, 'epoch': 18.34}
+{'loss': 0.0133, 'grad_norm': 0.5821911096572876, 'learning_rate': 2.9814000000000003e-05, 'epoch': 18.34}
+{'loss': 0.0084, 'grad_norm': 0.21145932376384735, 'learning_rate': 2.9817e-05, 'epoch': 18.34}
+{'loss': 0.0093, 'grad_norm': 0.38200899958610535, 'learning_rate': 2.982e-05, 'epoch': 18.35}
+{'loss': 0.0113, 'grad_norm': 0.6706154942512512, 'learning_rate': 2.9823e-05, 'epoch': 18.35}
+{'loss': 0.0078, 'grad_norm': 0.31891512870788574, 'learning_rate': 2.9826e-05, 'epoch': 18.35}
+{'loss': 0.0139, 'grad_norm': 0.47149425745010376, 'learning_rate': 2.9829e-05, 'epoch': 18.35}
+{'loss': 0.0081, 'grad_norm': 0.30881768465042114, 'learning_rate': 2.9831999999999998e-05, 'epoch': 18.35}
+{'loss': 0.0267, 'grad_norm': 0.6706964373588562, 'learning_rate': 2.9835e-05, 'epoch': 18.35}
+{'loss': 0.0109, 'grad_norm': 0.5232123136520386, 'learning_rate': 2.9838e-05, 'epoch': 18.36}
+{'loss': 0.0165, 'grad_norm': 0.3877739906311035, 'learning_rate': 2.9841e-05, 'epoch': 18.36}
+{'loss': 0.0135, 'grad_norm': 0.4155578017234802, 'learning_rate': 2.9844e-05, 'epoch': 18.36}
+{'loss': 0.0188, 'grad_norm': 0.5564242005348206, 'learning_rate': 2.9847e-05, 'epoch': 18.36}
+{'loss': 0.0102, 'grad_norm': 0.4501713812351227, 'learning_rate': 2.985e-05, 'epoch': 18.36}
+{'loss': 0.0051, 'grad_norm': 0.15342417359352112, 'learning_rate': 2.9853e-05, 'epoch': 18.37}
+{'loss': 0.0154, 'grad_norm': 0.46972164511680603, 'learning_rate': 2.9856e-05, 'epoch': 18.37}
+{'loss': 0.0167, 'grad_norm': 0.4050143361091614, 'learning_rate': 2.9859e-05, 'epoch': 18.37}
+{'loss': 0.1757, 'grad_norm': 0.7018055319786072, 'learning_rate': 2.9862e-05, 'epoch': 18.37}
+{'loss': 0.1259, 'grad_norm': 0.46269240975379944, 'learning_rate': 2.9865000000000003e-05, 'epoch': 18.37}
+{'loss': 0.0835, 'grad_norm': 0.3974771201610565, 'learning_rate': 2.9868000000000003e-05, 'epoch': 18.37}
+{'loss': 0.094, 'grad_norm': 0.558796226978302, 'learning_rate': 2.9871000000000003e-05, 'epoch': 18.38}
+{'loss': 0.0545, 'grad_norm': 0.4177483320236206, 'learning_rate': 2.9874000000000002e-05, 'epoch': 18.38}
+{'loss': 0.0512, 'grad_norm': 0.4701012969017029, 'learning_rate': 2.9877000000000002e-05, 'epoch': 18.38}
+{'loss': 0.0975, 'grad_norm': 0.5373863577842712, 'learning_rate': 2.9880000000000002e-05, 'epoch': 18.38}
+{'loss': 0.0734, 'grad_norm': 0.5024900436401367, 'learning_rate': 2.9883000000000002e-05, 'epoch': 18.38}
+{'loss': 0.0475, 'grad_norm': 0.4085754454135895, 'learning_rate': 2.9886e-05, 'epoch': 18.39}
+{'loss': 0.0739, 'grad_norm': 0.4630957245826721, 'learning_rate': 2.9889e-05, 'epoch': 18.39}
+{'loss': 0.0373, 'grad_norm': 0.7340787649154663, 'learning_rate': 2.9891999999999998e-05, 'epoch': 18.39}
+{'loss': 0.0265, 'grad_norm': 0.3731462061405182, 'learning_rate': 2.9895e-05, 'epoch': 18.39}
+{'loss': 0.0926, 'grad_norm': 0.7383576035499573, 'learning_rate': 2.9898e-05, 'epoch': 18.39}
+{'loss': 0.0295, 'grad_norm': 0.5255272388458252, 'learning_rate': 2.9901e-05, 'epoch': 18.4}
+{'loss': 0.0407, 'grad_norm': 0.45948368310928345, 'learning_rate': 2.9904e-05, 'epoch': 18.4}
+{'loss': 0.0314, 'grad_norm': 0.8766978979110718, 'learning_rate': 2.9907e-05, 'epoch': 18.4}
+{'loss': 0.8891, 'grad_norm': 24.089262008666992, 'learning_rate': 2.991e-05, 'epoch': 18.4}
+{'loss': 0.1203, 'grad_norm': 4.03217887878418, 'learning_rate': 2.9913e-05, 'epoch': 18.4}
+{'loss': 0.0239, 'grad_norm': 0.5048349499702454, 'learning_rate': 2.9916e-05, 'epoch': 18.4}
+{'loss': 0.0257, 'grad_norm': 0.3953116536140442, 'learning_rate': 2.9919e-05, 'epoch': 18.41}
+{'loss': 0.0245, 'grad_norm': 0.3035966753959656, 'learning_rate': 2.9922e-05, 'epoch': 18.41}
+{'loss': 0.0121, 'grad_norm': 0.22685669362545013, 'learning_rate': 2.9925000000000002e-05, 'epoch': 18.41}
+{'loss': 0.0345, 'grad_norm': 0.34173470735549927, 'learning_rate': 2.9928000000000002e-05, 'epoch': 18.41}
+{'loss': 0.0144, 'grad_norm': 0.32935476303100586, 'learning_rate': 2.9931000000000002e-05, 'epoch': 18.41}
+{'loss': 0.0093, 'grad_norm': 0.27030572295188904, 'learning_rate': 2.9934000000000002e-05, 'epoch': 18.42}
+{'loss': 0.0151, 'grad_norm': 0.32887694239616394, 'learning_rate': 2.9937e-05, 'epoch': 18.42}
+{'loss': 0.0142, 'grad_norm': 0.4195692241191864, 'learning_rate': 2.994e-05, 'epoch': 18.42}
+{'loss': 0.015, 'grad_norm': 0.21854715049266815, 'learning_rate': 2.9943e-05, 'epoch': 18.42}
+{'loss': 0.0078, 'grad_norm': 0.2712455093860626, 'learning_rate': 2.9946e-05, 'epoch': 18.42}
+{'loss': 0.0099, 'grad_norm': 0.2517973780632019, 'learning_rate': 2.9949e-05, 'epoch': 18.42}
+{'loss': 0.0156, 'grad_norm': 0.44632387161254883, 'learning_rate': 2.9952e-05, 'epoch': 18.43}
+{'loss': 0.0141, 'grad_norm': 0.7028042674064636, 'learning_rate': 2.9955000000000004e-05, 'epoch': 18.43}
+{'loss': 0.0103, 'grad_norm': 0.26331591606140137, 'learning_rate': 2.9958000000000004e-05, 'epoch': 18.43}
+{'loss': 0.0057, 'grad_norm': 0.1908412128686905, 'learning_rate': 2.9961000000000003e-05, 'epoch': 18.43}
+{'loss': 0.0078, 'grad_norm': 0.28224021196365356, 'learning_rate': 2.9964e-05, 'epoch': 18.43}
+{'loss': 0.0101, 'grad_norm': 0.369598925113678, 'learning_rate': 2.9967e-05, 'epoch': 18.44}
+{'loss': 0.0109, 'grad_norm': 0.4752858281135559, 'learning_rate': 2.997e-05, 'epoch': 18.44}
+{'loss': 0.0107, 'grad_norm': 0.35530319809913635, 'learning_rate': 2.9973e-05, 'epoch': 18.44}
+{'loss': 0.0246, 'grad_norm': 3.2367780208587646, 'learning_rate': 2.9976e-05, 'epoch': 18.44}
+{'loss': 0.0106, 'grad_norm': 0.46068835258483887, 'learning_rate': 2.9979e-05, 'epoch': 18.44}
+{'loss': 0.0207, 'grad_norm': 0.462532639503479, 'learning_rate': 2.9982e-05, 'epoch': 18.45}
+{'loss': 0.012, 'grad_norm': 0.29335060715675354, 'learning_rate': 2.9985000000000002e-05, 'epoch': 18.45}
+{'loss': 0.0168, 'grad_norm': 0.34464287757873535, 'learning_rate': 2.9988e-05, 'epoch': 18.45}
+{'loss': 0.0198, 'grad_norm': 0.5311354398727417, 'learning_rate': 2.9991e-05, 'epoch': 18.45}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.78it/s][A
+ 30%|███       | 3/10 [00:01<00:05,  1.36it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.50it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.07s/it][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.14it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.20s/it][A
+ 80%|████████  | 8/10 [00:07<00:02,  1.00s/it][A
+ 90%|█████████ | 9/10 [00:09<00:01,  1.30s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.03s/it][A                                                           
+                                               [A 10%|█         | 10000/100000 [5:28:20<26:44:49,  1.07s/it]
+100%|██████████| 10/10 [00:10<00:00,  1.03s/it][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-10000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-10000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-10000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-10000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-10000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-10000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-10000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-8000] due to args.save_total_limit
+ 10%|█         | 10001/100000 [5:28:34<374:59:48, 15.00s/it]                                                             10%|█         | 10001/100000 [5:28:34<374:59:48, 15.00s/it] 10%|█         | 10002/100000 [5:28:35<270:03:25, 10.80s/it]                                                             10%|█         | 10002/100000 [5:28:35<270:03:25, 10.80s/it] 10%|█         | 10003/100000 [5:28:36<196:22:20,  7.86s/it]                                                             10%|█         | 10003/100000 [5:28:36<196:22:20,  7.86s/it] 10%|█         | 10004/100000 [5:28:37<144:39:40,  5.79s/it]                                                             10%|█         | 10004/100000 [5:28:37<144:39:40,  5.79s/it] 10%|█         | 10005/100000 [5:28:38<108:19:45,  4.33s/it]                                                             10%|█         | 10005/100000 [5:28:38<108:19:45,  4.33s/it] 10%|█         | 10006/100000 [5:28:39<82:16:22,  3.29s/it]                                                             10%|█         | 10006/100000 [5:28:39<82:16:22,  3.29s/it] 10%|█         | 10007/100000 [5:28:51<147:22:36,  5.90s/it]                                                             10%|█         | 10007/100000 [5:28:51<147:22:36,  5.90s/it] 10%|█         | 10008/100000 [5:28:57<147:37:18,  5.91s/it]                                                             10%|█         | 10008/100000 [5:28:57<147:37:18,  5.91s/it] 10%|█         | 10009/100000 [5:29:01<138:45:35,  5.55s/it]                                                             10%|█         | 10009/100000 [5:29:01<138:45:35,  5.55s/it] 10%|█         | 10010/100000 [5:29:06<128:00:55,  5.12s/it]                                                             10%|█         | 10010/100000 [5:29:06<128:00:55,  5.12s/it] 10%|█         | 10011/100000 [5:29:09<117:12:40,  4.69s/it]                                                             10%|█         | 10011/100000 [5:29:09<117:12:40,  4.69s/it] 10%|█         | 10012/100000 [5:29:12<106:30:00,  4.26s/it]                                                             10%|█         | 10012/100000 [5:29:12<106:30:00,  4.26s/it] 10%|█         | 10013/100000 [5:29:15<96:56:20,  3.88s/it]                                                             10%|█         | 10013/100000 [5:29:15<96:56:20,  3.88s/it] 10%|█         | 10014/100000 [5:29:18<88:32:56,  3.54s/it]                                                            10%|█         | 10014/100000 [5:29:18<88:32:56,  3.54s/it] 10%|█         | 10015/100000 [5:29:21<80:20:05,  3.21s/it]                                                            10%|█         | 10015/100000 [5:29:21<80:20:05,  3.21s/it] 10%|█         | 10016/100000 [5:29:23<73:48:52,  2.95s/it]                                                            10%|█         | 10016/100000 [5:29:23<73:48:52,  2.95s/it] 10%|█         | 10017/100000 [5:29:25<67:48:15,  2.71s/it]                                                            10%|█         | 10017/100000 [5:29:25<67:48:15,  2.71s/it] 10%|█         | 10018/100000 [5:29:27<62:45:39,  2.51s/it]                                                            10%|█         | 10018/100000 [5:29:27<62:45:39,  2.51s/it] 10%|█         | 10019/100000 [5:29:29<58:25:39,  2.34s/it]                                                            10%|█         | 10019/100000 [5:29:29<58:25:39,  2.34s/it] 10%|█         | 10020/100000 [5:29:31<54:18:10,  2.17s/it]                                                            10%|█         | 10020/100000 [5:29:31<54:18:10,  2.17s/it] 10%|█         | 10021/100000 [5:29:33<50:57:51,  2.04s/it]                                                            10%|█         | 10021/100000 [5:29:33<50:57:51,  2.04s/it] 10%|█         | 10022/100000 [5:29:34<48:07:43,  1.93s/it]                                                            10%|█         | 10022/100000 [5:29:34<48:07:43,  1.93s/it] 10%|█         | 10023/100000 [5:29:36<45:43:49,  1.83s/it]                                                            10%|█         | 10023/100000 [5:29:36<45:43:49,  1.83s/it] 10%|█         | 10024/100000 [5:29:37<43:46:19,  1.75s/it]                                                            10%|█         | 10024/100000 [5:29:37<43:46:19,  1.75s/it] 10%|█         | 10025/100000 [5:29:39<42:18:00,  1.69s/it]                                                            10%|█         | 10025/100000 [5:29:39<42:18:00,  1.69s/it] 10%|█         | 10026/100000 [5:29:40<40:26:14,  1.62s/it]                                                            10%|█         | 10026/100000 [5:29:40<40:26:14,  1.62s/it] 10%|█         | 10027/100000 [5:29:42<39:11:54,  1.57s/it]                                                            10%|█         | 10027/100000 [5:29:42<39:11:54,  1.57s/it] 10%|█         | 10028/100000 [5:29:43<37:59:36,  1.52s/it]                                                            10%|█         | 10028/100000 [5:29:43<37:59:36,  1.52s/it] 10%|█         | 10029/100000 [5:29:45<37:21:48,  1.50s/it]                                                            10%|█         | 10029/100000 [5:29:45<37:21:48,  1.50s/it] 10%|█         | 10030/100000 [5:29:46<36:24:59,  1.46s/it]                                                            10%|█         | 10030/100000 [5:29:46<36:24:59,  1.46s/it] 10%|█         | 10031/100000 [5:29:48<36:00:01,  1.44s/it]                                                            10%|█         | 10031/100000 [5:29:48<36:00:01,  1.44s/it] 10%|█         | 10032/100000 [5:29:49<35:15:46,  1.41s/it]                                                            10%|█         | 10032/100000 [5:29:49<35:15:46,  1.41s/it] 10%|█         | 10033/100000 [5:29:50<34:47:03,  1.39s/it]                                                            10%|█         | 10033/100000 [5:29:50<34:47:03,  1.39s/it] 10%|█         | 10034/100000 [5:29:52<34:08:57,  1.37s/it]                                                            10%|█         | 10034/100000 [5:29:52<34:08:57,  1.37s/it] 10%|█         | 10035/100000 [5:29:53<33:46:56,  1.35s/it]                                                            10%|█         | 10035/100000 [5:29:53<33:46:56,  1.35s/it] 10%|█         | 10036/100000 [5:29:54<33:06:10,  1.32s/it]                                                            10%|█         | 10036/100000 [5:29:54<33:06:10,  1.32s/it] 10%|█         | 10037/100000 [5:29:55<32:43:41,  1.31s/it]                                                            10%|█         | 10037/100000 [5:29:55<32:43:41,  1.31s/it] 10%|█         | 10038/100000 [5:29:57<32:09:20,  1.29s/it]                                                            10%|█         | 10038/100000 [5:29:57<32:09:20,  1.29s/it] 10%|█         | 10039/100000 [5:29:58<31:32:33,  1.26s/it]                                                            10%|█         | 10039/100000 [5:29:58<31:32:33,  1.26s/it] 10%|█         | 10040/100000 [5:29:59<31:17:56,  1.25s/it]                                                            10%|█         | 10040/100000 [5:29:59<31:17:56,  1.25s/it] 10%|█         | 10041/100000 [5:30:00<30:39:48,  1.23s/it]                                                            10%|█         | 10041/100000 [5:30:00<30:39:48,  1.23s/it] 10%|█         | 10042/100000 [5:30:01<30:00:48,  1.20s/it]                                                            10%|█         | 10042/100000 [5:30:01<30:00:48,  1.20s/it] 10%|█         | 10043/100000 [5:30:02<29:34:01,  1.18s/it]                                                            10%|█         | 10043/100000 [5:30:02<29:34:01,  1.18s/it] 10%|█         | 10044/100000 [5:30:04<29:21:17,  1.17s/it]                                                            10%|█         | 10044/100000 [5:30:04<29:21:17,  1.17s/it] 10%|█         | 10045/100000 [5:30:05<29:10:08,  1.17s/it]                                                            10%|█         | 10045/100000 [5:30:05<29:10:08,  1.17s/it] 10%|█         | 10046/100000 [5:30:06<28:35:37,  1.14s/it]                                                            10%|█         | 10046/100000 [5:30:06<28:35:37,  1.14s/it] 10%|█         | 10047/100000 [5:30:07<28:30:14,  1.14s/it]                                                            10%|█         | 10047/100000 [5:30:07<28:30:14,  1.14s/it] 10%|█         | 10048/100000 [5:30:08<28:00:16,  1.12s/it]                                                            10%|█         | 10048/100000 [5:30:08<28:00:16,  1.12s/it] 10%|█         | 10049/100000 [5:30:09<28:56:01,  1.16s/it]                                                            10%|█         | 10049/100000 [5:30:09<28:56:01,  1.16s/it] 10%|█         | 10050/100000 [5:30:10<28:30:16,  1.14s/it]                                                            10%|█         | 10050/100000 [5:30:10<28:30:16,  1.14s/it] 10%|█         | 10051/100000 [5:30:11<27:52:40,  1.12s/it]                                                            10%|█         | 10051/100000 [5:30:12<27:52:40,  1.12s/it] 10%|█         | 10052/100000 [5:30:13<27:15:20,  1.09s/it]                                                            10%|█         | 10052/100000 [5:30:13<27:15:20,  1.09s/it] 10%|█         | 10053/100000 [5:30:14<26:32:16,  1.06s/it]                                                            10%|█         | 10053/100000 [5:30:14<26:32:16,  1.06s/it] 10%|█         | 10054/100000 [5:30:15<25:57:05,  1.04s/it]                                                            10%|█         | 10054/100000 [5:30:15<25:57:05,  1.04s/it] 10%|█         | 10055/100000 [5:30:15<25:17:53,  1.01s/it]                                                            10%|█         | 10055/100000 [5:30:15<25:17:53,  1.01s/it] 10%|█         | 10056/100000 [5:30:16<24:34:20,  1.02it/s]                                                            10%|█         | 10056/100000 [5:30:16<24:34:20,  1.02it/s] 10%|█         | 10057/100000 [5:30:28<107:29:43,  4.30s/it]                                                             10%|█         | 10057/100000 [5:30:28<107:29:43,  4.30s/it] 10%|█         | 10058/100000 [5:30:34<118:40:41,  4.75s/it]                                                             10%|█         | 10058/100000 [5:30:34<118:40:41,  4.75s/it] 10%|█         | 10059/100000 [5:30:39<118:01:41,  4.72s/it]                                                             10%|█         | 10059/100000 [5:30:39<118:01:41,  4.72s/it] 10%|█         | 10060/100000 [5:30:43<112:52:38,  4.52s/it]                                                             10%|█         | 10060/100000 [5:30:43<112:52:38,  4.52s/it] 10%|█         | 10061/100000 [5:30:47<106:06:27,  4.25s/it]                                                             10%|█         | 10061/100000 [5:30:47<106:06:27,  4.25s/it] 10%|█         | 10062/100000 [5:30:50<98:44:39,  3.95s/it]                                                             10%|█         | 10062/100000 [5:30:50<98:44:39,  3.95s/it] 10%|█         | 10063/100000 [5:30:53<91:35:53,  3.67s/it]                                                            10%|█         | 10063/100000 [5:30:53<91:35:53,  3.67s/it] 10%|█         | 10064/100000 [5:30:56<84:46:00,  3.39s/it]                                                            10%|█         | 10064/100000 [5:30:56<84:46:00,  3.39s/it] 10%|█         | 10065/100000 [5:30:58<78:20:08,  3.14s/it]                                                            10%|█         | 10065/100000 [5:30:58<78:20:08,  3.14s/it] 10%|█         | 10066/100000 [5:31:00<72:22:50,  2.90s/it]                                                            10%|█         | 10066/100000 [5:31:00<72:22:50,  2.90s/it] 10%|█         | 10067/100000 [5:31:03<67:00:30,  2.68s/it]                                                            10%|█         | 10067/100000 [5:31:03<67:00:30,  2.68s/it] 10%|█         | 10068/100000 [5:31:05<61:39:20,  2.47s/it]                                                            10%|█         | 10068/100000 [5:31:05<61:39:20,  2.47s/it] 10%|█         | 10069/100000 [5:31:06<56:43:15,  2.27s/it]                                                            10%|█         | 10069/100000 [5:31:06<56:43:15,  2.27s/it] 10%|█         | 10070/100000 [5:31:08<53:18:48,  2.13s/it]                                                            10%|█         | 10070/100000 [5:31:08<53:18:48,  2.13s/it] 10%|█         | 10071/100000 [5:31:10<50:24:01,  2.02s/it]                                                            10%|█         | 10071/100000 [5:31:10<50:24:01,  2.02s/it] 10%|█         | 10072/100000 [5:31:12<47:32:55,  1.90s/it]                                                            10%|█         | 10072/100000 [5:31:12<47:32:55,  1.90s/it] 10%|█         | 10073/100000 [5:31:13<45:26:25,  1.82s/it]                                                            10%|█         | 10073/100000 [5:31:13<45:26:25,  1.82s/it] 10%|█         | 10074/100000 [5:31:15<43:49:05,  1.75s/it]                                                            10%|█         | 10074/100000 [5:31:15<43:49:05,  1.75s/it] 10%|█         | 10075/100000 [5:31:16<41:53:59,  1.68s/it]                                                            10%|█         | 10075/100000 [5:31:16<41:53:59,  1.68s/it] 10%|█         | 10076/100000 [5:31:18<40:11:00,  1.61s/it]                                                            10%|█         | 10076/100000 [5:31:18<40:11:00,  1.61s/it] 10%|█         | 10077/100000 [5:31:19<39:01:16,  1.56s/it]                                                            10%|█         | 10077/100000 [5:31:19<39:01:16,  1.56s/it] 10%|█         | 10078/100000 [5:31:21<38:07:24,  1.53s/it]                                                           {'eval_loss': 0.400764524936676, 'eval_wer': 0.4002302379125096, 'eval_cer': 0.11346138891049071, 'eval_runtime': 16.6034, 'eval_samples_per_second': 18.31, 'eval_steps_per_second': 0.602, 'epoch': 18.45}
+{'loss': 0.0213, 'grad_norm': 1.1134467124938965, 'learning_rate': 2.9994e-05, 'epoch': 18.45}
+{'loss': 0.0153, 'grad_norm': 0.3000761568546295, 'learning_rate': 2.9997e-05, 'epoch': 18.45}
+{'loss': 0.0259, 'grad_norm': 0.6289483308792114, 'learning_rate': 3e-05, 'epoch': 18.46}
+{'loss': 0.0163, 'grad_norm': 0.45202159881591797, 'learning_rate': 2.999966666666667e-05, 'epoch': 18.46}
+{'loss': 0.0245, 'grad_norm': 0.435899555683136, 'learning_rate': 2.9999333333333333e-05, 'epoch': 18.46}
+{'loss': 0.0327, 'grad_norm': 0.5257439017295837, 'learning_rate': 2.9999000000000002e-05, 'epoch': 18.46}
+{'loss': 0.2506, 'grad_norm': 1.0339168310165405, 'learning_rate': 2.9998666666666668e-05, 'epoch': 18.46}
+{'loss': 0.1746, 'grad_norm': 0.5932863354682922, 'learning_rate': 2.9998333333333334e-05, 'epoch': 18.47}
+{'loss': 0.1864, 'grad_norm': 0.6096854209899902, 'learning_rate': 2.9998e-05, 'epoch': 18.47}
+{'loss': 0.0995, 'grad_norm': 0.49512627720832825, 'learning_rate': 2.999766666666667e-05, 'epoch': 18.47}
+{'loss': 0.0955, 'grad_norm': 0.4499821960926056, 'learning_rate': 2.999733333333333e-05, 'epoch': 18.47}
+{'loss': 0.0588, 'grad_norm': 0.5281078219413757, 'learning_rate': 2.9997e-05, 'epoch': 18.47}
+{'loss': 0.0842, 'grad_norm': 0.5754829049110413, 'learning_rate': 2.999666666666667e-05, 'epoch': 18.47}
+{'loss': 0.0733, 'grad_norm': 0.4375404417514801, 'learning_rate': 2.9996333333333333e-05, 'epoch': 18.48}
+{'loss': 0.0756, 'grad_norm': 0.4932893216609955, 'learning_rate': 2.9996000000000002e-05, 'epoch': 18.48}
+{'loss': 0.1231, 'grad_norm': 0.6486257314682007, 'learning_rate': 2.9995666666666668e-05, 'epoch': 18.48}
+{'loss': 0.0681, 'grad_norm': 0.3846319317817688, 'learning_rate': 2.9995333333333334e-05, 'epoch': 18.48}
+{'loss': 0.0722, 'grad_norm': 1.1660290956497192, 'learning_rate': 2.9995e-05, 'epoch': 18.48}
+{'loss': 0.0335, 'grad_norm': 0.4112194776535034, 'learning_rate': 2.9994666666666666e-05, 'epoch': 18.49}
+{'loss': 0.0234, 'grad_norm': 0.29463788866996765, 'learning_rate': 2.9994333333333335e-05, 'epoch': 18.49}
+{'loss': 0.039, 'grad_norm': 0.37340521812438965, 'learning_rate': 2.9994e-05, 'epoch': 18.49}
+{'loss': 0.0459, 'grad_norm': 0.7228174209594727, 'learning_rate': 2.9993666666666667e-05, 'epoch': 18.49}
+{'loss': 0.0171, 'grad_norm': 0.4925774335861206, 'learning_rate': 2.9993333333333333e-05, 'epoch': 18.49}
+{'loss': 0.0207, 'grad_norm': 0.5816299319267273, 'learning_rate': 2.9993000000000002e-05, 'epoch': 18.49}
+{'loss': 0.0354, 'grad_norm': 0.442291796207428, 'learning_rate': 2.9992666666666665e-05, 'epoch': 18.5}
+{'loss': 0.0115, 'grad_norm': 0.2628393769264221, 'learning_rate': 2.9992333333333334e-05, 'epoch': 18.5}
+{'loss': 0.0152, 'grad_norm': 0.33153483271598816, 'learning_rate': 2.9992e-05, 'epoch': 18.5}
+{'loss': 0.0238, 'grad_norm': 0.3420373797416687, 'learning_rate': 2.9991666666666666e-05, 'epoch': 18.5}
+{'loss': 0.0103, 'grad_norm': 0.6902183890342712, 'learning_rate': 2.9991333333333335e-05, 'epoch': 18.5}
+{'loss': 0.0204, 'grad_norm': 0.3361265957355499, 'learning_rate': 2.9991e-05, 'epoch': 18.51}
+{'loss': 0.0101, 'grad_norm': 0.32917317748069763, 'learning_rate': 2.9990666666666667e-05, 'epoch': 18.51}
+{'loss': 0.0163, 'grad_norm': 1.2217377424240112, 'learning_rate': 2.9990333333333333e-05, 'epoch': 18.51}
+{'loss': 0.0213, 'grad_norm': 0.3950839638710022, 'learning_rate': 2.9990000000000003e-05, 'epoch': 18.51}
+{'loss': 0.0075, 'grad_norm': 0.24514494836330414, 'learning_rate': 2.9989666666666665e-05, 'epoch': 18.51}
+{'loss': 0.015, 'grad_norm': 0.4704078733921051, 'learning_rate': 2.9989333333333334e-05, 'epoch': 18.52}
+{'loss': 0.0175, 'grad_norm': 0.522798478603363, 'learning_rate': 2.9989e-05, 'epoch': 18.52}
+{'loss': 0.0086, 'grad_norm': 0.1550319790840149, 'learning_rate': 2.9988666666666666e-05, 'epoch': 18.52}
+{'loss': 0.0088, 'grad_norm': 0.20868565142154694, 'learning_rate': 2.9988333333333336e-05, 'epoch': 18.52}
+{'loss': 0.0214, 'grad_norm': 0.6053646802902222, 'learning_rate': 2.9988e-05, 'epoch': 18.52}
+{'loss': 0.0219, 'grad_norm': 0.7348169088363647, 'learning_rate': 2.9987666666666667e-05, 'epoch': 18.52}
+{'loss': 0.0156, 'grad_norm': 0.3019208014011383, 'learning_rate': 2.9987333333333333e-05, 'epoch': 18.53}
+{'loss': 0.0154, 'grad_norm': 0.9538294672966003, 'learning_rate': 2.9987000000000003e-05, 'epoch': 18.53}
+{'loss': 0.0223, 'grad_norm': 0.9015957117080688, 'learning_rate': 2.9986666666666665e-05, 'epoch': 18.53}
+{'loss': 0.0102, 'grad_norm': 0.31876128911972046, 'learning_rate': 2.9986333333333335e-05, 'epoch': 18.53}
+{'loss': 0.0146, 'grad_norm': 0.22382700443267822, 'learning_rate': 2.9986000000000004e-05, 'epoch': 18.53}
+{'loss': 0.0124, 'grad_norm': 0.3416086733341217, 'learning_rate': 2.9985666666666666e-05, 'epoch': 18.54}
+{'loss': 0.0128, 'grad_norm': 0.42624083161354065, 'learning_rate': 2.9985333333333336e-05, 'epoch': 18.54}
+{'loss': 0.0254, 'grad_norm': 0.8317400217056274, 'learning_rate': 2.9985000000000002e-05, 'epoch': 18.54}
+{'loss': 0.0205, 'grad_norm': 0.7831063866615295, 'learning_rate': 2.9984666666666668e-05, 'epoch': 18.54}
+{'loss': 0.0147, 'grad_norm': 0.3047102391719818, 'learning_rate': 2.9984333333333334e-05, 'epoch': 18.54}
+{'loss': 0.0135, 'grad_norm': 0.3798275291919708, 'learning_rate': 2.9984e-05, 'epoch': 18.54}
+{'loss': 0.0144, 'grad_norm': 0.5144087076187134, 'learning_rate': 2.9983666666666665e-05, 'epoch': 18.55}
+{'loss': 0.0189, 'grad_norm': 0.3479164242744446, 'learning_rate': 2.9983333333333335e-05, 'epoch': 18.55}
+{'loss': 0.0286, 'grad_norm': 0.29653459787368774, 'learning_rate': 2.9983e-05, 'epoch': 18.55}
+{'loss': 0.0248, 'grad_norm': 0.5336138606071472, 'learning_rate': 2.9982666666666667e-05, 'epoch': 18.55}
+{'loss': 0.0118, 'grad_norm': 0.43095484375953674, 'learning_rate': 2.9982333333333336e-05, 'epoch': 18.55}
+{'loss': 0.1899, 'grad_norm': 0.8118236660957336, 'learning_rate': 2.9982e-05, 'epoch': 18.56}
+{'loss': 0.2917, 'grad_norm': 1.0012409687042236, 'learning_rate': 2.9981666666666668e-05, 'epoch': 18.56}
+{'loss': 0.1182, 'grad_norm': 0.6601340174674988, 'learning_rate': 2.9981333333333334e-05, 'epoch': 18.56}
+{'loss': 0.1185, 'grad_norm': 0.6776450872421265, 'learning_rate': 2.9981e-05, 'epoch': 18.56}
+{'loss': 0.1353, 'grad_norm': 0.588324248790741, 'learning_rate': 2.9980666666666666e-05, 'epoch': 18.56}
+{'loss': 0.1602, 'grad_norm': 0.5905701518058777, 'learning_rate': 2.9980333333333335e-05, 'epoch': 18.57}
+{'loss': 0.1245, 'grad_norm': 0.5700792074203491, 'learning_rate': 2.998e-05, 'epoch': 18.57}
+{'loss': 0.0669, 'grad_norm': 0.5920236706733704, 'learning_rate': 2.9979666666666667e-05, 'epoch': 18.57}
+{'loss': 0.1148, 'grad_norm': 0.7023180723190308, 'learning_rate': 2.9979333333333336e-05, 'epoch': 18.57}
+{'loss': 0.0552, 'grad_norm': 0.3596070110797882, 'learning_rate': 2.9979e-05, 'epoch': 18.57}
+{'loss': 0.0738, 'grad_norm': 0.765246570110321, 'learning_rate': 2.9978666666666668e-05, 'epoch': 18.57}
+{'loss': 0.07, 'grad_norm': 0.5413464307785034, 'learning_rate': 2.9978333333333334e-05, 'epoch': 18.58}
+{'loss': 0.051, 'grad_norm': 0.5046939253807068, 'learning_rate': 2.9978e-05, 'epoch': 18.58}
+{'loss': 0.037, 'grad_norm': 0.3605642020702362, 'learning_rate': 2.997766666666667e-05, 'epoch': 18.58}
+{'loss': 0.0261, 'grad_norm': 0.3019397556781769, 'learning_rate': 2.9977333333333335e-05, 'epoch': 18.58}
+{'loss': 0.0353, 'grad_norm': 0.468206524848938, 'learning_rate': 2.9977e-05, 'epoch': 18.58}
+{'loss': 0.0193, 'grad_norm': 0.2793387770652771, 'learning_rate': 2.9976666666666667e-05, 'epoch': 18.59}
+{'loss': 0.0214, 'grad_norm': 0.33137214183807373, 'learning_rate': 2.9976333333333336e-05, 'epoch': 18.59}
+{'loss': 0.0167, 'grad_norm': 0.8799513578414917, 'learning_rate': 2.9976e-05, 'epoch': 18.59}
+{'loss': 0.0092, 'grad_norm': 0.1753733605146408, 'learning_rate': 2.9975666666666668e-05, 'epoch': 18.59}
+{'loss': 0.0161, 'grad_norm': 0.3424614667892456, 'learning_rate': 2.9975333333333334e-05, 'epoch': 18.59}
+ 10%|█         | 10078/100000 [5:31:21<38:07:24,  1.53s/it] 10%|█         | 10079/100000 [5:31:22<37:04:01,  1.48s/it]                                                            10%|█         | 10079/100000 [5:31:22<37:04:01,  1.48s/it] 10%|█         | 10080/100000 [5:31:23<36:37:30,  1.47s/it]                                                            10%|█         | 10080/100000 [5:31:23<36:37:30,  1.47s/it] 10%|█         | 10081/100000 [5:31:25<35:49:45,  1.43s/it]                                                            10%|█         | 10081/100000 [5:31:25<35:49:45,  1.43s/it] 10%|█         | 10082/100000 [5:31:26<35:18:29,  1.41s/it]                                                            10%|█         | 10082/100000 [5:31:26<35:18:29,  1.41s/it] 10%|█         | 10083/100000 [5:31:28<34:46:01,  1.39s/it]                                                            10%|█         | 10083/100000 [5:31:28<34:46:01,  1.39s/it] 10%|█         | 10084/100000 [5:31:29<33:55:36,  1.36s/it]                                                            10%|█         | 10084/100000 [5:31:29<33:55:36,  1.36s/it] 10%|█         | 10085/100000 [5:31:30<33:32:21,  1.34s/it]                                                            10%|█         | 10085/100000 [5:31:30<33:32:21,  1.34s/it] 10%|█         | 10086/100000 [5:31:31<32:50:00,  1.31s/it]                                                            10%|█         | 10086/100000 [5:31:31<32:50:00,  1.31s/it] 10%|█         | 10087/100000 [5:31:33<32:33:44,  1.30s/it]                                                            10%|█         | 10087/100000 [5:31:33<32:33:44,  1.30s/it] 10%|█         | 10088/100000 [5:31:34<31:55:21,  1.28s/it]                                                            10%|█         | 10088/100000 [5:31:34<31:55:21,  1.28s/it] 10%|█         | 10089/100000 [5:31:35<31:45:40,  1.27s/it]                                                            10%|█         | 10089/100000 [5:31:35<31:45:40,  1.27s/it] 10%|█         | 10090/100000 [5:31:36<31:08:12,  1.25s/it]                                                            10%|█         | 10090/100000 [5:31:36<31:08:12,  1.25s/it] 10%|█         | 10091/100000 [5:31:37<30:37:32,  1.23s/it]                                                            10%|█         | 10091/100000 [5:31:37<30:37:32,  1.23s/it] 10%|█         | 10092/100000 [5:31:39<29:54:29,  1.20s/it]                                                            10%|█         | 10092/100000 [5:31:39<29:54:29,  1.20s/it] 10%|█         | 10093/100000 [5:31:40<29:17:29,  1.17s/it]                                                            10%|█         | 10093/100000 [5:31:40<29:17:29,  1.17s/it] 10%|█         | 10094/100000 [5:31:41<29:05:44,  1.17s/it]                                                            10%|█         | 10094/100000 [5:31:41<29:05:44,  1.17s/it] 10%|█         | 10095/100000 [5:31:42<28:46:50,  1.15s/it]                                                            10%|█         | 10095/100000 [5:31:42<28:46:50,  1.15s/it] 10%|█         | 10096/100000 [5:31:43<28:28:16,  1.14s/it]                                                            10%|█         | 10096/100000 [5:31:43<28:28:16,  1.14s/it] 10%|█         | 10097/100000 [5:31:44<28:14:50,  1.13s/it]                                                            10%|█         | 10097/100000 [5:31:44<28:14:50,  1.13s/it] 10%|█         | 10098/100000 [5:31:45<27:58:07,  1.12s/it]                                                            10%|█         | 10098/100000 [5:31:45<27:58:07,  1.12s/it] 10%|█         | 10099/100000 [5:31:46<27:40:30,  1.11s/it]                                                            10%|█         | 10099/100000 [5:31:46<27:40:30,  1.11s/it] 10%|█         | 10100/100000 [5:31:47<27:14:16,  1.09s/it]                                                            10%|█         | 10100/100000 [5:31:47<27:14:16,  1.09s/it] 10%|█         | 10101/100000 [5:31:48<26:44:21,  1.07s/it]                                                            10%|█         | 10101/100000 [5:31:48<26:44:21,  1.07s/it] 10%|█         | 10102/100000 [5:31:49<26:13:36,  1.05s/it]                                                            10%|█         | 10102/100000 [5:31:49<26:13:36,  1.05s/it] 10%|█         | 10103/100000 [5:31:50<25:42:58,  1.03s/it]                                                            10%|█         | 10103/100000 [5:31:50<25:42:58,  1.03s/it] 10%|█         | 10104/100000 [5:31:51<25:24:21,  1.02s/it]                                                            10%|█         | 10104/100000 [5:31:51<25:24:21,  1.02s/it] 10%|█         | 10105/100000 [5:31:52<24:38:05,  1.01it/s]                                                            10%|█         | 10105/100000 [5:31:52<24:38:05,  1.01it/s] 10%|█         | 10106/100000 [5:31:53<24:00:31,  1.04it/s]                                                            10%|█         | 10106/100000 [5:31:53<24:00:31,  1.04it/s] 10%|█         | 10107/100000 [5:32:04<100:21:17,  4.02s/it]                                                             10%|█         | 10107/100000 [5:32:04<100:21:17,  4.02s/it] 10%|█         | 10108/100000 [5:32:10<112:41:18,  4.51s/it]                                                             10%|█         | 10108/100000 [5:32:10<112:41:18,  4.51s/it] 10%|█         | 10109/100000 [5:32:15<112:37:27,  4.51s/it]                                                             10%|█         | 10109/100000 [5:32:15<112:37:27,  4.51s/it] 10%|█         | 10110/100000 [5:32:19<109:04:50,  4.37s/it]                                                             10%|█         | 10110/100000 [5:32:19<109:04:50,  4.37s/it] 10%|█         | 10111/100000 [5:32:22<101:41:43,  4.07s/it]                                                             10%|█         | 10111/100000 [5:32:22<101:41:43,  4.07s/it] 10%|█         | 10112/100000 [5:32:25<95:14:52,  3.81s/it]                                                             10%|█         | 10112/100000 [5:32:25<95:14:52,  3.81s/it] 10%|█         | 10113/100000 [5:32:28<87:51:26,  3.52s/it]                                                            10%|█         | 10113/100000 [5:32:28<87:51:26,  3.52s/it] 10%|█         | 10114/100000 [5:32:31<80:45:05,  3.23s/it]                                                            10%|█         | 10114/100000 [5:32:31<80:45:05,  3.23s/it] 10%|█         | 10115/100000 [5:32:33<74:53:25,  3.00s/it]                                                            10%|█         | 10115/100000 [5:32:33<74:53:25,  3.00s/it] 10%|█         | 10116/100000 [5:32:35<69:43:09,  2.79s/it]                                                            10%|█         | 10116/100000 [5:32:35<69:43:09,  2.79s/it] 10%|█         | 10117/100000 [5:32:38<65:00:27,  2.60s/it]                                                            10%|█         | 10117/100000 [5:32:38<65:00:27,  2.60s/it] 10%|█         | 10118/100000 [5:32:40<60:55:03,  2.44s/it]                                                            10%|█         | 10118/100000 [5:32:40<60:55:03,  2.44s/it] 10%|█         | 10119/100000 [5:32:42<57:14:10,  2.29s/it]                                                            10%|█         | 10119/100000 [5:32:42<57:14:10,  2.29s/it] 10%|█         | 10120/100000 [5:32:43<53:15:00,  2.13s/it]                                                            10%|█         | 10120/100000 [5:32:43<53:15:00,  2.13s/it] 10%|█         | 10121/100000 [5:32:45<49:50:18,  2.00s/it]                                                            10%|█         | 10121/100000 [5:32:45<49:50:18,  2.00s/it] 10%|█         | 10122/100000 [5:32:47<46:56:49,  1.88s/it]                                                            10%|█         | 10122/100000 [5:32:47<46:56:49,  1.88s/it] 10%|█         | 10123/100000 [5:32:48<44:58:43,  1.80s/it]                                                            10%|█         | 10123/100000 [5:32:48<44:58:43,  1.80s/it] 10%|█         | 10124/100000 [5:32:50<43:20:15,  1.74s/it]                                                            10%|█         | 10124/100000 [5:32:50<43:20:15,  1.74s/it] 10%|█         | 10125/100000 [5:32:51<41:19:28,  1.66s/it]                                                            10%|█         | 10125/100000 [5:32:51<41:19:28,  1.66s/it] 10%|█         | 10126/100000 [5:32:53<40:01:36,  1.60s/it]                                                            10%|█         | 10126/100000 [5:32:53<40:01:36,  1.60s/it] 10%|█         | 10127/100000 [5:32:54<38:35:42,  1.55s/it]                                                            10%|█         | 10127/100000 [5:32:54<38:35:42,  1.55s/it] 10%|█         | 10128/100000 [5:32:56<37:40:31,  1.51s/it]                                                            10%|█         | 10128/100000 [5:32:56<37:40:31,  1.51s/it] 10%|█         | 10129/100000 [5:32:57<36:33:29,  1.46s/it]                                                            10%|█         | 10129/100000 [5:32:57<36:33:29,  1.46s/it] 10%|█         | 10130/100000 [5:32:58<35:55:47,  1.44s/it]                                                            10%|█         | 10130/100000 [5:32:58<35:55:47,  1.44s/it] 10%|█         | 10131/100000 [5:33:00<35:03:24,  1.40s/it]                                                            10%|█         | 10131/100000 [5:33:00<35:03:24,  1.40s/it] 10%|█         | 10132/100000 [5:33:01<34:40:23,  1.39s/it]                                                            10%|█         | 10132/100000 [5:33:01<34:40:23,  1.39s/it] 10%|█         | 10133/100000 [5:33:02<33:57:01,  1.36s/it]                                                            10%|█         | 10133/100000 [5:33:02<33:57:01,  1.36s/it] 10%|█         | 10134/100000 [5:33:04<33:30:33,  1.34s/it]                                                            10%|█         | 10134/100000 [5:33:04<33:30:33,  1.34s/it] 10%|█         | 10135/100000 [5:33:05<33:08:30,  1.33s/it]                                                            10%|█         | 10135/100000 [5:33:05<33:08:30,  1.33s/it] 10%|█         | 10136/100000 [5:33:06<32:50:20,  1.32s/it]                                                            10%|█         | 10136/100000 [5:33:06<32:50:20,  1.32s/it] 10%|█         | 10137/100000 [5:33:07<32:19:59,  1.30s/it]                                                            10%|█         | 10137/100000 [5:33:07<32:19:59,  1.30s/it] 10%|█         | 10138/100000 [5:33:09<31:45:19,  1.27s/it]                                                            10%|█         | 10138/100000 [5:33:09<31:45:19,  1.27s/it] 10%|█         | 10139/100000 [5:33:10<31:24:31,  1.26s/it]                                                            10%|█         | 10139/100000 [5:33:10<31:24:31,  1.26s/it] 10%|█         | 10140/100000 [5:33:11<31:02:45,  1.24s/it]                                                            10%|█         | 10140/100000 [5:33:11<31:02:45,  1.24s/it] 10%|█         | 10141/100000 [5:33:12<30:16:44,  1.21s/it]                                                            10%|█         | 10141/100000 [5:33:12<30:16:44,  1.21s/it] 10%|█         | 10142/100000 [5:33:13<29:53:13,  1.20s/it]                                                            10%|█         | 10142/100000 [5:33:13<29:53:13,  1.20s/it] 10%|█         | 10143/100000 [5:33:15<29:27:56,  1.18s/it]                                                            10%|█         | 10143/100000 [5:33:15<29:27:56,  1.18s/it] 10%|█         | 10144/100000 [5:33:16<29:11:07,  1.17s/it]                                                            10%|█         | 10144/100000 [5:33:16<29:11:07,  1.17s/it] 10%|█         | 10145/100000 [5:33:17<29:01:54,  1.16s/it]                                                            10%|█         | 10145/100000 [5:33:17<29:01:54,  1.16s/it] 10%|█         | 10146/100000 [5:33:18<28:23:33,  1.14s/it]                                                            10%|█         | 10146/100000 [5:33:18<28:23:33,  1.14s/it] 10%|█         | 10147/100000 [5:33:19<27:53:24,  1.12s/it]                                                            10%|█         | 10147/100000 [5:33:19<27:53:24,  1.12s/it] 10%|█         | 10148/100000 [5:33:20<27:33:36,  1.10s/it]                                                            10%|█         | 10148/100000 [5:33:20<27:33:36,  1.10s/it] 10%|█         | 10149/100000 [5:33:21<27:28:25,  1.10s/it]                                                            10%|█         | 10149/100000 [5:33:21<27:28:25,  1.10s/it] 10%|█         | 10150/100000 [5:33:22<26:54:24,  1.08s/it]                                                            10%|█         | 10150/100000 [5:33:22<26:54:24,  1.08s/it] 10%|█         | 10151/100000 [5:33:23<26:18:02,  1.05s/it]                                                            10%|█         | 10151/100000 [5:33:23<26:18:02,  1.05s/it] 10%|█         | 10152/100000 [5:33:24<25:51:35,  1.04s/it]                                                            10%|█         | 10152/100000 [5:33:24<25:51:35,  1.04s/it] 10%|█         | 10153/100000 [5:33:25<25:33:35,  1.02s/it]                                                            10%|█         | 10153/100000 [5:33:25<25:33:35,  1.02s/it] 10%|█         | 10154/100000 [5:33:26<25:13:25,  1.01s/it]                                                            10%|█         | 10154/100000 [5:33:26<25:13:25,  1.01s/it] 10%|█         | 10155/100000 [5:33:27<24:48:46,  1.01it/s]                                                            10%|█         | 10155/100000 [5:33:27<24:48:46,  1.01it/s] 10%|█         | 10156/100000 [5:33:28<24:19:13,  1.03it/s]                                                           {'loss': 0.0104, 'grad_norm': 0.1594821959733963, 'learning_rate': 2.9975e-05, 'epoch': 18.59}
+{'loss': 0.0175, 'grad_norm': 0.401669979095459, 'learning_rate': 2.997466666666667e-05, 'epoch': 18.6}
+{'loss': 0.0169, 'grad_norm': 0.5343904495239258, 'learning_rate': 2.9974333333333332e-05, 'epoch': 18.6}
+{'loss': 0.0211, 'grad_norm': 0.639664351940155, 'learning_rate': 2.9974e-05, 'epoch': 18.6}
+{'loss': 0.0319, 'grad_norm': 0.34157347679138184, 'learning_rate': 2.9973666666666667e-05, 'epoch': 18.6}
+{'loss': 0.0505, 'grad_norm': 0.8372710943222046, 'learning_rate': 2.9973333333333333e-05, 'epoch': 18.6}
+{'loss': 0.0081, 'grad_norm': 0.23561322689056396, 'learning_rate': 2.9973e-05, 'epoch': 18.61}
+{'loss': 0.0089, 'grad_norm': 0.3529277741909027, 'learning_rate': 2.997266666666667e-05, 'epoch': 18.61}
+{'loss': 0.0144, 'grad_norm': 0.2528364658355713, 'learning_rate': 2.997233333333333e-05, 'epoch': 18.61}
+{'loss': 0.0071, 'grad_norm': 0.513348400592804, 'learning_rate': 2.9972e-05, 'epoch': 18.61}
+{'loss': 0.0113, 'grad_norm': 0.332783579826355, 'learning_rate': 2.997166666666667e-05, 'epoch': 18.61}
+{'loss': 0.0111, 'grad_norm': 0.2563062310218811, 'learning_rate': 2.9971333333333332e-05, 'epoch': 18.61}
+{'loss': 0.0078, 'grad_norm': 0.39945706725120544, 'learning_rate': 2.9971e-05, 'epoch': 18.62}
+{'loss': 0.0099, 'grad_norm': 0.30604419112205505, 'learning_rate': 2.9970666666666667e-05, 'epoch': 18.62}
+{'loss': 0.0108, 'grad_norm': 0.3137086033821106, 'learning_rate': 2.9970333333333333e-05, 'epoch': 18.62}
+{'loss': 0.0171, 'grad_norm': 0.3253783881664276, 'learning_rate': 2.997e-05, 'epoch': 18.62}
+{'loss': 0.1085, 'grad_norm': 1.2647370100021362, 'learning_rate': 2.996966666666667e-05, 'epoch': 18.62}
+{'loss': 0.0139, 'grad_norm': 0.2971855103969574, 'learning_rate': 2.9969333333333335e-05, 'epoch': 18.63}
+{'loss': 0.0123, 'grad_norm': 0.29171839356422424, 'learning_rate': 2.9969e-05, 'epoch': 18.63}
+{'loss': 0.0153, 'grad_norm': 0.3409866392612457, 'learning_rate': 2.996866666666667e-05, 'epoch': 18.63}
+{'loss': 0.0191, 'grad_norm': 0.3979312479496002, 'learning_rate': 2.9968333333333332e-05, 'epoch': 18.63}
+{'loss': 0.0141, 'grad_norm': 0.4440046548843384, 'learning_rate': 2.9968000000000002e-05, 'epoch': 18.63}
+{'loss': 0.0157, 'grad_norm': 0.3148280382156372, 'learning_rate': 2.9967666666666668e-05, 'epoch': 18.64}
+{'loss': 0.0142, 'grad_norm': 0.7379143834114075, 'learning_rate': 2.9967333333333334e-05, 'epoch': 18.64}
+{'loss': 0.0222, 'grad_norm': 0.4341832399368286, 'learning_rate': 2.9967e-05, 'epoch': 18.64}
+{'loss': 0.0088, 'grad_norm': 0.25606244802474976, 'learning_rate': 2.996666666666667e-05, 'epoch': 18.64}
+{'loss': 0.0195, 'grad_norm': 0.32717734575271606, 'learning_rate': 2.9966333333333335e-05, 'epoch': 18.64}
+{'loss': 0.0113, 'grad_norm': 0.5025584697723389, 'learning_rate': 2.9966e-05, 'epoch': 18.64}
+{'loss': 0.0127, 'grad_norm': 0.30470889806747437, 'learning_rate': 2.996566666666667e-05, 'epoch': 18.65}
+{'loss': 0.2126, 'grad_norm': 3.4498097896575928, 'learning_rate': 2.9965333333333333e-05, 'epoch': 18.65}
+{'loss': 0.1395, 'grad_norm': 0.6399456262588501, 'learning_rate': 2.9965000000000002e-05, 'epoch': 18.65}
+{'loss': 0.1193, 'grad_norm': 0.5964101552963257, 'learning_rate': 2.9964666666666664e-05, 'epoch': 18.65}
+{'loss': 0.1248, 'grad_norm': 1.0935943126678467, 'learning_rate': 2.9964333333333334e-05, 'epoch': 18.65}
+{'loss': 0.1114, 'grad_norm': 1.1805049180984497, 'learning_rate': 2.9964e-05, 'epoch': 18.66}
+{'loss': 0.0861, 'grad_norm': 0.5595899224281311, 'learning_rate': 2.9963666666666666e-05, 'epoch': 18.66}
+{'loss': 0.056, 'grad_norm': 0.4162147343158722, 'learning_rate': 2.9963333333333335e-05, 'epoch': 18.66}
+{'loss': 0.1408, 'grad_norm': 0.8674030303955078, 'learning_rate': 2.9963e-05, 'epoch': 18.66}
+{'loss': 0.0534, 'grad_norm': 0.37030184268951416, 'learning_rate': 2.9962666666666667e-05, 'epoch': 18.66}
+{'loss': 0.0514, 'grad_norm': 0.4186866283416748, 'learning_rate': 2.9962333333333333e-05, 'epoch': 18.66}
+{'loss': 0.0497, 'grad_norm': 0.776822566986084, 'learning_rate': 2.9962000000000002e-05, 'epoch': 18.67}
+{'loss': 0.0481, 'grad_norm': 0.41464748978614807, 'learning_rate': 2.9961666666666665e-05, 'epoch': 18.67}
+{'loss': 0.0557, 'grad_norm': 1.1878679990768433, 'learning_rate': 2.9961333333333334e-05, 'epoch': 18.67}
+{'loss': 0.0647, 'grad_norm': 0.563939094543457, 'learning_rate': 2.9961000000000003e-05, 'epoch': 18.67}
+{'loss': 0.0339, 'grad_norm': 0.8240351676940918, 'learning_rate': 2.9960666666666666e-05, 'epoch': 18.67}
+{'loss': 0.0106, 'grad_norm': 0.19536948204040527, 'learning_rate': 2.9960333333333335e-05, 'epoch': 18.68}
+{'loss': 0.0125, 'grad_norm': 1.515914797782898, 'learning_rate': 2.996e-05, 'epoch': 18.68}
+{'loss': 0.0189, 'grad_norm': 0.20640091598033905, 'learning_rate': 2.9959666666666667e-05, 'epoch': 18.68}
+{'loss': 0.0666, 'grad_norm': 0.44630637764930725, 'learning_rate': 2.9959333333333333e-05, 'epoch': 18.68}
+{'loss': 0.044, 'grad_norm': 0.34298625588417053, 'learning_rate': 2.9959000000000002e-05, 'epoch': 18.68}
+{'loss': 0.0153, 'grad_norm': 0.4227137267589569, 'learning_rate': 2.9958666666666665e-05, 'epoch': 18.69}
+{'loss': 0.01, 'grad_norm': 0.21673138439655304, 'learning_rate': 2.9958333333333334e-05, 'epoch': 18.69}
+{'loss': 0.0117, 'grad_norm': 0.1855924427509308, 'learning_rate': 2.9958000000000004e-05, 'epoch': 18.69}
+{'loss': 0.0059, 'grad_norm': 0.32578045129776, 'learning_rate': 2.9957666666666666e-05, 'epoch': 18.69}
+{'loss': 0.0166, 'grad_norm': 0.38381683826446533, 'learning_rate': 2.9957333333333335e-05, 'epoch': 18.69}
+{'loss': 0.0116, 'grad_norm': 0.4086329936981201, 'learning_rate': 2.9957e-05, 'epoch': 18.69}
+{'loss': 0.0156, 'grad_norm': 0.5231785178184509, 'learning_rate': 2.9956666666666667e-05, 'epoch': 18.7}
+{'loss': 0.0072, 'grad_norm': 0.22241975367069244, 'learning_rate': 2.9956333333333333e-05, 'epoch': 18.7}
+{'loss': 0.019, 'grad_norm': 0.3974694013595581, 'learning_rate': 2.9956000000000003e-05, 'epoch': 18.7}
+{'loss': 0.0131, 'grad_norm': 0.32537904381752014, 'learning_rate': 2.9955666666666665e-05, 'epoch': 18.7}
+{'loss': 0.0242, 'grad_norm': 0.6127800941467285, 'learning_rate': 2.9955333333333334e-05, 'epoch': 18.7}
+{'loss': 0.0121, 'grad_norm': 0.29393771290779114, 'learning_rate': 2.9955000000000004e-05, 'epoch': 18.71}
+{'loss': 0.0169, 'grad_norm': 0.4710220992565155, 'learning_rate': 2.9954666666666666e-05, 'epoch': 18.71}
+{'loss': 0.0096, 'grad_norm': 0.3239732086658478, 'learning_rate': 2.9954333333333336e-05, 'epoch': 18.71}
+{'loss': 0.0108, 'grad_norm': 0.3971695601940155, 'learning_rate': 2.9953999999999998e-05, 'epoch': 18.71}
+{'loss': 0.0158, 'grad_norm': 0.37625211477279663, 'learning_rate': 2.9953666666666667e-05, 'epoch': 18.71}
+{'loss': 0.0184, 'grad_norm': 0.6671343445777893, 'learning_rate': 2.9953333333333333e-05, 'epoch': 18.71}
+{'loss': 0.0165, 'grad_norm': 0.4562927186489105, 'learning_rate': 2.9953e-05, 'epoch': 18.72}
+{'loss': 0.0107, 'grad_norm': 0.270826518535614, 'learning_rate': 2.995266666666667e-05, 'epoch': 18.72}
+{'loss': 0.0163, 'grad_norm': 0.2679862678050995, 'learning_rate': 2.9952333333333335e-05, 'epoch': 18.72}
+{'loss': 0.013, 'grad_norm': 0.42214062809944153, 'learning_rate': 2.9952e-05, 'epoch': 18.72}
+{'loss': 0.0124, 'grad_norm': 0.3402858376502991, 'learning_rate': 2.9951666666666666e-05, 'epoch': 18.72}
+{'loss': 0.017, 'grad_norm': 0.38823774456977844, 'learning_rate': 2.9951333333333336e-05, 'epoch': 18.73}
+{'loss': 0.0208, 'grad_norm': 0.6362157464027405, 'learning_rate': 2.9951e-05, 'epoch': 18.73}
+{'loss': 0.0083, 'grad_norm': 0.21173816919326782, 'learning_rate': 2.9950666666666668e-05, 'epoch': 18.73}
+{'loss': 0.0177, 'grad_norm': 0.5997298955917358, 'learning_rate': 2.9950333333333334e-05, 'epoch': 18.73}
+{'loss': 0.0171, 'grad_norm': 0.670458972454071, 'learning_rate': 2.995e-05, 'epoch': 18.73}
+{'loss': 0.0112, 'grad_norm': 0.4021938741207123, 'learning_rate': 2.994966666666667e-05, 'epoch': 18.73}
+{'loss': 0.0159, 'grad_norm': 0.7811278104782104, 'learning_rate': 2.9949333333333335e-05, 'epoch': 18.74}
+ 10%|█         | 10156/100000 [5:33:28<24:19:13,  1.03it/s] 10%|█         | 10157/100000 [5:33:40<107:05:40,  4.29s/it]                                                             10%|█         | 10157/100000 [5:33:40<107:05:40,  4.29s/it] 10%|█         | 10158/100000 [5:33:46<117:31:05,  4.71s/it]                                                             10%|█         | 10158/100000 [5:33:46<117:31:05,  4.71s/it] 10%|█         | 10159/100000 [5:33:50<115:55:21,  4.65s/it]                                                             10%|█         | 10159/100000 [5:33:50<115:55:21,  4.65s/it] 10%|█         | 10160/100000 [5:33:54<110:40:52,  4.44s/it]                                                             10%|█         | 10160/100000 [5:33:54<110:40:52,  4.44s/it] 10%|█         | 10161/100000 [5:33:58<103:25:49,  4.14s/it]                                                             10%|█         | 10161/100000 [5:33:58<103:25:49,  4.14s/it] 10%|█         | 10162/100000 [5:34:01<95:45:13,  3.84s/it]                                                             10%|█         | 10162/100000 [5:34:01<95:45:13,  3.84s/it] 10%|█         | 10163/100000 [5:34:04<88:36:36,  3.55s/it]                                                            10%|█         | 10163/100000 [5:34:04<88:36:36,  3.55s/it] 10%|█         | 10164/100000 [5:34:06<81:09:52,  3.25s/it]                                                            10%|█         | 10164/100000 [5:34:06<81:09:52,  3.25s/it] 10%|█         | 10165/100000 [5:34:09<75:19:56,  3.02s/it]                                                            10%|█         | 10165/100000 [5:34:09<75:19:56,  3.02s/it] 10%|█         | 10166/100000 [5:34:11<70:03:57,  2.81s/it]                                                            10%|█         | 10166/100000 [5:34:11<70:03:57,  2.81s/it] 10%|█         | 10167/100000 [5:34:13<65:03:01,  2.61s/it]                                                            10%|█         | 10167/100000 [5:34:13<65:03:01,  2.61s/it] 10%|█         | 10168/100000 [5:34:15<60:11:46,  2.41s/it]                                                            10%|█         | 10168/100000 [5:34:15<60:11:46,  2.41s/it] 10%|█         | 10169/100000 [5:34:17<56:32:34,  2.27s/it]                                                            10%|█         | 10169/100000 [5:34:17<56:32:34,  2.27s/it] 10%|█         | 10170/100000 [5:34:19<53:08:37,  2.13s/it]                                                            10%|█         | 10170/100000 [5:34:19<53:08:37,  2.13s/it] 10%|█         | 10171/100000 [5:34:21<50:19:02,  2.02s/it]                                                            10%|█         | 10171/100000 [5:34:21<50:19:02,  2.02s/it] 10%|█         | 10172/100000 [5:34:22<47:38:17,  1.91s/it]                                                            10%|█         | 10172/100000 [5:34:22<47:38:17,  1.91s/it] 10%|█         | 10173/100000 [5:34:24<45:24:31,  1.82s/it]                                                            10%|█         | 10173/100000 [5:34:24<45:24:31,  1.82s/it] 10%|█         | 10174/100000 [5:34:25<43:40:38,  1.75s/it]                                                            10%|█         | 10174/100000 [5:34:25<43:40:38,  1.75s/it] 10%|█         | 10175/100000 [5:34:27<42:02:40,  1.69s/it]                                                            10%|█         | 10175/100000 [5:34:27<42:02:40,  1.69s/it] 10%|█         | 10176/100000 [5:34:28<40:33:41,  1.63s/it]                                                            10%|█         | 10176/100000 [5:34:28<40:33:41,  1.63s/it] 10%|█         | 10177/100000 [5:34:30<39:17:02,  1.57s/it]                                                            10%|█         | 10177/100000 [5:34:30<39:17:02,  1.57s/it] 10%|█         | 10178/100000 [5:34:31<37:57:16,  1.52s/it]                                                            10%|█         | 10178/100000 [5:34:31<37:57:16,  1.52s/it] 10%|█         | 10179/100000 [5:34:33<37:11:48,  1.49s/it]                                                            10%|█         | 10179/100000 [5:34:33<37:11:48,  1.49s/it] 10%|█         | 10180/100000 [5:34:34<36:00:06,  1.44s/it]                                                            10%|█         | 10180/100000 [5:34:34<36:00:06,  1.44s/it] 10%|█         | 10181/100000 [5:34:35<35:34:43,  1.43s/it]                                                            10%|█         | 10181/100000 [5:34:35<35:34:43,  1.43s/it] 10%|█         | 10182/100000 [5:34:37<34:43:40,  1.39s/it]                                                            10%|█         | 10182/100000 [5:34:37<34:43:40,  1.39s/it] 10%|█         | 10183/100000 [5:34:38<33:59:37,  1.36s/it]                                                            10%|█         | 10183/100000 [5:34:38<33:59:37,  1.36s/it] 10%|█         | 10184/100000 [5:34:39<33:37:13,  1.35s/it]                                                            10%|█         | 10184/100000 [5:34:39<33:37:13,  1.35s/it] 10%|█         | 10185/100000 [5:34:41<33:11:41,  1.33s/it]                                                            10%|█         | 10185/100000 [5:34:41<33:11:41,  1.33s/it] 10%|█         | 10186/100000 [5:34:42<32:36:30,  1.31s/it]                                                            10%|█         | 10186/100000 [5:34:42<32:36:30,  1.31s/it] 10%|█         | 10187/100000 [5:34:43<32:11:18,  1.29s/it]                                                            10%|█         | 10187/100000 [5:34:43<32:11:18,  1.29s/it] 10%|█         | 10188/100000 [5:34:44<31:47:50,  1.27s/it]                                                            10%|█         | 10188/100000 [5:34:44<31:47:50,  1.27s/it] 10%|█         | 10189/100000 [5:34:46<31:26:14,  1.26s/it]                                                            10%|█         | 10189/100000 [5:34:46<31:26:14,  1.26s/it] 10%|█         | 10190/100000 [5:34:47<30:46:49,  1.23s/it]                                                            10%|█         | 10190/100000 [5:34:47<30:46:49,  1.23s/it] 10%|█         | 10191/100000 [5:34:48<30:16:22,  1.21s/it]                                                            10%|█         | 10191/100000 [5:34:48<30:16:22,  1.21s/it] 10%|█         | 10192/100000 [5:34:49<29:50:20,  1.20s/it]                                                            10%|█         | 10192/100000 [5:34:49<29:50:20,  1.20s/it] 10%|█         | 10193/100000 [5:34:50<29:18:48,  1.18s/it]                                                            10%|█         | 10193/100000 [5:34:50<29:18:48,  1.18s/it] 10%|█         | 10194/100000 [5:34:51<28:55:38,  1.16s/it]                                                            10%|█         | 10194/100000 [5:34:51<28:55:38,  1.16s/it] 10%|█         | 10195/100000 [5:34:52<28:25:54,  1.14s/it]                                                            10%|█         | 10195/100000 [5:34:52<28:25:54,  1.14s/it] 10%|█         | 10196/100000 [5:34:54<28:08:54,  1.13s/it]                                                            10%|█         | 10196/100000 [5:34:54<28:08:54,  1.13s/it] 10%|█         | 10197/100000 [5:34:55<27:43:37,  1.11s/it]                                                            10%|█         | 10197/100000 [5:34:55<27:43:37,  1.11s/it] 10%|█         | 10198/100000 [5:34:56<27:29:04,  1.10s/it]                                                            10%|█         | 10198/100000 [5:34:56<27:29:04,  1.10s/it] 10%|█         | 10199/100000 [5:34:57<27:07:02,  1.09s/it]                                                            10%|█         | 10199/100000 [5:34:57<27:07:02,  1.09s/it] 10%|█         | 10200/100000 [5:34:58<26:32:58,  1.06s/it]                                                            10%|█         | 10200/100000 [5:34:58<26:32:58,  1.06s/it] 10%|█         | 10201/100000 [5:34:59<25:42:21,  1.03s/it]                                                            10%|█         | 10201/100000 [5:34:59<25:42:21,  1.03s/it] 10%|█         | 10202/100000 [5:35:00<25:15:01,  1.01s/it]                                                            10%|█         | 10202/100000 [5:35:00<25:15:01,  1.01s/it] 10%|█         | 10203/100000 [5:35:01<24:46:26,  1.01it/s]                                                            10%|█         | 10203/100000 [5:35:01<24:46:26,  1.01it/s] 10%|█         | 10204/100000 [5:35:02<24:41:57,  1.01it/s]                                                            10%|█         | 10204/100000 [5:35:02<24:41:57,  1.01it/s] 10%|█         | 10205/100000 [5:35:03<24:04:13,  1.04it/s]                                                            10%|█         | 10205/100000 [5:35:03<24:04:13,  1.04it/s] 10%|█         | 10206/100000 [5:35:03<23:17:33,  1.07it/s]                                                            10%|█         | 10206/100000 [5:35:03<23:17:33,  1.07it/s] 10%|█         | 10207/100000 [5:35:14<94:45:36,  3.80s/it]                                                            10%|█         | 10207/100000 [5:35:14<94:45:36,  3.80s/it] 10%|█         | 10208/100000 [5:35:19<107:39:57,  4.32s/it]                                                             10%|█         | 10208/100000 [5:35:19<107:39:57,  4.32s/it] 10%|█         | 10209/100000 [5:35:24<112:01:32,  4.49s/it]                                                             10%|█         | 10209/100000 [5:35:24<112:01:32,  4.49s/it] 10%|█         | 10210/100000 [5:35:28<109:56:23,  4.41s/it]                                                             10%|█         | 10210/100000 [5:35:29<109:56:23,  4.41s/it] 10%|█         | 10211/100000 [5:35:32<105:07:53,  4.22s/it]                                                             10%|█         | 10211/100000 [5:35:32<105:07:53,  4.22s/it] 10%|█         | 10212/100000 [5:35:36<98:41:26,  3.96s/it]                                                             10%|█         | 10212/100000 [5:35:36<98:41:26,  3.96s/it] 10%|█         | 10213/100000 [5:35:39<92:02:58,  3.69s/it]                                                            10%|█         | 10213/100000 [5:35:39<92:02:58,  3.69s/it] 10%|█         | 10214/100000 [5:35:41<85:25:28,  3.43s/it]                                                            10%|█         | 10214/100000 [5:35:42<85:25:28,  3.43s/it] 10%|█         | 10215/100000 [5:35:44<78:51:59,  3.16s/it]                                                            10%|█         | 10215/100000 [5:35:44<78:51:59,  3.16s/it] 10%|█         | 10216/100000 [5:35:46<72:44:57,  2.92s/it]                                                            10%|█         | 10216/100000 [5:35:46<72:44:57,  2.92s/it] 10%|█         | 10217/100000 [5:35:49<67:38:09,  2.71s/it]                                                            10%|█         | 10217/100000 [5:35:49<67:38:09,  2.71s/it] 10%|█         | 10218/100000 [5:35:51<63:14:47,  2.54s/it]                                                            10%|█         | 10218/100000 [5:35:51<63:14:47,  2.54s/it] 10%|█         | 10219/100000 [5:35:53<58:42:24,  2.35s/it]                                                            10%|█         | 10219/100000 [5:35:53<58:42:24,  2.35s/it] 10%|█         | 10220/100000 [5:35:55<55:13:40,  2.21s/it]                                                            10%|█         | 10220/100000 [5:35:55<55:13:40,  2.21s/it] 10%|█         | 10221/100000 [5:35:56<51:36:26,  2.07s/it]                                                            10%|█         | 10221/100000 [5:35:56<51:36:26,  2.07s/it] 10%|█         | 10222/100000 [5:35:58<48:44:58,  1.95s/it]                                                            10%|█         | 10222/100000 [5:35:58<48:44:58,  1.95s/it] 10%|█         | 10223/100000 [5:36:00<46:23:35,  1.86s/it]                                                            10%|█         | 10223/100000 [5:36:00<46:23:35,  1.86s/it] 10%|█         | 10224/100000 [5:36:01<44:22:48,  1.78s/it]                                                            10%|█         | 10224/100000 [5:36:01<44:22:48,  1.78s/it] 10%|█         | 10225/100000 [5:36:03<42:31:01,  1.70s/it]                                                            10%|█         | 10225/100000 [5:36:03<42:31:01,  1.70s/it] 10%|█         | 10226/100000 [5:36:04<40:34:20,  1.63s/it]                                                            10%|█         | 10226/100000 [5:36:04<40:34:20,  1.63s/it] 10%|█         | 10227/100000 [5:36:06<39:23:26,  1.58s/it]                                                            10%|█         | 10227/100000 [5:36:06<39:23:26,  1.58s/it] 10%|█         | 10228/100000 [5:36:07<37:49:44,  1.52s/it]                                                            10%|█         | 10228/100000 [5:36:07<37:49:44,  1.52s/it] 10%|█         | 10229/100000 [5:36:08<36:53:08,  1.48s/it]                                                            10%|█         | 10229/100000 [5:36:08<36:53:08,  1.48s/it] 10%|█         | 10230/100000 [5:36:10<36:10:50,  1.45s/it]                                                            10%|█         | 10230/100000 [5:36:10<36:10:50,  1.45s/it] 10%|█         | 10231/100000 [5:36:11<34:57:16,  1.40s/it]                                                            10%|█         | 10231/100000 [5:36:11<34:57:16,  1.40s/it] 10%|█         | 10232/100000 [5:36:12<34:37:35,  1.39s/it]                                                            10%|█         | 10232/100000 [5:36:12<34:37:35,  1.39s/it] 10%|█         | 10233/100000 [5:36:14<33:50:32,  1.36s/it]                                                            10%|█         | 10233/100000 [5:36:14<33:50:32,  1.36s/it] 10%|█         | 10234/100000 [5:36:15<33:10:47,  1.33s/it]                                                           {'loss': 0.016, 'grad_norm': 0.6017845273017883, 'learning_rate': 2.9949e-05, 'epoch': 18.74}
+{'loss': 0.3443, 'grad_norm': 1.6666468381881714, 'learning_rate': 2.9948666666666667e-05, 'epoch': 18.74}
+{'loss': 0.1577, 'grad_norm': 0.7472243309020996, 'learning_rate': 2.9948333333333336e-05, 'epoch': 18.74}
+{'loss': 0.1193, 'grad_norm': 0.7569506168365479, 'learning_rate': 2.9948e-05, 'epoch': 18.74}
+{'loss': 0.113, 'grad_norm': 0.7633649110794067, 'learning_rate': 2.9947666666666668e-05, 'epoch': 18.75}
+{'loss': 0.0973, 'grad_norm': 0.6256909370422363, 'learning_rate': 2.9947333333333334e-05, 'epoch': 18.75}
+{'loss': 0.118, 'grad_norm': 1.0657498836517334, 'learning_rate': 2.9947e-05, 'epoch': 18.75}
+{'loss': 0.0741, 'grad_norm': 0.7749153971672058, 'learning_rate': 2.994666666666667e-05, 'epoch': 18.75}
+{'loss': 0.0539, 'grad_norm': 0.4885929822921753, 'learning_rate': 2.9946333333333335e-05, 'epoch': 18.75}
+{'loss': 0.0759, 'grad_norm': 0.765285313129425, 'learning_rate': 2.9946e-05, 'epoch': 18.76}
+{'loss': 0.0714, 'grad_norm': 0.6439147591590881, 'learning_rate': 2.9945666666666667e-05, 'epoch': 18.76}
+{'loss': 0.0639, 'grad_norm': 0.5060761570930481, 'learning_rate': 2.9945333333333336e-05, 'epoch': 18.76}
+{'loss': 0.0341, 'grad_norm': 0.34558436274528503, 'learning_rate': 2.9945e-05, 'epoch': 18.76}
+{'loss': 0.0938, 'grad_norm': 0.6426031589508057, 'learning_rate': 2.9944666666666668e-05, 'epoch': 18.76}
+{'loss': 0.0304, 'grad_norm': 0.6749737858772278, 'learning_rate': 2.9944333333333334e-05, 'epoch': 18.76}
+{'loss': 0.0617, 'grad_norm': 0.3478706479072571, 'learning_rate': 2.9944e-05, 'epoch': 18.77}
+{'loss': 0.0209, 'grad_norm': 0.24540524184703827, 'learning_rate': 2.994366666666667e-05, 'epoch': 18.77}
+{'loss': 0.03, 'grad_norm': 0.5011123418807983, 'learning_rate': 2.9943333333333332e-05, 'epoch': 18.77}
+{'loss': 0.0177, 'grad_norm': 0.27377021312713623, 'learning_rate': 2.9943e-05, 'epoch': 18.77}
+{'loss': 0.0161, 'grad_norm': 0.1973041296005249, 'learning_rate': 2.9942666666666667e-05, 'epoch': 18.77}
+{'loss': 0.012, 'grad_norm': 0.2237047255039215, 'learning_rate': 2.9942333333333333e-05, 'epoch': 18.78}
+{'loss': 0.0444, 'grad_norm': 0.34094229340553284, 'learning_rate': 2.9942e-05, 'epoch': 18.78}
+{'loss': 0.0139, 'grad_norm': 0.4286072850227356, 'learning_rate': 2.9941666666666668e-05, 'epoch': 18.78}
+{'loss': 0.0222, 'grad_norm': 1.1234757900238037, 'learning_rate': 2.9941333333333334e-05, 'epoch': 18.78}
+{'loss': 0.0124, 'grad_norm': 0.4694407880306244, 'learning_rate': 2.9941e-05, 'epoch': 18.78}
+{'loss': 0.0114, 'grad_norm': 0.2294221818447113, 'learning_rate': 2.994066666666667e-05, 'epoch': 18.78}
+{'loss': 0.0152, 'grad_norm': 0.2664346396923065, 'learning_rate': 2.9940333333333332e-05, 'epoch': 18.79}
+{'loss': 0.0098, 'grad_norm': 0.2968711853027344, 'learning_rate': 2.994e-05, 'epoch': 18.79}
+{'loss': 0.017, 'grad_norm': 0.39534589648246765, 'learning_rate': 2.9939666666666667e-05, 'epoch': 18.79}
+{'loss': 0.0086, 'grad_norm': 0.19877228140830994, 'learning_rate': 2.9939333333333333e-05, 'epoch': 18.79}
+{'loss': 0.0083, 'grad_norm': 0.178855299949646, 'learning_rate': 2.9939e-05, 'epoch': 18.79}
+{'loss': 0.0153, 'grad_norm': 0.38069117069244385, 'learning_rate': 2.993866666666667e-05, 'epoch': 18.8}
+{'loss': 0.0485, 'grad_norm': 0.7297185659408569, 'learning_rate': 2.9938333333333334e-05, 'epoch': 18.8}
+{'loss': 0.0135, 'grad_norm': 0.32633522152900696, 'learning_rate': 2.9938e-05, 'epoch': 18.8}
+{'loss': 0.0131, 'grad_norm': 0.3482316732406616, 'learning_rate': 2.993766666666667e-05, 'epoch': 18.8}
+{'loss': 0.0304, 'grad_norm': 0.5848433375358582, 'learning_rate': 2.9937333333333332e-05, 'epoch': 18.8}
+{'loss': 0.0138, 'grad_norm': 0.46898210048675537, 'learning_rate': 2.9937e-05, 'epoch': 18.81}
+{'loss': 0.012, 'grad_norm': 0.5427939295768738, 'learning_rate': 2.9936666666666667e-05, 'epoch': 18.81}
+{'loss': 0.0093, 'grad_norm': 0.2933759391307831, 'learning_rate': 2.9936333333333333e-05, 'epoch': 18.81}
+{'loss': 0.0144, 'grad_norm': 0.4972042739391327, 'learning_rate': 2.9936000000000003e-05, 'epoch': 18.81}
+{'loss': 0.0387, 'grad_norm': 0.4755079448223114, 'learning_rate': 2.993566666666667e-05, 'epoch': 18.81}
+{'loss': 0.0176, 'grad_norm': 0.414993017911911, 'learning_rate': 2.9935333333333335e-05, 'epoch': 18.81}
+{'loss': 0.0084, 'grad_norm': 0.30449292063713074, 'learning_rate': 2.9935e-05, 'epoch': 18.82}
+{'loss': 0.0251, 'grad_norm': 0.595119059085846, 'learning_rate': 2.993466666666667e-05, 'epoch': 18.82}
+{'loss': 0.0178, 'grad_norm': 0.5565841794013977, 'learning_rate': 2.9934333333333332e-05, 'epoch': 18.82}
+{'loss': 0.0046, 'grad_norm': 0.17402859032154083, 'learning_rate': 2.9934000000000002e-05, 'epoch': 18.82}
+{'loss': 0.0089, 'grad_norm': 0.3507221043109894, 'learning_rate': 2.9933666666666664e-05, 'epoch': 18.82}
+{'loss': 0.037, 'grad_norm': 0.5356447696685791, 'learning_rate': 2.9933333333333334e-05, 'epoch': 18.83}
+{'loss': 0.0147, 'grad_norm': 0.41256019473075867, 'learning_rate': 2.9933000000000003e-05, 'epoch': 18.83}
+{'loss': 0.0118, 'grad_norm': 0.3081376254558563, 'learning_rate': 2.9932666666666665e-05, 'epoch': 18.83}
+{'loss': 0.0128, 'grad_norm': 0.45098060369491577, 'learning_rate': 2.9932333333333335e-05, 'epoch': 18.83}
+{'loss': 0.1536, 'grad_norm': 0.7322559356689453, 'learning_rate': 2.9932e-05, 'epoch': 18.83}
+{'loss': 0.1585, 'grad_norm': 0.6320260167121887, 'learning_rate': 2.9931666666666667e-05, 'epoch': 18.83}
+{'loss': 0.1664, 'grad_norm': 0.5659246444702148, 'learning_rate': 2.9931333333333333e-05, 'epoch': 18.84}
+{'loss': 0.0818, 'grad_norm': 0.38136017322540283, 'learning_rate': 2.9931000000000002e-05, 'epoch': 18.84}
+{'loss': 0.0997, 'grad_norm': 0.4973321557044983, 'learning_rate': 2.9930666666666668e-05, 'epoch': 18.84}
+{'loss': 0.1203, 'grad_norm': 0.4908638596534729, 'learning_rate': 2.9930333333333334e-05, 'epoch': 18.84}
+{'loss': 0.0635, 'grad_norm': 0.48943161964416504, 'learning_rate': 2.9930000000000003e-05, 'epoch': 18.84}
+{'loss': 0.0842, 'grad_norm': 0.7102023363113403, 'learning_rate': 2.9929666666666666e-05, 'epoch': 18.85}
+{'loss': 0.0639, 'grad_norm': 0.4362596571445465, 'learning_rate': 2.9929333333333335e-05, 'epoch': 18.85}
+{'loss': 0.0571, 'grad_norm': 0.4935445785522461, 'learning_rate': 2.9929e-05, 'epoch': 18.85}
+{'loss': 0.094, 'grad_norm': 0.5463587641716003, 'learning_rate': 2.9928666666666667e-05, 'epoch': 18.85}
+{'loss': 0.0355, 'grad_norm': 0.39658188819885254, 'learning_rate': 2.9928333333333333e-05, 'epoch': 18.85}
+{'loss': 0.0387, 'grad_norm': 0.4764830768108368, 'learning_rate': 2.9928000000000002e-05, 'epoch': 18.86}
+{'loss': 0.0298, 'grad_norm': 0.28915467858314514, 'learning_rate': 2.9927666666666668e-05, 'epoch': 18.86}
+{'loss': 0.0526, 'grad_norm': 0.6550969481468201, 'learning_rate': 2.9927333333333334e-05, 'epoch': 18.86}
+{'loss': 0.0323, 'grad_norm': 0.22818061709403992, 'learning_rate': 2.9927000000000003e-05, 'epoch': 18.86}
+{'loss': 0.0663, 'grad_norm': 0.7346168756484985, 'learning_rate': 2.9926666666666666e-05, 'epoch': 18.86}
+{'loss': 0.0141, 'grad_norm': 0.27641716599464417, 'learning_rate': 2.9926333333333335e-05, 'epoch': 18.86}
+{'loss': 0.0237, 'grad_norm': 0.32033631205558777, 'learning_rate': 2.9926e-05, 'epoch': 18.87}
+{'loss': 0.0234, 'grad_norm': 0.38354334235191345, 'learning_rate': 2.9925666666666667e-05, 'epoch': 18.87}
+{'loss': 0.0054, 'grad_norm': 0.13038446009159088, 'learning_rate': 2.9925333333333333e-05, 'epoch': 18.87}
+{'loss': 0.0218, 'grad_norm': 0.3191926181316376, 'learning_rate': 2.9925000000000002e-05, 'epoch': 18.87}
+{'loss': 0.0141, 'grad_norm': 0.26581940054893494, 'learning_rate': 2.9924666666666668e-05, 'epoch': 18.87}
+{'loss': 0.0152, 'grad_norm': 0.26856064796447754, 'learning_rate': 2.9924333333333334e-05, 'epoch': 18.88}
+{'loss': 0.0213, 'grad_norm': 0.5691299438476562, 'learning_rate': 2.9924e-05, 'epoch': 18.88}
+{'loss': 0.0162, 'grad_norm': 0.773888111114502, 'learning_rate': 2.9923666666666666e-05, 'epoch': 18.88}
+{'loss': 0.0156, 'grad_norm': 0.4445539116859436, 'learning_rate': 2.9923333333333335e-05, 'epoch': 18.88}
+ 10%|█         | 10234/100000 [5:36:15<33:10:47,  1.33s/it] 10%|█         | 10235/100000 [5:36:16<32:47:55,  1.32s/it]                                                            10%|█         | 10235/100000 [5:36:16<32:47:55,  1.32s/it] 10%|█         | 10236/100000 [5:36:18<32:25:47,  1.30s/it]                                                            10%|█         | 10236/100000 [5:36:18<32:25:47,  1.30s/it] 10%|█         | 10237/100000 [5:36:19<31:47:24,  1.27s/it]                                                            10%|█         | 10237/100000 [5:36:19<31:47:24,  1.27s/it] 10%|█         | 10238/100000 [5:36:20<31:28:49,  1.26s/it]                                                            10%|█         | 10238/100000 [5:36:20<31:28:49,  1.26s/it] 10%|█         | 10239/100000 [5:36:21<31:10:31,  1.25s/it]                                                            10%|█         | 10239/100000 [5:36:21<31:10:31,  1.25s/it] 10%|█         | 10240/100000 [5:36:22<30:21:25,  1.22s/it]                                                            10%|█         | 10240/100000 [5:36:22<30:21:25,  1.22s/it] 10%|█         | 10241/100000 [5:36:23<29:40:06,  1.19s/it]                                                            10%|█         | 10241/100000 [5:36:24<29:40:06,  1.19s/it] 10%|█         | 10242/100000 [5:36:25<29:23:47,  1.18s/it]                                                            10%|█         | 10242/100000 [5:36:25<29:23:47,  1.18s/it] 10%|█         | 10243/100000 [5:36:26<29:03:40,  1.17s/it]                                                            10%|█         | 10243/100000 [5:36:26<29:03:40,  1.17s/it] 10%|█         | 10244/100000 [5:36:27<28:50:23,  1.16s/it]                                                            10%|█         | 10244/100000 [5:36:27<28:50:23,  1.16s/it] 10%|█         | 10245/100000 [5:36:28<28:29:39,  1.14s/it]                                                            10%|█         | 10245/100000 [5:36:28<28:29:39,  1.14s/it] 10%|█         | 10246/100000 [5:36:29<28:08:52,  1.13s/it]                                                            10%|█         | 10246/100000 [5:36:29<28:08:52,  1.13s/it] 10%|█         | 10247/100000 [5:36:30<27:39:49,  1.11s/it]                                                            10%|█         | 10247/100000 [5:36:30<27:39:49,  1.11s/it] 10%|█         | 10248/100000 [5:36:31<27:20:40,  1.10s/it]                                                            10%|█         | 10248/100000 [5:36:31<27:20:40,  1.10s/it] 10%|█         | 10249/100000 [5:36:32<26:53:08,  1.08s/it]                                                            10%|█         | 10249/100000 [5:36:32<26:53:08,  1.08s/it] 10%|█         | 10250/100000 [5:36:33<26:34:51,  1.07s/it]                                                            10%|█         | 10250/100000 [5:36:33<26:34:51,  1.07s/it] 10%|█         | 10251/100000 [5:36:34<26:12:37,  1.05s/it]                                                            10%|█         | 10251/100000 [5:36:34<26:12:37,  1.05s/it] 10%|█         | 10252/100000 [5:36:35<25:47:11,  1.03s/it]                                                            10%|█         | 10252/100000 [5:36:35<25:47:11,  1.03s/it] 10%|█         | 10253/100000 [5:36:36<25:23:05,  1.02s/it]                                                            10%|█         | 10253/100000 [5:36:36<25:23:05,  1.02s/it] 10%|█         | 10254/100000 [5:36:37<24:46:59,  1.01it/s]                                                            10%|█         | 10254/100000 [5:36:37<24:46:59,  1.01it/s] 10%|█         | 10255/100000 [5:36:38<24:25:29,  1.02it/s]                                                            10%|█         | 10255/100000 [5:36:38<24:25:29,  1.02it/s] 10%|█         | 10256/100000 [5:36:39<23:40:46,  1.05it/s]                                                            10%|█         | 10256/100000 [5:36:39<23:40:46,  1.05it/s] 10%|█         | 10257/100000 [5:36:50<96:45:55,  3.88s/it]                                                            10%|█         | 10257/100000 [5:36:50<96:45:55,  3.88s/it] 10%|█         | 10258/100000 [5:36:55<103:06:37,  4.14s/it]                                                             10%|█         | 10258/100000 [5:36:55<103:06:37,  4.14s/it] 10%|█         | 10259/100000 [5:36:58<101:21:10,  4.07s/it]                                                             10%|█         | 10259/100000 [5:36:58<101:21:10,  4.07s/it] 10%|█         | 10260/100000 [5:37:02<97:30:41,  3.91s/it]                                                             10%|█         | 10260/100000 [5:37:02<97:30:41,  3.91s/it] 10%|█         | 10261/100000 [5:37:05<90:08:09,  3.62s/it]                                                            10%|█         | 10261/100000 [5:37:05<90:08:09,  3.62s/it] 10%|█         | 10262/100000 [5:37:08<83:37:39,  3.35s/it]                                                            10%|█         | 10262/100000 [5:37:08<83:37:39,  3.35s/it] 10%|█         | 10263/100000 [5:37:10<77:31:17,  3.11s/it]                                                            10%|█         | 10263/100000 [5:37:10<77:31:17,  3.11s/it] 10%|█         | 10264/100000 [5:37:13<71:43:29,  2.88s/it]                                                            10%|█         | 10264/100000 [5:37:13<71:43:29,  2.88s/it] 10%|█         | 10265/100000 [5:37:15<66:01:48,  2.65s/it]                                                            10%|█         | 10265/100000 [5:37:15<66:01:48,  2.65s/it] 10%|█         | 10266/100000 [5:37:17<61:13:37,  2.46s/it]                                                            10%|█         | 10266/100000 [5:37:17<61:13:37,  2.46s/it] 10%|█         | 10267/100000 [5:37:19<56:46:16,  2.28s/it]                                                            10%|█         | 10267/100000 [5:37:19<56:46:16,  2.28s/it] 10%|█         | 10268/100000 [5:37:20<52:53:52,  2.12s/it]                                                            10%|█         | 10268/100000 [5:37:20<52:53:52,  2.12s/it] 10%|█         | 10269/100000 [5:37:22<49:40:10,  1.99s/it]                                                            10%|█         | 10269/100000 [5:37:22<49:40:10,  1.99s/it] 10%|█         | 10270/100000 [5:37:24<46:33:15,  1.87s/it]                                                            10%|█         | 10270/100000 [5:37:24<46:33:15,  1.87s/it] 10%|█         | 10271/100000 [5:37:25<44:06:49,  1.77s/it]                                                            10%|█         | 10271/100000 [5:37:25<44:06:49,  1.77s/it] 10%|█         | 10272/100000 [5:37:27<42:08:48,  1.69s/it]                                                            10%|█         | 10272/100000 [5:37:27<42:08:48,  1.69s/it] 10%|█         | 10273/100000 [5:37:28<40:19:35,  1.62s/it]                                                            10%|█         | 10273/100000 [5:37:28<40:19:35,  1.62s/it] 10%|█         | 10274/100000 [5:37:29<38:56:59,  1.56s/it]                                                            10%|█         | 10274/100000 [5:37:29<38:56:59,  1.56s/it] 10%|█         | 10275/100000 [5:37:31<37:47:27,  1.52s/it]                                                            10%|█         | 10275/100000 [5:37:31<37:47:27,  1.52s/it] 10%|█         | 10276/100000 [5:37:32<36:32:27,  1.47s/it]                                                            10%|█         | 10276/100000 [5:37:32<36:32:27,  1.47s/it] 10%|█         | 10277/100000 [5:37:34<35:31:54,  1.43s/it]                                                            10%|█         | 10277/100000 [5:37:34<35:31:54,  1.43s/it] 10%|█         | 10278/100000 [5:37:35<34:44:08,  1.39s/it]                                                            10%|█         | 10278/100000 [5:37:35<34:44:08,  1.39s/it] 10%|█         | 10279/100000 [5:37:36<33:58:39,  1.36s/it]                                                            10%|█         | 10279/100000 [5:37:36<33:58:39,  1.36s/it] 10%|█         | 10280/100000 [5:37:37<33:28:20,  1.34s/it]                                                            10%|█         | 10280/100000 [5:37:37<33:28:20,  1.34s/it] 10%|█         | 10281/100000 [5:37:39<32:35:37,  1.31s/it]                                                            10%|█         | 10281/100000 [5:37:39<32:35:37,  1.31s/it] 10%|█         | 10282/100000 [5:37:40<31:50:46,  1.28s/it]                                                            10%|█         | 10282/100000 [5:37:40<31:50:46,  1.28s/it] 10%|█         | 10283/100000 [5:37:41<31:25:34,  1.26s/it]                                                            10%|█         | 10283/100000 [5:37:41<31:25:34,  1.26s/it] 10%|█         | 10284/100000 [5:37:42<30:41:00,  1.23s/it]                                                            10%|█         | 10284/100000 [5:37:42<30:41:00,  1.23s/it] 10%|█         | 10285/100000 [5:37:43<30:09:01,  1.21s/it]                                                            10%|█         | 10285/100000 [5:37:43<30:09:01,  1.21s/it] 10%|█         | 10286/100000 [5:37:45<29:41:29,  1.19s/it]                                                            10%|█         | 10286/100000 [5:37:45<29:41:29,  1.19s/it] 10%|█         | 10287/100000 [5:37:46<29:09:23,  1.17s/it]                                                            10%|█         | 10287/100000 [5:37:46<29:09:23,  1.17s/it] 10%|█         | 10288/100000 [5:37:47<28:24:29,  1.14s/it]                                                            10%|█         | 10288/100000 [5:37:47<28:24:29,  1.14s/it] 10%|█         | 10289/100000 [5:37:48<27:57:45,  1.12s/it]                                                            10%|█         | 10289/100000 [5:37:48<27:57:45,  1.12s/it] 10%|█         | 10290/100000 [5:37:49<27:35:47,  1.11s/it]                                                            10%|█         | 10290/100000 [5:37:49<27:35:47,  1.11s/it] 10%|█         | 10291/100000 [5:37:50<27:08:29,  1.09s/it]                                                            10%|█         | 10291/100000 [5:37:50<27:08:29,  1.09s/it] 10%|█         | 10292/100000 [5:37:51<26:38:16,  1.07s/it]                                                            10%|█         | 10292/100000 [5:37:51<26:38:16,  1.07s/it] 10%|█         | 10293/100000 [5:37:52<26:16:10,  1.05s/it]                                                            10%|█         | 10293/100000 [5:37:52<26:16:10,  1.05s/it] 10%|█         | 10294/100000 [5:37:53<25:41:22,  1.03s/it]                                                            10%|█         | 10294/100000 [5:37:53<25:41:22,  1.03s/it] 10%|█         | 10295/100000 [5:37:54<25:06:27,  1.01s/it]                                                            10%|█         | 10295/100000 [5:37:54<25:06:27,  1.01s/it] 10%|█         | 10296/100000 [5:37:55<24:41:31,  1.01it/s]                                                            10%|█         | 10296/100000 [5:37:55<24:41:31,  1.01it/s] 10%|█         | 10297/100000 [5:37:56<24:17:59,  1.03it/s]                                                            10%|█         | 10297/100000 [5:37:56<24:17:59,  1.03it/s] 10%|█         | 10298/100000 [5:37:57<22:29:44,  1.11it/s]                                                            10%|█         | 10298/100000 [5:37:57<22:29:44,  1.11it/s]{'loss': 0.0085, 'grad_norm': 0.30708056688308716, 'learning_rate': 2.9922999999999998e-05, 'epoch': 18.88}
+{'loss': 0.0181, 'grad_norm': 0.5381516814231873, 'learning_rate': 2.9922666666666667e-05, 'epoch': 18.88}
+{'loss': 0.0084, 'grad_norm': 0.2624804675579071, 'learning_rate': 2.9922333333333333e-05, 'epoch': 18.89}
+{'loss': 0.0096, 'grad_norm': 0.3261619508266449, 'learning_rate': 2.9922e-05, 'epoch': 18.89}
+{'loss': 0.0132, 'grad_norm': 0.3803158402442932, 'learning_rate': 2.992166666666667e-05, 'epoch': 18.89}
+{'loss': 0.0137, 'grad_norm': 0.29096710681915283, 'learning_rate': 2.9921333333333334e-05, 'epoch': 18.89}
+{'loss': 0.0155, 'grad_norm': 0.6219228506088257, 'learning_rate': 2.9921e-05, 'epoch': 18.89}
+{'loss': 0.0208, 'grad_norm': 0.6573033332824707, 'learning_rate': 2.9920666666666666e-05, 'epoch': 18.9}
+{'loss': 0.0149, 'grad_norm': 0.43783968687057495, 'learning_rate': 2.9920333333333336e-05, 'epoch': 18.9}
+{'loss': 0.0154, 'grad_norm': 0.44213783740997314, 'learning_rate': 2.9919999999999998e-05, 'epoch': 18.9}
+{'loss': 0.0177, 'grad_norm': 0.5574394464492798, 'learning_rate': 2.9919666666666667e-05, 'epoch': 18.9}
+{'loss': 0.0087, 'grad_norm': 0.2930018901824951, 'learning_rate': 2.9919333333333337e-05, 'epoch': 18.9}
+{'loss': 0.0123, 'grad_norm': 0.5472742915153503, 'learning_rate': 2.9919e-05, 'epoch': 18.9}
+{'loss': 0.0141, 'grad_norm': 0.33874809741973877, 'learning_rate': 2.991866666666667e-05, 'epoch': 18.91}
+{'loss': 0.0116, 'grad_norm': 0.6086728572845459, 'learning_rate': 2.9918333333333335e-05, 'epoch': 18.91}
+{'loss': 0.0206, 'grad_norm': 0.6606793999671936, 'learning_rate': 2.9918e-05, 'epoch': 18.91}
+{'loss': 0.0226, 'grad_norm': 0.8574153780937195, 'learning_rate': 2.9917666666666666e-05, 'epoch': 18.91}
+{'loss': 0.0108, 'grad_norm': 0.23669973015785217, 'learning_rate': 2.9917333333333336e-05, 'epoch': 18.91}
+{'loss': 0.0233, 'grad_norm': 0.6156405806541443, 'learning_rate': 2.9917e-05, 'epoch': 18.92}
+{'loss': 0.0107, 'grad_norm': 0.29926902055740356, 'learning_rate': 2.9916666666666668e-05, 'epoch': 18.92}
+{'loss': 0.0153, 'grad_norm': 0.2887798845767975, 'learning_rate': 2.9916333333333337e-05, 'epoch': 18.92}
+{'loss': 0.0135, 'grad_norm': 0.5958914756774902, 'learning_rate': 2.9916e-05, 'epoch': 18.92}
+{'loss': 0.0115, 'grad_norm': 0.6727198362350464, 'learning_rate': 2.991566666666667e-05, 'epoch': 18.92}
+{'loss': 0.1305, 'grad_norm': 0.5990599393844604, 'learning_rate': 2.9915333333333335e-05, 'epoch': 18.93}
+{'loss': 0.1737, 'grad_norm': 0.7151499390602112, 'learning_rate': 2.9915e-05, 'epoch': 18.93}
+{'loss': 0.1591, 'grad_norm': 0.5996337532997131, 'learning_rate': 2.9914666666666667e-05, 'epoch': 18.93}
+{'loss': 0.1495, 'grad_norm': 0.7856311202049255, 'learning_rate': 2.9914333333333336e-05, 'epoch': 18.93}
+{'loss': 0.0875, 'grad_norm': 0.5247669219970703, 'learning_rate': 2.9914000000000002e-05, 'epoch': 18.93}
+{'loss': 0.0807, 'grad_norm': 0.5936292409896851, 'learning_rate': 2.9913666666666668e-05, 'epoch': 18.93}
+{'loss': 0.0844, 'grad_norm': 0.595765233039856, 'learning_rate': 2.9913333333333334e-05, 'epoch': 18.94}
+{'loss': 0.0498, 'grad_norm': 0.5866780877113342, 'learning_rate': 2.9913e-05, 'epoch': 18.94}
+{'loss': 0.0411, 'grad_norm': 0.40006527304649353, 'learning_rate': 2.991266666666667e-05, 'epoch': 18.94}
+{'loss': 0.0972, 'grad_norm': 0.3506452441215515, 'learning_rate': 2.991233333333333e-05, 'epoch': 18.94}
+{'loss': 0.0624, 'grad_norm': 0.2703535854816437, 'learning_rate': 2.9912e-05, 'epoch': 18.94}
+{'loss': 0.0254, 'grad_norm': 0.841524600982666, 'learning_rate': 2.9911666666666667e-05, 'epoch': 18.95}
+{'loss': 0.0193, 'grad_norm': 0.3244848847389221, 'learning_rate': 2.9911333333333333e-05, 'epoch': 18.95}
+{'loss': 0.0191, 'grad_norm': 3.271413564682007, 'learning_rate': 2.9911000000000002e-05, 'epoch': 18.95}
+{'loss': 0.0213, 'grad_norm': 0.24318455159664154, 'learning_rate': 2.9910666666666668e-05, 'epoch': 18.95}
+{'loss': 0.0208, 'grad_norm': 0.617788553237915, 'learning_rate': 2.9910333333333334e-05, 'epoch': 18.95}
+{'loss': 0.0092, 'grad_norm': 0.33688652515411377, 'learning_rate': 2.991e-05, 'epoch': 18.95}
+{'loss': 0.0223, 'grad_norm': 1.3016357421875, 'learning_rate': 2.990966666666667e-05, 'epoch': 18.96}
+{'loss': 0.0134, 'grad_norm': 0.3748088479042053, 'learning_rate': 2.9909333333333332e-05, 'epoch': 18.96}
+{'loss': 0.0253, 'grad_norm': 0.5534132719039917, 'learning_rate': 2.9909e-05, 'epoch': 18.96}
+{'loss': 0.0282, 'grad_norm': 0.4077107906341553, 'learning_rate': 2.9908666666666667e-05, 'epoch': 18.96}
+{'loss': 0.019, 'grad_norm': 0.355773389339447, 'learning_rate': 2.9908333333333333e-05, 'epoch': 18.96}
+{'loss': 0.009, 'grad_norm': 0.42264899611473083, 'learning_rate': 2.9908000000000002e-05, 'epoch': 18.97}
+{'loss': 0.0136, 'grad_norm': 0.40342891216278076, 'learning_rate': 2.9907666666666668e-05, 'epoch': 18.97}
+{'loss': 0.0631, 'grad_norm': 0.5260114669799805, 'learning_rate': 2.9907333333333334e-05, 'epoch': 18.97}
+{'loss': 0.0161, 'grad_norm': 0.46058377623558044, 'learning_rate': 2.9907e-05, 'epoch': 18.97}
+{'loss': 0.0119, 'grad_norm': 0.6268635988235474, 'learning_rate': 2.990666666666667e-05, 'epoch': 18.97}
+{'loss': 0.0122, 'grad_norm': 0.4749756157398224, 'learning_rate': 2.9906333333333332e-05, 'epoch': 18.98}
+{'loss': 0.0116, 'grad_norm': 0.2996837794780731, 'learning_rate': 2.9906e-05, 'epoch': 18.98}
+{'loss': 0.0142, 'grad_norm': 0.4519551694393158, 'learning_rate': 2.9905666666666667e-05, 'epoch': 18.98}
+{'loss': 0.0125, 'grad_norm': 0.30716121196746826, 'learning_rate': 2.9905333333333333e-05, 'epoch': 18.98}
+{'loss': 0.0156, 'grad_norm': 0.34883931279182434, 'learning_rate': 2.9905000000000003e-05, 'epoch': 18.98}
+{'loss': 0.0261, 'grad_norm': 0.4810369312763214, 'learning_rate': 2.990466666666667e-05, 'epoch': 18.98}
+{'loss': 0.015, 'grad_norm': 0.46950608491897583, 'learning_rate': 2.9904333333333334e-05, 'epoch': 18.99}
+{'loss': 0.017, 'grad_norm': 0.30146342515945435, 'learning_rate': 2.9904e-05, 'epoch': 18.99}
+{'loss': 0.021, 'grad_norm': 0.5918002724647522, 'learning_rate': 2.9903666666666666e-05, 'epoch': 18.99}
+{'loss': 0.0108, 'grad_norm': 0.25285613536834717, 'learning_rate': 2.9903333333333332e-05, 'epoch': 18.99}
+{'loss': 0.0269, 'grad_norm': 0.5188554525375366, 'learning_rate': 2.9903e-05, 'epoch': 18.99}
+{'loss': 0.0087, 'grad_norm': 0.22588178515434265, 'learning_rate': 2.9902666666666667e-05, 'epoch': 19.0}
+{'loss': 0.0087, 'grad_norm': 0.33000004291534424, 'learning_rate': 2.9902333333333333e-05, 'epoch': 19.0}
+{'loss': 0.012, 'grad_norm': 0.39947277307510376, 'learning_rate': 2.9902000000000003e-05, 'epoch': 19.0}
+{'loss': 0.0301, 'grad_norm': 0.390468955039978, 'learning_rate': 2.9901666666666665e-05, 'epoch': 19.0}
+ 10%|█         | 10299/100000 [5:38:14<144:15:37,  5.79s/it]                                                             10%|█         | 10299/100000 [5:38:14<144:15:37,  5.79s/it] 10%|█         | 10300/100000 [5:38:20<145:21:09,  5.83s/it]                                                             10%|█         | 10300/100000 [5:38:20<145:21:09,  5.83s/it] 10%|█         | 10301/100000 [5:38:24<136:56:32,  5.50s/it]                                                             10%|█         | 10301/100000 [5:38:24<136:56:32,  5.50s/it] 10%|█         | 10302/100000 [5:38:28<125:59:41,  5.06s/it]                                                             10%|█         | 10302/100000 [5:38:28<125:59:41,  5.06s/it] 10%|█         | 10303/100000 [5:38:32<115:39:33,  4.64s/it]                                                             10%|█         | 10303/100000 [5:38:32<115:39:33,  4.64s/it] 10%|█         | 10304/100000 [5:38:35<105:42:01,  4.24s/it]                                                             10%|█         | 10304/100000 [5:38:35<105:42:01,  4.24s/it] 10%|█         | 10305/100000 [5:38:38<96:09:37,  3.86s/it]                                                             10%|█         | 10305/100000 [5:38:38<96:09:37,  3.86s/it] 10%|█         | 10306/100000 [5:38:41<88:08:49,  3.54s/it]                                                            10%|█         | 10306/100000 [5:38:41<88:08:49,  3.54s/it] 10%|█         | 10307/100000 [5:38:44<80:23:46,  3.23s/it]                                                            10%|█         | 10307/100000 [5:38:44<80:23:46,  3.23s/it] 10%|█         | 10308/100000 [5:38:46<73:46:17,  2.96s/it]                                                            10%|█         | 10308/100000 [5:38:46<73:46:17,  2.96s/it] 10%|█         | 10309/100000 [5:38:48<68:10:04,  2.74s/it]                                                            10%|█         | 10309/100000 [5:38:48<68:10:04,  2.74s/it] 10%|█         | 10310/100000 [5:38:50<63:06:42,  2.53s/it]                                                            10%|█         | 10310/100000 [5:38:50<63:06:42,  2.53s/it] 10%|█         | 10311/100000 [5:38:52<58:37:25,  2.35s/it]                                                            10%|█         | 10311/100000 [5:38:52<58:37:25,  2.35s/it] 10%|█         | 10312/100000 [5:38:54<54:51:23,  2.20s/it]                                                            10%|█         | 10312/100000 [5:38:54<54:51:23,  2.20s/it] 10%|█         | 10313/100000 [5:38:56<51:01:57,  2.05s/it]                                                            10%|█         | 10313/100000 [5:38:56<51:01:57,  2.05s/it] 10%|█         | 10314/100000 [5:38:57<48:15:51,  1.94s/it]                                                            10%|█         | 10314/100000 [5:38:57<48:15:51,  1.94s/it] 10%|█         | 10315/100000 [5:38:59<45:52:54,  1.84s/it]                                                            10%|█         | 10315/100000 [5:38:59<45:52:54,  1.84s/it] 10%|█         | 10316/100000 [5:39:01<43:36:48,  1.75s/it]                                                            10%|█         | 10316/100000 [5:39:01<43:36:48,  1.75s/it] 10%|█         | 10317/100000 [5:39:02<41:53:43,  1.68s/it]                                                            10%|█         | 10317/100000 [5:39:02<41:53:43,  1.68s/it] 10%|█         | 10318/100000 [5:39:04<40:24:16,  1.62s/it]                                                            10%|█         | 10318/100000 [5:39:04<40:24:16,  1.62s/it] 10%|█         | 10319/100000 [5:39:05<39:17:00,  1.58s/it]                                                            10%|█         | 10319/100000 [5:39:05<39:17:00,  1.58s/it] 10%|█         | 10320/100000 [5:39:06<37:50:09,  1.52s/it]                                                            10%|█         | 10320/100000 [5:39:06<37:50:09,  1.52s/it] 10%|█         | 10321/100000 [5:39:08<37:03:09,  1.49s/it]                                                            10%|█         | 10321/100000 [5:39:08<37:03:09,  1.49s/it] 10%|█         | 10322/100000 [5:39:09<35:59:59,  1.45s/it]                                                            10%|█         | 10322/100000 [5:39:09<35:59:59,  1.45s/it] 10%|█         | 10323/100000 [5:39:11<35:25:54,  1.42s/it]                                                            10%|█         | 10323/100000 [5:39:11<35:25:54,  1.42s/it] 10%|█         | 10324/100000 [5:39:12<34:52:19,  1.40s/it]                                                            10%|█         | 10324/100000 [5:39:12<34:52:19,  1.40s/it] 10%|█         | 10325/100000 [5:39:13<34:01:56,  1.37s/it]                                                            10%|█         | 10325/100000 [5:39:13<34:01:56,  1.37s/it] 10%|█         | 10326/100000 [5:39:15<33:35:23,  1.35s/it]                                                            10%|█         | 10326/100000 [5:39:15<33:35:23,  1.35s/it] 10%|█         | 10327/100000 [5:39:16<33:09:27,  1.33s/it]                                                            10%|█         | 10327/100000 [5:39:16<33:09:27,  1.33s/it] 10%|█         | 10328/100000 [5:39:17<32:30:19,  1.30s/it]                                                            10%|█         | 10328/100000 [5:39:17<32:30:19,  1.30s/it] 10%|█         | 10329/100000 [5:39:18<32:08:56,  1.29s/it]                                                            10%|█         | 10329/100000 [5:39:18<32:08:56,  1.29s/it] 10%|█         | 10330/100000 [5:39:20<31:49:48,  1.28s/it]                                                            10%|█         | 10330/100000 [5:39:20<31:49:48,  1.28s/it] 10%|█         | 10331/100000 [5:39:21<31:27:21,  1.26s/it]                                                            10%|█         | 10331/100000 [5:39:21<31:27:21,  1.26s/it] 10%|█         | 10332/100000 [5:39:22<30:45:39,  1.23s/it]                                                            10%|█         | 10332/100000 [5:39:22<30:45:39,  1.23s/it] 10%|█         | 10333/100000 [5:39:23<30:14:15,  1.21s/it]                                                            10%|█         | 10333/100000 [5:39:23<30:14:15,  1.21s/it] 10%|█         | 10334/100000 [5:39:24<29:49:18,  1.20s/it]                                                            10%|█         | 10334/100000 [5:39:24<29:49:18,  1.20s/it] 10%|█         | 10335/100000 [5:39:25<29:26:54,  1.18s/it]                                                            10%|█         | 10335/100000 [5:39:25<29:26:54,  1.18s/it] 10%|█         | 10336/100000 [5:39:27<29:00:41,  1.16s/it]                                                            10%|█         | 10336/100000 [5:39:27<29:00:41,  1.16s/it] 10%|█         | 10337/100000 [5:39:28<28:27:59,  1.14s/it]                                                            10%|█         | 10337/100000 [5:39:28<28:27:59,  1.14s/it] 10%|█         | 10338/100000 [5:39:29<28:05:56,  1.13s/it]                                                            10%|█         | 10338/100000 [5:39:29<28:05:56,  1.13s/it] 10%|█         | 10339/100000 [5:39:30<27:41:46,  1.11s/it]                                                            10%|█         | 10339/100000 [5:39:30<27:41:46,  1.11s/it] 10%|█         | 10340/100000 [5:39:31<27:23:58,  1.10s/it]                                                            10%|█         | 10340/100000 [5:39:31<27:23:58,  1.10s/it] 10%|█         | 10341/100000 [5:39:32<27:07:31,  1.09s/it]                                                            10%|█         | 10341/100000 [5:39:32<27:07:31,  1.09s/it] 10%|█         | 10342/100000 [5:39:33<26:46:28,  1.08s/it]                                                            10%|█         | 10342/100000 [5:39:33<26:46:28,  1.08s/it] 10%|█         | 10343/100000 [5:39:34<26:17:52,  1.06s/it]                                                            10%|█         | 10343/100000 [5:39:34<26:17:52,  1.06s/it] 10%|█         | 10344/100000 [5:39:35<25:52:30,  1.04s/it]                                                            10%|█         | 10344/100000 [5:39:35<25:52:30,  1.04s/it] 10%|█         | 10345/100000 [5:39:36<25:18:03,  1.02s/it]                                                            10%|█         | 10345/100000 [5:39:36<25:18:03,  1.02s/it] 10%|█         | 10346/100000 [5:39:37<24:51:12,  1.00it/s]                                                            10%|█         | 10346/100000 [5:39:37<24:51:12,  1.00it/s] 10%|█         | 10347/100000 [5:39:38<24:18:06,  1.02it/s]                                                            10%|█         | 10347/100000 [5:39:38<24:18:06,  1.02it/s] 10%|█         | 10348/100000 [5:39:39<23:55:35,  1.04it/s]                                                            10%|█         | 10348/100000 [5:39:39<23:55:35,  1.04it/s] 10%|█         | 10349/100000 [5:39:50<98:31:28,  3.96s/it]                                                            10%|█         | 10349/100000 [5:39:50<98:31:28,  3.96s/it] 10%|█         | 10350/100000 [5:39:55<110:28:21,  4.44s/it]                                                             10%|█         | 10350/100000 [5:39:55<110:28:21,  4.44s/it] 10%|█         | 10351/100000 [5:40:00<111:54:58,  4.49s/it]                                                             10%|█         | 10351/100000 [5:40:00<111:54:58,  4.49s/it] 10%|█         | 10352/100000 [5:40:04<108:29:14,  4.36s/it]                                                             10%|█         | 10352/100000 [5:40:04<108:29:14,  4.36s/it] 10%|█         | 10353/100000 [5:40:08<102:40:53,  4.12s/it]                                                             10%|█         | 10353/100000 [5:40:08<102:40:53,  4.12s/it] 10%|█         | 10354/100000 [5:40:11<96:27:07,  3.87s/it]                                                             10%|█         | 10354/100000 [5:40:11<96:27:07,  3.87s/it] 10%|█         | 10355/100000 [5:40:14<90:50:01,  3.65s/it]                                                            10%|█         | 10355/100000 [5:40:14<90:50:01,  3.65s/it] 10%|█         | 10356/100000 [5:40:17<83:26:37,  3.35s/it]                                                            10%|█         | 10356/100000 [5:40:17<83:26:37,  3.35s/it] 10%|█         | 10357/100000 [5:40:19<77:54:41,  3.13s/it]                                                            10%|█         | 10357/100000 [5:40:19<77:54:41,  3.13s/it] 10%|█         | 10358/100000 [5:40:22<72:37:40,  2.92s/it]                                                            10%|█         | 10358/100000 [5:40:22<72:37:40,  2.92s/it] 10%|█         | 10359/100000 [5:40:24<67:54:05,  2.73s/it]                                                            10%|█         | 10359/100000 [5:40:24<67:54:05,  2.73s/it] 10%|█         | 10360/100000 [5:40:26<63:01:05,  2.53s/it]                                                            10%|█         | 10360/100000 [5:40:26<63:01:05,  2.53s/it] 10%|█         | 10361/100000 [5:40:28<58:48:01,  2.36s/it]                                                            10%|█         | 10361/100000 [5:40:28<58:48:01,  2.36s/it] 10%|█         | 10362/100000 [5:40:30<54:59:26,  2.21s/it]                                                            10%|█         | 10362/100000 [5:40:30<54:59:26,  2.21s/it] 10%|█         | 10363/100000 [5:40:32<52:16:35,  2.10s/it]                                                            10%|█         | 10363/100000 [5:40:32<52:16:35,  2.10s/it] 10%|█         | 10364/100000 [5:40:33<49:09:19,  1.97s/it]                                                            10%|█         | 10364/100000 [5:40:33<49:09:19,  1.97s/it] 10%|█         | 10365/100000 [5:40:35<46:31:14,  1.87s/it]                                                            10%|█         | 10365/100000 [5:40:35<46:31:14,  1.87s/it] 10%|█         | 10366/100000 [5:40:36<44:04:55,  1.77s/it]                                                            10%|█         | 10366/100000 [5:40:36<44:04:55,  1.77s/it] 10%|█         | 10367/100000 [5:40:38<42:06:30,  1.69s/it]                                                            10%|█         | 10367/100000 [5:40:38<42:06:30,  1.69s/it] 10%|█         | 10368/100000 [5:40:39<40:35:37,  1.63s/it]                                                            10%|█         | 10368/100000 [5:40:39<40:35:37,  1.63s/it] 10%|█         | 10369/100000 [5:40:41<38:53:39,  1.56s/it]                                                            10%|█         | 10369/100000 [5:40:41<38:53:39,  1.56s/it] 10%|█         | 10370/100000 [5:40:42<37:54:17,  1.52s/it]                                                            10%|█         | 10370/100000 [5:40:42<37:54:17,  1.52s/it] 10%|█         | 10371/100000 [5:40:44<37:02:58,  1.49s/it]                                                            10%|█         | 10371/100000 [5:40:44<37:02:58,  1.49s/it] 10%|█         | 10372/100000 [5:40:45<35:59:38,  1.45s/it]                                                            10%|█         | 10372/100000 [5:40:45<35:59:38,  1.45s/it] 10%|█         | 10373/100000 [5:40:46<35:23:23,  1.42s/it]                                                            10%|█         | 10373/100000 [5:40:46<35:23:23,  1.42s/it] 10%|█         | 10374/100000 [5:40:48<34:32:10,  1.39s/it]                                                            10%|█         | 10374/100000 [5:40:48<34:32:10,  1.39s/it] 10%|█         | 10375/100000 [5:40:49<34:10:23,  1.37s/it]                                                            10%|█         | 10375/100000 [5:40:49<34:10:23,  1.37s/it] 10%|█         | 10376/100000 [5:40:50<33:38:53,  1.35s/it]                                                            10%|█         | 10376/100000 [5:40:50<33:38:53,  1.35s/it] 10%|█         | 10377/100000 [5:40:52<32:56:34,  1.32s/it]                                                           {'loss': 0.1456, 'grad_norm': 0.7757726311683655, 'learning_rate': 2.9901333333333335e-05, 'epoch': 19.0}
+{'loss': 0.1691, 'grad_norm': 0.7913090586662292, 'learning_rate': 2.9901e-05, 'epoch': 19.0}
+{'loss': 0.0949, 'grad_norm': 0.677194356918335, 'learning_rate': 2.9900666666666666e-05, 'epoch': 19.01}
+{'loss': 0.0753, 'grad_norm': 0.788819432258606, 'learning_rate': 2.9900333333333332e-05, 'epoch': 19.01}
+{'loss': 0.0793, 'grad_norm': 0.5638797283172607, 'learning_rate': 2.9900000000000002e-05, 'epoch': 19.01}
+{'loss': 0.1133, 'grad_norm': 0.4615686237812042, 'learning_rate': 2.9899666666666668e-05, 'epoch': 19.01}
+{'loss': 0.0578, 'grad_norm': 0.5038096904754639, 'learning_rate': 2.9899333333333334e-05, 'epoch': 19.01}
+{'loss': 0.0495, 'grad_norm': 0.767895519733429, 'learning_rate': 2.9899000000000003e-05, 'epoch': 19.01}
+{'loss': 0.0444, 'grad_norm': 0.35079145431518555, 'learning_rate': 2.9898666666666665e-05, 'epoch': 19.02}
+{'loss': 0.0537, 'grad_norm': 0.43407732248306274, 'learning_rate': 2.9898333333333335e-05, 'epoch': 19.02}
+{'loss': 0.0311, 'grad_norm': 0.26736965775489807, 'learning_rate': 2.9898e-05, 'epoch': 19.02}
+{'loss': 0.0389, 'grad_norm': 0.45536327362060547, 'learning_rate': 2.9897666666666667e-05, 'epoch': 19.02}
+{'loss': 0.0386, 'grad_norm': 0.31458866596221924, 'learning_rate': 2.9897333333333336e-05, 'epoch': 19.02}
+{'loss': 0.0229, 'grad_norm': 0.2078089565038681, 'learning_rate': 2.9897000000000002e-05, 'epoch': 19.03}
+{'loss': 0.0267, 'grad_norm': 0.42538657784461975, 'learning_rate': 2.9896666666666668e-05, 'epoch': 19.03}
+{'loss': 0.0207, 'grad_norm': 0.7776997685432434, 'learning_rate': 2.9896333333333334e-05, 'epoch': 19.03}
+{'loss': 0.0272, 'grad_norm': 0.46976688504219055, 'learning_rate': 2.9896000000000003e-05, 'epoch': 19.03}
+{'loss': 0.0086, 'grad_norm': 0.1779782623052597, 'learning_rate': 2.9895666666666666e-05, 'epoch': 19.03}
+{'loss': 0.0153, 'grad_norm': 0.4215569794178009, 'learning_rate': 2.9895333333333335e-05, 'epoch': 19.04}
+{'loss': 0.0166, 'grad_norm': 0.37013107538223267, 'learning_rate': 2.9895e-05, 'epoch': 19.04}
+{'loss': 0.0082, 'grad_norm': 0.1785709410905838, 'learning_rate': 2.9894666666666667e-05, 'epoch': 19.04}
+{'loss': 0.0334, 'grad_norm': 0.7148463129997253, 'learning_rate': 2.9894333333333336e-05, 'epoch': 19.04}
+{'loss': 0.0128, 'grad_norm': 0.35422831773757935, 'learning_rate': 2.9894e-05, 'epoch': 19.04}
+{'loss': 0.0104, 'grad_norm': 0.19529224932193756, 'learning_rate': 2.9893666666666668e-05, 'epoch': 19.04}
+{'loss': 0.012, 'grad_norm': 0.21543395519256592, 'learning_rate': 2.9893333333333334e-05, 'epoch': 19.05}
+{'loss': 0.0082, 'grad_norm': 0.25531303882598877, 'learning_rate': 2.9893e-05, 'epoch': 19.05}
+{'loss': 0.0104, 'grad_norm': 0.20938219130039215, 'learning_rate': 2.9892666666666666e-05, 'epoch': 19.05}
+{'loss': 0.0077, 'grad_norm': 0.3913450837135315, 'learning_rate': 2.9892333333333335e-05, 'epoch': 19.05}
+{'loss': 0.0056, 'grad_norm': 0.16339915990829468, 'learning_rate': 2.9891999999999998e-05, 'epoch': 19.05}
+{'loss': 0.006, 'grad_norm': 0.2552281618118286, 'learning_rate': 2.9891666666666667e-05, 'epoch': 19.06}
+{'loss': 0.0098, 'grad_norm': 0.35827621817588806, 'learning_rate': 2.9891333333333336e-05, 'epoch': 19.06}
+{'loss': 0.0077, 'grad_norm': 0.2173592448234558, 'learning_rate': 2.9891e-05, 'epoch': 19.06}
+{'loss': 0.0131, 'grad_norm': 0.2610386312007904, 'learning_rate': 2.9890666666666668e-05, 'epoch': 19.06}
+{'loss': 0.0064, 'grad_norm': 0.18036872148513794, 'learning_rate': 2.9890333333333334e-05, 'epoch': 19.06}
+{'loss': 0.0105, 'grad_norm': 0.5067037343978882, 'learning_rate': 2.989e-05, 'epoch': 19.06}
+{'loss': 0.0082, 'grad_norm': 0.7099167704582214, 'learning_rate': 2.9889666666666666e-05, 'epoch': 19.07}
+{'loss': 0.0053, 'grad_norm': 0.1525428295135498, 'learning_rate': 2.9889333333333335e-05, 'epoch': 19.07}
+{'loss': 0.0113, 'grad_norm': 0.31399956345558167, 'learning_rate': 2.9889e-05, 'epoch': 19.07}
+{'loss': 0.0089, 'grad_norm': 0.45584020018577576, 'learning_rate': 2.9888666666666667e-05, 'epoch': 19.07}
+{'loss': 0.0135, 'grad_norm': 0.6998863220214844, 'learning_rate': 2.9888333333333337e-05, 'epoch': 19.07}
+{'loss': 0.0111, 'grad_norm': 0.3413309156894684, 'learning_rate': 2.9888e-05, 'epoch': 19.08}
+{'loss': 0.0064, 'grad_norm': 0.25519177317619324, 'learning_rate': 2.988766666666667e-05, 'epoch': 19.08}
+{'loss': 0.0077, 'grad_norm': 0.5262901186943054, 'learning_rate': 2.9887333333333334e-05, 'epoch': 19.08}
+{'loss': 0.0123, 'grad_norm': 0.9745499491691589, 'learning_rate': 2.9887e-05, 'epoch': 19.08}
+{'loss': 0.0072, 'grad_norm': 0.34378862380981445, 'learning_rate': 2.9886666666666666e-05, 'epoch': 19.08}
+{'loss': 0.0063, 'grad_norm': 0.300809770822525, 'learning_rate': 2.9886333333333336e-05, 'epoch': 19.08}
+{'loss': 0.0055, 'grad_norm': 0.34393367171287537, 'learning_rate': 2.9886e-05, 'epoch': 19.09}
+{'loss': 0.0057, 'grad_norm': 0.2126002013683319, 'learning_rate': 2.9885666666666667e-05, 'epoch': 19.09}
+{'loss': 0.0123, 'grad_norm': 0.394257515668869, 'learning_rate': 2.9885333333333337e-05, 'epoch': 19.09}
+{'loss': 0.031, 'grad_norm': 0.4051159620285034, 'learning_rate': 2.9885e-05, 'epoch': 19.09}
+{'loss': 0.2503, 'grad_norm': 0.7709018588066101, 'learning_rate': 2.988466666666667e-05, 'epoch': 19.09}
+{'loss': 0.1228, 'grad_norm': 0.6019572019577026, 'learning_rate': 2.9884333333333335e-05, 'epoch': 19.1}
+{'loss': 0.1702, 'grad_norm': 0.5292881727218628, 'learning_rate': 2.9884e-05, 'epoch': 19.1}
+{'loss': 0.1217, 'grad_norm': 0.5636563301086426, 'learning_rate': 2.9883666666666666e-05, 'epoch': 19.1}
+{'loss': 0.0916, 'grad_norm': 0.45421287417411804, 'learning_rate': 2.9883333333333332e-05, 'epoch': 19.1}
+{'loss': 0.0635, 'grad_norm': 0.6303958892822266, 'learning_rate': 2.9883000000000002e-05, 'epoch': 19.1}
+{'loss': 0.0863, 'grad_norm': 0.7112407088279724, 'learning_rate': 2.9882666666666668e-05, 'epoch': 19.11}
+{'loss': 0.0879, 'grad_norm': 0.6119093894958496, 'learning_rate': 2.9882333333333334e-05, 'epoch': 19.11}
+{'loss': 0.0857, 'grad_norm': 0.42396941781044006, 'learning_rate': 2.9882e-05, 'epoch': 19.11}
+{'loss': 0.0547, 'grad_norm': 0.6566585302352905, 'learning_rate': 2.988166666666667e-05, 'epoch': 19.11}
+{'loss': 0.0465, 'grad_norm': 0.37996527552604675, 'learning_rate': 2.988133333333333e-05, 'epoch': 19.11}
+{'loss': 0.0446, 'grad_norm': 0.8353615999221802, 'learning_rate': 2.9881e-05, 'epoch': 19.11}
+{'loss': 0.0311, 'grad_norm': 0.3163006901741028, 'learning_rate': 2.988066666666667e-05, 'epoch': 19.12}
+{'loss': 0.0476, 'grad_norm': 0.4427793323993683, 'learning_rate': 2.9880333333333333e-05, 'epoch': 19.12}
+{'loss': 0.0231, 'grad_norm': 0.24254950881004333, 'learning_rate': 2.9880000000000002e-05, 'epoch': 19.12}
+{'loss': 0.0591, 'grad_norm': 0.38209423422813416, 'learning_rate': 2.9879666666666668e-05, 'epoch': 19.12}
+{'loss': 0.0107, 'grad_norm': 0.18305137753486633, 'learning_rate': 2.9879333333333334e-05, 'epoch': 19.12}
+{'loss': 0.0102, 'grad_norm': 0.42425912618637085, 'learning_rate': 2.9879e-05, 'epoch': 19.13}
+{'loss': 0.0418, 'grad_norm': 0.24442718923091888, 'learning_rate': 2.987866666666667e-05, 'epoch': 19.13}
+{'loss': 0.0108, 'grad_norm': 0.3955996036529541, 'learning_rate': 2.987833333333333e-05, 'epoch': 19.13}
+{'loss': 0.0078, 'grad_norm': 0.1432962566614151, 'learning_rate': 2.9878e-05, 'epoch': 19.13}
+{'loss': 0.0146, 'grad_norm': 0.2589716911315918, 'learning_rate': 2.987766666666667e-05, 'epoch': 19.13}
+{'loss': 0.0093, 'grad_norm': 0.22195583581924438, 'learning_rate': 2.9877333333333333e-05, 'epoch': 19.13}
+{'loss': 0.0044, 'grad_norm': 0.1908663958311081, 'learning_rate': 2.9877000000000002e-05, 'epoch': 19.14}
+{'loss': 0.0076, 'grad_norm': 0.154612734913826, 'learning_rate': 2.9876666666666668e-05, 'epoch': 19.14}
+{'loss': 0.0117, 'grad_norm': 0.4131031334400177, 'learning_rate': 2.9876333333333334e-05, 'epoch': 19.14}
+{'loss': 0.0149, 'grad_norm': 0.3654535412788391, 'learning_rate': 2.9876e-05, 'epoch': 19.14}
+{'loss': 0.0095, 'grad_norm': 0.24689264595508575, 'learning_rate': 2.987566666666667e-05, 'epoch': 19.14}
+ 10%|█         | 10377/100000 [5:40:52<32:56:34,  1.32s/it] 10%|█         | 10378/100000 [5:40:53<32:29:00,  1.30s/it]                                                            10%|█         | 10378/100000 [5:40:53<32:29:00,  1.30s/it] 10%|█         | 10379/100000 [5:40:54<31:48:13,  1.28s/it]                                                            10%|█         | 10379/100000 [5:40:54<31:48:13,  1.28s/it] 10%|█         | 10380/100000 [5:40:55<31:24:47,  1.26s/it]                                                            10%|█         | 10380/100000 [5:40:55<31:24:47,  1.26s/it] 10%|█         | 10381/100000 [5:40:57<31:05:25,  1.25s/it]                                                            10%|█         | 10381/100000 [5:40:57<31:05:25,  1.25s/it] 10%|█         | 10382/100000 [5:40:58<30:28:05,  1.22s/it]                                                            10%|█         | 10382/100000 [5:40:58<30:28:05,  1.22s/it] 10%|█         | 10383/100000 [5:40:59<29:57:06,  1.20s/it]                                                            10%|█         | 10383/100000 [5:40:59<29:57:06,  1.20s/it] 10%|█         | 10384/100000 [5:41:00<29:31:50,  1.19s/it]                                                            10%|█         | 10384/100000 [5:41:00<29:31:50,  1.19s/it] 10%|█         | 10385/100000 [5:41:01<29:14:16,  1.17s/it]                                                            10%|█         | 10385/100000 [5:41:01<29:14:16,  1.17s/it] 10%|█         | 10386/100000 [5:41:02<28:39:31,  1.15s/it]                                                            10%|█         | 10386/100000 [5:41:02<28:39:31,  1.15s/it] 10%|█         | 10387/100000 [5:41:03<28:19:42,  1.14s/it]                                                            10%|█         | 10387/100000 [5:41:03<28:19:42,  1.14s/it] 10%|█         | 10388/100000 [5:41:04<28:03:48,  1.13s/it]                                                            10%|█         | 10388/100000 [5:41:04<28:03:48,  1.13s/it] 10%|█         | 10389/100000 [5:41:06<27:45:13,  1.11s/it]                                                            10%|█         | 10389/100000 [5:41:06<27:45:13,  1.11s/it] 10%|█         | 10390/100000 [5:41:07<27:26:58,  1.10s/it]                                                            10%|█         | 10390/100000 [5:41:07<27:26:58,  1.10s/it] 10%|█         | 10391/100000 [5:41:08<26:56:59,  1.08s/it]                                                            10%|█         | 10391/100000 [5:41:08<26:56:59,  1.08s/it] 10%|█         | 10392/100000 [5:41:09<26:37:55,  1.07s/it]                                                            10%|█         | 10392/100000 [5:41:09<26:37:55,  1.07s/it] 10%|█         | 10393/100000 [5:41:10<26:10:48,  1.05s/it]                                                            10%|█         | 10393/100000 [5:41:10<26:10:48,  1.05s/it] 10%|█         | 10394/100000 [5:41:11<25:24:45,  1.02s/it]                                                            10%|█         | 10394/100000 [5:41:11<25:24:45,  1.02s/it] 10%|█         | 10395/100000 [5:41:12<24:43:18,  1.01it/s]                                                            10%|█         | 10395/100000 [5:41:12<24:43:18,  1.01it/s] 10%|█         | 10396/100000 [5:41:13<24:10:41,  1.03it/s]                                                            10%|█         | 10396/100000 [5:41:13<24:10:41,  1.03it/s] 10%|█         | 10397/100000 [5:41:13<23:38:30,  1.05it/s]                                                            10%|█         | 10397/100000 [5:41:13<23:38:30,  1.05it/s] 10%|█         | 10398/100000 [5:41:14<23:13:20,  1.07it/s]                                                            10%|█         | 10398/100000 [5:41:14<23:13:20,  1.07it/s] 10%|█         | 10399/100000 [5:41:26<100:06:33,  4.02s/it]                                                             10%|█         | 10399/100000 [5:41:26<100:06:33,  4.02s/it] 10%|█         | 10400/100000 [5:41:31<111:45:16,  4.49s/it]                                                             10%|█         | 10400/100000 [5:41:31<111:45:16,  4.49s/it] 10%|█         | 10401/100000 [5:41:36<112:34:10,  4.52s/it]                                                             10%|█         | 10401/100000 [5:41:36<112:34:10,  4.52s/it] 10%|█         | 10402/100000 [5:41:40<108:01:42,  4.34s/it]                                                             10%|█         | 10402/100000 [5:41:40<108:01:42,  4.34s/it] 10%|█         | 10403/100000 [5:41:43<100:40:10,  4.04s/it]                                                             10%|█         | 10403/100000 [5:41:43<100:40:10,  4.04s/it] 10%|█         | 10404/100000 [5:41:46<93:04:40,  3.74s/it]                                                             10%|█         | 10404/100000 [5:41:46<93:04:40,  3.74s/it] 10%|█         | 10405/100000 [5:41:49<86:07:10,  3.46s/it]                                                            10%|█         | 10405/100000 [5:41:49<86:07:10,  3.46s/it] 10%|█         | 10406/100000 [5:41:51<79:22:24,  3.19s/it]                                                            10%|█         | 10406/100000 [5:41:51<79:22:24,  3.19s/it] 10%|█         | 10407/100000 [5:41:54<72:30:05,  2.91s/it]                                                            10%|█         | 10407/100000 [5:41:54<72:30:05,  2.91s/it] 10%|█         | 10408/100000 [5:41:56<67:06:59,  2.70s/it]                                                            10%|█         | 10408/100000 [5:41:56<67:06:59,  2.70s/it] 10%|█         | 10409/100000 [5:41:58<62:29:25,  2.51s/it]                                                            10%|█         | 10409/100000 [5:41:58<62:29:25,  2.51s/it] 10%|█         | 10410/100000 [5:42:00<58:27:49,  2.35s/it]                                                            10%|█         | 10410/100000 [5:42:00<58:27:49,  2.35s/it] 10%|█         | 10411/100000 [5:42:02<54:45:36,  2.20s/it]                                                            10%|█         | 10411/100000 [5:42:02<54:45:36,  2.20s/it] 10%|█         | 10412/100000 [5:42:04<51:22:06,  2.06s/it]                                                            10%|█         | 10412/100000 [5:42:04<51:22:06,  2.06s/it] 10%|█         | 10413/100000 [5:42:05<48:11:03,  1.94s/it]                                                            10%|█         | 10413/100000 [5:42:05<48:11:03,  1.94s/it] 10%|█         | 10414/100000 [5:42:07<46:04:57,  1.85s/it]                                                            10%|█         | 10414/100000 [5:42:07<46:04:57,  1.85s/it] 10%|█         | 10415/100000 [5:42:08<44:04:24,  1.77s/it]                                                            10%|█         | 10415/100000 [5:42:08<44:04:24,  1.77s/it] 10%|█         | 10416/100000 [5:42:10<42:40:49,  1.72s/it]                                                            10%|█         | 10416/100000 [5:42:10<42:40:49,  1.72s/it] 10%|█         | 10417/100000 [5:42:11<41:08:18,  1.65s/it]                                                            10%|█         | 10417/100000 [5:42:11<41:08:18,  1.65s/it] 10%|█         | 10418/100000 [5:42:13<39:45:04,  1.60s/it]                                                            10%|█         | 10418/100000 [5:42:13<39:45:04,  1.60s/it] 10%|█         | 10419/100000 [5:42:14<38:35:27,  1.55s/it]                                                            10%|█         | 10419/100000 [5:42:14<38:35:27,  1.55s/it] 10%|█         | 10420/100000 [5:42:16<37:37:25,  1.51s/it]                                                            10%|█         | 10420/100000 [5:42:16<37:37:25,  1.51s/it] 10%|█         | 10421/100000 [5:42:17<36:55:07,  1.48s/it]                                                            10%|█         | 10421/100000 [5:42:17<36:55:07,  1.48s/it] 10%|█         | 10422/100000 [5:42:19<35:53:51,  1.44s/it]                                                            10%|█         | 10422/100000 [5:42:19<35:53:51,  1.44s/it] 10%|█         | 10423/100000 [5:42:20<35:02:39,  1.41s/it]                                                            10%|█         | 10423/100000 [5:42:20<35:02:39,  1.41s/it] 10%|█         | 10424/100000 [5:42:21<34:31:30,  1.39s/it]                                                            10%|█         | 10424/100000 [5:42:21<34:31:30,  1.39s/it] 10%|█         | 10425/100000 [5:42:23<33:47:27,  1.36s/it]                                                            10%|█         | 10425/100000 [5:42:23<33:47:27,  1.36s/it] 10%|█         | 10426/100000 [5:42:24<33:19:22,  1.34s/it]                                                            10%|█         | 10426/100000 [5:42:24<33:19:22,  1.34s/it] 10%|█         | 10427/100000 [5:42:25<32:54:24,  1.32s/it]                                                            10%|█         | 10427/100000 [5:42:25<32:54:24,  1.32s/it] 10%|█         | 10428/100000 [5:42:26<32:39:08,  1.31s/it]                                                            10%|█         | 10428/100000 [5:42:26<32:39:08,  1.31s/it] 10%|█         | 10429/100000 [5:42:28<32:10:23,  1.29s/it]                                                            10%|█         | 10429/100000 [5:42:28<32:10:23,  1.29s/it] 10%|█         | 10430/100000 [5:42:29<31:32:27,  1.27s/it]                                                            10%|█         | 10430/100000 [5:42:29<31:32:27,  1.27s/it] 10%|█         | 10431/100000 [5:42:30<31:12:06,  1.25s/it]                                                            10%|█         | 10431/100000 [5:42:30<31:12:06,  1.25s/it] 10%|█         | 10432/100000 [5:42:31<30:20:43,  1.22s/it]                                                            10%|█         | 10432/100000 [5:42:31<30:20:43,  1.22s/it] 10%|█         | 10433/100000 [5:42:32<29:58:49,  1.21s/it]                                                            10%|█         | 10433/100000 [5:42:32<29:58:49,  1.21s/it] 10%|█         | 10434/100000 [5:42:34<29:29:33,  1.19s/it]                                                            10%|█         | 10434/100000 [5:42:34<29:29:33,  1.19s/it] 10%|█         | 10435/100000 [5:42:35<29:05:45,  1.17s/it]                                                            10%|█         | 10435/100000 [5:42:35<29:05:45,  1.17s/it] 10%|█         | 10436/100000 [5:42:36<28:45:23,  1.16s/it]                                                            10%|█         | 10436/100000 [5:42:36<28:45:23,  1.16s/it] 10%|█         | 10437/100000 [5:42:37<28:01:48,  1.13s/it]                                                            10%|█         | 10437/100000 [5:42:37<28:01:48,  1.13s/it] 10%|█         | 10438/100000 [5:42:38<27:51:15,  1.12s/it]                                                            10%|█         | 10438/100000 [5:42:38<27:51:15,  1.12s/it] 10%|█         | 10439/100000 [5:42:39<27:23:02,  1.10s/it]                                                            10%|█         | 10439/100000 [5:42:39<27:23:02,  1.10s/it] 10%|█         | 10440/100000 [5:42:40<27:05:17,  1.09s/it]                                                            10%|█         | 10440/100000 [5:42:40<27:05:17,  1.09s/it] 10%|█         | 10441/100000 [5:42:41<26:32:20,  1.07s/it]                                                            10%|█         | 10441/100000 [5:42:41<26:32:20,  1.07s/it] 10%|█         | 10442/100000 [5:42:42<26:12:19,  1.05s/it]                                                            10%|█         | 10442/100000 [5:42:42<26:12:19,  1.05s/it] 10%|█         | 10443/100000 [5:42:43<25:31:23,  1.03s/it]                                                            10%|█         | 10443/100000 [5:42:43<25:31:23,  1.03s/it] 10%|█         | 10444/100000 [5:42:44<25:14:39,  1.01s/it]                                                            10%|█         | 10444/100000 [5:42:44<25:14:39,  1.01s/it] 10%|█         | 10445/100000 [5:42:45<25:05:53,  1.01s/it]                                                            10%|█         | 10445/100000 [5:42:45<25:05:53,  1.01s/it] 10%|█         | 10446/100000 [5:42:46<24:44:36,  1.01it/s]                                                            10%|█         | 10446/100000 [5:42:46<24:44:36,  1.01it/s] 10%|█         | 10447/100000 [5:42:47<24:21:31,  1.02it/s]                                                            10%|█         | 10447/100000 [5:42:47<24:21:31,  1.02it/s] 10%|█         | 10448/100000 [5:42:48<23:37:34,  1.05it/s]                                                            10%|█         | 10448/100000 [5:42:48<23:37:34,  1.05it/s] 10%|█         | 10449/100000 [5:43:00<105:18:00,  4.23s/it]                                                             10%|█         | 10449/100000 [5:43:00<105:18:00,  4.23s/it] 10%|█         | 10450/100000 [5:43:06<117:47:15,  4.74s/it]                                                             10%|█         | 10450/100000 [5:43:06<117:47:15,  4.74s/it] 10%|█         | 10451/100000 [5:43:10<117:14:01,  4.71s/it]                                                             10%|█         | 10451/100000 [5:43:10<117:14:01,  4.71s/it] 10%|█         | 10452/100000 [5:43:14<112:14:32,  4.51s/it]                                                             10%|█         | 10452/100000 [5:43:14<112:14:32,  4.51s/it] 10%|█         | 10453/100000 [5:43:18<104:33:46,  4.20s/it]                                                             10%|█         | 10453/100000 [5:43:18<104:33:46,  4.20s/it] 10%|█         | 10454/100000 [5:43:21<96:21:30,  3.87s/it]                                                             10%|█         | 10454/100000 [5:43:21<96:21:30,  3.87s/it] 10%|█         | 10455/100000 [5:43:24<88:40:36,  3.57s/it]                                                           {'loss': 0.0082, 'grad_norm': 0.24347740411758423, 'learning_rate': 2.9875333333333332e-05, 'epoch': 19.15}
+{'loss': 0.0578, 'grad_norm': 0.531166672706604, 'learning_rate': 2.9875e-05, 'epoch': 19.15}
+{'loss': 0.0162, 'grad_norm': 0.4409041404724121, 'learning_rate': 2.987466666666667e-05, 'epoch': 19.15}
+{'loss': 0.0084, 'grad_norm': 0.35764533281326294, 'learning_rate': 2.9874333333333333e-05, 'epoch': 19.15}
+{'loss': 0.0075, 'grad_norm': 0.4136661887168884, 'learning_rate': 2.9874000000000002e-05, 'epoch': 19.15}
+{'loss': 0.0154, 'grad_norm': 1.1931157112121582, 'learning_rate': 2.9873666666666665e-05, 'epoch': 19.16}
+{'loss': 0.0054, 'grad_norm': 0.1597888022661209, 'learning_rate': 2.9873333333333334e-05, 'epoch': 19.16}
+{'loss': 0.0405, 'grad_norm': 0.4281260669231415, 'learning_rate': 2.9873e-05, 'epoch': 19.16}
+{'loss': 0.0112, 'grad_norm': 0.4385799169540405, 'learning_rate': 2.9872666666666666e-05, 'epoch': 19.16}
+{'loss': 0.0085, 'grad_norm': 0.22523953020572662, 'learning_rate': 2.9872333333333335e-05, 'epoch': 19.16}
+{'loss': 0.0204, 'grad_norm': 0.36893364787101746, 'learning_rate': 2.9872e-05, 'epoch': 19.16}
+{'loss': 0.0126, 'grad_norm': 0.7368447184562683, 'learning_rate': 2.9871666666666667e-05, 'epoch': 19.17}
+{'loss': 0.0117, 'grad_norm': 0.29873305559158325, 'learning_rate': 2.9871333333333333e-05, 'epoch': 19.17}
+{'loss': 0.009, 'grad_norm': 0.4472907483577728, 'learning_rate': 2.9871000000000003e-05, 'epoch': 19.17}
+{'loss': 0.0127, 'grad_norm': 0.9163946509361267, 'learning_rate': 2.9870666666666665e-05, 'epoch': 19.17}
+{'loss': 0.0112, 'grad_norm': 0.2877427935600281, 'learning_rate': 2.9870333333333334e-05, 'epoch': 19.17}
+{'loss': 0.0092, 'grad_norm': 0.5438757538795471, 'learning_rate': 2.987e-05, 'epoch': 19.18}
+{'loss': 0.0083, 'grad_norm': 0.34730347990989685, 'learning_rate': 2.9869666666666666e-05, 'epoch': 19.18}
+{'loss': 0.0143, 'grad_norm': 0.49923327565193176, 'learning_rate': 2.9869333333333336e-05, 'epoch': 19.18}
+{'loss': 0.0047, 'grad_norm': 0.19998763501644135, 'learning_rate': 2.9869e-05, 'epoch': 19.18}
+{'loss': 0.0136, 'grad_norm': 0.4820026457309723, 'learning_rate': 2.9868666666666667e-05, 'epoch': 19.18}
+{'loss': 0.0157, 'grad_norm': 0.5864433646202087, 'learning_rate': 2.9868333333333333e-05, 'epoch': 19.18}
+{'loss': 0.1275, 'grad_norm': 0.5068093538284302, 'learning_rate': 2.9868000000000003e-05, 'epoch': 19.19}
+{'loss': 0.1254, 'grad_norm': 0.4917617440223694, 'learning_rate': 2.9867666666666665e-05, 'epoch': 19.19}
+{'loss': 0.1655, 'grad_norm': 0.8632218837738037, 'learning_rate': 2.9867333333333335e-05, 'epoch': 19.19}
+{'loss': 0.0876, 'grad_norm': 0.4661218225955963, 'learning_rate': 2.9867e-05, 'epoch': 19.19}
+{'loss': 0.0873, 'grad_norm': 0.6275524497032166, 'learning_rate': 2.9866666666666666e-05, 'epoch': 19.19}
+{'loss': 0.0897, 'grad_norm': 0.4922047555446625, 'learning_rate': 2.9866333333333336e-05, 'epoch': 19.2}
+{'loss': 0.0591, 'grad_norm': 0.43131202459335327, 'learning_rate': 2.9866000000000002e-05, 'epoch': 19.2}
+{'loss': 0.0911, 'grad_norm': 0.536503255367279, 'learning_rate': 2.9865666666666668e-05, 'epoch': 19.2}
+{'loss': 0.0381, 'grad_norm': 0.3472905457019806, 'learning_rate': 2.9865333333333334e-05, 'epoch': 19.2}
+{'loss': 0.0509, 'grad_norm': 0.49963095784187317, 'learning_rate': 2.9865000000000003e-05, 'epoch': 19.2}
+{'loss': 0.0497, 'grad_norm': 0.48727062344551086, 'learning_rate': 2.9864666666666665e-05, 'epoch': 19.2}
+{'loss': 0.0492, 'grad_norm': 0.33055925369262695, 'learning_rate': 2.9864333333333335e-05, 'epoch': 19.21}
+{'loss': 0.0365, 'grad_norm': 0.4543503224849701, 'learning_rate': 2.9864000000000004e-05, 'epoch': 19.21}
+{'loss': 0.0228, 'grad_norm': 0.316006600856781, 'learning_rate': 2.9863666666666667e-05, 'epoch': 19.21}
+{'loss': 0.0144, 'grad_norm': 0.39846211671829224, 'learning_rate': 2.9863333333333336e-05, 'epoch': 19.21}
+{'loss': 0.0176, 'grad_norm': 0.32504454255104065, 'learning_rate': 2.9863e-05, 'epoch': 19.21}
+{'loss': 0.0137, 'grad_norm': 0.3825388252735138, 'learning_rate': 2.9862666666666668e-05, 'epoch': 19.22}
+{'loss': 0.0174, 'grad_norm': 0.276236355304718, 'learning_rate': 2.9862333333333334e-05, 'epoch': 19.22}
+{'loss': 0.0318, 'grad_norm': 0.31894567608833313, 'learning_rate': 2.9862e-05, 'epoch': 19.22}
+{'loss': 0.0322, 'grad_norm': 0.39254486560821533, 'learning_rate': 2.9861666666666666e-05, 'epoch': 19.22}
+{'loss': 0.0087, 'grad_norm': 0.3326973021030426, 'learning_rate': 2.9861333333333335e-05, 'epoch': 19.22}
+{'loss': 0.0089, 'grad_norm': 0.29619577527046204, 'learning_rate': 2.9861e-05, 'epoch': 19.23}
+{'loss': 0.0185, 'grad_norm': 0.3656005561351776, 'learning_rate': 2.9860666666666667e-05, 'epoch': 19.23}
+{'loss': 0.008, 'grad_norm': 0.26014333963394165, 'learning_rate': 2.9860333333333336e-05, 'epoch': 19.23}
+{'loss': 0.0136, 'grad_norm': 0.5052050948143005, 'learning_rate': 2.986e-05, 'epoch': 19.23}
+{'loss': 0.0141, 'grad_norm': 0.3282339572906494, 'learning_rate': 2.9859666666666668e-05, 'epoch': 19.23}
+{'loss': 0.0134, 'grad_norm': 0.33655408024787903, 'learning_rate': 2.9859333333333334e-05, 'epoch': 19.23}
+{'loss': 0.0103, 'grad_norm': 0.2944200336933136, 'learning_rate': 2.9859e-05, 'epoch': 19.24}
+{'loss': 0.0275, 'grad_norm': 0.49892765283584595, 'learning_rate': 2.9858666666666666e-05, 'epoch': 19.24}
+{'loss': 0.0096, 'grad_norm': 0.4131115972995758, 'learning_rate': 2.9858333333333335e-05, 'epoch': 19.24}
+{'loss': 0.0065, 'grad_norm': 0.2645561397075653, 'learning_rate': 2.9858e-05, 'epoch': 19.24}
+{'loss': 0.0111, 'grad_norm': 0.40666913986206055, 'learning_rate': 2.9857666666666667e-05, 'epoch': 19.24}
+{'loss': 0.0064, 'grad_norm': 0.22525639832019806, 'learning_rate': 2.9857333333333336e-05, 'epoch': 19.25}
+{'loss': 0.0097, 'grad_norm': 0.400501549243927, 'learning_rate': 2.9857e-05, 'epoch': 19.25}
+{'loss': 0.0093, 'grad_norm': 0.28048983216285706, 'learning_rate': 2.9856666666666668e-05, 'epoch': 19.25}
+{'loss': 0.0069, 'grad_norm': 0.21725383400917053, 'learning_rate': 2.9856333333333334e-05, 'epoch': 19.25}
+{'loss': 0.0098, 'grad_norm': 0.294262558221817, 'learning_rate': 2.9856e-05, 'epoch': 19.25}
+{'loss': 0.0189, 'grad_norm': 0.43420305848121643, 'learning_rate': 2.985566666666667e-05, 'epoch': 19.25}
+{'loss': 0.0043, 'grad_norm': 0.19349953532218933, 'learning_rate': 2.9855333333333335e-05, 'epoch': 19.26}
+{'loss': 0.0068, 'grad_norm': 0.26871469616889954, 'learning_rate': 2.9855e-05, 'epoch': 19.26}
+{'loss': 0.005, 'grad_norm': 0.18552646040916443, 'learning_rate': 2.9854666666666667e-05, 'epoch': 19.26}
+{'loss': 0.0094, 'grad_norm': 0.2697330117225647, 'learning_rate': 2.9854333333333337e-05, 'epoch': 19.26}
+{'loss': 0.0094, 'grad_norm': 0.47541746497154236, 'learning_rate': 2.9854e-05, 'epoch': 19.26}
+{'loss': 0.0071, 'grad_norm': 0.2967643141746521, 'learning_rate': 2.985366666666667e-05, 'epoch': 19.27}
+{'loss': 0.0118, 'grad_norm': 0.3433935046195984, 'learning_rate': 2.985333333333333e-05, 'epoch': 19.27}
+{'loss': 0.0088, 'grad_norm': 0.2878125011920929, 'learning_rate': 2.9853e-05, 'epoch': 19.27}
+{'loss': 0.0102, 'grad_norm': 0.8284724354743958, 'learning_rate': 2.985266666666667e-05, 'epoch': 19.27}
+{'loss': 0.0118, 'grad_norm': 0.244842529296875, 'learning_rate': 2.9852333333333332e-05, 'epoch': 19.27}
+{'loss': 0.0093, 'grad_norm': 0.3617515563964844, 'learning_rate': 2.9852e-05, 'epoch': 19.28}
+{'loss': 0.0045, 'grad_norm': 0.1818387806415558, 'learning_rate': 2.9851666666666667e-05, 'epoch': 19.28}
+{'loss': 0.1463, 'grad_norm': 0.6636005640029907, 'learning_rate': 2.9851333333333333e-05, 'epoch': 19.28}
+{'loss': 0.1471, 'grad_norm': 0.501599133014679, 'learning_rate': 2.9851e-05, 'epoch': 19.28}
+{'loss': 0.1049, 'grad_norm': 0.46136799454689026, 'learning_rate': 2.985066666666667e-05, 'epoch': 19.28}
+{'loss': 0.1087, 'grad_norm': 0.5088426470756531, 'learning_rate': 2.985033333333333e-05, 'epoch': 19.28}
+{'loss': 0.1165, 'grad_norm': 0.5903878808021545, 'learning_rate': 2.985e-05, 'epoch': 19.29}
+{'loss': 0.066, 'grad_norm': 0.45213332772254944, 'learning_rate': 2.984966666666667e-05, 'epoch': 19.29}
+ 10%|█         | 10455/100000 [5:43:24<88:40:36,  3.57s/it] 10%|█         | 10456/100000 [5:43:26<81:21:43,  3.27s/it]                                                            10%|█         | 10456/100000 [5:43:26<81:21:43,  3.27s/it] 10%|█         | 10457/100000 [5:43:29<75:12:28,  3.02s/it]                                                            10%|█         | 10457/100000 [5:43:29<75:12:28,  3.02s/it] 10%|█         | 10458/100000 [5:43:31<68:49:18,  2.77s/it]                                                            10%|█         | 10458/100000 [5:43:31<68:49:18,  2.77s/it] 10%|█         | 10459/100000 [5:43:33<63:48:44,  2.57s/it]                                                            10%|█         | 10459/100000 [5:43:33<63:48:44,  2.57s/it] 10%|█         | 10460/100000 [5:43:35<58:58:00,  2.37s/it]                                                            10%|█         | 10460/100000 [5:43:35<58:58:00,  2.37s/it] 10%|█         | 10461/100000 [5:43:37<55:09:21,  2.22s/it]                                                            10%|█         | 10461/100000 [5:43:37<55:09:21,  2.22s/it] 10%|█         | 10462/100000 [5:43:39<51:48:20,  2.08s/it]                                                            10%|█         | 10462/100000 [5:43:39<51:48:20,  2.08s/it] 10%|█         | 10463/100000 [5:43:40<48:55:09,  1.97s/it]                                                            10%|█         | 10463/100000 [5:43:40<48:55:09,  1.97s/it] 10%|█         | 10464/100000 [5:43:42<46:23:01,  1.86s/it]                                                            10%|█         | 10464/100000 [5:43:42<46:23:01,  1.86s/it] 10%|█         | 10465/100000 [5:43:44<44:30:09,  1.79s/it]                                                            10%|█         | 10465/100000 [5:43:44<44:30:09,  1.79s/it] 10%|█         | 10466/100000 [5:43:45<42:29:43,  1.71s/it]                                                            10%|█         | 10466/100000 [5:43:45<42:29:43,  1.71s/it] 10%|█         | 10467/100000 [5:43:47<40:57:50,  1.65s/it]                                                            10%|█         | 10467/100000 [5:43:47<40:57:50,  1.65s/it] 10%|█         | 10468/100000 [5:43:48<39:18:23,  1.58s/it]                                                            10%|█         | 10468/100000 [5:43:48<39:18:23,  1.58s/it] 10%|█         | 10469/100000 [5:43:49<38:18:20,  1.54s/it]                                                            10%|█         | 10469/100000 [5:43:49<38:18:20,  1.54s/it] 10%|█         | 10470/100000 [5:43:51<37:05:47,  1.49s/it]                                                            10%|█         | 10470/100000 [5:43:51<37:05:47,  1.49s/it] 10%|█         | 10471/100000 [5:43:52<36:22:26,  1.46s/it]                                                            10%|█         | 10471/100000 [5:43:52<36:22:26,  1.46s/it] 10%|█         | 10472/100000 [5:43:54<35:49:06,  1.44s/it]                                                            10%|█         | 10472/100000 [5:43:54<35:49:06,  1.44s/it] 10%|█         | 10473/100000 [5:43:55<35:11:43,  1.42s/it]                                                            10%|█         | 10473/100000 [5:43:55<35:11:43,  1.42s/it] 10%|█         | 10474/100000 [5:43:56<34:35:00,  1.39s/it]                                                            10%|█         | 10474/100000 [5:43:56<34:35:00,  1.39s/it] 10%|█         | 10475/100000 [5:43:58<34:02:04,  1.37s/it]                                                            10%|█         | 10475/100000 [5:43:58<34:02:04,  1.37s/it] 10%|█         | 10476/100000 [5:43:59<33:30:52,  1.35s/it]                                                            10%|█         | 10476/100000 [5:43:59<33:30:52,  1.35s/it] 10%|█         | 10477/100000 [5:44:00<33:01:57,  1.33s/it]                                                            10%|█         | 10477/100000 [5:44:00<33:01:57,  1.33s/it] 10%|█         | 10478/100000 [5:44:01<32:32:22,  1.31s/it]                                                            10%|█         | 10478/100000 [5:44:01<32:32:22,  1.31s/it] 10%|█         | 10479/100000 [5:44:03<31:51:53,  1.28s/it]                                                            10%|█         | 10479/100000 [5:44:03<31:51:53,  1.28s/it] 10%|█         | 10480/100000 [5:44:04<31:25:50,  1.26s/it]                                                            10%|█         | 10480/100000 [5:44:04<31:25:50,  1.26s/it] 10%|█         | 10481/100000 [5:44:05<31:14:27,  1.26s/it]                                                            10%|█         | 10481/100000 [5:44:05<31:14:27,  1.26s/it] 10%|█         | 10482/100000 [5:44:06<30:35:35,  1.23s/it]                                                            10%|█         | 10482/100000 [5:44:06<30:35:35,  1.23s/it] 10%|█         | 10483/100000 [5:44:07<29:47:45,  1.20s/it]                                                            10%|█         | 10483/100000 [5:44:07<29:47:45,  1.20s/it] 10%|█         | 10484/100000 [5:44:09<29:03:00,  1.17s/it]                                                            10%|█         | 10484/100000 [5:44:09<29:03:00,  1.17s/it] 10%|█         | 10485/100000 [5:44:10<28:42:08,  1.15s/it]                                                            10%|█         | 10485/100000 [5:44:10<28:42:08,  1.15s/it] 10%|█         | 10486/100000 [5:44:11<28:23:58,  1.14s/it]                                                            10%|█         | 10486/100000 [5:44:11<28:23:58,  1.14s/it] 10%|█         | 10487/100000 [5:44:12<28:10:11,  1.13s/it]                                                            10%|█         | 10487/100000 [5:44:12<28:10:11,  1.13s/it] 10%|█         | 10488/100000 [5:44:13<27:52:17,  1.12s/it]                                                            10%|█         | 10488/100000 [5:44:13<27:52:17,  1.12s/it] 10%|█         | 10489/100000 [5:44:14<27:35:19,  1.11s/it]                                                            10%|█         | 10489/100000 [5:44:14<27:35:19,  1.11s/it] 10%|█         | 10490/100000 [5:44:15<27:19:00,  1.10s/it]                                                            10%|█         | 10490/100000 [5:44:15<27:19:00,  1.10s/it] 10%|█         | 10491/100000 [5:44:16<26:54:50,  1.08s/it]                                                            10%|█         | 10491/100000 [5:44:16<26:54:50,  1.08s/it] 10%|█         | 10492/100000 [5:44:17<26:36:28,  1.07s/it]                                                            10%|█         | 10492/100000 [5:44:17<26:36:28,  1.07s/it] 10%|█         | 10493/100000 [5:44:18<26:20:06,  1.06s/it]                                                            10%|█         | 10493/100000 [5:44:18<26:20:06,  1.06s/it] 10%|█         | 10494/100000 [5:44:19<25:49:43,  1.04s/it]                                                            10%|█         | 10494/100000 [5:44:19<25:49:43,  1.04s/it] 10%|█         | 10495/100000 [5:44:20<25:28:51,  1.02s/it]                                                            10%|█         | 10495/100000 [5:44:20<25:28:51,  1.02s/it] 10%|█         | 10496/100000 [5:44:21<25:05:16,  1.01s/it]                                                            10%|█         | 10496/100000 [5:44:21<25:05:16,  1.01s/it] 10%|█         | 10497/100000 [5:44:22<24:33:36,  1.01it/s]                                                            10%|█         | 10497/100000 [5:44:22<24:33:36,  1.01it/s] 10%|█         | 10498/100000 [5:44:23<23:56:34,  1.04it/s]                                                            10%|█         | 10498/100000 [5:44:23<23:56:34,  1.04it/s] 10%|█         | 10499/100000 [5:44:34<98:40:26,  3.97s/it]                                                            10%|█         | 10499/100000 [5:44:34<98:40:26,  3.97s/it] 10%|█         | 10500/100000 [5:44:40<110:34:32,  4.45s/it]                                                             10%|█         | 10500/100000 [5:44:40<110:34:32,  4.45s/it] 11%|█         | 10501/100000 [5:44:44<109:33:58,  4.41s/it]                                                             11%|█         | 10501/100000 [5:44:44<109:33:58,  4.41s/it] 11%|█         | 10502/100000 [5:44:48<105:36:22,  4.25s/it]                                                             11%|█         | 10502/100000 [5:44:48<105:36:22,  4.25s/it] 11%|█         | 10503/100000 [5:44:51<100:13:16,  4.03s/it]                                                             11%|█         | 10503/100000 [5:44:51<100:13:16,  4.03s/it] 11%|█         | 10504/100000 [5:44:55<94:01:01,  3.78s/it]                                                             11%|█         | 10504/100000 [5:44:55<94:01:01,  3.78s/it] 11%|█         | 10505/100000 [5:44:58<88:09:55,  3.55s/it]                                                            11%|█         | 10505/100000 [5:44:58<88:09:55,  3.55s/it] 11%|█         | 10506/100000 [5:45:00<82:16:50,  3.31s/it]                                                            11%|█         | 10506/100000 [5:45:00<82:16:50,  3.31s/it] 11%|█         | 10507/100000 [5:45:03<76:15:00,  3.07s/it]                                                            11%|█         | 10507/100000 [5:45:03<76:15:00,  3.07s/it] 11%|█         | 10508/100000 [5:45:05<70:51:26,  2.85s/it]                                                            11%|█         | 10508/100000 [5:45:05<70:51:26,  2.85s/it] 11%|█         | 10509/100000 [5:45:07<65:43:12,  2.64s/it]                                                            11%|█         | 10509/100000 [5:45:07<65:43:12,  2.64s/it] 11%|█         | 10510/100000 [5:45:09<61:08:33,  2.46s/it]                                                            11%|█         | 10510/100000 [5:45:09<61:08:33,  2.46s/it] 11%|█         | 10511/100000 [5:45:11<56:56:24,  2.29s/it]                                                            11%|█         | 10511/100000 [5:45:11<56:56:24,  2.29s/it] 11%|█         | 10512/100000 [5:45:13<53:29:22,  2.15s/it]                                                            11%|█         | 10512/100000 [5:45:13<53:29:22,  2.15s/it] 11%|█         | 10513/100000 [5:45:15<50:01:41,  2.01s/it]                                                            11%|█         | 10513/100000 [5:45:15<50:01:41,  2.01s/it] 11%|█         | 10514/100000 [5:45:16<47:28:20,  1.91s/it]                                                            11%|█         | 10514/100000 [5:45:16<47:28:20,  1.91s/it] 11%|█         | 10515/100000 [5:45:18<45:20:00,  1.82s/it]                                                            11%|█         | 10515/100000 [5:45:18<45:20:00,  1.82s/it] 11%|█         | 10516/100000 [5:45:20<43:32:04,  1.75s/it]                                                            11%|█         | 10516/100000 [5:45:20<43:32:04,  1.75s/it] 11%|█         | 10517/100000 [5:45:21<42:01:58,  1.69s/it]                                                            11%|█         | 10517/100000 [5:45:21<42:01:58,  1.69s/it] 11%|█         | 10518/100000 [5:45:23<40:29:01,  1.63s/it]                                                            11%|█         | 10518/100000 [5:45:23<40:29:01,  1.63s/it] 11%|█         | 10519/100000 [5:45:24<39:11:36,  1.58s/it]                                                            11%|█         | 10519/100000 [5:45:24<39:11:36,  1.58s/it] 11%|█         | 10520/100000 [5:45:25<37:49:13,  1.52s/it]                                                            11%|█         | 10520/100000 [5:45:25<37:49:13,  1.52s/it] 11%|█         | 10521/100000 [5:45:27<36:58:57,  1.49s/it]                                                            11%|█         | 10521/100000 [5:45:27<36:58:57,  1.49s/it] 11%|█         | 10522/100000 [5:45:28<36:15:50,  1.46s/it]                                                            11%|█         | 10522/100000 [5:45:28<36:15:50,  1.46s/it] 11%|█         | 10523/100000 [5:45:30<35:38:57,  1.43s/it]                                                            11%|█         | 10523/100000 [5:45:30<35:38:57,  1.43s/it] 11%|█         | 10524/100000 [5:45:31<34:58:16,  1.41s/it]                                                            11%|█         | 10524/100000 [5:45:31<34:58:16,  1.41s/it] 11%|█         | 10525/100000 [5:45:32<34:06:13,  1.37s/it]                                                            11%|█         | 10525/100000 [5:45:32<34:06:13,  1.37s/it] 11%|��         | 10526/100000 [5:45:34<33:32:04,  1.35s/it]                                                            11%|█         | 10526/100000 [5:45:34<33:32:04,  1.35s/it] 11%|█         | 10527/100000 [5:45:35<32:49:29,  1.32s/it]                                                            11%|█         | 10527/100000 [5:45:35<32:49:29,  1.32s/it] 11%|█         | 10528/100000 [5:45:36<32:30:37,  1.31s/it]                                                            11%|█         | 10528/100000 [5:45:36<32:30:37,  1.31s/it] 11%|█         | 10529/100000 [5:45:37<32:04:32,  1.29s/it]                                                            11%|█         | 10529/100000 [5:45:37<32:04:32,  1.29s/it] 11%|█         | 10530/100000 [5:45:39<31:29:57,  1.27s/it]                                                            11%|█         | 10530/100000 [5:45:39<31:29:57,  1.27s/it] 11%|█         | 10531/100000 [5:45:40<31:10:16,  1.25s/it]                                                            11%|█         | 10531/100000 [5:45:40<31:10:16,  1.25s/it] 11%|█         | 10532/100000 [5:45:41<30:27:18,  1.23s/it]                                                            11%|█         | 10532/100000 [5:45:41<30:27:18,  1.23s/it] 11%|█         | 10533/100000 [5:45:42<31:11:00,  1.25s/it]                                                           {'loss': 0.0713, 'grad_norm': 0.4082927703857422, 'learning_rate': 2.9849333333333332e-05, 'epoch': 19.29}
+{'loss': 0.06, 'grad_norm': 0.4666750729084015, 'learning_rate': 2.9849000000000002e-05, 'epoch': 19.29}
+{'loss': 0.0729, 'grad_norm': 0.6132091283798218, 'learning_rate': 2.9848666666666668e-05, 'epoch': 19.29}
+{'loss': 0.0659, 'grad_norm': 0.37567561864852905, 'learning_rate': 2.9848333333333334e-05, 'epoch': 19.3}
+{'loss': 0.0263, 'grad_norm': 0.30930113792419434, 'learning_rate': 2.9848e-05, 'epoch': 19.3}
+{'loss': 0.0456, 'grad_norm': 0.3227839171886444, 'learning_rate': 2.984766666666667e-05, 'epoch': 19.3}
+{'loss': 0.0269, 'grad_norm': 0.451276034116745, 'learning_rate': 2.9847333333333335e-05, 'epoch': 19.3}
+{'loss': 0.0179, 'grad_norm': 0.754874050617218, 'learning_rate': 2.9847e-05, 'epoch': 19.3}
+{'loss': 0.0115, 'grad_norm': 0.20438246428966522, 'learning_rate': 2.984666666666667e-05, 'epoch': 19.3}
+{'loss': 0.0283, 'grad_norm': 0.2762463390827179, 'learning_rate': 2.9846333333333333e-05, 'epoch': 19.31}
+{'loss': 0.0225, 'grad_norm': 0.34477874636650085, 'learning_rate': 2.9846000000000002e-05, 'epoch': 19.31}
+{'loss': 0.0574, 'grad_norm': 0.5555924773216248, 'learning_rate': 2.9845666666666668e-05, 'epoch': 19.31}
+{'loss': 0.039, 'grad_norm': 0.2817211449146271, 'learning_rate': 2.9845333333333334e-05, 'epoch': 19.31}
+{'loss': 0.0107, 'grad_norm': 0.3302725553512573, 'learning_rate': 2.9845e-05, 'epoch': 19.31}
+{'loss': 0.0093, 'grad_norm': 0.29507848620414734, 'learning_rate': 2.984466666666667e-05, 'epoch': 19.32}
+{'loss': 0.0118, 'grad_norm': 0.2905113399028778, 'learning_rate': 2.9844333333333335e-05, 'epoch': 19.32}
+{'loss': 0.0197, 'grad_norm': 0.7147642970085144, 'learning_rate': 2.9844e-05, 'epoch': 19.32}
+{'loss': 0.0055, 'grad_norm': 0.14920946955680847, 'learning_rate': 2.9843666666666667e-05, 'epoch': 19.32}
+{'loss': 0.011, 'grad_norm': 0.30008870363235474, 'learning_rate': 2.9843333333333333e-05, 'epoch': 19.32}
+{'loss': 0.0085, 'grad_norm': 0.27200573682785034, 'learning_rate': 2.9843000000000002e-05, 'epoch': 19.33}
+{'loss': 0.0062, 'grad_norm': 0.2959764301776886, 'learning_rate': 2.9842666666666665e-05, 'epoch': 19.33}
+{'loss': 0.0083, 'grad_norm': 0.5562206506729126, 'learning_rate': 2.9842333333333334e-05, 'epoch': 19.33}
+{'loss': 0.0168, 'grad_norm': 0.42132067680358887, 'learning_rate': 2.9842e-05, 'epoch': 19.33}
+{'loss': 0.0189, 'grad_norm': 0.7031576037406921, 'learning_rate': 2.9841666666666666e-05, 'epoch': 19.33}
+{'loss': 0.0073, 'grad_norm': 0.23381592333316803, 'learning_rate': 2.9841333333333335e-05, 'epoch': 19.33}
+{'loss': 0.0149, 'grad_norm': 0.50837641954422, 'learning_rate': 2.9841e-05, 'epoch': 19.34}
+{'loss': 0.0093, 'grad_norm': 0.47945070266723633, 'learning_rate': 2.9840666666666667e-05, 'epoch': 19.34}
+{'loss': 0.0091, 'grad_norm': 0.1993795931339264, 'learning_rate': 2.9840333333333333e-05, 'epoch': 19.34}
+{'loss': 0.0047, 'grad_norm': 0.25505030155181885, 'learning_rate': 2.9840000000000002e-05, 'epoch': 19.34}
+{'loss': 0.0061, 'grad_norm': 0.2103731483221054, 'learning_rate': 2.9839666666666665e-05, 'epoch': 19.34}
+{'loss': 0.0113, 'grad_norm': 0.3151203989982605, 'learning_rate': 2.9839333333333334e-05, 'epoch': 19.35}
+{'loss': 0.0097, 'grad_norm': 0.365931898355484, 'learning_rate': 2.9839000000000003e-05, 'epoch': 19.35}
+{'loss': 0.0106, 'grad_norm': 0.25502514839172363, 'learning_rate': 2.9838666666666666e-05, 'epoch': 19.35}
+{'loss': 0.007, 'grad_norm': 0.25653916597366333, 'learning_rate': 2.9838333333333335e-05, 'epoch': 19.35}
+{'loss': 0.0204, 'grad_norm': 0.441602498292923, 'learning_rate': 2.9838e-05, 'epoch': 19.35}
+{'loss': 0.0051, 'grad_norm': 0.12745323777198792, 'learning_rate': 2.9837666666666667e-05, 'epoch': 19.35}
+{'loss': 0.0084, 'grad_norm': 0.3819082975387573, 'learning_rate': 2.9837333333333333e-05, 'epoch': 19.36}
+{'loss': 0.0104, 'grad_norm': 0.4130721688270569, 'learning_rate': 2.9837000000000002e-05, 'epoch': 19.36}
+{'loss': 0.0093, 'grad_norm': 0.2628061771392822, 'learning_rate': 2.9836666666666665e-05, 'epoch': 19.36}
+{'loss': 0.0052, 'grad_norm': 0.23770292103290558, 'learning_rate': 2.9836333333333334e-05, 'epoch': 19.36}
+{'loss': 0.0252, 'grad_norm': 0.4211592376232147, 'learning_rate': 2.9836000000000004e-05, 'epoch': 19.36}
+{'loss': 0.0161, 'grad_norm': 0.4491584002971649, 'learning_rate': 2.9835666666666666e-05, 'epoch': 19.37}
+{'loss': 0.0126, 'grad_norm': 0.38713496923446655, 'learning_rate': 2.9835333333333336e-05, 'epoch': 19.37}
+{'loss': 0.0093, 'grad_norm': 0.36408424377441406, 'learning_rate': 2.9835e-05, 'epoch': 19.37}
+{'loss': 0.1899, 'grad_norm': 0.767509937286377, 'learning_rate': 2.9834666666666667e-05, 'epoch': 19.37}
+{'loss': 0.1397, 'grad_norm': 0.5073058009147644, 'learning_rate': 2.9834333333333333e-05, 'epoch': 19.37}
+{'loss': 0.0866, 'grad_norm': 0.5196423530578613, 'learning_rate': 2.9834000000000003e-05, 'epoch': 19.37}
+{'loss': 0.0727, 'grad_norm': 0.4803215265274048, 'learning_rate': 2.9833666666666665e-05, 'epoch': 19.38}
+{'loss': 0.1469, 'grad_norm': 0.9240314364433289, 'learning_rate': 2.9833333333333335e-05, 'epoch': 19.38}
+{'loss': 0.0637, 'grad_norm': 0.3998948633670807, 'learning_rate': 2.9833e-05, 'epoch': 19.38}
+{'loss': 0.0628, 'grad_norm': 0.5939068794250488, 'learning_rate': 2.9832666666666666e-05, 'epoch': 19.38}
+{'loss': 0.066, 'grad_norm': 0.38086938858032227, 'learning_rate': 2.9832333333333336e-05, 'epoch': 19.38}
+{'loss': 0.0603, 'grad_norm': 0.41734108328819275, 'learning_rate': 2.9831999999999998e-05, 'epoch': 19.39}
+{'loss': 0.0567, 'grad_norm': 0.49323397874832153, 'learning_rate': 2.9831666666666668e-05, 'epoch': 19.39}
+{'loss': 0.0372, 'grad_norm': 0.3245604932308197, 'learning_rate': 2.9831333333333334e-05, 'epoch': 19.39}
+{'loss': 0.0352, 'grad_norm': 0.24436530470848083, 'learning_rate': 2.9831e-05, 'epoch': 19.39}
+{'loss': 0.0754, 'grad_norm': 0.35334378480911255, 'learning_rate': 2.983066666666667e-05, 'epoch': 19.39}
+{'loss': 0.0679, 'grad_norm': 0.38580289483070374, 'learning_rate': 2.9830333333333335e-05, 'epoch': 19.4}
+{'loss': 0.0186, 'grad_norm': 0.31692564487457275, 'learning_rate': 2.983e-05, 'epoch': 19.4}
+{'loss': 0.0256, 'grad_norm': 0.31757763028144836, 'learning_rate': 2.9829666666666667e-05, 'epoch': 19.4}
+{'loss': 0.011, 'grad_norm': 0.16572915017604828, 'learning_rate': 2.9829333333333336e-05, 'epoch': 19.4}
+{'loss': 0.017, 'grad_norm': 0.4005686342716217, 'learning_rate': 2.9829e-05, 'epoch': 19.4}
+{'loss': 0.0127, 'grad_norm': 0.33007410168647766, 'learning_rate': 2.9828666666666668e-05, 'epoch': 19.4}
+{'loss': 0.0049, 'grad_norm': 0.09764605760574341, 'learning_rate': 2.9828333333333334e-05, 'epoch': 19.41}
+{'loss': 0.0177, 'grad_norm': 0.29652926325798035, 'learning_rate': 2.9828e-05, 'epoch': 19.41}
+{'loss': 0.0134, 'grad_norm': 0.27024373412132263, 'learning_rate': 2.982766666666667e-05, 'epoch': 19.41}
+{'loss': 0.0157, 'grad_norm': 0.18943774700164795, 'learning_rate': 2.9827333333333335e-05, 'epoch': 19.41}
+{'loss': 0.0042, 'grad_norm': 0.11868040263652802, 'learning_rate': 2.9827e-05, 'epoch': 19.41}
+{'loss': 0.0121, 'grad_norm': 0.611986517906189, 'learning_rate': 2.9826666666666667e-05, 'epoch': 19.42}
+{'loss': 0.0242, 'grad_norm': 0.3093113899230957, 'learning_rate': 2.9826333333333336e-05, 'epoch': 19.42}
+{'loss': 0.0176, 'grad_norm': 0.7205303311347961, 'learning_rate': 2.9826e-05, 'epoch': 19.42}
+{'loss': 0.0125, 'grad_norm': 0.36200499534606934, 'learning_rate': 2.9825666666666668e-05, 'epoch': 19.42}
+{'loss': 0.0099, 'grad_norm': 0.2035263627767563, 'learning_rate': 2.9825333333333334e-05, 'epoch': 19.42}
+{'loss': 0.0079, 'grad_norm': 0.27171552181243896, 'learning_rate': 2.9825e-05, 'epoch': 19.42}
+{'loss': 0.0458, 'grad_norm': 0.3976079523563385, 'learning_rate': 2.982466666666667e-05, 'epoch': 19.43}
+{'loss': 0.0085, 'grad_norm': 0.19442453980445862, 'learning_rate': 2.9824333333333335e-05, 'epoch': 19.43}
+{'loss': 0.0115, 'grad_norm': 0.30339083075523376, 'learning_rate': 2.9824e-05, 'epoch': 19.43}
+{'loss': 0.0042, 'grad_norm': 1.2128410339355469, 'learning_rate': 2.9823666666666667e-05, 'epoch': 19.43}
+ 11%|█         | 10533/100000 [5:45:42<31:11:00,  1.25s/it] 11%|█         | 10534/100000 [5:45:43<30:24:04,  1.22s/it]                                                            11%|█         | 10534/100000 [5:45:43<30:24:04,  1.22s/it] 11%|█         | 10535/100000 [5:45:45<29:46:29,  1.20s/it]                                                            11%|█         | 10535/100000 [5:45:45<29:46:29,  1.20s/it] 11%|█         | 10536/100000 [5:45:46<29:06:48,  1.17s/it]                                                            11%|█         | 10536/100000 [5:45:46<29:06:48,  1.17s/it] 11%|█         | 10537/100000 [5:45:47<28:39:08,  1.15s/it]                                                            11%|█         | 10537/100000 [5:45:47<28:39:08,  1.15s/it] 11%|█         | 10538/100000 [5:45:48<28:08:42,  1.13s/it]                                                            11%|█         | 10538/100000 [5:45:48<28:08:42,  1.13s/it] 11%|█         | 10539/100000 [5:45:49<27:42:04,  1.11s/it]                                                            11%|█         | 10539/100000 [5:45:49<27:42:04,  1.11s/it] 11%|█         | 10540/100000 [5:45:50<27:19:15,  1.10s/it]                                                            11%|█         | 10540/100000 [5:45:50<27:19:15,  1.10s/it] 11%|█         | 10541/100000 [5:45:51<26:45:26,  1.08s/it]                                                            11%|█         | 10541/100000 [5:45:51<26:45:26,  1.08s/it] 11%|█         | 10542/100000 [5:45:52<26:19:40,  1.06s/it]                                                            11%|█         | 10542/100000 [5:45:52<26:19:40,  1.06s/it] 11%|█         | 10543/100000 [5:45:53<25:38:08,  1.03s/it]                                                            11%|█         | 10543/100000 [5:45:53<25:38:08,  1.03s/it] 11%|█         | 10544/100000 [5:45:54<25:15:33,  1.02s/it]                                                            11%|█         | 10544/100000 [5:45:54<25:15:33,  1.02s/it] 11%|█         | 10545/100000 [5:45:55<24:49:48,  1.00it/s]                                                            11%|█         | 10545/100000 [5:45:55<24:49:48,  1.00it/s] 11%|█         | 10546/100000 [5:45:56<24:05:21,  1.03it/s]                                                            11%|█         | 10546/100000 [5:45:56<24:05:21,  1.03it/s] 11%|█         | 10547/100000 [5:45:57<24:08:04,  1.03it/s]                                                            11%|█         | 10547/100000 [5:45:57<24:08:04,  1.03it/s] 11%|█         | 10548/100000 [5:45:58<23:51:34,  1.04it/s]                                                            11%|█         | 10548/100000 [5:45:58<23:51:34,  1.04it/s] 11%|█         | 10549/100000 [5:46:08<93:53:22,  3.78s/it]                                                            11%|█         | 10549/100000 [5:46:08<93:53:22,  3.78s/it] 11%|█         | 10550/100000 [5:46:13<105:29:47,  4.25s/it]                                                             11%|█         | 10550/100000 [5:46:13<105:29:47,  4.25s/it] 11%|█         | 10551/100000 [5:46:18<109:20:28,  4.40s/it]                                                             11%|█         | 10551/100000 [5:46:18<109:20:28,  4.40s/it] 11%|█         | 10552/100000 [5:46:22<107:29:01,  4.33s/it]                                                             11%|█         | 10552/100000 [5:46:22<107:29:01,  4.33s/it] 11%|█         | 10553/100000 [5:46:26<102:30:34,  4.13s/it]                                                             11%|█         | 10553/100000 [5:46:26<102:30:34,  4.13s/it] 11%|█         | 10554/100000 [5:46:29<96:34:29,  3.89s/it]                                                             11%|█         | 10554/100000 [5:46:29<96:34:29,  3.89s/it] 11%|█         | 10555/100000 [5:46:32<90:18:00,  3.63s/it]                                                            11%|█         | 10555/100000 [5:46:32<90:18:00,  3.63s/it] 11%|█         | 10556/100000 [5:46:35<83:50:12,  3.37s/it]                                                            11%|█         | 10556/100000 [5:46:35<83:50:12,  3.37s/it] 11%|█         | 10557/100000 [5:46:38<76:54:08,  3.10s/it]                                                            11%|█         | 10557/100000 [5:46:38<76:54:08,  3.10s/it] 11%|█         | 10558/100000 [5:46:40<71:18:05,  2.87s/it]                                                            11%|█         | 10558/100000 [5:46:40<71:18:05,  2.87s/it] 11%|█         | 10559/100000 [5:46:42<65:59:53,  2.66s/it]                                                            11%|█         | 10559/100000 [5:46:42<65:59:53,  2.66s/it] 11%|█         | 10560/100000 [5:46:44<61:20:31,  2.47s/it]                                                            11%|█         | 10560/100000 [5:46:44<61:20:31,  2.47s/it] 11%|█         | 10561/100000 [5:46:46<57:23:56,  2.31s/it]                                                            11%|█         | 10561/100000 [5:46:46<57:23:56,  2.31s/it] 11%|█         | 10562/100000 [5:46:48<53:37:16,  2.16s/it]                                                            11%|█         | 10562/100000 [5:46:48<53:37:16,  2.16s/it] 11%|█         | 10563/100000 [5:46:50<51:48:26,  2.09s/it]                                                            11%|█         | 10563/100000 [5:46:50<51:48:26,  2.09s/it] 11%|█         | 10564/100000 [5:46:52<48:53:35,  1.97s/it]                                                            11%|█         | 10564/100000 [5:46:52<48:53:35,  1.97s/it] 11%|█         | 10565/100000 [5:46:53<46:01:50,  1.85s/it]                                                            11%|█         | 10565/100000 [5:46:53<46:01:50,  1.85s/it] 11%|█         | 10566/100000 [5:46:55<43:52:32,  1.77s/it]                                                            11%|█         | 10566/100000 [5:46:55<43:52:32,  1.77s/it] 11%|█         | 10567/100000 [5:46:56<42:19:25,  1.70s/it]                                                            11%|█         | 10567/100000 [5:46:56<42:19:25,  1.70s/it] 11%|█         | 10568/100000 [5:46:58<40:38:49,  1.64s/it]                                                            11%|█         | 10568/100000 [5:46:58<40:38:49,  1.64s/it] 11%|█         | 10569/100000 [5:46:59<39:15:34,  1.58s/it]                                                            11%|█         | 10569/100000 [5:46:59<39:15:34,  1.58s/it] 11%|█         | 10570/100000 [5:47:01<38:06:02,  1.53s/it]                                                            11%|█         | 10570/100000 [5:47:01<38:06:02,  1.53s/it] 11%|█         | 10571/100000 [5:47:02<37:08:46,  1.50s/it]                                                            11%|█         | 10571/100000 [5:47:02<37:08:46,  1.50s/it] 11%|█         | 10572/100000 [5:47:03<36:02:57,  1.45s/it]                                                            11%|█         | 10572/100000 [5:47:03<36:02:57,  1.45s/it] 11%|█         | 10573/100000 [5:47:05<35:25:42,  1.43s/it]                                                            11%|█         | 10573/100000 [5:47:05<35:25:42,  1.43s/it] 11%|█         | 10574/100000 [5:47:06<34:32:48,  1.39s/it]                                                            11%|█         | 10574/100000 [5:47:06<34:32:48,  1.39s/it] 11%|█         | 10575/100000 [5:47:07<33:54:05,  1.36s/it]                                                            11%|█         | 10575/100000 [5:47:07<33:54:05,  1.36s/it] 11%|█         | 10576/100000 [5:47:09<33:28:40,  1.35s/it]                                                            11%|█         | 10576/100000 [5:47:09<33:28:40,  1.35s/it] 11%|█         | 10577/100000 [5:47:10<32:48:11,  1.32s/it]                                                            11%|█         | 10577/100000 [5:47:10<32:48:11,  1.32s/it] 11%|█         | 10578/100000 [5:47:11<32:31:11,  1.31s/it]                                                            11%|█         | 10578/100000 [5:47:11<32:31:11,  1.31s/it] 11%|█         | 10579/100000 [5:47:12<32:03:26,  1.29s/it]                                                            11%|█         | 10579/100000 [5:47:12<32:03:26,  1.29s/it] 11%|█         | 10580/100000 [5:47:14<31:36:04,  1.27s/it]                                                            11%|█         | 10580/100000 [5:47:14<31:36:04,  1.27s/it] 11%|█         | 10581/100000 [5:47:15<31:15:39,  1.26s/it]                                                            11%|█         | 10581/100000 [5:47:15<31:15:39,  1.26s/it] 11%|█         | 10582/100000 [5:47:16<30:48:59,  1.24s/it]                                                            11%|█         | 10582/100000 [5:47:16<30:48:59,  1.24s/it] 11%|█         | 10583/100000 [5:47:17<30:11:48,  1.22s/it]                                                            11%|█         | 10583/100000 [5:47:17<30:11:48,  1.22s/it] 11%|█         | 10584/100000 [5:47:18<29:44:54,  1.20s/it]                                                            11%|█         | 10584/100000 [5:47:18<29:44:54,  1.20s/it] 11%|█         | 10585/100000 [5:47:19<29:11:35,  1.18s/it]                                                            11%|█         | 10585/100000 [5:47:19<29:11:35,  1.18s/it] 11%|█         | 10586/100000 [5:47:21<28:52:44,  1.16s/it]                                                            11%|█         | 10586/100000 [5:47:21<28:52:44,  1.16s/it] 11%|█         | 10587/100000 [5:47:22<28:25:05,  1.14s/it]                                                            11%|█         | 10587/100000 [5:47:22<28:25:05,  1.14s/it] 11%|█         | 10588/100000 [5:47:23<28:07:01,  1.13s/it]                                                            11%|█         | 10588/100000 [5:47:23<28:07:01,  1.13s/it] 11%|█         | 10589/100000 [5:47:24<27:49:31,  1.12s/it]                                                            11%|█         | 10589/100000 [5:47:24<27:49:31,  1.12s/it] 11%|█         | 10590/100000 [5:47:25<27:28:51,  1.11s/it]                                                            11%|█         | 10590/100000 [5:47:25<27:28:51,  1.11s/it] 11%|█         | 10591/100000 [5:47:26<27:17:08,  1.10s/it]                                                            11%|█         | 10591/100000 [5:47:26<27:17:08,  1.10s/it] 11%|█         | 10592/100000 [5:47:27<26:51:37,  1.08s/it]                                                            11%|█         | 10592/100000 [5:47:27<26:51:37,  1.08s/it] 11%|█         | 10593/100000 [5:47:28<26:27:49,  1.07s/it]                                                            11%|█         | 10593/100000 [5:47:28<26:27:49,  1.07s/it] 11%|█         | 10594/100000 [5:47:29<25:51:39,  1.04s/it]                                                            11%|█         | 10594/100000 [5:47:29<25:51:39,  1.04s/it] 11%|█         | 10595/100000 [5:47:30<25:15:48,  1.02s/it]                                                            11%|█         | 10595/100000 [5:47:30<25:15:48,  1.02s/it] 11%|█         | 10596/100000 [5:47:31<24:24:55,  1.02it/s]                                                            11%|█         | 10596/100000 [5:47:31<24:24:55,  1.02it/s] 11%|█         | 10597/100000 [5:47:32<23:47:08,  1.04it/s]                                                            11%|█         | 10597/100000 [5:47:32<23:47:08,  1.04it/s] 11%|█         | 10598/100000 [5:47:33<22:48:15,  1.09it/s]                                                            11%|█         | 10598/100000 [5:47:33<22:48:15,  1.09it/s] 11%|█         | 10599/100000 [5:47:45<106:06:15,  4.27s/it]                                                             11%|█         | 10599/100000 [5:47:45<106:06:15,  4.27s/it] 11%|█         | 10600/100000 [5:47:51<120:31:55,  4.85s/it]                                                             11%|█         | 10600/100000 [5:47:51<120:31:55,  4.85s/it] 11%|█         | 10601/100000 [5:47:56<120:10:00,  4.84s/it]                                                             11%|█         | 10601/100000 [5:47:56<120:10:00,  4.84s/it] 11%|█         | 10602/100000 [5:48:00<114:31:19,  4.61s/it]                                                             11%|█         | 10602/100000 [5:48:00<114:31:19,  4.61s/it] 11%|█         | 10603/100000 [5:48:03<106:51:17,  4.30s/it]                                                             11%|█         | 10603/100000 [5:48:04<106:51:17,  4.30s/it] 11%|█         | 10604/100000 [5:48:07<99:55:34,  4.02s/it]                                                             11%|█         | 10604/100000 [5:48:07<99:55:34,  4.02s/it] 11%|█         | 10605/100000 [5:48:10<92:18:05,  3.72s/it]                                                            11%|█         | 10605/100000 [5:48:10<92:18:05,  3.72s/it] 11%|█         | 10606/100000 [5:48:13<85:38:17,  3.45s/it]                                                            11%|█         | 10606/100000 [5:48:13<85:38:17,  3.45s/it] 11%|█         | 10607/100000 [5:48:15<79:07:12,  3.19s/it]                                                            11%|█         | 10607/100000 [5:48:15<79:07:12,  3.19s/it] 11%|█         | 10608/100000 [5:48:18<73:20:39,  2.95s/it]                                                            11%|█         | 10608/100000 [5:48:18<73:20:39,  2.95s/it] 11%|█         | 10609/100000 [5:48:20<67:38:12,  2.72s/it]                                                            11%|█         | 10609/100000 [5:48:20<67:38:12,  2.72s/it] 11%|█         | 10610/100000 [5:48:22<62:31:39,  2.52s/it]                                                            11%|█         | 10610/100000 [5:48:22<62:31:39,  2.52s/it] 11%|█         | 10611/100000 [5:48:24<57:14:09,  2.31s/it]                                                           {'loss': 0.0131, 'grad_norm': 0.8668030500411987, 'learning_rate': 2.9823333333333333e-05, 'epoch': 19.43}
+{'loss': 0.0043, 'grad_norm': 0.1962207853794098, 'learning_rate': 2.9823e-05, 'epoch': 19.44}
+{'loss': 0.0068, 'grad_norm': 0.21301503479480743, 'learning_rate': 2.9822666666666668e-05, 'epoch': 19.44}
+{'loss': 0.0152, 'grad_norm': 0.7212603092193604, 'learning_rate': 2.9822333333333334e-05, 'epoch': 19.44}
+{'loss': 0.0095, 'grad_norm': 0.4302648901939392, 'learning_rate': 2.9822e-05, 'epoch': 19.44}
+{'loss': 0.0051, 'grad_norm': 0.2859456539154053, 'learning_rate': 2.982166666666667e-05, 'epoch': 19.44}
+{'loss': 0.0076, 'grad_norm': 0.2743951976299286, 'learning_rate': 2.9821333333333332e-05, 'epoch': 19.45}
+{'loss': 0.0136, 'grad_norm': 0.7187720537185669, 'learning_rate': 2.9821e-05, 'epoch': 19.45}
+{'loss': 0.0122, 'grad_norm': 0.4372936487197876, 'learning_rate': 2.9820666666666667e-05, 'epoch': 19.45}
+{'loss': 0.0155, 'grad_norm': 0.5092134475708008, 'learning_rate': 2.9820333333333333e-05, 'epoch': 19.45}
+{'loss': 0.0096, 'grad_norm': 0.41750380396842957, 'learning_rate': 2.982e-05, 'epoch': 19.45}
+{'loss': 0.0092, 'grad_norm': 0.5092931985855103, 'learning_rate': 2.981966666666667e-05, 'epoch': 19.45}
+{'loss': 0.0116, 'grad_norm': 0.25309839844703674, 'learning_rate': 2.9819333333333334e-05, 'epoch': 19.46}
+{'loss': 0.0154, 'grad_norm': 0.6120051145553589, 'learning_rate': 2.9819e-05, 'epoch': 19.46}
+{'loss': 0.0083, 'grad_norm': 0.2491397112607956, 'learning_rate': 2.981866666666667e-05, 'epoch': 19.46}
+{'loss': 0.0104, 'grad_norm': 0.3732081353664398, 'learning_rate': 2.9818333333333332e-05, 'epoch': 19.46}
+{'loss': 0.1143, 'grad_norm': 0.5665434002876282, 'learning_rate': 2.9818e-05, 'epoch': 19.46}
+{'loss': 0.1119, 'grad_norm': 0.5090430974960327, 'learning_rate': 2.9817666666666667e-05, 'epoch': 19.47}
+{'loss': 0.164, 'grad_norm': 0.7848197817802429, 'learning_rate': 2.9817333333333333e-05, 'epoch': 19.47}
+{'loss': 0.1209, 'grad_norm': 0.6643295288085938, 'learning_rate': 2.9817e-05, 'epoch': 19.47}
+{'loss': 0.1687, 'grad_norm': 0.7260629534721375, 'learning_rate': 2.981666666666667e-05, 'epoch': 19.47}
+{'loss': 0.0625, 'grad_norm': 0.575410783290863, 'learning_rate': 2.9816333333333335e-05, 'epoch': 19.47}
+{'loss': 0.0714, 'grad_norm': 0.5349397659301758, 'learning_rate': 2.9816e-05, 'epoch': 19.47}
+{'loss': 0.0591, 'grad_norm': 0.39579540491104126, 'learning_rate': 2.981566666666667e-05, 'epoch': 19.48}
+{'loss': 0.0645, 'grad_norm': 0.47131359577178955, 'learning_rate': 2.9815333333333332e-05, 'epoch': 19.48}
+{'loss': 0.0878, 'grad_norm': 0.42419734597206116, 'learning_rate': 2.9815e-05, 'epoch': 19.48}
+{'loss': 0.0719, 'grad_norm': 0.5721330642700195, 'learning_rate': 2.9814666666666668e-05, 'epoch': 19.48}
+{'loss': 0.0369, 'grad_norm': 0.3947785794734955, 'learning_rate': 2.9814333333333334e-05, 'epoch': 19.48}
+{'loss': 0.0688, 'grad_norm': 0.4918561577796936, 'learning_rate': 2.9814000000000003e-05, 'epoch': 19.49}
+{'loss': 0.0445, 'grad_norm': 0.9153860807418823, 'learning_rate': 2.981366666666667e-05, 'epoch': 19.49}
+{'loss': 0.0213, 'grad_norm': 0.5050480961799622, 'learning_rate': 2.9813333333333335e-05, 'epoch': 19.49}
+{'loss': 0.0113, 'grad_norm': 0.28121042251586914, 'learning_rate': 2.9813e-05, 'epoch': 19.49}
+{'loss': 0.0162, 'grad_norm': 0.5272451043128967, 'learning_rate': 2.9812666666666667e-05, 'epoch': 19.49}
+{'loss': 0.0086, 'grad_norm': 0.29827800393104553, 'learning_rate': 2.9812333333333333e-05, 'epoch': 19.49}
+{'loss': 0.0139, 'grad_norm': 0.19304965436458588, 'learning_rate': 2.9812000000000002e-05, 'epoch': 19.5}
+{'loss': 0.0164, 'grad_norm': 0.440072625875473, 'learning_rate': 2.9811666666666664e-05, 'epoch': 19.5}
+{'loss': 0.0073, 'grad_norm': 0.16277796030044556, 'learning_rate': 2.9811333333333334e-05, 'epoch': 19.5}
+{'loss': 0.0063, 'grad_norm': 0.22500938177108765, 'learning_rate': 2.9811000000000003e-05, 'epoch': 19.5}
+{'loss': 0.0084, 'grad_norm': 0.20329682528972626, 'learning_rate': 2.9810666666666666e-05, 'epoch': 19.5}
+{'loss': 0.0118, 'grad_norm': 0.5552082657814026, 'learning_rate': 2.9810333333333335e-05, 'epoch': 19.51}
+{'loss': 0.0174, 'grad_norm': 0.4801299273967743, 'learning_rate': 2.981e-05, 'epoch': 19.51}
+{'loss': 0.0325, 'grad_norm': 0.6265919208526611, 'learning_rate': 2.9809666666666667e-05, 'epoch': 19.51}
+{'loss': 0.0067, 'grad_norm': 0.24671681225299835, 'learning_rate': 2.9809333333333333e-05, 'epoch': 19.51}
+{'loss': 0.0059, 'grad_norm': 0.28970077633857727, 'learning_rate': 2.9809000000000002e-05, 'epoch': 19.51}
+{'loss': 0.0088, 'grad_norm': 0.24169009923934937, 'learning_rate': 2.9808666666666665e-05, 'epoch': 19.52}
+{'loss': 0.0058, 'grad_norm': 0.2239508479833603, 'learning_rate': 2.9808333333333334e-05, 'epoch': 19.52}
+{'loss': 0.0085, 'grad_norm': 0.3484097719192505, 'learning_rate': 2.9808000000000003e-05, 'epoch': 19.52}
+{'loss': 0.0077, 'grad_norm': 0.35717564821243286, 'learning_rate': 2.9807666666666666e-05, 'epoch': 19.52}
+{'loss': 0.0074, 'grad_norm': 0.30840328335762024, 'learning_rate': 2.9807333333333335e-05, 'epoch': 19.52}
+{'loss': 0.0137, 'grad_norm': 0.3130101263523102, 'learning_rate': 2.9807e-05, 'epoch': 19.52}
+{'loss': 0.0114, 'grad_norm': 0.3575838506221771, 'learning_rate': 2.9806666666666667e-05, 'epoch': 19.53}
+{'loss': 0.0052, 'grad_norm': 0.2482454925775528, 'learning_rate': 2.9806333333333333e-05, 'epoch': 19.53}
+{'loss': 0.0395, 'grad_norm': 0.4640428125858307, 'learning_rate': 2.9806000000000002e-05, 'epoch': 19.53}
+{'loss': 0.0148, 'grad_norm': 0.5307456851005554, 'learning_rate': 2.9805666666666668e-05, 'epoch': 19.53}
+{'loss': 0.0129, 'grad_norm': 0.583564281463623, 'learning_rate': 2.9805333333333334e-05, 'epoch': 19.53}
+{'loss': 0.0093, 'grad_norm': 0.4926765561103821, 'learning_rate': 2.9805000000000003e-05, 'epoch': 19.54}
+{'loss': 0.0101, 'grad_norm': 0.5021626949310303, 'learning_rate': 2.9804666666666666e-05, 'epoch': 19.54}
+{'loss': 0.0085, 'grad_norm': 0.36017680168151855, 'learning_rate': 2.9804333333333335e-05, 'epoch': 19.54}
+{'loss': 0.0115, 'grad_norm': 0.6824921369552612, 'learning_rate': 2.9804e-05, 'epoch': 19.54}
+{'loss': 0.014, 'grad_norm': 0.5039044618606567, 'learning_rate': 2.9803666666666667e-05, 'epoch': 19.54}
+{'loss': 0.0114, 'grad_norm': 0.6053094267845154, 'learning_rate': 2.9803333333333333e-05, 'epoch': 19.54}
+{'loss': 0.0129, 'grad_norm': 0.48566383123397827, 'learning_rate': 2.9803e-05, 'epoch': 19.55}
+{'loss': 0.0178, 'grad_norm': 0.609473705291748, 'learning_rate': 2.980266666666667e-05, 'epoch': 19.55}
+{'loss': 0.0345, 'grad_norm': 0.6189708113670349, 'learning_rate': 2.9802333333333334e-05, 'epoch': 19.55}
+{'loss': 0.0121, 'grad_norm': 0.3618892729282379, 'learning_rate': 2.9802e-05, 'epoch': 19.55}
+{'loss': 0.0184, 'grad_norm': 0.42415696382522583, 'learning_rate': 2.9801666666666666e-05, 'epoch': 19.55}
+{'loss': 0.1555, 'grad_norm': 0.5935088992118835, 'learning_rate': 2.9801333333333336e-05, 'epoch': 19.56}
+{'loss': 0.1726, 'grad_norm': 0.6377758979797363, 'learning_rate': 2.9800999999999998e-05, 'epoch': 19.56}
+{'loss': 0.1333, 'grad_norm': 0.6348208785057068, 'learning_rate': 2.9800666666666667e-05, 'epoch': 19.56}
+{'loss': 0.0984, 'grad_norm': 0.4387953579425812, 'learning_rate': 2.9800333333333333e-05, 'epoch': 19.56}
+{'loss': 0.078, 'grad_norm': 0.3931863307952881, 'learning_rate': 2.98e-05, 'epoch': 19.56}
+{'loss': 0.0909, 'grad_norm': 0.4532827138900757, 'learning_rate': 2.979966666666667e-05, 'epoch': 19.57}
+{'loss': 0.0949, 'grad_norm': 0.4221654236316681, 'learning_rate': 2.9799333333333335e-05, 'epoch': 19.57}
+{'loss': 0.0448, 'grad_norm': 0.4770489037036896, 'learning_rate': 2.9799e-05, 'epoch': 19.57}
+{'loss': 0.0767, 'grad_norm': 0.4773814380168915, 'learning_rate': 2.9798666666666666e-05, 'epoch': 19.57}
+{'loss': 0.0507, 'grad_norm': 0.504423975944519, 'learning_rate': 2.9798333333333336e-05, 'epoch': 19.57}
+{'loss': 0.0608, 'grad_norm': 0.6374596953392029, 'learning_rate': 2.9797999999999998e-05, 'epoch': 19.57}
+{'loss': 0.0768, 'grad_norm': 0.4656340479850769, 'learning_rate': 2.9797666666666668e-05, 'epoch': 19.58}
+ 11%|█         | 10611/100000 [5:48:24<57:14:09,  2.31s/it] 11%|█         | 10612/100000 [5:48:25<53:23:22,  2.15s/it]                                                            11%|█         | 10612/100000 [5:48:26<53:23:22,  2.15s/it] 11%|█         | 10613/100000 [5:48:27<50:17:02,  2.03s/it]                                                            11%|█         | 10613/100000 [5:48:27<50:17:02,  2.03s/it] 11%|█         | 10614/100000 [5:48:29<47:38:20,  1.92s/it]                                                            11%|█         | 10614/100000 [5:48:29<47:38:20,  1.92s/it] 11%|█         | 10615/100000 [5:48:30<45:14:59,  1.82s/it]                                                            11%|█         | 10615/100000 [5:48:31<45:14:59,  1.82s/it] 11%|█         | 10616/100000 [5:48:32<43:37:14,  1.76s/it]                                                            11%|█         | 10616/100000 [5:48:32<43:37:14,  1.76s/it] 11%|█         | 10617/100000 [5:48:34<42:02:15,  1.69s/it]                                                            11%|█         | 10617/100000 [5:48:34<42:02:15,  1.69s/it] 11%|█         | 10618/100000 [5:48:35<40:11:50,  1.62s/it]                                                            11%|█         | 10618/100000 [5:48:35<40:11:50,  1.62s/it] 11%|█         | 10619/100000 [5:48:37<38:40:53,  1.56s/it]                                                            11%|█         | 10619/100000 [5:48:37<38:40:53,  1.56s/it] 11%|█         | 10620/100000 [5:48:38<37:42:51,  1.52s/it]                                                            11%|█         | 10620/100000 [5:48:38<37:42:51,  1.52s/it] 11%|█         | 10621/100000 [5:48:39<36:51:21,  1.48s/it]                                                            11%|█         | 10621/100000 [5:48:39<36:51:21,  1.48s/it] 11%|█         | 10622/100000 [5:48:41<35:53:39,  1.45s/it]                                                            11%|█         | 10622/100000 [5:48:41<35:53:39,  1.45s/it] 11%|█         | 10623/100000 [5:48:42<35:23:15,  1.43s/it]                                                            11%|█         | 10623/100000 [5:48:42<35:23:15,  1.43s/it] 11%|█         | 10624/100000 [5:48:43<34:27:43,  1.39s/it]                                                            11%|█         | 10624/100000 [5:48:43<34:27:43,  1.39s/it] 11%|█         | 10625/100000 [5:48:45<34:10:46,  1.38s/it]                                                            11%|█         | 10625/100000 [5:48:45<34:10:46,  1.38s/it] 11%|█         | 10626/100000 [5:48:46<33:43:30,  1.36s/it]                                                            11%|█         | 10626/100000 [5:48:46<33:43:30,  1.36s/it] 11%|█         | 10627/100000 [5:48:47<33:13:41,  1.34s/it]                                                            11%|█         | 10627/100000 [5:48:47<33:13:41,  1.34s/it] 11%|█         | 10628/100000 [5:48:49<32:36:51,  1.31s/it]                                                            11%|█         | 10628/100000 [5:48:49<32:36:51,  1.31s/it] 11%|█         | 10629/100000 [5:48:50<32:11:20,  1.30s/it]                                                            11%|█         | 10629/100000 [5:48:50<32:11:20,  1.30s/it] 11%|█         | 10630/100000 [5:48:51<31:43:19,  1.28s/it]                                                            11%|█         | 10630/100000 [5:48:51<31:43:19,  1.28s/it] 11%|█         | 10631/100000 [5:48:52<31:21:53,  1.26s/it]                                                            11%|█         | 10631/100000 [5:48:52<31:21:53,  1.26s/it] 11%|█         | 10632/100000 [5:48:54<31:00:29,  1.25s/it]                                                            11%|█         | 10632/100000 [5:48:54<31:00:29,  1.25s/it] 11%|█         | 10633/100000 [5:48:55<30:26:10,  1.23s/it]                                                            11%|█         | 10633/100000 [5:48:55<30:26:10,  1.23s/it] 11%|█         | 10634/100000 [5:48:56<29:56:00,  1.21s/it]                                                            11%|█         | 10634/100000 [5:48:56<29:56:00,  1.21s/it] 11%|█         | 10635/100000 [5:48:57<29:20:55,  1.18s/it]                                                            11%|█         | 10635/100000 [5:48:57<29:20:55,  1.18s/it] 11%|█         | 10636/100000 [5:48:58<28:57:31,  1.17s/it]                                                            11%|█         | 10636/100000 [5:48:58<28:57:31,  1.17s/it] 11%|█         | 10637/100000 [5:48:59<28:34:58,  1.15s/it]                                                            11%|█         | 10637/100000 [5:48:59<28:34:58,  1.15s/it] 11%|█         | 10638/100000 [5:49:00<28:15:35,  1.14s/it]                                                            11%|█         | 10638/100000 [5:49:00<28:15:35,  1.14s/it] 11%|█         | 10639/100000 [5:49:01<27:54:59,  1.12s/it]                                                            11%|█         | 10639/100000 [5:49:01<27:54:59,  1.12s/it] 11%|█         | 10640/100000 [5:49:03<27:33:52,  1.11s/it]                                                            11%|█         | 10640/100000 [5:49:03<27:33:52,  1.11s/it] 11%|█         | 10641/100000 [5:49:04<27:09:02,  1.09s/it]                                                            11%|█         | 10641/100000 [5:49:04<27:09:02,  1.09s/it] 11%|█         | 10642/100000 [5:49:05<26:43:14,  1.08s/it]                                                            11%|█         | 10642/100000 [5:49:05<26:43:14,  1.08s/it] 11%|█         | 10643/100000 [5:49:06<26:03:25,  1.05s/it]                                                            11%|█         | 10643/100000 [5:49:06<26:03:25,  1.05s/it] 11%|█         | 10644/100000 [5:49:07<25:29:30,  1.03s/it]                                                            11%|█         | 10644/100000 [5:49:07<25:29:30,  1.03s/it] 11%|█         | 10645/100000 [5:49:08<25:10:47,  1.01s/it]                                                            11%|█         | 10645/100000 [5:49:08<25:10:47,  1.01s/it] 11%|█         | 10646/100000 [5:49:08<24:35:16,  1.01it/s]                                                            11%|█         | 10646/100000 [5:49:08<24:35:16,  1.01it/s] 11%|█         | 10647/100000 [5:49:09<23:54:41,  1.04it/s]                                                            11%|█         | 10647/100000 [5:49:09<23:54:41,  1.04it/s] 11%|█         | 10648/100000 [5:49:10<23:06:52,  1.07it/s]                                                            11%|█         | 10648/100000 [5:49:10<23:06:52,  1.07it/s] 11%|█         | 10649/100000 [5:49:21<94:47:35,  3.82s/it]                                                            11%|█         | 10649/100000 [5:49:21<94:47:35,  3.82s/it] 11%|█         | 10650/100000 [5:49:27<110:35:26,  4.46s/it]                                                             11%|█         | 10650/100000 [5:49:27<110:35:26,  4.46s/it] 11%|█         | 10651/100000 [5:49:31<110:33:45,  4.45s/it]                                                             11%|█         | 10651/100000 [5:49:31<110:33:45,  4.45s/it] 11%|█         | 10652/100000 [5:49:35<107:59:13,  4.35s/it]                                                             11%|█         | 10652/100000 [5:49:35<107:59:13,  4.35s/it] 11%|█         | 10653/100000 [5:49:39<102:43:48,  4.14s/it]                                                             11%|█         | 10653/100000 [5:49:39<102:43:48,  4.14s/it] 11%|█         | 10654/100000 [5:49:42<96:03:06,  3.87s/it]                                                             11%|█         | 10654/100000 [5:49:42<96:03:06,  3.87s/it] 11%|█         | 10655/100000 [5:49:45<89:35:47,  3.61s/it]                                                            11%|█         | 10655/100000 [5:49:45<89:35:47,  3.61s/it] 11%|█         | 10656/100000 [5:49:48<83:17:44,  3.36s/it]                                                            11%|█         | 10656/100000 [5:49:48<83:17:44,  3.36s/it] 11%|█         | 10657/100000 [5:49:50<76:36:07,  3.09s/it]                                                            11%|█         | 10657/100000 [5:49:50<76:36:07,  3.09s/it] 11%|█         | 10658/100000 [5:49:53<70:58:20,  2.86s/it]                                                            11%|█         | 10658/100000 [5:49:53<70:58:20,  2.86s/it] 11%|█         | 10659/100000 [5:49:55<66:28:20,  2.68s/it]                                                            11%|█         | 10659/100000 [5:49:55<66:28:20,  2.68s/it] 11%|█         | 10660/100000 [5:49:57<62:11:37,  2.51s/it]                                                            11%|█         | 10660/100000 [5:49:57<62:11:37,  2.51s/it] 11%|█         | 10661/100000 [5:49:59<58:16:10,  2.35s/it]                                                            11%|█         | 10661/100000 [5:49:59<58:16:10,  2.35s/it] 11%|█         | 10662/100000 [5:50:01<54:20:53,  2.19s/it]                                                            11%|█         | 10662/100000 [5:50:01<54:20:53,  2.19s/it] 11%|█         | 10663/100000 [5:50:03<51:17:11,  2.07s/it]                                                            11%|█         | 10663/100000 [5:50:03<51:17:11,  2.07s/it] 11%|█         | 10664/100000 [5:50:04<48:13:13,  1.94s/it]                                                            11%|█         | 10664/100000 [5:50:04<48:13:13,  1.94s/it] 11%|█         | 10665/100000 [5:50:06<46:06:14,  1.86s/it]                                                            11%|█         | 10665/100000 [5:50:06<46:06:14,  1.86s/it] 11%|█         | 10666/100000 [5:50:08<43:43:36,  1.76s/it]                                                            11%|█         | 10666/100000 [5:50:08<43:43:36,  1.76s/it] 11%|█         | 10667/100000 [5:50:09<42:31:44,  1.71s/it]                                                            11%|█         | 10667/100000 [5:50:09<42:31:44,  1.71s/it] 11%|█         | 10668/100000 [5:50:11<40:55:07,  1.65s/it]                                                            11%|█         | 10668/100000 [5:50:11<40:55:07,  1.65s/it] 11%|█         | 10669/100000 [5:50:12<39:18:37,  1.58s/it]                                                            11%|█         | 10669/100000 [5:50:12<39:18:37,  1.58s/it] 11%|█         | 10670/100000 [5:50:14<38:19:45,  1.54s/it]                                                            11%|█         | 10670/100000 [5:50:14<38:19:45,  1.54s/it] 11%|█         | 10671/100000 [5:50:15<37:22:33,  1.51s/it]                                                            11%|█         | 10671/100000 [5:50:15<37:22:33,  1.51s/it] 11%|█         | 10672/100000 [5:50:16<35:59:58,  1.45s/it]                                                            11%|█         | 10672/100000 [5:50:16<35:59:58,  1.45s/it] 11%|█         | 10673/100000 [5:50:18<35:33:23,  1.43s/it]                                                            11%|█         | 10673/100000 [5:50:18<35:33:23,  1.43s/it] 11%|█         | 10674/100000 [5:50:19<34:56:42,  1.41s/it]                                                            11%|█         | 10674/100000 [5:50:19<34:56:42,  1.41s/it] 11%|█         | 10675/100000 [5:50:20<34:16:26,  1.38s/it]                                                            11%|█         | 10675/100000 [5:50:20<34:16:26,  1.38s/it] 11%|█         | 10676/100000 [5:50:22<33:31:26,  1.35s/it]                                                            11%|█         | 10676/100000 [5:50:22<33:31:26,  1.35s/it] 11%|█         | 10677/100000 [5:50:23<33:14:50,  1.34s/it]                                                            11%|█         | 10677/100000 [5:50:23<33:14:50,  1.34s/it] 11%|█         | 10678/100000 [5:50:24<32:37:33,  1.31s/it]                                                            11%|█         | 10678/100000 [5:50:24<32:37:33,  1.31s/it] 11%|█         | 10679/100000 [5:50:25<32:05:44,  1.29s/it]                                                            11%|█         | 10679/100000 [5:50:25<32:05:44,  1.29s/it] 11%|█         | 10680/100000 [5:50:27<31:31:29,  1.27s/it]                                                            11%|█         | 10680/100000 [5:50:27<31:31:29,  1.27s/it] 11%|█         | 10681/100000 [5:50:28<31:11:57,  1.26s/it]                                                            11%|█         | 10681/100000 [5:50:28<31:11:57,  1.26s/it] 11%|█         | 10682/100000 [5:50:29<30:58:28,  1.25s/it]                                                            11%|█         | 10682/100000 [5:50:29<30:58:28,  1.25s/it] 11%|█         | 10683/100000 [5:50:30<30:15:58,  1.22s/it]                                                            11%|█         | 10683/100000 [5:50:30<30:15:58,  1.22s/it] 11%|█         | 10684/100000 [5:50:31<29:44:51,  1.20s/it]                                                            11%|█         | 10684/100000 [5:50:31<29:44:51,  1.20s/it] 11%|█         | 10685/100000 [5:50:33<29:10:29,  1.18s/it]                                                            11%|█         | 10685/100000 [5:50:33<29:10:29,  1.18s/it] 11%|█         | 10686/100000 [5:50:34<28:50:16,  1.16s/it]                                                            11%|█         | 10686/100000 [5:50:34<28:50:16,  1.16s/it] 11%|█         | 10687/100000 [5:50:35<28:36:34,  1.15s/it]                                                            11%|█         | 10687/100000 [5:50:35<28:36:34,  1.15s/it] 11%|█         | 10688/100000 [5:50:36<27:59:51,  1.13s/it]                                                            11%|█         | 10688/100000 [5:50:36<27:59:51,  1.13s/it] 11%|█         | 10689/100000 [5:50:37<27:31:45,  1.11s/it]                                                           {'loss': 0.0287, 'grad_norm': 0.8195959329605103, 'learning_rate': 2.9797333333333337e-05, 'epoch': 19.58}
+{'loss': 0.0167, 'grad_norm': 0.2056460976600647, 'learning_rate': 2.9797e-05, 'epoch': 19.58}
+{'loss': 0.0303, 'grad_norm': 0.33398884534835815, 'learning_rate': 2.979666666666667e-05, 'epoch': 19.58}
+{'loss': 0.0335, 'grad_norm': 0.37782248854637146, 'learning_rate': 2.9796333333333335e-05, 'epoch': 19.58}
+{'loss': 0.0159, 'grad_norm': 0.2887199819087982, 'learning_rate': 2.9796e-05, 'epoch': 19.59}
+{'loss': 0.0184, 'grad_norm': 0.3071005046367645, 'learning_rate': 2.9795666666666667e-05, 'epoch': 19.59}
+{'loss': 0.0149, 'grad_norm': 0.3234884738922119, 'learning_rate': 2.9795333333333336e-05, 'epoch': 19.59}
+{'loss': 0.0044, 'grad_norm': 0.12488967925310135, 'learning_rate': 2.9795e-05, 'epoch': 19.59}
+{'loss': 0.0404, 'grad_norm': 0.2693093717098236, 'learning_rate': 2.9794666666666668e-05, 'epoch': 19.59}
+{'loss': 0.0104, 'grad_norm': 0.3381086587905884, 'learning_rate': 2.9794333333333337e-05, 'epoch': 19.59}
+{'loss': 0.0143, 'grad_norm': 0.5766419172286987, 'learning_rate': 2.9794e-05, 'epoch': 19.6}
+{'loss': 0.0057, 'grad_norm': 0.15342627465724945, 'learning_rate': 2.979366666666667e-05, 'epoch': 19.6}
+{'loss': 0.0134, 'grad_norm': 0.5277054309844971, 'learning_rate': 2.979333333333333e-05, 'epoch': 19.6}
+{'loss': 0.0079, 'grad_norm': 0.19860132038593292, 'learning_rate': 2.9793e-05, 'epoch': 19.6}
+{'loss': 0.0112, 'grad_norm': 0.4835110008716583, 'learning_rate': 2.9792666666666667e-05, 'epoch': 19.6}
+{'loss': 0.0431, 'grad_norm': 0.26355403661727905, 'learning_rate': 2.9792333333333333e-05, 'epoch': 19.61}
+{'loss': 0.0167, 'grad_norm': 0.4434733986854553, 'learning_rate': 2.9792e-05, 'epoch': 19.61}
+{'loss': 0.02, 'grad_norm': 0.5944486260414124, 'learning_rate': 2.9791666666666668e-05, 'epoch': 19.61}
+{'loss': 0.0188, 'grad_norm': 0.49193495512008667, 'learning_rate': 2.9791333333333334e-05, 'epoch': 19.61}
+{'loss': 0.0112, 'grad_norm': 0.5033032298088074, 'learning_rate': 2.9791e-05, 'epoch': 19.61}
+{'loss': 0.0142, 'grad_norm': 0.4277038872241974, 'learning_rate': 2.979066666666667e-05, 'epoch': 19.61}
+{'loss': 0.0051, 'grad_norm': 0.20894268155097961, 'learning_rate': 2.9790333333333332e-05, 'epoch': 19.62}
+{'loss': 0.0087, 'grad_norm': 0.22185315191745758, 'learning_rate': 2.979e-05, 'epoch': 19.62}
+{'loss': 0.0075, 'grad_norm': 0.26102548837661743, 'learning_rate': 2.9789666666666667e-05, 'epoch': 19.62}
+{'loss': 0.0062, 'grad_norm': 0.5750803351402283, 'learning_rate': 2.9789333333333333e-05, 'epoch': 19.62}
+{'loss': 0.0078, 'grad_norm': 0.19431185722351074, 'learning_rate': 2.9789000000000002e-05, 'epoch': 19.62}
+{'loss': 0.0333, 'grad_norm': 1.0597251653671265, 'learning_rate': 2.9788666666666668e-05, 'epoch': 19.63}
+{'loss': 0.0161, 'grad_norm': 0.5158454775810242, 'learning_rate': 2.9788333333333334e-05, 'epoch': 19.63}
+{'loss': 0.0082, 'grad_norm': 0.33750757575035095, 'learning_rate': 2.9788e-05, 'epoch': 19.63}
+{'loss': 0.0166, 'grad_norm': 0.5329627990722656, 'learning_rate': 2.978766666666667e-05, 'epoch': 19.63}
+{'loss': 0.0176, 'grad_norm': 0.7116667628288269, 'learning_rate': 2.9787333333333332e-05, 'epoch': 19.63}
+{'loss': 0.0074, 'grad_norm': 0.2800839841365814, 'learning_rate': 2.9787e-05, 'epoch': 19.64}
+{'loss': 0.0205, 'grad_norm': 0.556308925151825, 'learning_rate': 2.9786666666666667e-05, 'epoch': 19.64}
+{'loss': 0.0147, 'grad_norm': 0.8026602864265442, 'learning_rate': 2.9786333333333333e-05, 'epoch': 19.64}
+{'loss': 0.0106, 'grad_norm': 0.4995995759963989, 'learning_rate': 2.9786000000000002e-05, 'epoch': 19.64}
+{'loss': 0.0162, 'grad_norm': 0.556323230266571, 'learning_rate': 2.978566666666667e-05, 'epoch': 19.64}
+{'loss': 0.0109, 'grad_norm': 0.5479616522789001, 'learning_rate': 2.9785333333333334e-05, 'epoch': 19.64}
+{'loss': 0.0098, 'grad_norm': 0.9250813126564026, 'learning_rate': 2.9785e-05, 'epoch': 19.65}
+{'loss': 0.2004, 'grad_norm': 1.283340334892273, 'learning_rate': 2.978466666666667e-05, 'epoch': 19.65}
+{'loss': 0.217, 'grad_norm': 0.6739901900291443, 'learning_rate': 2.9784333333333332e-05, 'epoch': 19.65}
+{'loss': 0.1042, 'grad_norm': 0.5376523733139038, 'learning_rate': 2.9784e-05, 'epoch': 19.65}
+{'loss': 0.1006, 'grad_norm': 0.7716366648674011, 'learning_rate': 2.9783666666666667e-05, 'epoch': 19.65}
+{'loss': 0.0795, 'grad_norm': 0.4473935663700104, 'learning_rate': 2.9783333333333333e-05, 'epoch': 19.66}
+{'loss': 0.0708, 'grad_norm': 0.47197431325912476, 'learning_rate': 2.9783000000000003e-05, 'epoch': 19.66}
+{'loss': 0.0684, 'grad_norm': 0.530225396156311, 'learning_rate': 2.9782666666666665e-05, 'epoch': 19.66}
+{'loss': 0.0747, 'grad_norm': 0.3782411813735962, 'learning_rate': 2.9782333333333335e-05, 'epoch': 19.66}
+{'loss': 0.0515, 'grad_norm': 0.5400944352149963, 'learning_rate': 2.9782e-05, 'epoch': 19.66}
+{'loss': 0.0601, 'grad_norm': 0.6011316776275635, 'learning_rate': 2.9781666666666666e-05, 'epoch': 19.66}
+{'loss': 0.037, 'grad_norm': 0.38033759593963623, 'learning_rate': 2.9781333333333332e-05, 'epoch': 19.67}
+{'loss': 0.0573, 'grad_norm': 0.3871672451496124, 'learning_rate': 2.9781e-05, 'epoch': 19.67}
+{'loss': 0.048, 'grad_norm': 0.35777178406715393, 'learning_rate': 2.9780666666666668e-05, 'epoch': 19.67}
+{'loss': 0.0589, 'grad_norm': 0.4704509675502777, 'learning_rate': 2.9780333333333334e-05, 'epoch': 19.67}
+{'loss': 0.078, 'grad_norm': 2.055455207824707, 'learning_rate': 2.9780000000000003e-05, 'epoch': 19.67}
+{'loss': 0.0214, 'grad_norm': 0.25962790846824646, 'learning_rate': 2.9779666666666665e-05, 'epoch': 19.68}
+{'loss': 0.0127, 'grad_norm': 0.2785275876522064, 'learning_rate': 2.9779333333333335e-05, 'epoch': 19.68}
+{'loss': 0.0133, 'grad_norm': 0.37023863196372986, 'learning_rate': 2.9779e-05, 'epoch': 19.68}
+{'loss': 0.0324, 'grad_norm': 0.40001484751701355, 'learning_rate': 2.9778666666666667e-05, 'epoch': 19.68}
+{'loss': 0.0163, 'grad_norm': 0.26877978444099426, 'learning_rate': 2.9778333333333333e-05, 'epoch': 19.68}
+{'loss': 0.0141, 'grad_norm': 0.33660438656806946, 'learning_rate': 2.9778000000000002e-05, 'epoch': 19.69}
+{'loss': 0.0151, 'grad_norm': 0.3006255328655243, 'learning_rate': 2.9777666666666668e-05, 'epoch': 19.69}
+{'loss': 0.0268, 'grad_norm': 0.6988603472709656, 'learning_rate': 2.9777333333333334e-05, 'epoch': 19.69}
+{'loss': 0.009, 'grad_norm': 0.4372357428073883, 'learning_rate': 2.9777000000000003e-05, 'epoch': 19.69}
+{'loss': 0.0234, 'grad_norm': 0.9028867483139038, 'learning_rate': 2.9776666666666666e-05, 'epoch': 19.69}
+{'loss': 0.0181, 'grad_norm': 0.6994834542274475, 'learning_rate': 2.9776333333333335e-05, 'epoch': 19.69}
+{'loss': 0.0125, 'grad_norm': 1.2151726484298706, 'learning_rate': 2.9776e-05, 'epoch': 19.7}
+{'loss': 0.0095, 'grad_norm': 0.18534334003925323, 'learning_rate': 2.9775666666666667e-05, 'epoch': 19.7}
+{'loss': 0.0119, 'grad_norm': 0.21873116493225098, 'learning_rate': 2.9775333333333333e-05, 'epoch': 19.7}
+{'loss': 0.0103, 'grad_norm': 0.40969711542129517, 'learning_rate': 2.9775000000000002e-05, 'epoch': 19.7}
+{'loss': 0.0238, 'grad_norm': 0.5559830069541931, 'learning_rate': 2.9774666666666668e-05, 'epoch': 19.7}
+{'loss': 0.0146, 'grad_norm': 0.5412967205047607, 'learning_rate': 2.9774333333333334e-05, 'epoch': 19.71}
+{'loss': 0.0044, 'grad_norm': 0.12473435699939728, 'learning_rate': 2.9774000000000003e-05, 'epoch': 19.71}
+{'loss': 0.0134, 'grad_norm': 0.586225688457489, 'learning_rate': 2.9773666666666666e-05, 'epoch': 19.71}
+{'loss': 0.0173, 'grad_norm': 0.44378283619880676, 'learning_rate': 2.9773333333333335e-05, 'epoch': 19.71}
+{'loss': 0.0213, 'grad_norm': 0.5063177943229675, 'learning_rate': 2.9772999999999998e-05, 'epoch': 19.71}
+{'loss': 0.0101, 'grad_norm': 0.5654175281524658, 'learning_rate': 2.9772666666666667e-05, 'epoch': 19.71}
+{'loss': 0.007, 'grad_norm': 0.222188800573349, 'learning_rate': 2.9772333333333336e-05, 'epoch': 19.72}
+{'loss': 0.0122, 'grad_norm': 0.448893666267395, 'learning_rate': 2.9772e-05, 'epoch': 19.72}
+{'loss': 0.0169, 'grad_norm': 1.0693613290786743, 'learning_rate': 2.9771666666666668e-05, 'epoch': 19.72}
+ 11%|█         | 10689/100000 [5:50:37<27:31:45,  1.11s/it] 11%|█         | 10690/100000 [5:50:38<27:24:15,  1.10s/it]                                                            11%|█         | 10690/100000 [5:50:38<27:24:15,  1.10s/it] 11%|█         | 10691/100000 [5:50:39<27:00:57,  1.09s/it]                                                            11%|█         | 10691/100000 [5:50:39<27:00:57,  1.09s/it] 11%|█         | 10692/100000 [5:50:40<26:35:48,  1.07s/it]                                                            11%|█         | 10692/100000 [5:50:40<26:35:48,  1.07s/it] 11%|█         | 10693/100000 [5:50:41<26:05:46,  1.05s/it]                                                            11%|█         | 10693/100000 [5:50:41<26:05:46,  1.05s/it] 11%|█         | 10694/100000 [5:50:42<25:34:04,  1.03s/it]                                                            11%|█         | 10694/100000 [5:50:42<25:34:04,  1.03s/it] 11%|█         | 10695/100000 [5:50:43<25:03:43,  1.01s/it]                                                            11%|█         | 10695/100000 [5:50:43<25:03:43,  1.01s/it] 11%|█         | 10696/100000 [5:50:44<24:42:46,  1.00it/s]                                                            11%|█         | 10696/100000 [5:50:44<24:42:46,  1.00it/s] 11%|█         | 10697/100000 [5:50:45<24:02:16,  1.03it/s]                                                            11%|█         | 10697/100000 [5:50:45<24:02:16,  1.03it/s] 11%|█         | 10698/100000 [5:50:46<23:10:46,  1.07it/s]                                                            11%|█         | 10698/100000 [5:50:46<23:10:46,  1.07it/s] 11%|█         | 10699/100000 [5:50:56<93:15:51,  3.76s/it]                                                            11%|█         | 10699/100000 [5:50:56<93:15:51,  3.76s/it] 11%|█         | 10700/100000 [5:51:02<108:04:45,  4.36s/it]                                                             11%|█         | 10700/100000 [5:51:02<108:04:45,  4.36s/it] 11%|█         | 10701/100000 [5:51:07<111:07:42,  4.48s/it]                                                             11%|█         | 10701/100000 [5:51:07<111:07:42,  4.48s/it] 11%|█         | 10702/100000 [5:51:10<106:37:29,  4.30s/it]                                                             11%|█         | 10702/100000 [5:51:11<106:37:29,  4.30s/it] 11%|█         | 10703/100000 [5:51:14<102:08:58,  4.12s/it]                                                             11%|█         | 10703/100000 [5:51:14<102:08:58,  4.12s/it] 11%|█         | 10704/100000 [5:51:18<96:15:08,  3.88s/it]                                                             11%|█         | 10704/100000 [5:51:18<96:15:08,  3.88s/it] 11%|█         | 10705/100000 [5:51:21<89:52:58,  3.62s/it]                                                            11%|█         | 10705/100000 [5:51:21<89:52:58,  3.62s/it] 11%|█         | 10706/100000 [5:51:23<83:47:28,  3.38s/it]                                                            11%|█         | 10706/100000 [5:51:23<83:47:28,  3.38s/it] 11%|█         | 10707/100000 [5:51:26<77:45:26,  3.13s/it]                                                            11%|█         | 10707/100000 [5:51:26<77:45:26,  3.13s/it] 11%|█         | 10708/100000 [5:51:28<72:09:52,  2.91s/it]                                                            11%|█         | 10708/100000 [5:51:28<72:09:52,  2.91s/it] 11%|█         | 10709/100000 [5:51:31<67:06:03,  2.71s/it]                                                            11%|█         | 10709/100000 [5:51:31<67:06:03,  2.71s/it] 11%|█         | 10710/100000 [5:51:33<62:41:00,  2.53s/it]                                                            11%|█         | 10710/100000 [5:51:33<62:41:00,  2.53s/it] 11%|█         | 10711/100000 [5:51:35<58:45:13,  2.37s/it]                                                            11%|█         | 10711/100000 [5:51:35<58:45:13,  2.37s/it] 11%|█         | 10712/100000 [5:51:37<55:30:52,  2.24s/it]                                                            11%|█         | 10712/100000 [5:51:37<55:30:52,  2.24s/it] 11%|█         | 10713/100000 [5:51:38<51:58:32,  2.10s/it]                                                            11%|█         | 10713/100000 [5:51:38<51:58:32,  2.10s/it] 11%|█         | 10714/100000 [5:51:40<49:10:14,  1.98s/it]                                                            11%|█         | 10714/100000 [5:51:40<49:10:14,  1.98s/it] 11%|█         | 10715/100000 [5:51:42<46:00:12,  1.85s/it]                                                            11%|█         | 10715/100000 [5:51:42<46:00:12,  1.85s/it] 11%|█         | 10716/100000 [5:51:43<43:57:30,  1.77s/it]                                                            11%|█         | 10716/100000 [5:51:43<43:57:30,  1.77s/it] 11%|█         | 10717/100000 [5:51:45<42:07:47,  1.70s/it]                                                            11%|█         | 10717/100000 [5:51:45<42:07:47,  1.70s/it] 11%|█         | 10718/100000 [5:51:46<40:47:49,  1.65s/it]                                                            11%|█         | 10718/100000 [5:51:46<40:47:49,  1.65s/it] 11%|█         | 10719/100000 [5:51:48<39:28:44,  1.59s/it]                                                            11%|█         | 10719/100000 [5:51:48<39:28:44,  1.59s/it] 11%|█         | 10720/100000 [5:51:49<38:15:54,  1.54s/it]                                                            11%|█         | 10720/100000 [5:51:49<38:15:54,  1.54s/it] 11%|█         | 10721/100000 [5:51:50<36:53:25,  1.49s/it]                                                            11%|█         | 10721/100000 [5:51:51<36:53:25,  1.49s/it] 11%|█         | 10722/100000 [5:51:52<36:24:23,  1.47s/it]                                                            11%|█         | 10722/100000 [5:51:52<36:24:23,  1.47s/it] 11%|█         | 10723/100000 [5:51:53<35:35:49,  1.44s/it]                                                            11%|█         | 10723/100000 [5:51:53<35:35:49,  1.44s/it] 11%|█         | 10724/100000 [5:51:55<35:10:00,  1.42s/it]                                                            11%|█         | 10724/100000 [5:51:55<35:10:00,  1.42s/it] 11%|█         | 10725/100000 [5:51:56<34:13:40,  1.38s/it]                                                            11%|█         | 10725/100000 [5:51:56<34:13:40,  1.38s/it] 11%|█         | 10726/100000 [5:51:57<33:39:31,  1.36s/it]                                                            11%|█         | 10726/100000 [5:51:57<33:39:31,  1.36s/it] 11%|█         | 10727/100000 [5:51:59<33:20:51,  1.34s/it]                                                            11%|█         | 10727/100000 [5:51:59<33:20:51,  1.34s/it] 11%|█         | 10728/100000 [5:52:00<32:46:24,  1.32s/it]                                                            11%|█         | 10728/100000 [5:52:00<32:46:24,  1.32s/it] 11%|█         | 10729/100000 [5:52:01<32:13:37,  1.30s/it]                                                            11%|█         | 10729/100000 [5:52:01<32:13:37,  1.30s/it] 11%|█         | 10730/100000 [5:52:02<31:51:31,  1.28s/it]                                                            11%|█         | 10730/100000 [5:52:02<31:51:31,  1.28s/it] 11%|█         | 10731/100000 [5:52:04<31:17:21,  1.26s/it]                                                            11%|█         | 10731/100000 [5:52:04<31:17:21,  1.26s/it] 11%|█         | 10732/100000 [5:52:05<31:01:00,  1.25s/it]                                                            11%|█         | 10732/100000 [5:52:05<31:01:00,  1.25s/it] 11%|█         | 10733/100000 [5:52:06<30:26:54,  1.23s/it]                                                            11%|█         | 10733/100000 [5:52:06<30:26:54,  1.23s/it] 11%|█         | 10734/100000 [5:52:07<29:40:52,  1.20s/it]                                                            11%|█         | 10734/100000 [5:52:07<29:40:52,  1.20s/it] 11%|█         | 10735/100000 [5:52:08<29:12:19,  1.18s/it]                                                            11%|█         | 10735/100000 [5:52:08<29:12:19,  1.18s/it] 11%|█         | 10736/100000 [5:52:09<28:35:41,  1.15s/it]                                                            11%|█         | 10736/100000 [5:52:09<28:35:41,  1.15s/it] 11%|█         | 10737/100000 [5:52:10<28:21:22,  1.14s/it]                                                            11%|█         | 10737/100000 [5:52:10<28:21:22,  1.14s/it] 11%|█         | 10738/100000 [5:52:12<28:11:52,  1.14s/it]                                                            11%|█         | 10738/100000 [5:52:12<28:11:52,  1.14s/it] 11%|█         | 10739/100000 [5:52:13<27:56:01,  1.13s/it]                                                            11%|█         | 10739/100000 [5:52:13<27:56:01,  1.13s/it] 11%|█         | 10740/100000 [5:52:14<27:25:34,  1.11s/it]                                                            11%|█         | 10740/100000 [5:52:14<27:25:34,  1.11s/it] 11%|█         | 10741/100000 [5:52:15<26:58:42,  1.09s/it]                                                            11%|█         | 10741/100000 [5:52:15<26:58:42,  1.09s/it] 11%|█         | 10742/100000 [5:52:16<26:33:59,  1.07s/it]                                                            11%|█         | 10742/100000 [5:52:16<26:33:59,  1.07s/it] 11%|█         | 10743/100000 [5:52:17<26:05:39,  1.05s/it]                                                            11%|█         | 10743/100000 [5:52:17<26:05:39,  1.05s/it] 11%|█         | 10744/100000 [5:52:18<25:34:45,  1.03s/it]                                                            11%|█         | 10744/100000 [5:52:18<25:34:45,  1.03s/it] 11%|█         | 10745/100000 [5:52:19<25:06:56,  1.01s/it]                                                            11%|█         | 10745/100000 [5:52:19<25:06:56,  1.01s/it] 11%|█         | 10746/100000 [5:52:20<24:43:07,  1.00it/s]                                                            11%|█         | 10746/100000 [5:52:20<24:43:07,  1.00it/s] 11%|█         | 10747/100000 [5:52:21<24:11:19,  1.02it/s]                                                            11%|█         | 10747/100000 [5:52:21<24:11:19,  1.02it/s] 11%|█         | 10748/100000 [5:52:22<23:37:17,  1.05it/s]                                                            11%|█         | 10748/100000 [5:52:22<23:37:17,  1.05it/s] 11%|█         | 10749/100000 [5:52:34<109:08:52,  4.40s/it]                                                             11%|█         | 10749/100000 [5:52:34<109:08:52,  4.40s/it] 11%|█         | 10750/100000 [5:52:40<120:35:55,  4.86s/it]                                                             11%|█         | 10750/100000 [5:52:40<120:35:55,  4.86s/it] 11%|█         | 10751/100000 [5:52:45<119:00:19,  4.80s/it]                                                             11%|█         | 10751/100000 [5:52:45<119:00:19,  4.80s/it] 11%|█         | 10752/100000 [5:52:49<113:04:31,  4.56s/it]                                                             11%|█         | 10752/100000 [5:52:49<113:04:31,  4.56s/it] 11%|█         | 10753/100000 [5:52:52<105:04:11,  4.24s/it]                                                             11%|█         | 10753/100000 [5:52:52<105:04:11,  4.24s/it] 11%|█         | 10754/100000 [5:52:55<97:08:55,  3.92s/it]                                                             11%|█         | 10754/100000 [5:52:55<97:08:55,  3.92s/it] 11%|█         | 10755/100000 [5:52:58<89:23:23,  3.61s/it]                                                            11%|█         | 10755/100000 [5:52:58<89:23:23,  3.61s/it] 11%|█         | 10756/100000 [5:53:01<81:59:46,  3.31s/it]                                                            11%|█         | 10756/100000 [5:53:01<81:59:46,  3.31s/it] 11%|█         | 10757/100000 [5:53:03<74:57:34,  3.02s/it]                                                            11%|█         | 10757/100000 [5:53:03<74:57:34,  3.02s/it] 11%|█         | 10758/100000 [5:53:05<69:35:00,  2.81s/it]                                                            11%|█         | 10758/100000 [5:53:05<69:35:00,  2.81s/it] 11%|█         | 10759/100000 [5:53:08<64:40:43,  2.61s/it]                                                            11%|█         | 10759/100000 [5:53:08<64:40:43,  2.61s/it] 11%|█         | 10760/100000 [5:53:10<60:35:08,  2.44s/it]                                                            11%|█         | 10760/100000 [5:53:10<60:35:08,  2.44s/it] 11%|█         | 10761/100000 [5:53:12<56:52:18,  2.29s/it]                                                            11%|█         | 10761/100000 [5:53:12<56:52:18,  2.29s/it] 11%|█         | 10762/100000 [5:53:13<53:37:29,  2.16s/it]                                                            11%|█         | 10762/100000 [5:53:13<53:37:29,  2.16s/it] 11%|█         | 10763/100000 [5:53:15<50:34:45,  2.04s/it]                                                            11%|█         | 10763/100000 [5:53:15<50:34:45,  2.04s/it] 11%|█         | 10764/100000 [5:53:17<47:54:44,  1.93s/it]                                                            11%|█         | 10764/100000 [5:53:17<47:54:44,  1.93s/it] 11%|█         | 10765/100000 [5:53:18<45:36:46,  1.84s/it]                                                            11%|█         | 10765/100000 [5:53:18<45:36:46,  1.84s/it] 11%|█         | 10766/100000 [5:53:20<43:44:32,  1.76s/it]                                                            11%|█         | 10766/100000 [5:53:20<43:44:32,  1.76s/it] 11%|█         | 10767/100000 [5:53:22<42:05:47,  1.70s/it]                                                           {'loss': 0.0113, 'grad_norm': 0.35767197608947754, 'learning_rate': 2.9771333333333334e-05, 'epoch': 19.72}
+{'loss': 0.023, 'grad_norm': 0.8080740571022034, 'learning_rate': 2.9771e-05, 'epoch': 19.72}
+{'loss': 0.0161, 'grad_norm': 0.4295150339603424, 'learning_rate': 2.9770666666666666e-05, 'epoch': 19.73}
+{'loss': 0.0109, 'grad_norm': 0.3795710802078247, 'learning_rate': 2.9770333333333335e-05, 'epoch': 19.73}
+{'loss': 0.0193, 'grad_norm': 0.45034053921699524, 'learning_rate': 2.9769999999999998e-05, 'epoch': 19.73}
+{'loss': 0.0115, 'grad_norm': 0.4286927878856659, 'learning_rate': 2.9769666666666667e-05, 'epoch': 19.73}
+{'loss': 0.0162, 'grad_norm': 0.556318461894989, 'learning_rate': 2.9769333333333337e-05, 'epoch': 19.73}
+{'loss': 0.0077, 'grad_norm': 0.20577329397201538, 'learning_rate': 2.9769e-05, 'epoch': 19.73}
+{'loss': 0.0067, 'grad_norm': 0.16284756362438202, 'learning_rate': 2.976866666666667e-05, 'epoch': 19.74}
+{'loss': 0.0343, 'grad_norm': 1.3887354135513306, 'learning_rate': 2.9768333333333334e-05, 'epoch': 19.74}
+{'loss': 0.1647, 'grad_norm': 0.5854371786117554, 'learning_rate': 2.9768e-05, 'epoch': 19.74}
+{'loss': 0.1378, 'grad_norm': 0.5120023488998413, 'learning_rate': 2.9767666666666666e-05, 'epoch': 19.74}
+{'loss': 0.1202, 'grad_norm': 0.46874797344207764, 'learning_rate': 2.9767333333333336e-05, 'epoch': 19.74}
+{'loss': 0.1216, 'grad_norm': 0.5347771644592285, 'learning_rate': 2.9766999999999998e-05, 'epoch': 19.75}
+{'loss': 0.0987, 'grad_norm': 0.5150458216667175, 'learning_rate': 2.9766666666666667e-05, 'epoch': 19.75}
+{'loss': 0.1145, 'grad_norm': 0.5133240818977356, 'learning_rate': 2.9766333333333337e-05, 'epoch': 19.75}
+{'loss': 0.068, 'grad_norm': 0.4530353844165802, 'learning_rate': 2.9766e-05, 'epoch': 19.75}
+{'loss': 0.0582, 'grad_norm': 0.3664388656616211, 'learning_rate': 2.976566666666667e-05, 'epoch': 19.75}
+{'loss': 0.0758, 'grad_norm': 0.6541823148727417, 'learning_rate': 2.9765333333333335e-05, 'epoch': 19.76}
+{'loss': 0.0526, 'grad_norm': 0.3894199728965759, 'learning_rate': 2.9765e-05, 'epoch': 19.76}
+{'loss': 0.0544, 'grad_norm': 0.6326406002044678, 'learning_rate': 2.9764666666666666e-05, 'epoch': 19.76}
+{'loss': 0.04, 'grad_norm': 0.5390200614929199, 'learning_rate': 2.9764333333333336e-05, 'epoch': 19.76}
+{'loss': 0.0276, 'grad_norm': 0.2868020534515381, 'learning_rate': 2.9764e-05, 'epoch': 19.76}
+{'loss': 0.0221, 'grad_norm': 0.364552766084671, 'learning_rate': 2.9763666666666668e-05, 'epoch': 19.76}
+{'loss': 0.0272, 'grad_norm': 0.4122895300388336, 'learning_rate': 2.9763333333333337e-05, 'epoch': 19.77}
+{'loss': 0.0507, 'grad_norm': 0.3642270863056183, 'learning_rate': 2.9763e-05, 'epoch': 19.77}
+{'loss': 0.0406, 'grad_norm': 0.30101460218429565, 'learning_rate': 2.976266666666667e-05, 'epoch': 19.77}
+{'loss': 0.0136, 'grad_norm': 0.27228695154190063, 'learning_rate': 2.976233333333333e-05, 'epoch': 19.77}
+{'loss': 0.0117, 'grad_norm': 0.3003411293029785, 'learning_rate': 2.9762e-05, 'epoch': 19.77}
+{'loss': 0.0123, 'grad_norm': 0.4910516142845154, 'learning_rate': 2.9761666666666667e-05, 'epoch': 19.78}
+{'loss': 0.0144, 'grad_norm': 0.27473193407058716, 'learning_rate': 2.9761333333333333e-05, 'epoch': 19.78}
+{'loss': 0.012, 'grad_norm': 0.20299680531024933, 'learning_rate': 2.9761000000000002e-05, 'epoch': 19.78}
+{'loss': 0.0071, 'grad_norm': 0.16587220132350922, 'learning_rate': 2.9760666666666668e-05, 'epoch': 19.78}
+{'loss': 0.0166, 'grad_norm': 0.6967406868934631, 'learning_rate': 2.9760333333333334e-05, 'epoch': 19.78}
+{'loss': 0.0105, 'grad_norm': 0.2570898234844208, 'learning_rate': 2.976e-05, 'epoch': 19.78}
+{'loss': 0.0115, 'grad_norm': 0.3881112337112427, 'learning_rate': 2.975966666666667e-05, 'epoch': 19.79}
+{'loss': 0.0127, 'grad_norm': 0.4173627495765686, 'learning_rate': 2.975933333333333e-05, 'epoch': 19.79}
+{'loss': 0.0142, 'grad_norm': 0.4523608684539795, 'learning_rate': 2.9759e-05, 'epoch': 19.79}
+{'loss': 0.0044, 'grad_norm': 0.1756921112537384, 'learning_rate': 2.9758666666666667e-05, 'epoch': 19.79}
+{'loss': 0.0079, 'grad_norm': 0.2844432592391968, 'learning_rate': 2.9758333333333333e-05, 'epoch': 19.79}
+{'loss': 0.0102, 'grad_norm': 0.2023969292640686, 'learning_rate': 2.9758000000000002e-05, 'epoch': 19.8}
+{'loss': 0.0088, 'grad_norm': 0.2869013249874115, 'learning_rate': 2.9757666666666668e-05, 'epoch': 19.8}
+{'loss': 0.0106, 'grad_norm': 0.2981497347354889, 'learning_rate': 2.9757333333333334e-05, 'epoch': 19.8}
+{'loss': 0.0142, 'grad_norm': 0.6983348727226257, 'learning_rate': 2.9757e-05, 'epoch': 19.8}
+{'loss': 0.0117, 'grad_norm': 0.28833532333374023, 'learning_rate': 2.975666666666667e-05, 'epoch': 19.8}
+{'loss': 0.0118, 'grad_norm': 0.5392321944236755, 'learning_rate': 2.9756333333333332e-05, 'epoch': 19.81}
+{'loss': 0.0104, 'grad_norm': 0.29473716020584106, 'learning_rate': 2.9756e-05, 'epoch': 19.81}
+{'loss': 0.0084, 'grad_norm': 0.24462805688381195, 'learning_rate': 2.975566666666667e-05, 'epoch': 19.81}
+{'loss': 0.0104, 'grad_norm': 0.20876191556453705, 'learning_rate': 2.9755333333333333e-05, 'epoch': 19.81}
+{'loss': 0.0134, 'grad_norm': 1.0548560619354248, 'learning_rate': 2.9755000000000002e-05, 'epoch': 19.81}
+{'loss': 0.0052, 'grad_norm': 0.18749235570430756, 'learning_rate': 2.9754666666666668e-05, 'epoch': 19.81}
+{'loss': 0.0073, 'grad_norm': 0.5859012603759766, 'learning_rate': 2.9754333333333334e-05, 'epoch': 19.82}
+{'loss': 0.0147, 'grad_norm': 0.3927551209926605, 'learning_rate': 2.9754e-05, 'epoch': 19.82}
+{'loss': 0.0089, 'grad_norm': 0.2841923236846924, 'learning_rate': 2.975366666666667e-05, 'epoch': 19.82}
+{'loss': 0.0128, 'grad_norm': 0.26941174268722534, 'learning_rate': 2.9753333333333332e-05, 'epoch': 19.82}
+{'loss': 0.0132, 'grad_norm': 0.32388725876808167, 'learning_rate': 2.9753e-05, 'epoch': 19.82}
+{'loss': 0.0159, 'grad_norm': 0.9663119316101074, 'learning_rate': 2.9752666666666667e-05, 'epoch': 19.83}
+{'loss': 0.0092, 'grad_norm': 0.2247830033302307, 'learning_rate': 2.9752333333333333e-05, 'epoch': 19.83}
+{'loss': 0.0068, 'grad_norm': 0.169455423951149, 'learning_rate': 2.9752000000000002e-05, 'epoch': 19.83}
+{'loss': 0.0156, 'grad_norm': 0.6221871972084045, 'learning_rate': 2.9751666666666665e-05, 'epoch': 19.83}
+{'loss': 0.186, 'grad_norm': 0.65969318151474, 'learning_rate': 2.9751333333333334e-05, 'epoch': 19.83}
+{'loss': 0.1271, 'grad_norm': 0.587780237197876, 'learning_rate': 2.9751e-05, 'epoch': 19.83}
+{'loss': 0.1059, 'grad_norm': 0.6122603416442871, 'learning_rate': 2.9750666666666666e-05, 'epoch': 19.84}
+{'loss': 0.1889, 'grad_norm': 0.9975597262382507, 'learning_rate': 2.9750333333333332e-05, 'epoch': 19.84}
+{'loss': 0.0773, 'grad_norm': 0.4894188940525055, 'learning_rate': 2.975e-05, 'epoch': 19.84}
+{'loss': 0.0746, 'grad_norm': 0.5466663837432861, 'learning_rate': 2.9749666666666667e-05, 'epoch': 19.84}
+{'loss': 0.0762, 'grad_norm': 0.44391313195228577, 'learning_rate': 2.9749333333333333e-05, 'epoch': 19.84}
+{'loss': 0.0869, 'grad_norm': 0.7194757461547852, 'learning_rate': 2.9749000000000003e-05, 'epoch': 19.85}
+{'loss': 0.0938, 'grad_norm': 0.42723938822746277, 'learning_rate': 2.9748666666666665e-05, 'epoch': 19.85}
+{'loss': 0.0541, 'grad_norm': 0.4974992871284485, 'learning_rate': 2.9748333333333335e-05, 'epoch': 19.85}
+{'loss': 0.0281, 'grad_norm': 0.27553194761276245, 'learning_rate': 2.9748e-05, 'epoch': 19.85}
+{'loss': 0.0481, 'grad_norm': 0.5271324515342712, 'learning_rate': 2.9747666666666666e-05, 'epoch': 19.85}
+{'loss': 0.0303, 'grad_norm': 0.704689085483551, 'learning_rate': 2.9747333333333336e-05, 'epoch': 19.86}
+{'loss': 0.0265, 'grad_norm': 0.41468116641044617, 'learning_rate': 2.9747e-05, 'epoch': 19.86}
+{'loss': 0.0488, 'grad_norm': 0.49711140990257263, 'learning_rate': 2.9746666666666668e-05, 'epoch': 19.86}
+{'loss': 0.0256, 'grad_norm': 0.3405868709087372, 'learning_rate': 2.9746333333333334e-05, 'epoch': 19.86}
+{'loss': 0.0204, 'grad_norm': 0.41757965087890625, 'learning_rate': 2.9746000000000003e-05, 'epoch': 19.86}
+{'loss': 0.0261, 'grad_norm': 0.36645424365997314, 'learning_rate': 2.9745666666666665e-05, 'epoch': 19.86}
+ 11%|█         | 10767/100000 [5:53:22<42:05:47,  1.70s/it] 11%|█         | 10768/100000 [5:53:23<40:26:58,  1.63s/it]                                                            11%|█         | 10768/100000 [5:53:23<40:26:58,  1.63s/it] 11%|█         | 10769/100000 [5:53:25<39:06:20,  1.58s/it]                                                            11%|█         | 10769/100000 [5:53:25<39:06:20,  1.58s/it] 11%|█         | 10770/100000 [5:53:26<37:36:04,  1.52s/it]                                                            11%|█         | 10770/100000 [5:53:26<37:36:04,  1.52s/it] 11%|█         | 10771/100000 [5:53:27<36:26:37,  1.47s/it]                                                            11%|█         | 10771/100000 [5:53:27<36:26:37,  1.47s/it] 11%|█         | 10772/100000 [5:53:29<35:49:58,  1.45s/it]                                                            11%|█         | 10772/100000 [5:53:29<35:49:58,  1.45s/it] 11%|█         | 10773/100000 [5:53:30<34:58:59,  1.41s/it]                                                            11%|█         | 10773/100000 [5:53:30<34:58:59,  1.41s/it] 11%|█         | 10774/100000 [5:53:31<34:33:16,  1.39s/it]                                                            11%|█         | 10774/100000 [5:53:31<34:33:16,  1.39s/it] 11%|█         | 10775/100000 [5:53:33<34:01:12,  1.37s/it]                                                            11%|█         | 10775/100000 [5:53:33<34:01:12,  1.37s/it] 11%|█         | 10776/100000 [5:53:34<33:36:14,  1.36s/it]                                                            11%|█         | 10776/100000 [5:53:34<33:36:14,  1.36s/it] 11%|█         | 10777/100000 [5:53:35<33:08:09,  1.34s/it]                                                            11%|█         | 10777/100000 [5:53:35<33:08:09,  1.34s/it] 11%|█         | 10778/100000 [5:53:37<32:45:43,  1.32s/it]                                                            11%|█         | 10778/100000 [5:53:37<32:45:43,  1.32s/it] 11%|█         | 10779/100000 [5:53:38<32:17:02,  1.30s/it]                                                            11%|█         | 10779/100000 [5:53:38<32:17:02,  1.30s/it] 11%|█         | 10780/100000 [5:53:39<31:52:29,  1.29s/it]                                                            11%|█         | 10780/100000 [5:53:39<31:52:29,  1.29s/it] 11%|█         | 10781/100000 [5:53:40<31:29:03,  1.27s/it]                                                            11%|█         | 10781/100000 [5:53:40<31:29:03,  1.27s/it] 11%|█         | 10782/100000 [5:53:41<31:05:26,  1.25s/it]                                                            11%|█         | 10782/100000 [5:53:41<31:05:26,  1.25s/it] 11%|█         | 10783/100000 [5:53:43<30:19:07,  1.22s/it]                                                            11%|█         | 10783/100000 [5:53:43<30:19:07,  1.22s/it] 11%|█         | 10784/100000 [5:53:44<29:49:32,  1.20s/it]                                                            11%|█         | 10784/100000 [5:53:44<29:49:32,  1.20s/it] 11%|█         | 10785/100000 [5:53:45<29:05:02,  1.17s/it]                                                            11%|█         | 10785/100000 [5:53:45<29:05:02,  1.17s/it] 11%|█         | 10786/100000 [5:53:46<28:48:59,  1.16s/it]                                                            11%|█         | 10786/100000 [5:53:46<28:48:59,  1.16s/it] 11%|█         | 10787/100000 [5:53:47<28:26:24,  1.15s/it]                                                            11%|█         | 10787/100000 [5:53:47<28:26:24,  1.15s/it] 11%|█         | 10788/100000 [5:53:48<28:03:22,  1.13s/it]                                                            11%|█         | 10788/100000 [5:53:48<28:03:22,  1.13s/it] 11%|█         | 10789/100000 [5:53:49<27:32:38,  1.11s/it]                                                            11%|█         | 10789/100000 [5:53:49<27:32:38,  1.11s/it] 11%|█         | 10790/100000 [5:53:50<27:11:42,  1.10s/it]                                                            11%|█         | 10790/100000 [5:53:50<27:11:42,  1.10s/it] 11%|█         | 10791/100000 [5:53:51<26:46:05,  1.08s/it]                                                            11%|█         | 10791/100000 [5:53:51<26:46:05,  1.08s/it] 11%|█         | 10792/100000 [5:53:52<26:28:16,  1.07s/it]                                                            11%|█         | 10792/100000 [5:53:52<26:28:16,  1.07s/it] 11%|█         | 10793/100000 [5:53:53<26:01:17,  1.05s/it]                                                            11%|█         | 10793/100000 [5:53:53<26:01:17,  1.05s/it] 11%|█         | 10794/100000 [5:53:54<25:34:37,  1.03s/it]                                                            11%|█         | 10794/100000 [5:53:54<25:34:37,  1.03s/it] 11%|█         | 10795/100000 [5:53:55<25:05:13,  1.01s/it]                                                            11%|█         | 10795/100000 [5:53:55<25:05:13,  1.01s/it] 11%|█         | 10796/100000 [5:53:56<24:39:07,  1.01it/s]                                                            11%|█         | 10796/100000 [5:53:56<24:39:07,  1.01it/s] 11%|█         | 10797/100000 [5:53:57<24:05:09,  1.03it/s]                                                            11%|█         | 10797/100000 [5:53:57<24:05:09,  1.03it/s] 11%|█         | 10798/100000 [5:53:58<23:38:11,  1.05it/s]                                                            11%|█         | 10798/100000 [5:53:58<23:38:11,  1.05it/s] 11%|█         | 10799/100000 [5:54:09<93:58:46,  3.79s/it]                                                            11%|█         | 10799/100000 [5:54:09<93:58:46,  3.79s/it] 11%|█         | 10800/100000 [5:54:14<104:54:17,  4.23s/it]                                                             11%|█         | 10800/100000 [5:54:14<104:54:17,  4.23s/it] 11%|█         | 10801/100000 [5:54:18<104:44:58,  4.23s/it]                                                             11%|█         | 10801/100000 [5:54:18<104:44:58,  4.23s/it] 11%|█         | 10802/100000 [5:54:22<101:47:56,  4.11s/it]                                                             11%|█         | 10802/100000 [5:54:22<101:47:56,  4.11s/it] 11%|█         | 10803/100000 [5:54:25<96:39:25,  3.90s/it]                                                             11%|█         | 10803/100000 [5:54:25<96:39:25,  3.90s/it] 11%|█         | 10804/100000 [5:54:28<90:14:58,  3.64s/it]                                                            11%|█         | 10804/100000 [5:54:28<90:14:58,  3.64s/it] 11%|█         | 10805/100000 [5:54:31<82:38:17,  3.34s/it]                                                            11%|█         | 10805/100000 [5:54:31<82:38:17,  3.34s/it] 11%|█         | 10806/100000 [5:54:33<75:57:50,  3.07s/it]                                                            11%|█         | 10806/100000 [5:54:33<75:57:50,  3.07s/it] 11%|█         | 10807/100000 [5:54:36<68:59:41,  2.78s/it]                                                            11%|█         | 10807/100000 [5:54:36<68:59:41,  2.78s/it] 11%|█         | 10808/100000 [5:54:38<63:21:56,  2.56s/it]                                                            11%|█         | 10808/100000 [5:54:38<63:21:56,  2.56s/it] 11%|█         | 10809/100000 [5:54:40<58:37:01,  2.37s/it]                                                            11%|█         | 10809/100000 [5:54:40<58:37:01,  2.37s/it] 11%|█         | 10810/100000 [5:54:41<54:09:13,  2.19s/it]                                                            11%|█         | 10810/100000 [5:54:41<54:09:13,  2.19s/it] 11%|█         | 10811/100000 [5:54:43<50:42:55,  2.05s/it]                                                            11%|█         | 10811/100000 [5:54:43<50:42:55,  2.05s/it] 11%|█         | 10812/100000 [5:54:45<47:09:31,  1.90s/it]                                                            11%|█         | 10812/100000 [5:54:45<47:09:31,  1.90s/it] 11%|█         | 10813/100000 [5:54:46<44:21:10,  1.79s/it]                                                            11%|█         | 10813/100000 [5:54:46<44:21:10,  1.79s/it] 11%|█         | 10814/100000 [5:54:48<42:17:20,  1.71s/it]                                                            11%|█         | 10814/100000 [5:54:48<42:17:20,  1.71s/it] 11%|█         | 10815/100000 [5:54:49<40:10:15,  1.62s/it]                                                            11%|█         | 10815/100000 [5:54:49<40:10:15,  1.62s/it] 11%|█         | 10816/100000 [5:54:50<38:49:50,  1.57s/it]                                                            11%|█         | 10816/100000 [5:54:50<38:49:50,  1.57s/it] 11%|█         | 10817/100000 [5:54:52<37:38:29,  1.52s/it]                                                            11%|█         | 10817/100000 [5:54:52<37:38:29,  1.52s/it] 11%|█         | 10818/100000 [5:54:53<36:06:21,  1.46s/it]                                                            11%|█         | 10818/100000 [5:54:53<36:06:21,  1.46s/it] 11%|█         | 10819/100000 [5:54:55<35:27:08,  1.43s/it]                                                            11%|█         | 10819/100000 [5:54:55<35:27:08,  1.43s/it] 11%|█         | 10820/100000 [5:54:56<34:39:23,  1.40s/it]                                                            11%|█         | 10820/100000 [5:54:56<34:39:23,  1.40s/it] 11%|█         | 10821/100000 [5:54:57<33:42:55,  1.36s/it]                                                            11%|█         | 10821/100000 [5:54:57<33:42:55,  1.36s/it] 11%|█         | 10822/100000 [5:54:58<33:13:11,  1.34s/it]                                                            11%|█         | 10822/100000 [5:54:58<33:13:11,  1.34s/it] 11%|█         | 10823/100000 [5:55:00<32:41:50,  1.32s/it]                                                            11%|█         | 10823/100000 [5:55:00<32:41:50,  1.32s/it] 11%|█         | 10824/100000 [5:55:01<32:00:42,  1.29s/it]                                                            11%|█         | 10824/100000 [5:55:01<32:00:42,  1.29s/it] 11%|█         | 10825/100000 [5:55:02<31:21:58,  1.27s/it]                                                            11%|█         | 10825/100000 [5:55:02<31:21:58,  1.27s/it] 11%|█         | 10826/100000 [5:55:03<31:01:06,  1.25s/it]                                                            11%|█         | 10826/100000 [5:55:03<31:01:06,  1.25s/it] 11%|█         | 10827/100000 [5:55:05<30:23:06,  1.23s/it]                                                            11%|█         | 10827/100000 [5:55:05<30:23:06,  1.23s/it] 11%|█         | 10828/100000 [5:55:06<29:46:49,  1.20s/it]                                                            11%|█         | 10828/100000 [5:55:06<29:46:49,  1.20s/it] 11%|█         | 10829/100000 [5:55:07<29:14:16,  1.18s/it]                                                            11%|█         | 10829/100000 [5:55:07<29:14:16,  1.18s/it] 11%|█         | 10830/100000 [5:55:08<28:36:26,  1.15s/it]                                                            11%|█         | 10830/100000 [5:55:08<28:36:26,  1.15s/it] 11%|█         | 10831/100000 [5:55:09<28:05:09,  1.13s/it]                                                            11%|█         | 10831/100000 [5:55:09<28:05:09,  1.13s/it] 11%|█         | 10832/100000 [5:55:10<27:33:00,  1.11s/it]                                                            11%|█         | 10832/100000 [5:55:10<27:33:00,  1.11s/it] 11%|█         | 10833/100000 [5:55:11<27:03:36,  1.09s/it]                                                            11%|█         | 10833/100000 [5:55:11<27:03:36,  1.09s/it] 11%|█         | 10834/100000 [5:55:12<26:27:51,  1.07s/it]                                                            11%|█         | 10834/100000 [5:55:12<26:27:51,  1.07s/it] 11%|█         | 10835/100000 [5:55:13<26:10:43,  1.06s/it]                                                            11%|█         | 10835/100000 [5:55:13<26:10:43,  1.06s/it] 11%|█         | 10836/100000 [5:55:14<25:43:24,  1.04s/it]                                                            11%|█         | 10836/100000 [5:55:14<25:43:24,  1.04s/it] 11%|█         | 10837/100000 [5:55:15<25:07:30,  1.01s/it]                                                            11%|█         | 10837/100000 [5:55:15<25:07:30,  1.01s/it] 11%|█         | 10838/100000 [5:55:16<24:35:49,  1.01it/s]                                                            11%|█         | 10838/100000 [5:55:16<24:35:49,  1.01it/s] 11%|█         | 10839/100000 [5:55:17<24:02:04,  1.03it/s]                                                            11%|█         | 10839/100000 [5:55:17<24:02:04,  1.03it/s] 11%|█         | 10840/100000 [5:55:18<23:10:56,  1.07it/s]                                                            11%|█         | 10840/100000 [5:55:18<23:10:56,  1.07it/s]{'loss': 0.014, 'grad_norm': 0.2549731433391571, 'learning_rate': 2.9745333333333335e-05, 'epoch': 19.87}
+{'loss': 0.0123, 'grad_norm': 0.4444524645805359, 'learning_rate': 2.9745e-05, 'epoch': 19.87}
+{'loss': 0.0274, 'grad_norm': 0.49080604314804077, 'learning_rate': 2.9744666666666667e-05, 'epoch': 19.87}
+{'loss': 0.0119, 'grad_norm': 0.3654726445674896, 'learning_rate': 2.9744333333333336e-05, 'epoch': 19.87}
+{'loss': 0.0097, 'grad_norm': 0.3014700412750244, 'learning_rate': 2.9744000000000002e-05, 'epoch': 19.87}
+{'loss': 0.0108, 'grad_norm': 0.2731376588344574, 'learning_rate': 2.9743666666666668e-05, 'epoch': 19.88}
+{'loss': 0.0114, 'grad_norm': 0.21904848515987396, 'learning_rate': 2.9743333333333334e-05, 'epoch': 19.88}
+{'loss': 0.0156, 'grad_norm': 0.41635486483573914, 'learning_rate': 2.9743000000000003e-05, 'epoch': 19.88}
+{'loss': 0.0113, 'grad_norm': 0.3734789490699768, 'learning_rate': 2.9742666666666666e-05, 'epoch': 19.88}
+{'loss': 0.0119, 'grad_norm': 0.44643911719322205, 'learning_rate': 2.9742333333333335e-05, 'epoch': 19.88}
+{'loss': 0.0094, 'grad_norm': 0.2010699212551117, 'learning_rate': 2.9742e-05, 'epoch': 19.88}
+{'loss': 0.011, 'grad_norm': 0.3544909656047821, 'learning_rate': 2.9741666666666667e-05, 'epoch': 19.89}
+{'loss': 0.0073, 'grad_norm': 0.3866400122642517, 'learning_rate': 2.9741333333333336e-05, 'epoch': 19.89}
+{'loss': 0.0169, 'grad_norm': 0.34151676297187805, 'learning_rate': 2.9741e-05, 'epoch': 19.89}
+{'loss': 0.008, 'grad_norm': 0.29591402411460876, 'learning_rate': 2.9740666666666668e-05, 'epoch': 19.89}
+{'loss': 0.0125, 'grad_norm': 0.30311036109924316, 'learning_rate': 2.9740333333333334e-05, 'epoch': 19.89}
+{'loss': 0.0068, 'grad_norm': 0.19861190021038055, 'learning_rate': 2.974e-05, 'epoch': 19.9}
+{'loss': 0.0081, 'grad_norm': 0.22376330196857452, 'learning_rate': 2.9739666666666666e-05, 'epoch': 19.9}
+{'loss': 0.0147, 'grad_norm': 0.4291958808898926, 'learning_rate': 2.9739333333333335e-05, 'epoch': 19.9}
+{'loss': 0.0287, 'grad_norm': 0.3459694981575012, 'learning_rate': 2.9739e-05, 'epoch': 19.9}
+{'loss': 0.0101, 'grad_norm': 0.3165818154811859, 'learning_rate': 2.9738666666666667e-05, 'epoch': 19.9}
+{'loss': 0.0063, 'grad_norm': 0.16458719968795776, 'learning_rate': 2.9738333333333336e-05, 'epoch': 19.9}
+{'loss': 0.0077, 'grad_norm': 0.26842695474624634, 'learning_rate': 2.9738e-05, 'epoch': 19.91}
+{'loss': 0.0105, 'grad_norm': 0.6238064765930176, 'learning_rate': 2.9737666666666668e-05, 'epoch': 19.91}
+{'loss': 0.0136, 'grad_norm': 0.45984452962875366, 'learning_rate': 2.9737333333333334e-05, 'epoch': 19.91}
+{'loss': 0.0095, 'grad_norm': 0.22845137119293213, 'learning_rate': 2.9737e-05, 'epoch': 19.91}
+{'loss': 0.0135, 'grad_norm': 0.6064977645874023, 'learning_rate': 2.9736666666666666e-05, 'epoch': 19.91}
+{'loss': 0.0103, 'grad_norm': 0.6048700213432312, 'learning_rate': 2.9736333333333335e-05, 'epoch': 19.92}
+{'loss': 0.0128, 'grad_norm': 0.6151441931724548, 'learning_rate': 2.9736e-05, 'epoch': 19.92}
+{'loss': 0.0122, 'grad_norm': 0.722559928894043, 'learning_rate': 2.9735666666666667e-05, 'epoch': 19.92}
+{'loss': 0.016, 'grad_norm': 0.9557310342788696, 'learning_rate': 2.9735333333333337e-05, 'epoch': 19.92}
+{'loss': 0.0143, 'grad_norm': 0.5047065615653992, 'learning_rate': 2.9735e-05, 'epoch': 19.92}
+{'loss': 0.1909, 'grad_norm': 0.9226062297821045, 'learning_rate': 2.973466666666667e-05, 'epoch': 19.93}
+{'loss': 0.1344, 'grad_norm': 0.7328792214393616, 'learning_rate': 2.9734333333333334e-05, 'epoch': 19.93}
+{'loss': 0.1537, 'grad_norm': 0.9491218328475952, 'learning_rate': 2.9734e-05, 'epoch': 19.93}
+{'loss': 0.1021, 'grad_norm': 0.7314680218696594, 'learning_rate': 2.9733666666666666e-05, 'epoch': 19.93}
+{'loss': 0.07, 'grad_norm': 0.3304039537906647, 'learning_rate': 2.9733333333333336e-05, 'epoch': 19.93}
+{'loss': 0.1535, 'grad_norm': 0.7055652737617493, 'learning_rate': 2.9733e-05, 'epoch': 19.93}
+{'loss': 0.0605, 'grad_norm': 0.4285171627998352, 'learning_rate': 2.9732666666666667e-05, 'epoch': 19.94}
+{'loss': 0.0579, 'grad_norm': 0.5491939783096313, 'learning_rate': 2.9732333333333333e-05, 'epoch': 19.94}
+{'loss': 0.0504, 'grad_norm': 0.6970460414886475, 'learning_rate': 2.9732e-05, 'epoch': 19.94}
+{'loss': 0.0547, 'grad_norm': 0.36753565073013306, 'learning_rate': 2.973166666666667e-05, 'epoch': 19.94}
+{'loss': 0.0613, 'grad_norm': 0.4938269555568695, 'learning_rate': 2.973133333333333e-05, 'epoch': 19.94}
+{'loss': 0.0236, 'grad_norm': 0.2081955224275589, 'learning_rate': 2.9731e-05, 'epoch': 19.95}
+{'loss': 0.0327, 'grad_norm': 0.3069004714488983, 'learning_rate': 2.973066666666667e-05, 'epoch': 19.95}
+{'loss': 0.0276, 'grad_norm': 0.5289403796195984, 'learning_rate': 2.9730333333333332e-05, 'epoch': 19.95}
+{'loss': 0.0095, 'grad_norm': 0.26222914457321167, 'learning_rate': 2.973e-05, 'epoch': 19.95}
+{'loss': 0.029, 'grad_norm': 0.4635355770587921, 'learning_rate': 2.9729666666666668e-05, 'epoch': 19.95}
+{'loss': 0.0311, 'grad_norm': 0.43034881353378296, 'learning_rate': 2.9729333333333334e-05, 'epoch': 19.95}
+{'loss': 0.0167, 'grad_norm': 0.2856021821498871, 'learning_rate': 2.9729e-05, 'epoch': 19.96}
+{'loss': 0.0122, 'grad_norm': 0.21279774606227875, 'learning_rate': 2.972866666666667e-05, 'epoch': 19.96}
+{'loss': 0.0056, 'grad_norm': 0.18603555858135223, 'learning_rate': 2.972833333333333e-05, 'epoch': 19.96}
+{'loss': 0.0151, 'grad_norm': 0.25018876791000366, 'learning_rate': 2.9728e-05, 'epoch': 19.96}
+{'loss': 0.0104, 'grad_norm': 0.23212258517742157, 'learning_rate': 2.972766666666667e-05, 'epoch': 19.96}
+{'loss': 0.0096, 'grad_norm': 0.5990542769432068, 'learning_rate': 2.9727333333333333e-05, 'epoch': 19.97}
+{'loss': 0.0179, 'grad_norm': 0.29488661885261536, 'learning_rate': 2.9727000000000002e-05, 'epoch': 19.97}
+{'loss': 0.0326, 'grad_norm': 0.2727646827697754, 'learning_rate': 2.9726666666666668e-05, 'epoch': 19.97}
+{'loss': 0.0071, 'grad_norm': 0.21818789839744568, 'learning_rate': 2.9726333333333334e-05, 'epoch': 19.97}
+{'loss': 0.0087, 'grad_norm': 0.3400208055973053, 'learning_rate': 2.9726e-05, 'epoch': 19.97}
+{'loss': 0.0164, 'grad_norm': 0.4294982850551605, 'learning_rate': 2.972566666666667e-05, 'epoch': 19.98}
+{'loss': 0.0102, 'grad_norm': 0.20422349870204926, 'learning_rate': 2.9725333333333335e-05, 'epoch': 19.98}
+{'loss': 0.0097, 'grad_norm': 0.3575103282928467, 'learning_rate': 2.9725e-05, 'epoch': 19.98}
+{'loss': 0.0115, 'grad_norm': 0.43506139516830444, 'learning_rate': 2.972466666666667e-05, 'epoch': 19.98}
+{'loss': 0.0112, 'grad_norm': 0.39745500683784485, 'learning_rate': 2.9724333333333333e-05, 'epoch': 19.98}
+{'loss': 0.0168, 'grad_norm': 0.32903939485549927, 'learning_rate': 2.9724000000000002e-05, 'epoch': 19.98}
+{'loss': 0.0216, 'grad_norm': 0.5643303990364075, 'learning_rate': 2.9723666666666668e-05, 'epoch': 19.99}
+{'loss': 0.0096, 'grad_norm': 0.27045926451683044, 'learning_rate': 2.9723333333333334e-05, 'epoch': 19.99}
+{'loss': 0.0103, 'grad_norm': 0.26068615913391113, 'learning_rate': 2.9723e-05, 'epoch': 19.99}
+{'loss': 0.0086, 'grad_norm': 0.31268391013145447, 'learning_rate': 2.9722666666666666e-05, 'epoch': 19.99}
+{'loss': 0.0077, 'grad_norm': 0.26672235131263733, 'learning_rate': 2.9722333333333335e-05, 'epoch': 19.99}
+{'loss': 0.0095, 'grad_norm': 0.36160510778427124, 'learning_rate': 2.9722e-05, 'epoch': 20.0}
+{'loss': 0.0127, 'grad_norm': 0.7074096202850342, 'learning_rate': 2.9721666666666667e-05, 'epoch': 20.0}
+{'loss': 0.0114, 'grad_norm': 0.31743553280830383, 'learning_rate': 2.9721333333333333e-05, 'epoch': 20.0}
+{'loss': 0.0028, 'grad_norm': 0.265717089176178, 'learning_rate': 2.9721000000000002e-05, 'epoch': 20.0}
+ 11%|█         | 10841/100000 [5:55:36<149:50:48,  6.05s/it]                                                             11%|█         | 10841/100000 [5:55:36<149:50:48,  6.05s/it] 11%|█         | 10842/100000 [5:55:41<144:58:53,  5.85s/it]                                                             11%|█         | 10842/100000 [5:55:41<144:58:53,  5.85s/it] 11%|█         | 10843/100000 [5:55:46<135:54:06,  5.49s/it]                                                             11%|█         | 10843/100000 [5:55:46<135:54:06,  5.49s/it] 11%|█         | 10844/100000 [5:55:50<123:46:29,  5.00s/it]                                                             11%|█         | 10844/100000 [5:55:50<123:46:29,  5.00s/it] 11%|█         | 10845/100000 [5:55:53<112:25:21,  4.54s/it]                                                             11%|█         | 10845/100000 [5:55:53<112:25:21,  4.54s/it] 11%|█         | 10846/100000 [5:55:56<101:23:28,  4.09s/it]                                                             11%|█         | 10846/100000 [5:55:56<101:23:28,  4.09s/it] 11%|█         | 10847/100000 [5:55:59<92:30:01,  3.74s/it]                                                             11%|█         | 10847/100000 [5:55:59<92:30:01,  3.74s/it] 11%|█         | 10848/100000 [5:56:02<84:37:25,  3.42s/it]                                                            11%|█         | 10848/100000 [5:56:02<84:37:25,  3.42s/it] 11%|█         | 10849/100000 [5:56:04<77:21:58,  3.12s/it]                                                            11%|█         | 10849/100000 [5:56:04<77:21:58,  3.12s/it] 11%|█         | 10850/100000 [5:56:07<72:04:48,  2.91s/it]                                                            11%|█         | 10850/100000 [5:56:07<72:04:48,  2.91s/it] 11%|█         | 10851/100000 [5:56:09<66:16:53,  2.68s/it]                                                            11%|█         | 10851/100000 [5:56:09<66:16:53,  2.68s/it] 11%|█         | 10852/100000 [5:56:11<61:22:38,  2.48s/it]                                                            11%|█         | 10852/100000 [5:56:11<61:22:38,  2.48s/it] 11%|█         | 10853/100000 [5:56:13<56:02:17,  2.26s/it]                                                            11%|█         | 10853/100000 [5:56:13<56:02:17,  2.26s/it] 11%|█         | 10854/100000 [5:56:14<52:03:24,  2.10s/it]                                                            11%|█         | 10854/100000 [5:56:14<52:03:24,  2.10s/it] 11%|█         | 10855/100000 [5:56:16<49:11:43,  1.99s/it]                                                            11%|█         | 10855/100000 [5:56:16<49:11:43,  1.99s/it] 11%|█         | 10856/100000 [5:56:18<46:19:59,  1.87s/it]                                                            11%|█         | 10856/100000 [5:56:18<46:19:59,  1.87s/it] 11%|█         | 10857/100000 [5:56:19<44:08:21,  1.78s/it]                                                            11%|█         | 10857/100000 [5:56:19<44:08:21,  1.78s/it] 11%|█         | 10858/100000 [5:56:21<42:35:11,  1.72s/it]                                                            11%|█         | 10858/100000 [5:56:21<42:35:11,  1.72s/it] 11%|█         | 10859/100000 [5:56:22<40:56:11,  1.65s/it]                                                            11%|█         | 10859/100000 [5:56:22<40:56:11,  1.65s/it] 11%|█         | 10860/100000 [5:56:24<39:30:01,  1.60s/it]                                                            11%|█         | 10860/100000 [5:56:24<39:30:01,  1.60s/it] 11%|█         | 10861/100000 [5:56:25<38:08:19,  1.54s/it]                                                            11%|█         | 10861/100000 [5:56:25<38:08:19,  1.54s/it] 11%|█         | 10862/100000 [5:56:27<37:16:20,  1.51s/it]                                                            11%|█         | 10862/100000 [5:56:27<37:16:20,  1.51s/it] 11%|█         | 10863/100000 [5:56:28<36:31:39,  1.48s/it]                                                            11%|█         | 10863/100000 [5:56:28<36:31:39,  1.48s/it] 11%|█         | 10864/100000 [5:56:29<35:46:00,  1.44s/it]                                                            11%|█         | 10864/100000 [5:56:29<35:46:00,  1.44s/it] 11%|█         | 10865/100000 [5:56:31<34:48:15,  1.41s/it]                                                            11%|█         | 10865/100000 [5:56:31<34:48:15,  1.41s/it] 11%|█         | 10866/100000 [5:56:32<34:19:39,  1.39s/it]                                                            11%|█         | 10866/100000 [5:56:32<34:19:39,  1.39s/it] 11%|█         | 10867/100000 [5:56:33<33:40:18,  1.36s/it]                                                            11%|█         | 10867/100000 [5:56:33<33:40:18,  1.36s/it] 11%|█         | 10868/100000 [5:56:35<33:15:14,  1.34s/it]                                                            11%|█         | 10868/100000 [5:56:35<33:15:14,  1.34s/it] 11%|█         | 10869/100000 [5:56:36<32:30:28,  1.31s/it]                                                            11%|█         | 10869/100000 [5:56:36<32:30:28,  1.31s/it] 11%|█         | 10870/100000 [5:56:37<32:03:54,  1.30s/it]                                                            11%|█         | 10870/100000 [5:56:37<32:03:54,  1.30s/it] 11%|█         | 10871/100000 [5:56:38<31:43:28,  1.28s/it]                                                            11%|█         | 10871/100000 [5:56:38<31:43:28,  1.28s/it] 11%|█         | 10872/100000 [5:56:40<30:59:49,  1.25s/it]                                                            11%|█         | 10872/100000 [5:56:40<30:59:49,  1.25s/it] 11%|█         | 10873/100000 [5:56:41<30:38:38,  1.24s/it]                                                            11%|█         | 10873/100000 [5:56:41<30:38:38,  1.24s/it] 11%|█         | 10874/100000 [5:56:42<30:18:21,  1.22s/it]                                                            11%|█         | 10874/100000 [5:56:42<30:18:21,  1.22s/it] 11%|█         | 10875/100000 [5:56:43<29:39:19,  1.20s/it]                                                            11%|█         | 10875/100000 [5:56:43<29:39:19,  1.20s/it] 11%|█         | 10876/100000 [5:56:44<29:16:46,  1.18s/it]                                                            11%|█         | 10876/100000 [5:56:44<29:16:46,  1.18s/it] 11%|█         | 10877/100000 [5:56:45<28:59:00,  1.17s/it]                                                            11%|█         | 10877/100000 [5:56:45<28:59:00,  1.17s/it] 11%|█         | 10878/100000 [5:56:46<28:41:32,  1.16s/it]                                                            11%|█         | 10878/100000 [5:56:46<28:41:32,  1.16s/it] 11%|█         | 10879/100000 [5:56:48<28:02:56,  1.13s/it]                                                            11%|█         | 10879/100000 [5:56:48<28:02:56,  1.13s/it] 11%|█         | 10880/100000 [5:56:49<27:52:39,  1.13s/it]                                                            11%|█         | 10880/100000 [5:56:49<27:52:39,  1.13s/it] 11%|█         | 10881/100000 [5:56:50<27:29:08,  1.11s/it]                                                            11%|█         | 10881/100000 [5:56:50<27:29:08,  1.11s/it] 11%|█         | 10882/100000 [5:56:51<27:15:53,  1.10s/it]                                                            11%|█         | 10882/100000 [5:56:51<27:15:53,  1.10s/it] 11%|█         | 10883/100000 [5:56:52<26:52:26,  1.09s/it]                                                            11%|█         | 10883/100000 [5:56:52<26:52:26,  1.09s/it] 11%|█         | 10884/100000 [5:56:53<26:33:53,  1.07s/it]                                                            11%|█         | 10884/100000 [5:56:53<26:33:53,  1.07s/it] 11%|█         | 10885/100000 [5:56:54<26:01:40,  1.05s/it]                                                            11%|█         | 10885/100000 [5:56:54<26:01:40,  1.05s/it] 11%|█         | 10886/100000 [5:56:55<25:33:58,  1.03s/it]                                                            11%|█         | 10886/100000 [5:56:55<25:33:58,  1.03s/it] 11%|█         | 10887/100000 [5:56:56<24:52:08,  1.00s/it]                                                            11%|█         | 10887/100000 [5:56:56<24:52:08,  1.00s/it] 11%|█         | 10888/100000 [5:56:57<24:13:29,  1.02it/s]                                                            11%|█         | 10888/100000 [5:56:57<24:13:29,  1.02it/s] 11%|█         | 10889/100000 [5:56:58<23:53:40,  1.04it/s]                                                            11%|█         | 10889/100000 [5:56:58<23:53:40,  1.04it/s] 11%|█         | 10890/100000 [5:56:59<23:39:04,  1.05it/s]                                                            11%|█         | 10890/100000 [5:56:59<23:39:04,  1.05it/s] 11%|█         | 10891/100000 [5:57:10<104:18:29,  4.21s/it]                                                             11%|█         | 10891/100000 [5:57:10<104:18:29,  4.21s/it] 11%|█         | 10892/100000 [5:57:16<115:33:00,  4.67s/it]                                                             11%|█         | 10892/100000 [5:57:16<115:33:00,  4.67s/it] 11%|█         | 10893/100000 [5:57:21<114:02:35,  4.61s/it]                                                             11%|█         | 10893/100000 [5:57:21<114:02:35,  4.61s/it] 11%|█         | 10894/100000 [5:57:24<108:20:08,  4.38s/it]                                                             11%|█         | 10894/100000 [5:57:24<108:20:08,  4.38s/it] 11%|█         | 10895/100000 [5:57:28<102:08:54,  4.13s/it]                                                             11%|█         | 10895/100000 [5:57:28<102:08:54,  4.13s/it] 11%|█         | 10896/100000 [5:57:31<95:43:10,  3.87s/it]                                                             11%|█         | 10896/100000 [5:57:31<95:43:10,  3.87s/it] 11%|█         | 10897/100000 [5:57:34<89:04:45,  3.60s/it]                                                            11%|█         | 10897/100000 [5:57:34<89:04:45,  3.60s/it] 11%|█         | 10898/100000 [5:57:37<83:05:52,  3.36s/it]                                                            11%|█         | 10898/100000 [5:57:37<83:05:52,  3.36s/it] 11%|█         | 10899/100000 [5:57:40<77:41:04,  3.14s/it]                                                            11%|█         | 10899/100000 [5:57:40<77:41:04,  3.14s/it] 11%|█         | 10900/100000 [5:57:42<71:54:00,  2.91s/it]                                                            11%|█         | 10900/100000 [5:57:42<71:54:00,  2.91s/it] 11%|█         | 10901/100000 [5:57:44<66:46:51,  2.70s/it]                                                            11%|█         | 10901/100000 [5:57:44<66:46:51,  2.70s/it] 11%|█         | 10902/100000 [5:57:46<62:13:53,  2.51s/it]                                                            11%|█         | 10902/100000 [5:57:46<62:13:53,  2.51s/it] 11%|█         | 10903/100000 [5:57:48<58:17:07,  2.36s/it]                                                            11%|█         | 10903/100000 [5:57:48<58:17:07,  2.36s/it] 11%|█         | 10904/100000 [5:57:50<54:39:46,  2.21s/it]                                                            11%|█         | 10904/100000 [5:57:50<54:39:46,  2.21s/it] 11%|█         | 10905/100000 [5:57:52<51:21:59,  2.08s/it]                                                            11%|█         | 10905/100000 [5:57:52<51:21:59,  2.08s/it] 11%|█         | 10906/100000 [5:57:54<48:39:08,  1.97s/it]                                                            11%|█         | 10906/100000 [5:57:54<48:39:08,  1.97s/it] 11%|█         | 10907/100000 [5:57:55<46:15:05,  1.87s/it]                                                            11%|█         | 10907/100000 [5:57:55<46:15:05,  1.87s/it] 11%|█         | 10908/100000 [5:57:57<44:16:54,  1.79s/it]                                                            11%|█         | 10908/100000 [5:57:57<44:16:54,  1.79s/it] 11%|█         | 10909/100000 [5:57:58<42:07:12,  1.70s/it]                                                            11%|█         | 10909/100000 [5:57:58<42:07:12,  1.70s/it] 11%|█         | 10910/100000 [5:58:00<40:17:39,  1.63s/it]                                                            11%|█         | 10910/100000 [5:58:00<40:17:39,  1.63s/it] 11%|█         | 10911/100000 [5:58:01<39:02:15,  1.58s/it]                                                            11%|█         | 10911/100000 [5:58:01<39:02:15,  1.58s/it] 11%|█         | 10912/100000 [5:58:03<37:59:26,  1.54s/it]                                                            11%|█         | 10912/100000 [5:58:03<37:59:26,  1.54s/it] 11%|█         | 10913/100000 [5:58:04<37:08:18,  1.50s/it]                                                            11%|█         | 10913/100000 [5:58:04<37:08:18,  1.50s/it] 11%|█         | 10914/100000 [5:58:06<36:06:58,  1.46s/it]                                                            11%|█         | 10914/100000 [5:58:06<36:06:58,  1.46s/it] 11%|█         | 10915/100000 [5:58:07<35:38:55,  1.44s/it]                                                            11%|█         | 10915/100000 [5:58:07<35:38:55,  1.44s/it] 11%|█         | 10916/100000 [5:58:08<34:46:44,  1.41s/it]                                                            11%|█         | 10916/100000 [5:58:08<34:46:44,  1.41s/it] 11%|█         | 10917/100000 [5:58:10<34:26:16,  1.39s/it]                                                            11%|█         | 10917/100000 [5:58:10<34:26:16,  1.39s/it] 11%|█         | 10918/100000 [5:58:11<33:55:12,  1.37s/it]                                                            11%|█         | 10918/100000 [5:58:11<33:55:12,  1.37s/it] 11%|█         | 10919/100000 [5:58:12<33:26:34,  1.35s/it]                                                            11%|█         | 10919/100000 [5:58:12<33:26:34,  1.35s/it] 11%|█         | 10920/100000 [5:58:13<32:49:13,  1.33s/it]                                                           {'loss': 0.152, 'grad_norm': 0.49848538637161255, 'learning_rate': 2.9720666666666665e-05, 'epoch': 20.0}
+{'loss': 0.166, 'grad_norm': 0.6284631490707397, 'learning_rate': 2.9720333333333334e-05, 'epoch': 20.0}
+{'loss': 0.1029, 'grad_norm': 0.4607674181461334, 'learning_rate': 2.972e-05, 'epoch': 20.01}
+{'loss': 0.0861, 'grad_norm': 0.5444645285606384, 'learning_rate': 2.9719666666666666e-05, 'epoch': 20.01}
+{'loss': 0.0896, 'grad_norm': 0.4144648313522339, 'learning_rate': 2.9719333333333335e-05, 'epoch': 20.01}
+{'loss': 0.0902, 'grad_norm': 0.5311521887779236, 'learning_rate': 2.9719e-05, 'epoch': 20.01}
+{'loss': 0.0537, 'grad_norm': 0.3980214297771454, 'learning_rate': 2.9718666666666667e-05, 'epoch': 20.01}
+{'loss': 0.1102, 'grad_norm': 0.6435825824737549, 'learning_rate': 2.9718333333333333e-05, 'epoch': 20.01}
+{'loss': 0.0489, 'grad_norm': 0.41154757142066956, 'learning_rate': 2.9718000000000002e-05, 'epoch': 20.02}
+{'loss': 0.0433, 'grad_norm': 0.4965069890022278, 'learning_rate': 2.9717666666666665e-05, 'epoch': 20.02}
+{'loss': 0.0643, 'grad_norm': 0.3039763271808624, 'learning_rate': 2.9717333333333334e-05, 'epoch': 20.02}
+{'loss': 0.0276, 'grad_norm': 0.30471768975257874, 'learning_rate': 2.9717e-05, 'epoch': 20.02}
+{'loss': 0.0572, 'grad_norm': 0.3537667393684387, 'learning_rate': 2.9716666666666666e-05, 'epoch': 20.02}
+{'loss': 0.032, 'grad_norm': 0.3218044638633728, 'learning_rate': 2.9716333333333336e-05, 'epoch': 20.03}
+{'loss': 0.0155, 'grad_norm': 0.21395094692707062, 'learning_rate': 2.9716e-05, 'epoch': 20.03}
+{'loss': 0.0098, 'grad_norm': 0.1753055602312088, 'learning_rate': 2.9715666666666667e-05, 'epoch': 20.03}
+{'loss': 0.0081, 'grad_norm': 0.1765054166316986, 'learning_rate': 2.9715333333333333e-05, 'epoch': 20.03}
+{'loss': 0.0093, 'grad_norm': 0.15867426991462708, 'learning_rate': 2.9715000000000003e-05, 'epoch': 20.03}
+{'loss': 0.0131, 'grad_norm': 0.2986152172088623, 'learning_rate': 2.9714666666666665e-05, 'epoch': 20.04}
+{'loss': 0.0383, 'grad_norm': 0.5510702729225159, 'learning_rate': 2.9714333333333335e-05, 'epoch': 20.04}
+{'loss': 0.01, 'grad_norm': 0.21956251561641693, 'learning_rate': 2.9714000000000004e-05, 'epoch': 20.04}
+{'loss': 0.0155, 'grad_norm': 0.33517369627952576, 'learning_rate': 2.9713666666666666e-05, 'epoch': 20.04}
+{'loss': 0.0175, 'grad_norm': 0.5131813287734985, 'learning_rate': 2.9713333333333336e-05, 'epoch': 20.04}
+{'loss': 0.0084, 'grad_norm': 0.18757785856723785, 'learning_rate': 2.9713e-05, 'epoch': 20.04}
+{'loss': 0.0058, 'grad_norm': 0.14929111301898956, 'learning_rate': 2.9712666666666668e-05, 'epoch': 20.05}
+{'loss': 0.0118, 'grad_norm': 0.3974211513996124, 'learning_rate': 2.9712333333333334e-05, 'epoch': 20.05}
+{'loss': 0.0074, 'grad_norm': 0.3090802729129791, 'learning_rate': 2.9712e-05, 'epoch': 20.05}
+{'loss': 0.0131, 'grad_norm': 0.249526709318161, 'learning_rate': 2.9711666666666665e-05, 'epoch': 20.05}
+{'loss': 0.0055, 'grad_norm': 0.2154981642961502, 'learning_rate': 2.9711333333333335e-05, 'epoch': 20.05}
+{'loss': 0.0062, 'grad_norm': 0.18604527413845062, 'learning_rate': 2.9711e-05, 'epoch': 20.06}
+{'loss': 0.0076, 'grad_norm': 0.26657775044441223, 'learning_rate': 2.9710666666666667e-05, 'epoch': 20.06}
+{'loss': 0.0036, 'grad_norm': 0.16824635863304138, 'learning_rate': 2.9710333333333336e-05, 'epoch': 20.06}
+{'loss': 0.0062, 'grad_norm': 0.22853249311447144, 'learning_rate': 2.971e-05, 'epoch': 20.06}
+{'loss': 0.0043, 'grad_norm': 0.1347638964653015, 'learning_rate': 2.9709666666666668e-05, 'epoch': 20.06}
+{'loss': 0.0202, 'grad_norm': 0.5696449279785156, 'learning_rate': 2.9709333333333334e-05, 'epoch': 20.06}
+{'loss': 0.006, 'grad_norm': 0.1813577264547348, 'learning_rate': 2.9709e-05, 'epoch': 20.07}
+{'loss': 0.036, 'grad_norm': 0.24455659091472626, 'learning_rate': 2.970866666666667e-05, 'epoch': 20.07}
+{'loss': 0.0101, 'grad_norm': 0.26324525475502014, 'learning_rate': 2.9708333333333335e-05, 'epoch': 20.07}
+{'loss': 0.0065, 'grad_norm': 0.3263266682624817, 'learning_rate': 2.9708e-05, 'epoch': 20.07}
+{'loss': 0.0163, 'grad_norm': 0.43081149458885193, 'learning_rate': 2.9707666666666667e-05, 'epoch': 20.07}
+{'loss': 0.007, 'grad_norm': 0.2542450726032257, 'learning_rate': 2.9707333333333336e-05, 'epoch': 20.08}
+{'loss': 0.0137, 'grad_norm': 0.5075932741165161, 'learning_rate': 2.9707e-05, 'epoch': 20.08}
+{'loss': 0.0112, 'grad_norm': 0.47679972648620605, 'learning_rate': 2.9706666666666668e-05, 'epoch': 20.08}
+{'loss': 0.0082, 'grad_norm': 0.2431761473417282, 'learning_rate': 2.9706333333333334e-05, 'epoch': 20.08}
+{'loss': 0.0096, 'grad_norm': 0.3411027789115906, 'learning_rate': 2.9706e-05, 'epoch': 20.08}
+{'loss': 0.0056, 'grad_norm': 0.4069492816925049, 'learning_rate': 2.970566666666667e-05, 'epoch': 20.08}
+{'loss': 0.0101, 'grad_norm': 0.283371239900589, 'learning_rate': 2.9705333333333335e-05, 'epoch': 20.09}
+{'loss': 0.0033, 'grad_norm': 0.1481645703315735, 'learning_rate': 2.9705e-05, 'epoch': 20.09}
+{'loss': 0.0091, 'grad_norm': 0.45300835371017456, 'learning_rate': 2.9704666666666667e-05, 'epoch': 20.09}
+{'loss': 0.0061, 'grad_norm': 0.6289262175559998, 'learning_rate': 2.9704333333333336e-05, 'epoch': 20.09}
+{'loss': 0.1376, 'grad_norm': 0.5154815316200256, 'learning_rate': 2.9704e-05, 'epoch': 20.09}
+{'loss': 0.1471, 'grad_norm': 0.49002134799957275, 'learning_rate': 2.9703666666666668e-05, 'epoch': 20.1}
+{'loss': 0.1032, 'grad_norm': 0.4354952871799469, 'learning_rate': 2.9703333333333334e-05, 'epoch': 20.1}
+{'loss': 0.0712, 'grad_norm': 0.46918243169784546, 'learning_rate': 2.9703e-05, 'epoch': 20.1}
+{'loss': 0.0663, 'grad_norm': 0.350827693939209, 'learning_rate': 2.970266666666667e-05, 'epoch': 20.1}
+{'loss': 0.0965, 'grad_norm': 0.4532705247402191, 'learning_rate': 2.9702333333333332e-05, 'epoch': 20.1}
+{'loss': 0.0687, 'grad_norm': 0.4961085915565491, 'learning_rate': 2.9702e-05, 'epoch': 20.11}
+{'loss': 0.0523, 'grad_norm': 0.41538205742836, 'learning_rate': 2.9701666666666667e-05, 'epoch': 20.11}
+{'loss': 0.0539, 'grad_norm': 0.8226404190063477, 'learning_rate': 2.9701333333333333e-05, 'epoch': 20.11}
+{'loss': 0.0602, 'grad_norm': 0.3654651343822479, 'learning_rate': 2.9701e-05, 'epoch': 20.11}
+{'loss': 0.0319, 'grad_norm': 0.3377811908721924, 'learning_rate': 2.970066666666667e-05, 'epoch': 20.11}
+{'loss': 0.0557, 'grad_norm': 0.34735211730003357, 'learning_rate': 2.9700333333333334e-05, 'epoch': 20.11}
+{'loss': 0.0273, 'grad_norm': 0.3268611431121826, 'learning_rate': 2.97e-05, 'epoch': 20.12}
+{'loss': 0.0452, 'grad_norm': 0.3331509530544281, 'learning_rate': 2.969966666666667e-05, 'epoch': 20.12}
+{'loss': 0.0233, 'grad_norm': 0.2206970751285553, 'learning_rate': 2.9699333333333332e-05, 'epoch': 20.12}
+{'loss': 0.0092, 'grad_norm': 0.30379095673561096, 'learning_rate': 2.9699e-05, 'epoch': 20.12}
+{'loss': 0.0436, 'grad_norm': 0.6868551969528198, 'learning_rate': 2.9698666666666667e-05, 'epoch': 20.12}
+{'loss': 0.0208, 'grad_norm': 0.38484877347946167, 'learning_rate': 2.9698333333333333e-05, 'epoch': 20.13}
+{'loss': 0.016, 'grad_norm': 0.2958061099052429, 'learning_rate': 2.9698e-05, 'epoch': 20.13}
+{'loss': 0.0077, 'grad_norm': 0.16953197121620178, 'learning_rate': 2.969766666666667e-05, 'epoch': 20.13}
+{'loss': 0.0121, 'grad_norm': 0.2099265456199646, 'learning_rate': 2.9697333333333335e-05, 'epoch': 20.13}
+{'loss': 0.0101, 'grad_norm': 0.2694770097732544, 'learning_rate': 2.9697e-05, 'epoch': 20.13}
+{'loss': 0.0099, 'grad_norm': 0.4015445411205292, 'learning_rate': 2.969666666666667e-05, 'epoch': 20.13}
+{'loss': 0.0103, 'grad_norm': 0.5667865872383118, 'learning_rate': 2.9696333333333332e-05, 'epoch': 20.14}
+{'loss': 0.007, 'grad_norm': 0.3129112422466278, 'learning_rate': 2.9696e-05, 'epoch': 20.14}
+{'loss': 0.0132, 'grad_norm': 0.3248129189014435, 'learning_rate': 2.9695666666666668e-05, 'epoch': 20.14}
+{'loss': 0.0073, 'grad_norm': 0.24504362046718597, 'learning_rate': 2.9695333333333334e-05, 'epoch': 20.14}
+{'loss': 0.0079, 'grad_norm': 0.3159309923648834, 'learning_rate': 2.9695e-05, 'epoch': 20.14}
+{'loss': 0.0138, 'grad_norm': 0.4856783151626587, 'learning_rate': 2.969466666666667e-05, 'epoch': 20.15}
+ 11%|█         | 10920/100000 [5:58:13<32:49:13,  1.33s/it] 11%|█         | 10921/100000 [5:58:15<32:27:16,  1.31s/it]                                                            11%|█         | 10921/100000 [5:58:15<32:27:16,  1.31s/it] 11%|█         | 10922/100000 [5:58:16<31:56:38,  1.29s/it]                                                            11%|█         | 10922/100000 [5:58:16<31:56:38,  1.29s/it] 11%|█         | 10923/100000 [5:58:17<31:17:24,  1.26s/it]                                                            11%|█         | 10923/100000 [5:58:17<31:17:24,  1.26s/it] 11%|█         | 10924/100000 [5:58:18<30:56:05,  1.25s/it]                                                            11%|█         | 10924/100000 [5:58:18<30:56:05,  1.25s/it] 11%|█         | 10925/100000 [5:58:20<30:11:24,  1.22s/it]                                                            11%|█         | 10925/100000 [5:58:20<30:11:24,  1.22s/it] 11%|█         | 10926/100000 [5:58:21<29:44:43,  1.20s/it]                                                            11%|█         | 10926/100000 [5:58:21<29:44:43,  1.20s/it] 11%|█         | 10927/100000 [5:58:22<29:19:49,  1.19s/it]                                                            11%|█         | 10927/100000 [5:58:22<29:19:49,  1.19s/it] 11%|█         | 10928/100000 [5:58:23<28:58:37,  1.17s/it]                                                            11%|█         | 10928/100000 [5:58:23<28:58:37,  1.17s/it] 11%|█         | 10929/100000 [5:58:24<28:34:35,  1.15s/it]                                                            11%|█         | 10929/100000 [5:58:24<28:34:35,  1.15s/it] 11%|█         | 10930/100000 [5:58:25<28:16:56,  1.14s/it]                                                            11%|█         | 10930/100000 [5:58:25<28:16:56,  1.14s/it] 11%|█         | 10931/100000 [5:58:26<27:54:46,  1.13s/it]                                                            11%|█         | 10931/100000 [5:58:26<27:54:46,  1.13s/it] 11%|█         | 10932/100000 [5:58:27<27:28:25,  1.11s/it]                                                            11%|█         | 10932/100000 [5:58:27<27:28:25,  1.11s/it] 11%|█         | 10933/100000 [5:58:28<27:13:08,  1.10s/it]                                                            11%|█         | 10933/100000 [5:58:28<27:13:08,  1.10s/it] 11%|█         | 10934/100000 [5:58:30<26:35:02,  1.07s/it]                                                            11%|█         | 10934/100000 [5:58:30<26:35:02,  1.07s/it] 11%|█         | 10935/100000 [5:58:31<26:04:09,  1.05s/it]                                                            11%|█         | 10935/100000 [5:58:31<26:04:09,  1.05s/it] 11%|█         | 10936/100000 [5:58:31<25:27:38,  1.03s/it]                                                            11%|█         | 10936/100000 [5:58:32<25:27:38,  1.03s/it] 11%|█         | 10937/100000 [5:58:32<24:55:17,  1.01s/it]                                                            11%|█         | 10937/100000 [5:58:32<24:55:17,  1.01s/it] 11%|█         | 10938/100000 [5:58:33<24:13:49,  1.02it/s]                                                            11%|█         | 10938/100000 [5:58:33<24:13:49,  1.02it/s] 11%|█         | 10939/100000 [5:58:34<23:42:14,  1.04it/s]                                                            11%|█         | 10939/100000 [5:58:34<23:42:14,  1.04it/s] 11%|█         | 10940/100000 [5:58:35<22:58:14,  1.08it/s]                                                            11%|█         | 10940/100000 [5:58:35<22:58:14,  1.08it/s] 11%|█         | 10941/100000 [5:58:47<103:29:13,  4.18s/it]                                                             11%|█         | 10941/100000 [5:58:47<103:29:13,  4.18s/it] 11%|█         | 10942/100000 [5:58:52<113:05:24,  4.57s/it]                                                             11%|█         | 10942/100000 [5:58:52<113:05:24,  4.57s/it] 11%|█         | 10943/100000 [5:58:57<114:44:49,  4.64s/it]                                                             11%|█         | 10943/100000 [5:58:57<114:44:49,  4.64s/it] 11%|█         | 10944/100000 [5:59:01<109:38:10,  4.43s/it]                                                             11%|█         | 10944/100000 [5:59:01<109:38:10,  4.43s/it] 11%|█         | 10945/100000 [5:59:05<102:33:07,  4.15s/it]                                                             11%|█         | 10945/100000 [5:59:05<102:33:07,  4.15s/it] 11%|█         | 10946/100000 [5:59:08<95:11:34,  3.85s/it]                                                             11%|█         | 10946/100000 [5:59:08<95:11:34,  3.85s/it] 11%|█         | 10947/100000 [5:59:11<88:55:27,  3.59s/it]                                                            11%|█         | 10947/100000 [5:59:11<88:55:27,  3.59s/it] 11%|█         | 10948/100000 [5:59:14<83:13:37,  3.36s/it]                                                            11%|█         | 10948/100000 [5:59:14<83:13:37,  3.36s/it] 11%|█         | 10949/100000 [5:59:16<77:47:06,  3.14s/it]                                                            11%|█         | 10949/100000 [5:59:16<77:47:06,  3.14s/it] 11%|█         | 10950/100000 [5:59:19<72:21:08,  2.92s/it]                                                            11%|█         | 10950/100000 [5:59:19<72:21:08,  2.92s/it] 11%|█         | 10951/100000 [5:59:21<67:30:23,  2.73s/it]                                                            11%|█         | 10951/100000 [5:59:21<67:30:23,  2.73s/it] 11%|█         | 10952/100000 [5:59:23<62:48:48,  2.54s/it]                                                            11%|█         | 10952/100000 [5:59:23<62:48:48,  2.54s/it] 11%|█         | 10953/100000 [5:59:25<58:53:06,  2.38s/it]                                                            11%|█         | 10953/100000 [5:59:25<58:53:06,  2.38s/it] 11%|█         | 10954/100000 [5:59:27<55:16:17,  2.23s/it]                                                            11%|█         | 10954/100000 [5:59:27<55:16:17,  2.23s/it] 11%|█         | 10955/100000 [5:59:29<51:27:52,  2.08s/it]                                                            11%|█         | 10955/100000 [5:59:29<51:27:52,  2.08s/it] 11%|█         | 10956/100000 [5:59:30<48:18:00,  1.95s/it]                                                            11%|█         | 10956/100000 [5:59:30<48:18:00,  1.95s/it] 11%|█         | 10957/100000 [5:59:32<46:05:43,  1.86s/it]                                                            11%|█         | 10957/100000 [5:59:32<46:05:43,  1.86s/it] 11%|█         | 10958/100000 [5:59:34<44:13:18,  1.79s/it]                                                            11%|█         | 10958/100000 [5:59:34<44:13:18,  1.79s/it] 11%|█         | 10959/100000 [5:59:35<42:32:33,  1.72s/it]                                                            11%|█         | 10959/100000 [5:59:35<42:32:33,  1.72s/it] 11%|█         | 10960/100000 [5:59:37<41:02:24,  1.66s/it]                                                            11%|█         | 10960/100000 [5:59:37<41:02:24,  1.66s/it] 11%|█         | 10961/100000 [5:59:38<39:43:19,  1.61s/it]                                                            11%|█         | 10961/100000 [5:59:38<39:43:19,  1.61s/it] 11%|█         | 10962/100000 [5:59:40<38:36:31,  1.56s/it]                                                            11%|█         | 10962/100000 [5:59:40<38:36:31,  1.56s/it] 11%|█         | 10963/100000 [5:59:41<37:40:10,  1.52s/it]                                                            11%|█         | 10963/100000 [5:59:41<37:40:10,  1.52s/it] 11%|█         | 10964/100000 [5:59:42<36:50:22,  1.49s/it]                                                            11%|█         | 10964/100000 [5:59:42<36:50:22,  1.49s/it] 11%|█         | 10965/100000 [5:59:44<36:00:06,  1.46s/it]                                                            11%|█         | 10965/100000 [5:59:44<36:00:06,  1.46s/it] 11%|█         | 10966/100000 [5:59:45<35:08:24,  1.42s/it]                                                            11%|█         | 10966/100000 [5:59:45<35:08:24,  1.42s/it] 11%|█         | 10967/100000 [5:59:46<34:26:02,  1.39s/it]                                                            11%|█         | 10967/100000 [5:59:46<34:26:02,  1.39s/it] 11%|█         | 10968/100000 [5:59:48<33:58:45,  1.37s/it]                                                            11%|█         | 10968/100000 [5:59:48<33:58:45,  1.37s/it] 11%|█         | 10969/100000 [5:59:49<33:23:33,  1.35s/it]                                                            11%|█         | 10969/100000 [5:59:49<33:23:33,  1.35s/it] 11%|█         | 10970/100000 [5:59:50<32:58:57,  1.33s/it]                                                            11%|█         | 10970/100000 [5:59:50<32:58:57,  1.33s/it] 11%|█         | 10971/100000 [5:59:52<32:36:23,  1.32s/it]                                                            11%|█         | 10971/100000 [5:59:52<32:36:23,  1.32s/it] 11%|█         | 10972/100000 [5:59:53<32:03:53,  1.30s/it]                                                            11%|█         | 10972/100000 [5:59:53<32:03:53,  1.30s/it] 11%|█         | 10973/100000 [5:59:54<31:33:12,  1.28s/it]                                                            11%|█         | 10973/100000 [5:59:54<31:33:12,  1.28s/it] 11%|█         | 10974/100000 [5:59:55<30:59:12,  1.25s/it]                                                            11%|█         | 10974/100000 [5:59:55<30:59:12,  1.25s/it] 11%|█         | 10975/100000 [5:59:56<30:15:55,  1.22s/it]                                                            11%|█         | 10975/100000 [5:59:56<30:15:55,  1.22s/it] 11%|█         | 10976/100000 [5:59:58<29:37:25,  1.20s/it]                                                            11%|█         | 10976/100000 [5:59:58<29:37:25,  1.20s/it] 11%|█         | 10977/100000 [5:59:59<29:14:34,  1.18s/it]                                                            11%|█         | 10977/100000 [5:59:59<29:14:34,  1.18s/it] 11%|█         | 10978/100000 [6:00:00<28:53:43,  1.17s/it]                                                            11%|█         | 10978/100000 [6:00:00<28:53:43,  1.17s/it] 11%|█         | 10979/100000 [6:00:01<28:22:53,  1.15s/it]                                                            11%|█         | 10979/100000 [6:00:01<28:22:53,  1.15s/it] 11%|█         | 10980/100000 [6:00:02<28:07:52,  1.14s/it]                                                            11%|█         | 10980/100000 [6:00:02<28:07:52,  1.14s/it] 11%|█         | 10981/100000 [6:00:03<27:53:03,  1.13s/it]                                                            11%|█         | 10981/100000 [6:00:03<27:53:03,  1.13s/it] 11%|█         | 10982/100000 [6:00:04<27:30:12,  1.11s/it]                                                            11%|█         | 10982/100000 [6:00:04<27:30:12,  1.11s/it] 11%|█         | 10983/100000 [6:00:05<27:08:30,  1.10s/it]                                                            11%|█         | 10983/100000 [6:00:05<27:08:30,  1.10s/it] 11%|█         | 10984/100000 [6:00:06<26:37:13,  1.08s/it]                                                            11%|█         | 10984/100000 [6:00:06<26:37:13,  1.08s/it] 11%|█         | 10985/100000 [6:00:07<25:55:03,  1.05s/it]                                                            11%|█         | 10985/100000 [6:00:07<25:55:03,  1.05s/it] 11%|█         | 10986/100000 [6:00:08<25:23:32,  1.03s/it]                                                            11%|█         | 10986/100000 [6:00:08<25:23:32,  1.03s/it] 11%|█         | 10987/100000 [6:00:09<24:57:05,  1.01s/it]                                                            11%|█         | 10987/100000 [6:00:09<24:57:05,  1.01s/it] 11%|█         | 10988/100000 [6:00:10<24:41:51,  1.00it/s]                                                            11%|█         | 10988/100000 [6:00:10<24:41:51,  1.00it/s] 11%|█         | 10989/100000 [6:00:11<24:18:58,  1.02it/s]                                                            11%|█         | 10989/100000 [6:00:11<24:18:58,  1.02it/s] 11%|█         | 10990/100000 [6:00:12<23:35:30,  1.05it/s]                                                            11%|█         | 10990/100000 [6:00:12<23:35:30,  1.05it/s] 11%|█         | 10991/100000 [6:00:23<95:21:13,  3.86s/it]                                                            11%|█         | 10991/100000 [6:00:23<95:21:13,  3.86s/it] 11%|█         | 10992/100000 [6:00:28<107:39:23,  4.35s/it]                                                             11%|█         | 10992/100000 [6:00:28<107:39:23,  4.35s/it] 11%|█         | 10993/100000 [6:00:33<109:05:53,  4.41s/it]                                                             11%|█         | 10993/100000 [6:00:33<109:05:53,  4.41s/it] 11%|█         | 10994/100000 [6:00:37<104:20:37,  4.22s/it]                                                             11%|█         | 10994/100000 [6:00:37<104:20:37,  4.22s/it] 11%|█         | 10995/100000 [6:00:40<98:36:21,  3.99s/it]                                                             11%|█         | 10995/100000 [6:00:40<98:36:21,  3.99s/it] 11%|█         | 10996/100000 [6:00:43<92:40:58,  3.75s/it]                                                            11%|█         | 10996/100000 [6:00:43<92:40:58,  3.75s/it] 11%|█         | 10997/100000 [6:00:46<85:00:24,  3.44s/it]                                                            11%|█         | 10997/100000 [6:00:46<85:00:24,  3.44s/it] 11%|█         | 10998/100000 [6:00:49<78:47:28,  3.19s/it]                                                           {'loss': 0.0057, 'grad_norm': 0.3120325803756714, 'learning_rate': 2.9694333333333335e-05, 'epoch': 20.15}
+{'loss': 0.0064, 'grad_norm': 0.25674888491630554, 'learning_rate': 2.9694e-05, 'epoch': 20.15}
+{'loss': 0.004, 'grad_norm': 0.17604240775108337, 'learning_rate': 2.969366666666667e-05, 'epoch': 20.15}
+{'loss': 0.0107, 'grad_norm': 0.3554757237434387, 'learning_rate': 2.9693333333333333e-05, 'epoch': 20.15}
+{'loss': 0.012, 'grad_norm': 0.31348365545272827, 'learning_rate': 2.9693000000000002e-05, 'epoch': 20.16}
+{'loss': 0.0082, 'grad_norm': 0.39087775349617004, 'learning_rate': 2.9692666666666668e-05, 'epoch': 20.16}
+{'loss': 0.0078, 'grad_norm': 0.24652767181396484, 'learning_rate': 2.9692333333333334e-05, 'epoch': 20.16}
+{'loss': 0.0133, 'grad_norm': 0.3166562616825104, 'learning_rate': 2.9692000000000003e-05, 'epoch': 20.16}
+{'loss': 0.0087, 'grad_norm': 0.2203536182641983, 'learning_rate': 2.9691666666666666e-05, 'epoch': 20.16}
+{'loss': 0.0117, 'grad_norm': 0.2523220181465149, 'learning_rate': 2.9691333333333335e-05, 'epoch': 20.16}
+{'loss': 0.0143, 'grad_norm': 0.6120240092277527, 'learning_rate': 2.9691e-05, 'epoch': 20.17}
+{'loss': 0.0097, 'grad_norm': 0.34441477060317993, 'learning_rate': 2.9690666666666667e-05, 'epoch': 20.17}
+{'loss': 0.0057, 'grad_norm': 0.35958561301231384, 'learning_rate': 2.9690333333333333e-05, 'epoch': 20.17}
+{'loss': 0.0064, 'grad_norm': 0.20114681124687195, 'learning_rate': 2.9690000000000002e-05, 'epoch': 20.17}
+{'loss': 0.0136, 'grad_norm': 0.40742751955986023, 'learning_rate': 2.9689666666666665e-05, 'epoch': 20.17}
+{'loss': 0.0075, 'grad_norm': 0.21357586979866028, 'learning_rate': 2.9689333333333334e-05, 'epoch': 20.18}
+{'loss': 0.0073, 'grad_norm': 0.2256045937538147, 'learning_rate': 2.9689000000000003e-05, 'epoch': 20.18}
+{'loss': 0.0132, 'grad_norm': 1.3588895797729492, 'learning_rate': 2.9688666666666666e-05, 'epoch': 20.18}
+{'loss': 0.0066, 'grad_norm': 0.20366744697093964, 'learning_rate': 2.9688333333333335e-05, 'epoch': 20.18}
+{'loss': 0.0058, 'grad_norm': 0.20821727812290192, 'learning_rate': 2.9688e-05, 'epoch': 20.18}
+{'loss': 0.0052, 'grad_norm': 0.15946674346923828, 'learning_rate': 2.9687666666666667e-05, 'epoch': 20.18}
+{'loss': 0.1196, 'grad_norm': 0.46555081009864807, 'learning_rate': 2.9687333333333333e-05, 'epoch': 20.19}
+{'loss': 0.1611, 'grad_norm': 0.5835827589035034, 'learning_rate': 2.9687000000000002e-05, 'epoch': 20.19}
+{'loss': 0.1476, 'grad_norm': 0.5876694321632385, 'learning_rate': 2.9686666666666665e-05, 'epoch': 20.19}
+{'loss': 0.0706, 'grad_norm': 0.37970054149627686, 'learning_rate': 2.9686333333333334e-05, 'epoch': 20.19}
+{'loss': 0.0907, 'grad_norm': 0.5568404793739319, 'learning_rate': 2.9686000000000003e-05, 'epoch': 20.19}
+{'loss': 0.0511, 'grad_norm': 0.3703577220439911, 'learning_rate': 2.9685666666666666e-05, 'epoch': 20.2}
+{'loss': 0.0769, 'grad_norm': 0.4699932634830475, 'learning_rate': 2.9685333333333335e-05, 'epoch': 20.2}
+{'loss': 0.0718, 'grad_norm': 0.50783371925354, 'learning_rate': 2.9685e-05, 'epoch': 20.2}
+{'loss': 0.0514, 'grad_norm': 0.47592678666114807, 'learning_rate': 2.9684666666666667e-05, 'epoch': 20.2}
+{'loss': 0.0467, 'grad_norm': 0.4134548306465149, 'learning_rate': 2.9684333333333333e-05, 'epoch': 20.2}
+{'loss': 0.0494, 'grad_norm': 0.4005981981754303, 'learning_rate': 2.9684000000000002e-05, 'epoch': 20.2}
+{'loss': 0.0497, 'grad_norm': 0.35495683550834656, 'learning_rate': 2.968366666666667e-05, 'epoch': 20.21}
+{'loss': 0.0386, 'grad_norm': 0.3859303593635559, 'learning_rate': 2.9683333333333334e-05, 'epoch': 20.21}
+{'loss': 0.0125, 'grad_norm': 0.4294539988040924, 'learning_rate': 2.9683000000000004e-05, 'epoch': 20.21}
+{'loss': 0.0209, 'grad_norm': 0.23544616997241974, 'learning_rate': 2.9682666666666666e-05, 'epoch': 20.21}
+{'loss': 0.0429, 'grad_norm': 0.2471626102924347, 'learning_rate': 2.9682333333333335e-05, 'epoch': 20.21}
+{'loss': 0.0265, 'grad_norm': 0.2147773653268814, 'learning_rate': 2.9681999999999998e-05, 'epoch': 20.22}
+{'loss': 0.0147, 'grad_norm': 0.20125578343868256, 'learning_rate': 2.9681666666666667e-05, 'epoch': 20.22}
+{'loss': 0.0075, 'grad_norm': 0.37904635071754456, 'learning_rate': 2.9681333333333333e-05, 'epoch': 20.22}
+{'loss': 0.0311, 'grad_norm': 0.4701364040374756, 'learning_rate': 2.9681e-05, 'epoch': 20.22}
+{'loss': 0.0734, 'grad_norm': 0.4250022768974304, 'learning_rate': 2.968066666666667e-05, 'epoch': 20.22}
+{'loss': 0.0054, 'grad_norm': 0.22264167666435242, 'learning_rate': 2.9680333333333334e-05, 'epoch': 20.23}
+{'loss': 0.0032, 'grad_norm': 0.08203784376382828, 'learning_rate': 2.968e-05, 'epoch': 20.23}
+{'loss': 0.0142, 'grad_norm': 0.2587185204029083, 'learning_rate': 2.9679666666666666e-05, 'epoch': 20.23}
+{'loss': 0.0133, 'grad_norm': 0.47471538186073303, 'learning_rate': 2.9679333333333336e-05, 'epoch': 20.23}
+{'loss': 0.0109, 'grad_norm': 0.612973690032959, 'learning_rate': 2.9678999999999998e-05, 'epoch': 20.23}
+{'loss': 0.0105, 'grad_norm': 0.4560556411743164, 'learning_rate': 2.9678666666666668e-05, 'epoch': 20.23}
+{'loss': 0.0099, 'grad_norm': 0.25839492678642273, 'learning_rate': 2.9678333333333334e-05, 'epoch': 20.24}
+{'loss': 0.0078, 'grad_norm': 0.16658927500247955, 'learning_rate': 2.9678e-05, 'epoch': 20.24}
+{'loss': 0.0072, 'grad_norm': 0.37365013360977173, 'learning_rate': 2.967766666666667e-05, 'epoch': 20.24}
+{'loss': 0.0802, 'grad_norm': 0.2552949786186218, 'learning_rate': 2.9677333333333335e-05, 'epoch': 20.24}
+{'loss': 0.0102, 'grad_norm': 0.37917381525039673, 'learning_rate': 2.9677e-05, 'epoch': 20.24}
+{'loss': 0.0123, 'grad_norm': 0.2963426411151886, 'learning_rate': 2.9676666666666667e-05, 'epoch': 20.25}
+{'loss': 0.0096, 'grad_norm': 0.20354008674621582, 'learning_rate': 2.9676333333333336e-05, 'epoch': 20.25}
+{'loss': 0.0049, 'grad_norm': 0.18017128109931946, 'learning_rate': 2.9676e-05, 'epoch': 20.25}
+{'loss': 0.0078, 'grad_norm': 0.5300956964492798, 'learning_rate': 2.9675666666666668e-05, 'epoch': 20.25}
+{'loss': 0.0069, 'grad_norm': 0.31972944736480713, 'learning_rate': 2.9675333333333337e-05, 'epoch': 20.25}
+{'loss': 0.0096, 'grad_norm': 0.28348520398139954, 'learning_rate': 2.9675e-05, 'epoch': 20.25}
+{'loss': 0.0149, 'grad_norm': 0.4289419949054718, 'learning_rate': 2.967466666666667e-05, 'epoch': 20.26}
+{'loss': 0.0074, 'grad_norm': 0.3754739463329315, 'learning_rate': 2.9674333333333335e-05, 'epoch': 20.26}
+{'loss': 0.0058, 'grad_norm': 0.2263016402721405, 'learning_rate': 2.9674e-05, 'epoch': 20.26}
+{'loss': 0.0095, 'grad_norm': 0.2127392590045929, 'learning_rate': 2.9673666666666667e-05, 'epoch': 20.26}
+{'loss': 0.0076, 'grad_norm': 0.2642723321914673, 'learning_rate': 2.9673333333333336e-05, 'epoch': 20.26}
+{'loss': 0.0221, 'grad_norm': 0.7602730393409729, 'learning_rate': 2.9673e-05, 'epoch': 20.27}
+{'loss': 0.0107, 'grad_norm': 0.36623716354370117, 'learning_rate': 2.9672666666666668e-05, 'epoch': 20.27}
+{'loss': 0.0084, 'grad_norm': 0.3910073935985565, 'learning_rate': 2.9672333333333334e-05, 'epoch': 20.27}
+{'loss': 0.0073, 'grad_norm': 0.412586510181427, 'learning_rate': 2.9672e-05, 'epoch': 20.27}
+{'loss': 0.0054, 'grad_norm': 0.3259273171424866, 'learning_rate': 2.967166666666667e-05, 'epoch': 20.27}
+{'loss': 0.0077, 'grad_norm': 0.15527020394802094, 'learning_rate': 2.9671333333333332e-05, 'epoch': 20.28}
+{'loss': 0.0196, 'grad_norm': 0.34989339113235474, 'learning_rate': 2.9671e-05, 'epoch': 20.28}
+{'loss': 0.1234, 'grad_norm': 0.5065251588821411, 'learning_rate': 2.9670666666666667e-05, 'epoch': 20.28}
+{'loss': 0.201, 'grad_norm': 0.5200304388999939, 'learning_rate': 2.9670333333333333e-05, 'epoch': 20.28}
+{'loss': 0.1444, 'grad_norm': 0.5644885897636414, 'learning_rate': 2.967e-05, 'epoch': 20.28}
+{'loss': 0.1003, 'grad_norm': 0.5528456568717957, 'learning_rate': 2.9669666666666668e-05, 'epoch': 20.28}
+{'loss': 0.0624, 'grad_norm': 0.5606066584587097, 'learning_rate': 2.9669333333333334e-05, 'epoch': 20.29}
+{'loss': 0.0414, 'grad_norm': 0.5903345346450806, 'learning_rate': 2.9669e-05, 'epoch': 20.29}
+{'loss': 0.0666, 'grad_norm': 0.471769779920578, 'learning_rate': 2.966866666666667e-05, 'epoch': 20.29}
+ 11%|█         | 10998/100000 [6:00:49<78:47:28,  3.19s/it] 11%|█         | 10999/100000 [6:00:51<73:15:42,  2.96s/it]                                                            11%|█         | 10999/100000 [6:00:51<73:15:42,  2.96s/it] 11%|█         | 11000/100000 [6:00:53<68:18:31,  2.76s/it]                                                            11%|█         | 11000/100000 [6:00:53<68:18:31,  2.76s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0724, 'grad_norm': 0.5256743431091309, 'learning_rate': 2.9668333333333332e-05, 'epoch': 20.29}
+{'loss': 0.0388, 'grad_norm': 0.41306188702583313, 'learning_rate': 2.9668e-05, 'epoch': 20.29}
+{'loss': 0.0516, 'grad_norm': 0.46824705600738525, 'learning_rate': 2.9667666666666667e-05, 'epoch': 20.3}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.79it/s][A
+ 30%|███       | 3/10 [00:01<00:05,  1.36it/s][A
+ 40%|████      | 4/10 [00:02<00:03,  1.57it/s][A
+ 50%|█████     | 5/10 [00:03<00:04,  1.08it/s][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.25it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.15s/it][A
+ 80%|████████  | 8/10 [00:06<00:01,  1.04it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.28s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.00s/it][A                                                           
+                                               [A 11%|█         | 11000/100000 [6:01:27<68:18:31,  2.76s/it]
+100%|██████████| 10/10 [00:10<00:00,  1.00s/it][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-11000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-11000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-11000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-11000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-11000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-11000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-11000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-10000] due to args.save_total_limit
+ 11%|█         | 11001/100000 [6:01:41<404:06:38, 16.35s/it]                                                             11%|█         | 11001/100000 [6:01:41<404:06:38, 16.35s/it] 11%|█         | 11002/100000 [6:01:43<297:42:13, 12.04s/it]                                                             11%|█         | 11002/100000 [6:01:43<297:42:13, 12.04s/it] 11%|█         | 11003/100000 [6:01:45<222:28:39,  9.00s/it]                                                             11%|█         | 11003/100000 [6:01:45<222:28:39,  9.00s/it] 11%|█         | 11004/100000 [6:01:47<169:03:32,  6.84s/it]                                                             11%|█         | 11004/100000 [6:01:47<169:03:32,  6.84s/it] 11%|█         | 11005/100000 [6:01:49<131:09:59,  5.31s/it]                                                             11%|█         | 11005/100000 [6:01:49<131:09:59,  5.31s/it] 11%|█         | 11006/100000 [6:01:50<104:05:33,  4.21s/it]                                                             11%|█         | 11006/100000 [6:01:50<104:05:33,  4.21s/it] 11%|█         | 11007/100000 [6:01:52<84:43:43,  3.43s/it]                                                             11%|█         | 11007/100000 [6:01:52<84:43:43,  3.43s/it] 11%|█         | 11008/100000 [6:01:54<71:10:17,  2.88s/it]                                                            11%|█         | 11008/100000 [6:01:54<71:10:17,  2.88s/it] 11%|█         | 11009/100000 [6:01:55<61:01:18,  2.47s/it]                                                            11%|█         | 11009/100000 [6:01:55<61:01:18,  2.47s/it] 11%|█         | 11010/100000 [6:01:57<53:26:43,  2.16s/it]                                                            11%|█         | 11010/100000 [6:01:57<53:26:43,  2.16s/it] 11%|█         | 11011/100000 [6:01:58<48:27:09,  1.96s/it]                                                            11%|█         | 11011/100000 [6:01:58<48:27:09,  1.96s/it] 11%|█         | 11012/100000 [6:01:59<44:22:41,  1.80s/it]                                                            11%|█         | 11012/100000 [6:01:59<44:22:41,  1.80s/it] 11%|█         | 11013/100000 [6:02:01<41:31:35,  1.68s/it]                                                            11%|█         | 11013/100000 [6:02:01<41:31:35,  1.68s/it] 11%|█         | 11014/100000 [6:02:02<39:22:27,  1.59s/it]                                                            11%|█         | 11014/100000 [6:02:02<39:22:27,  1.59s/it] 11%|█         | 11015/100000 [6:02:04<37:42:46,  1.53s/it]                                                            11%|█         | 11015/100000 [6:02:04<37:42:46,  1.53s/it] 11%|█         | 11016/100000 [6:02:05<36:21:11,  1.47s/it]                                                            11%|█         | 11016/100000 [6:02:05<36:21:11,  1.47s/it] 11%|█         | 11017/100000 [6:02:06<35:31:05,  1.44s/it]                                                            11%|█         | 11017/100000 [6:02:06<35:31:05,  1.44s/it] 11%|█         | 11018/100000 [6:02:08<34:20:56,  1.39s/it]                                                            11%|█         | 11018/100000 [6:02:08<34:20:56,  1.39s/it] 11%|█         | 11019/100000 [6:02:09<33:45:59,  1.37s/it]                                                            11%|█         | 11019/100000 [6:02:09<33:45:59,  1.37s/it] 11%|█         | 11020/100000 [6:02:10<33:13:28,  1.34s/it]                                                            11%|█         | 11020/100000 [6:02:10<33:13:28,  1.34s/it] 11%|█         | 11021/100000 [6:02:11<32:27:24,  1.31s/it]                                                            11%|█         | 11021/100000 [6:02:11<32:27:24,  1.31s/it] 11%|█         | 11022/100000 [6:02:13<31:37:27,  1.28s/it]                                                            11%|█         | 11022/100000 [6:02:13<31:37:27,  1.28s/it] 11%|█         | 11023/100000 [6:02:14<31:14:01,  1.26s/it]                                                            11%|█         | 11023/100000 [6:02:14<31:14:01,  1.26s/it] 11%|█         | 11024/100000 [6:02:15<30:38:22,  1.24s/it]                                                            11%|█         | 11024/100000 [6:02:15<30:38:22,  1.24s/it] 11%|█         | 11025/100000 [6:02:16<29:44:36,  1.20s/it]                                                            11%|█         | 11025/100000 [6:02:16<29:44:36,  1.20s/it] 11%|█         | 11026/100000 [6:02:17<29:24:07,  1.19s/it]                                                            11%|█         | 11026/100000 [6:02:17<29:24:07,  1.19s/it] 11%|█         | 11027/100000 [6:02:18<28:39:53,  1.16s/it]                                                            11%|█         | 11027/100000 [6:02:18<28:39:53,  1.16s/it] 11%|█         | 11028/100000 [6:02:20<28:34:40,  1.16s/it]                                                            11%|█         | 11028/100000 [6:02:20<28:34:40,  1.16s/it] 11%|█         | 11029/100000 [6:02:21<28:01:22,  1.13s/it]                                                            11%|█         | 11029/100000 [6:02:21<28:01:22,  1.13s/it] 11%|█         | 11030/100000 [6:02:22<27:41:35,  1.12s/it]                                                            11%|█         | 11030/100000 [6:02:22<27:41:35,  1.12s/it] 11%|█         | 11031/100000 [6:02:23<27:26:54,  1.11s/it]                                                            11%|█         | 11031/100000 [6:02:23<27:26:54,  1.11s/it] 11%|█         | 11032/100000 [6:02:24<27:19:06,  1.11s/it]                                                            11%|█         | 11032/100000 [6:02:24<27:19:06,  1.11s/it] 11%|█         | 11033/100000 [6:02:25<26:59:06,  1.09s/it]                                                            11%|█         | 11033/100000 [6:02:25<26:59:06,  1.09s/it] 11%|█         | 11034/100000 [6:02:26<26:53:17,  1.09s/it]                                                            11%|█         | 11034/100000 [6:02:26<26:53:17,  1.09s/it] 11%|█         | 11035/100000 [6:02:27<26:43:28,  1.08s/it]                                                            11%|█         | 11035/100000 [6:02:27<26:43:28,  1.08s/it] 11%|█         | 11036/100000 [6:02:28<26:09:38,  1.06s/it]                                                            11%|█         | 11036/100000 [6:02:28<26:09:38,  1.06s/it] 11%|█         | 11037/100000 [6:02:29<25:39:05,  1.04s/it]                                                            11%|█         | 11037/100000 [6:02:29<25:39:05,  1.04s/it] 11%|█         | 11038/100000 [6:02:30<25:11:21,  1.02s/it]                                                            11%|█         | 11038/100000 [6:02:30<25:11:21,  1.02s/it] 11%|█         | 11039/100000 [6:02:31<24:19:28,  1.02it/s]                                                            11%|█         | 11039/100000 [6:02:31<24:19:28,  1.02it/s] 11%|█         | 11040/100000 [6:02:32<23:55:15,  1.03it/s]                                                            11%|█         | 11040/100000 [6:02:32<23:55:15,  1.03it/s] 11%|█         | 11041/100000 [6:02:44<103:10:38,  4.18s/it]                                                             11%|█         | 11041/100000 [6:02:44<103:10:38,  4.18s/it] 11%|█         | 11042/100000 [6:02:49<113:51:43,  4.61s/it]                                                             11%|█         | 11042/100000 [6:02:49<113:51:43,  4.61s/it] 11%|█         | 11043/100000 [6:02:54<113:45:41,  4.60s/it]                                                             11%|█         | 11043/100000 [6:02:54<113:45:41,  4.60s/it] 11%|█         | 11044/100000 [6:02:58<107:23:46,  4.35s/it]                                                             11%|█         | 11044/100000 [6:02:58<107:23:46,  4.35s/it] 11%|█         | 11045/100000 [6:03:01<101:31:43,  4.11s/it]                                                             11%|█         | 11045/100000 [6:03:01<101:31:43,  4.11s/it] 11%|█         | 11046/100000 [6:03:04<95:08:43,  3.85s/it]                                                             11%|█         | 11046/100000 [6:03:04<95:08:43,  3.85s/it] 11%|█         | 11047/100000 [6:03:07<88:44:01,  3.59s/it]                                                            11%|█         | 11047/100000 [6:03:07<88:44:01,  3.59s/it] 11%|█         | 11048/100000 [6:03:10<82:24:47,  3.34s/it]                                                            11%|█         | 11048/100000 [6:03:10<82:24:47,  3.34s/it] 11%|█         | 11049/100000 [6:03:13<76:10:19,  3.08s/it]                                                            11%|█         | 11049/100000 [6:03:13<76:10:19,  3.08s/it] 11%|█         | 11050/100000 [6:03:15<69:59:28,  2.83s/it]                                                            11%|█         | 11050/100000 [6:03:15<69:59:28,  2.83s/it] 11%|█         | 11051/100000 [6:03:17<65:06:44,  2.64s/it]                                                            11%|█         | 11051/100000 [6:03:17<65:06:44,  2.64s/it] 11%|█         | 11052/100000 [6:03:19<60:33:39,  2.45s/it]                                                            11%|█         | 11052/100000 [6:03:19<60:33:39,  2.45s/it] 11%|█         | 11053/100000 [6:03:21<56:04:23,  2.27s/it]                                                            11%|█         | 11053/100000 [6:03:21<56:04:23,  2.27s/it] 11%|█         | 11054/100000 [6:03:23<51:53:03,  2.10s/it]                                                            11%|█         | 11054/100000 [6:03:23<51:53:03,  2.10s/it] 11%|█         | 11055/100000 [6:03:24<48:37:54,  1.97s/it]                                                            11%|█         | 11055/100000 [6:03:24<48:37:54,  1.97s/it] 11%|█         | 11056/100000 [6:03:26<46:04:07,  1.86s/it]                                                            11%|█         | 11056/100000 [6:03:26<46:04:07,  1.86s/it] 11%|█         | 11057/100000 [6:03:27<44:21:02,  1.80s/it]                                                            11%|█         | 11057/100000 [6:03:27<44:21:02,  1.80s/it] 11%|█         | 11058/100000 [6:03:29<42:42:47,  1.73s/it]                                                            11%|█         | 11058/100000 [6:03:29<42:42:47,  1.73s/it] 11%|█         | 11059/100000 [6:03:31<40:46:11,  1.65s/it]                                                            11%|█         | 11059/100000 [6:03:31<40:46:11,  1.65s/it] 11%|█         | 11060/100000 [6:03:32<39:28:00,  1.60s/it]                                                            11%|█         | 11060/100000 [6:03:32<39:28:00,  1.60s/it] 11%|█         | 11061/100000 [6:03:33<38:23:19,  1.55s/it]                                                            11%|█         | 11061/100000 [6:03:33<38:23:19,  1.55s/it] 11%|█         | 11062/100000 [6:03:35<37:14:09,  1.51s/it]                                                            11%|█         | 11062/100000 [6:03:35<37:14:09,  1.51s/it] 11%|█         | 11063/100000 [6:03:36<36:32:43,  1.48s/it]                                                            11%|█         | 11063/100000 [6:03:36<36:32:43,  1.48s/it] 11%|█         | 11064/100000 [6:03:38<35:48:31,  1.45s/it]                                                            11%|█         | 11064/100000 [6:03:38<35:48:31,  1.45s/it] 11%|█         | 11065/100000 [6:03:39<35:09:07,  1.42s/it]                                                            11%|█         | 11065/100000 [6:03:39<35:09:07,  1.42s/it] 11%|█         | 11066/100000 [6:03:40<34:38:17,  1.40s/it]                                                            11%|█         | 11066/100000 [6:03:40<34:38:17,  1.40s/it] 11%|█         | 11067/100000 [6:03:42<33:51:01,  1.37s/it]                                                            11%|█         | 11067/100000 [6:03:42<33:51:01,  1.37s/it] 11%|█         | 11068/100000 [6:03:43<33:20:01,  1.35s/it]                                                            11%|█         | 11068/100000 [6:03:43<33:20:01,  1.35s/it] 11%|█         | 11069/100000 [6:03:44<32:42:24,  1.32s/it]                                                            11%|█         | 11069/100000 [6:03:44<32:42:24,  1.32s/it] 11%|█         | 11070/100000 [6:03:46<32:26:10,  1.31s/it]                                                            11%|█         | 11070/100000 [6:03:46<32:26:10,  1.31s/it] 11%|█         | 11071/100000 [6:03:47<31:49:41,  1.29s/it]                                                            11%|█         | 11071/100000 [6:03:47<31:49:41,  1.29s/it] 11%|█         | 11072/100000 [6:03:48<31:25:57,  1.27s/it]                                                            11%|█         | 11072/100000 [6:03:48<31:25:57,  1.27s/it] 11%|█         | 11073/100000 [6:03:49<30:58:53,  1.25s/it]                                                            11%|█         | 11073/100000 [6:03:49<30:58:53,  1.25s/it] 11%|█         | 11074/100000 [6:03:50<30:11:52,  1.22s/it]                                                            11%|█         | 11074/100000 [6:03:50<30:11:52,  1.22s/it] 11%|█         | 11075/100000 [6:03:52<29:44:47,  1.20s/it]                                                            11%|█         | 11075/100000 [6:03:52<29:44:47,  1.20s/it] 11%|█         | 11076/100000 [6:03:53<29:20:17,  1.19s/it]                                                            11%|█         | 11076/100000 [6:03:53<29:20:17,  1.19s/it] 11%|█         | 11077/100000 [6:03:54<28:51:43,  1.17s/it]                                                           {'eval_loss': 0.30857551097869873, 'eval_wer': 0.37010744435917114, 'eval_cer': 0.1074992871400057, 'eval_runtime': 16.2156, 'eval_samples_per_second': 18.747, 'eval_steps_per_second': 0.617, 'epoch': 20.3}
+{'loss': 0.0344, 'grad_norm': 0.4235368072986603, 'learning_rate': 2.9667333333333333e-05, 'epoch': 20.3}
+{'loss': 0.0277, 'grad_norm': 0.6765577793121338, 'learning_rate': 2.9667000000000002e-05, 'epoch': 20.3}
+{'loss': 0.0208, 'grad_norm': 0.276685893535614, 'learning_rate': 2.966666666666667e-05, 'epoch': 20.3}
+{'loss': 0.024, 'grad_norm': 0.2812119722366333, 'learning_rate': 2.9666333333333334e-05, 'epoch': 20.3}
+{'loss': 0.028, 'grad_norm': 0.33644866943359375, 'learning_rate': 2.9666e-05, 'epoch': 20.3}
+{'loss': 0.0174, 'grad_norm': 0.198531374335289, 'learning_rate': 2.966566666666667e-05, 'epoch': 20.31}
+{'loss': 0.0096, 'grad_norm': 0.19303059577941895, 'learning_rate': 2.9665333333333332e-05, 'epoch': 20.31}
+{'loss': 0.0146, 'grad_norm': 0.26009589433670044, 'learning_rate': 2.9665e-05, 'epoch': 20.31}
+{'loss': 0.0158, 'grad_norm': 0.34054481983184814, 'learning_rate': 2.9664666666666667e-05, 'epoch': 20.31}
+{'loss': 0.0059, 'grad_norm': 0.1274450719356537, 'learning_rate': 2.9664333333333333e-05, 'epoch': 20.31}
+{'loss': 0.0063, 'grad_norm': 0.41350147128105164, 'learning_rate': 2.9664000000000003e-05, 'epoch': 20.32}
+{'loss': 0.0108, 'grad_norm': 0.39728933572769165, 'learning_rate': 2.966366666666667e-05, 'epoch': 20.32}
+{'loss': 0.0109, 'grad_norm': 0.3444744646549225, 'learning_rate': 2.9663333333333334e-05, 'epoch': 20.32}
+{'loss': 0.0098, 'grad_norm': 0.30115723609924316, 'learning_rate': 2.9663e-05, 'epoch': 20.32}
+{'loss': 0.0034, 'grad_norm': 0.12758363783359528, 'learning_rate': 2.966266666666667e-05, 'epoch': 20.32}
+{'loss': 0.01, 'grad_norm': 0.32861289381980896, 'learning_rate': 2.9662333333333332e-05, 'epoch': 20.33}
+{'loss': 0.0337, 'grad_norm': 0.4190202057361603, 'learning_rate': 2.9662e-05, 'epoch': 20.33}
+{'loss': 0.0061, 'grad_norm': 0.24281994998455048, 'learning_rate': 2.9661666666666664e-05, 'epoch': 20.33}
+{'loss': 0.0131, 'grad_norm': 0.2888421416282654, 'learning_rate': 2.9661333333333333e-05, 'epoch': 20.33}
+{'loss': 0.0076, 'grad_norm': 0.27400413155555725, 'learning_rate': 2.9661000000000003e-05, 'epoch': 20.33}
+{'loss': 0.0121, 'grad_norm': 0.35427457094192505, 'learning_rate': 2.9660666666666665e-05, 'epoch': 20.33}
+{'loss': 0.0069, 'grad_norm': 0.27263957262039185, 'learning_rate': 2.9660333333333335e-05, 'epoch': 20.34}
+{'loss': 0.0055, 'grad_norm': 0.15267528593540192, 'learning_rate': 2.966e-05, 'epoch': 20.34}
+{'loss': 0.0055, 'grad_norm': 0.21431012451648712, 'learning_rate': 2.9659666666666667e-05, 'epoch': 20.34}
+{'loss': 0.0098, 'grad_norm': 0.5318107604980469, 'learning_rate': 2.9659333333333332e-05, 'epoch': 20.34}
+{'loss': 0.0018, 'grad_norm': 0.07205729931592941, 'learning_rate': 2.9659000000000002e-05, 'epoch': 20.34}
+{'loss': 0.0069, 'grad_norm': 0.22027286887168884, 'learning_rate': 2.9658666666666668e-05, 'epoch': 20.35}
+{'loss': 0.006, 'grad_norm': 0.21012485027313232, 'learning_rate': 2.9658333333333334e-05, 'epoch': 20.35}
+{'loss': 0.0065, 'grad_norm': 0.15638655424118042, 'learning_rate': 2.9658000000000003e-05, 'epoch': 20.35}
+{'loss': 0.0186, 'grad_norm': 0.5567883253097534, 'learning_rate': 2.9657666666666666e-05, 'epoch': 20.35}
+{'loss': 0.007, 'grad_norm': 0.5367173552513123, 'learning_rate': 2.9657333333333335e-05, 'epoch': 20.35}
+{'loss': 0.0171, 'grad_norm': 0.8661971688270569, 'learning_rate': 2.9657e-05, 'epoch': 20.35}
+{'loss': 0.0109, 'grad_norm': 0.4001052677631378, 'learning_rate': 2.9656666666666667e-05, 'epoch': 20.36}
+{'loss': 0.0051, 'grad_norm': 0.24180084466934204, 'learning_rate': 2.9656333333333333e-05, 'epoch': 20.36}
+{'loss': 0.0061, 'grad_norm': 0.5838049650192261, 'learning_rate': 2.9656000000000002e-05, 'epoch': 20.36}
+{'loss': 0.011, 'grad_norm': 0.35159727931022644, 'learning_rate': 2.9655666666666668e-05, 'epoch': 20.36}
+{'loss': 0.0112, 'grad_norm': 0.3918987214565277, 'learning_rate': 2.9655333333333334e-05, 'epoch': 20.36}
+{'loss': 0.0059, 'grad_norm': 0.1534157693386078, 'learning_rate': 2.9655000000000003e-05, 'epoch': 20.37}
+{'loss': 0.02, 'grad_norm': 0.6456652879714966, 'learning_rate': 2.9654666666666666e-05, 'epoch': 20.37}
+{'loss': 0.0045, 'grad_norm': 0.2508772909641266, 'learning_rate': 2.9654333333333335e-05, 'epoch': 20.37}
+{'loss': 0.1466, 'grad_norm': 0.5599384307861328, 'learning_rate': 2.9654e-05, 'epoch': 20.37}
+{'loss': 0.1297, 'grad_norm': 0.5619744062423706, 'learning_rate': 2.9653666666666667e-05, 'epoch': 20.37}
+{'loss': 0.1643, 'grad_norm': 0.5407826900482178, 'learning_rate': 2.9653333333333333e-05, 'epoch': 20.37}
+{'loss': 0.0849, 'grad_norm': 0.7417288422584534, 'learning_rate': 2.9653000000000002e-05, 'epoch': 20.38}
+{'loss': 0.0829, 'grad_norm': 0.357843279838562, 'learning_rate': 2.9652666666666668e-05, 'epoch': 20.38}
+{'loss': 0.1218, 'grad_norm': 0.5893060564994812, 'learning_rate': 2.9652333333333334e-05, 'epoch': 20.38}
+{'loss': 0.042, 'grad_norm': 0.35972005128860474, 'learning_rate': 2.9652e-05, 'epoch': 20.38}
+{'loss': 0.055, 'grad_norm': 0.4211483895778656, 'learning_rate': 2.9651666666666666e-05, 'epoch': 20.38}
+{'loss': 0.0691, 'grad_norm': 0.5754496455192566, 'learning_rate': 2.9651333333333335e-05, 'epoch': 20.39}
+{'loss': 0.0362, 'grad_norm': 0.38568854331970215, 'learning_rate': 2.9650999999999998e-05, 'epoch': 20.39}
+{'loss': 0.0279, 'grad_norm': 0.2110164612531662, 'learning_rate': 2.9650666666666667e-05, 'epoch': 20.39}
+{'loss': 0.0469, 'grad_norm': 0.5566184520721436, 'learning_rate': 2.9650333333333336e-05, 'epoch': 20.39}
+{'loss': 0.0326, 'grad_norm': 0.38283446431159973, 'learning_rate': 2.965e-05, 'epoch': 20.39}
+{'loss': 0.036, 'grad_norm': 0.2858939468860626, 'learning_rate': 2.964966666666667e-05, 'epoch': 20.4}
+{'loss': 0.0156, 'grad_norm': 0.22442243993282318, 'learning_rate': 2.9649333333333334e-05, 'epoch': 20.4}
+{'loss': 0.0242, 'grad_norm': 0.2950870096683502, 'learning_rate': 2.9649e-05, 'epoch': 20.4}
+{'loss': 0.0054, 'grad_norm': 0.20051699876785278, 'learning_rate': 2.9648666666666666e-05, 'epoch': 20.4}
+{'loss': 0.0067, 'grad_norm': 0.15492866933345795, 'learning_rate': 2.9648333333333335e-05, 'epoch': 20.4}
+{'loss': 0.0182, 'grad_norm': 0.34917473793029785, 'learning_rate': 2.9647999999999998e-05, 'epoch': 20.4}
+{'loss': 0.008, 'grad_norm': 0.18603120744228363, 'learning_rate': 2.9647666666666667e-05, 'epoch': 20.41}
+{'loss': 0.0078, 'grad_norm': 0.3769189715385437, 'learning_rate': 2.9647333333333337e-05, 'epoch': 20.41}
+{'loss': 0.0203, 'grad_norm': 0.18756088614463806, 'learning_rate': 2.9647e-05, 'epoch': 20.41}
+{'loss': 0.0101, 'grad_norm': 0.25873249769210815, 'learning_rate': 2.964666666666667e-05, 'epoch': 20.41}
+{'loss': 0.0067, 'grad_norm': 0.2606721520423889, 'learning_rate': 2.9646333333333334e-05, 'epoch': 20.41}
+{'loss': 0.0089, 'grad_norm': 0.277649849653244, 'learning_rate': 2.9646e-05, 'epoch': 20.42}
+{'loss': 0.0083, 'grad_norm': 0.2441006600856781, 'learning_rate': 2.9645666666666666e-05, 'epoch': 20.42}
+{'loss': 0.0067, 'grad_norm': 0.17656227946281433, 'learning_rate': 2.9645333333333336e-05, 'epoch': 20.42}
+{'loss': 0.0085, 'grad_norm': 0.18494001030921936, 'learning_rate': 2.9644999999999998e-05, 'epoch': 20.42}
+{'loss': 0.0077, 'grad_norm': 0.27652615308761597, 'learning_rate': 2.9644666666666668e-05, 'epoch': 20.42}
+{'loss': 0.0068, 'grad_norm': 0.2581216096878052, 'learning_rate': 2.9644333333333337e-05, 'epoch': 20.42}
+{'loss': 0.0083, 'grad_norm': 0.2612696588039398, 'learning_rate': 2.9644e-05, 'epoch': 20.43}
+{'loss': 0.002, 'grad_norm': 0.07239628583192825, 'learning_rate': 2.964366666666667e-05, 'epoch': 20.43}
+{'loss': 0.0112, 'grad_norm': 0.29392409324645996, 'learning_rate': 2.9643333333333335e-05, 'epoch': 20.43}
+{'loss': 0.0073, 'grad_norm': 0.5558052062988281, 'learning_rate': 2.9643e-05, 'epoch': 20.43}
+{'loss': 0.0074, 'grad_norm': 0.23736676573753357, 'learning_rate': 2.9642666666666667e-05, 'epoch': 20.43}
+{'loss': 0.0087, 'grad_norm': 0.29687535762786865, 'learning_rate': 2.9642333333333336e-05, 'epoch': 20.44}
+ 11%|█         | 11077/100000 [6:03:54<28:51:43,  1.17s/it] 11%|█         | 11078/100000 [6:03:55<28:40:24,  1.16s/it]                                                            11%|█         | 11078/100000 [6:03:55<28:40:24,  1.16s/it] 11%|█         | 11079/100000 [6:03:56<28:17:35,  1.15s/it]                                                            11%|█         | 11079/100000 [6:03:56<28:17:35,  1.15s/it] 11%|█         | 11080/100000 [6:03:57<27:59:01,  1.13s/it]                                                            11%|█         | 11080/100000 [6:03:57<27:59:01,  1.13s/it] 11%|█         | 11081/100000 [6:03:58<27:30:40,  1.11s/it]                                                            11%|█         | 11081/100000 [6:03:58<27:30:40,  1.11s/it] 11%|█         | 11082/100000 [6:03:59<27:23:24,  1.11s/it]                                                            11%|█         | 11082/100000 [6:03:59<27:23:24,  1.11s/it] 11%|█         | 11083/100000 [6:04:00<26:58:00,  1.09s/it]                                                            11%|█         | 11083/100000 [6:04:00<26:58:00,  1.09s/it] 11%|█         | 11084/100000 [6:04:01<26:35:37,  1.08s/it]                                                            11%|█         | 11084/100000 [6:04:01<26:35:37,  1.08s/it] 11%|█         | 11085/100000 [6:04:02<26:03:57,  1.06s/it]                                                            11%|█         | 11085/100000 [6:04:02<26:03:57,  1.06s/it] 11%|█         | 11086/100000 [6:04:03<25:20:52,  1.03s/it]                                                            11%|█         | 11086/100000 [6:04:03<25:20:52,  1.03s/it] 11%|█         | 11087/100000 [6:04:04<24:56:53,  1.01s/it]                                                            11%|█         | 11087/100000 [6:04:04<24:56:53,  1.01s/it] 11%|█         | 11088/100000 [6:04:05<24:50:26,  1.01s/it]                                                            11%|█         | 11088/100000 [6:04:05<24:50:26,  1.01s/it] 11%|█         | 11089/100000 [6:04:06<24:17:52,  1.02it/s]                                                            11%|█         | 11089/100000 [6:04:06<24:17:52,  1.02it/s] 11%|█         | 11090/100000 [6:04:07<23:44:54,  1.04it/s]                                                            11%|█         | 11090/100000 [6:04:07<23:44:54,  1.04it/s] 11%|█         | 11091/100000 [6:04:18<99:32:20,  4.03s/it]                                                            11%|█         | 11091/100000 [6:04:18<99:32:20,  4.03s/it] 11%|█         | 11092/100000 [6:04:24<113:10:34,  4.58s/it]                                                             11%|█         | 11092/100000 [6:04:24<113:10:34,  4.58s/it] 11%|█         | 11093/100000 [6:04:29<112:26:40,  4.55s/it]                                                             11%|█         | 11093/100000 [6:04:29<112:26:40,  4.55s/it] 11%|█         | 11094/100000 [6:04:33<109:29:56,  4.43s/it]                                                             11%|█         | 11094/100000 [6:04:33<109:29:56,  4.43s/it] 11%|█         | 11095/100000 [6:04:37<104:17:23,  4.22s/it]                                                             11%|█         | 11095/100000 [6:04:37<104:17:23,  4.22s/it] 11%|█         | 11096/100000 [6:04:40<97:32:51,  3.95s/it]                                                             11%|█         | 11096/100000 [6:04:40<97:32:51,  3.95s/it] 11%|█         | 11097/100000 [6:04:43<89:52:35,  3.64s/it]                                                            11%|█         | 11097/100000 [6:04:43<89:52:35,  3.64s/it] 11%|█         | 11098/100000 [6:04:46<83:47:00,  3.39s/it]                                                            11%|█         | 11098/100000 [6:04:46<83:47:00,  3.39s/it] 11%|█         | 11099/100000 [6:04:48<76:30:00,  3.10s/it]                                                            11%|█         | 11099/100000 [6:04:48<76:30:00,  3.10s/it] 11%|█         | 11100/100000 [6:04:50<71:08:58,  2.88s/it]                                                            11%|█         | 11100/100000 [6:04:50<71:08:58,  2.88s/it] 11%|█         | 11101/100000 [6:04:53<66:04:04,  2.68s/it]                                                            11%|█         | 11101/100000 [6:04:53<66:04:04,  2.68s/it] 11%|█         | 11102/100000 [6:04:55<60:58:28,  2.47s/it]                                                            11%|█         | 11102/100000 [6:04:55<60:58:28,  2.47s/it] 11%|█         | 11103/100000 [6:04:57<57:05:00,  2.31s/it]                                                            11%|█         | 11103/100000 [6:04:57<57:05:00,  2.31s/it] 11%|█         | 11104/100000 [6:04:58<53:36:57,  2.17s/it]                                                            11%|█         | 11104/100000 [6:04:58<53:36:57,  2.17s/it] 11%|█         | 11105/100000 [6:05:00<50:28:09,  2.04s/it]                                                            11%|█         | 11105/100000 [6:05:00<50:28:09,  2.04s/it] 11%|█         | 11106/100000 [6:05:02<47:34:43,  1.93s/it]                                                            11%|█         | 11106/100000 [6:05:02<47:34:43,  1.93s/it] 11%|█         | 11107/100000 [6:05:03<45:18:08,  1.83s/it]                                                            11%|█         | 11107/100000 [6:05:03<45:18:08,  1.83s/it] 11%|█         | 11108/100000 [6:05:05<43:43:51,  1.77s/it]                                                            11%|█         | 11108/100000 [6:05:05<43:43:51,  1.77s/it] 11%|█         | 11109/100000 [6:05:07<42:02:09,  1.70s/it]                                                            11%|█         | 11109/100000 [6:05:07<42:02:09,  1.70s/it] 11%|█         | 11110/100000 [6:05:08<40:39:23,  1.65s/it]                                                            11%|█         | 11110/100000 [6:05:08<40:39:23,  1.65s/it] 11%|█         | 11111/100000 [6:05:10<39:01:32,  1.58s/it]                                                            11%|█         | 11111/100000 [6:05:10<39:01:32,  1.58s/it] 11%|█         | 11112/100000 [6:05:11<38:01:46,  1.54s/it]                                                            11%|█         | 11112/100000 [6:05:11<38:01:46,  1.54s/it] 11%|█         | 11113/100000 [6:05:12<37:06:31,  1.50s/it]                                                            11%|█         | 11113/100000 [6:05:12<37:06:31,  1.50s/it] 11%|█         | 11114/100000 [6:05:14<36:24:52,  1.47s/it]                                                            11%|█         | 11114/100000 [6:05:14<36:24:52,  1.47s/it] 11%|█         | 11115/100000 [6:05:15<35:46:53,  1.45s/it]                                                            11%|█         | 11115/100000 [6:05:15<35:46:53,  1.45s/it] 11%|█         | 11116/100000 [6:05:17<35:12:16,  1.43s/it]                                                            11%|█         | 11116/100000 [6:05:17<35:12:16,  1.43s/it] 11%|█         | 11117/100000 [6:05:18<34:19:43,  1.39s/it]                                                            11%|█         | 11117/100000 [6:05:18<34:19:43,  1.39s/it] 11%|█         | 11118/100000 [6:05:19<33:54:18,  1.37s/it]                                                            11%|█         | 11118/100000 [6:05:19<33:54:18,  1.37s/it] 11%|█         | 11119/100000 [6:05:20<33:01:20,  1.34s/it]                                                            11%|█         | 11119/100000 [6:05:20<33:01:20,  1.34s/it] 11%|█         | 11120/100000 [6:05:22<32:50:11,  1.33s/it]                                                            11%|█         | 11120/100000 [6:05:22<32:50:11,  1.33s/it] 11%|█         | 11121/100000 [6:05:23<32:27:42,  1.31s/it]                                                            11%|█         | 11121/100000 [6:05:23<32:27:42,  1.31s/it] 11%|█         | 11122/100000 [6:05:24<31:56:34,  1.29s/it]                                                            11%|█         | 11122/100000 [6:05:24<31:56:34,  1.29s/it] 11%|█         | 11123/100000 [6:05:26<31:26:39,  1.27s/it]                                                            11%|█         | 11123/100000 [6:05:26<31:26:39,  1.27s/it] 11%|█         | 11124/100000 [6:05:27<31:06:00,  1.26s/it]                                                            11%|█         | 11124/100000 [6:05:27<31:06:00,  1.26s/it] 11%|█         | 11125/100000 [6:05:28<30:29:48,  1.24s/it]                                                            11%|█         | 11125/100000 [6:05:28<30:29:48,  1.24s/it] 11%|█         | 11126/100000 [6:05:29<30:09:33,  1.22s/it]                                                            11%|█         | 11126/100000 [6:05:29<30:09:33,  1.22s/it] 11%|█         | 11127/100000 [6:05:30<29:30:48,  1.20s/it]                                                            11%|█         | 11127/100000 [6:05:30<29:30:48,  1.20s/it] 11%|█         | 11128/100000 [6:05:31<28:59:26,  1.17s/it]                                                            11%|█         | 11128/100000 [6:05:31<28:59:26,  1.17s/it] 11%|█         | 11129/100000 [6:05:32<28:21:47,  1.15s/it]                                                            11%|█         | 11129/100000 [6:05:32<28:21:47,  1.15s/it] 11%|█         | 11130/100000 [6:05:34<28:21:35,  1.15s/it]                                                            11%|█         | 11130/100000 [6:05:34<28:21:35,  1.15s/it] 11%|█         | 11131/100000 [6:05:35<27:50:05,  1.13s/it]                                                            11%|█         | 11131/100000 [6:05:35<27:50:05,  1.13s/it] 11%|█         | 11132/100000 [6:05:36<27:36:35,  1.12s/it]                                                            11%|█         | 11132/100000 [6:05:36<27:36:35,  1.12s/it] 11%|█         | 11133/100000 [6:05:37<27:11:11,  1.10s/it]                                                            11%|█         | 11133/100000 [6:05:37<27:11:11,  1.10s/it] 11%|█         | 11134/100000 [6:05:38<26:47:05,  1.09s/it]                                                            11%|█         | 11134/100000 [6:05:38<26:47:05,  1.09s/it] 11%|█         | 11135/100000 [6:05:39<26:28:05,  1.07s/it]                                                            11%|█         | 11135/100000 [6:05:39<26:28:05,  1.07s/it] 11%|█         | 11136/100000 [6:05:40<26:03:15,  1.06s/it]                                                            11%|█         | 11136/100000 [6:05:40<26:03:15,  1.06s/it] 11%|█         | 11137/100000 [6:05:41<25:38:21,  1.04s/it]                                                            11%|█         | 11137/100000 [6:05:41<25:38:21,  1.04s/it] 11%|█         | 11138/100000 [6:05:42<25:22:52,  1.03s/it]                                                            11%|█         | 11138/100000 [6:05:42<25:22:52,  1.03s/it] 11%|█         | 11139/100000 [6:05:43<25:01:45,  1.01s/it]                                                            11%|█         | 11139/100000 [6:05:43<25:01:45,  1.01s/it] 11%|█         | 11140/100000 [6:05:44<24:37:26,  1.00it/s]                                                            11%|█         | 11140/100000 [6:05:44<24:37:26,  1.00it/s] 11%|█         | 11141/100000 [6:05:56<105:38:38,  4.28s/it]                                                             11%|█         | 11141/100000 [6:05:56<105:38:38,  4.28s/it] 11%|█         | 11142/100000 [6:06:01<113:24:34,  4.59s/it]                                                             11%|█         | 11142/100000 [6:06:01<113:24:34,  4.59s/it] 11%|█         | 11143/100000 [6:06:06<112:50:51,  4.57s/it]                                                             11%|█         | 11143/100000 [6:06:06<112:50:51,  4.57s/it] 11%|█         | 11144/100000 [6:06:09<107:08:53,  4.34s/it]                                                             11%|█         | 11144/100000 [6:06:09<107:08:53,  4.34s/it] 11%|█         | 11145/100000 [6:06:13<101:44:15,  4.12s/it]                                                             11%|█         | 11145/100000 [6:06:13<101:44:15,  4.12s/it] 11%|█         | 11146/100000 [6:06:16<95:44:53,  3.88s/it]                                                             11%|█         | 11146/100000 [6:06:16<95:44:53,  3.88s/it] 11%|█         | 11147/100000 [6:06:19<88:33:43,  3.59s/it]                                                            11%|█         | 11147/100000 [6:06:19<88:33:43,  3.59s/it] 11%|█         | 11148/100000 [6:06:22<82:52:58,  3.36s/it]                                                            11%|█         | 11148/100000 [6:06:22<82:52:58,  3.36s/it] 11%|█         | 11149/100000 [6:06:25<76:59:49,  3.12s/it]                                                            11%|█         | 11149/100000 [6:06:25<76:59:49,  3.12s/it] 11%|█         | 11150/100000 [6:06:27<71:55:23,  2.91s/it]                                                            11%|█         | 11150/100000 [6:06:27<71:55:23,  2.91s/it] 11%|█         | 11151/100000 [6:06:29<66:32:16,  2.70s/it]                                                            11%|█         | 11151/100000 [6:06:29<66:32:16,  2.70s/it] 11%|█         | 11152/100000 [6:06:31<61:21:02,  2.49s/it]                                                            11%|█         | 11152/100000 [6:06:31<61:21:02,  2.49s/it] 11%|█         | 11153/100000 [6:06:33<57:22:31,  2.32s/it]                                                            11%|█         | 11153/100000 [6:06:33<57:22:31,  2.32s/it] 11%|█         | 11154/100000 [6:06:35<53:56:18,  2.19s/it]                                                            11%|█         | 11154/100000 [6:06:35<53:56:18,  2.19s/it] 11%|█         | 11155/100000 [6:06:37<50:44:46,  2.06s/it]                                                           {'loss': 0.0049, 'grad_norm': 0.13251857459545135, 'learning_rate': 2.9642000000000002e-05, 'epoch': 20.44}
+{'loss': 0.0053, 'grad_norm': 0.23094314336776733, 'learning_rate': 2.9641666666666668e-05, 'epoch': 20.44}
+{'loss': 0.0108, 'grad_norm': 0.283113956451416, 'learning_rate': 2.9641333333333334e-05, 'epoch': 20.44}
+{'loss': 0.0084, 'grad_norm': 0.32321351766586304, 'learning_rate': 2.9641e-05, 'epoch': 20.44}
+{'loss': 0.0148, 'grad_norm': 0.47560450434684753, 'learning_rate': 2.964066666666667e-05, 'epoch': 20.45}
+{'loss': 0.0163, 'grad_norm': 0.4224452078342438, 'learning_rate': 2.964033333333333e-05, 'epoch': 20.45}
+{'loss': 0.0041, 'grad_norm': 0.216268852353096, 'learning_rate': 2.964e-05, 'epoch': 20.45}
+{'loss': 0.0102, 'grad_norm': 0.7119795680046082, 'learning_rate': 2.9639666666666667e-05, 'epoch': 20.45}
+{'loss': 0.0078, 'grad_norm': 0.3483209013938904, 'learning_rate': 2.9639333333333333e-05, 'epoch': 20.45}
+{'loss': 0.0054, 'grad_norm': 0.3994562327861786, 'learning_rate': 2.9639000000000002e-05, 'epoch': 20.45}
+{'loss': 0.0079, 'grad_norm': 0.2146139144897461, 'learning_rate': 2.9638666666666668e-05, 'epoch': 20.46}
+{'loss': 0.007, 'grad_norm': 0.3482670783996582, 'learning_rate': 2.9638333333333334e-05, 'epoch': 20.46}
+{'loss': 0.0048, 'grad_norm': 0.20434588193893433, 'learning_rate': 2.9638e-05, 'epoch': 20.46}
+{'loss': 0.0045, 'grad_norm': 0.137790709733963, 'learning_rate': 2.963766666666667e-05, 'epoch': 20.46}
+{'loss': 0.1216, 'grad_norm': 0.6156465411186218, 'learning_rate': 2.963733333333333e-05, 'epoch': 20.46}
+{'loss': 0.0953, 'grad_norm': 0.4434069097042084, 'learning_rate': 2.9637e-05, 'epoch': 20.47}
+{'loss': 0.0877, 'grad_norm': 0.4450667202472687, 'learning_rate': 2.9636666666666667e-05, 'epoch': 20.47}
+{'loss': 0.0637, 'grad_norm': 0.4277558922767639, 'learning_rate': 2.9636333333333333e-05, 'epoch': 20.47}
+{'loss': 0.102, 'grad_norm': 0.5416181087493896, 'learning_rate': 2.9636000000000002e-05, 'epoch': 20.47}
+{'loss': 0.0814, 'grad_norm': 0.5285162329673767, 'learning_rate': 2.9635666666666668e-05, 'epoch': 20.47}
+{'loss': 0.0593, 'grad_norm': 0.4584277868270874, 'learning_rate': 2.9635333333333334e-05, 'epoch': 20.47}
+{'loss': 0.0497, 'grad_norm': 0.3677422106266022, 'learning_rate': 2.9635e-05, 'epoch': 20.48}
+{'loss': 0.0475, 'grad_norm': 0.4277951717376709, 'learning_rate': 2.963466666666667e-05, 'epoch': 20.48}
+{'loss': 0.0422, 'grad_norm': 0.31714293360710144, 'learning_rate': 2.9634333333333332e-05, 'epoch': 20.48}
+{'loss': 0.0283, 'grad_norm': 0.26784515380859375, 'learning_rate': 2.9634e-05, 'epoch': 20.48}
+{'loss': 0.0497, 'grad_norm': 0.44170352816581726, 'learning_rate': 2.963366666666667e-05, 'epoch': 20.48}
+{'loss': 0.1057, 'grad_norm': 1.118957757949829, 'learning_rate': 2.9633333333333333e-05, 'epoch': 20.49}
+{'loss': 0.0244, 'grad_norm': 0.6414685845375061, 'learning_rate': 2.9633000000000002e-05, 'epoch': 20.49}
+{'loss': 0.0329, 'grad_norm': 0.27597081661224365, 'learning_rate': 2.963266666666667e-05, 'epoch': 20.49}
+{'loss': 0.0144, 'grad_norm': 0.27471840381622314, 'learning_rate': 2.9632333333333334e-05, 'epoch': 20.49}
+{'loss': 0.0455, 'grad_norm': 0.3149142265319824, 'learning_rate': 2.9632e-05, 'epoch': 20.49}
+{'loss': 0.0082, 'grad_norm': 0.19767074286937714, 'learning_rate': 2.9631666666666666e-05, 'epoch': 20.49}
+{'loss': 0.0102, 'grad_norm': 0.21706773340702057, 'learning_rate': 2.9631333333333332e-05, 'epoch': 20.5}
+{'loss': 0.0078, 'grad_norm': 0.2238224446773529, 'learning_rate': 2.9631e-05, 'epoch': 20.5}
+{'loss': 0.0295, 'grad_norm': 0.30950242280960083, 'learning_rate': 2.9630666666666667e-05, 'epoch': 20.5}
+{'loss': 0.0102, 'grad_norm': 0.35704588890075684, 'learning_rate': 2.9630333333333333e-05, 'epoch': 20.5}
+{'loss': 0.0106, 'grad_norm': 0.16436102986335754, 'learning_rate': 2.9630000000000003e-05, 'epoch': 20.5}
+{'loss': 0.0083, 'grad_norm': 0.1160278245806694, 'learning_rate': 2.9629666666666665e-05, 'epoch': 20.51}
+{'loss': 0.0056, 'grad_norm': 0.15938252210617065, 'learning_rate': 2.9629333333333334e-05, 'epoch': 20.51}
+{'loss': 0.0063, 'grad_norm': 0.1849542111158371, 'learning_rate': 2.9629e-05, 'epoch': 20.51}
+{'loss': 0.005, 'grad_norm': 0.20571953058242798, 'learning_rate': 2.9628666666666666e-05, 'epoch': 20.51}
+{'loss': 0.014, 'grad_norm': 0.361489474773407, 'learning_rate': 2.9628333333333332e-05, 'epoch': 20.51}
+{'loss': 0.0427, 'grad_norm': 0.37601128220558167, 'learning_rate': 2.9628e-05, 'epoch': 20.52}
+{'loss': 0.0216, 'grad_norm': 0.3030451536178589, 'learning_rate': 2.9627666666666668e-05, 'epoch': 20.52}
+{'loss': 0.0072, 'grad_norm': 0.20974400639533997, 'learning_rate': 2.9627333333333333e-05, 'epoch': 20.52}
+{'loss': 0.0201, 'grad_norm': 0.47172707319259644, 'learning_rate': 2.9627000000000003e-05, 'epoch': 20.52}
+{'loss': 0.0121, 'grad_norm': 0.4215916097164154, 'learning_rate': 2.9626666666666665e-05, 'epoch': 20.52}
+{'loss': 0.0067, 'grad_norm': 0.27536407113075256, 'learning_rate': 2.9626333333333335e-05, 'epoch': 20.52}
+{'loss': 0.0049, 'grad_norm': 0.1958393007516861, 'learning_rate': 2.9626e-05, 'epoch': 20.53}
+{'loss': 0.0093, 'grad_norm': 0.35039401054382324, 'learning_rate': 2.9625666666666667e-05, 'epoch': 20.53}
+{'loss': 0.011, 'grad_norm': 0.32164257764816284, 'learning_rate': 2.9625333333333336e-05, 'epoch': 20.53}
+{'loss': 0.0134, 'grad_norm': 0.4968523681163788, 'learning_rate': 2.9625000000000002e-05, 'epoch': 20.53}
+{'loss': 0.0042, 'grad_norm': 0.21272744238376617, 'learning_rate': 2.9624666666666668e-05, 'epoch': 20.53}
+{'loss': 0.0095, 'grad_norm': 0.5690340995788574, 'learning_rate': 2.9624333333333334e-05, 'epoch': 20.54}
+{'loss': 0.0067, 'grad_norm': 0.2647596597671509, 'learning_rate': 2.9624000000000003e-05, 'epoch': 20.54}
+{'loss': 0.0091, 'grad_norm': 0.33502963185310364, 'learning_rate': 2.9623666666666666e-05, 'epoch': 20.54}
+{'loss': 0.0105, 'grad_norm': 0.4991375207901001, 'learning_rate': 2.9623333333333335e-05, 'epoch': 20.54}
+{'loss': 0.0098, 'grad_norm': 0.8269820809364319, 'learning_rate': 2.9623e-05, 'epoch': 20.54}
+{'loss': 0.0061, 'grad_norm': 0.13691353797912598, 'learning_rate': 2.9622666666666667e-05, 'epoch': 20.54}
+{'loss': 0.0084, 'grad_norm': 0.28916093707084656, 'learning_rate': 2.9622333333333336e-05, 'epoch': 20.55}
+{'loss': 0.0335, 'grad_norm': 0.5460681319236755, 'learning_rate': 2.9622000000000002e-05, 'epoch': 20.55}
+{'loss': 0.0142, 'grad_norm': 0.7758886814117432, 'learning_rate': 2.9621666666666668e-05, 'epoch': 20.55}
+{'loss': 0.0045, 'grad_norm': 0.2703908383846283, 'learning_rate': 2.9621333333333334e-05, 'epoch': 20.55}
+{'loss': 0.0199, 'grad_norm': 0.3861091434955597, 'learning_rate': 2.9621e-05, 'epoch': 20.55}
+{'loss': 0.1421, 'grad_norm': 0.5069757699966431, 'learning_rate': 2.9620666666666666e-05, 'epoch': 20.56}
+{'loss': 0.1451, 'grad_norm': 0.5670900344848633, 'learning_rate': 2.9620333333333335e-05, 'epoch': 20.56}
+{'loss': 0.1063, 'grad_norm': 0.7019637823104858, 'learning_rate': 2.9619999999999998e-05, 'epoch': 20.56}
+{'loss': 0.0769, 'grad_norm': 0.49798068404197693, 'learning_rate': 2.9619666666666667e-05, 'epoch': 20.56}
+{'loss': 0.1241, 'grad_norm': 0.5604007840156555, 'learning_rate': 2.9619333333333336e-05, 'epoch': 20.56}
+{'loss': 0.0856, 'grad_norm': 0.4972505271434784, 'learning_rate': 2.9619e-05, 'epoch': 20.57}
+{'loss': 0.0645, 'grad_norm': 0.470397412776947, 'learning_rate': 2.9618666666666668e-05, 'epoch': 20.57}
+{'loss': 0.0911, 'grad_norm': 0.5640853643417358, 'learning_rate': 2.9618333333333334e-05, 'epoch': 20.57}
+{'loss': 0.0676, 'grad_norm': 0.4170297682285309, 'learning_rate': 2.9618e-05, 'epoch': 20.57}
+{'loss': 0.0803, 'grad_norm': 0.3935358226299286, 'learning_rate': 2.9617666666666666e-05, 'epoch': 20.57}
+{'loss': 0.0415, 'grad_norm': 0.3682790696620941, 'learning_rate': 2.9617333333333335e-05, 'epoch': 20.57}
+{'loss': 0.0252, 'grad_norm': 0.28599610924720764, 'learning_rate': 2.9617e-05, 'epoch': 20.58}
+{'loss': 0.0568, 'grad_norm': 0.31602001190185547, 'learning_rate': 2.9616666666666667e-05, 'epoch': 20.58}
+{'loss': 0.0582, 'grad_norm': 0.45824578404426575, 'learning_rate': 2.9616333333333336e-05, 'epoch': 20.58}
+ 11%|█         | 11155/100000 [6:06:37<50:44:46,  2.06s/it] 11%|█         | 11156/100000 [6:06:39<47:29:36,  1.92s/it]                                                            11%|█         | 11156/100000 [6:06:39<47:29:36,  1.92s/it] 11%|█         | 11157/100000 [6:06:40<45:22:13,  1.84s/it]                                                            11%|█         | 11157/100000 [6:06:40<45:22:13,  1.84s/it] 11%|█         | 11158/100000 [6:06:42<43:10:37,  1.75s/it]                                                            11%|█         | 11158/100000 [6:06:42<43:10:37,  1.75s/it] 11%|█         | 11159/100000 [6:06:43<41:31:37,  1.68s/it]                                                            11%|█         | 11159/100000 [6:06:43<41:31:37,  1.68s/it] 11%|█         | 11160/100000 [6:06:45<40:00:59,  1.62s/it]                                                            11%|█         | 11160/100000 [6:06:45<40:00:59,  1.62s/it] 11%|█         | 11161/100000 [6:06:46<38:45:21,  1.57s/it]                                                            11%|█         | 11161/100000 [6:06:46<38:45:21,  1.57s/it] 11%|█         | 11162/100000 [6:06:48<37:23:34,  1.52s/it]                                                            11%|█         | 11162/100000 [6:06:48<37:23:34,  1.52s/it] 11%|█         | 11163/100000 [6:06:49<36:35:48,  1.48s/it]                                                            11%|█         | 11163/100000 [6:06:49<36:35:48,  1.48s/it] 11%|█         | 11164/100000 [6:06:50<35:32:51,  1.44s/it]                                                            11%|█         | 11164/100000 [6:06:50<35:32:51,  1.44s/it] 11%|█         | 11165/100000 [6:06:52<35:00:14,  1.42s/it]                                                            11%|█         | 11165/100000 [6:06:52<35:00:14,  1.42s/it] 11%|█         | 11166/100000 [6:06:53<34:28:16,  1.40s/it]                                                            11%|█         | 11166/100000 [6:06:53<34:28:16,  1.40s/it] 11%|█         | 11167/100000 [6:06:54<33:40:46,  1.36s/it]                                                            11%|█         | 11167/100000 [6:06:54<33:40:46,  1.36s/it] 11%|█         | 11168/100000 [6:06:56<33:10:32,  1.34s/it]                                                            11%|█         | 11168/100000 [6:06:56<33:10:32,  1.34s/it] 11%|█         | 11169/100000 [6:06:57<32:30:28,  1.32s/it]                                                            11%|█         | 11169/100000 [6:06:57<32:30:28,  1.32s/it] 11%|█         | 11170/100000 [6:06:58<32:03:55,  1.30s/it]                                                            11%|█         | 11170/100000 [6:06:58<32:03:55,  1.30s/it] 11%|█         | 11171/100000 [6:06:59<31:39:36,  1.28s/it]                                                            11%|█         | 11171/100000 [6:06:59<31:39:36,  1.28s/it] 11%|█         | 11172/100000 [6:07:01<31:05:26,  1.26s/it]                                                            11%|█         | 11172/100000 [6:07:01<31:05:26,  1.26s/it] 11%|█         | 11173/100000 [6:07:02<30:48:43,  1.25s/it]                                                            11%|█         | 11173/100000 [6:07:02<30:48:43,  1.25s/it] 11%|█         | 11174/100000 [6:07:03<30:14:01,  1.23s/it]                                                            11%|█         | 11174/100000 [6:07:03<30:14:01,  1.23s/it] 11%|█         | 11175/100000 [6:07:04<29:33:25,  1.20s/it]                                                            11%|█         | 11175/100000 [6:07:04<29:33:25,  1.20s/it] 11%|█         | 11176/100000 [6:07:05<29:16:58,  1.19s/it]                                                            11%|█         | 11176/100000 [6:07:05<29:16:58,  1.19s/it] 11%|█         | 11177/100000 [6:07:06<28:47:15,  1.17s/it]                                                            11%|█         | 11177/100000 [6:07:06<28:47:15,  1.17s/it] 11%|█         | 11178/100000 [6:07:07<28:29:19,  1.15s/it]                                                            11%|█         | 11178/100000 [6:07:07<28:29:19,  1.15s/it] 11%|█         | 11179/100000 [6:07:09<28:00:01,  1.13s/it]                                                            11%|█         | 11179/100000 [6:07:09<28:00:01,  1.13s/it] 11%|█         | 11180/100000 [6:07:10<27:42:57,  1.12s/it]                                                            11%|█         | 11180/100000 [6:07:10<27:42:57,  1.12s/it] 11%|█         | 11181/100000 [6:07:11<27:17:51,  1.11s/it]                                                            11%|█         | 11181/100000 [6:07:11<27:17:51,  1.11s/it] 11%|█         | 11182/100000 [6:07:12<27:05:05,  1.10s/it]                                                            11%|█         | 11182/100000 [6:07:12<27:05:05,  1.10s/it] 11%|█         | 11183/100000 [6:07:13<26:23:32,  1.07s/it]                                                            11%|█         | 11183/100000 [6:07:13<26:23:32,  1.07s/it] 11%|█         | 11184/100000 [6:07:14<25:58:16,  1.05s/it]                                                            11%|█         | 11184/100000 [6:07:14<25:58:16,  1.05s/it] 11%|█         | 11185/100000 [6:07:15<25:37:32,  1.04s/it]                                                            11%|█         | 11185/100000 [6:07:15<25:37:32,  1.04s/it] 11%|█         | 11186/100000 [6:07:16<25:21:36,  1.03s/it]                                                            11%|█         | 11186/100000 [6:07:16<25:21:36,  1.03s/it] 11%|█         | 11187/100000 [6:07:17<24:58:27,  1.01s/it]                                                            11%|█         | 11187/100000 [6:07:17<24:58:27,  1.01s/it] 11%|█         | 11188/100000 [6:07:18<24:39:16,  1.00it/s]                                                            11%|█         | 11188/100000 [6:07:18<24:39:16,  1.00it/s] 11%|█         | 11189/100000 [6:07:19<24:13:18,  1.02it/s]                                                            11%|█         | 11189/100000 [6:07:19<24:13:18,  1.02it/s] 11%|█         | 11190/100000 [6:07:20<23:33:26,  1.05it/s]                                                            11%|█         | 11190/100000 [6:07:20<23:33:26,  1.05it/s] 11%|█         | 11191/100000 [6:07:31<102:01:38,  4.14s/it]                                                             11%|█         | 11191/100000 [6:07:31<102:01:38,  4.14s/it] 11%|█         | 11192/100000 [6:07:37<114:34:32,  4.64s/it]                                                             11%|█         | 11192/100000 [6:07:37<114:34:32,  4.64s/it] 11%|█         | 11193/100000 [6:07:42<114:57:20,  4.66s/it]                                                             11%|█         | 11193/100000 [6:07:42<114:57:20,  4.66s/it] 11%|█         | 11194/100000 [6:07:46<109:27:46,  4.44s/it]                                                             11%|█         | 11194/100000 [6:07:46<109:27:46,  4.44s/it] 11%|█         | 11195/100000 [6:07:49<101:15:21,  4.10s/it]                                                             11%|█         | 11195/100000 [6:07:49<101:15:21,  4.10s/it] 11%|█         | 11196/100000 [6:07:52<95:13:33,  3.86s/it]                                                             11%|█         | 11196/100000 [6:07:52<95:13:33,  3.86s/it] 11%|█         | 11197/100000 [6:07:55<88:42:41,  3.60s/it]                                                            11%|█         | 11197/100000 [6:07:55<88:42:41,  3.60s/it] 11%|█         | 11198/100000 [6:07:58<82:03:26,  3.33s/it]                                                            11%|█         | 11198/100000 [6:07:58<82:03:26,  3.33s/it] 11%|█         | 11199/100000 [6:08:00<75:57:19,  3.08s/it]                                                            11%|█         | 11199/100000 [6:08:00<75:57:19,  3.08s/it] 11%|█         | 11200/100000 [6:08:03<69:44:46,  2.83s/it]                                                            11%|█         | 11200/100000 [6:08:03<69:44:46,  2.83s/it] 11%|█         | 11201/100000 [6:08:05<64:52:32,  2.63s/it]                                                            11%|█         | 11201/100000 [6:08:05<64:52:32,  2.63s/it] 11%|█         | 11202/100000 [6:08:07<60:22:49,  2.45s/it]                                                            11%|█         | 11202/100000 [6:08:07<60:22:49,  2.45s/it] 11%|█         | 11203/100000 [6:08:09<56:12:17,  2.28s/it]                                                            11%|█         | 11203/100000 [6:08:09<56:12:17,  2.28s/it] 11%|█         | 11204/100000 [6:08:11<52:53:43,  2.14s/it]                                                            11%|█         | 11204/100000 [6:08:11<52:53:43,  2.14s/it] 11%|█         | 11205/100000 [6:08:12<50:00:23,  2.03s/it]                                                            11%|█         | 11205/100000 [6:08:12<50:00:23,  2.03s/it] 11%|█         | 11206/100000 [6:08:14<47:29:11,  1.93s/it]                                                            11%|█         | 11206/100000 [6:08:14<47:29:11,  1.93s/it] 11%|█         | 11207/100000 [6:08:16<45:14:42,  1.83s/it]                                                            11%|█         | 11207/100000 [6:08:16<45:14:42,  1.83s/it] 11%|█         | 11208/100000 [6:08:17<43:28:44,  1.76s/it]                                                            11%|█         | 11208/100000 [6:08:17<43:28:44,  1.76s/it] 11%|█         | 11209/100000 [6:08:19<41:36:33,  1.69s/it]                                                            11%|█         | 11209/100000 [6:08:19<41:36:33,  1.69s/it] 11%|█         | 11210/100000 [6:08:20<40:08:17,  1.63s/it]                                                            11%|█         | 11210/100000 [6:08:20<40:08:17,  1.63s/it] 11%|█         | 11211/100000 [6:08:22<38:19:54,  1.55s/it]                                                            11%|█         | 11211/100000 [6:08:22<38:19:54,  1.55s/it] 11%|█         | 11212/100000 [6:08:23<37:26:31,  1.52s/it]                                                            11%|█         | 11212/100000 [6:08:23<37:26:31,  1.52s/it] 11%|█         | 11213/100000 [6:08:24<36:36:18,  1.48s/it]                                                            11%|█         | 11213/100000 [6:08:24<36:36:18,  1.48s/it] 11%|█         | 11214/100000 [6:08:26<35:54:52,  1.46s/it]                                                            11%|█         | 11214/100000 [6:08:26<35:54:52,  1.46s/it] 11%|█         | 11215/100000 [6:08:27<34:55:44,  1.42s/it]                                                            11%|█         | 11215/100000 [6:08:27<34:55:44,  1.42s/it] 11%|█         | 11216/100000 [6:08:28<34:17:03,  1.39s/it]                                                            11%|█         | 11216/100000 [6:08:28<34:17:03,  1.39s/it] 11%|█         | 11217/100000 [6:08:30<33:47:03,  1.37s/it]                                                            11%|█         | 11217/100000 [6:08:30<33:47:03,  1.37s/it] 11%|█         | 11218/100000 [6:08:31<33:15:14,  1.35s/it]                                                            11%|█         | 11218/100000 [6:08:31<33:15:14,  1.35s/it] 11%|█         | 11219/100000 [6:08:32<32:33:45,  1.32s/it]                                                            11%|█         | 11219/100000 [6:08:32<32:33:45,  1.32s/it] 11%|█         | 11220/100000 [6:08:34<32:14:42,  1.31s/it]                                                            11%|█         | 11220/100000 [6:08:34<32:14:42,  1.31s/it] 11%|█         | 11221/100000 [6:08:35<31:48:47,  1.29s/it]                                                            11%|█         | 11221/100000 [6:08:35<31:48:47,  1.29s/it] 11%|█         | 11222/100000 [6:08:36<31:27:19,  1.28s/it]                                                            11%|█         | 11222/100000 [6:08:36<31:27:19,  1.28s/it] 11%|█         | 11223/100000 [6:08:37<30:49:59,  1.25s/it]                                                            11%|█         | 11223/100000 [6:08:37<30:49:59,  1.25s/it] 11%|█         | 11224/100000 [6:08:38<30:18:10,  1.23s/it]                                                            11%|█         | 11224/100000 [6:08:38<30:18:10,  1.23s/it] 11%|█         | 11225/100000 [6:08:40<29:52:10,  1.21s/it]                                                            11%|█         | 11225/100000 [6:08:40<29:52:10,  1.21s/it] 11%|█         | 11226/100000 [6:08:41<29:03:25,  1.18s/it]                                                            11%|█         | 11226/100000 [6:08:41<29:03:25,  1.18s/it] 11%|█         | 11227/100000 [6:08:42<28:42:12,  1.16s/it]                                                            11%|█         | 11227/100000 [6:08:42<28:42:12,  1.16s/it] 11%|█         | 11228/100000 [6:08:43<28:22:41,  1.15s/it]                                                            11%|█         | 11228/100000 [6:08:43<28:22:41,  1.15s/it] 11%|█         | 11229/100000 [6:08:44<27:44:18,  1.12s/it]                                                            11%|█         | 11229/100000 [6:08:44<27:44:18,  1.12s/it] 11%|█         | 11230/100000 [6:08:45<27:26:44,  1.11s/it]                                                            11%|█         | 11230/100000 [6:08:45<27:26:44,  1.11s/it] 11%|█         | 11231/100000 [6:08:46<27:01:28,  1.10s/it]                                                            11%|█         | 11231/100000 [6:08:46<27:01:28,  1.10s/it] 11%|█         | 11232/100000 [6:08:47<26:36:02,  1.08s/it]                                                            11%|█         | 11232/100000 [6:08:47<26:36:02,  1.08s/it] 11%|█         | 11233/100000 [6:08:48<26:10:03,  1.06s/it]                                                           {'loss': 0.0232, 'grad_norm': 0.35455620288848877, 'learning_rate': 2.9616e-05, 'epoch': 20.58}
+{'loss': 0.0116, 'grad_norm': 0.247396320104599, 'learning_rate': 2.961566666666667e-05, 'epoch': 20.58}
+{'loss': 0.0103, 'grad_norm': 0.17564378678798676, 'learning_rate': 2.9615333333333334e-05, 'epoch': 20.59}
+{'loss': 0.0322, 'grad_norm': 0.5125971436500549, 'learning_rate': 2.9615e-05, 'epoch': 20.59}
+{'loss': 0.0117, 'grad_norm': 0.18899650871753693, 'learning_rate': 2.9614666666666666e-05, 'epoch': 20.59}
+{'loss': 0.0161, 'grad_norm': 0.35293349623680115, 'learning_rate': 2.9614333333333335e-05, 'epoch': 20.59}
+{'loss': 0.0053, 'grad_norm': 0.15498006343841553, 'learning_rate': 2.9614e-05, 'epoch': 20.59}
+{'loss': 0.0109, 'grad_norm': 0.24944724142551422, 'learning_rate': 2.9613666666666667e-05, 'epoch': 20.59}
+{'loss': 0.0103, 'grad_norm': 0.2556169033050537, 'learning_rate': 2.9613333333333337e-05, 'epoch': 20.6}
+{'loss': 0.0188, 'grad_norm': 0.72690749168396, 'learning_rate': 2.9613e-05, 'epoch': 20.6}
+{'loss': 0.0133, 'grad_norm': 0.2584100663661957, 'learning_rate': 2.961266666666667e-05, 'epoch': 20.6}
+{'loss': 0.0111, 'grad_norm': 0.2549022436141968, 'learning_rate': 2.9612333333333334e-05, 'epoch': 20.6}
+{'loss': 0.0151, 'grad_norm': 0.6710214018821716, 'learning_rate': 2.9612e-05, 'epoch': 20.6}
+{'loss': 0.0092, 'grad_norm': 0.43617209792137146, 'learning_rate': 2.9611666666666666e-05, 'epoch': 20.61}
+{'loss': 0.0119, 'grad_norm': 0.245264932513237, 'learning_rate': 2.9611333333333332e-05, 'epoch': 20.61}
+{'loss': 0.007, 'grad_norm': 0.20647655427455902, 'learning_rate': 2.9611e-05, 'epoch': 20.61}
+{'loss': 0.0096, 'grad_norm': 0.4248480498790741, 'learning_rate': 2.9610666666666668e-05, 'epoch': 20.61}
+{'loss': 0.0136, 'grad_norm': 0.36499524116516113, 'learning_rate': 2.9610333333333333e-05, 'epoch': 20.61}
+{'loss': 0.0111, 'grad_norm': 0.5641077756881714, 'learning_rate': 2.961e-05, 'epoch': 20.61}
+{'loss': 0.0135, 'grad_norm': 0.3565385043621063, 'learning_rate': 2.960966666666667e-05, 'epoch': 20.62}
+{'loss': 0.0158, 'grad_norm': 0.5080560445785522, 'learning_rate': 2.960933333333333e-05, 'epoch': 20.62}
+{'loss': 0.0054, 'grad_norm': 0.12717655301094055, 'learning_rate': 2.9609e-05, 'epoch': 20.62}
+{'loss': 0.009, 'grad_norm': 0.2625749707221985, 'learning_rate': 2.960866666666667e-05, 'epoch': 20.62}
+{'loss': 0.0474, 'grad_norm': 0.6564839482307434, 'learning_rate': 2.9608333333333332e-05, 'epoch': 20.62}
+{'loss': 0.0083, 'grad_norm': 0.20139797031879425, 'learning_rate': 2.9608000000000002e-05, 'epoch': 20.63}
+{'loss': 0.0114, 'grad_norm': 0.8026975989341736, 'learning_rate': 2.9607666666666668e-05, 'epoch': 20.63}
+{'loss': 0.006, 'grad_norm': 0.24883051216602325, 'learning_rate': 2.9607333333333334e-05, 'epoch': 20.63}
+{'loss': 0.0101, 'grad_norm': 0.33926114439964294, 'learning_rate': 2.9607e-05, 'epoch': 20.63}
+{'loss': 0.0232, 'grad_norm': 0.8261702656745911, 'learning_rate': 2.960666666666667e-05, 'epoch': 20.63}
+{'loss': 0.0088, 'grad_norm': 0.5510255694389343, 'learning_rate': 2.960633333333333e-05, 'epoch': 20.64}
+{'loss': 0.0144, 'grad_norm': 0.49745795130729675, 'learning_rate': 2.9606e-05, 'epoch': 20.64}
+{'loss': 0.0101, 'grad_norm': 0.30604270100593567, 'learning_rate': 2.960566666666667e-05, 'epoch': 20.64}
+{'loss': 0.0117, 'grad_norm': 0.8259574770927429, 'learning_rate': 2.9605333333333333e-05, 'epoch': 20.64}
+{'loss': 0.0272, 'grad_norm': 0.3971351683139801, 'learning_rate': 2.9605000000000002e-05, 'epoch': 20.64}
+{'loss': 0.0072, 'grad_norm': 0.34049734473228455, 'learning_rate': 2.9604666666666668e-05, 'epoch': 20.64}
+{'loss': 0.0136, 'grad_norm': 0.3927757441997528, 'learning_rate': 2.9604333333333334e-05, 'epoch': 20.65}
+{'loss': 0.1988, 'grad_norm': 0.7999992370605469, 'learning_rate': 2.9604e-05, 'epoch': 20.65}
+{'loss': 0.1572, 'grad_norm': 0.7569670677185059, 'learning_rate': 2.960366666666667e-05, 'epoch': 20.65}
+{'loss': 0.0999, 'grad_norm': 0.5596485733985901, 'learning_rate': 2.960333333333333e-05, 'epoch': 20.65}
+{'loss': 0.0895, 'grad_norm': 0.45623841881752014, 'learning_rate': 2.9603e-05, 'epoch': 20.65}
+{'loss': 0.1002, 'grad_norm': 0.40664881467819214, 'learning_rate': 2.960266666666667e-05, 'epoch': 20.66}
+{'loss': 0.0723, 'grad_norm': 0.40975096821784973, 'learning_rate': 2.9602333333333333e-05, 'epoch': 20.66}
+{'loss': 0.0678, 'grad_norm': 0.3656075894832611, 'learning_rate': 2.9602000000000002e-05, 'epoch': 20.66}
+{'loss': 0.0438, 'grad_norm': 0.35924556851387024, 'learning_rate': 2.9601666666666665e-05, 'epoch': 20.66}
+{'loss': 0.0412, 'grad_norm': 0.3122684061527252, 'learning_rate': 2.9601333333333334e-05, 'epoch': 20.66}
+{'loss': 0.0986, 'grad_norm': 0.49023181200027466, 'learning_rate': 2.9601e-05, 'epoch': 20.66}
+{'loss': 0.0508, 'grad_norm': 0.3593541979789734, 'learning_rate': 2.9600666666666666e-05, 'epoch': 20.67}
+{'loss': 0.0432, 'grad_norm': 0.450988233089447, 'learning_rate': 2.9600333333333335e-05, 'epoch': 20.67}
+{'loss': 0.0232, 'grad_norm': 0.44862470030784607, 'learning_rate': 2.96e-05, 'epoch': 20.67}
+{'loss': 0.0186, 'grad_norm': 0.22612938284873962, 'learning_rate': 2.9599666666666667e-05, 'epoch': 20.67}
+{'loss': 0.0207, 'grad_norm': 0.30688098073005676, 'learning_rate': 2.9599333333333333e-05, 'epoch': 20.67}
+{'loss': 0.0097, 'grad_norm': 0.21418403089046478, 'learning_rate': 2.9599000000000002e-05, 'epoch': 20.68}
+{'loss': 0.0291, 'grad_norm': 0.4343891143798828, 'learning_rate': 2.9598666666666665e-05, 'epoch': 20.68}
+{'loss': 0.0312, 'grad_norm': 0.7051688432693481, 'learning_rate': 2.9598333333333334e-05, 'epoch': 20.68}
+{'loss': 0.0093, 'grad_norm': 0.2645828127861023, 'learning_rate': 2.9598e-05, 'epoch': 20.68}
+{'loss': 0.012, 'grad_norm': 0.32652685046195984, 'learning_rate': 2.9597666666666666e-05, 'epoch': 20.68}
+{'loss': 0.0102, 'grad_norm': 0.18169867992401123, 'learning_rate': 2.9597333333333335e-05, 'epoch': 20.69}
+{'loss': 0.0186, 'grad_norm': 0.28606170415878296, 'learning_rate': 2.9597e-05, 'epoch': 20.69}
+{'loss': 0.0109, 'grad_norm': 0.4741019606590271, 'learning_rate': 2.9596666666666667e-05, 'epoch': 20.69}
+{'loss': 0.0111, 'grad_norm': 0.380709171295166, 'learning_rate': 2.9596333333333333e-05, 'epoch': 20.69}
+{'loss': 0.0114, 'grad_norm': 0.2992388606071472, 'learning_rate': 2.9596000000000003e-05, 'epoch': 20.69}
+{'loss': 0.011, 'grad_norm': 0.4169728755950928, 'learning_rate': 2.9595666666666665e-05, 'epoch': 20.69}
+{'loss': 0.0061, 'grad_norm': 0.8805220127105713, 'learning_rate': 2.9595333333333334e-05, 'epoch': 20.7}
+{'loss': 0.0044, 'grad_norm': 0.12588036060333252, 'learning_rate': 2.9595e-05, 'epoch': 20.7}
+{'loss': 0.0191, 'grad_norm': 0.5865361094474792, 'learning_rate': 2.9594666666666666e-05, 'epoch': 20.7}
+{'loss': 0.0075, 'grad_norm': 0.1972983181476593, 'learning_rate': 2.9594333333333336e-05, 'epoch': 20.7}
+{'loss': 0.004, 'grad_norm': 0.15591812133789062, 'learning_rate': 2.9594e-05, 'epoch': 20.7}
+{'loss': 0.0115, 'grad_norm': 0.29317209124565125, 'learning_rate': 2.9593666666666668e-05, 'epoch': 20.71}
+{'loss': 0.015, 'grad_norm': 0.4665067195892334, 'learning_rate': 2.9593333333333333e-05, 'epoch': 20.71}
+{'loss': 0.0102, 'grad_norm': 0.48972606658935547, 'learning_rate': 2.9593000000000003e-05, 'epoch': 20.71}
+{'loss': 0.0093, 'grad_norm': 0.2213616967201233, 'learning_rate': 2.9592666666666665e-05, 'epoch': 20.71}
+{'loss': 0.0152, 'grad_norm': 0.6633093357086182, 'learning_rate': 2.9592333333333335e-05, 'epoch': 20.71}
+{'loss': 0.0149, 'grad_norm': 0.8084264993667603, 'learning_rate': 2.9592000000000004e-05, 'epoch': 20.71}
+{'loss': 0.0089, 'grad_norm': 0.2868703007698059, 'learning_rate': 2.9591666666666667e-05, 'epoch': 20.72}
+{'loss': 0.0092, 'grad_norm': 0.3528291881084442, 'learning_rate': 2.9591333333333336e-05, 'epoch': 20.72}
+{'loss': 0.0113, 'grad_norm': 0.26255181431770325, 'learning_rate': 2.9591e-05, 'epoch': 20.72}
+{'loss': 0.0047, 'grad_norm': 0.14820496737957, 'learning_rate': 2.9590666666666668e-05, 'epoch': 20.72}
+{'loss': 0.012, 'grad_norm': 0.5360812544822693, 'learning_rate': 2.9590333333333334e-05, 'epoch': 20.72}
+ 11%|█         | 11233/100000 [6:08:48<26:10:03,  1.06s/it] 11%|█         | 11234/100000 [6:08:49<25:43:18,  1.04s/it]                                                            11%|█         | 11234/100000 [6:08:49<25:43:18,  1.04s/it] 11%|█         | 11235/100000 [6:08:50<25:02:39,  1.02s/it]                                                            11%|█         | 11235/100000 [6:08:50<25:02:39,  1.02s/it] 11%|█         | 11236/100000 [6:08:51<24:32:18,  1.00it/s]                                                            11%|█         | 11236/100000 [6:08:51<24:32:18,  1.00it/s] 11%|█         | 11237/100000 [6:08:52<23:59:49,  1.03it/s]                                                            11%|█         | 11237/100000 [6:08:52<23:59:49,  1.03it/s] 11%|█         | 11238/100000 [6:08:53<23:45:51,  1.04it/s]                                                            11%|█         | 11238/100000 [6:08:53<23:45:51,  1.04it/s] 11%|█         | 11239/100000 [6:08:54<23:28:14,  1.05it/s]                                                            11%|█         | 11239/100000 [6:08:54<23:28:14,  1.05it/s] 11%|█         | 11240/100000 [6:08:55<22:22:02,  1.10it/s]                                                            11%|█         | 11240/100000 [6:08:55<22:22:02,  1.10it/s] 11%|█         | 11241/100000 [6:09:06<100:28:39,  4.08s/it]                                                             11%|█         | 11241/100000 [6:09:06<100:28:39,  4.08s/it] 11%|█         | 11242/100000 [6:09:12<114:10:31,  4.63s/it]                                                             11%|█         | 11242/100000 [6:09:12<114:10:31,  4.63s/it] 11%|█         | 11243/100000 [6:09:17<114:47:14,  4.66s/it]                                                             11%|█         | 11243/100000 [6:09:17<114:47:14,  4.66s/it] 11%|█         | 11244/100000 [6:09:21<110:44:12,  4.49s/it]                                                             11%|█         | 11244/100000 [6:09:21<110:44:12,  4.49s/it] 11%|█         | 11245/100000 [6:09:25<104:43:23,  4.25s/it]                                                             11%|█         | 11245/100000 [6:09:25<104:43:23,  4.25s/it] 11%|█         | 11246/100000 [6:09:28<97:39:43,  3.96s/it]                                                             11%|█         | 11246/100000 [6:09:28<97:39:43,  3.96s/it] 11%|█         | 11247/100000 [6:09:31<90:54:35,  3.69s/it]                                                            11%|█         | 11247/100000 [6:09:31<90:54:35,  3.69s/it] 11%|█         | 11248/100000 [6:09:34<83:58:26,  3.41s/it]                                                            11%|█         | 11248/100000 [6:09:34<83:58:26,  3.41s/it] 11%|█         | 11249/100000 [6:09:36<77:21:50,  3.14s/it]                                                            11%|█         | 11249/100000 [6:09:36<77:21:50,  3.14s/it] 11%|█▏        | 11250/100000 [6:09:39<71:05:25,  2.88s/it]                                                            11%|█▏        | 11250/100000 [6:09:39<71:05:25,  2.88s/it] 11%|█▏        | 11251/100000 [6:09:41<65:22:11,  2.65s/it]                                                            11%|█▏        | 11251/100000 [6:09:41<65:22:11,  2.65s/it] 11%|█▏        | 11252/100000 [6:09:43<60:23:41,  2.45s/it]                                                            11%|█▏        | 11252/100000 [6:09:43<60:23:41,  2.45s/it] 11%|█▏        | 11253/100000 [6:09:45<55:58:13,  2.27s/it]                                                            11%|█▏        | 11253/100000 [6:09:45<55:58:13,  2.27s/it] 11%|█▏        | 11254/100000 [6:09:46<52:18:10,  2.12s/it]                                                            11%|█▏        | 11254/100000 [6:09:46<52:18:10,  2.12s/it] 11%|█▏        | 11255/100000 [6:09:48<49:03:09,  1.99s/it]                                                            11%|█▏        | 11255/100000 [6:09:48<49:03:09,  1.99s/it] 11%|█▏        | 11256/100000 [6:09:50<45:46:14,  1.86s/it]                                                            11%|█▏        | 11256/100000 [6:09:50<45:46:14,  1.86s/it] 11%|█▏        | 11257/100000 [6:09:51<43:49:56,  1.78s/it]                                                            11%|█▏        | 11257/100000 [6:09:51<43:49:56,  1.78s/it] 11%|█▏        | 11258/100000 [6:09:53<42:07:20,  1.71s/it]                                                            11%|█▏        | 11258/100000 [6:09:53<42:07:20,  1.71s/it] 11%|█▏        | 11259/100000 [6:09:54<40:04:40,  1.63s/it]                                                            11%|█▏        | 11259/100000 [6:09:54<40:04:40,  1.63s/it] 11%|█▏        | 11260/100000 [6:09:55<38:24:03,  1.56s/it]                                                            11%|█▏        | 11260/100000 [6:09:55<38:24:03,  1.56s/it] 11%|█▏        | 11261/100000 [6:09:57<37:14:57,  1.51s/it]                                                            11%|█▏        | 11261/100000 [6:09:57<37:14:57,  1.51s/it] 11%|█▏        | 11262/100000 [6:09:58<36:30:27,  1.48s/it]                                                            11%|█▏        | 11262/100000 [6:09:58<36:30:27,  1.48s/it] 11%|█▏        | 11263/100000 [6:10:00<35:53:46,  1.46s/it]                                                            11%|█▏        | 11263/100000 [6:10:00<35:53:46,  1.46s/it] 11%|█▏        | 11264/100000 [6:10:01<35:14:02,  1.43s/it]                                                            11%|█▏        | 11264/100000 [6:10:01<35:14:02,  1.43s/it] 11%|█▏        | 11265/100000 [6:10:02<34:20:16,  1.39s/it]                                                            11%|█▏        | 11265/100000 [6:10:02<34:20:16,  1.39s/it] 11%|█▏        | 11266/100000 [6:10:04<33:51:45,  1.37s/it]                                                            11%|█▏        | 11266/100000 [6:10:04<33:51:45,  1.37s/it] 11%|█▏        | 11267/100000 [6:10:05<33:23:20,  1.35s/it]                                                            11%|█▏        | 11267/100000 [6:10:05<33:23:20,  1.35s/it] 11%|█▏        | 11268/100000 [6:10:06<32:54:31,  1.34s/it]                                                            11%|█▏        | 11268/100000 [6:10:06<32:54:31,  1.34s/it] 11%|█▏        | 11269/100000 [6:10:08<32:21:18,  1.31s/it]                                                            11%|█▏        | 11269/100000 [6:10:08<32:21:18,  1.31s/it] 11%|█▏        | 11270/100000 [6:10:09<32:02:50,  1.30s/it]                                                            11%|█▏        | 11270/100000 [6:10:09<32:02:50,  1.30s/it] 11%|█▏        | 11271/100000 [6:10:10<31:26:22,  1.28s/it]                                                            11%|█▏        | 11271/100000 [6:10:10<31:26:22,  1.28s/it] 11%|█▏        | 11272/100000 [6:10:11<31:02:33,  1.26s/it]                                                            11%|█▏        | 11272/100000 [6:10:11<31:02:33,  1.26s/it] 11%|█▏        | 11273/100000 [6:10:12<30:34:18,  1.24s/it]                                                            11%|█▏        | 11273/100000 [6:10:12<30:34:18,  1.24s/it] 11%|█▏        | 11274/100000 [6:10:14<30:01:43,  1.22s/it]                                                            11%|█▏        | 11274/100000 [6:10:14<30:01:43,  1.22s/it] 11%|█▏        | 11275/100000 [6:10:15<29:26:39,  1.19s/it]                                                            11%|█▏        | 11275/100000 [6:10:15<29:26:39,  1.19s/it] 11%|█▏        | 11276/100000 [6:10:16<29:07:04,  1.18s/it]                                                            11%|█▏        | 11276/100000 [6:10:16<29:07:04,  1.18s/it] 11%|█▏        | 11277/100000 [6:10:17<28:45:03,  1.17s/it]                                                            11%|█▏        | 11277/100000 [6:10:17<28:45:03,  1.17s/it] 11%|█▏        | 11278/100000 [6:10:18<28:09:43,  1.14s/it]                                                            11%|█▏        | 11278/100000 [6:10:18<28:09:43,  1.14s/it] 11%|█▏        | 11279/100000 [6:10:19<27:36:42,  1.12s/it]                                                            11%|█▏        | 11279/100000 [6:10:19<27:36:42,  1.12s/it] 11%|█▏        | 11280/100000 [6:10:20<27:09:22,  1.10s/it]                                                            11%|█▏        | 11280/100000 [6:10:20<27:09:22,  1.10s/it] 11%|█▏        | 11281/100000 [6:10:21<26:36:53,  1.08s/it]                                                            11%|█▏        | 11281/100000 [6:10:21<26:36:53,  1.08s/it] 11%|█▏        | 11282/100000 [6:10:22<26:28:41,  1.07s/it]                                                            11%|█▏        | 11282/100000 [6:10:22<26:28:41,  1.07s/it] 11%|█▏        | 11283/100000 [6:10:23<25:56:17,  1.05s/it]                                                            11%|█▏        | 11283/100000 [6:10:23<25:56:17,  1.05s/it] 11%|█▏        | 11284/100000 [6:10:24<25:40:30,  1.04s/it]                                                            11%|█▏        | 11284/100000 [6:10:24<25:40:30,  1.04s/it] 11%|█▏        | 11285/100000 [6:10:25<25:14:23,  1.02s/it]                                                            11%|█▏        | 11285/100000 [6:10:25<25:14:23,  1.02s/it] 11%|█▏        | 11286/100000 [6:10:26<24:49:42,  1.01s/it]                                                            11%|█▏        | 11286/100000 [6:10:26<24:49:42,  1.01s/it] 11%|█▏        | 11287/100000 [6:10:27<24:32:52,  1.00it/s]                                                            11%|█▏        | 11287/100000 [6:10:27<24:32:52,  1.00it/s] 11%|█▏        | 11288/100000 [6:10:28<24:15:53,  1.02it/s]                                                            11%|█▏        | 11288/100000 [6:10:28<24:15:53,  1.02it/s] 11%|█▏        | 11289/100000 [6:10:29<23:41:34,  1.04it/s]                                                            11%|█▏        | 11289/100000 [6:10:29<23:41:34,  1.04it/s] 11%|█▏        | 11290/100000 [6:10:30<23:41:23,  1.04it/s]                                                            11%|█▏        | 11290/100000 [6:10:30<23:41:23,  1.04it/s] 11%|█▏        | 11291/100000 [6:10:41<94:03:52,  3.82s/it]                                                            11%|█▏        | 11291/100000 [6:10:41<94:03:52,  3.82s/it] 11%|█▏        | 11292/100000 [6:10:46<108:57:36,  4.42s/it]                                                             11%|█▏        | 11292/100000 [6:10:46<108:57:36,  4.42s/it] 11%|█▏        | 11293/100000 [6:10:51<110:56:45,  4.50s/it]                                                             11%|█▏        | 11293/100000 [6:10:51<110:56:45,  4.50s/it] 11%|█▏        | 11294/100000 [6:10:55<108:43:30,  4.41s/it]                                                             11%|█▏        | 11294/100000 [6:10:55<108:43:30,  4.41s/it] 11%|█▏        | 11295/100000 [6:10:59<104:35:42,  4.24s/it]                                                             11%|█▏        | 11295/100000 [6:10:59<104:35:42,  4.24s/it] 11%|█▏        | 11296/100000 [6:11:02<97:08:33,  3.94s/it]                                                             11%|█▏        | 11296/100000 [6:11:02<97:08:33,  3.94s/it] 11%|█▏        | 11297/100000 [6:11:05<90:34:05,  3.68s/it]                                                            11%|█▏        | 11297/100000 [6:11:05<90:34:05,  3.68s/it] 11%|█▏        | 11298/100000 [6:11:08<84:02:51,  3.41s/it]                                                            11%|█▏        | 11298/100000 [6:11:08<84:02:51,  3.41s/it] 11%|█▏        | 11299/100000 [6:11:11<77:38:09,  3.15s/it]                                                            11%|█▏        | 11299/100000 [6:11:11<77:38:09,  3.15s/it] 11%|█▏        | 11300/100000 [6:11:13<71:54:56,  2.92s/it]                                                            11%|█▏        | 11300/100000 [6:11:13<71:54:56,  2.92s/it] 11%|█▏        | 11301/100000 [6:11:15<66:45:05,  2.71s/it]                                                            11%|█▏        | 11301/100000 [6:11:15<66:45:05,  2.71s/it] 11%|█▏        | 11302/100000 [6:11:17<61:56:29,  2.51s/it]                                                            11%|█▏        | 11302/100000 [6:11:17<61:56:29,  2.51s/it] 11%|█▏        | 11303/100000 [6:11:19<57:47:38,  2.35s/it]                                                            11%|█▏        | 11303/100000 [6:11:19<57:47:38,  2.35s/it] 11%|█▏        | 11304/100000 [6:11:21<54:12:32,  2.20s/it]                                                            11%|█▏        | 11304/100000 [6:11:21<54:12:32,  2.20s/it] 11%|█▏        | 11305/100000 [6:11:23<50:52:46,  2.07s/it]                                                            11%|█▏        | 11305/100000 [6:11:23<50:52:46,  2.07s/it] 11%|█▏        | 11306/100000 [6:11:25<48:01:01,  1.95s/it]                                                            11%|█▏        | 11306/100000 [6:11:25<48:01:01,  1.95s/it] 11%|█▏        | 11307/100000 [6:11:26<45:38:37,  1.85s/it]                                                            11%|█▏        | 11307/100000 [6:11:26<45:38:37,  1.85s/it] 11%|█▏        | 11308/100000 [6:11:28<43:44:12,  1.78s/it]                                                            11%|█▏        | 11308/100000 [6:11:28<43:44:12,  1.78s/it] 11%|█▏        | 11309/100000 [6:11:29<41:57:03,  1.70s/it]                                                            11%|█▏        | 11309/100000 [6:11:29<41:57:03,  1.70s/it] 11%|█▏        | 11310/100000 [6:11:31<40:18:07,  1.64s/it]                                                            11%|█▏        | 11310/100000 [6:11:31<40:18:07,  1.64s/it] 11%|█▏        | 11311/100000 [6:11:32<38:35:44,  1.57s/it]                                                           {'loss': 0.0051, 'grad_norm': 0.18604981899261475, 'learning_rate': 2.959e-05, 'epoch': 20.73}
+{'loss': 0.0111, 'grad_norm': 0.4018900692462921, 'learning_rate': 2.9589666666666666e-05, 'epoch': 20.73}
+{'loss': 0.0166, 'grad_norm': 0.818670392036438, 'learning_rate': 2.9589333333333335e-05, 'epoch': 20.73}
+{'loss': 0.0046, 'grad_norm': 0.243108868598938, 'learning_rate': 2.9589e-05, 'epoch': 20.73}
+{'loss': 0.0051, 'grad_norm': 0.13450288772583008, 'learning_rate': 2.9588666666666667e-05, 'epoch': 20.73}
+{'loss': 0.0113, 'grad_norm': 0.40568941831588745, 'learning_rate': 2.9588333333333336e-05, 'epoch': 20.73}
+{'loss': 0.013, 'grad_norm': 0.4287243187427521, 'learning_rate': 2.9588e-05, 'epoch': 20.74}
+{'loss': 0.0114, 'grad_norm': 0.4001462459564209, 'learning_rate': 2.9587666666666668e-05, 'epoch': 20.74}
+{'loss': 0.2375, 'grad_norm': 0.7578105926513672, 'learning_rate': 2.9587333333333334e-05, 'epoch': 20.74}
+{'loss': 0.1031, 'grad_norm': 0.43286678194999695, 'learning_rate': 2.9587e-05, 'epoch': 20.74}
+{'loss': 0.075, 'grad_norm': 0.4050258994102478, 'learning_rate': 2.9586666666666666e-05, 'epoch': 20.74}
+{'loss': 0.093, 'grad_norm': 0.42576155066490173, 'learning_rate': 2.9586333333333335e-05, 'epoch': 20.75}
+{'loss': 0.1502, 'grad_norm': 0.8448416590690613, 'learning_rate': 2.9586e-05, 'epoch': 20.75}
+{'loss': 0.0749, 'grad_norm': 0.46882346272468567, 'learning_rate': 2.9585666666666667e-05, 'epoch': 20.75}
+{'loss': 0.0778, 'grad_norm': 0.4115670323371887, 'learning_rate': 2.9585333333333336e-05, 'epoch': 20.75}
+{'loss': 0.064, 'grad_norm': 0.49006929993629456, 'learning_rate': 2.9585e-05, 'epoch': 20.75}
+{'loss': 0.0396, 'grad_norm': 0.3789594769477844, 'learning_rate': 2.9584666666666668e-05, 'epoch': 20.76}
+{'loss': 0.043, 'grad_norm': 0.5852547883987427, 'learning_rate': 2.9584333333333334e-05, 'epoch': 20.76}
+{'loss': 0.0386, 'grad_norm': 0.4392510950565338, 'learning_rate': 2.9584e-05, 'epoch': 20.76}
+{'loss': 0.0723, 'grad_norm': 0.338418573141098, 'learning_rate': 2.958366666666667e-05, 'epoch': 20.76}
+{'loss': 0.0524, 'grad_norm': 0.2645232379436493, 'learning_rate': 2.9583333333333335e-05, 'epoch': 20.76}
+{'loss': 0.0259, 'grad_norm': 0.24157041311264038, 'learning_rate': 2.9583e-05, 'epoch': 20.76}
+{'loss': 0.0432, 'grad_norm': 0.38394519686698914, 'learning_rate': 2.9582666666666667e-05, 'epoch': 20.77}
+{'loss': 0.0203, 'grad_norm': 0.3139944076538086, 'learning_rate': 2.9582333333333336e-05, 'epoch': 20.77}
+{'loss': 0.031, 'grad_norm': 0.46563613414764404, 'learning_rate': 2.9582e-05, 'epoch': 20.77}
+{'loss': 0.0157, 'grad_norm': 0.30651748180389404, 'learning_rate': 2.958166666666667e-05, 'epoch': 20.77}
+{'loss': 0.0104, 'grad_norm': 0.22431708872318268, 'learning_rate': 2.958133333333333e-05, 'epoch': 20.77}
+{'loss': 0.0187, 'grad_norm': 0.5509371161460876, 'learning_rate': 2.9581e-05, 'epoch': 20.78}
+{'loss': 0.0075, 'grad_norm': 0.22594115138053894, 'learning_rate': 2.958066666666667e-05, 'epoch': 20.78}
+{'loss': 0.0088, 'grad_norm': 0.19666936993598938, 'learning_rate': 2.9580333333333332e-05, 'epoch': 20.78}
+{'loss': 0.0057, 'grad_norm': 0.22689498960971832, 'learning_rate': 2.958e-05, 'epoch': 20.78}
+{'loss': 0.0163, 'grad_norm': 0.394515722990036, 'learning_rate': 2.9579666666666667e-05, 'epoch': 20.78}
+{'loss': 0.0056, 'grad_norm': 0.16962333023548126, 'learning_rate': 2.9579333333333333e-05, 'epoch': 20.78}
+{'loss': 0.016, 'grad_norm': 0.20703470706939697, 'learning_rate': 2.9579e-05, 'epoch': 20.79}
+{'loss': 0.0085, 'grad_norm': 0.29677820205688477, 'learning_rate': 2.957866666666667e-05, 'epoch': 20.79}
+{'loss': 0.0052, 'grad_norm': 0.19197024405002594, 'learning_rate': 2.9578333333333334e-05, 'epoch': 20.79}
+{'loss': 0.0119, 'grad_norm': 0.4533921182155609, 'learning_rate': 2.9578e-05, 'epoch': 20.79}
+{'loss': 0.0053, 'grad_norm': 0.22189201414585114, 'learning_rate': 2.957766666666667e-05, 'epoch': 20.79}
+{'loss': 0.0431, 'grad_norm': 0.5494603514671326, 'learning_rate': 2.9577333333333332e-05, 'epoch': 20.8}
+{'loss': 0.0086, 'grad_norm': 0.3049589991569519, 'learning_rate': 2.9577e-05, 'epoch': 20.8}
+{'loss': 0.0098, 'grad_norm': 0.23531177639961243, 'learning_rate': 2.9576666666666668e-05, 'epoch': 20.8}
+{'loss': 0.0053, 'grad_norm': 0.24381548166275024, 'learning_rate': 2.9576333333333333e-05, 'epoch': 20.8}
+{'loss': 0.0231, 'grad_norm': 2.4563019275665283, 'learning_rate': 2.9576e-05, 'epoch': 20.8}
+{'loss': 0.0053, 'grad_norm': 0.33990874886512756, 'learning_rate': 2.957566666666667e-05, 'epoch': 20.81}
+{'loss': 0.0083, 'grad_norm': 0.35326576232910156, 'learning_rate': 2.9575333333333335e-05, 'epoch': 20.81}
+{'loss': 0.0132, 'grad_norm': 0.34734803438186646, 'learning_rate': 2.9575e-05, 'epoch': 20.81}
+{'loss': 0.0208, 'grad_norm': 0.8471444845199585, 'learning_rate': 2.957466666666667e-05, 'epoch': 20.81}
+{'loss': 0.0061, 'grad_norm': 0.4880143105983734, 'learning_rate': 2.9574333333333332e-05, 'epoch': 20.81}
+{'loss': 0.006, 'grad_norm': 0.23279136419296265, 'learning_rate': 2.9574000000000002e-05, 'epoch': 20.81}
+{'loss': 0.0063, 'grad_norm': 0.19613172113895416, 'learning_rate': 2.9573666666666668e-05, 'epoch': 20.82}
+{'loss': 0.0047, 'grad_norm': 0.20421376824378967, 'learning_rate': 2.9573333333333334e-05, 'epoch': 20.82}
+{'loss': 0.0045, 'grad_norm': 0.3376994729042053, 'learning_rate': 2.9573e-05, 'epoch': 20.82}
+{'loss': 0.0188, 'grad_norm': 0.39231762290000916, 'learning_rate': 2.957266666666667e-05, 'epoch': 20.82}
+{'loss': 0.0026, 'grad_norm': 0.10870233923196793, 'learning_rate': 2.9572333333333335e-05, 'epoch': 20.82}
+{'loss': 0.0022, 'grad_norm': 0.697699248790741, 'learning_rate': 2.9572e-05, 'epoch': 20.83}
+{'loss': 0.0127, 'grad_norm': 0.3991001844406128, 'learning_rate': 2.957166666666667e-05, 'epoch': 20.83}
+{'loss': 0.0284, 'grad_norm': 0.9220645427703857, 'learning_rate': 2.9571333333333333e-05, 'epoch': 20.83}
+{'loss': 0.0243, 'grad_norm': 0.41163426637649536, 'learning_rate': 2.9571000000000002e-05, 'epoch': 20.83}
+{'loss': 0.1517, 'grad_norm': 0.9080430865287781, 'learning_rate': 2.9570666666666665e-05, 'epoch': 20.83}
+{'loss': 0.1335, 'grad_norm': 0.43430566787719727, 'learning_rate': 2.9570333333333334e-05, 'epoch': 20.83}
+{'loss': 0.0931, 'grad_norm': 0.5547497272491455, 'learning_rate': 2.957e-05, 'epoch': 20.84}
+{'loss': 0.1158, 'grad_norm': 0.5292896032333374, 'learning_rate': 2.9569666666666666e-05, 'epoch': 20.84}
+{'loss': 0.099, 'grad_norm': 0.4992031753063202, 'learning_rate': 2.9569333333333335e-05, 'epoch': 20.84}
+{'loss': 0.0715, 'grad_norm': 0.4766106903553009, 'learning_rate': 2.9569e-05, 'epoch': 20.84}
+{'loss': 0.0692, 'grad_norm': 0.5213163495063782, 'learning_rate': 2.9568666666666667e-05, 'epoch': 20.84}
+{'loss': 0.0706, 'grad_norm': 0.5166041851043701, 'learning_rate': 2.9568333333333333e-05, 'epoch': 20.85}
+{'loss': 0.0737, 'grad_norm': 0.3912571966648102, 'learning_rate': 2.9568000000000002e-05, 'epoch': 20.85}
+{'loss': 0.0371, 'grad_norm': 0.47118571400642395, 'learning_rate': 2.9567666666666665e-05, 'epoch': 20.85}
+{'loss': 0.0704, 'grad_norm': 0.49245890974998474, 'learning_rate': 2.9567333333333334e-05, 'epoch': 20.85}
+{'loss': 0.0356, 'grad_norm': 0.33564913272857666, 'learning_rate': 2.9567000000000003e-05, 'epoch': 20.85}
+{'loss': 0.0806, 'grad_norm': 0.36780816316604614, 'learning_rate': 2.9566666666666666e-05, 'epoch': 20.86}
+{'loss': 0.0328, 'grad_norm': 0.6674977540969849, 'learning_rate': 2.9566333333333335e-05, 'epoch': 20.86}
+{'loss': 0.0261, 'grad_norm': 0.497979998588562, 'learning_rate': 2.9566e-05, 'epoch': 20.86}
+{'loss': 0.0222, 'grad_norm': 0.23606769740581512, 'learning_rate': 2.9565666666666667e-05, 'epoch': 20.86}
+{'loss': 0.0083, 'grad_norm': 0.2154080867767334, 'learning_rate': 2.9565333333333333e-05, 'epoch': 20.86}
+{'loss': 0.0141, 'grad_norm': 0.23044618964195251, 'learning_rate': 2.9565000000000002e-05, 'epoch': 20.86}
+{'loss': 0.0095, 'grad_norm': 0.7383080124855042, 'learning_rate': 2.9564666666666665e-05, 'epoch': 20.87}
+{'loss': 0.0129, 'grad_norm': 0.21569529175758362, 'learning_rate': 2.9564333333333334e-05, 'epoch': 20.87}
+ 11%|█▏        | 11311/100000 [6:11:32<38:35:44,  1.57s/it] 11%|█▏        | 11312/100000 [6:11:34<37:17:19,  1.51s/it]                                                            11%|█▏        | 11312/100000 [6:11:34<37:17:19,  1.51s/it] 11%|█▏        | 11313/100000 [6:11:35<36:32:03,  1.48s/it]                                                            11%|█▏        | 11313/100000 [6:11:35<36:32:03,  1.48s/it] 11%|█▏        | 11314/100000 [6:11:37<35:49:36,  1.45s/it]                                                            11%|█▏        | 11314/100000 [6:11:37<35:49:36,  1.45s/it] 11%|█▏        | 11315/100000 [6:11:38<35:12:31,  1.43s/it]                                                            11%|█▏        | 11315/100000 [6:11:38<35:12:31,  1.43s/it] 11%|█▏        | 11316/100000 [6:11:39<35:00:51,  1.42s/it]                                                            11%|█▏        | 11316/100000 [6:11:39<35:00:51,  1.42s/it] 11%|█▏        | 11317/100000 [6:11:41<34:08:40,  1.39s/it]                                                            11%|█▏        | 11317/100000 [6:11:41<34:08:40,  1.39s/it] 11%|█▏        | 11318/100000 [6:11:42<33:23:45,  1.36s/it]                                                            11%|█▏        | 11318/100000 [6:11:42<33:23:45,  1.36s/it] 11%|█▏        | 11319/100000 [6:11:43<32:55:10,  1.34s/it]                                                            11%|█▏        | 11319/100000 [6:11:43<32:55:10,  1.34s/it] 11%|█▏        | 11320/100000 [6:11:44<32:28:26,  1.32s/it]                                                            11%|█▏        | 11320/100000 [6:11:44<32:28:26,  1.32s/it] 11%|█▏        | 11321/100000 [6:11:46<32:01:24,  1.30s/it]                                                            11%|█▏        | 11321/100000 [6:11:46<32:01:24,  1.30s/it] 11%|█▏        | 11322/100000 [6:11:47<31:01:59,  1.26s/it]                                                            11%|█▏        | 11322/100000 [6:11:47<31:01:59,  1.26s/it] 11%|█▏        | 11323/100000 [6:11:48<30:45:26,  1.25s/it]                                                            11%|█▏        | 11323/100000 [6:11:48<30:45:26,  1.25s/it] 11%|█▏        | 11324/100000 [6:11:49<30:11:39,  1.23s/it]                                                            11%|█▏        | 11324/100000 [6:11:49<30:11:39,  1.23s/it] 11%|█▏        | 11325/100000 [6:11:50<29:44:36,  1.21s/it]                                                            11%|█▏        | 11325/100000 [6:11:50<29:44:36,  1.21s/it] 11%|█▏        | 11326/100000 [6:11:52<29:06:41,  1.18s/it]                                                            11%|█▏        | 11326/100000 [6:11:52<29:06:41,  1.18s/it] 11%|█▏        | 11327/100000 [6:11:53<28:45:50,  1.17s/it]                                                            11%|█▏        | 11327/100000 [6:11:53<28:45:50,  1.17s/it] 11%|█▏        | 11328/100000 [6:11:54<28:23:48,  1.15s/it]                                                            11%|█▏        | 11328/100000 [6:11:54<28:23:48,  1.15s/it] 11%|█▏        | 11329/100000 [6:11:55<27:46:45,  1.13s/it]                                                            11%|█▏        | 11329/100000 [6:11:55<27:46:45,  1.13s/it] 11%|█▏        | 11330/100000 [6:11:56<27:18:33,  1.11s/it]                                                            11%|█▏        | 11330/100000 [6:11:56<27:18:33,  1.11s/it] 11%|█▏        | 11331/100000 [6:11:57<26:38:46,  1.08s/it]                                                            11%|█▏        | 11331/100000 [6:11:57<26:38:46,  1.08s/it] 11%|█▏        | 11332/100000 [6:11:58<26:29:37,  1.08s/it]                                                            11%|█▏        | 11332/100000 [6:11:58<26:29:37,  1.08s/it] 11%|█▏        | 11333/100000 [6:11:59<26:05:14,  1.06s/it]                                                            11%|█▏        | 11333/100000 [6:11:59<26:05:14,  1.06s/it] 11%|█▏        | 11334/100000 [6:12:00<25:53:27,  1.05s/it]                                                            11%|█▏        | 11334/100000 [6:12:00<25:53:27,  1.05s/it] 11%|█▏        | 11335/100000 [6:12:01<25:14:04,  1.02s/it]                                                            11%|█▏        | 11335/100000 [6:12:01<25:14:04,  1.02s/it] 11%|█▏        | 11336/100000 [6:12:02<24:46:01,  1.01s/it]                                                            11%|█▏        | 11336/100000 [6:12:02<24:46:01,  1.01s/it] 11%|█▏        | 11337/100000 [6:12:03<24:17:45,  1.01it/s]                                                            11%|█▏        | 11337/100000 [6:12:03<24:17:45,  1.01it/s] 11%|█▏        | 11338/100000 [6:12:04<23:50:01,  1.03it/s]                                                            11%|█▏        | 11338/100000 [6:12:04<23:50:01,  1.03it/s] 11%|█▏        | 11339/100000 [6:12:05<23:06:13,  1.07it/s]                                                            11%|█▏        | 11339/100000 [6:12:05<23:06:13,  1.07it/s] 11%|█▏        | 11340/100000 [6:12:06<22:17:41,  1.10it/s]                                                            11%|█▏        | 11340/100000 [6:12:06<22:17:41,  1.10it/s] 11%|█▏        | 11341/100000 [6:12:16<93:55:42,  3.81s/it]                                                            11%|█▏        | 11341/100000 [6:12:16<93:55:42,  3.81s/it] 11%|█▏        | 11342/100000 [6:12:21<104:59:25,  4.26s/it]                                                             11%|█▏        | 11342/100000 [6:12:22<104:59:25,  4.26s/it] 11%|█▏        | 11343/100000 [6:12:26<106:43:19,  4.33s/it]                                                             11%|█▏        | 11343/100000 [6:12:26<106:43:19,  4.33s/it] 11%|█▏        | 11344/100000 [6:12:30<101:50:27,  4.14s/it]                                                             11%|█▏        | 11344/100000 [6:12:30<101:50:27,  4.14s/it] 11%|█▏        | 11345/100000 [6:12:33<95:42:26,  3.89s/it]                                                             11%|█▏        | 11345/100000 [6:12:33<95:42:26,  3.89s/it] 11%|█▏        | 11346/100000 [6:12:36<88:41:10,  3.60s/it]                                                            11%|█▏        | 11346/100000 [6:12:36<88:41:10,  3.60s/it] 11%|█▏        | 11347/100000 [6:12:39<81:35:58,  3.31s/it]                                                            11%|█▏        | 11347/100000 [6:12:39<81:35:58,  3.31s/it] 11%|█▏        | 11348/100000 [6:12:41<73:59:21,  3.00s/it]                                                            11%|█▏        | 11348/100000 [6:12:41<73:59:21,  3.00s/it] 11%|█▏        | 11349/100000 [6:12:43<67:40:43,  2.75s/it]                                                            11%|█▏        | 11349/100000 [6:12:43<67:40:43,  2.75s/it] 11%|█▏        | 11350/100000 [6:12:45<61:56:58,  2.52s/it]                                                            11%|█▏        | 11350/100000 [6:12:45<61:56:58,  2.52s/it] 11%|█▏        | 11351/100000 [6:12:47<57:13:22,  2.32s/it]                                                            11%|█▏        | 11351/100000 [6:12:47<57:13:22,  2.32s/it] 11%|█▏        | 11352/100000 [6:12:49<53:00:07,  2.15s/it]                                                            11%|█▏        | 11352/100000 [6:12:49<53:00:07,  2.15s/it] 11%|█▏        | 11353/100000 [6:12:50<49:33:39,  2.01s/it]                                                            11%|█▏        | 11353/100000 [6:12:50<49:33:39,  2.01s/it] 11%|█▏        | 11354/100000 [6:12:52<46:37:20,  1.89s/it]                                                            11%|█▏        | 11354/100000 [6:12:52<46:37:20,  1.89s/it] 11%|█▏        | 11355/100000 [6:12:53<44:13:47,  1.80s/it]                                                            11%|█▏        | 11355/100000 [6:12:53<44:13:47,  1.80s/it] 11%|█▏        | 11356/100000 [6:12:55<41:50:07,  1.70s/it]                                                            11%|█▏        | 11356/100000 [6:12:55<41:50:07,  1.70s/it] 11%|█▏        | 11357/100000 [6:12:56<40:08:32,  1.63s/it]                                                            11%|█▏        | 11357/100000 [6:12:56<40:08:32,  1.63s/it] 11%|█▏        | 11358/100000 [6:12:58<38:27:51,  1.56s/it]                                                            11%|█▏        | 11358/100000 [6:12:58<38:27:51,  1.56s/it] 11%|█▏        | 11359/100000 [6:12:59<36:41:44,  1.49s/it]                                                            11%|█▏        | 11359/100000 [6:12:59<36:41:44,  1.49s/it] 11%|█▏        | 11360/100000 [6:13:00<35:40:38,  1.45s/it]                                                            11%|█▏        | 11360/100000 [6:13:00<35:40:38,  1.45s/it] 11%|█▏        | 11361/100000 [6:13:02<34:45:09,  1.41s/it]                                                            11%|█▏        | 11361/100000 [6:13:02<34:45:09,  1.41s/it] 11%|█▏        | 11362/100000 [6:13:03<33:56:19,  1.38s/it]                                                            11%|█▏        | 11362/100000 [6:13:03<33:56:19,  1.38s/it] 11%|█▏        | 11363/100000 [6:13:04<33:25:16,  1.36s/it]                                                            11%|█▏        | 11363/100000 [6:13:04<33:25:16,  1.36s/it] 11%|█▏        | 11364/100000 [6:13:06<32:37:08,  1.32s/it]                                                            11%|█▏        | 11364/100000 [6:13:06<32:37:08,  1.32s/it] 11%|█▏        | 11365/100000 [6:13:07<32:08:13,  1.31s/it]                                                            11%|█▏        | 11365/100000 [6:13:07<32:08:13,  1.31s/it] 11%|█▏        | 11366/100000 [6:13:08<31:19:24,  1.27s/it]                                                            11%|█▏        | 11366/100000 [6:13:08<31:19:24,  1.27s/it] 11%|█▏        | 11367/100000 [6:13:09<30:46:32,  1.25s/it]                                                            11%|█▏        | 11367/100000 [6:13:09<30:46:32,  1.25s/it] 11%|█▏        | 11368/100000 [6:13:10<30:12:53,  1.23s/it]                                                            11%|█▏        | 11368/100000 [6:13:10<30:12:53,  1.23s/it] 11%|█▏        | 11369/100000 [6:13:12<29:45:07,  1.21s/it]                                                            11%|█▏        | 11369/100000 [6:13:12<29:45:07,  1.21s/it] 11%|█▏        | 11370/100000 [6:13:13<29:11:22,  1.19s/it]                                                            11%|█▏        | 11370/100000 [6:13:13<29:11:22,  1.19s/it] 11%|█▏        | 11371/100000 [6:13:14<28:44:03,  1.17s/it]                                                            11%|█▏        | 11371/100000 [6:13:14<28:44:03,  1.17s/it] 11%|█▏        | 11372/100000 [6:13:15<28:08:04,  1.14s/it]                                                            11%|█▏        | 11372/100000 [6:13:15<28:08:04,  1.14s/it] 11%|█▏        | 11373/100000 [6:13:16<27:42:15,  1.13s/it]                                                            11%|█▏        | 11373/100000 [6:13:16<27:42:15,  1.13s/it] 11%|█▏        | 11374/100000 [6:13:17<27:12:12,  1.11s/it]                                                            11%|█▏        | 11374/100000 [6:13:17<27:12:12,  1.11s/it] 11%|█▏        | 11375/100000 [6:13:18<26:47:10,  1.09s/it]                                                            11%|█▏        | 11375/100000 [6:13:18<26:47:10,  1.09s/it] 11%|█▏        | 11376/100000 [6:13:19<26:15:56,  1.07s/it]                                                            11%|█▏        | 11376/100000 [6:13:19<26:15:56,  1.07s/it] 11%|█▏        | 11377/100000 [6:13:20<25:43:44,  1.05s/it]                                                            11%|█▏        | 11377/100000 [6:13:20<25:43:44,  1.05s/it] 11%|█▏        | 11378/100000 [6:13:21<25:15:01,  1.03s/it]                                                            11%|█▏        | 11378/100000 [6:13:21<25:15:01,  1.03s/it] 11%|█▏        | 11379/100000 [6:13:22<24:44:37,  1.01s/it]                                                            11%|█▏        | 11379/100000 [6:13:22<24:44:37,  1.01s/it] 11%|█▏        | 11380/100000 [6:13:23<24:25:28,  1.01it/s]                                                            11%|█▏        | 11380/100000 [6:13:23<24:25:28,  1.01it/s] 11%|█▏        | 11381/100000 [6:13:24<23:41:04,  1.04it/s]                                                            11%|█▏        | 11381/100000 [6:13:24<23:41:04,  1.04it/s] 11%|█▏        | 11382/100000 [6:13:25<21:53:54,  1.12it/s]                                                            11%|█▏        | 11382/100000 [6:13:25<21:53:54,  1.12it/s]{'loss': 0.0076, 'grad_norm': 0.2047816663980484, 'learning_rate': 2.9564000000000004e-05, 'epoch': 20.87}
+{'loss': 0.0184, 'grad_norm': 0.3197352886199951, 'learning_rate': 2.9563666666666666e-05, 'epoch': 20.87}
+{'loss': 0.0109, 'grad_norm': 0.3038652539253235, 'learning_rate': 2.9563333333333335e-05, 'epoch': 20.87}
+{'loss': 0.0222, 'grad_norm': 0.6552397608757019, 'learning_rate': 2.9563e-05, 'epoch': 20.88}
+{'loss': 0.0196, 'grad_norm': 0.5822405815124512, 'learning_rate': 2.9562666666666667e-05, 'epoch': 20.88}
+{'loss': 0.0051, 'grad_norm': 0.12892888486385345, 'learning_rate': 2.9562333333333333e-05, 'epoch': 20.88}
+{'loss': 0.0082, 'grad_norm': 0.1823236346244812, 'learning_rate': 2.9562000000000003e-05, 'epoch': 20.88}
+{'loss': 0.0063, 'grad_norm': 0.17489029467105865, 'learning_rate': 2.956166666666667e-05, 'epoch': 20.88}
+{'loss': 0.0132, 'grad_norm': 0.24932153522968292, 'learning_rate': 2.9561333333333334e-05, 'epoch': 20.88}
+{'loss': 0.0066, 'grad_norm': 0.1961432546377182, 'learning_rate': 2.9561e-05, 'epoch': 20.89}
+{'loss': 0.0112, 'grad_norm': 0.426115483045578, 'learning_rate': 2.9560666666666666e-05, 'epoch': 20.89}
+{'loss': 0.0102, 'grad_norm': 0.29435256123542786, 'learning_rate': 2.9560333333333336e-05, 'epoch': 20.89}
+{'loss': 0.0079, 'grad_norm': 0.31088516116142273, 'learning_rate': 2.9559999999999998e-05, 'epoch': 20.89}
+{'loss': 0.0215, 'grad_norm': 1.155611515045166, 'learning_rate': 2.9559666666666668e-05, 'epoch': 20.89}
+{'loss': 0.0121, 'grad_norm': 0.31312328577041626, 'learning_rate': 2.9559333333333333e-05, 'epoch': 20.9}
+{'loss': 0.0043, 'grad_norm': 0.27958038449287415, 'learning_rate': 2.9559e-05, 'epoch': 20.9}
+{'loss': 0.0049, 'grad_norm': 0.18234357237815857, 'learning_rate': 2.955866666666667e-05, 'epoch': 20.9}
+{'loss': 0.0139, 'grad_norm': 0.39806634187698364, 'learning_rate': 2.9558333333333335e-05, 'epoch': 20.9}
+{'loss': 0.0209, 'grad_norm': 0.5366166234016418, 'learning_rate': 2.9558e-05, 'epoch': 20.9}
+{'loss': 0.0112, 'grad_norm': 0.39424633979797363, 'learning_rate': 2.9557666666666667e-05, 'epoch': 20.9}
+{'loss': 0.0151, 'grad_norm': 0.4483903646469116, 'learning_rate': 2.9557333333333336e-05, 'epoch': 20.91}
+{'loss': 0.0119, 'grad_norm': 0.30543461441993713, 'learning_rate': 2.9557e-05, 'epoch': 20.91}
+{'loss': 0.0057, 'grad_norm': 0.24922345578670502, 'learning_rate': 2.9556666666666668e-05, 'epoch': 20.91}
+{'loss': 0.0034, 'grad_norm': 0.1164715439081192, 'learning_rate': 2.9556333333333334e-05, 'epoch': 20.91}
+{'loss': 0.004, 'grad_norm': 0.1792861968278885, 'learning_rate': 2.9556e-05, 'epoch': 20.91}
+{'loss': 0.0165, 'grad_norm': 0.5263696908950806, 'learning_rate': 2.955566666666667e-05, 'epoch': 20.92}
+{'loss': 0.0095, 'grad_norm': 0.36606866121292114, 'learning_rate': 2.9555333333333335e-05, 'epoch': 20.92}
+{'loss': 0.0078, 'grad_norm': 0.31590327620506287, 'learning_rate': 2.9555e-05, 'epoch': 20.92}
+{'loss': 0.0203, 'grad_norm': 0.5138630270957947, 'learning_rate': 2.9554666666666667e-05, 'epoch': 20.92}
+{'loss': 0.0203, 'grad_norm': 0.23742391169071198, 'learning_rate': 2.9554333333333336e-05, 'epoch': 20.92}
+{'loss': 0.1362, 'grad_norm': 0.6078528165817261, 'learning_rate': 2.9554e-05, 'epoch': 20.93}
+{'loss': 0.1074, 'grad_norm': 0.7384791970252991, 'learning_rate': 2.9553666666666668e-05, 'epoch': 20.93}
+{'loss': 0.1437, 'grad_norm': 0.5082293152809143, 'learning_rate': 2.9553333333333334e-05, 'epoch': 20.93}
+{'loss': 0.0835, 'grad_norm': 0.4633669853210449, 'learning_rate': 2.9553e-05, 'epoch': 20.93}
+{'loss': 0.1012, 'grad_norm': 0.5880398750305176, 'learning_rate': 2.955266666666667e-05, 'epoch': 20.93}
+{'loss': 0.0635, 'grad_norm': 0.5600230097770691, 'learning_rate': 2.9552333333333335e-05, 'epoch': 20.93}
+{'loss': 0.078, 'grad_norm': 0.5349959135055542, 'learning_rate': 2.9552e-05, 'epoch': 20.94}
+{'loss': 0.0464, 'grad_norm': 0.6552622318267822, 'learning_rate': 2.9551666666666667e-05, 'epoch': 20.94}
+{'loss': 0.0537, 'grad_norm': 1.903660774230957, 'learning_rate': 2.9551333333333333e-05, 'epoch': 20.94}
+{'loss': 0.0254, 'grad_norm': 0.5627049803733826, 'learning_rate': 2.9551e-05, 'epoch': 20.94}
+{'loss': 0.0695, 'grad_norm': 0.3178408741950989, 'learning_rate': 2.9550666666666668e-05, 'epoch': 20.94}
+{'loss': 0.0187, 'grad_norm': 0.32476845383644104, 'learning_rate': 2.9550333333333334e-05, 'epoch': 20.95}
+{'loss': 0.0195, 'grad_norm': 0.37900370359420776, 'learning_rate': 2.955e-05, 'epoch': 20.95}
+{'loss': 0.0125, 'grad_norm': 0.38062894344329834, 'learning_rate': 2.954966666666667e-05, 'epoch': 20.95}
+{'loss': 0.0125, 'grad_norm': 0.26303040981292725, 'learning_rate': 2.9549333333333332e-05, 'epoch': 20.95}
+{'loss': 0.0298, 'grad_norm': 0.36702829599380493, 'learning_rate': 2.9549e-05, 'epoch': 20.95}
+{'loss': 0.0101, 'grad_norm': 0.2526761591434479, 'learning_rate': 2.9548666666666667e-05, 'epoch': 20.95}
+{'loss': 0.0137, 'grad_norm': 0.3408384919166565, 'learning_rate': 2.9548333333333333e-05, 'epoch': 20.96}
+{'loss': 0.0101, 'grad_norm': 0.21575458347797394, 'learning_rate': 2.9548e-05, 'epoch': 20.96}
+{'loss': 0.0086, 'grad_norm': 0.16458436846733093, 'learning_rate': 2.954766666666667e-05, 'epoch': 20.96}
+{'loss': 0.0236, 'grad_norm': 0.4075638949871063, 'learning_rate': 2.9547333333333334e-05, 'epoch': 20.96}
+{'loss': 0.0091, 'grad_norm': 0.21881143748760223, 'learning_rate': 2.9547e-05, 'epoch': 20.96}
+{'loss': 0.0093, 'grad_norm': 0.18376675248146057, 'learning_rate': 2.954666666666667e-05, 'epoch': 20.97}
+{'loss': 0.0044, 'grad_norm': 0.12338406592607498, 'learning_rate': 2.9546333333333332e-05, 'epoch': 20.97}
+{'loss': 0.0099, 'grad_norm': 0.7155386209487915, 'learning_rate': 2.9546e-05, 'epoch': 20.97}
+{'loss': 0.0063, 'grad_norm': 0.1896418035030365, 'learning_rate': 2.9545666666666667e-05, 'epoch': 20.97}
+{'loss': 0.0114, 'grad_norm': 0.6268427968025208, 'learning_rate': 2.9545333333333333e-05, 'epoch': 20.97}
+{'loss': 0.0052, 'grad_norm': 0.25467798113822937, 'learning_rate': 2.9545000000000003e-05, 'epoch': 20.98}
+{'loss': 0.0033, 'grad_norm': 0.0892992615699768, 'learning_rate': 2.954466666666667e-05, 'epoch': 20.98}
+{'loss': 0.0097, 'grad_norm': 0.5027537941932678, 'learning_rate': 2.9544333333333334e-05, 'epoch': 20.98}
+{'loss': 0.0202, 'grad_norm': 0.4184074401855469, 'learning_rate': 2.9544e-05, 'epoch': 20.98}
+{'loss': 0.0042, 'grad_norm': 0.17174819111824036, 'learning_rate': 2.954366666666667e-05, 'epoch': 20.98}
+{'loss': 0.0131, 'grad_norm': 0.30898192524909973, 'learning_rate': 2.9543333333333332e-05, 'epoch': 20.98}
+{'loss': 0.0091, 'grad_norm': 0.3742638826370239, 'learning_rate': 2.9543e-05, 'epoch': 20.99}
+{'loss': 0.0128, 'grad_norm': 0.5427600741386414, 'learning_rate': 2.9542666666666668e-05, 'epoch': 20.99}
+{'loss': 0.009, 'grad_norm': 0.2309504598379135, 'learning_rate': 2.9542333333333333e-05, 'epoch': 20.99}
+{'loss': 0.0081, 'grad_norm': 0.3140806257724762, 'learning_rate': 2.9542000000000003e-05, 'epoch': 20.99}
+{'loss': 0.006, 'grad_norm': 0.41816213726997375, 'learning_rate': 2.954166666666667e-05, 'epoch': 20.99}
+{'loss': 0.0079, 'grad_norm': 0.3930540084838867, 'learning_rate': 2.9541333333333335e-05, 'epoch': 21.0}
+{'loss': 0.0126, 'grad_norm': 0.3547838628292084, 'learning_rate': 2.9541e-05, 'epoch': 21.0}
+{'loss': 0.0176, 'grad_norm': 0.40626728534698486, 'learning_rate': 2.9540666666666667e-05, 'epoch': 21.0}
+{'loss': 0.0027, 'grad_norm': 0.15839992463588715, 'learning_rate': 2.9540333333333332e-05, 'epoch': 21.0}
+ 11%|█▏        | 11383/100000 [6:13:44<154:30:00,  6.28s/it]                                                             11%|█▏        | 11383/100000 [6:13:44<154:30:00,  6.28s/it] 11%|█▏        | 11384/100000 [6:13:49<151:36:31,  6.16s/it]                                                             11%|█▏        | 11384/100000 [6:13:49<151:36:31,  6.16s/it] 11%|█▏        | 11385/100000 [6:13:54<137:52:53,  5.60s/it]                                                             11%|█▏        | 11385/100000 [6:13:54<137:52:53,  5.60s/it] 11%|█▏        | 11386/100000 [6:13:58<124:46:34,  5.07s/it]                                                             11%|█▏        | 11386/100000 [6:13:58<124:46:34,  5.07s/it] 11%|█▏        | 11387/100000 [6:14:01<112:59:51,  4.59s/it]                                                             11%|█▏        | 11387/100000 [6:14:01<112:59:51,  4.59s/it] 11%|█▏        | 11388/100000 [6:14:04<101:13:50,  4.11s/it]                                                             11%|█▏        | 11388/100000 [6:14:04<101:13:50,  4.11s/it] 11%|█▏        | 11389/100000 [6:14:07<91:10:57,  3.70s/it]                                                             11%|█▏        | 11389/100000 [6:14:07<91:10:57,  3.70s/it] 11%|█▏        | 11390/100000 [6:14:09<83:36:59,  3.40s/it]                                                            11%|█▏        | 11390/100000 [6:14:09<83:36:59,  3.40s/it] 11%|█▏        | 11391/100000 [6:14:12<76:57:01,  3.13s/it]                                                            11%|█▏        | 11391/100000 [6:14:12<76:57:01,  3.13s/it] 11%|█▏        | 11392/100000 [6:14:14<71:02:57,  2.89s/it]                                                            11%|█▏        | 11392/100000 [6:14:14<71:02:57,  2.89s/it] 11%|█▏        | 11393/100000 [6:14:16<65:16:08,  2.65s/it]                                                            11%|█▏        | 11393/100000 [6:14:16<65:16:08,  2.65s/it] 11%|█▏        | 11394/100000 [6:14:18<60:52:30,  2.47s/it]                                                            11%|█▏        | 11394/100000 [6:14:18<60:52:30,  2.47s/it] 11%|█▏        | 11395/100000 [6:14:20<56:51:17,  2.31s/it]                                                            11%|█▏        | 11395/100000 [6:14:20<56:51:17,  2.31s/it] 11%|█▏        | 11396/100000 [6:14:22<53:16:47,  2.16s/it]                                                            11%|█▏        | 11396/100000 [6:14:22<53:16:47,  2.16s/it] 11%|█▏        | 11397/100000 [6:14:24<50:04:38,  2.03s/it]                                                            11%|█▏        | 11397/100000 [6:14:24<50:04:38,  2.03s/it] 11%|█▏        | 11398/100000 [6:14:26<47:19:02,  1.92s/it]                                                            11%|█▏        | 11398/100000 [6:14:26<47:19:02,  1.92s/it] 11%|█▏        | 11399/100000 [6:14:27<45:00:13,  1.83s/it]                                                            11%|█▏        | 11399/100000 [6:14:27<45:00:13,  1.83s/it] 11%|█▏        | 11400/100000 [6:14:29<42:55:27,  1.74s/it]                                                            11%|█▏        | 11400/100000 [6:14:29<42:55:27,  1.74s/it] 11%|█▏        | 11401/100000 [6:14:30<41:17:10,  1.68s/it]                                                            11%|█▏        | 11401/100000 [6:14:30<41:17:10,  1.68s/it] 11%|█▏        | 11402/100000 [6:14:32<39:48:13,  1.62s/it]                                                            11%|█▏        | 11402/100000 [6:14:32<39:48:13,  1.62s/it] 11%|█▏        | 11403/100000 [6:14:33<38:33:43,  1.57s/it]                                                            11%|█▏        | 11403/100000 [6:14:33<38:33:43,  1.57s/it] 11%|█▏        | 11404/100000 [6:14:35<37:13:43,  1.51s/it]                                                            11%|█▏        | 11404/100000 [6:14:35<37:13:43,  1.51s/it] 11%|█▏        | 11405/100000 [6:14:36<36:26:02,  1.48s/it]                                                            11%|█▏        | 11405/100000 [6:14:36<36:26:02,  1.48s/it] 11%|█▏        | 11406/100000 [6:14:37<35:25:06,  1.44s/it]                                                            11%|█▏        | 11406/100000 [6:14:37<35:25:06,  1.44s/it] 11%|█▏        | 11407/100000 [6:14:39<34:53:08,  1.42s/it]                                                            11%|█▏        | 11407/100000 [6:14:39<34:53:08,  1.42s/it] 11%|█▏        | 11408/100000 [6:14:40<34:20:10,  1.40s/it]                                                            11%|█▏        | 11408/100000 [6:14:40<34:20:10,  1.40s/it] 11%|█▏        | 11409/100000 [6:14:41<33:34:26,  1.36s/it]                                                            11%|█▏        | 11409/100000 [6:14:41<33:34:26,  1.36s/it] 11%|█▏        | 11410/100000 [6:14:43<32:57:04,  1.34s/it]                                                            11%|█▏        | 11410/100000 [6:14:43<32:57:04,  1.34s/it] 11%|█▏        | 11411/100000 [6:14:44<32:22:07,  1.32s/it]                                                            11%|█▏        | 11411/100000 [6:14:44<32:22:07,  1.32s/it] 11%|█▏        | 11412/100000 [6:14:45<31:51:01,  1.29s/it]                                                            11%|█▏        | 11412/100000 [6:14:45<31:51:01,  1.29s/it] 11%|█▏        | 11413/100000 [6:14:46<31:31:41,  1.28s/it]                                                            11%|█▏        | 11413/100000 [6:14:46<31:31:41,  1.28s/it] 11%|█▏        | 11414/100000 [6:14:48<31:07:01,  1.26s/it]                                                            11%|█▏        | 11414/100000 [6:14:48<31:07:01,  1.26s/it] 11%|█▏        | 11415/100000 [6:14:49<30:37:29,  1.24s/it]                                                            11%|█▏        | 11415/100000 [6:14:49<30:37:29,  1.24s/it] 11%|█▏        | 11416/100000 [6:14:50<30:03:38,  1.22s/it]                                                            11%|█▏        | 11416/100000 [6:14:50<30:03:38,  1.22s/it] 11%|█▏        | 11417/100000 [6:14:51<29:23:42,  1.19s/it]                                                            11%|█▏        | 11417/100000 [6:14:51<29:23:42,  1.19s/it] 11%|█▏        | 11418/100000 [6:14:52<28:57:32,  1.18s/it]                                                            11%|█▏        | 11418/100000 [6:14:52<28:57:32,  1.18s/it] 11%|█▏        | 11419/100000 [6:14:53<28:44:03,  1.17s/it]                                                            11%|█▏        | 11419/100000 [6:14:53<28:44:03,  1.17s/it] 11%|█▏        | 11420/100000 [6:14:54<28:23:09,  1.15s/it]                                                            11%|█▏        | 11420/100000 [6:14:54<28:23:09,  1.15s/it] 11%|█▏        | 11421/100000 [6:14:56<27:38:47,  1.12s/it]                                                            11%|█▏        | 11421/100000 [6:14:56<27:38:47,  1.12s/it] 11%|█▏        | 11422/100000 [6:14:57<27:27:39,  1.12s/it]                                                            11%|█▏        | 11422/100000 [6:14:57<27:27:39,  1.12s/it] 11%|█▏        | 11423/100000 [6:14:58<27:00:24,  1.10s/it]                                                            11%|█▏        | 11423/100000 [6:14:58<27:00:24,  1.10s/it] 11%|█▏        | 11424/100000 [6:14:59<26:44:50,  1.09s/it]                                                            11%|█▏        | 11424/100000 [6:14:59<26:44:50,  1.09s/it] 11%|█▏        | 11425/100000 [6:15:00<26:28:26,  1.08s/it]                                                            11%|█▏        | 11425/100000 [6:15:00<26:28:26,  1.08s/it] 11%|█▏        | 11426/100000 [6:15:01<26:08:20,  1.06s/it]                                                            11%|█▏        | 11426/100000 [6:15:01<26:08:20,  1.06s/it] 11%|█▏        | 11427/100000 [6:15:02<25:38:37,  1.04s/it]                                                            11%|█▏        | 11427/100000 [6:15:02<25:38:37,  1.04s/it] 11%|█▏        | 11428/100000 [6:15:03<25:22:43,  1.03s/it]                                                            11%|█▏        | 11428/100000 [6:15:03<25:22:43,  1.03s/it] 11%|█▏        | 11429/100000 [6:15:04<25:02:44,  1.02s/it]                                                            11%|█▏        | 11429/100000 [6:15:04<25:02:44,  1.02s/it] 11%|█▏        | 11430/100000 [6:15:05<24:37:39,  1.00s/it]                                                            11%|█▏        | 11430/100000 [6:15:05<24:37:39,  1.00s/it] 11%|█▏        | 11431/100000 [6:15:06<24:20:33,  1.01it/s]                                                            11%|█▏        | 11431/100000 [6:15:06<24:20:33,  1.01it/s] 11%|█▏        | 11432/100000 [6:15:07<23:43:16,  1.04it/s]                                                            11%|█▏        | 11432/100000 [6:15:07<23:43:16,  1.04it/s] 11%|█▏        | 11433/100000 [6:15:16<87:14:11,  3.55s/it]                                                            11%|█▏        | 11433/100000 [6:15:16<87:14:11,  3.55s/it] 11%|█▏        | 11434/100000 [6:15:22<103:31:04,  4.21s/it]                                                             11%|█▏        | 11434/100000 [6:15:22<103:31:04,  4.21s/it] 11%|█▏        | 11435/100000 [6:15:26<104:48:14,  4.26s/it]                                                             11%|█▏        | 11435/100000 [6:15:26<104:48:14,  4.26s/it] 11%|█▏        | 11436/100000 [6:15:30<103:47:26,  4.22s/it]                                                             11%|█▏        | 11436/100000 [6:15:31<103:47:26,  4.22s/it] 11%|█▏        | 11437/100000 [6:15:34<99:35:32,  4.05s/it]                                                             11%|█▏        | 11437/100000 [6:15:34<99:35:32,  4.05s/it] 11%|█▏        | 11438/100000 [6:15:37<94:06:04,  3.83s/it]                                                            11%|█▏        | 11438/100000 [6:15:37<94:06:04,  3.83s/it] 11%|█▏        | 11439/100000 [6:15:41<88:31:50,  3.60s/it]                                                            11%|█▏        | 11439/100000 [6:15:41<88:31:50,  3.60s/it] 11%|█▏        | 11440/100000 [6:15:43<82:59:56,  3.37s/it]                                                            11%|█▏        | 11440/100000 [6:15:43<82:59:56,  3.37s/it] 11%|█▏        | 11441/100000 [6:15:46<77:12:48,  3.14s/it]                                                            11%|█▏        | 11441/100000 [6:15:46<77:12:48,  3.14s/it] 11%|█▏        | 11442/100000 [6:15:48<71:34:45,  2.91s/it]                                                            11%|█▏        | 11442/100000 [6:15:48<71:34:45,  2.91s/it] 11%|█▏        | 11443/100000 [6:15:51<66:28:34,  2.70s/it]                                                            11%|█▏        | 11443/100000 [6:15:51<66:28:34,  2.70s/it] 11%|█▏        | 11444/100000 [6:15:53<61:19:14,  2.49s/it]                                                            11%|█▏        | 11444/100000 [6:15:53<61:19:14,  2.49s/it] 11%|█▏        | 11445/100000 [6:15:54<56:57:08,  2.32s/it]                                                            11%|█▏        | 11445/100000 [6:15:54<56:57:08,  2.32s/it] 11%|█▏        | 11446/100000 [6:15:56<53:12:05,  2.16s/it]                                                            11%|█▏        | 11446/100000 [6:15:56<53:12:05,  2.16s/it] 11%|█▏        | 11447/100000 [6:15:58<49:56:39,  2.03s/it]                                                            11%|█▏        | 11447/100000 [6:15:58<49:56:39,  2.03s/it] 11%|█▏        | 11448/100000 [6:16:00<46:47:54,  1.90s/it]                                                            11%|█▏        | 11448/100000 [6:16:00<46:47:54,  1.90s/it] 11%|█▏        | 11449/100000 [6:16:01<44:45:01,  1.82s/it]                                                            11%|█▏        | 11449/100000 [6:16:01<44:45:01,  1.82s/it] 11%|█▏        | 11450/100000 [6:16:03<42:55:30,  1.75s/it]                                                            11%|█▏        | 11450/100000 [6:16:03<42:55:30,  1.75s/it] 11%|█▏        | 11451/100000 [6:16:04<41:25:48,  1.68s/it]                                                            11%|█▏        | 11451/100000 [6:16:04<41:25:48,  1.68s/it] 11%|█▏        | 11452/100000 [6:16:06<39:53:18,  1.62s/it]                                                            11%|█▏        | 11452/100000 [6:16:06<39:53:18,  1.62s/it] 11%|█▏        | 11453/100000 [6:16:07<38:30:51,  1.57s/it]                                                            11%|█▏        | 11453/100000 [6:16:07<38:30:51,  1.57s/it] 11%|█▏        | 11454/100000 [6:16:09<37:17:35,  1.52s/it]                                                            11%|█▏        | 11454/100000 [6:16:09<37:17:35,  1.52s/it] 11%|█▏        | 11455/100000 [6:16:10<36:33:54,  1.49s/it]                                                            11%|█▏        | 11455/100000 [6:16:10<36:33:54,  1.49s/it] 11%|█▏        | 11456/100000 [6:16:11<35:45:07,  1.45s/it]                                                            11%|█▏        | 11456/100000 [6:16:11<35:45:07,  1.45s/it] 11%|█▏        | 11457/100000 [6:16:13<34:47:01,  1.41s/it]                                                            11%|█▏        | 11457/100000 [6:16:13<34:47:01,  1.41s/it] 11%|█▏        | 11458/100000 [6:16:14<34:14:41,  1.39s/it]                                                            11%|█▏        | 11458/100000 [6:16:14<34:14:41,  1.39s/it] 11%|█▏        | 11459/100000 [6:16:15<33:46:46,  1.37s/it]                                                            11%|█▏        | 11459/100000 [6:16:15<33:46:46,  1.37s/it] 11%|█▏        | 11460/100000 [6:16:17<33:16:00,  1.35s/it]                                                            11%|█▏        | 11460/100000 [6:16:17<33:16:00,  1.35s/it] 11%|█▏        | 11461/100000 [6:16:18<32:49:07,  1.33s/it]                                                           {'loss': 0.1525, 'grad_norm': 0.7238561511039734, 'learning_rate': 2.9540000000000002e-05, 'epoch': 21.0}
+{'loss': 0.0998, 'grad_norm': 0.5545807480812073, 'learning_rate': 2.9539666666666664e-05, 'epoch': 21.0}
+{'loss': 0.0941, 'grad_norm': 0.521634578704834, 'learning_rate': 2.9539333333333334e-05, 'epoch': 21.01}
+{'loss': 0.0553, 'grad_norm': 0.44180136919021606, 'learning_rate': 2.9539000000000003e-05, 'epoch': 21.01}
+{'loss': 0.0617, 'grad_norm': 0.4523581862449646, 'learning_rate': 2.9538666666666666e-05, 'epoch': 21.01}
+{'loss': 0.0931, 'grad_norm': 0.6714923977851868, 'learning_rate': 2.9538333333333335e-05, 'epoch': 21.01}
+{'loss': 0.054, 'grad_norm': 0.6149570345878601, 'learning_rate': 2.9538e-05, 'epoch': 21.01}
+{'loss': 0.063, 'grad_norm': 0.6411060690879822, 'learning_rate': 2.9537666666666667e-05, 'epoch': 21.01}
+{'loss': 0.0485, 'grad_norm': 0.49264752864837646, 'learning_rate': 2.9537333333333333e-05, 'epoch': 21.02}
+{'loss': 0.0811, 'grad_norm': 0.6387502551078796, 'learning_rate': 2.9537000000000002e-05, 'epoch': 21.02}
+{'loss': 0.0336, 'grad_norm': 0.6217536926269531, 'learning_rate': 2.9536666666666668e-05, 'epoch': 21.02}
+{'loss': 0.0546, 'grad_norm': 0.41189178824424744, 'learning_rate': 2.9536333333333334e-05, 'epoch': 21.02}
+{'loss': 0.0751, 'grad_norm': 0.29428115487098694, 'learning_rate': 2.9536000000000003e-05, 'epoch': 21.02}
+{'loss': 0.0325, 'grad_norm': 0.4770805537700653, 'learning_rate': 2.9535666666666666e-05, 'epoch': 21.03}
+{'loss': 0.0211, 'grad_norm': 0.5486339330673218, 'learning_rate': 2.9535333333333335e-05, 'epoch': 21.03}
+{'loss': 0.0144, 'grad_norm': 0.18714967370033264, 'learning_rate': 2.9535e-05, 'epoch': 21.03}
+{'loss': 0.0101, 'grad_norm': 0.22030745446681976, 'learning_rate': 2.9534666666666667e-05, 'epoch': 21.03}
+{'loss': 0.0138, 'grad_norm': 0.22807270288467407, 'learning_rate': 2.9534333333333333e-05, 'epoch': 21.03}
+{'loss': 0.0083, 'grad_norm': 0.3241746723651886, 'learning_rate': 2.9534000000000002e-05, 'epoch': 21.04}
+{'loss': 0.0074, 'grad_norm': 0.21546830236911774, 'learning_rate': 2.9533666666666668e-05, 'epoch': 21.04}
+{'loss': 0.0111, 'grad_norm': 0.19861456751823425, 'learning_rate': 2.9533333333333334e-05, 'epoch': 21.04}
+{'loss': 0.0189, 'grad_norm': 0.39724117517471313, 'learning_rate': 2.9533000000000003e-05, 'epoch': 21.04}
+{'loss': 0.0055, 'grad_norm': 0.21916146576404572, 'learning_rate': 2.9532666666666666e-05, 'epoch': 21.04}
+{'loss': 0.0112, 'grad_norm': 0.24507205188274384, 'learning_rate': 2.9532333333333335e-05, 'epoch': 21.04}
+{'loss': 0.0137, 'grad_norm': 0.35915157198905945, 'learning_rate': 2.9532e-05, 'epoch': 21.05}
+{'loss': 0.0326, 'grad_norm': 0.3480655550956726, 'learning_rate': 2.9531666666666667e-05, 'epoch': 21.05}
+{'loss': 0.0078, 'grad_norm': 0.17546714842319489, 'learning_rate': 2.9531333333333333e-05, 'epoch': 21.05}
+{'loss': 0.0067, 'grad_norm': 0.22640059888362885, 'learning_rate': 2.9531e-05, 'epoch': 21.05}
+{'loss': 0.004, 'grad_norm': 0.1389237493276596, 'learning_rate': 2.953066666666667e-05, 'epoch': 21.05}
+{'loss': 0.0042, 'grad_norm': 0.15366314351558685, 'learning_rate': 2.9530333333333334e-05, 'epoch': 21.06}
+{'loss': 0.0067, 'grad_norm': 0.21289034187793732, 'learning_rate': 2.953e-05, 'epoch': 21.06}
+{'loss': 0.0062, 'grad_norm': 0.1926611363887787, 'learning_rate': 2.9529666666666666e-05, 'epoch': 21.06}
+{'loss': 0.0103, 'grad_norm': 0.2734687626361847, 'learning_rate': 2.9529333333333335e-05, 'epoch': 21.06}
+{'loss': 0.0036, 'grad_norm': 0.1464875340461731, 'learning_rate': 2.9528999999999998e-05, 'epoch': 21.06}
+{'loss': 0.0053, 'grad_norm': 0.2204812616109848, 'learning_rate': 2.9528666666666667e-05, 'epoch': 21.06}
+{'loss': 0.0042, 'grad_norm': 0.2089698612689972, 'learning_rate': 2.9528333333333337e-05, 'epoch': 21.07}
+{'loss': 0.0074, 'grad_norm': 0.26201918721199036, 'learning_rate': 2.9528e-05, 'epoch': 21.07}
+{'loss': 0.0113, 'grad_norm': 0.41449442505836487, 'learning_rate': 2.952766666666667e-05, 'epoch': 21.07}
+{'loss': 0.0106, 'grad_norm': 0.3523827791213989, 'learning_rate': 2.9527333333333334e-05, 'epoch': 21.07}
+{'loss': 0.003, 'grad_norm': 0.11771949380636215, 'learning_rate': 2.9527e-05, 'epoch': 21.07}
+{'loss': 0.0043, 'grad_norm': 0.15286806225776672, 'learning_rate': 2.9526666666666666e-05, 'epoch': 21.08}
+{'loss': 0.006, 'grad_norm': 0.28174591064453125, 'learning_rate': 2.9526333333333336e-05, 'epoch': 21.08}
+{'loss': 0.0085, 'grad_norm': 0.2134329378604889, 'learning_rate': 2.9525999999999998e-05, 'epoch': 21.08}
+{'loss': 0.0091, 'grad_norm': 0.22803491353988647, 'learning_rate': 2.9525666666666668e-05, 'epoch': 21.08}
+{'loss': 0.0092, 'grad_norm': 0.3291338384151459, 'learning_rate': 2.9525333333333337e-05, 'epoch': 21.08}
+{'loss': 0.015, 'grad_norm': 0.31323766708374023, 'learning_rate': 2.9525e-05, 'epoch': 21.08}
+{'loss': 0.0099, 'grad_norm': 0.2662685811519623, 'learning_rate': 2.952466666666667e-05, 'epoch': 21.09}
+{'loss': 0.0069, 'grad_norm': 0.4421330392360687, 'learning_rate': 2.9524333333333335e-05, 'epoch': 21.09}
+{'loss': 0.0039, 'grad_norm': 0.2042483538389206, 'learning_rate': 2.9524e-05, 'epoch': 21.09}
+{'loss': 0.021, 'grad_norm': 0.29195424914360046, 'learning_rate': 2.9523666666666667e-05, 'epoch': 21.09}
+{'loss': 0.1348, 'grad_norm': 0.5284271240234375, 'learning_rate': 2.9523333333333336e-05, 'epoch': 21.09}
+{'loss': 0.1549, 'grad_norm': 0.6061310172080994, 'learning_rate': 2.9523e-05, 'epoch': 21.1}
+{'loss': 0.1185, 'grad_norm': 0.7104319334030151, 'learning_rate': 2.9522666666666668e-05, 'epoch': 21.1}
+{'loss': 0.0631, 'grad_norm': 0.40811780095100403, 'learning_rate': 2.9522333333333337e-05, 'epoch': 21.1}
+{'loss': 0.1222, 'grad_norm': 0.48598840832710266, 'learning_rate': 2.9522e-05, 'epoch': 21.1}
+{'loss': 0.0749, 'grad_norm': 0.5141649842262268, 'learning_rate': 2.952166666666667e-05, 'epoch': 21.1}
+{'loss': 0.0342, 'grad_norm': 0.3259578049182892, 'learning_rate': 2.9521333333333335e-05, 'epoch': 21.11}
+{'loss': 0.042, 'grad_norm': 0.4215473532676697, 'learning_rate': 2.9521e-05, 'epoch': 21.11}
+{'loss': 0.0775, 'grad_norm': 1.668999433517456, 'learning_rate': 2.9520666666666667e-05, 'epoch': 21.11}
+{'loss': 0.0447, 'grad_norm': 0.3182021975517273, 'learning_rate': 2.9520333333333333e-05, 'epoch': 21.11}
+{'loss': 0.0343, 'grad_norm': 0.44492602348327637, 'learning_rate': 2.9520000000000002e-05, 'epoch': 21.11}
+{'loss': 0.0295, 'grad_norm': 0.32682621479034424, 'learning_rate': 2.9519666666666668e-05, 'epoch': 21.11}
+{'loss': 0.0817, 'grad_norm': 0.4603782892227173, 'learning_rate': 2.9519333333333334e-05, 'epoch': 21.12}
+{'loss': 0.0164, 'grad_norm': 0.24359837174415588, 'learning_rate': 2.9519e-05, 'epoch': 21.12}
+{'loss': 0.0193, 'grad_norm': 0.4243770241737366, 'learning_rate': 2.951866666666667e-05, 'epoch': 21.12}
+{'loss': 0.011, 'grad_norm': 0.2748834788799286, 'learning_rate': 2.951833333333333e-05, 'epoch': 21.12}
+{'loss': 0.0105, 'grad_norm': 0.45617279410362244, 'learning_rate': 2.9518e-05, 'epoch': 21.12}
+{'loss': 0.0462, 'grad_norm': 0.32819056510925293, 'learning_rate': 2.9517666666666667e-05, 'epoch': 21.13}
+{'loss': 0.0091, 'grad_norm': 0.1864812821149826, 'learning_rate': 2.9517333333333333e-05, 'epoch': 21.13}
+{'loss': 0.0064, 'grad_norm': 0.14667195081710815, 'learning_rate': 2.9517000000000002e-05, 'epoch': 21.13}
+{'loss': 0.0107, 'grad_norm': 0.3102090358734131, 'learning_rate': 2.9516666666666668e-05, 'epoch': 21.13}
+{'loss': 0.0055, 'grad_norm': 0.44857123494148254, 'learning_rate': 2.9516333333333334e-05, 'epoch': 21.13}
+{'loss': 0.01, 'grad_norm': 0.34422293305397034, 'learning_rate': 2.9516e-05, 'epoch': 21.13}
+{'loss': 0.0063, 'grad_norm': 0.14523011445999146, 'learning_rate': 2.951566666666667e-05, 'epoch': 21.14}
+{'loss': 0.0095, 'grad_norm': 0.26662322878837585, 'learning_rate': 2.9515333333333332e-05, 'epoch': 21.14}
+{'loss': 0.0104, 'grad_norm': 0.22227898240089417, 'learning_rate': 2.9515e-05, 'epoch': 21.14}
+{'loss': 0.0073, 'grad_norm': 0.1880018413066864, 'learning_rate': 2.9514666666666667e-05, 'epoch': 21.14}
+{'loss': 0.0049, 'grad_norm': 0.19501319527626038, 'learning_rate': 2.9514333333333333e-05, 'epoch': 21.14}
+ 11%|█▏        | 11461/100000 [6:16:18<32:49:07,  1.33s/it] 11%|█▏        | 11462/100000 [6:16:19<32:24:48,  1.32s/it]                                                            11%|█▏        | 11462/100000 [6:16:19<32:24:48,  1.32s/it] 11%|█▏        | 11463/100000 [6:16:21<31:54:22,  1.30s/it]                                                            11%|█▏        | 11463/100000 [6:16:21<31:54:22,  1.30s/it] 11%|█▏        | 11464/100000 [6:16:22<31:29:50,  1.28s/it]                                                            11%|█▏        | 11464/100000 [6:16:22<31:29:50,  1.28s/it] 11%|█▏        | 11465/100000 [6:16:23<30:49:22,  1.25s/it]                                                            11%|█▏        | 11465/100000 [6:16:23<30:49:22,  1.25s/it] 11%|█▏        | 11466/100000 [6:16:24<30:15:31,  1.23s/it]                                                            11%|█▏        | 11466/100000 [6:16:24<30:15:31,  1.23s/it] 11%|█▏        | 11467/100000 [6:16:25<29:32:54,  1.20s/it]                                                            11%|█▏        | 11467/100000 [6:16:25<29:32:54,  1.20s/it] 11%|█▏        | 11468/100000 [6:16:26<29:16:10,  1.19s/it]                                                            11%|█▏        | 11468/100000 [6:16:26<29:16:10,  1.19s/it] 11%|█▏        | 11469/100000 [6:16:28<28:47:20,  1.17s/it]                                                            11%|█▏        | 11469/100000 [6:16:28<28:47:20,  1.17s/it] 11%|█▏        | 11470/100000 [6:16:29<28:28:32,  1.16s/it]                                                            11%|█▏        | 11470/100000 [6:16:29<28:28:32,  1.16s/it] 11%|█▏        | 11471/100000 [6:16:30<28:07:31,  1.14s/it]                                                            11%|█▏        | 11471/100000 [6:16:30<28:07:31,  1.14s/it] 11%|█▏        | 11472/100000 [6:16:31<27:46:19,  1.13s/it]                                                            11%|█▏        | 11472/100000 [6:16:31<27:46:19,  1.13s/it] 11%|█▏        | 11473/100000 [6:16:32<27:18:02,  1.11s/it]                                                            11%|█▏        | 11473/100000 [6:16:32<27:18:02,  1.11s/it] 11%|█▏        | 11474/100000 [6:16:33<27:04:01,  1.10s/it]                                                            11%|█▏        | 11474/100000 [6:16:33<27:04:01,  1.10s/it] 11%|█▏        | 11475/100000 [6:16:34<26:36:49,  1.08s/it]                                                            11%|█▏        | 11475/100000 [6:16:34<26:36:49,  1.08s/it] 11%|█▏        | 11476/100000 [6:16:35<26:18:09,  1.07s/it]                                                            11%|█▏        | 11476/100000 [6:16:35<26:18:09,  1.07s/it] 11%|█▏        | 11477/100000 [6:16:36<25:44:38,  1.05s/it]                                                            11%|█▏        | 11477/100000 [6:16:36<25:44:38,  1.05s/it] 11%|█▏        | 11478/100000 [6:16:37<25:08:53,  1.02s/it]                                                            11%|█▏        | 11478/100000 [6:16:37<25:08:53,  1.02s/it] 11%|█▏        | 11479/100000 [6:16:38<24:42:17,  1.00s/it]                                                            11%|█▏        | 11479/100000 [6:16:38<24:42:17,  1.00s/it] 11%|█▏        | 11480/100000 [6:16:39<23:55:02,  1.03it/s]                                                            11%|█▏        | 11480/100000 [6:16:39<23:55:02,  1.03it/s] 11%|█▏        | 11481/100000 [6:16:40<23:07:53,  1.06it/s]                                                            11%|█▏        | 11481/100000 [6:16:40<23:07:53,  1.06it/s] 11%|█▏        | 11482/100000 [6:16:41<22:36:31,  1.09it/s]                                                            11%|█▏        | 11482/100000 [6:16:41<22:36:31,  1.09it/s] 11%|█▏        | 11483/100000 [6:16:52<102:52:07,  4.18s/it]                                                             11%|█▏        | 11483/100000 [6:16:53<102:52:07,  4.18s/it] 11%|█▏        | 11484/100000 [6:16:58<115:39:07,  4.70s/it]                                                             11%|█▏        | 11484/100000 [6:16:58<115:39:07,  4.70s/it] 11%|█▏        | 11485/100000 [6:17:03<114:29:05,  4.66s/it]                                                             11%|█▏        | 11485/100000 [6:17:03<114:29:05,  4.66s/it] 11%|█▏        | 11486/100000 [6:17:07<109:46:09,  4.46s/it]                                                             11%|█▏        | 11486/100000 [6:17:07<109:46:09,  4.46s/it] 11%|█▏        | 11487/100000 [6:17:10<102:13:41,  4.16s/it]                                                             11%|█▏        | 11487/100000 [6:17:10<102:13:41,  4.16s/it] 11%|█▏        | 11488/100000 [6:17:14<95:52:23,  3.90s/it]                                                             11%|█▏        | 11488/100000 [6:17:14<95:52:23,  3.90s/it] 11%|█▏        | 11489/100000 [6:17:17<88:52:37,  3.61s/it]                                                            11%|█▏        | 11489/100000 [6:17:17<88:52:37,  3.61s/it] 11%|█▏        | 11490/100000 [6:17:19<81:51:50,  3.33s/it]                                                            11%|█▏        | 11490/100000 [6:17:19<81:51:50,  3.33s/it] 11%|█▏        | 11491/100000 [6:17:22<75:52:05,  3.09s/it]                                                            11%|█▏        | 11491/100000 [6:17:22<75:52:05,  3.09s/it] 11%|█▏        | 11492/100000 [6:17:24<70:21:41,  2.86s/it]                                                            11%|█▏        | 11492/100000 [6:17:24<70:21:41,  2.86s/it] 11%|█▏        | 11493/100000 [6:17:26<65:03:06,  2.65s/it]                                                            11%|█▏        | 11493/100000 [6:17:26<65:03:06,  2.65s/it] 11%|█▏        | 11494/100000 [6:17:28<59:27:27,  2.42s/it]                                                            11%|█▏        | 11494/100000 [6:17:28<59:27:27,  2.42s/it] 11%|█▏        | 11495/100000 [6:17:30<55:45:13,  2.27s/it]                                                            11%|█▏        | 11495/100000 [6:17:30<55:45:13,  2.27s/it] 11%|█▏        | 11496/100000 [6:17:32<52:27:27,  2.13s/it]                                                            11%|█▏        | 11496/100000 [6:17:32<52:27:27,  2.13s/it] 11%|█▏        | 11497/100000 [6:17:34<48:59:09,  1.99s/it]                                                            11%|█▏        | 11497/100000 [6:17:34<48:59:09,  1.99s/it] 11%|█▏        | 11498/100000 [6:17:35<46:34:58,  1.89s/it]                                                            11%|█▏        | 11498/100000 [6:17:35<46:34:58,  1.89s/it] 11%|█▏        | 11499/100000 [6:17:37<44:02:16,  1.79s/it]                                                            11%|█▏        | 11499/100000 [6:17:37<44:02:16,  1.79s/it] 12%|█▏        | 11500/100000 [6:17:38<42:26:56,  1.73s/it]                                                            12%|█▏        | 11500/100000 [6:17:38<42:26:56,  1.73s/it] 12%|█▏        | 11501/100000 [6:17:40<41:01:31,  1.67s/it]                                                            12%|█▏        | 11501/100000 [6:17:40<41:01:31,  1.67s/it] 12%|█▏        | 11502/100000 [6:17:41<39:41:47,  1.61s/it]                                                            12%|█▏        | 11502/100000 [6:17:41<39:41:47,  1.61s/it] 12%|█▏        | 11503/100000 [6:17:43<38:09:42,  1.55s/it]                                                            12%|█▏        | 11503/100000 [6:17:43<38:09:42,  1.55s/it] 12%|█▏        | 11504/100000 [6:17:44<37:11:33,  1.51s/it]                                                            12%|█▏        | 11504/100000 [6:17:44<37:11:33,  1.51s/it] 12%|█▏        | 11505/100000 [6:17:46<36:12:52,  1.47s/it]                                                            12%|█▏        | 11505/100000 [6:17:46<36:12:52,  1.47s/it] 12%|█▏        | 11506/100000 [6:17:47<35:23:14,  1.44s/it]                                                            12%|█▏        | 11506/100000 [6:17:47<35:23:14,  1.44s/it] 12%|█▏        | 11507/100000 [6:17:48<34:57:12,  1.42s/it]                                                            12%|█▏        | 11507/100000 [6:17:48<34:57:12,  1.42s/it] 12%|█▏        | 11508/100000 [6:17:50<34:19:10,  1.40s/it]                                                            12%|█▏        | 11508/100000 [6:17:50<34:19:10,  1.40s/it] 12%|█▏        | 11509/100000 [6:17:51<34:48:40,  1.42s/it]                                                            12%|█▏        | 11509/100000 [6:17:51<34:48:40,  1.42s/it] 12%|█▏        | 11510/100000 [6:17:52<33:47:55,  1.38s/it]                                                            12%|█▏        | 11510/100000 [6:17:52<33:47:55,  1.38s/it] 12%|█▏        | 11511/100000 [6:17:54<32:48:36,  1.33s/it]                                                            12%|█▏        | 11511/100000 [6:17:54<32:48:36,  1.33s/it] 12%|█▏        | 11512/100000 [6:17:55<32:24:59,  1.32s/it]                                                            12%|█▏        | 11512/100000 [6:17:55<32:24:59,  1.32s/it] 12%|█▏        | 11513/100000 [6:17:56<31:52:19,  1.30s/it]                                                            12%|█▏        | 11513/100000 [6:17:56<31:52:19,  1.30s/it] 12%|█▏        | 11514/100000 [6:17:57<31:12:14,  1.27s/it]                                                            12%|█▏        | 11514/100000 [6:17:57<31:12:14,  1.27s/it] 12%|█▏        | 11515/100000 [6:17:59<30:39:19,  1.25s/it]                                                            12%|█▏        | 11515/100000 [6:17:59<30:39:19,  1.25s/it] 12%|█▏        | 11516/100000 [6:18:00<29:47:15,  1.21s/it]                                                            12%|█▏        | 11516/100000 [6:18:00<29:47:15,  1.21s/it] 12%|█▏        | 11517/100000 [6:18:01<29:21:37,  1.19s/it]                                                            12%|█▏        | 11517/100000 [6:18:01<29:21:37,  1.19s/it] 12%|█▏        | 11518/100000 [6:18:02<28:53:53,  1.18s/it]                                                            12%|█▏        | 11518/100000 [6:18:02<28:53:53,  1.18s/it] 12%|█▏        | 11519/100000 [6:18:03<28:32:29,  1.16s/it]                                                            12%|█▏        | 11519/100000 [6:18:03<28:32:29,  1.16s/it] 12%|█▏        | 11520/100000 [6:18:04<27:57:40,  1.14s/it]                                                            12%|█▏        | 11520/100000 [6:18:04<27:57:40,  1.14s/it] 12%|█▏        | 11521/100000 [6:18:05<27:33:19,  1.12s/it]                                                            12%|█▏        | 11521/100000 [6:18:05<27:33:19,  1.12s/it] 12%|█▏        | 11522/100000 [6:18:06<27:07:42,  1.10s/it]                                                            12%|█▏        | 11522/100000 [6:18:06<27:07:42,  1.10s/it] 12%|█▏        | 11523/100000 [6:18:07<26:43:15,  1.09s/it]                                                            12%|█▏        | 11523/100000 [6:18:07<26:43:15,  1.09s/it] 12%|█▏        | 11524/100000 [6:18:08<26:21:46,  1.07s/it]                                                            12%|█▏        | 11524/100000 [6:18:09<26:21:46,  1.07s/it] 12%|█▏        | 11525/100000 [6:18:09<25:54:11,  1.05s/it]                                                            12%|█▏        | 11525/100000 [6:18:10<25:54:11,  1.05s/it] 12%|█▏        | 11526/100000 [6:18:10<25:28:42,  1.04s/it]                                                            12%|█▏        | 11526/100000 [6:18:11<25:28:42,  1.04s/it] 12%|█▏        | 11527/100000 [6:18:11<25:01:43,  1.02s/it]                                                            12%|█▏        | 11527/100000 [6:18:11<25:01:43,  1.02s/it] 12%|█▏        | 11528/100000 [6:18:12<24:23:04,  1.01it/s]                                                            12%|█▏        | 11528/100000 [6:18:12<24:23:04,  1.01it/s] 12%|█▏        | 11529/100000 [6:18:13<24:02:01,  1.02it/s]                                                            12%|█▏        | 11529/100000 [6:18:13<24:02:01,  1.02it/s] 12%|█▏        | 11530/100000 [6:18:14<23:39:57,  1.04it/s]                                                            12%|█▏        | 11530/100000 [6:18:14<23:39:57,  1.04it/s] 12%|█▏        | 11531/100000 [6:18:15<23:02:50,  1.07it/s]                                                            12%|█▏        | 11531/100000 [6:18:15<23:02:50,  1.07it/s] 12%|█▏        | 11532/100000 [6:18:16<22:32:41,  1.09it/s]                                                            12%|█▏        | 11532/100000 [6:18:16<22:32:41,  1.09it/s] 12%|█▏        | 11533/100000 [6:18:27<98:42:38,  4.02s/it]                                                            12%|█▏        | 11533/100000 [6:18:27<98:42:38,  4.02s/it] 12%|█▏        | 11534/100000 [6:18:33<108:16:28,  4.41s/it]                                                             12%|█▏        | 11534/100000 [6:18:33<108:16:28,  4.41s/it] 12%|█▏        | 11535/100000 [6:18:37<109:39:46,  4.46s/it]                                                             12%|█▏        | 11535/100000 [6:18:37<109:39:46,  4.46s/it] 12%|█▏        | 11536/100000 [6:18:41<106:42:40,  4.34s/it]                                                             12%|█▏        | 11536/100000 [6:18:41<106:42:40,  4.34s/it] 12%|█▏        | 11537/100000 [6:18:45<101:35:12,  4.13s/it]                                                             12%|█▏        | 11537/100000 [6:18:45<101:35:12,  4.13s/it] 12%|█▏        | 11538/100000 [6:18:48<95:27:34,  3.88s/it]                                                             12%|█▏        | 11538/100000 [6:18:48<95:27:34,  3.88s/it] 12%|█▏        | 11539/100000 [6:18:51<88:39:40,  3.61s/it]                                                           {'loss': 0.0045, 'grad_norm': 0.13313603401184082, 'learning_rate': 2.9514000000000002e-05, 'epoch': 21.15}
+{'loss': 0.0086, 'grad_norm': 0.36689451336860657, 'learning_rate': 2.9513666666666668e-05, 'epoch': 21.15}
+{'loss': 0.0089, 'grad_norm': 0.3137074112892151, 'learning_rate': 2.9513333333333334e-05, 'epoch': 21.15}
+{'loss': 0.0048, 'grad_norm': 0.16122853755950928, 'learning_rate': 2.9513e-05, 'epoch': 21.15}
+{'loss': 0.0025, 'grad_norm': 0.1358654499053955, 'learning_rate': 2.951266666666667e-05, 'epoch': 21.15}
+{'loss': 0.0124, 'grad_norm': 0.33823901414871216, 'learning_rate': 2.9512333333333332e-05, 'epoch': 21.16}
+{'loss': 0.0055, 'grad_norm': 0.2347034364938736, 'learning_rate': 2.9512e-05, 'epoch': 21.16}
+{'loss': 0.0078, 'grad_norm': 0.3039151132106781, 'learning_rate': 2.951166666666667e-05, 'epoch': 21.16}
+{'loss': 0.0043, 'grad_norm': 0.12040606886148453, 'learning_rate': 2.9511333333333333e-05, 'epoch': 21.16}
+{'loss': 0.0048, 'grad_norm': 0.47133681178092957, 'learning_rate': 2.9511000000000003e-05, 'epoch': 21.16}
+{'loss': 0.0042, 'grad_norm': 0.39657193422317505, 'learning_rate': 2.9510666666666665e-05, 'epoch': 21.16}
+{'loss': 0.0082, 'grad_norm': 0.23207911849021912, 'learning_rate': 2.9510333333333334e-05, 'epoch': 21.17}
+{'loss': 0.0089, 'grad_norm': 0.7355784177780151, 'learning_rate': 2.951e-05, 'epoch': 21.17}
+{'loss': 0.005, 'grad_norm': 0.1707821637392044, 'learning_rate': 2.9509666666666666e-05, 'epoch': 21.17}
+{'loss': 0.008, 'grad_norm': 0.21882984042167664, 'learning_rate': 2.9509333333333332e-05, 'epoch': 21.17}
+{'loss': 0.0116, 'grad_norm': 0.4786779284477234, 'learning_rate': 2.9509e-05, 'epoch': 21.17}
+{'loss': 0.0112, 'grad_norm': 0.9925299882888794, 'learning_rate': 2.9508666666666668e-05, 'epoch': 21.18}
+{'loss': 0.0059, 'grad_norm': 0.28563570976257324, 'learning_rate': 2.9508333333333333e-05, 'epoch': 21.18}
+{'loss': 0.0057, 'grad_norm': 0.19293378293514252, 'learning_rate': 2.9508000000000003e-05, 'epoch': 21.18}
+{'loss': 0.0053, 'grad_norm': 0.2053467184305191, 'learning_rate': 2.9507666666666665e-05, 'epoch': 21.18}
+{'loss': 0.0086, 'grad_norm': 0.44861987233161926, 'learning_rate': 2.9507333333333335e-05, 'epoch': 21.18}
+{'loss': 0.0099, 'grad_norm': 0.42980897426605225, 'learning_rate': 2.9507e-05, 'epoch': 21.18}
+{'loss': 0.1313, 'grad_norm': 0.6594889163970947, 'learning_rate': 2.9506666666666667e-05, 'epoch': 21.19}
+{'loss': 0.1434, 'grad_norm': 0.7568273544311523, 'learning_rate': 2.9506333333333332e-05, 'epoch': 21.19}
+{'loss': 0.1567, 'grad_norm': 0.681679368019104, 'learning_rate': 2.9506000000000002e-05, 'epoch': 21.19}
+{'loss': 0.0674, 'grad_norm': 0.45565226674079895, 'learning_rate': 2.9505666666666668e-05, 'epoch': 21.19}
+{'loss': 0.1301, 'grad_norm': 0.5891532897949219, 'learning_rate': 2.9505333333333334e-05, 'epoch': 21.19}
+{'loss': 0.0551, 'grad_norm': 0.5234256982803345, 'learning_rate': 2.9505000000000003e-05, 'epoch': 21.2}
+{'loss': 0.089, 'grad_norm': 0.557822048664093, 'learning_rate': 2.9504666666666666e-05, 'epoch': 21.2}
+{'loss': 0.0384, 'grad_norm': 0.3232654929161072, 'learning_rate': 2.9504333333333335e-05, 'epoch': 21.2}
+{'loss': 0.0568, 'grad_norm': 0.5436959266662598, 'learning_rate': 2.9504e-05, 'epoch': 21.2}
+{'loss': 0.0287, 'grad_norm': 0.3208896517753601, 'learning_rate': 2.9503666666666667e-05, 'epoch': 21.2}
+{'loss': 0.0384, 'grad_norm': 0.331940233707428, 'learning_rate': 2.9503333333333336e-05, 'epoch': 21.2}
+{'loss': 0.043, 'grad_norm': 0.3176758587360382, 'learning_rate': 2.9503000000000002e-05, 'epoch': 21.21}
+{'loss': 0.0594, 'grad_norm': 0.6546593308448792, 'learning_rate': 2.9502666666666668e-05, 'epoch': 21.21}
+{'loss': 0.0339, 'grad_norm': 0.2821478247642517, 'learning_rate': 2.9502333333333334e-05, 'epoch': 21.21}
+{'loss': 0.0249, 'grad_norm': 0.3861061632633209, 'learning_rate': 2.9502000000000003e-05, 'epoch': 21.21}
+{'loss': 0.0144, 'grad_norm': 0.27039122581481934, 'learning_rate': 2.9501666666666666e-05, 'epoch': 21.21}
+{'loss': 0.008, 'grad_norm': 0.18123827874660492, 'learning_rate': 2.9501333333333335e-05, 'epoch': 21.22}
+{'loss': 0.014, 'grad_norm': 0.2717362642288208, 'learning_rate': 2.9500999999999998e-05, 'epoch': 21.22}
+{'loss': 0.0132, 'grad_norm': 0.2388276308774948, 'learning_rate': 2.9500666666666667e-05, 'epoch': 21.22}
+{'loss': 0.0091, 'grad_norm': 0.22589102387428284, 'learning_rate': 2.9500333333333336e-05, 'epoch': 21.22}
+{'loss': 0.0344, 'grad_norm': 0.21260640025138855, 'learning_rate': 2.95e-05, 'epoch': 21.22}
+{'loss': 0.0065, 'grad_norm': 0.6328578591346741, 'learning_rate': 2.9499666666666668e-05, 'epoch': 21.23}
+{'loss': 0.0135, 'grad_norm': 0.2761143147945404, 'learning_rate': 2.9499333333333334e-05, 'epoch': 21.23}
+{'loss': 0.0186, 'grad_norm': 0.46611031889915466, 'learning_rate': 2.9499e-05, 'epoch': 21.23}
+{'loss': 0.0133, 'grad_norm': 0.8633270263671875, 'learning_rate': 2.9498666666666666e-05, 'epoch': 21.23}
+{'loss': 0.0045, 'grad_norm': 0.2508547604084015, 'learning_rate': 2.9498333333333335e-05, 'epoch': 21.23}
+{'loss': 0.0054, 'grad_norm': 0.18956667184829712, 'learning_rate': 2.9497999999999998e-05, 'epoch': 21.23}
+{'loss': 0.0062, 'grad_norm': 0.2119181603193283, 'learning_rate': 2.9497666666666667e-05, 'epoch': 21.24}
+{'loss': 0.0068, 'grad_norm': 0.1728789210319519, 'learning_rate': 2.9497333333333336e-05, 'epoch': 21.24}
+{'loss': 0.0138, 'grad_norm': 0.5325166583061218, 'learning_rate': 2.9497e-05, 'epoch': 21.24}
+{'loss': 0.0138, 'grad_norm': 0.6290391087532043, 'learning_rate': 2.9496666666666668e-05, 'epoch': 21.24}
+{'loss': 0.008, 'grad_norm': 0.16870111227035522, 'learning_rate': 2.9496333333333334e-05, 'epoch': 21.24}
+{'loss': 0.0101, 'grad_norm': 0.2603950500488281, 'learning_rate': 2.9496e-05, 'epoch': 21.25}
+{'loss': 0.0159, 'grad_norm': 0.4347416162490845, 'learning_rate': 2.9495666666666666e-05, 'epoch': 21.25}
+{'loss': 0.0123, 'grad_norm': 0.21180957555770874, 'learning_rate': 2.9495333333333335e-05, 'epoch': 21.25}
+{'loss': 0.0074, 'grad_norm': 0.20680710673332214, 'learning_rate': 2.9495e-05, 'epoch': 21.25}
+{'loss': 0.0055, 'grad_norm': 0.23356780409812927, 'learning_rate': 2.9494666666666667e-05, 'epoch': 21.25}
+{'loss': 0.0047, 'grad_norm': 0.5864790678024292, 'learning_rate': 2.9494333333333337e-05, 'epoch': 21.25}
+{'loss': 0.0081, 'grad_norm': 0.38270673155784607, 'learning_rate': 2.9494e-05, 'epoch': 21.26}
+{'loss': 0.0122, 'grad_norm': 0.34858450293540955, 'learning_rate': 2.949366666666667e-05, 'epoch': 21.26}
+{'loss': 0.0043, 'grad_norm': 0.1718364804983139, 'learning_rate': 2.9493333333333334e-05, 'epoch': 21.26}
+{'loss': 0.0064, 'grad_norm': 0.4161956310272217, 'learning_rate': 2.9493e-05, 'epoch': 21.26}
+{'loss': 0.0049, 'grad_norm': 0.1917291134595871, 'learning_rate': 2.9492666666666666e-05, 'epoch': 21.26}
+{'loss': 0.0056, 'grad_norm': 0.20704177021980286, 'learning_rate': 2.9492333333333336e-05, 'epoch': 21.27}
+{'loss': 0.0041, 'grad_norm': 0.14914242923259735, 'learning_rate': 2.9492e-05, 'epoch': 21.27}
+{'loss': 0.0056, 'grad_norm': 0.2752462327480316, 'learning_rate': 2.9491666666666667e-05, 'epoch': 21.27}
+{'loss': 0.0024, 'grad_norm': 0.16511335968971252, 'learning_rate': 2.9491333333333337e-05, 'epoch': 21.27}
+{'loss': 0.0085, 'grad_norm': 0.31737568974494934, 'learning_rate': 2.9491e-05, 'epoch': 21.27}
+{'loss': 0.0044, 'grad_norm': 0.2316114753484726, 'learning_rate': 2.949066666666667e-05, 'epoch': 21.28}
+{'loss': 0.0185, 'grad_norm': 0.3384943902492523, 'learning_rate': 2.949033333333333e-05, 'epoch': 21.28}
+{'loss': 0.1296, 'grad_norm': 0.6905454993247986, 'learning_rate': 2.949e-05, 'epoch': 21.28}
+{'loss': 0.1165, 'grad_norm': 0.6204212307929993, 'learning_rate': 2.9489666666666666e-05, 'epoch': 21.28}
+{'loss': 0.0895, 'grad_norm': 0.45431268215179443, 'learning_rate': 2.9489333333333332e-05, 'epoch': 21.28}
+{'loss': 0.106, 'grad_norm': 0.5600978136062622, 'learning_rate': 2.9489000000000002e-05, 'epoch': 21.28}
+{'loss': 0.0879, 'grad_norm': 0.5091732144355774, 'learning_rate': 2.9488666666666668e-05, 'epoch': 21.29}
+{'loss': 0.0856, 'grad_norm': 0.5164522528648376, 'learning_rate': 2.9488333333333334e-05, 'epoch': 21.29}
+ 12%|█▏        | 11539/100000 [6:18:51<88:39:40,  3.61s/it] 12%|█▏        | 11540/100000 [6:18:54<81:20:38,  3.31s/it]                                                            12%|█▏        | 11540/100000 [6:18:54<81:20:38,  3.31s/it] 12%|█▏        | 11541/100000 [6:18:56<75:35:40,  3.08s/it]                                                            12%|█▏        | 11541/100000 [6:18:56<75:35:40,  3.08s/it] 12%|█▏        | 11542/100000 [6:18:59<70:08:19,  2.85s/it]                                                            12%|█▏        | 11542/100000 [6:18:59<70:08:19,  2.85s/it] 12%|█▏        | 11543/100000 [6:19:01<64:48:34,  2.64s/it]                                                            12%|█▏        | 11543/100000 [6:19:01<64:48:34,  2.64s/it] 12%|█▏        | 11544/100000 [6:19:03<59:34:19,  2.42s/it]                                                            12%|█▏        | 11544/100000 [6:19:03<59:34:19,  2.42s/it] 12%|█▏        | 11545/100000 [6:19:05<56:01:50,  2.28s/it]                                                            12%|█▏        | 11545/100000 [6:19:05<56:01:50,  2.28s/it] 12%|█▏        | 11546/100000 [6:19:06<52:16:21,  2.13s/it]                                                            12%|█▏        | 11546/100000 [6:19:06<52:16:21,  2.13s/it] 12%|█▏        | 11547/100000 [6:19:08<49:04:20,  2.00s/it]                                                            12%|█▏        | 11547/100000 [6:19:08<49:04:20,  2.00s/it] 12%|█▏        | 11548/100000 [6:19:10<46:48:58,  1.91s/it]                                                            12%|█▏        | 11548/100000 [6:19:10<46:48:58,  1.91s/it] 12%|█▏        | 11549/100000 [6:19:11<44:40:02,  1.82s/it]                                                            12%|█▏        | 11549/100000 [6:19:11<44:40:02,  1.82s/it] 12%|█▏        | 11550/100000 [6:19:13<42:24:57,  1.73s/it]                                                            12%|█▏        | 11550/100000 [6:19:13<42:24:57,  1.73s/it] 12%|█▏        | 11551/100000 [6:19:14<40:59:29,  1.67s/it]                                                            12%|█▏        | 11551/100000 [6:19:14<40:59:29,  1.67s/it] 12%|█▏        | 11552/100000 [6:19:16<39:23:42,  1.60s/it]                                                            12%|█▏        | 11552/100000 [6:19:16<39:23:42,  1.60s/it] 12%|█▏        | 11553/100000 [6:19:17<37:58:28,  1.55s/it]                                                            12%|█▏        | 11553/100000 [6:19:17<37:58:28,  1.55s/it] 12%|█▏        | 11554/100000 [6:19:19<37:00:02,  1.51s/it]                                                            12%|█▏        | 11554/100000 [6:19:19<37:00:02,  1.51s/it] 12%|█▏        | 11555/100000 [6:19:20<36:22:26,  1.48s/it]                                                            12%|█▏        | 11555/100000 [6:19:20<36:22:26,  1.48s/it] 12%|█▏        | 11556/100000 [6:19:22<35:33:44,  1.45s/it]                                                            12%|█▏        | 11556/100000 [6:19:22<35:33:44,  1.45s/it] 12%|█▏        | 11557/100000 [6:19:23<34:48:27,  1.42s/it]                                                            12%|█▏        | 11557/100000 [6:19:23<34:48:27,  1.42s/it] 12%|█▏        | 11558/100000 [6:19:24<34:18:06,  1.40s/it]                                                            12%|█▏        | 11558/100000 [6:19:24<34:18:06,  1.40s/it] 12%|█▏        | 11559/100000 [6:19:26<33:35:40,  1.37s/it]                                                            12%|█▏        | 11559/100000 [6:19:26<33:35:40,  1.37s/it] 12%|█▏        | 11560/100000 [6:19:27<33:04:25,  1.35s/it]                                                            12%|█▏        | 11560/100000 [6:19:27<33:04:25,  1.35s/it] 12%|█▏        | 11561/100000 [6:19:28<32:37:48,  1.33s/it]                                                            12%|█▏        | 11561/100000 [6:19:28<32:37:48,  1.33s/it] 12%|█▏        | 11562/100000 [6:19:29<31:44:18,  1.29s/it]                                                            12%|█▏        | 11562/100000 [6:19:29<31:44:18,  1.29s/it] 12%|█▏        | 11563/100000 [6:19:31<31:21:37,  1.28s/it]                                                            12%|█▏        | 11563/100000 [6:19:31<31:21:37,  1.28s/it] 12%|█▏        | 11564/100000 [6:19:32<30:50:21,  1.26s/it]                                                            12%|█▏        | 11564/100000 [6:19:32<30:50:21,  1.26s/it] 12%|█▏        | 11565/100000 [6:19:33<30:33:24,  1.24s/it]                                                            12%|█▏        | 11565/100000 [6:19:33<30:33:24,  1.24s/it] 12%|█▏        | 11566/100000 [6:19:34<30:17:39,  1.23s/it]                                                            12%|█▏        | 11566/100000 [6:19:34<30:17:39,  1.23s/it] 12%|█▏        | 11567/100000 [6:19:35<29:29:48,  1.20s/it]                                                            12%|█▏        | 11567/100000 [6:19:35<29:29:48,  1.20s/it] 12%|█▏        | 11568/100000 [6:19:36<28:59:42,  1.18s/it]                                                            12%|█▏        | 11568/100000 [6:19:36<28:59:42,  1.18s/it] 12%|█▏        | 11569/100000 [6:19:38<28:34:33,  1.16s/it]                                                            12%|█▏        | 11569/100000 [6:19:38<28:34:33,  1.16s/it] 12%|█▏        | 11570/100000 [6:19:39<28:21:40,  1.15s/it]                                                            12%|█▏        | 11570/100000 [6:19:39<28:21:40,  1.15s/it] 12%|█▏        | 11571/100000 [6:19:40<27:34:43,  1.12s/it]                                                            12%|█▏        | 11571/100000 [6:19:40<27:34:43,  1.12s/it] 12%|█▏        | 11572/100000 [6:19:41<27:25:50,  1.12s/it]                                                            12%|█▏        | 11572/100000 [6:19:41<27:25:50,  1.12s/it] 12%|█▏        | 11573/100000 [6:19:42<26:59:32,  1.10s/it]                                                            12%|█▏        | 11573/100000 [6:19:42<26:59:32,  1.10s/it] 12%|█▏        | 11574/100000 [6:19:43<26:30:51,  1.08s/it]                                                            12%|█▏        | 11574/100000 [6:19:43<26:30:51,  1.08s/it] 12%|█▏        | 11575/100000 [6:19:44<26:10:04,  1.07s/it]                                                            12%|█▏        | 11575/100000 [6:19:44<26:10:04,  1.07s/it] 12%|█▏        | 11576/100000 [6:19:45<25:59:46,  1.06s/it]                                                            12%|█▏        | 11576/100000 [6:19:45<25:59:46,  1.06s/it] 12%|█▏        | 11577/100000 [6:19:46<25:31:56,  1.04s/it]                                                            12%|█▏        | 11577/100000 [6:19:46<25:31:56,  1.04s/it] 12%|█▏        | 11578/100000 [6:19:47<24:53:48,  1.01s/it]                                                            12%|█▏        | 11578/100000 [6:19:47<24:53:48,  1.01s/it] 12%|█▏        | 11579/100000 [6:19:48<24:26:56,  1.00it/s]                                                            12%|█▏        | 11579/100000 [6:19:48<24:26:56,  1.00it/s] 12%|█▏        | 11580/100000 [6:19:49<23:57:03,  1.03it/s]                                                            12%|█▏        | 11580/100000 [6:19:49<23:57:03,  1.03it/s] 12%|█▏        | 11581/100000 [6:19:50<23:25:25,  1.05it/s]                                                            12%|█▏        | 11581/100000 [6:19:50<23:25:25,  1.05it/s] 12%|█▏        | 11582/100000 [6:19:51<22:30:21,  1.09it/s]                                                            12%|█▏        | 11582/100000 [6:19:51<22:30:21,  1.09it/s] 12%|█▏        | 11583/100000 [6:20:01<91:36:33,  3.73s/it]                                                            12%|█▏        | 11583/100000 [6:20:01<91:36:33,  3.73s/it] 12%|█▏        | 11584/100000 [6:20:06<104:20:04,  4.25s/it]                                                             12%|█▏        | 11584/100000 [6:20:06<104:20:04,  4.25s/it] 12%|█▏        | 11585/100000 [6:20:11<106:55:39,  4.35s/it]                                                             12%|█▏        | 11585/100000 [6:20:11<106:55:39,  4.35s/it] 12%|█▏        | 11586/100000 [6:20:15<104:18:06,  4.25s/it]                                                             12%|█▏        | 11586/100000 [6:20:15<104:18:06,  4.25s/it] 12%|█▏        | 11587/100000 [6:20:18<99:16:51,  4.04s/it]                                                             12%|█▏        | 11587/100000 [6:20:19<99:16:51,  4.04s/it] 12%|█▏        | 11588/100000 [6:20:22<92:29:38,  3.77s/it]                                                            12%|█▏        | 11588/100000 [6:20:22<92:29:38,  3.77s/it] 12%|█▏        | 11589/100000 [6:20:25<86:13:55,  3.51s/it]                                                            12%|█▏        | 11589/100000 [6:20:25<86:13:55,  3.51s/it] 12%|█▏        | 11590/100000 [6:20:27<80:35:12,  3.28s/it]                                                            12%|█▏        | 11590/100000 [6:20:27<80:35:12,  3.28s/it] 12%|█▏        | 11591/100000 [6:20:30<74:56:39,  3.05s/it]                                                            12%|█▏        | 11591/100000 [6:20:30<74:56:39,  3.05s/it] 12%|█▏        | 11592/100000 [6:20:32<69:20:05,  2.82s/it]                                                            12%|█▏        | 11592/100000 [6:20:32<69:20:05,  2.82s/it] 12%|█▏        | 11593/100000 [6:20:34<64:05:18,  2.61s/it]                                                            12%|█▏        | 11593/100000 [6:20:34<64:05:18,  2.61s/it] 12%|█▏        | 11594/100000 [6:20:36<59:38:44,  2.43s/it]                                                            12%|█▏        | 11594/100000 [6:20:36<59:38:44,  2.43s/it] 12%|█▏        | 11595/100000 [6:20:38<55:36:43,  2.26s/it]                                                            12%|█▏        | 11595/100000 [6:20:38<55:36:43,  2.26s/it] 12%|█▏        | 11596/100000 [6:20:40<51:54:31,  2.11s/it]                                                            12%|█▏        | 11596/100000 [6:20:40<51:54:31,  2.11s/it] 12%|█▏        | 11597/100000 [6:20:42<48:56:19,  1.99s/it]                                                            12%|█▏        | 11597/100000 [6:20:42<48:56:19,  1.99s/it] 12%|█▏        | 11598/100000 [6:20:43<46:21:35,  1.89s/it]                                                            12%|█▏        | 11598/100000 [6:20:43<46:21:35,  1.89s/it] 12%|█▏        | 11599/100000 [6:20:45<44:11:56,  1.80s/it]                                                            12%|█▏        | 11599/100000 [6:20:45<44:11:56,  1.80s/it] 12%|█▏        | 11600/100000 [6:20:46<42:30:46,  1.73s/it]                                                            12%|█▏        | 11600/100000 [6:20:46<42:30:46,  1.73s/it] 12%|█▏        | 11601/100000 [6:20:48<40:34:59,  1.65s/it]                                                            12%|█▏        | 11601/100000 [6:20:48<40:34:59,  1.65s/it] 12%|█▏        | 11602/100000 [6:20:49<39:14:10,  1.60s/it]                                                            12%|█▏        | 11602/100000 [6:20:49<39:14:10,  1.60s/it] 12%|█▏        | 11603/100000 [6:20:51<38:08:53,  1.55s/it]                                                            12%|█▏        | 11603/100000 [6:20:51<38:08:53,  1.55s/it] 12%|█▏        | 11604/100000 [6:20:52<37:13:14,  1.52s/it]                                                            12%|█▏        | 11604/100000 [6:20:52<37:13:14,  1.52s/it] 12%|█▏        | 11605/100000 [6:20:54<36:27:53,  1.49s/it]                                                            12%|█▏        | 11605/100000 [6:20:54<36:27:53,  1.49s/it] 12%|█▏        | 11606/100000 [6:20:55<35:26:36,  1.44s/it]                                                            12%|█▏        | 11606/100000 [6:20:55<35:26:36,  1.44s/it] 12%|█▏        | 11607/100000 [6:20:56<34:52:15,  1.42s/it]                                                            12%|█▏        | 11607/100000 [6:20:56<34:52:15,  1.42s/it] 12%|█▏        | 11608/100000 [6:20:58<34:17:25,  1.40s/it]                                                            12%|█▏        | 11608/100000 [6:20:58<34:17:25,  1.40s/it] 12%|█▏        | 11609/100000 [6:20:59<33:46:04,  1.38s/it]                                                            12%|█▏        | 11609/100000 [6:20:59<33:46:04,  1.38s/it] 12%|█▏        | 11610/100000 [6:21:00<33:17:07,  1.36s/it]                                                            12%|█▏        | 11610/100000 [6:21:00<33:17:07,  1.36s/it] 12%|█▏        | 11611/100000 [6:21:02<32:47:19,  1.34s/it]                                                            12%|█▏        | 11611/100000 [6:21:02<32:47:19,  1.34s/it] 12%|█▏        | 11612/100000 [6:21:03<32:10:10,  1.31s/it]                                                            12%|█▏        | 11612/100000 [6:21:03<32:10:10,  1.31s/it] 12%|█▏        | 11613/100000 [6:21:04<31:47:53,  1.30s/it]                                                            12%|█▏        | 11613/100000 [6:21:04<31:47:53,  1.30s/it] 12%|█▏        | 11614/100000 [6:21:05<31:09:35,  1.27s/it]                                                            12%|█▏        | 11614/100000 [6:21:05<31:09:35,  1.27s/it] 12%|█▏        | 11615/100000 [6:21:07<30:48:38,  1.25s/it]                                                            12%|█▏        | 11615/100000 [6:21:07<30:48:38,  1.25s/it] 12%|█▏        | 11616/100000 [6:21:08<30:30:51,  1.24s/it]                                                            12%|█▏        | 11616/100000 [6:21:08<30:30:51,  1.24s/it] 12%|█▏        | 11617/100000 [6:21:09<29:49:42,  1.21s/it]                                                           {'loss': 0.0866, 'grad_norm': 0.3764141798019409, 'learning_rate': 2.9488e-05, 'epoch': 21.29}
+{'loss': 0.049, 'grad_norm': 0.3163754343986511, 'learning_rate': 2.948766666666667e-05, 'epoch': 21.29}
+{'loss': 0.0335, 'grad_norm': 0.48345544934272766, 'learning_rate': 2.948733333333333e-05, 'epoch': 21.29}
+{'loss': 0.047, 'grad_norm': 0.3480796217918396, 'learning_rate': 2.9487e-05, 'epoch': 21.3}
+{'loss': 0.0324, 'grad_norm': 0.7356621623039246, 'learning_rate': 2.948666666666667e-05, 'epoch': 21.3}
+{'loss': 0.0218, 'grad_norm': 0.24600377678871155, 'learning_rate': 2.9486333333333333e-05, 'epoch': 21.3}
+{'loss': 0.0216, 'grad_norm': 0.242000550031662, 'learning_rate': 2.9486000000000002e-05, 'epoch': 21.3}
+{'loss': 0.0299, 'grad_norm': 0.31422117352485657, 'learning_rate': 2.9485666666666668e-05, 'epoch': 21.3}
+{'loss': 0.0118, 'grad_norm': 0.2681136727333069, 'learning_rate': 2.9485333333333334e-05, 'epoch': 21.3}
+{'loss': 0.0594, 'grad_norm': 0.46410465240478516, 'learning_rate': 2.9485e-05, 'epoch': 21.31}
+{'loss': 0.0341, 'grad_norm': 1.1594105958938599, 'learning_rate': 2.948466666666667e-05, 'epoch': 21.31}
+{'loss': 0.0106, 'grad_norm': 0.18428504467010498, 'learning_rate': 2.948433333333333e-05, 'epoch': 21.31}
+{'loss': 0.0124, 'grad_norm': 0.2524779140949249, 'learning_rate': 2.9484e-05, 'epoch': 21.31}
+{'loss': 0.0152, 'grad_norm': 0.4212198555469513, 'learning_rate': 2.948366666666667e-05, 'epoch': 21.31}
+{'loss': 0.016, 'grad_norm': 0.2710402011871338, 'learning_rate': 2.9483333333333333e-05, 'epoch': 21.32}
+{'loss': 0.0068, 'grad_norm': 0.1798483282327652, 'learning_rate': 2.9483000000000002e-05, 'epoch': 21.32}
+{'loss': 0.0061, 'grad_norm': 0.3181666135787964, 'learning_rate': 2.9482666666666668e-05, 'epoch': 21.32}
+{'loss': 0.0082, 'grad_norm': 0.1473083347082138, 'learning_rate': 2.9482333333333334e-05, 'epoch': 21.32}
+{'loss': 0.0076, 'grad_norm': 0.302139550447464, 'learning_rate': 2.9482e-05, 'epoch': 21.32}
+{'loss': 0.0084, 'grad_norm': 0.21949274837970734, 'learning_rate': 2.948166666666667e-05, 'epoch': 21.33}
+{'loss': 0.0055, 'grad_norm': 0.1488589644432068, 'learning_rate': 2.9481333333333332e-05, 'epoch': 21.33}
+{'loss': 0.0079, 'grad_norm': 0.4395733177661896, 'learning_rate': 2.9481e-05, 'epoch': 21.33}
+{'loss': 0.009, 'grad_norm': 0.38077491521835327, 'learning_rate': 2.9480666666666667e-05, 'epoch': 21.33}
+{'loss': 0.0046, 'grad_norm': 0.17946629226207733, 'learning_rate': 2.9480333333333333e-05, 'epoch': 21.33}
+{'loss': 0.0087, 'grad_norm': 0.25635477900505066, 'learning_rate': 2.9480000000000002e-05, 'epoch': 21.33}
+{'loss': 0.0073, 'grad_norm': 0.18848296999931335, 'learning_rate': 2.9479666666666665e-05, 'epoch': 21.34}
+{'loss': 0.0089, 'grad_norm': 0.3364658057689667, 'learning_rate': 2.9479333333333334e-05, 'epoch': 21.34}
+{'loss': 0.0046, 'grad_norm': 0.16113604605197906, 'learning_rate': 2.9479e-05, 'epoch': 21.34}
+{'loss': 0.012, 'grad_norm': 0.42057058215141296, 'learning_rate': 2.9478666666666666e-05, 'epoch': 21.34}
+{'loss': 0.0057, 'grad_norm': 0.27273300290107727, 'learning_rate': 2.9478333333333335e-05, 'epoch': 21.34}
+{'loss': 0.0045, 'grad_norm': 0.21287663280963898, 'learning_rate': 2.9478e-05, 'epoch': 21.35}
+{'loss': 0.0107, 'grad_norm': 0.3194565176963806, 'learning_rate': 2.9477666666666667e-05, 'epoch': 21.35}
+{'loss': 0.0066, 'grad_norm': 0.3554210662841797, 'learning_rate': 2.9477333333333333e-05, 'epoch': 21.35}
+{'loss': 0.008, 'grad_norm': 0.3108913004398346, 'learning_rate': 2.9477000000000003e-05, 'epoch': 21.35}
+{'loss': 0.0059, 'grad_norm': 0.1508089303970337, 'learning_rate': 2.9476666666666665e-05, 'epoch': 21.35}
+{'loss': 0.0156, 'grad_norm': 0.41390153765678406, 'learning_rate': 2.9476333333333334e-05, 'epoch': 21.35}
+{'loss': 0.0032, 'grad_norm': 0.20888638496398926, 'learning_rate': 2.9476e-05, 'epoch': 21.36}
+{'loss': 0.0112, 'grad_norm': 0.29900670051574707, 'learning_rate': 2.9475666666666666e-05, 'epoch': 21.36}
+{'loss': 0.007, 'grad_norm': 0.18397219479084015, 'learning_rate': 2.9475333333333336e-05, 'epoch': 21.36}
+{'loss': 0.0085, 'grad_norm': 0.2705393135547638, 'learning_rate': 2.9475e-05, 'epoch': 21.36}
+{'loss': 0.0213, 'grad_norm': 0.6648091673851013, 'learning_rate': 2.9474666666666667e-05, 'epoch': 21.36}
+{'loss': 0.0153, 'grad_norm': 0.5839139819145203, 'learning_rate': 2.9474333333333333e-05, 'epoch': 21.37}
+{'loss': 0.0066, 'grad_norm': 0.2984607219696045, 'learning_rate': 2.9474000000000003e-05, 'epoch': 21.37}
+{'loss': 0.005, 'grad_norm': 0.2725304365158081, 'learning_rate': 2.9473666666666665e-05, 'epoch': 21.37}
+{'loss': 0.1274, 'grad_norm': 0.4688223600387573, 'learning_rate': 2.9473333333333335e-05, 'epoch': 21.37}
+{'loss': 0.1327, 'grad_norm': 0.5752362608909607, 'learning_rate': 2.9473e-05, 'epoch': 21.37}
+{'loss': 0.1189, 'grad_norm': 0.45737379789352417, 'learning_rate': 2.9472666666666666e-05, 'epoch': 21.37}
+{'loss': 0.0666, 'grad_norm': 0.3827018141746521, 'learning_rate': 2.9472333333333336e-05, 'epoch': 21.38}
+{'loss': 0.102, 'grad_norm': 0.5348204970359802, 'learning_rate': 2.9472000000000002e-05, 'epoch': 21.38}
+{'loss': 0.0716, 'grad_norm': 0.5674592852592468, 'learning_rate': 2.9471666666666668e-05, 'epoch': 21.38}
+{'loss': 0.0597, 'grad_norm': 0.3822150230407715, 'learning_rate': 2.9471333333333334e-05, 'epoch': 21.38}
+{'loss': 0.0414, 'grad_norm': 0.37607574462890625, 'learning_rate': 2.9471000000000003e-05, 'epoch': 21.38}
+{'loss': 0.0591, 'grad_norm': 0.36966872215270996, 'learning_rate': 2.9470666666666665e-05, 'epoch': 21.39}
+{'loss': 0.0338, 'grad_norm': 0.6840993762016296, 'learning_rate': 2.9470333333333335e-05, 'epoch': 21.39}
+{'loss': 0.0374, 'grad_norm': 0.3434557020664215, 'learning_rate': 2.947e-05, 'epoch': 21.39}
+{'loss': 0.0627, 'grad_norm': 0.3484346568584442, 'learning_rate': 2.9469666666666667e-05, 'epoch': 21.39}
+{'loss': 0.0188, 'grad_norm': 0.24304430186748505, 'learning_rate': 2.9469333333333336e-05, 'epoch': 21.39}
+{'loss': 0.0175, 'grad_norm': 0.2664783000946045, 'learning_rate': 2.9469e-05, 'epoch': 21.4}
+{'loss': 0.0339, 'grad_norm': 0.23857802152633667, 'learning_rate': 2.9468666666666668e-05, 'epoch': 21.4}
+{'loss': 0.0162, 'grad_norm': 0.2604442238807678, 'learning_rate': 2.9468333333333334e-05, 'epoch': 21.4}
+{'loss': 0.0106, 'grad_norm': 0.28916192054748535, 'learning_rate': 2.9468e-05, 'epoch': 21.4}
+{'loss': 0.0076, 'grad_norm': 0.1989450752735138, 'learning_rate': 2.9467666666666666e-05, 'epoch': 21.4}
+{'loss': 0.0064, 'grad_norm': 0.1816091239452362, 'learning_rate': 2.9467333333333335e-05, 'epoch': 21.4}
+{'loss': 0.0159, 'grad_norm': 0.3587622046470642, 'learning_rate': 2.9467e-05, 'epoch': 21.41}
+{'loss': 0.009, 'grad_norm': 0.3580322265625, 'learning_rate': 2.9466666666666667e-05, 'epoch': 21.41}
+{'loss': 0.0068, 'grad_norm': 0.2690403163433075, 'learning_rate': 2.9466333333333336e-05, 'epoch': 21.41}
+{'loss': 0.01, 'grad_norm': 0.20682458579540253, 'learning_rate': 2.9466e-05, 'epoch': 21.41}
+{'loss': 0.0132, 'grad_norm': 0.32515549659729004, 'learning_rate': 2.9465666666666668e-05, 'epoch': 21.41}
+{'loss': 0.01, 'grad_norm': 0.2933991253376007, 'learning_rate': 2.9465333333333334e-05, 'epoch': 21.42}
+{'loss': 0.006, 'grad_norm': 0.3860311508178711, 'learning_rate': 2.9465e-05, 'epoch': 21.42}
+{'loss': 0.0135, 'grad_norm': 0.40069878101348877, 'learning_rate': 2.9464666666666666e-05, 'epoch': 21.42}
+{'loss': 0.0064, 'grad_norm': 0.23569025099277496, 'learning_rate': 2.9464333333333335e-05, 'epoch': 21.42}
+{'loss': 0.0145, 'grad_norm': 0.33610761165618896, 'learning_rate': 2.9464e-05, 'epoch': 21.42}
+{'loss': 0.018, 'grad_norm': 0.645300030708313, 'learning_rate': 2.9463666666666667e-05, 'epoch': 21.42}
+{'loss': 0.0312, 'grad_norm': 0.5435053706169128, 'learning_rate': 2.9463333333333336e-05, 'epoch': 21.43}
+{'loss': 0.0065, 'grad_norm': 0.24929502606391907, 'learning_rate': 2.9463e-05, 'epoch': 21.43}
+{'loss': 0.0093, 'grad_norm': 0.3996683657169342, 'learning_rate': 2.9462666666666668e-05, 'epoch': 21.43}
+{'loss': 0.0103, 'grad_norm': 0.21856895089149475, 'learning_rate': 2.9462333333333334e-05, 'epoch': 21.43}
+ 12%|█▏        | 11617/100000 [6:21:09<29:49:42,  1.21s/it] 12%|█▏        | 11618/100000 [6:21:10<29:23:24,  1.20s/it]                                                            12%|█▏        | 11618/100000 [6:21:10<29:23:24,  1.20s/it] 12%|█▏        | 11619/100000 [6:21:11<28:42:27,  1.17s/it]                                                            12%|█▏        | 11619/100000 [6:21:11<28:42:27,  1.17s/it] 12%|█▏        | 11620/100000 [6:21:12<28:20:13,  1.15s/it]                                                            12%|█▏        | 11620/100000 [6:21:12<28:20:13,  1.15s/it] 12%|█▏        | 11621/100000 [6:21:13<28:02:51,  1.14s/it]                                                            12%|█▏        | 11621/100000 [6:21:13<28:02:51,  1.14s/it] 12%|█▏        | 11622/100000 [6:21:14<27:48:47,  1.13s/it]                                                            12%|█▏        | 11622/100000 [6:21:14<27:48:47,  1.13s/it] 12%|█▏        | 11623/100000 [6:21:16<27:28:56,  1.12s/it]                                                            12%|█▏        | 11623/100000 [6:21:16<27:28:56,  1.12s/it] 12%|█▏        | 11624/100000 [6:21:17<27:12:31,  1.11s/it]                                                            12%|█▏        | 11624/100000 [6:21:17<27:12:31,  1.11s/it] 12%|█▏        | 11625/100000 [6:21:18<26:48:55,  1.09s/it]                                                            12%|█▏        | 11625/100000 [6:21:18<26:48:55,  1.09s/it] 12%|█▏        | 11626/100000 [6:21:19<26:30:24,  1.08s/it]                                                            12%|█▏        | 11626/100000 [6:21:19<26:30:24,  1.08s/it] 12%|█▏        | 11627/100000 [6:21:20<25:55:59,  1.06s/it]                                                            12%|█▏        | 11627/100000 [6:21:20<25:55:59,  1.06s/it] 12%|█▏        | 11628/100000 [6:21:21<25:26:56,  1.04s/it]                                                            12%|█▏        | 11628/100000 [6:21:21<25:26:56,  1.04s/it] 12%|█▏        | 11629/100000 [6:21:22<24:59:38,  1.02s/it]                                                            12%|█▏        | 11629/100000 [6:21:22<24:59:38,  1.02s/it] 12%|█▏        | 11630/100000 [6:21:23<24:33:12,  1.00s/it]                                                            12%|█▏        | 11630/100000 [6:21:23<24:33:12,  1.00s/it] 12%|█▏        | 11631/100000 [6:21:24<24:06:14,  1.02it/s]                                                            12%|█▏        | 11631/100000 [6:21:24<24:06:14,  1.02it/s] 12%|█▏        | 11632/100000 [6:21:24<23:14:24,  1.06it/s]                                                            12%|█▏        | 11632/100000 [6:21:24<23:14:24,  1.06it/s] 12%|█▏        | 11633/100000 [6:21:35<96:38:05,  3.94s/it]                                                            12%|█▏        | 11633/100000 [6:21:35<96:38:05,  3.94s/it] 12%|█▏        | 11634/100000 [6:21:41<107:10:50,  4.37s/it]                                                             12%|█▏        | 11634/100000 [6:21:41<107:10:50,  4.37s/it] 12%|█▏        | 11635/100000 [6:21:45<107:38:31,  4.39s/it]                                                             12%|█▏        | 11635/100000 [6:21:45<107:38:31,  4.39s/it] 12%|█▏        | 11636/100000 [6:21:49<103:56:52,  4.23s/it]                                                             12%|█▏        | 11636/100000 [6:21:49<103:56:52,  4.23s/it] 12%|█▏        | 11637/100000 [6:21:53<100:20:28,  4.09s/it]                                                             12%|█▏        | 11637/100000 [6:21:53<100:20:28,  4.09s/it] 12%|█▏        | 11638/100000 [6:21:56<94:59:28,  3.87s/it]                                                             12%|█▏        | 11638/100000 [6:21:56<94:59:28,  3.87s/it] 12%|█▏        | 11639/100000 [6:21:59<88:07:28,  3.59s/it]                                                            12%|█▏        | 11639/100000 [6:21:59<88:07:28,  3.59s/it] 12%|█▏        | 11640/100000 [6:22:02<82:41:13,  3.37s/it]                                                            12%|█▏        | 11640/100000 [6:22:02<82:41:13,  3.37s/it] 12%|█▏        | 11641/100000 [6:22:05<77:06:28,  3.14s/it]                                                            12%|█▏        | 11641/100000 [6:22:05<77:06:28,  3.14s/it] 12%|█▏        | 11642/100000 [6:22:07<71:06:00,  2.90s/it]                                                            12%|█▏        | 11642/100000 [6:22:07<71:06:00,  2.90s/it] 12%|█▏        | 11643/100000 [6:22:09<65:41:10,  2.68s/it]                                                            12%|█▏        | 11643/100000 [6:22:09<65:41:10,  2.68s/it] 12%|█▏        | 11644/100000 [6:22:11<61:32:04,  2.51s/it]                                                            12%|█▏        | 11644/100000 [6:22:11<61:32:04,  2.51s/it] 12%|█▏        | 11645/100000 [6:22:13<57:54:40,  2.36s/it]                                                            12%|█▏        | 11645/100000 [6:22:13<57:54:40,  2.36s/it] 12%|█▏        | 11646/100000 [6:22:15<53:31:44,  2.18s/it]                                                            12%|█▏        | 11646/100000 [6:22:15<53:31:44,  2.18s/it] 12%|█▏        | 11647/100000 [6:22:17<49:42:47,  2.03s/it]                                                            12%|█▏        | 11647/100000 [6:22:17<49:42:47,  2.03s/it] 12%|█▏        | 11648/100000 [6:22:18<46:34:49,  1.90s/it]                                                            12%|█▏        | 11648/100000 [6:22:18<46:34:49,  1.90s/it] 12%|█▏        | 11649/100000 [6:22:20<44:00:56,  1.79s/it]                                                            12%|█▏        | 11649/100000 [6:22:20<44:00:56,  1.79s/it] 12%|█▏        | 11650/100000 [6:22:21<42:31:33,  1.73s/it]                                                            12%|█▏        | 11650/100000 [6:22:21<42:31:33,  1.73s/it] 12%|█▏        | 11651/100000 [6:22:23<41:07:26,  1.68s/it]                                                            12%|█▏        | 11651/100000 [6:22:23<41:07:26,  1.68s/it] 12%|█▏        | 11652/100000 [6:22:24<39:27:05,  1.61s/it]                                                            12%|█▏        | 11652/100000 [6:22:24<39:27:05,  1.61s/it] 12%|█▏        | 11653/100000 [6:22:26<38:08:43,  1.55s/it]                                                            12%|█▏        | 11653/100000 [6:22:26<38:08:43,  1.55s/it] 12%|█▏        | 11654/100000 [6:22:27<37:18:21,  1.52s/it]                                                            12%|█▏        | 11654/100000 [6:22:27<37:18:21,  1.52s/it] 12%|█▏        | 11655/100000 [6:22:29<36:14:03,  1.48s/it]                                                            12%|█▏        | 11655/100000 [6:22:29<36:14:03,  1.48s/it] 12%|█▏        | 11656/100000 [6:22:30<35:26:48,  1.44s/it]                                                            12%|█▏        | 11656/100000 [6:22:30<35:26:48,  1.44s/it] 12%|█▏        | 11657/100000 [6:22:31<34:55:38,  1.42s/it]                                                            12%|█▏        | 11657/100000 [6:22:31<34:55:38,  1.42s/it] 12%|█▏        | 11658/100000 [6:22:33<33:48:31,  1.38s/it]                                                            12%|█▏        | 11658/100000 [6:22:33<33:48:31,  1.38s/it] 12%|█▏        | 11659/100000 [6:22:34<33:15:31,  1.36s/it]                                                            12%|█▏        | 11659/100000 [6:22:34<33:15:31,  1.36s/it] 12%|█▏        | 11660/100000 [6:22:35<32:49:56,  1.34s/it]                                                            12%|█▏        | 11660/100000 [6:22:35<32:49:56,  1.34s/it] 12%|█▏        | 11661/100000 [6:22:36<32:11:32,  1.31s/it]                                                            12%|█▏        | 11661/100000 [6:22:36<32:11:32,  1.31s/it] 12%|█▏        | 11662/100000 [6:22:38<31:50:08,  1.30s/it]                                                            12%|█▏        | 11662/100000 [6:22:38<31:50:08,  1.30s/it] 12%|█▏        | 11663/100000 [6:22:39<31:29:44,  1.28s/it]                                                            12%|█▏        | 11663/100000 [6:22:39<31:29:44,  1.28s/it] 12%|█▏        | 11664/100000 [6:22:40<30:54:28,  1.26s/it]                                                            12%|█▏        | 11664/100000 [6:22:40<30:54:28,  1.26s/it] 12%|█▏        | 11665/100000 [6:22:41<30:39:21,  1.25s/it]                                                            12%|█▏        | 11665/100000 [6:22:41<30:39:21,  1.25s/it] 12%|█▏        | 11666/100000 [6:22:43<29:58:49,  1.22s/it]                                                            12%|█▏        | 11666/100000 [6:22:43<29:58:49,  1.22s/it] 12%|█▏        | 11667/100000 [6:22:44<29:28:09,  1.20s/it]                                                            12%|█▏        | 11667/100000 [6:22:44<29:28:09,  1.20s/it] 12%|█▏        | 11668/100000 [6:22:45<29:11:55,  1.19s/it]                                                            12%|█▏        | 11668/100000 [6:22:45<29:11:55,  1.19s/it] 12%|█▏        | 11669/100000 [6:22:46<28:41:05,  1.17s/it]                                                            12%|█▏        | 11669/100000 [6:22:46<28:41:05,  1.17s/it] 12%|█▏        | 11670/100000 [6:22:47<28:20:31,  1.16s/it]                                                            12%|█▏        | 11670/100000 [6:22:47<28:20:31,  1.16s/it] 12%|█▏        | 11671/100000 [6:22:48<27:59:56,  1.14s/it]                                                            12%|█▏        | 11671/100000 [6:22:48<27:59:56,  1.14s/it] 12%|█▏        | 11672/100000 [6:22:49<27:43:26,  1.13s/it]                                                            12%|█▏        | 11672/100000 [6:22:49<27:43:26,  1.13s/it] 12%|█▏        | 11673/100000 [6:22:50<27:27:45,  1.12s/it]                                                            12%|█▏        | 11673/100000 [6:22:50<27:27:45,  1.12s/it] 12%|█▏        | 11674/100000 [6:22:52<27:06:43,  1.11s/it]                                                            12%|█▏        | 11674/100000 [6:22:52<27:06:43,  1.11s/it] 12%|█▏        | 11675/100000 [6:22:53<26:37:45,  1.09s/it]                                                            12%|█▏        | 11675/100000 [6:22:53<26:37:45,  1.09s/it] 12%|█▏        | 11676/100000 [6:22:54<26:16:47,  1.07s/it]                                                            12%|█▏        | 11676/100000 [6:22:54<26:16:47,  1.07s/it] 12%|█▏        | 11677/100000 [6:22:55<25:55:15,  1.06s/it]                                                            12%|█▏        | 11677/100000 [6:22:55<25:55:15,  1.06s/it] 12%|█▏        | 11678/100000 [6:22:56<25:19:12,  1.03s/it]                                                            12%|█▏        | 11678/100000 [6:22:56<25:19:12,  1.03s/it] 12%|█▏        | 11679/100000 [6:22:57<24:45:08,  1.01s/it]                                                            12%|█▏        | 11679/100000 [6:22:57<24:45:08,  1.01s/it] 12%|█▏        | 11680/100000 [6:22:58<24:22:58,  1.01it/s]                                                            12%|█▏        | 11680/100000 [6:22:58<24:22:58,  1.01it/s] 12%|█▏        | 11681/100000 [6:22:58<23:55:47,  1.03it/s]                                                            12%|█▏        | 11681/100000 [6:22:58<23:55:47,  1.03it/s] 12%|█▏        | 11682/100000 [6:22:59<23:24:39,  1.05it/s]                                                            12%|█▏        | 11682/100000 [6:22:59<23:24:39,  1.05it/s] 12%|█▏        | 11683/100000 [6:23:10<92:56:09,  3.79s/it]                                                            12%|█▏        | 11683/100000 [6:23:10<92:56:09,  3.79s/it] 12%|█▏        | 11684/100000 [6:23:16<108:05:27,  4.41s/it]                                                             12%|█▏        | 11684/100000 [6:23:16<108:05:27,  4.41s/it] 12%|█▏        | 11685/100000 [6:23:20<110:47:03,  4.52s/it]                                                             12%|█▏        | 11685/100000 [6:23:20<110:47:03,  4.52s/it] 12%|█▏        | 11686/100000 [6:23:24<107:58:24,  4.40s/it]                                                             12%|█▏        | 11686/100000 [6:23:25<107:58:24,  4.40s/it] 12%|█▏        | 11687/100000 [6:23:28<102:40:33,  4.19s/it]                                                             12%|█▏        | 11687/100000 [6:23:28<102:40:33,  4.19s/it] 12%|█▏        | 11688/100000 [6:23:31<96:05:21,  3.92s/it]                                                             12%|█▏        | 11688/100000 [6:23:31<96:05:21,  3.92s/it] 12%|█▏        | 11689/100000 [6:23:34<89:16:32,  3.64s/it]                                                            12%|█▏        | 11689/100000 [6:23:34<89:16:32,  3.64s/it] 12%|█▏        | 11690/100000 [6:23:37<83:04:31,  3.39s/it]                                                            12%|█▏        | 11690/100000 [6:23:37<83:04:31,  3.39s/it] 12%|█▏        | 11691/100000 [6:23:40<76:43:36,  3.13s/it]                                                            12%|█▏        | 11691/100000 [6:23:40<76:43:36,  3.13s/it] 12%|█▏        | 11692/100000 [6:23:42<70:27:39,  2.87s/it]                                                            12%|█▏        | 11692/100000 [6:23:42<70:27:39,  2.87s/it] 12%|█▏        | 11693/100000 [6:23:44<65:36:28,  2.67s/it]                                                            12%|█▏        | 11693/100000 [6:23:44<65:36:28,  2.67s/it] 12%|█▏        | 11694/100000 [6:23:46<60:43:27,  2.48s/it]                                                            12%|█▏        | 11694/100000 [6:23:46<60:43:27,  2.48s/it] 12%|█▏        | 11695/100000 [6:23:48<56:26:08,  2.30s/it]                                                           {'loss': 0.0129, 'grad_norm': 0.386295348405838, 'learning_rate': 2.9462e-05, 'epoch': 21.43}
+{'loss': 0.0049, 'grad_norm': 0.14483925700187683, 'learning_rate': 2.946166666666667e-05, 'epoch': 21.44}
+{'loss': 0.0048, 'grad_norm': 0.14828045666217804, 'learning_rate': 2.9461333333333335e-05, 'epoch': 21.44}
+{'loss': 0.0209, 'grad_norm': 0.4934016764163971, 'learning_rate': 2.9461e-05, 'epoch': 21.44}
+{'loss': 0.0139, 'grad_norm': 0.35568687319755554, 'learning_rate': 2.9460666666666667e-05, 'epoch': 21.44}
+{'loss': 0.0047, 'grad_norm': 0.29019680619239807, 'learning_rate': 2.9460333333333333e-05, 'epoch': 21.44}
+{'loss': 0.014, 'grad_norm': 0.3380444347858429, 'learning_rate': 2.946e-05, 'epoch': 21.45}
+{'loss': 0.0031, 'grad_norm': 0.17599837481975555, 'learning_rate': 2.945966666666667e-05, 'epoch': 21.45}
+{'loss': 0.0119, 'grad_norm': 0.46131882071495056, 'learning_rate': 2.945933333333333e-05, 'epoch': 21.45}
+{'loss': 0.0108, 'grad_norm': 0.33762016892433167, 'learning_rate': 2.9459e-05, 'epoch': 21.45}
+{'loss': 0.0047, 'grad_norm': 0.2296239137649536, 'learning_rate': 2.945866666666667e-05, 'epoch': 21.45}
+{'loss': 0.0034, 'grad_norm': 0.09554245322942734, 'learning_rate': 2.9458333333333332e-05, 'epoch': 21.45}
+{'loss': 0.0156, 'grad_norm': 0.30348119139671326, 'learning_rate': 2.9458e-05, 'epoch': 21.46}
+{'loss': 0.011, 'grad_norm': 0.5296110510826111, 'learning_rate': 2.9457666666666667e-05, 'epoch': 21.46}
+{'loss': 0.0112, 'grad_norm': 0.33812788128852844, 'learning_rate': 2.9457333333333333e-05, 'epoch': 21.46}
+{'loss': 0.0038, 'grad_norm': 0.17619480192661285, 'learning_rate': 2.9457e-05, 'epoch': 21.46}
+{'loss': 0.1385, 'grad_norm': 0.5979994535446167, 'learning_rate': 2.945666666666667e-05, 'epoch': 21.46}
+{'loss': 0.1222, 'grad_norm': 0.5296694040298462, 'learning_rate': 2.945633333333333e-05, 'epoch': 21.47}
+{'loss': 0.0708, 'grad_norm': 0.8114538192749023, 'learning_rate': 2.9456e-05, 'epoch': 21.47}
+{'loss': 0.069, 'grad_norm': 0.46399155259132385, 'learning_rate': 2.945566666666667e-05, 'epoch': 21.47}
+{'loss': 0.075, 'grad_norm': 0.6047453284263611, 'learning_rate': 2.9455333333333332e-05, 'epoch': 21.47}
+{'loss': 0.0392, 'grad_norm': 0.47024619579315186, 'learning_rate': 2.9455000000000002e-05, 'epoch': 21.47}
+{'loss': 0.0485, 'grad_norm': 0.36386826634407043, 'learning_rate': 2.9454666666666668e-05, 'epoch': 21.47}
+{'loss': 0.0745, 'grad_norm': 0.4516194462776184, 'learning_rate': 2.9454333333333334e-05, 'epoch': 21.48}
+{'loss': 0.0718, 'grad_norm': 0.6910102367401123, 'learning_rate': 2.9454e-05, 'epoch': 21.48}
+{'loss': 0.0422, 'grad_norm': 0.2954343259334564, 'learning_rate': 2.945366666666667e-05, 'epoch': 21.48}
+{'loss': 0.0371, 'grad_norm': 0.44146180152893066, 'learning_rate': 2.9453333333333335e-05, 'epoch': 21.48}
+{'loss': 0.0684, 'grad_norm': 0.46557775139808655, 'learning_rate': 2.9453e-05, 'epoch': 21.48}
+{'loss': 0.0207, 'grad_norm': 0.3252936005592346, 'learning_rate': 2.945266666666667e-05, 'epoch': 21.49}
+{'loss': 0.0228, 'grad_norm': 0.47686776518821716, 'learning_rate': 2.9452333333333333e-05, 'epoch': 21.49}
+{'loss': 0.0237, 'grad_norm': 0.26284104585647583, 'learning_rate': 2.9452000000000002e-05, 'epoch': 21.49}
+{'loss': 0.0117, 'grad_norm': 0.20137442648410797, 'learning_rate': 2.9451666666666668e-05, 'epoch': 21.49}
+{'loss': 0.0108, 'grad_norm': 0.23116926848888397, 'learning_rate': 2.9451333333333334e-05, 'epoch': 21.49}
+{'loss': 0.0075, 'grad_norm': 0.1661728322505951, 'learning_rate': 2.9451e-05, 'epoch': 21.49}
+{'loss': 0.0082, 'grad_norm': 0.25384411215782166, 'learning_rate': 2.945066666666667e-05, 'epoch': 21.5}
+{'loss': 0.0109, 'grad_norm': 0.16077283024787903, 'learning_rate': 2.9450333333333335e-05, 'epoch': 21.5}
+{'loss': 0.0081, 'grad_norm': 0.31073248386383057, 'learning_rate': 2.945e-05, 'epoch': 21.5}
+{'loss': 0.007, 'grad_norm': 0.32054486870765686, 'learning_rate': 2.9449666666666667e-05, 'epoch': 21.5}
+{'loss': 0.0133, 'grad_norm': 0.23431295156478882, 'learning_rate': 2.9449333333333333e-05, 'epoch': 21.5}
+{'loss': 0.0107, 'grad_norm': 0.26101458072662354, 'learning_rate': 2.9449000000000002e-05, 'epoch': 21.51}
+{'loss': 0.0088, 'grad_norm': 0.22934867441654205, 'learning_rate': 2.9448666666666665e-05, 'epoch': 21.51}
+{'loss': 0.0093, 'grad_norm': 0.31780898571014404, 'learning_rate': 2.9448333333333334e-05, 'epoch': 21.51}
+{'loss': 0.0087, 'grad_norm': 0.3254026174545288, 'learning_rate': 2.9448e-05, 'epoch': 21.51}
+{'loss': 0.0049, 'grad_norm': 0.11738292127847672, 'learning_rate': 2.9447666666666666e-05, 'epoch': 21.51}
+{'loss': 0.0099, 'grad_norm': 0.3099237382411957, 'learning_rate': 2.9447333333333335e-05, 'epoch': 21.52}
+{'loss': 0.0033, 'grad_norm': 0.09953440725803375, 'learning_rate': 2.9447e-05, 'epoch': 21.52}
+{'loss': 0.0159, 'grad_norm': 0.6011154651641846, 'learning_rate': 2.9446666666666667e-05, 'epoch': 21.52}
+{'loss': 0.0161, 'grad_norm': 0.298566609621048, 'learning_rate': 2.9446333333333333e-05, 'epoch': 21.52}
+{'loss': 0.0054, 'grad_norm': 0.36138394474983215, 'learning_rate': 2.9446000000000002e-05, 'epoch': 21.52}
+{'loss': 0.0073, 'grad_norm': 0.26504313945770264, 'learning_rate': 2.9445666666666665e-05, 'epoch': 21.52}
+{'loss': 0.0036, 'grad_norm': 0.15179431438446045, 'learning_rate': 2.9445333333333334e-05, 'epoch': 21.53}
+{'loss': 0.006, 'grad_norm': 0.34152984619140625, 'learning_rate': 2.9445000000000004e-05, 'epoch': 21.53}
+{'loss': 0.0035, 'grad_norm': 0.1816384345293045, 'learning_rate': 2.9444666666666666e-05, 'epoch': 21.53}
+{'loss': 0.0088, 'grad_norm': 0.4318518340587616, 'learning_rate': 2.9444333333333335e-05, 'epoch': 21.53}
+{'loss': 0.0063, 'grad_norm': 0.2734701931476593, 'learning_rate': 2.9444e-05, 'epoch': 21.53}
+{'loss': 0.0046, 'grad_norm': 0.1769401878118515, 'learning_rate': 2.9443666666666667e-05, 'epoch': 21.54}
+{'loss': 0.0066, 'grad_norm': 0.3240947127342224, 'learning_rate': 2.9443333333333333e-05, 'epoch': 21.54}
+{'loss': 0.013, 'grad_norm': 0.40373358130455017, 'learning_rate': 2.9443000000000003e-05, 'epoch': 21.54}
+{'loss': 0.0065, 'grad_norm': 0.41496601700782776, 'learning_rate': 2.9442666666666665e-05, 'epoch': 21.54}
+{'loss': 0.0101, 'grad_norm': 0.32355672121047974, 'learning_rate': 2.9442333333333334e-05, 'epoch': 21.54}
+{'loss': 0.0078, 'grad_norm': 0.26241594552993774, 'learning_rate': 2.9442000000000004e-05, 'epoch': 21.54}
+{'loss': 0.0037, 'grad_norm': 0.10817354172468185, 'learning_rate': 2.9441666666666666e-05, 'epoch': 21.55}
+{'loss': 0.0009, 'grad_norm': 0.05409083515405655, 'learning_rate': 2.9441333333333336e-05, 'epoch': 21.55}
+{'loss': 0.003, 'grad_norm': 0.25125715136528015, 'learning_rate': 2.9441e-05, 'epoch': 21.55}
+{'loss': 0.0158, 'grad_norm': 0.7134154438972473, 'learning_rate': 2.9440666666666667e-05, 'epoch': 21.55}
+{'loss': 0.0083, 'grad_norm': 0.40545278787612915, 'learning_rate': 2.9440333333333333e-05, 'epoch': 21.55}
+{'loss': 0.2054, 'grad_norm': 0.6952413320541382, 'learning_rate': 2.944e-05, 'epoch': 21.56}
+{'loss': 0.1455, 'grad_norm': 0.5398013591766357, 'learning_rate': 2.9439666666666665e-05, 'epoch': 21.56}
+{'loss': 0.0803, 'grad_norm': 0.4659029543399811, 'learning_rate': 2.9439333333333335e-05, 'epoch': 21.56}
+{'loss': 0.1113, 'grad_norm': 0.48628848791122437, 'learning_rate': 2.9439e-05, 'epoch': 21.56}
+{'loss': 0.1125, 'grad_norm': 0.6104269623756409, 'learning_rate': 2.9438666666666666e-05, 'epoch': 21.56}
+{'loss': 0.0874, 'grad_norm': 0.5309699177742004, 'learning_rate': 2.9438333333333336e-05, 'epoch': 21.57}
+{'loss': 0.0724, 'grad_norm': 0.4424571394920349, 'learning_rate': 2.9438e-05, 'epoch': 21.57}
+{'loss': 0.0628, 'grad_norm': 0.4594380259513855, 'learning_rate': 2.9437666666666668e-05, 'epoch': 21.57}
+{'loss': 0.0555, 'grad_norm': 0.7726163864135742, 'learning_rate': 2.9437333333333334e-05, 'epoch': 21.57}
+{'loss': 0.0476, 'grad_norm': 0.3133237361907959, 'learning_rate': 2.9437e-05, 'epoch': 21.57}
+{'loss': 0.0348, 'grad_norm': 0.39666256308555603, 'learning_rate': 2.943666666666667e-05, 'epoch': 21.57}
+{'loss': 0.0317, 'grad_norm': 0.3721177577972412, 'learning_rate': 2.9436333333333335e-05, 'epoch': 21.58}
+ 12%|█▏        | 11695/100000 [6:23:48<56:26:08,  2.30s/it] 12%|█▏        | 11696/100000 [6:23:50<52:45:00,  2.15s/it]                                                            12%|█▏        | 11696/100000 [6:23:50<52:45:00,  2.15s/it] 12%|█▏        | 11697/100000 [6:23:52<49:46:14,  2.03s/it]                                                            12%|█▏        | 11697/100000 [6:23:52<49:46:14,  2.03s/it] 12%|█▏        | 11698/100000 [6:23:53<47:09:51,  1.92s/it]                                                            12%|█▏        | 11698/100000 [6:23:53<47:09:51,  1.92s/it] 12%|█▏        | 11699/100000 [6:23:55<44:36:40,  1.82s/it]                                                            12%|█▏        | 11699/100000 [6:23:55<44:36:40,  1.82s/it] 12%|█▏        | 11700/100000 [6:23:57<42:56:04,  1.75s/it]                                                            12%|█▏        | 11700/100000 [6:23:57<42:56:04,  1.75s/it] 12%|█▏        | 11701/100000 [6:23:58<41:21:53,  1.69s/it]                                                            12%|█▏        | 11701/100000 [6:23:58<41:21:53,  1.69s/it] 12%|█▏        | 11702/100000 [6:24:00<39:59:56,  1.63s/it]                                                            12%|█▏        | 11702/100000 [6:24:00<39:59:56,  1.63s/it] 12%|█▏        | 11703/100000 [6:24:01<38:43:46,  1.58s/it]                                                            12%|█▏        | 11703/100000 [6:24:01<38:43:46,  1.58s/it] 12%|█▏        | 11704/100000 [6:24:02<37:40:31,  1.54s/it]                                                            12%|█▏        | 11704/100000 [6:24:02<37:40:31,  1.54s/it] 12%|█▏        | 11705/100000 [6:24:04<36:45:12,  1.50s/it]                                                            12%|█▏        | 11705/100000 [6:24:04<36:45:12,  1.50s/it] 12%|█▏        | 11706/100000 [6:24:05<35:57:46,  1.47s/it]                                                            12%|█▏        | 11706/100000 [6:24:05<35:57:46,  1.47s/it] 12%|█▏        | 11707/100000 [6:24:07<35:14:46,  1.44s/it]                                                            12%|█▏        | 11707/100000 [6:24:07<35:14:46,  1.44s/it] 12%|█▏        | 11708/100000 [6:24:08<34:18:56,  1.40s/it]                                                            12%|█▏        | 11708/100000 [6:24:08<34:18:56,  1.40s/it] 12%|█▏        | 11709/100000 [6:24:09<33:49:17,  1.38s/it]                                                            12%|█▏        | 11709/100000 [6:24:09<33:49:17,  1.38s/it] 12%|█▏        | 11710/100000 [6:24:11<33:01:44,  1.35s/it]                                                            12%|█▏        | 11710/100000 [6:24:11<33:01:44,  1.35s/it] 12%|█▏        | 11711/100000 [6:24:12<32:35:30,  1.33s/it]                                                            12%|█▏        | 11711/100000 [6:24:12<32:35:30,  1.33s/it] 12%|█▏        | 11712/100000 [6:24:13<31:59:21,  1.30s/it]                                                            12%|█▏        | 11712/100000 [6:24:13<31:59:21,  1.30s/it] 12%|█▏        | 11713/100000 [6:24:14<31:32:51,  1.29s/it]                                                            12%|█▏        | 11713/100000 [6:24:14<31:32:51,  1.29s/it] 12%|█▏        | 11714/100000 [6:24:16<30:49:57,  1.26s/it]                                                            12%|█▏        | 11714/100000 [6:24:16<30:49:57,  1.26s/it] 12%|█▏        | 11715/100000 [6:24:17<30:36:21,  1.25s/it]                                                            12%|█▏        | 11715/100000 [6:24:17<30:36:21,  1.25s/it] 12%|█▏        | 11716/100000 [6:24:18<29:56:37,  1.22s/it]                                                            12%|█▏        | 11716/100000 [6:24:18<29:56:37,  1.22s/it] 12%|█▏        | 11717/100000 [6:24:19<29:28:25,  1.20s/it]                                                            12%|█▏        | 11717/100000 [6:24:19<29:28:25,  1.20s/it] 12%|█▏        | 11718/100000 [6:24:20<29:02:54,  1.18s/it]                                                            12%|█▏        | 11718/100000 [6:24:20<29:02:54,  1.18s/it] 12%|█▏        | 11719/100000 [6:24:21<28:34:28,  1.17s/it]                                                            12%|█▏        | 11719/100000 [6:24:21<28:34:28,  1.17s/it] 12%|█▏        | 11720/100000 [6:24:22<28:07:08,  1.15s/it]                                                            12%|█▏        | 11720/100000 [6:24:22<28:07:08,  1.15s/it] 12%|█▏        | 11721/100000 [6:24:24<27:26:21,  1.12s/it]                                                            12%|█▏        | 11721/100000 [6:24:24<27:26:21,  1.12s/it] 12%|█▏        | 11722/100000 [6:24:25<27:17:37,  1.11s/it]                                                            12%|█▏        | 11722/100000 [6:24:25<27:17:37,  1.11s/it] 12%|█▏        | 11723/100000 [6:24:26<26:40:21,  1.09s/it]                                                            12%|█▏        | 11723/100000 [6:24:26<26:40:21,  1.09s/it] 12%|█▏        | 11724/100000 [6:24:27<26:34:32,  1.08s/it]                                                            12%|█▏        | 11724/100000 [6:24:27<26:34:32,  1.08s/it] 12%|█▏        | 11725/100000 [6:24:28<26:12:51,  1.07s/it]                                                            12%|█▏        | 11725/100000 [6:24:28<26:12:51,  1.07s/it] 12%|█▏        | 11726/100000 [6:24:29<25:46:34,  1.05s/it]                                                            12%|█▏        | 11726/100000 [6:24:29<25:46:34,  1.05s/it] 12%|█▏        | 11727/100000 [6:24:30<25:20:51,  1.03s/it]                                                            12%|█▏        | 11727/100000 [6:24:30<25:20:51,  1.03s/it] 12%|█▏        | 11728/100000 [6:24:31<24:54:48,  1.02s/it]                                                            12%|█▏        | 11728/100000 [6:24:31<24:54:48,  1.02s/it] 12%|█▏        | 11729/100000 [6:24:32<24:33:13,  1.00s/it]                                                            12%|█▏        | 11729/100000 [6:24:32<24:33:13,  1.00s/it] 12%|█▏        | 11730/100000 [6:24:33<24:02:10,  1.02it/s]                                                            12%|█▏        | 11730/100000 [6:24:33<24:02:10,  1.02it/s] 12%|█▏        | 11731/100000 [6:24:34<23:30:04,  1.04it/s]                                                            12%|█▏        | 11731/100000 [6:24:34<23:30:04,  1.04it/s] 12%|█▏        | 11732/100000 [6:24:34<22:38:13,  1.08it/s]                                                            12%|█▏        | 11732/100000 [6:24:34<22:38:13,  1.08it/s] 12%|█▏        | 11733/100000 [6:24:47<105:23:47,  4.30s/it]                                                             12%|█▏        | 11733/100000 [6:24:47<105:23:47,  4.30s/it] 12%|█▏        | 11734/100000 [6:24:52<114:11:45,  4.66s/it]                                                             12%|█▏        | 11734/100000 [6:24:52<114:11:45,  4.66s/it] 12%|█▏        | 11735/100000 [6:24:57<114:29:28,  4.67s/it]                                                             12%|█▏        | 11735/100000 [6:24:57<114:29:28,  4.67s/it] 12%|█▏        | 11736/100000 [6:25:01<108:09:15,  4.41s/it]                                                             12%|█▏        | 11736/100000 [6:25:01<108:09:15,  4.41s/it] 12%|█▏        | 11737/100000 [6:25:04<100:41:07,  4.11s/it]                                                             12%|█▏        | 11737/100000 [6:25:04<100:41:07,  4.11s/it] 12%|█▏        | 11738/100000 [6:25:07<94:02:01,  3.84s/it]                                                             12%|█▏        | 11738/100000 [6:25:07<94:02:01,  3.84s/it] 12%|█▏        | 11739/100000 [6:25:10<86:35:31,  3.53s/it]                                                            12%|█▏        | 11739/100000 [6:25:10<86:35:31,  3.53s/it] 12%|█▏        | 11740/100000 [6:25:13<79:27:36,  3.24s/it]                                                            12%|█▏        | 11740/100000 [6:25:13<79:27:36,  3.24s/it] 12%|█▏        | 11741/100000 [6:25:15<72:54:51,  2.97s/it]                                                            12%|█▏        | 11741/100000 [6:25:15<72:54:51,  2.97s/it] 12%|█▏        | 11742/100000 [6:25:17<66:33:23,  2.71s/it]                                                            12%|█▏        | 11742/100000 [6:25:17<66:33:23,  2.71s/it] 12%|█▏        | 11743/100000 [6:25:19<61:45:11,  2.52s/it]                                                            12%|█▏        | 11743/100000 [6:25:19<61:45:11,  2.52s/it] 12%|█▏        | 11744/100000 [6:25:21<57:38:00,  2.35s/it]                                                            12%|█▏        | 11744/100000 [6:25:21<57:38:00,  2.35s/it] 12%|█▏        | 11745/100000 [6:25:23<53:59:53,  2.20s/it]                                                            12%|█▏        | 11745/100000 [6:25:23<53:59:53,  2.20s/it] 12%|█▏        | 11746/100000 [6:25:25<50:41:40,  2.07s/it]                                                            12%|█▏        | 11746/100000 [6:25:25<50:41:40,  2.07s/it] 12%|█▏        | 11747/100000 [6:25:26<47:42:02,  1.95s/it]                                                            12%|█▏        | 11747/100000 [6:25:26<47:42:02,  1.95s/it] 12%|█▏        | 11748/100000 [6:25:28<44:56:09,  1.83s/it]                                                            12%|█▏        | 11748/100000 [6:25:28<44:56:09,  1.83s/it] 12%|█▏        | 11749/100000 [6:25:29<43:10:14,  1.76s/it]                                                            12%|█▏        | 11749/100000 [6:25:29<43:10:14,  1.76s/it] 12%|█▏        | 11750/100000 [6:25:31<41:20:15,  1.69s/it]                                                            12%|█▏        | 11750/100000 [6:25:31<41:20:15,  1.69s/it] 12%|█▏        | 11751/100000 [6:25:32<39:54:16,  1.63s/it]                                                            12%|█▏        | 11751/100000 [6:25:32<39:54:16,  1.63s/it] 12%|█▏        | 11752/100000 [6:25:34<38:25:29,  1.57s/it]                                                            12%|█▏        | 11752/100000 [6:25:34<38:25:29,  1.57s/it] 12%|█▏        | 11753/100000 [6:25:35<37:07:51,  1.51s/it]                                                            12%|█▏        | 11753/100000 [6:25:35<37:07:51,  1.51s/it] 12%|█▏        | 11754/100000 [6:25:37<36:24:10,  1.49s/it]                                                            12%|█▏        | 11754/100000 [6:25:37<36:24:10,  1.49s/it] 12%|█▏        | 11755/100000 [6:25:38<35:48:01,  1.46s/it]                                                            12%|█▏        | 11755/100000 [6:25:38<35:48:01,  1.46s/it] 12%|█▏        | 11756/100000 [6:25:39<35:11:55,  1.44s/it]                                                            12%|█▏        | 11756/100000 [6:25:39<35:11:55,  1.44s/it] 12%|█▏        | 11757/100000 [6:25:41<34:34:34,  1.41s/it]                                                            12%|█▏        | 11757/100000 [6:25:41<34:34:34,  1.41s/it] 12%|█▏        | 11758/100000 [6:25:42<34:04:47,  1.39s/it]                                                            12%|█▏        | 11758/100000 [6:25:42<34:04:47,  1.39s/it] 12%|█▏        | 11759/100000 [6:25:43<33:21:54,  1.36s/it]                                                            12%|█▏        | 11759/100000 [6:25:43<33:21:54,  1.36s/it] 12%|█▏        | 11760/100000 [6:25:45<32:58:38,  1.35s/it]                                                            12%|█▏        | 11760/100000 [6:25:45<32:58:38,  1.35s/it] 12%|█▏        | 11761/100000 [6:25:46<32:34:59,  1.33s/it]                                                            12%|█▏        | 11761/100000 [6:25:46<32:34:59,  1.33s/it] 12%|█▏        | 11762/100000 [6:25:47<31:59:16,  1.31s/it]                                                            12%|█▏        | 11762/100000 [6:25:47<31:59:16,  1.31s/it] 12%|█▏        | 11763/100000 [6:25:49<31:42:08,  1.29s/it]                                                            12%|█▏        | 11763/100000 [6:25:49<31:42:08,  1.29s/it] 12%|█▏        | 11764/100000 [6:25:50<31:01:54,  1.27s/it]                                                            12%|█▏        | 11764/100000 [6:25:50<31:01:54,  1.27s/it] 12%|█▏        | 11765/100000 [6:25:51<30:45:21,  1.25s/it]                                                            12%|█▏        | 11765/100000 [6:25:51<30:45:21,  1.25s/it] 12%|█▏        | 11766/100000 [6:25:52<30:25:57,  1.24s/it]                                                            12%|█▏        | 11766/100000 [6:25:52<30:25:57,  1.24s/it] 12%|█▏        | 11767/100000 [6:25:53<29:27:30,  1.20s/it]                                                            12%|█▏        | 11767/100000 [6:25:53<29:27:30,  1.20s/it] 12%|█▏        | 11768/100000 [6:25:54<29:08:52,  1.19s/it]                                                            12%|█▏        | 11768/100000 [6:25:54<29:08:52,  1.19s/it] 12%|█▏        | 11769/100000 [6:25:56<28:37:13,  1.17s/it]                                                            12%|█▏        | 11769/100000 [6:25:56<28:37:13,  1.17s/it] 12%|█▏        | 11770/100000 [6:25:57<28:18:14,  1.15s/it]                                                            12%|█▏        | 11770/100000 [6:25:57<28:18:14,  1.15s/it] 12%|█▏        | 11771/100000 [6:25:58<27:43:06,  1.13s/it]                                                            12%|█▏        | 11771/100000 [6:25:58<27:43:06,  1.13s/it] 12%|█▏        | 11772/100000 [6:25:59<27:23:55,  1.12s/it]                                                            12%|█▏        | 11772/100000 [6:25:59<27:23:55,  1.12s/it] 12%|█▏        | 11773/100000 [6:26:00<27:01:15,  1.10s/it]                                                           {'loss': 0.0363, 'grad_norm': 0.23958668112754822, 'learning_rate': 2.9436e-05, 'epoch': 21.58}
+{'loss': 0.0421, 'grad_norm': 0.4093874990940094, 'learning_rate': 2.9435666666666667e-05, 'epoch': 21.58}
+{'loss': 0.0342, 'grad_norm': 0.24053242802619934, 'learning_rate': 2.9435333333333336e-05, 'epoch': 21.58}
+{'loss': 0.0284, 'grad_norm': 0.3315214216709137, 'learning_rate': 2.9435e-05, 'epoch': 21.58}
+{'loss': 0.0115, 'grad_norm': 0.18025685846805573, 'learning_rate': 2.9434666666666668e-05, 'epoch': 21.59}
+{'loss': 0.0154, 'grad_norm': 0.37826457619667053, 'learning_rate': 2.9434333333333334e-05, 'epoch': 21.59}
+{'loss': 0.0287, 'grad_norm': 0.5563769340515137, 'learning_rate': 2.9434e-05, 'epoch': 21.59}
+{'loss': 0.0363, 'grad_norm': 0.3572843670845032, 'learning_rate': 2.943366666666667e-05, 'epoch': 21.59}
+{'loss': 0.0102, 'grad_norm': 0.2566000521183014, 'learning_rate': 2.9433333333333335e-05, 'epoch': 21.59}
+{'loss': 0.0049, 'grad_norm': 0.16738413274288177, 'learning_rate': 2.9433e-05, 'epoch': 21.59}
+{'loss': 0.0089, 'grad_norm': 0.31159695982933044, 'learning_rate': 2.9432666666666667e-05, 'epoch': 21.6}
+{'loss': 0.0072, 'grad_norm': 0.17356759309768677, 'learning_rate': 2.9432333333333336e-05, 'epoch': 21.6}
+{'loss': 0.0084, 'grad_norm': 0.2614094614982605, 'learning_rate': 2.9432e-05, 'epoch': 21.6}
+{'loss': 0.0116, 'grad_norm': 0.6964510083198547, 'learning_rate': 2.9431666666666668e-05, 'epoch': 21.6}
+{'loss': 0.0083, 'grad_norm': 0.30797988176345825, 'learning_rate': 2.9431333333333334e-05, 'epoch': 21.6}
+{'loss': 0.009, 'grad_norm': 0.23163697123527527, 'learning_rate': 2.9431e-05, 'epoch': 21.61}
+{'loss': 0.0165, 'grad_norm': 0.4534711241722107, 'learning_rate': 2.943066666666667e-05, 'epoch': 21.61}
+{'loss': 0.0096, 'grad_norm': 0.29898273944854736, 'learning_rate': 2.9430333333333332e-05, 'epoch': 21.61}
+{'loss': 0.0371, 'grad_norm': 0.3022543787956238, 'learning_rate': 2.943e-05, 'epoch': 21.61}
+{'loss': 0.0057, 'grad_norm': 0.241398423910141, 'learning_rate': 2.9429666666666667e-05, 'epoch': 21.61}
+{'loss': 0.0061, 'grad_norm': 0.15573015809059143, 'learning_rate': 2.9429333333333333e-05, 'epoch': 21.61}
+{'loss': 0.0046, 'grad_norm': 0.15038542449474335, 'learning_rate': 2.9429e-05, 'epoch': 21.62}
+{'loss': 0.0084, 'grad_norm': 0.3136591911315918, 'learning_rate': 2.9428666666666668e-05, 'epoch': 21.62}
+{'loss': 0.0038, 'grad_norm': 0.14817532896995544, 'learning_rate': 2.9428333333333334e-05, 'epoch': 21.62}
+{'loss': 0.0081, 'grad_norm': 0.1666664481163025, 'learning_rate': 2.9428e-05, 'epoch': 21.62}
+{'loss': 0.0065, 'grad_norm': 0.10841329395771027, 'learning_rate': 2.942766666666667e-05, 'epoch': 21.62}
+{'loss': 0.0103, 'grad_norm': 0.28235870599746704, 'learning_rate': 2.9427333333333332e-05, 'epoch': 21.63}
+{'loss': 0.0035, 'grad_norm': 0.12024784833192825, 'learning_rate': 2.9427e-05, 'epoch': 21.63}
+{'loss': 0.0067, 'grad_norm': 0.4908735752105713, 'learning_rate': 2.9426666666666667e-05, 'epoch': 21.63}
+{'loss': 0.0056, 'grad_norm': 0.21267184615135193, 'learning_rate': 2.9426333333333333e-05, 'epoch': 21.63}
+{'loss': 0.0078, 'grad_norm': 0.42651426792144775, 'learning_rate': 2.9426e-05, 'epoch': 21.63}
+{'loss': 0.008, 'grad_norm': 0.16636477410793304, 'learning_rate': 2.942566666666667e-05, 'epoch': 21.64}
+{'loss': 0.0101, 'grad_norm': 0.26599639654159546, 'learning_rate': 2.9425333333333334e-05, 'epoch': 21.64}
+{'loss': 0.0079, 'grad_norm': 0.2585376799106598, 'learning_rate': 2.9425e-05, 'epoch': 21.64}
+{'loss': 0.0138, 'grad_norm': 0.5444880723953247, 'learning_rate': 2.942466666666667e-05, 'epoch': 21.64}
+{'loss': 0.0199, 'grad_norm': 0.9459370970726013, 'learning_rate': 2.9424333333333332e-05, 'epoch': 21.64}
+{'loss': 0.0075, 'grad_norm': 0.5683426260948181, 'learning_rate': 2.9424e-05, 'epoch': 21.64}
+{'loss': 0.0194, 'grad_norm': 0.42870140075683594, 'learning_rate': 2.9423666666666667e-05, 'epoch': 21.65}
+{'loss': 0.1129, 'grad_norm': 0.48324406147003174, 'learning_rate': 2.9423333333333333e-05, 'epoch': 21.65}
+{'loss': 0.0805, 'grad_norm': 0.5933670997619629, 'learning_rate': 2.9423e-05, 'epoch': 21.65}
+{'loss': 0.0999, 'grad_norm': 0.9176157116889954, 'learning_rate': 2.942266666666667e-05, 'epoch': 21.65}
+{'loss': 0.1085, 'grad_norm': 0.5372908115386963, 'learning_rate': 2.9422333333333335e-05, 'epoch': 21.65}
+{'loss': 0.1169, 'grad_norm': 0.9991260766983032, 'learning_rate': 2.9422e-05, 'epoch': 21.66}
+{'loss': 0.0742, 'grad_norm': 0.4064606726169586, 'learning_rate': 2.942166666666667e-05, 'epoch': 21.66}
+{'loss': 0.0398, 'grad_norm': 0.406076580286026, 'learning_rate': 2.9421333333333332e-05, 'epoch': 21.66}
+{'loss': 0.0725, 'grad_norm': 0.976673424243927, 'learning_rate': 2.9421000000000002e-05, 'epoch': 21.66}
+{'loss': 0.0688, 'grad_norm': 0.4736194908618927, 'learning_rate': 2.9420666666666668e-05, 'epoch': 21.66}
+{'loss': 0.0372, 'grad_norm': 0.374492347240448, 'learning_rate': 2.9420333333333334e-05, 'epoch': 21.66}
+{'loss': 0.0285, 'grad_norm': 0.31480005383491516, 'learning_rate': 2.9420000000000003e-05, 'epoch': 21.67}
+{'loss': 0.0283, 'grad_norm': 0.40599334239959717, 'learning_rate': 2.9419666666666665e-05, 'epoch': 21.67}
+{'loss': 0.0769, 'grad_norm': 0.594463050365448, 'learning_rate': 2.9419333333333335e-05, 'epoch': 21.67}
+{'loss': 0.0331, 'grad_norm': 0.35580018162727356, 'learning_rate': 2.9419e-05, 'epoch': 21.67}
+{'loss': 0.013, 'grad_norm': 0.43213754892349243, 'learning_rate': 2.9418666666666667e-05, 'epoch': 21.67}
+{'loss': 0.0095, 'grad_norm': 0.5789579749107361, 'learning_rate': 2.9418333333333333e-05, 'epoch': 21.68}
+{'loss': 0.0112, 'grad_norm': 0.26206323504447937, 'learning_rate': 2.9418000000000002e-05, 'epoch': 21.68}
+{'loss': 0.0095, 'grad_norm': 0.30900248885154724, 'learning_rate': 2.9417666666666664e-05, 'epoch': 21.68}
+{'loss': 0.0087, 'grad_norm': 0.1787906438112259, 'learning_rate': 2.9417333333333334e-05, 'epoch': 21.68}
+{'loss': 0.0085, 'grad_norm': 0.15706923604011536, 'learning_rate': 2.9417000000000003e-05, 'epoch': 21.68}
+{'loss': 0.0179, 'grad_norm': 0.160160630941391, 'learning_rate': 2.9416666666666666e-05, 'epoch': 21.69}
+{'loss': 0.0166, 'grad_norm': 0.3976205587387085, 'learning_rate': 2.9416333333333335e-05, 'epoch': 21.69}
+{'loss': 0.0144, 'grad_norm': 0.45126911997795105, 'learning_rate': 2.9416e-05, 'epoch': 21.69}
+{'loss': 0.0042, 'grad_norm': 0.24339599907398224, 'learning_rate': 2.9415666666666667e-05, 'epoch': 21.69}
+{'loss': 0.0105, 'grad_norm': 0.32987111806869507, 'learning_rate': 2.9415333333333333e-05, 'epoch': 21.69}
+{'loss': 0.0236, 'grad_norm': 0.39428460597991943, 'learning_rate': 2.9415000000000002e-05, 'epoch': 21.69}
+{'loss': 0.0122, 'grad_norm': 0.3154822289943695, 'learning_rate': 2.9414666666666668e-05, 'epoch': 21.7}
+{'loss': 0.0129, 'grad_norm': 0.3474328815937042, 'learning_rate': 2.9414333333333334e-05, 'epoch': 21.7}
+{'loss': 0.0029, 'grad_norm': 0.09453830868005753, 'learning_rate': 2.9414000000000003e-05, 'epoch': 21.7}
+{'loss': 0.0547, 'grad_norm': 0.32519862055778503, 'learning_rate': 2.9413666666666666e-05, 'epoch': 21.7}
+{'loss': 0.0051, 'grad_norm': 0.2847834825515747, 'learning_rate': 2.9413333333333335e-05, 'epoch': 21.7}
+{'loss': 0.0189, 'grad_norm': 0.4314049184322357, 'learning_rate': 2.9413e-05, 'epoch': 21.71}
+{'loss': 0.004, 'grad_norm': 0.1875690221786499, 'learning_rate': 2.9412666666666667e-05, 'epoch': 21.71}
+{'loss': 0.0031, 'grad_norm': 0.118055060505867, 'learning_rate': 2.9412333333333333e-05, 'epoch': 21.71}
+{'loss': 0.0041, 'grad_norm': 0.11226514726877213, 'learning_rate': 2.9412000000000002e-05, 'epoch': 21.71}
+{'loss': 0.0067, 'grad_norm': 0.3839562237262726, 'learning_rate': 2.9411666666666668e-05, 'epoch': 21.71}
+{'loss': 0.002, 'grad_norm': 0.06365108489990234, 'learning_rate': 2.9411333333333334e-05, 'epoch': 21.71}
+{'loss': 0.0096, 'grad_norm': 0.3811405301094055, 'learning_rate': 2.9411000000000004e-05, 'epoch': 21.72}
+{'loss': 0.0139, 'grad_norm': 0.4699449837207794, 'learning_rate': 2.9410666666666666e-05, 'epoch': 21.72}
+{'loss': 0.0096, 'grad_norm': 0.26368317008018494, 'learning_rate': 2.9410333333333335e-05, 'epoch': 21.72}
+ 12%|█▏        | 11773/100000 [6:26:00<27:01:15,  1.10s/it] 12%|█▏        | 11774/100000 [6:26:01<26:45:26,  1.09s/it]                                                            12%|█▏        | 11774/100000 [6:26:01<26:45:26,  1.09s/it] 12%|█▏        | 11775/100000 [6:26:02<26:26:34,  1.08s/it]                                                            12%|█▏        | 11775/100000 [6:26:02<26:26:34,  1.08s/it] 12%|█▏        | 11776/100000 [6:26:03<26:04:25,  1.06s/it]                                                            12%|█▏        | 11776/100000 [6:26:03<26:04:25,  1.06s/it] 12%|█▏        | 11777/100000 [6:26:04<25:41:27,  1.05s/it]                                                            12%|█▏        | 11777/100000 [6:26:04<25:41:27,  1.05s/it] 12%|█▏        | 11778/100000 [6:26:05<25:12:21,  1.03s/it]                                                            12%|█▏        | 11778/100000 [6:26:05<25:12:21,  1.03s/it] 12%|█▏        | 11779/100000 [6:26:06<24:39:37,  1.01s/it]                                                            12%|█▏        | 11779/100000 [6:26:06<24:39:37,  1.01s/it] 12%|█▏        | 11780/100000 [6:26:07<24:21:17,  1.01it/s]                                                            12%|█▏        | 11780/100000 [6:26:07<24:21:17,  1.01it/s] 12%|█▏        | 11781/100000 [6:26:08<23:58:04,  1.02it/s]                                                            12%|█▏        | 11781/100000 [6:26:08<23:58:04,  1.02it/s] 12%|█▏        | 11782/100000 [6:26:09<23:14:28,  1.05it/s]                                                            12%|█▏        | 11782/100000 [6:26:09<23:14:28,  1.05it/s] 12%|█▏        | 11783/100000 [6:26:21<109:07:53,  4.45s/it]                                                             12%|█▏        | 11783/100000 [6:26:21<109:07:53,  4.45s/it] 12%|█▏        | 11784/100000 [6:26:28<120:52:20,  4.93s/it]                                                             12%|█▏        | 11784/100000 [6:26:28<120:52:20,  4.93s/it] 12%|█▏        | 11785/100000 [6:26:33<122:35:04,  5.00s/it]                                                             12%|█▏        | 11785/100000 [6:26:33<122:35:04,  5.00s/it] 12%|█▏        | 11786/100000 [6:26:37<117:19:33,  4.79s/it]                                                             12%|█▏        | 11786/100000 [6:26:37<117:19:33,  4.79s/it] 12%|█▏        | 11787/100000 [6:26:41<109:43:19,  4.48s/it]                                                             12%|█▏        | 11787/100000 [6:26:41<109:43:19,  4.48s/it] 12%|█▏        | 11788/100000 [6:26:44<101:29:20,  4.14s/it]                                                             12%|█▏        | 11788/100000 [6:26:44<101:29:20,  4.14s/it] 12%|█▏        | 11789/100000 [6:26:47<93:14:05,  3.81s/it]                                                             12%|█▏        | 11789/100000 [6:26:47<93:14:05,  3.81s/it] 12%|█▏        | 11790/100000 [6:26:50<85:28:52,  3.49s/it]                                                            12%|█▏        | 11790/100000 [6:26:50<85:28:52,  3.49s/it] 12%|█▏        | 11791/100000 [6:26:52<78:11:59,  3.19s/it]                                                            12%|█▏        | 11791/100000 [6:26:52<78:11:59,  3.19s/it] 12%|█▏        | 11792/100000 [6:26:55<71:59:19,  2.94s/it]                                                            12%|█▏        | 11792/100000 [6:26:55<71:59:19,  2.94s/it] 12%|█▏        | 11793/100000 [6:26:57<66:22:23,  2.71s/it]                                                            12%|█▏        | 11793/100000 [6:26:57<66:22:23,  2.71s/it] 12%|█▏        | 11794/100000 [6:26:59<61:36:31,  2.51s/it]                                                            12%|█▏        | 11794/100000 [6:26:59<61:36:31,  2.51s/it] 12%|█▏        | 11795/100000 [6:27:01<57:20:42,  2.34s/it]                                                            12%|█▏        | 11795/100000 [6:27:01<57:20:42,  2.34s/it] 12%|█▏        | 11796/100000 [6:27:03<53:26:22,  2.18s/it]                                                            12%|█▏        | 11796/100000 [6:27:03<53:26:22,  2.18s/it] 12%|█▏        | 11797/100000 [6:27:04<49:52:33,  2.04s/it]                                                            12%|█▏        | 11797/100000 [6:27:04<49:52:33,  2.04s/it] 12%|█▏        | 11798/100000 [6:27:06<47:03:44,  1.92s/it]                                                            12%|█▏        | 11798/100000 [6:27:06<47:03:44,  1.92s/it] 12%|█▏        | 11799/100000 [6:27:08<44:46:43,  1.83s/it]                                                            12%|█▏        | 11799/100000 [6:27:08<44:46:43,  1.83s/it] 12%|█▏        | 11800/100000 [6:27:09<42:57:33,  1.75s/it]                                                            12%|█▏        | 11800/100000 [6:27:09<42:57:33,  1.75s/it] 12%|█▏        | 11801/100000 [6:27:11<40:50:44,  1.67s/it]                                                            12%|█▏        | 11801/100000 [6:27:11<40:50:44,  1.67s/it] 12%|█▏        | 11802/100000 [6:27:12<40:14:28,  1.64s/it]                                                            12%|█▏        | 11802/100000 [6:27:12<40:14:28,  1.64s/it] 12%|█▏        | 11803/100000 [6:27:14<38:55:05,  1.59s/it]                                                            12%|█▏        | 11803/100000 [6:27:14<38:55:05,  1.59s/it] 12%|█▏        | 11804/100000 [6:27:15<37:36:58,  1.54s/it]                                                            12%|█▏        | 11804/100000 [6:27:15<37:36:58,  1.54s/it] 12%|█▏        | 11805/100000 [6:27:17<36:43:43,  1.50s/it]                                                            12%|█▏        | 11805/100000 [6:27:17<36:43:43,  1.50s/it] 12%|█▏        | 11806/100000 [6:27:18<35:37:06,  1.45s/it]                                                            12%|█▏        | 11806/100000 [6:27:18<35:37:06,  1.45s/it] 12%|█▏        | 11807/100000 [6:27:19<34:57:20,  1.43s/it]                                                            12%|█▏        | 11807/100000 [6:27:19<34:57:20,  1.43s/it] 12%|█▏        | 11808/100000 [6:27:21<34:19:45,  1.40s/it]                                                            12%|█▏        | 11808/100000 [6:27:21<34:19:45,  1.40s/it] 12%|█▏        | 11809/100000 [6:27:22<33:47:49,  1.38s/it]                                                            12%|█▏        | 11809/100000 [6:27:22<33:47:49,  1.38s/it] 12%|█▏        | 11810/100000 [6:27:23<33:14:59,  1.36s/it]                                                            12%|█▏        | 11810/100000 [6:27:23<33:14:59,  1.36s/it] 12%|█▏        | 11811/100000 [6:27:25<32:42:57,  1.34s/it]                                                            12%|█▏        | 11811/100000 [6:27:25<32:42:57,  1.34s/it] 12%|█▏        | 11812/100000 [6:27:26<32:05:51,  1.31s/it]                                                            12%|█▏        | 11812/100000 [6:27:26<32:05:51,  1.31s/it] 12%|█▏        | 11813/100000 [6:27:27<31:42:29,  1.29s/it]                                                            12%|█▏        | 11813/100000 [6:27:27<31:42:29,  1.29s/it] 12%|█▏        | 11814/100000 [6:27:28<31:07:49,  1.27s/it]                                                            12%|█▏        | 11814/100000 [6:27:28<31:07:49,  1.27s/it] 12%|█▏        | 11815/100000 [6:27:29<30:49:15,  1.26s/it]                                                            12%|█▏        | 11815/100000 [6:27:29<30:49:15,  1.26s/it] 12%|█▏        | 11816/100000 [6:27:31<29:57:05,  1.22s/it]                                                            12%|█▏        | 11816/100000 [6:27:31<29:57:05,  1.22s/it] 12%|█▏        | 11817/100000 [6:27:32<29:27:56,  1.20s/it]                                                            12%|█▏        | 11817/100000 [6:27:32<29:27:56,  1.20s/it] 12%|█▏        | 11818/100000 [6:27:33<28:56:01,  1.18s/it]                                                            12%|█▏        | 11818/100000 [6:27:33<28:56:01,  1.18s/it] 12%|█▏        | 11819/100000 [6:27:34<28:37:49,  1.17s/it]                                                            12%|█▏        | 11819/100000 [6:27:34<28:37:49,  1.17s/it] 12%|█▏        | 11820/100000 [6:27:35<28:10:06,  1.15s/it]                                                            12%|█▏        | 11820/100000 [6:27:35<28:10:06,  1.15s/it] 12%|█▏        | 11821/100000 [6:27:36<27:48:48,  1.14s/it]                                                            12%|█▏        | 11821/100000 [6:27:36<27:48:48,  1.14s/it] 12%|█▏        | 11822/100000 [6:27:37<27:17:29,  1.11s/it]                                                            12%|█▏        | 11822/100000 [6:27:37<27:17:29,  1.11s/it] 12%|█▏        | 11823/100000 [6:27:38<27:13:04,  1.11s/it]                                                            12%|█▏        | 11823/100000 [6:27:38<27:13:04,  1.11s/it] 12%|█▏        | 11824/100000 [6:27:39<26:55:45,  1.10s/it]                                                            12%|█▏        | 11824/100000 [6:27:39<26:55:45,  1.10s/it] 12%|█▏        | 11825/100000 [6:27:41<26:33:44,  1.08s/it]                                                            12%|█▏        | 11825/100000 [6:27:41<26:33:44,  1.08s/it] 12%|█▏        | 11826/100000 [6:27:42<26:23:45,  1.08s/it]                                                            12%|█▏        | 11826/100000 [6:27:42<26:23:45,  1.08s/it] 12%|█▏        | 11827/100000 [6:27:43<25:52:18,  1.06s/it]                                                            12%|█▏        | 11827/100000 [6:27:43<25:52:18,  1.06s/it] 12%|█▏        | 11828/100000 [6:27:44<25:28:33,  1.04s/it]                                                            12%|█▏        | 11828/100000 [6:27:44<25:28:33,  1.04s/it] 12%|█▏        | 11829/100000 [6:27:45<25:02:27,  1.02s/it]                                                            12%|█▏        | 11829/100000 [6:27:45<25:02:27,  1.02s/it] 12%|█▏        | 11830/100000 [6:27:46<24:38:40,  1.01s/it]                                                            12%|█▏        | 11830/100000 [6:27:46<24:38:40,  1.01s/it] 12%|█▏        | 11831/100000 [6:27:46<24:01:13,  1.02it/s]                                                            12%|█▏        | 11831/100000 [6:27:46<24:01:13,  1.02it/s] 12%|█▏        | 11832/100000 [6:27:47<23:22:55,  1.05it/s]                                                            12%|█▏        | 11832/100000 [6:27:47<23:22:55,  1.05it/s] 12%|█▏        | 11833/100000 [6:27:58<96:32:49,  3.94s/it]                                                            12%|█▏        | 11833/100000 [6:27:58<96:32:49,  3.94s/it] 12%|█▏        | 11834/100000 [6:28:04<108:01:21,  4.41s/it]                                                             12%|█▏        | 11834/100000 [6:28:04<108:01:21,  4.41s/it] 12%|█▏        | 11835/100000 [6:28:08<109:39:49,  4.48s/it]                                                             12%|█▏        | 11835/100000 [6:28:08<109:39:49,  4.48s/it] 12%|█▏        | 11836/100000 [6:28:12<106:02:08,  4.33s/it]                                                             12%|█▏        | 11836/100000 [6:28:12<106:02:08,  4.33s/it] 12%|█▏        | 11837/100000 [6:28:16<99:51:06,  4.08s/it]                                                             12%|█▏        | 11837/100000 [6:28:16<99:51:06,  4.08s/it] 12%|█▏        | 11838/100000 [6:28:19<93:08:58,  3.80s/it]                                                            12%|█▏        | 11838/100000 [6:28:19<93:08:58,  3.80s/it] 12%|█▏        | 11839/100000 [6:28:22<85:43:23,  3.50s/it]                                                            12%|█▏        | 11839/100000 [6:28:22<85:43:23,  3.50s/it] 12%|█▏        | 11840/100000 [6:28:24<79:16:51,  3.24s/it]                                                            12%|█▏        | 11840/100000 [6:28:25<79:16:51,  3.24s/it] 12%|█▏        | 11841/100000 [6:28:27<73:18:19,  2.99s/it]                                                            12%|█▏        | 11841/100000 [6:28:27<73:18:19,  2.99s/it] 12%|█▏        | 11842/100000 [6:28:29<68:35:31,  2.80s/it]                                                            12%|█▏        | 11842/100000 [6:28:29<68:35:31,  2.80s/it] 12%|█▏        | 11843/100000 [6:28:31<64:01:12,  2.61s/it]                                                            12%|█▏        | 11843/100000 [6:28:31<64:01:12,  2.61s/it] 12%|█▏        | 11844/100000 [6:28:33<59:55:18,  2.45s/it]                                                            12%|█▏        | 11844/100000 [6:28:34<59:55:18,  2.45s/it] 12%|█▏        | 11845/100000 [6:28:35<56:24:43,  2.30s/it]                                                            12%|█▏        | 11845/100000 [6:28:35<56:24:43,  2.30s/it] 12%|█▏        | 11846/100000 [6:28:37<53:03:45,  2.17s/it]                                                            12%|█▏        | 11846/100000 [6:28:37<53:03:45,  2.17s/it] 12%|█▏        | 11847/100000 [6:28:39<50:12:12,  2.05s/it]                                                            12%|█▏        | 11847/100000 [6:28:39<50:12:12,  2.05s/it] 12%|█▏        | 11848/100000 [6:28:41<47:20:01,  1.93s/it]                                                            12%|█▏        | 11848/100000 [6:28:41<47:20:01,  1.93s/it] 12%|█▏        | 11849/100000 [6:28:42<45:11:57,  1.85s/it]                                                            12%|█▏        | 11849/100000 [6:28:42<45:11:57,  1.85s/it] 12%|█▏        | 11850/100000 [6:28:44<42:57:00,  1.75s/it]                                                            12%|█▏        | 11850/100000 [6:28:44<42:57:00,  1.75s/it] 12%|█▏        | 11851/100000 [6:28:46<41:32:51,  1.70s/it]                                                           {'loss': 0.003, 'grad_norm': 0.14234060049057007, 'learning_rate': 2.9409999999999998e-05, 'epoch': 21.72}
+{'loss': 0.0093, 'grad_norm': 0.6422532200813293, 'learning_rate': 2.9409666666666667e-05, 'epoch': 21.72}
+{'loss': 0.0046, 'grad_norm': 0.22176691889762878, 'learning_rate': 2.9409333333333333e-05, 'epoch': 21.73}
+{'loss': 0.0061, 'grad_norm': 0.30540087819099426, 'learning_rate': 2.9409e-05, 'epoch': 21.73}
+{'loss': 0.0117, 'grad_norm': 0.5490514039993286, 'learning_rate': 2.940866666666667e-05, 'epoch': 21.73}
+{'loss': 0.0123, 'grad_norm': 0.3425533175468445, 'learning_rate': 2.9408333333333334e-05, 'epoch': 21.73}
+{'loss': 0.0091, 'grad_norm': 0.2820558249950409, 'learning_rate': 2.9408e-05, 'epoch': 21.73}
+{'loss': 0.0083, 'grad_norm': 0.20925366878509521, 'learning_rate': 2.9407666666666666e-05, 'epoch': 21.73}
+{'loss': 0.0082, 'grad_norm': 0.22122719883918762, 'learning_rate': 2.9407333333333336e-05, 'epoch': 21.74}
+{'loss': 0.0145, 'grad_norm': 0.36879807710647583, 'learning_rate': 2.9406999999999998e-05, 'epoch': 21.74}
+{'loss': 0.1864, 'grad_norm': 0.7262082695960999, 'learning_rate': 2.9406666666666667e-05, 'epoch': 21.74}
+{'loss': 0.1308, 'grad_norm': 0.5911471247673035, 'learning_rate': 2.9406333333333333e-05, 'epoch': 21.74}
+{'loss': 0.1253, 'grad_norm': 0.5021706819534302, 'learning_rate': 2.9406e-05, 'epoch': 21.74}
+{'loss': 0.1105, 'grad_norm': 0.42258352041244507, 'learning_rate': 2.940566666666667e-05, 'epoch': 21.75}
+{'loss': 0.0881, 'grad_norm': 0.4874754250049591, 'learning_rate': 2.9405333333333335e-05, 'epoch': 21.75}
+{'loss': 0.0996, 'grad_norm': 0.41108840703964233, 'learning_rate': 2.9405e-05, 'epoch': 21.75}
+{'loss': 0.0555, 'grad_norm': 0.4531548321247101, 'learning_rate': 2.9404666666666666e-05, 'epoch': 21.75}
+{'loss': 0.055, 'grad_norm': 0.6766632795333862, 'learning_rate': 2.9404333333333336e-05, 'epoch': 21.75}
+{'loss': 0.0607, 'grad_norm': 0.36510834097862244, 'learning_rate': 2.9404e-05, 'epoch': 21.76}
+{'loss': 0.0764, 'grad_norm': 0.38905462622642517, 'learning_rate': 2.9403666666666668e-05, 'epoch': 21.76}
+{'loss': 0.0285, 'grad_norm': 0.33395567536354065, 'learning_rate': 2.9403333333333337e-05, 'epoch': 21.76}
+{'loss': 0.0547, 'grad_norm': 0.5528409481048584, 'learning_rate': 2.9403e-05, 'epoch': 21.76}
+{'loss': 0.017, 'grad_norm': 0.3216876685619354, 'learning_rate': 2.940266666666667e-05, 'epoch': 21.76}
+{'loss': 0.0276, 'grad_norm': 0.33285337686538696, 'learning_rate': 2.9402333333333335e-05, 'epoch': 21.76}
+{'loss': 0.0302, 'grad_norm': 0.33139219880104065, 'learning_rate': 2.9402e-05, 'epoch': 21.77}
+{'loss': 0.0115, 'grad_norm': 0.19674275815486908, 'learning_rate': 2.9401666666666667e-05, 'epoch': 21.77}
+{'loss': 0.0119, 'grad_norm': 0.3641238510608673, 'learning_rate': 2.9401333333333336e-05, 'epoch': 21.77}
+{'loss': 0.0083, 'grad_norm': 0.24481379985809326, 'learning_rate': 2.9401e-05, 'epoch': 21.77}
+{'loss': 0.041, 'grad_norm': 0.3730131685733795, 'learning_rate': 2.9400666666666668e-05, 'epoch': 21.77}
+{'loss': 0.0117, 'grad_norm': 0.24020326137542725, 'learning_rate': 2.9400333333333337e-05, 'epoch': 21.78}
+{'loss': 0.0082, 'grad_norm': 0.16403193771839142, 'learning_rate': 2.94e-05, 'epoch': 21.78}
+{'loss': 0.0092, 'grad_norm': 0.19418635964393616, 'learning_rate': 2.939966666666667e-05, 'epoch': 21.78}
+{'loss': 0.0083, 'grad_norm': 0.2227737009525299, 'learning_rate': 2.939933333333333e-05, 'epoch': 21.78}
+{'loss': 0.0072, 'grad_norm': 0.2907804250717163, 'learning_rate': 2.9399e-05, 'epoch': 21.78}
+{'loss': 0.0126, 'grad_norm': 0.24682292342185974, 'learning_rate': 2.9398666666666667e-05, 'epoch': 21.78}
+{'loss': 0.0087, 'grad_norm': 0.31712350249290466, 'learning_rate': 2.9398333333333333e-05, 'epoch': 21.79}
+{'loss': 0.0182, 'grad_norm': 0.7004305720329285, 'learning_rate': 2.9398000000000002e-05, 'epoch': 21.79}
+{'loss': 0.0048, 'grad_norm': 0.204494446516037, 'learning_rate': 2.9397666666666668e-05, 'epoch': 21.79}
+{'loss': 0.0273, 'grad_norm': 0.3658459782600403, 'learning_rate': 2.9397333333333334e-05, 'epoch': 21.79}
+{'loss': 0.0075, 'grad_norm': 0.20716539025306702, 'learning_rate': 2.9397e-05, 'epoch': 21.79}
+{'loss': 0.0103, 'grad_norm': 0.1901579350233078, 'learning_rate': 2.939666666666667e-05, 'epoch': 21.8}
+{'loss': 0.0021, 'grad_norm': 0.07081008702516556, 'learning_rate': 2.9396333333333332e-05, 'epoch': 21.8}
+{'loss': 0.0122, 'grad_norm': 0.7699052095413208, 'learning_rate': 2.9396e-05, 'epoch': 21.8}
+{'loss': 0.0033, 'grad_norm': 0.12213122844696045, 'learning_rate': 2.9395666666666667e-05, 'epoch': 21.8}
+{'loss': 0.0054, 'grad_norm': 0.3606746792793274, 'learning_rate': 2.9395333333333333e-05, 'epoch': 21.8}
+{'loss': 0.0064, 'grad_norm': 0.24104273319244385, 'learning_rate': 2.9395000000000002e-05, 'epoch': 21.81}
+{'loss': 0.029, 'grad_norm': 0.2115449160337448, 'learning_rate': 2.9394666666666668e-05, 'epoch': 21.81}
+{'loss': 0.0106, 'grad_norm': 0.8519856929779053, 'learning_rate': 2.9394333333333334e-05, 'epoch': 21.81}
+{'loss': 0.0109, 'grad_norm': 0.44638770818710327, 'learning_rate': 2.9394e-05, 'epoch': 21.81}
+{'loss': 0.0129, 'grad_norm': 0.33324283361434937, 'learning_rate': 2.939366666666667e-05, 'epoch': 21.81}
+{'loss': 0.0025, 'grad_norm': 0.10796014219522476, 'learning_rate': 2.9393333333333332e-05, 'epoch': 21.81}
+{'loss': 0.0109, 'grad_norm': 0.3488299250602722, 'learning_rate': 2.9393e-05, 'epoch': 21.82}
+{'loss': 0.0043, 'grad_norm': 0.17116694152355194, 'learning_rate': 2.9392666666666667e-05, 'epoch': 21.82}
+{'loss': 0.0129, 'grad_norm': 0.44072869420051575, 'learning_rate': 2.9392333333333333e-05, 'epoch': 21.82}
+{'loss': 0.0067, 'grad_norm': 0.2730376422405243, 'learning_rate': 2.9392000000000003e-05, 'epoch': 21.82}
+{'loss': 0.0134, 'grad_norm': 0.5067234635353088, 'learning_rate': 2.939166666666667e-05, 'epoch': 21.82}
+{'loss': 0.007, 'grad_norm': 0.21032480895519257, 'learning_rate': 2.9391333333333334e-05, 'epoch': 21.83}
+{'loss': 0.0253, 'grad_norm': 0.5482940077781677, 'learning_rate': 2.9391e-05, 'epoch': 21.83}
+{'loss': 0.0256, 'grad_norm': 1.3305041790008545, 'learning_rate': 2.939066666666667e-05, 'epoch': 21.83}
+{'loss': 0.0083, 'grad_norm': 0.6527359485626221, 'learning_rate': 2.9390333333333332e-05, 'epoch': 21.83}
+{'loss': 0.202, 'grad_norm': 0.6475838422775269, 'learning_rate': 2.939e-05, 'epoch': 21.83}
+{'loss': 0.1203, 'grad_norm': 0.5826760530471802, 'learning_rate': 2.9389666666666667e-05, 'epoch': 21.83}
+{'loss': 0.0983, 'grad_norm': 0.5271478295326233, 'learning_rate': 2.9389333333333333e-05, 'epoch': 21.84}
+{'loss': 0.0835, 'grad_norm': 0.4728860557079315, 'learning_rate': 2.9389000000000003e-05, 'epoch': 21.84}
+{'loss': 0.0544, 'grad_norm': 0.4163111746311188, 'learning_rate': 2.9388666666666665e-05, 'epoch': 21.84}
+{'loss': 0.056, 'grad_norm': 0.8589546084403992, 'learning_rate': 2.9388333333333335e-05, 'epoch': 21.84}
+{'loss': 0.0418, 'grad_norm': 0.3603813350200653, 'learning_rate': 2.9388e-05, 'epoch': 21.84}
+{'loss': 0.0759, 'grad_norm': 0.4066253900527954, 'learning_rate': 2.9387666666666666e-05, 'epoch': 21.85}
+{'loss': 0.0442, 'grad_norm': 0.35721030831336975, 'learning_rate': 2.9387333333333332e-05, 'epoch': 21.85}
+{'loss': 0.0407, 'grad_norm': 0.36084261536598206, 'learning_rate': 2.9387000000000002e-05, 'epoch': 21.85}
+{'loss': 0.0429, 'grad_norm': 0.7102795839309692, 'learning_rate': 2.9386666666666668e-05, 'epoch': 21.85}
+{'loss': 0.0271, 'grad_norm': 0.29509997367858887, 'learning_rate': 2.9386333333333334e-05, 'epoch': 21.85}
+{'loss': 0.0446, 'grad_norm': 0.4171082079410553, 'learning_rate': 2.9386000000000003e-05, 'epoch': 21.86}
+{'loss': 0.0382, 'grad_norm': 0.30098018050193787, 'learning_rate': 2.9385666666666665e-05, 'epoch': 21.86}
+{'loss': 0.0571, 'grad_norm': 0.3387888967990875, 'learning_rate': 2.9385333333333335e-05, 'epoch': 21.86}
+{'loss': 0.0177, 'grad_norm': 0.25202545523643494, 'learning_rate': 2.9385e-05, 'epoch': 21.86}
+{'loss': 0.0096, 'grad_norm': 0.3939182758331299, 'learning_rate': 2.9384666666666667e-05, 'epoch': 21.86}
+{'loss': 0.0074, 'grad_norm': 0.16526532173156738, 'learning_rate': 2.9384333333333333e-05, 'epoch': 21.86}
+ 12%|█▏        | 11851/100000 [6:28:46<41:32:51,  1.70s/it] 12%|█▏        | 11852/100000 [6:28:47<40:07:04,  1.64s/it]                                                            12%|█▏        | 11852/100000 [6:28:47<40:07:04,  1.64s/it] 12%|█▏        | 11853/100000 [6:28:48<38:32:03,  1.57s/it]                                                            12%|█▏        | 11853/100000 [6:28:48<38:32:03,  1.57s/it] 12%|█▏        | 11854/100000 [6:28:50<37:33:32,  1.53s/it]                                                            12%|█▏        | 11854/100000 [6:28:50<37:33:32,  1.53s/it] 12%|█▏        | 11855/100000 [6:28:51<36:26:35,  1.49s/it]                                                            12%|█▏        | 11855/100000 [6:28:51<36:26:35,  1.49s/it] 12%|█▏        | 11856/100000 [6:28:53<35:29:12,  1.45s/it]                                                            12%|█▏        | 11856/100000 [6:28:53<35:29:12,  1.45s/it] 12%|█▏        | 11857/100000 [6:28:54<34:59:54,  1.43s/it]                                                            12%|█▏        | 11857/100000 [6:28:54<34:59:54,  1.43s/it] 12%|█▏        | 11858/100000 [6:28:55<34:16:16,  1.40s/it]                                                            12%|█▏        | 11858/100000 [6:28:55<34:16:16,  1.40s/it] 12%|█▏        | 11859/100000 [6:28:57<33:51:51,  1.38s/it]                                                            12%|█▏        | 11859/100000 [6:28:57<33:51:51,  1.38s/it] 12%|█▏        | 11860/100000 [6:28:58<33:20:33,  1.36s/it]                                                            12%|█▏        | 11860/100000 [6:28:58<33:20:33,  1.36s/it] 12%|█▏        | 11861/100000 [6:28:59<32:55:24,  1.34s/it]                                                            12%|█▏        | 11861/100000 [6:28:59<32:55:24,  1.34s/it] 12%|█▏        | 11862/100000 [6:29:01<32:17:54,  1.32s/it]                                                            12%|█▏        | 11862/100000 [6:29:01<32:17:54,  1.32s/it] 12%|█▏        | 11863/100000 [6:29:02<32:01:37,  1.31s/it]                                                            12%|█▏        | 11863/100000 [6:29:02<32:01:37,  1.31s/it] 12%|█▏        | 11864/100000 [6:29:03<31:35:40,  1.29s/it]                                                            12%|█▏        | 11864/100000 [6:29:03<31:35:40,  1.29s/it] 12%|█▏        | 11865/100000 [6:29:04<30:55:22,  1.26s/it]                                                            12%|█▏        | 11865/100000 [6:29:04<30:55:22,  1.26s/it] 12%|█▏        | 11866/100000 [6:29:05<30:32:11,  1.25s/it]                                                            12%|█▏        | 11866/100000 [6:29:05<30:32:11,  1.25s/it] 12%|█▏        | 11867/100000 [6:29:07<29:46:19,  1.22s/it]                                                            12%|█▏        | 11867/100000 [6:29:07<29:46:19,  1.22s/it] 12%|█▏        | 11868/100000 [6:29:08<29:21:44,  1.20s/it]                                                            12%|█▏        | 11868/100000 [6:29:08<29:21:44,  1.20s/it] 12%|█▏        | 11869/100000 [6:29:09<28:49:23,  1.18s/it]                                                            12%|█▏        | 11869/100000 [6:29:09<28:49:23,  1.18s/it] 12%|█▏        | 11870/100000 [6:29:10<28:27:00,  1.16s/it]                                                            12%|█▏        | 11870/100000 [6:29:10<28:27:00,  1.16s/it] 12%|█▏        | 11871/100000 [6:29:11<27:57:10,  1.14s/it]                                                            12%|█▏        | 11871/100000 [6:29:11<27:57:10,  1.14s/it] 12%|█▏        | 11872/100000 [6:29:12<27:44:52,  1.13s/it]                                                            12%|█▏        | 11872/100000 [6:29:12<27:44:52,  1.13s/it] 12%|█▏        | 11873/100000 [6:29:13<27:25:08,  1.12s/it]                                                            12%|█▏        | 11873/100000 [6:29:13<27:25:08,  1.12s/it] 12%|█▏        | 11874/100000 [6:29:14<27:07:53,  1.11s/it]                                                            12%|█▏        | 11874/100000 [6:29:14<27:07:53,  1.11s/it] 12%|█▏        | 11875/100000 [6:29:15<26:49:46,  1.10s/it]                                                            12%|█▏        | 11875/100000 [6:29:15<26:49:46,  1.10s/it] 12%|█▏        | 11876/100000 [6:29:17<26:22:27,  1.08s/it]                                                            12%|█▏        | 11876/100000 [6:29:17<26:22:27,  1.08s/it] 12%|█▏        | 11877/100000 [6:29:18<26:02:42,  1.06s/it]                                                            12%|█▏        | 11877/100000 [6:29:18<26:02:42,  1.06s/it] 12%|█▏        | 11878/100000 [6:29:19<25:33:13,  1.04s/it]                                                            12%|█▏        | 11878/100000 [6:29:19<25:33:13,  1.04s/it] 12%|█▏        | 11879/100000 [6:29:20<25:05:52,  1.03s/it]                                                            12%|█▏        | 11879/100000 [6:29:20<25:05:52,  1.03s/it] 12%|█▏        | 11880/100000 [6:29:20<24:23:33,  1.00it/s]                                                            12%|█▏        | 11880/100000 [6:29:20<24:23:33,  1.00it/s] 12%|█▏        | 11881/100000 [6:29:21<23:27:11,  1.04it/s]                                                            12%|█▏        | 11881/100000 [6:29:21<23:27:11,  1.04it/s] 12%|█▏        | 11882/100000 [6:29:22<23:02:01,  1.06it/s]                                                            12%|█▏        | 11882/100000 [6:29:22<23:02:01,  1.06it/s] 12%|█▏        | 11883/100000 [6:29:33<92:36:15,  3.78s/it]                                                            12%|█▏        | 11883/100000 [6:29:33<92:36:15,  3.78s/it] 12%|█▏        | 11884/100000 [6:29:38<104:48:42,  4.28s/it]                                                             12%|█▏        | 11884/100000 [6:29:38<104:48:42,  4.28s/it] 12%|█▏        | 11885/100000 [6:29:42<105:27:43,  4.31s/it]                                                             12%|█▏        | 11885/100000 [6:29:42<105:27:43,  4.31s/it] 12%|█▏        | 11886/100000 [6:29:46<101:11:51,  4.13s/it]                                                             12%|█▏        | 11886/100000 [6:29:46<101:11:51,  4.13s/it] 12%|█▏        | 11887/100000 [6:29:50<95:10:43,  3.89s/it]                                                             12%|█▏        | 11887/100000 [6:29:50<95:10:43,  3.89s/it] 12%|█▏        | 11888/100000 [6:29:53<89:00:01,  3.64s/it]                                                            12%|█▏        | 11888/100000 [6:29:53<89:00:01,  3.64s/it] 12%|█▏        | 11889/100000 [6:29:55<82:37:50,  3.38s/it]                                                            12%|█▏        | 11889/100000 [6:29:55<82:37:50,  3.38s/it] 12%|█▏        | 11890/100000 [6:29:58<76:12:48,  3.11s/it]                                                            12%|█▏        | 11890/100000 [6:29:58<76:12:48,  3.11s/it] 12%|█▏        | 11891/100000 [6:30:00<69:36:43,  2.84s/it]                                                            12%|█▏        | 11891/100000 [6:30:00<69:36:43,  2.84s/it] 12%|█▏        | 11892/100000 [6:30:02<64:21:53,  2.63s/it]                                                            12%|█▏        | 11892/100000 [6:30:02<64:21:53,  2.63s/it] 12%|█▏        | 11893/100000 [6:30:04<59:30:58,  2.43s/it]                                                            12%|█▏        | 11893/100000 [6:30:04<59:30:58,  2.43s/it] 12%|█▏        | 11894/100000 [6:30:06<54:55:01,  2.24s/it]                                                            12%|█▏        | 11894/100000 [6:30:06<54:55:01,  2.24s/it] 12%|█▏        | 11895/100000 [6:30:08<51:20:56,  2.10s/it]                                                            12%|█▏        | 11895/100000 [6:30:08<51:20:56,  2.10s/it] 12%|█▏        | 11896/100000 [6:30:09<48:18:40,  1.97s/it]                                                            12%|█▏        | 11896/100000 [6:30:09<48:18:40,  1.97s/it] 12%|█▏        | 11897/100000 [6:30:11<45:18:55,  1.85s/it]                                                            12%|█▏        | 11897/100000 [6:30:11<45:18:55,  1.85s/it] 12%|█▏        | 11898/100000 [6:30:12<42:59:56,  1.76s/it]                                                            12%|█▏        | 11898/100000 [6:30:13<42:59:56,  1.76s/it] 12%|█▏        | 11899/100000 [6:30:14<41:09:39,  1.68s/it]                                                            12%|█▏        | 11899/100000 [6:30:14<41:09:39,  1.68s/it] 12%|█▏        | 11900/100000 [6:30:15<39:25:34,  1.61s/it]                                                            12%|█▏        | 11900/100000 [6:30:15<39:25:34,  1.61s/it] 12%|█▏        | 11901/100000 [6:30:17<37:32:31,  1.53s/it]                                                            12%|█▏        | 11901/100000 [6:30:17<37:32:31,  1.53s/it] 12%|█▏        | 11902/100000 [6:30:18<36:20:57,  1.49s/it]                                                            12%|█▏        | 11902/100000 [6:30:18<36:20:57,  1.49s/it] 12%|█▏        | 11903/100000 [6:30:20<35:18:33,  1.44s/it]                                                            12%|█▏        | 11903/100000 [6:30:20<35:18:33,  1.44s/it] 12%|█▏        | 11904/100000 [6:30:21<34:31:21,  1.41s/it]                                                            12%|█▏        | 11904/100000 [6:30:21<34:31:21,  1.41s/it] 12%|█▏        | 11905/100000 [6:30:22<33:38:40,  1.37s/it]                                                            12%|█▏        | 11905/100000 [6:30:22<33:38:40,  1.37s/it] 12%|█▏        | 11906/100000 [6:30:23<32:47:01,  1.34s/it]                                                            12%|█▏        | 11906/100000 [6:30:23<32:47:01,  1.34s/it] 12%|█▏        | 11907/100000 [6:30:25<32:19:54,  1.32s/it]                                                            12%|█▏        | 11907/100000 [6:30:25<32:19:54,  1.32s/it] 12%|█▏        | 11908/100000 [6:30:26<31:52:35,  1.30s/it]                                                            12%|█▏        | 11908/100000 [6:30:26<31:52:35,  1.30s/it] 12%|█▏        | 11909/100000 [6:30:27<31:05:39,  1.27s/it]                                                            12%|█▏        | 11909/100000 [6:30:27<31:05:39,  1.27s/it] 12%|█▏        | 11910/100000 [6:30:28<30:27:54,  1.25s/it]                                                            12%|█▏        | 11910/100000 [6:30:28<30:27:54,  1.25s/it] 12%|█▏        | 11911/100000 [6:30:29<29:32:49,  1.21s/it]                                                            12%|█▏        | 11911/100000 [6:30:29<29:32:49,  1.21s/it] 12%|█▏        | 11912/100000 [6:30:31<28:59:52,  1.19s/it]                                                            12%|█▏        | 11912/100000 [6:30:31<28:59:52,  1.19s/it] 12%|█▏        | 11913/100000 [6:30:32<28:34:29,  1.17s/it]                                                            12%|█▏        | 11913/100000 [6:30:32<28:34:29,  1.17s/it] 12%|█▏        | 11914/100000 [6:30:33<28:00:22,  1.14s/it]                                                            12%|█▏        | 11914/100000 [6:30:33<28:00:22,  1.14s/it] 12%|█▏        | 11915/100000 [6:30:34<27:30:55,  1.12s/it]                                                            12%|█▏        | 11915/100000 [6:30:34<27:30:55,  1.12s/it] 12%|█▏        | 11916/100000 [6:30:35<26:55:27,  1.10s/it]                                                            12%|█▏        | 11916/100000 [6:30:35<26:55:27,  1.10s/it] 12%|█▏        | 11917/100000 [6:30:36<26:39:04,  1.09s/it]                                                            12%|█▏        | 11917/100000 [6:30:36<26:39:04,  1.09s/it] 12%|█▏        | 11918/100000 [6:30:37<26:14:09,  1.07s/it]                                                            12%|█▏        | 11918/100000 [6:30:37<26:14:09,  1.07s/it] 12%|█▏        | 11919/100000 [6:30:38<25:52:18,  1.06s/it]                                                            12%|█▏        | 11919/100000 [6:30:38<25:52:18,  1.06s/it] 12%|█▏        | 11920/100000 [6:30:39<25:07:42,  1.03s/it]                                                            12%|█▏        | 11920/100000 [6:30:39<25:07:42,  1.03s/it] 12%|█▏        | 11921/100000 [6:30:40<24:37:40,  1.01s/it]                                                            12%|█▏        | 11921/100000 [6:30:40<24:37:40,  1.01s/it] 12%|█▏        | 11922/100000 [6:30:41<24:13:02,  1.01it/s]                                                            12%|█▏        | 11922/100000 [6:30:41<24:13:02,  1.01it/s] 12%|█▏        | 11923/100000 [6:30:42<23:19:23,  1.05it/s]                                                            12%|█▏        | 11923/100000 [6:30:42<23:19:23,  1.05it/s] 12%|█▏        | 11924/100000 [6:30:43<22:26:18,  1.09it/s]                                                            12%|█▏        | 11924/100000 [6:30:43<22:26:18,  1.09it/s]{'loss': 0.0159, 'grad_norm': 0.3572503626346588, 'learning_rate': 2.9384000000000002e-05, 'epoch': 21.87}
+{'loss': 0.041, 'grad_norm': 0.4337249994277954, 'learning_rate': 2.9383666666666668e-05, 'epoch': 21.87}
+{'loss': 0.0259, 'grad_norm': 0.26018592715263367, 'learning_rate': 2.9383333333333334e-05, 'epoch': 21.87}
+{'loss': 0.012, 'grad_norm': 0.2274974286556244, 'learning_rate': 2.9383000000000003e-05, 'epoch': 21.87}
+{'loss': 0.0077, 'grad_norm': 0.4401700496673584, 'learning_rate': 2.9382666666666666e-05, 'epoch': 21.87}
+{'loss': 0.0135, 'grad_norm': 0.4011286795139313, 'learning_rate': 2.9382333333333335e-05, 'epoch': 21.88}
+{'loss': 0.007, 'grad_norm': 0.1697901487350464, 'learning_rate': 2.9382e-05, 'epoch': 21.88}
+{'loss': 0.0145, 'grad_norm': 0.5393462181091309, 'learning_rate': 2.9381666666666667e-05, 'epoch': 21.88}
+{'loss': 0.008, 'grad_norm': 0.2966288626194, 'learning_rate': 2.9381333333333336e-05, 'epoch': 21.88}
+{'loss': 0.0425, 'grad_norm': 0.35856500267982483, 'learning_rate': 2.9381000000000002e-05, 'epoch': 21.88}
+{'loss': 0.0113, 'grad_norm': 0.23906317353248596, 'learning_rate': 2.9380666666666668e-05, 'epoch': 21.88}
+{'loss': 0.0099, 'grad_norm': 0.2855496108531952, 'learning_rate': 2.9380333333333334e-05, 'epoch': 21.89}
+{'loss': 0.0099, 'grad_norm': 0.5273758769035339, 'learning_rate': 2.938e-05, 'epoch': 21.89}
+{'loss': 0.0084, 'grad_norm': 0.2559138536453247, 'learning_rate': 2.9379666666666666e-05, 'epoch': 21.89}
+{'loss': 0.0111, 'grad_norm': 0.31710177659988403, 'learning_rate': 2.9379333333333335e-05, 'epoch': 21.89}
+{'loss': 0.0124, 'grad_norm': 0.32185274362564087, 'learning_rate': 2.9378999999999998e-05, 'epoch': 21.89}
+{'loss': 0.0072, 'grad_norm': 0.21019087731838226, 'learning_rate': 2.9378666666666667e-05, 'epoch': 21.9}
+{'loss': 0.0059, 'grad_norm': 0.25909486413002014, 'learning_rate': 2.9378333333333336e-05, 'epoch': 21.9}
+{'loss': 0.0408, 'grad_norm': 0.3391138017177582, 'learning_rate': 2.9378e-05, 'epoch': 21.9}
+{'loss': 0.0093, 'grad_norm': 0.4207199215888977, 'learning_rate': 2.9377666666666668e-05, 'epoch': 21.9}
+{'loss': 0.0103, 'grad_norm': 0.4389612078666687, 'learning_rate': 2.9377333333333334e-05, 'epoch': 21.9}
+{'loss': 0.0186, 'grad_norm': 0.4361323416233063, 'learning_rate': 2.9377e-05, 'epoch': 21.9}
+{'loss': 0.008, 'grad_norm': 0.2915911078453064, 'learning_rate': 2.9376666666666666e-05, 'epoch': 21.91}
+{'loss': 0.0159, 'grad_norm': 0.43618321418762207, 'learning_rate': 2.9376333333333335e-05, 'epoch': 21.91}
+{'loss': 0.0112, 'grad_norm': 0.2591547966003418, 'learning_rate': 2.9375999999999998e-05, 'epoch': 21.91}
+{'loss': 0.0045, 'grad_norm': 0.1294482797384262, 'learning_rate': 2.9375666666666667e-05, 'epoch': 21.91}
+{'loss': 0.0107, 'grad_norm': 0.23369941115379333, 'learning_rate': 2.9375333333333337e-05, 'epoch': 21.91}
+{'loss': 0.0092, 'grad_norm': 0.2956857979297638, 'learning_rate': 2.9375e-05, 'epoch': 21.92}
+{'loss': 0.0053, 'grad_norm': 0.21449799835681915, 'learning_rate': 2.937466666666667e-05, 'epoch': 21.92}
+{'loss': 0.0087, 'grad_norm': 0.2647559344768524, 'learning_rate': 2.9374333333333334e-05, 'epoch': 21.92}
+{'loss': 0.0032, 'grad_norm': 0.16165274381637573, 'learning_rate': 2.9374e-05, 'epoch': 21.92}
+{'loss': 0.0183, 'grad_norm': 0.5226666331291199, 'learning_rate': 2.9373666666666666e-05, 'epoch': 21.92}
+{'loss': 0.1625, 'grad_norm': 0.6835513114929199, 'learning_rate': 2.9373333333333336e-05, 'epoch': 21.93}
+{'loss': 0.1565, 'grad_norm': 0.7763351202011108, 'learning_rate': 2.9373e-05, 'epoch': 21.93}
+{'loss': 0.0685, 'grad_norm': 0.43676137924194336, 'learning_rate': 2.9372666666666667e-05, 'epoch': 21.93}
+{'loss': 0.0891, 'grad_norm': 0.47941815853118896, 'learning_rate': 2.9372333333333337e-05, 'epoch': 21.93}
+{'loss': 0.0809, 'grad_norm': 0.4046361744403839, 'learning_rate': 2.9372e-05, 'epoch': 21.93}
+{'loss': 0.0526, 'grad_norm': 0.39610689878463745, 'learning_rate': 2.937166666666667e-05, 'epoch': 21.93}
+{'loss': 0.0754, 'grad_norm': 0.6374268531799316, 'learning_rate': 2.9371333333333335e-05, 'epoch': 21.94}
+{'loss': 0.0746, 'grad_norm': 0.3975745439529419, 'learning_rate': 2.9371e-05, 'epoch': 21.94}
+{'loss': 0.0442, 'grad_norm': 0.5438203811645508, 'learning_rate': 2.9370666666666666e-05, 'epoch': 21.94}
+{'loss': 0.0496, 'grad_norm': 0.883966326713562, 'learning_rate': 2.9370333333333336e-05, 'epoch': 21.94}
+{'loss': 0.0282, 'grad_norm': 0.3531246781349182, 'learning_rate': 2.9370000000000002e-05, 'epoch': 21.94}
+{'loss': 0.0433, 'grad_norm': 0.2855888307094574, 'learning_rate': 2.9369666666666668e-05, 'epoch': 21.95}
+{'loss': 0.0136, 'grad_norm': 0.3364258110523224, 'learning_rate': 2.9369333333333334e-05, 'epoch': 21.95}
+{'loss': 0.0134, 'grad_norm': 0.1887637972831726, 'learning_rate': 2.9369e-05, 'epoch': 21.95}
+{'loss': 0.0344, 'grad_norm': 0.4127003252506256, 'learning_rate': 2.936866666666667e-05, 'epoch': 21.95}
+{'loss': 0.0133, 'grad_norm': 0.22459253668785095, 'learning_rate': 2.936833333333333e-05, 'epoch': 21.95}
+{'loss': 0.0099, 'grad_norm': 0.33327922224998474, 'learning_rate': 2.9368e-05, 'epoch': 21.95}
+{'loss': 0.0152, 'grad_norm': 0.26645731925964355, 'learning_rate': 2.9367666666666667e-05, 'epoch': 21.96}
+{'loss': 0.0189, 'grad_norm': 0.34843745827674866, 'learning_rate': 2.9367333333333333e-05, 'epoch': 21.96}
+{'loss': 0.0073, 'grad_norm': 0.26357918977737427, 'learning_rate': 2.9367000000000002e-05, 'epoch': 21.96}
+{'loss': 0.0131, 'grad_norm': 0.31214573979377747, 'learning_rate': 2.9366666666666668e-05, 'epoch': 21.96}
+{'loss': 0.0073, 'grad_norm': 0.2717858850955963, 'learning_rate': 2.9366333333333334e-05, 'epoch': 21.96}
+{'loss': 0.0041, 'grad_norm': 0.16268011927604675, 'learning_rate': 2.9366e-05, 'epoch': 21.97}
+{'loss': 0.0089, 'grad_norm': 0.23915761709213257, 'learning_rate': 2.936566666666667e-05, 'epoch': 21.97}
+{'loss': 0.0058, 'grad_norm': 0.1611839383840561, 'learning_rate': 2.936533333333333e-05, 'epoch': 21.97}
+{'loss': 0.0098, 'grad_norm': 0.6211763024330139, 'learning_rate': 2.9365e-05, 'epoch': 21.97}
+{'loss': 0.0118, 'grad_norm': 0.8325933814048767, 'learning_rate': 2.936466666666667e-05, 'epoch': 21.97}
+{'loss': 0.0048, 'grad_norm': 0.17792974412441254, 'learning_rate': 2.9364333333333333e-05, 'epoch': 21.98}
+{'loss': 0.0082, 'grad_norm': 0.17959211766719818, 'learning_rate': 2.9364000000000002e-05, 'epoch': 21.98}
+{'loss': 0.0053, 'grad_norm': 0.23362372815608978, 'learning_rate': 2.9363666666666668e-05, 'epoch': 21.98}
+{'loss': 0.0072, 'grad_norm': 0.39807364344596863, 'learning_rate': 2.9363333333333334e-05, 'epoch': 21.98}
+{'loss': 0.0095, 'grad_norm': 0.411865770816803, 'learning_rate': 2.9363e-05, 'epoch': 21.98}
+{'loss': 0.0128, 'grad_norm': 0.41350361704826355, 'learning_rate': 2.936266666666667e-05, 'epoch': 21.98}
+{'loss': 0.0054, 'grad_norm': 0.24316683411598206, 'learning_rate': 2.9362333333333332e-05, 'epoch': 21.99}
+{'loss': 0.0042, 'grad_norm': 0.21313484013080597, 'learning_rate': 2.9362e-05, 'epoch': 21.99}
+{'loss': 0.0046, 'grad_norm': 0.11858999729156494, 'learning_rate': 2.936166666666667e-05, 'epoch': 21.99}
+{'loss': 0.004, 'grad_norm': 0.13938215374946594, 'learning_rate': 2.9361333333333333e-05, 'epoch': 21.99}
+{'loss': 0.0073, 'grad_norm': 0.23660410940647125, 'learning_rate': 2.9361000000000002e-05, 'epoch': 21.99}
+{'loss': 0.0094, 'grad_norm': 0.29818493127822876, 'learning_rate': 2.9360666666666668e-05, 'epoch': 22.0}
+{'loss': 0.006, 'grad_norm': 0.2225433886051178, 'learning_rate': 2.9360333333333334e-05, 'epoch': 22.0}
+{'loss': 0.0093, 'grad_norm': 0.5248429775238037, 'learning_rate': 2.936e-05, 'epoch': 22.0}
+{'loss': 0.0058, 'grad_norm': 0.4427490532398224, 'learning_rate': 2.9359666666666666e-05, 'epoch': 22.0}
+ 12%|█▏        | 11925/100000 [6:31:01<148:37:31,  6.07s/it]                                                             12%|█▏        | 11925/100000 [6:31:01<148:37:31,  6.07s/it] 12%|█▏        | 11926/100000 [6:31:06<141:54:20,  5.80s/it]                                                             12%|█▏        | 11926/100000 [6:31:06<141:54:20,  5.80s/it] 12%|█▏        | 11927/100000 [6:31:10<128:25:41,  5.25s/it]                                                             12%|█▏        | 11927/100000 [6:31:10<128:25:41,  5.25s/it] 12%|█▏        | 11928/100000 [6:31:14<116:58:35,  4.78s/it]                                                             12%|█▏        | 11928/100000 [6:31:14<116:58:35,  4.78s/it] 12%|█▏        | 11929/100000 [6:31:17<108:04:32,  4.42s/it]                                                             12%|█▏        | 11929/100000 [6:31:17<108:04:32,  4.42s/it] 12%|█▏        | 11930/100000 [6:31:20<99:44:01,  4.08s/it]                                                             12%|█▏        | 11930/100000 [6:31:20<99:44:01,  4.08s/it] 12%|█▏        | 11931/100000 [6:31:23<92:00:10,  3.76s/it]                                                            12%|█▏        | 11931/100000 [6:31:23<92:00:10,  3.76s/it] 12%|█▏        | 11932/100000 [6:31:26<84:35:43,  3.46s/it]                                                            12%|█▏        | 11932/100000 [6:31:26<84:35:43,  3.46s/it] 12%|█▏        | 11933/100000 [6:31:29<77:40:24,  3.18s/it]                                                            12%|█▏        | 11933/100000 [6:31:29<77:40:24,  3.18s/it] 12%|█▏        | 11934/100000 [6:31:31<70:33:41,  2.88s/it]                                                            12%|█▏        | 11934/100000 [6:31:31<70:33:41,  2.88s/it] 12%|█▏        | 11935/100000 [6:31:33<65:00:09,  2.66s/it]                                                            12%|█▏        | 11935/100000 [6:31:33<65:00:09,  2.66s/it] 12%|█▏        | 11936/100000 [6:31:35<60:10:23,  2.46s/it]                                                            12%|█▏        | 11936/100000 [6:31:35<60:10:23,  2.46s/it] 12%|█▏        | 11937/100000 [6:31:37<56:14:12,  2.30s/it]                                                            12%|█▏        | 11937/100000 [6:31:37<56:14:12,  2.30s/it] 12%|█▏        | 11938/100000 [6:31:39<52:33:02,  2.15s/it]                                                            12%|█▏        | 11938/100000 [6:31:39<52:33:02,  2.15s/it] 12%|█▏        | 11939/100000 [6:31:40<49:25:50,  2.02s/it]                                                            12%|█▏        | 11939/100000 [6:31:40<49:25:50,  2.02s/it] 12%|█▏        | 11940/100000 [6:31:42<46:23:07,  1.90s/it]                                                            12%|█▏        | 11940/100000 [6:31:42<46:23:07,  1.90s/it] 12%|█▏        | 11941/100000 [6:31:44<43:55:32,  1.80s/it]                                                            12%|█▏        | 11941/100000 [6:31:44<43:55:32,  1.80s/it] 12%|█▏        | 11942/100000 [6:31:45<42:18:19,  1.73s/it]                                                            12%|█▏        | 11942/100000 [6:31:45<42:18:19,  1.73s/it] 12%|█▏        | 11943/100000 [6:31:47<40:36:37,  1.66s/it]                                                            12%|█▏        | 11943/100000 [6:31:47<40:36:37,  1.66s/it] 12%|█▏        | 11944/100000 [6:31:48<39:11:02,  1.60s/it]                                                            12%|█▏        | 11944/100000 [6:31:48<39:11:02,  1.60s/it] 12%|█▏        | 11945/100000 [6:31:50<37:52:25,  1.55s/it]                                                            12%|█▏        | 11945/100000 [6:31:50<37:52:25,  1.55s/it] 12%|█▏        | 11946/100000 [6:31:51<36:39:00,  1.50s/it]                                                            12%|█▏        | 11946/100000 [6:31:51<36:39:00,  1.50s/it] 12%|█▏        | 11947/100000 [6:31:52<35:25:53,  1.45s/it]                                                            12%|█▏        | 11947/100000 [6:31:52<35:25:53,  1.45s/it] 12%|█▏        | 11948/100000 [6:31:54<34:48:22,  1.42s/it]                                                            12%|█▏        | 11948/100000 [6:31:54<34:48:22,  1.42s/it] 12%|█▏        | 11949/100000 [6:31:55<34:21:16,  1.40s/it]                                                            12%|█▏        | 11949/100000 [6:31:55<34:21:16,  1.40s/it] 12%|█▏        | 11950/100000 [6:31:56<33:54:13,  1.39s/it]                                                            12%|█▏        | 11950/100000 [6:31:56<33:54:13,  1.39s/it] 12%|█▏        | 11951/100000 [6:31:58<33:10:55,  1.36s/it]                                                            12%|█▏        | 11951/100000 [6:31:58<33:10:55,  1.36s/it] 12%|█▏        | 11952/100000 [6:31:59<32:48:04,  1.34s/it]                                                            12%|█▏        | 11952/100000 [6:31:59<32:48:04,  1.34s/it] 12%|█▏        | 11953/100000 [6:32:00<32:11:26,  1.32s/it]                                                            12%|█▏        | 11953/100000 [6:32:00<32:11:26,  1.32s/it] 12%|█▏        | 11954/100000 [6:32:01<31:52:06,  1.30s/it]                                                            12%|█▏        | 11954/100000 [6:32:01<31:52:06,  1.30s/it] 12%|█▏        | 11955/100000 [6:32:03<31:28:43,  1.29s/it]                                                            12%|█▏        | 11955/100000 [6:32:03<31:28:43,  1.29s/it] 12%|█▏        | 11956/100000 [6:32:04<30:57:03,  1.27s/it]                                                            12%|█▏        | 11956/100000 [6:32:04<30:57:03,  1.27s/it] 12%|█▏        | 11957/100000 [6:32:05<30:37:49,  1.25s/it]                                                            12%|█▏        | 11957/100000 [6:32:05<30:37:49,  1.25s/it] 12%|█▏        | 11958/100000 [6:32:06<30:17:44,  1.24s/it]                                                            12%|█▏        | 11958/100000 [6:32:06<30:17:44,  1.24s/it] 12%|█▏        | 11959/100000 [6:32:08<29:47:24,  1.22s/it]                                                            12%|█▏        | 11959/100000 [6:32:08<29:47:24,  1.22s/it] 12%|█▏        | 11960/100000 [6:32:09<29:19:21,  1.20s/it]                                                            12%|█▏        | 11960/100000 [6:32:09<29:19:21,  1.20s/it] 12%|█▏        | 11961/100000 [6:32:10<28:56:05,  1.18s/it]                                                            12%|█▏        | 11961/100000 [6:32:10<28:56:05,  1.18s/it] 12%|█▏        | 11962/100000 [6:32:11<28:33:10,  1.17s/it]                                                            12%|█▏        | 11962/100000 [6:32:11<28:33:10,  1.17s/it] 12%|█▏        | 11963/100000 [6:32:12<27:58:22,  1.14s/it]                                                            12%|█▏        | 11963/100000 [6:32:12<27:58:22,  1.14s/it] 12%|█▏        | 11964/100000 [6:32:13<27:36:42,  1.13s/it]                                                            12%|█▏        | 11964/100000 [6:32:13<27:36:42,  1.13s/it] 12%|█▏        | 11965/100000 [6:32:14<27:28:38,  1.12s/it]                                                            12%|█▏        | 11965/100000 [6:32:14<27:28:38,  1.12s/it] 12%|█▏        | 11966/100000 [6:32:15<27:02:46,  1.11s/it]                                                            12%|█▏        | 11966/100000 [6:32:15<27:02:46,  1.11s/it] 12%|█▏        | 11967/100000 [6:32:16<26:42:05,  1.09s/it]                                                            12%|█▏        | 11967/100000 [6:32:16<26:42:05,  1.09s/it] 12%|█▏        | 11968/100000 [6:32:17<26:20:26,  1.08s/it]                                                            12%|█▏        | 11968/100000 [6:32:17<26:20:26,  1.08s/it] 12%|█▏        | 11969/100000 [6:32:18<26:01:43,  1.06s/it]                                                            12%|█▏        | 11969/100000 [6:32:18<26:01:43,  1.06s/it] 12%|█▏        | 11970/100000 [6:32:19<25:33:13,  1.05s/it]                                                            12%|█▏        | 11970/100000 [6:32:19<25:33:13,  1.05s/it] 12%|█▏        | 11971/100000 [6:32:20<24:59:58,  1.02s/it]                                                            12%|█▏        | 11971/100000 [6:32:20<24:59:58,  1.02s/it] 12%|█▏        | 11972/100000 [6:32:21<24:37:10,  1.01s/it]                                                            12%|█▏        | 11972/100000 [6:32:21<24:37:10,  1.01s/it] 12%|█▏        | 11973/100000 [6:32:22<24:15:38,  1.01it/s]                                                            12%|█▏        | 11973/100000 [6:32:22<24:15:38,  1.01it/s] 12%|█▏        | 11974/100000 [6:32:23<23:43:47,  1.03it/s]                                                            12%|█▏        | 11974/100000 [6:32:23<23:43:47,  1.03it/s] 12%|█▏        | 11975/100000 [6:32:36<108:16:25,  4.43s/it]                                                             12%|█▏        | 11975/100000 [6:32:36<108:16:25,  4.43s/it] 12%|█▏        | 11976/100000 [6:32:41<115:59:28,  4.74s/it]                                                             12%|█▏        | 11976/100000 [6:32:41<115:59:28,  4.74s/it] 12%|█▏        | 11977/100000 [6:32:46<115:23:10,  4.72s/it]                                                             12%|█▏        | 11977/100000 [6:32:46<115:23:10,  4.72s/it] 12%|█▏        | 11978/100000 [6:32:50<110:25:29,  4.52s/it]                                                             12%|█▏        | 11978/100000 [6:32:50<110:25:29,  4.52s/it] 12%|█▏        | 11979/100000 [6:32:53<102:36:20,  4.20s/it]                                                             12%|█▏        | 11979/100000 [6:32:53<102:36:20,  4.20s/it] 12%|█▏        | 11980/100000 [6:32:57<96:30:01,  3.95s/it]                                                             12%|█▏        | 11980/100000 [6:32:57<96:30:01,  3.95s/it] 12%|█▏        | 11981/100000 [6:33:00<90:19:35,  3.69s/it]                                                            12%|█▏        | 11981/100000 [6:33:00<90:19:35,  3.69s/it] 12%|█▏        | 11982/100000 [6:33:03<84:19:16,  3.45s/it]                                                            12%|█▏        | 11982/100000 [6:33:03<84:19:16,  3.45s/it] 12%|█▏        | 11983/100000 [6:33:05<77:22:32,  3.16s/it]                                                            12%|█▏        | 11983/100000 [6:33:05<77:22:32,  3.16s/it] 12%|█▏        | 11984/100000 [6:33:08<71:42:05,  2.93s/it]                                                            12%|█▏        | 11984/100000 [6:33:08<71:42:05,  2.93s/it] 12%|█▏        | 11985/100000 [6:33:10<66:30:04,  2.72s/it]                                                            12%|█▏        | 11985/100000 [6:33:10<66:30:04,  2.72s/it] 12%|█▏        | 11986/100000 [6:33:12<61:46:21,  2.53s/it]                                                            12%|█▏        | 11986/100000 [6:33:12<61:46:21,  2.53s/it] 12%|█▏        | 11987/100000 [6:33:14<57:55:51,  2.37s/it]                                                            12%|█▏        | 11987/100000 [6:33:14<57:55:51,  2.37s/it] 12%|█▏        | 11988/100000 [6:33:16<54:06:57,  2.21s/it]                                                            12%|█▏        | 11988/100000 [6:33:16<54:06:57,  2.21s/it] 12%|█▏        | 11989/100000 [6:33:18<50:30:48,  2.07s/it]                                                            12%|█▏        | 11989/100000 [6:33:18<50:30:48,  2.07s/it] 12%|█▏        | 11990/100000 [6:33:19<47:50:19,  1.96s/it]                                                            12%|█▏        | 11990/100000 [6:33:19<47:50:19,  1.96s/it] 12%|█▏        | 11991/100000 [6:33:21<45:07:35,  1.85s/it]                                                            12%|█▏        | 11991/100000 [6:33:21<45:07:35,  1.85s/it] 12%|█▏        | 11992/100000 [6:33:22<43:25:48,  1.78s/it]                                                            12%|█▏        | 11992/100000 [6:33:22<43:25:48,  1.78s/it] 12%|█▏        | 11993/100000 [6:33:24<41:35:08,  1.70s/it]                                                            12%|█▏        | 11993/100000 [6:33:24<41:35:08,  1.70s/it] 12%|█▏        | 11994/100000 [6:33:25<40:14:03,  1.65s/it]                                                            12%|█▏        | 11994/100000 [6:33:25<40:14:03,  1.65s/it] 12%|█▏        | 11995/100000 [6:33:27<38:58:54,  1.59s/it]                                                            12%|█▏        | 11995/100000 [6:33:27<38:58:54,  1.59s/it] 12%|█▏        | 11996/100000 [6:33:28<37:54:06,  1.55s/it]                                                            12%|█▏        | 11996/100000 [6:33:28<37:54:06,  1.55s/it] 12%|█▏        | 11997/100000 [6:33:30<36:39:05,  1.50s/it]                                                            12%|█▏        | 11997/100000 [6:33:30<36:39:05,  1.50s/it] 12%|█▏        | 11998/100000 [6:33:31<35:59:44,  1.47s/it]                                                            12%|█▏        | 11998/100000 [6:33:31<35:59:44,  1.47s/it] 12%|█▏        | 11999/100000 [6:33:33<35:22:08,  1.45s/it]                                                            12%|█▏        | 11999/100000 [6:33:33<35:22:08,  1.45s/it] 12%|█▏        | 12000/100000 [6:33:34<34:21:04,  1.41s/it]                                                            12%|█▏        | 12000/100000 [6:33:34<34:21:04,  1.41s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.2321, 'grad_norm': 0.8038821220397949, 'learning_rate': 2.9359333333333332e-05, 'epoch': 22.0}
+{'loss': 0.1044, 'grad_norm': 0.7266762256622314, 'learning_rate': 2.9359e-05, 'epoch': 22.0}
+{'loss': 0.1741, 'grad_norm': 0.5080312490463257, 'learning_rate': 2.9358666666666667e-05, 'epoch': 22.01}
+{'loss': 0.091, 'grad_norm': 0.4087110459804535, 'learning_rate': 2.9358333333333333e-05, 'epoch': 22.01}
+{'loss': 0.0538, 'grad_norm': 0.4159901440143585, 'learning_rate': 2.9358000000000003e-05, 'epoch': 22.01}
+{'loss': 0.0617, 'grad_norm': 0.429823637008667, 'learning_rate': 2.9357666666666665e-05, 'epoch': 22.01}
+{'loss': 0.0551, 'grad_norm': 0.3844093084335327, 'learning_rate': 2.9357333333333334e-05, 'epoch': 22.01}
+{'loss': 0.0541, 'grad_norm': 0.34892767667770386, 'learning_rate': 2.9357e-05, 'epoch': 22.01}
+{'loss': 0.048, 'grad_norm': 0.383372962474823, 'learning_rate': 2.9356666666666666e-05, 'epoch': 22.02}
+{'loss': 0.0946, 'grad_norm': 0.45354166626930237, 'learning_rate': 2.9356333333333336e-05, 'epoch': 22.02}
+{'loss': 0.0244, 'grad_norm': 0.3834838569164276, 'learning_rate': 2.9356e-05, 'epoch': 22.02}
+{'loss': 0.0156, 'grad_norm': 0.2780103385448456, 'learning_rate': 2.9355666666666667e-05, 'epoch': 22.02}
+{'loss': 0.0245, 'grad_norm': 0.29520273208618164, 'learning_rate': 2.9355333333333333e-05, 'epoch': 22.02}
+{'loss': 0.0202, 'grad_norm': 0.4779583215713501, 'learning_rate': 2.9355000000000003e-05, 'epoch': 22.03}
+{'loss': 0.01, 'grad_norm': 0.22411291301250458, 'learning_rate': 2.9354666666666665e-05, 'epoch': 22.03}
+{'loss': 0.0118, 'grad_norm': 0.5006150007247925, 'learning_rate': 2.9354333333333335e-05, 'epoch': 22.03}
+{'loss': 0.0134, 'grad_norm': 0.6376142501831055, 'learning_rate': 2.9354e-05, 'epoch': 22.03}
+{'loss': 0.0117, 'grad_norm': 0.2224431335926056, 'learning_rate': 2.9353666666666666e-05, 'epoch': 22.03}
+{'loss': 0.0058, 'grad_norm': 0.24049821496009827, 'learning_rate': 2.9353333333333336e-05, 'epoch': 22.04}
+{'loss': 0.0123, 'grad_norm': 0.6087546348571777, 'learning_rate': 2.9353000000000002e-05, 'epoch': 22.04}
+{'loss': 0.0105, 'grad_norm': 0.3148014545440674, 'learning_rate': 2.9352666666666668e-05, 'epoch': 22.04}
+{'loss': 0.017, 'grad_norm': 0.3352877199649811, 'learning_rate': 2.9352333333333334e-05, 'epoch': 22.04}
+{'loss': 0.0046, 'grad_norm': 0.1324327439069748, 'learning_rate': 2.9352000000000003e-05, 'epoch': 22.04}
+{'loss': 0.0093, 'grad_norm': 0.40338218212127686, 'learning_rate': 2.9351666666666665e-05, 'epoch': 22.04}
+{'loss': 0.0119, 'grad_norm': 0.32593637704849243, 'learning_rate': 2.9351333333333335e-05, 'epoch': 22.05}
+{'loss': 0.0031, 'grad_norm': 0.0924089178442955, 'learning_rate': 2.9351e-05, 'epoch': 22.05}
+{'loss': 0.0126, 'grad_norm': 0.3839172124862671, 'learning_rate': 2.9350666666666667e-05, 'epoch': 22.05}
+{'loss': 0.004, 'grad_norm': 0.1773180216550827, 'learning_rate': 2.9350333333333336e-05, 'epoch': 22.05}
+{'loss': 0.0068, 'grad_norm': 0.23860660195350647, 'learning_rate': 2.9350000000000002e-05, 'epoch': 22.05}
+{'loss': 0.0615, 'grad_norm': 0.3832785487174988, 'learning_rate': 2.9349666666666668e-05, 'epoch': 22.06}
+{'loss': 0.0121, 'grad_norm': 1.8486205339431763, 'learning_rate': 2.9349333333333334e-05, 'epoch': 22.06}
+{'loss': 0.0065, 'grad_norm': 0.26004332304000854, 'learning_rate': 2.9349e-05, 'epoch': 22.06}
+{'loss': 0.0068, 'grad_norm': 0.35053035616874695, 'learning_rate': 2.9348666666666666e-05, 'epoch': 22.06}
+{'loss': 0.006, 'grad_norm': 0.14764510095119476, 'learning_rate': 2.9348333333333335e-05, 'epoch': 22.06}
+{'loss': 0.0076, 'grad_norm': 0.3242139220237732, 'learning_rate': 2.9348e-05, 'epoch': 22.06}
+{'loss': 0.0058, 'grad_norm': 0.2089972198009491, 'learning_rate': 2.9347666666666667e-05, 'epoch': 22.07}
+{'loss': 0.009, 'grad_norm': 0.7421181797981262, 'learning_rate': 2.9347333333333336e-05, 'epoch': 22.07}
+{'loss': 0.0026, 'grad_norm': 0.11591432243585587, 'learning_rate': 2.9347e-05, 'epoch': 22.07}
+{'loss': 0.0148, 'grad_norm': 0.4323197901248932, 'learning_rate': 2.9346666666666668e-05, 'epoch': 22.07}
+{'loss': 0.0121, 'grad_norm': 0.3520541489124298, 'learning_rate': 2.9346333333333334e-05, 'epoch': 22.07}
+{'loss': 0.0059, 'grad_norm': 0.3193742334842682, 'learning_rate': 2.9346e-05, 'epoch': 22.08}
+{'loss': 0.0057, 'grad_norm': 0.21015574038028717, 'learning_rate': 2.9345666666666666e-05, 'epoch': 22.08}
+{'loss': 0.0139, 'grad_norm': 1.1927063465118408, 'learning_rate': 2.9345333333333335e-05, 'epoch': 22.08}
+{'loss': 0.0066, 'grad_norm': 0.2794034481048584, 'learning_rate': 2.9345e-05, 'epoch': 22.08}
+{'loss': 0.0024, 'grad_norm': 0.16369950771331787, 'learning_rate': 2.9344666666666667e-05, 'epoch': 22.08}
+{'loss': 0.0132, 'grad_norm': 0.6939327716827393, 'learning_rate': 2.9344333333333336e-05, 'epoch': 22.08}
+{'loss': 0.0091, 'grad_norm': 0.5204373002052307, 'learning_rate': 2.9344e-05, 'epoch': 22.09}
+{'loss': 0.0167, 'grad_norm': 0.6986927390098572, 'learning_rate': 2.9343666666666668e-05, 'epoch': 22.09}
+{'loss': 0.0136, 'grad_norm': 0.2969571053981781, 'learning_rate': 2.9343333333333334e-05, 'epoch': 22.09}
+{'loss': 0.0067, 'grad_norm': 0.49085596203804016, 'learning_rate': 2.9343e-05, 'epoch': 22.09}
+{'loss': 0.1319, 'grad_norm': 0.610810399055481, 'learning_rate': 2.9342666666666666e-05, 'epoch': 22.09}
+{'loss': 0.1277, 'grad_norm': 0.5385555028915405, 'learning_rate': 2.9342333333333335e-05, 'epoch': 22.1}
+{'loss': 0.0807, 'grad_norm': 0.4245043098926544, 'learning_rate': 2.9342e-05, 'epoch': 22.1}
+{'loss': 0.0656, 'grad_norm': 0.5050533413887024, 'learning_rate': 2.9341666666666667e-05, 'epoch': 22.1}
+{'loss': 0.0574, 'grad_norm': 0.5482106804847717, 'learning_rate': 2.9341333333333337e-05, 'epoch': 22.1}
+{'loss': 0.0619, 'grad_norm': 0.4365978538990021, 'learning_rate': 2.9341e-05, 'epoch': 22.1}
+{'loss': 0.0534, 'grad_norm': 0.4204999506473541, 'learning_rate': 2.934066666666667e-05, 'epoch': 22.11}
+{'loss': 0.0629, 'grad_norm': 0.44639596343040466, 'learning_rate': 2.9340333333333334e-05, 'epoch': 22.11}
+{'loss': 0.0423, 'grad_norm': 0.37912020087242126, 'learning_rate': 2.934e-05, 'epoch': 22.11}
+{'loss': 0.0384, 'grad_norm': 0.4707135260105133, 'learning_rate': 2.933966666666667e-05, 'epoch': 22.11}
+{'loss': 0.0268, 'grad_norm': 0.3049370348453522, 'learning_rate': 2.9339333333333332e-05, 'epoch': 22.11}
+{'loss': 0.0265, 'grad_norm': 0.5002748370170593, 'learning_rate': 2.9339e-05, 'epoch': 22.11}
+{'loss': 0.0373, 'grad_norm': 0.2719067633152008, 'learning_rate': 2.9338666666666667e-05, 'epoch': 22.12}
+{'loss': 0.034, 'grad_norm': 0.4024271070957184, 'learning_rate': 2.9338333333333333e-05, 'epoch': 22.12}
+{'loss': 0.0112, 'grad_norm': 0.7035671472549438, 'learning_rate': 2.9338e-05, 'epoch': 22.12}
+{'loss': 0.0209, 'grad_norm': 0.9298180937767029, 'learning_rate': 2.933766666666667e-05, 'epoch': 22.12}
+{'loss': 0.0384, 'grad_norm': 0.27738744020462036, 'learning_rate': 2.933733333333333e-05, 'epoch': 22.12}
+{'loss': 0.016, 'grad_norm': 0.554492712020874, 'learning_rate': 2.9337e-05, 'epoch': 22.13}
+{'loss': 0.0064, 'grad_norm': 0.19704753160476685, 'learning_rate': 2.933666666666667e-05, 'epoch': 22.13}
+{'loss': 0.0455, 'grad_norm': 0.24221715331077576, 'learning_rate': 2.9336333333333332e-05, 'epoch': 22.13}
+{'loss': 0.0084, 'grad_norm': 0.25139182806015015, 'learning_rate': 2.9336000000000002e-05, 'epoch': 22.13}
+{'loss': 0.0073, 'grad_norm': 0.18211950361728668, 'learning_rate': 2.9335666666666668e-05, 'epoch': 22.13}
+{'loss': 0.0063, 'grad_norm': 0.2991064786911011, 'learning_rate': 2.9335333333333334e-05, 'epoch': 22.13}
+{'loss': 0.0088, 'grad_norm': 0.1840602308511734, 'learning_rate': 2.9335e-05, 'epoch': 22.14}
+{'loss': 0.005, 'grad_norm': 0.25436100363731384, 'learning_rate': 2.933466666666667e-05, 'epoch': 22.14}
+{'loss': 0.0057, 'grad_norm': 0.16578309237957, 'learning_rate': 2.933433333333333e-05, 'epoch': 22.14}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.78it/s][A
+ 30%|███       | 3/10 [00:02<00:06,  1.14it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.38it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.16s/it][A
+ 60%|██████    | 6/10 [00:05<00:03,  1.08it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.10s/it][A
+ 80%|████████  | 8/10 [00:07<00:01,  1.06it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.17s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.06it/s][A                                                           
+                                               [A 12%|█▏        | 12000/100000 [6:34:07<34:21:04,  1.41s/it]
+100%|██████████| 10/10 [00:10<00:00,  1.06it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-12000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-12000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-12000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-12000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-12000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-12000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-12000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-11000] due to args.save_total_limit
+ 12%|█▏        | 12001/100000 [6:34:21<371:25:06, 15.19s/it]                                                             12%|█▏        | 12001/100000 [6:34:21<371:25:06, 15.19s/it] 12%|█▏        | 12002/100000 [6:34:23<269:37:36, 11.03s/it]                                                             12%|█▏        | 12002/100000 [6:34:23<269:37:36, 11.03s/it] 12%|█▏        | 12003/100000 [6:34:24<198:17:04,  8.11s/it]                                                             12%|█▏        | 12003/100000 [6:34:24<198:17:04,  8.11s/it] 12%|█▏        | 12004/100000 [6:34:25<148:00:43,  6.06s/it]                                                             12%|█▏        | 12004/100000 [6:34:25<148:00:43,  6.06s/it] 12%|█▏        | 12005/100000 [6:34:26<112:49:55,  4.62s/it]                                                             12%|█▏        | 12005/100000 [6:34:26<112:49:55,  4.62s/it] 12%|█▏        | 12006/100000 [6:34:28<87:52:06,  3.59s/it]                                                             12%|█▏        | 12006/100000 [6:34:28<87:52:06,  3.59s/it] 12%|█▏        | 12007/100000 [6:34:29<70:35:27,  2.89s/it]                                                            12%|█▏        | 12007/100000 [6:34:29<70:35:27,  2.89s/it] 12%|█▏        | 12008/100000 [6:34:30<58:17:17,  2.38s/it]                                                            12%|█▏        | 12008/100000 [6:34:30<58:17:17,  2.38s/it] 12%|█▏        | 12009/100000 [6:34:31<49:18:24,  2.02s/it]                                                            12%|█▏        | 12009/100000 [6:34:31<49:18:24,  2.02s/it] 12%|█▏        | 12010/100000 [6:34:32<43:01:11,  1.76s/it]                                                            12%|█▏        | 12010/100000 [6:34:32<43:01:11,  1.76s/it] 12%|█▏        | 12011/100000 [6:34:34<38:32:39,  1.58s/it]                                                            12%|█▏        | 12011/100000 [6:34:34<38:32:39,  1.58s/it] 12%|█▏        | 12012/100000 [6:34:35<35:24:05,  1.45s/it]                                                            12%|█▏        | 12012/100000 [6:34:35<35:24:05,  1.45s/it] 12%|█▏        | 12013/100000 [6:34:36<32:44:20,  1.34s/it]                                                            12%|█▏        | 12013/100000 [6:34:36<32:44:20,  1.34s/it] 12%|█▏        | 12014/100000 [6:34:37<30:46:40,  1.26s/it]                                                            12%|█▏        | 12014/100000 [6:34:37<30:46:40,  1.26s/it] 12%|█▏        | 12015/100000 [6:34:38<29:13:51,  1.20s/it]                                                            12%|█▏        | 12015/100000 [6:34:38<29:13:51,  1.20s/it] 12%|█▏        | 12016/100000 [6:34:39<28:16:16,  1.16s/it]                                                            12%|█▏        | 12016/100000 [6:34:39<28:16:16,  1.16s/it] 12%|█▏        | 12017/100000 [6:34:40<27:58:56,  1.14s/it]                                                            12%|█▏        | 12017/100000 [6:34:40<27:58:56,  1.14s/it] 12%|█▏        | 12018/100000 [6:34:41<27:06:13,  1.11s/it]                                                            12%|█▏        | 12018/100000 [6:34:41<27:06:13,  1.11s/it] 12%|█▏        | 12019/100000 [6:34:42<26:54:48,  1.10s/it]                                                            12%|█▏        | 12019/100000 [6:34:42<26:54:48,  1.10s/it] 12%|█▏        | 12020/100000 [6:34:43<26:12:07,  1.07s/it]                                                            12%|█▏        | 12020/100000 [6:34:43<26:12:07,  1.07s/it] 12%|█▏        | 12021/100000 [6:34:44<25:51:21,  1.06s/it]                                                            12%|█▏        | 12021/100000 [6:34:44<25:51:21,  1.06s/it] 12%|█▏        | 12022/100000 [6:34:45<25:11:05,  1.03s/it]                                                            12%|█▏        | 12022/100000 [6:34:45<25:11:05,  1.03s/it] 12%|█▏        | 12023/100000 [6:34:46<24:36:05,  1.01s/it]                                                            12%|█▏        | 12023/100000 [6:34:46<24:36:05,  1.01s/it] 12%|█▏        | 12024/100000 [6:34:47<23:36:26,  1.04it/s]                                                            12%|█▏        | 12024/100000 [6:34:47<23:36:26,  1.04it/s] 12%|█▏        | 12025/100000 [6:34:59<103:13:24,  4.22s/it]                                                             12%|█▏        | 12025/100000 [6:34:59<103:13:24,  4.22s/it] 12%|█▏        | 12026/100000 [6:35:05<114:11:24,  4.67s/it]                                                             12%|█▏        | 12026/100000 [6:35:05<114:11:24,  4.67s/it] 12%|█▏        | 12027/100000 [6:35:09<112:33:23,  4.61s/it]                                                             12%|█▏        | 12027/100000 [6:35:09<112:33:23,  4.61s/it] 12%|█▏        | 12028/100000 [6:35:13<108:50:18,  4.45s/it]                                                             12%|█▏        | 12028/100000 [6:35:13<108:50:18,  4.45s/it] 12%|█▏        | 12029/100000 [6:35:17<103:23:08,  4.23s/it]                                                             12%|█▏        | 12029/100000 [6:35:17<103:23:08,  4.23s/it] 12%|█▏        | 12030/100000 [6:35:20<96:23:09,  3.94s/it]                                                             12%|█▏        | 12030/100000 [6:35:20<96:23:09,  3.94s/it] 12%|█▏        | 12031/100000 [6:35:23<90:16:41,  3.69s/it]                                                            12%|█▏        | 12031/100000 [6:35:23<90:16:41,  3.69s/it] 12%|█▏        | 12032/100000 [6:35:26<83:41:39,  3.43s/it]                                                            12%|█▏        | 12032/100000 [6:35:26<83:41:39,  3.43s/it] 12%|█▏        | 12033/100000 [6:35:28<76:57:43,  3.15s/it]                                                            12%|█▏        | 12033/100000 [6:35:28<76:57:43,  3.15s/it] 12%|█▏        | 12034/100000 [6:35:31<70:56:07,  2.90s/it]                                                            12%|█▏        | 12034/100000 [6:35:31<70:56:07,  2.90s/it] 12%|█▏        | 12035/100000 [6:35:33<65:57:23,  2.70s/it]                                                            12%|█▏        | 12035/100000 [6:35:33<65:57:23,  2.70s/it] 12%|█▏        | 12036/100000 [6:35:35<60:50:03,  2.49s/it]                                                            12%|█▏        | 12036/100000 [6:35:35<60:50:03,  2.49s/it] 12%|█▏        | 12037/100000 [6:35:37<56:48:59,  2.33s/it]                                                            12%|█▏        | 12037/100000 [6:35:37<56:48:59,  2.33s/it] 12%|█▏        | 12038/100000 [6:35:39<52:13:19,  2.14s/it]                                                            12%|█▏        | 12038/100000 [6:35:39<52:13:19,  2.14s/it] 12%|█▏        | 12039/100000 [6:35:40<49:15:44,  2.02s/it]                                                            12%|█▏        | 12039/100000 [6:35:40<49:15:44,  2.02s/it] 12%|█▏        | 12040/100000 [6:35:42<46:34:06,  1.91s/it]                                                            12%|█▏        | 12040/100000 [6:35:42<46:34:06,  1.91s/it] 12%|█▏        | 12041/100000 [6:35:44<44:23:41,  1.82s/it]                                                            12%|█▏        | 12041/100000 [6:35:44<44:23:41,  1.82s/it] 12%|█▏        | 12042/100000 [6:35:45<42:02:18,  1.72s/it]                                                            12%|█▏        | 12042/100000 [6:35:45<42:02:18,  1.72s/it] 12%|█▏        | 12043/100000 [6:35:47<40:19:16,  1.65s/it]                                                            12%|█▏        | 12043/100000 [6:35:47<40:19:16,  1.65s/it] 12%|█▏        | 12044/100000 [6:35:48<39:00:16,  1.60s/it]                                                            12%|█▏        | 12044/100000 [6:35:48<39:00:16,  1.60s/it] 12%|█▏        | 12045/100000 [6:35:50<37:52:58,  1.55s/it]                                                            12%|█▏        | 12045/100000 [6:35:50<37:52:58,  1.55s/it] 12%|█▏        | 12046/100000 [6:35:51<36:23:37,  1.49s/it]                                                            12%|█▏        | 12046/100000 [6:35:51<36:23:37,  1.49s/it] 12%|█▏        | 12047/100000 [6:35:52<35:50:41,  1.47s/it]                                                            12%|█▏        | 12047/100000 [6:35:52<35:50:41,  1.47s/it] 12%|█▏        | 12048/100000 [6:35:54<35:10:45,  1.44s/it]                                                            12%|█▏        | 12048/100000 [6:35:54<35:10:45,  1.44s/it] 12%|█▏        | 12049/100000 [6:35:55<34:22:04,  1.41s/it]                                                            12%|█▏        | 12049/100000 [6:35:55<34:22:04,  1.41s/it] 12%|█▏        | 12050/100000 [6:35:56<33:52:34,  1.39s/it]                                                            12%|█▏        | 12050/100000 [6:35:56<33:52:34,  1.39s/it] 12%|█▏        | 12051/100000 [6:35:58<33:11:20,  1.36s/it]                                                            12%|█▏        | 12051/100000 [6:35:58<33:11:20,  1.36s/it] 12%|█▏        | 12052/100000 [6:35:59<32:42:20,  1.34s/it]                                                            12%|█▏        | 12052/100000 [6:35:59<32:42:20,  1.34s/it] 12%|█▏        | 12053/100000 [6:36:00<31:48:58,  1.30s/it]                                                            12%|█▏        | 12053/100000 [6:36:00<31:48:58,  1.30s/it] 12%|█▏        | 12054/100000 [6:36:01<31:33:37,  1.29s/it]                                                            12%|█▏        | 12054/100000 [6:36:01<31:33:37,  1.29s/it] 12%|█▏        | 12055/100000 [6:36:03<30:57:48,  1.27s/it]                                                            12%|█▏        | 12055/100000 [6:36:03<30:57:48,  1.27s/it] 12%|█▏        | 12056/100000 [6:36:04<30:44:24,  1.26s/it]                                                            12%|█▏        | 12056/100000 [6:36:04<30:44:24,  1.26s/it] 12%|█▏        | 12057/100000 [6:36:05<30:31:06,  1.25s/it]                                                            12%|█▏        | 12057/100000 [6:36:05<30:31:06,  1.25s/it] 12%|█▏        | 12058/100000 [6:36:06<29:46:46,  1.22s/it]                                                            12%|█▏        | 12058/100000 [6:36:06<29:46:46,  1.22s/it] 12%|█▏        | 12059/100000 [6:36:07<29:18:19,  1.20s/it]                                                            12%|█▏        | 12059/100000 [6:36:07<29:18:19,  1.20s/it] 12%|█▏        | 12060/100000 [6:36:09<28:45:38,  1.18s/it]                                                            12%|█▏        | 12060/100000 [6:36:09<28:45:38,  1.18s/it] 12%|█▏        | 12061/100000 [6:36:10<28:25:12,  1.16s/it]                                                            12%|█▏        | 12061/100000 [6:36:10<28:25:12,  1.16s/it] 12%|█▏        | 12062/100000 [6:36:11<28:12:50,  1.16s/it]                                                            12%|█▏        | 12062/100000 [6:36:11<28:12:50,  1.16s/it] 12%|█▏        | 12063/100000 [6:36:12<27:50:54,  1.14s/it]                                                            12%|█▏        | 12063/100000 [6:36:12<27:50:54,  1.14s/it] 12%|█▏        | 12064/100000 [6:36:13<27:32:56,  1.13s/it]                                                            12%|█▏        | 12064/100000 [6:36:13<27:32:56,  1.13s/it] 12%|█▏        | 12065/100000 [6:36:14<27:21:57,  1.12s/it]                                                            12%|█▏        | 12065/100000 [6:36:14<27:21:57,  1.12s/it] 12%|█▏        | 12066/100000 [6:36:15<26:59:48,  1.11s/it]                                                            12%|█▏        | 12066/100000 [6:36:15<26:59:48,  1.11s/it] 12%|█▏        | 12067/100000 [6:36:16<26:38:35,  1.09s/it]                                                            12%|█▏        | 12067/100000 [6:36:16<26:38:35,  1.09s/it] 12%|█▏        | 12068/100000 [6:36:17<26:28:14,  1.08s/it]                                                            12%|█▏        | 12068/100000 [6:36:17<26:28:14,  1.08s/it] 12%|█▏        | 12069/100000 [6:36:18<25:51:02,  1.06s/it]                                                            12%|█▏        | 12069/100000 [6:36:18<25:51:02,  1.06s/it] 12%|█▏        | 12070/100000 [6:36:19<25:37:47,  1.05s/it]                                                            12%|█▏        | 12070/100000 [6:36:19<25:37:47,  1.05s/it] 12%|█▏        | 12071/100000 [6:36:20<25:25:15,  1.04s/it]                                                            12%|█▏        | 12071/100000 [6:36:20<25:25:15,  1.04s/it] 12%|█▏        | 12072/100000 [6:36:21<25:03:27,  1.03s/it]                                                            12%|█▏        | 12072/100000 [6:36:21<25:03:27,  1.03s/it] 12%|█▏        | 12073/100000 [6:36:22<24:13:37,  1.01it/s]                                                            12%|█▏        | 12073/100000 [6:36:22<24:13:37,  1.01it/s] 12%|█▏        | 12074/100000 [6:36:23<23:38:34,  1.03it/s]                                                            12%|█▏        | 12074/100000 [6:36:23<23:38:34,  1.03it/s] 12%|█▏        | 12075/100000 [6:36:35<103:17:33,  4.23s/it]                                                             12%|█▏        | 12075/100000 [6:36:35<103:17:33,  4.23s/it] 12%|█▏        | 12076/100000 [6:36:41<113:58:33,  4.67s/it]                                                             12%|█▏        | 12076/100000 [6:36:41<113:58:33,  4.67s/it] 12%|█▏        | 12077/100000 [6:36:45<114:17:03,  4.68s/it]                                                            {'eval_loss': 0.3457863926887512, 'eval_wer': 0.38468917881811204, 'eval_cer': 0.11143945874484797, 'eval_runtime': 16.4823, 'eval_samples_per_second': 18.444, 'eval_steps_per_second': 0.607, 'epoch': 22.14}
+{'loss': 0.0074, 'grad_norm': 0.1465679258108139, 'learning_rate': 2.9334e-05, 'epoch': 22.14}
+{'loss': 0.0123, 'grad_norm': 0.35484927892684937, 'learning_rate': 2.933366666666667e-05, 'epoch': 22.14}
+{'loss': 0.0095, 'grad_norm': 0.22260144352912903, 'learning_rate': 2.9333333333333333e-05, 'epoch': 22.15}
+{'loss': 0.0053, 'grad_norm': 0.13370046019554138, 'learning_rate': 2.9333000000000002e-05, 'epoch': 22.15}
+{'loss': 0.007, 'grad_norm': 0.585996150970459, 'learning_rate': 2.9332666666666668e-05, 'epoch': 22.15}
+{'loss': 0.0037, 'grad_norm': 0.16085104644298553, 'learning_rate': 2.9332333333333334e-05, 'epoch': 22.15}
+{'loss': 0.0094, 'grad_norm': 0.2741457223892212, 'learning_rate': 2.9332e-05, 'epoch': 22.15}
+{'loss': 0.0087, 'grad_norm': 0.35082828998565674, 'learning_rate': 2.933166666666667e-05, 'epoch': 22.16}
+{'loss': 0.0208, 'grad_norm': 0.7393125295639038, 'learning_rate': 2.9331333333333335e-05, 'epoch': 22.16}
+{'loss': 0.0075, 'grad_norm': 0.37203606963157654, 'learning_rate': 2.9331e-05, 'epoch': 22.16}
+{'loss': 0.0181, 'grad_norm': 1.1032886505126953, 'learning_rate': 2.933066666666667e-05, 'epoch': 22.16}
+{'loss': 0.0086, 'grad_norm': 0.24382264912128448, 'learning_rate': 2.9330333333333333e-05, 'epoch': 22.16}
+{'loss': 0.0069, 'grad_norm': 0.20161493122577667, 'learning_rate': 2.9330000000000002e-05, 'epoch': 22.16}
+{'loss': 0.0114, 'grad_norm': 0.6993123292922974, 'learning_rate': 2.9329666666666668e-05, 'epoch': 22.17}
+{'loss': 0.0132, 'grad_norm': 0.6505698561668396, 'learning_rate': 2.9329333333333334e-05, 'epoch': 22.17}
+{'loss': 0.0067, 'grad_norm': 0.21036770939826965, 'learning_rate': 2.9329e-05, 'epoch': 22.17}
+{'loss': 0.0095, 'grad_norm': 0.3262076675891876, 'learning_rate': 2.9328666666666666e-05, 'epoch': 22.17}
+{'loss': 0.0061, 'grad_norm': 0.42080506682395935, 'learning_rate': 2.9328333333333335e-05, 'epoch': 22.17}
+{'loss': 0.0161, 'grad_norm': 0.38495534658432007, 'learning_rate': 2.9328e-05, 'epoch': 22.18}
+{'loss': 0.0072, 'grad_norm': 0.31718382239341736, 'learning_rate': 2.9327666666666667e-05, 'epoch': 22.18}
+{'loss': 0.0053, 'grad_norm': 0.19104288518428802, 'learning_rate': 2.9327333333333333e-05, 'epoch': 22.18}
+{'loss': 0.0101, 'grad_norm': 0.38349059224128723, 'learning_rate': 2.9327000000000002e-05, 'epoch': 22.18}
+{'loss': 0.0163, 'grad_norm': 0.9522183537483215, 'learning_rate': 2.9326666666666665e-05, 'epoch': 22.18}
+{'loss': 0.0066, 'grad_norm': 0.3559163510799408, 'learning_rate': 2.9326333333333334e-05, 'epoch': 22.18}
+{'loss': 0.1693, 'grad_norm': 0.6288875341415405, 'learning_rate': 2.9326e-05, 'epoch': 22.19}
+{'loss': 0.1282, 'grad_norm': 0.6415272951126099, 'learning_rate': 2.9325666666666666e-05, 'epoch': 22.19}
+{'loss': 0.092, 'grad_norm': 0.4664081931114197, 'learning_rate': 2.9325333333333335e-05, 'epoch': 22.19}
+{'loss': 0.1315, 'grad_norm': 0.8116239309310913, 'learning_rate': 2.9325e-05, 'epoch': 22.19}
+{'loss': 0.0755, 'grad_norm': 0.4563292860984802, 'learning_rate': 2.9324666666666667e-05, 'epoch': 22.19}
+{'loss': 0.0758, 'grad_norm': 0.5227322578430176, 'learning_rate': 2.9324333333333333e-05, 'epoch': 22.2}
+{'loss': 0.0496, 'grad_norm': 0.438588410615921, 'learning_rate': 2.9324000000000002e-05, 'epoch': 22.2}
+{'loss': 0.0529, 'grad_norm': 0.43619734048843384, 'learning_rate': 2.9323666666666665e-05, 'epoch': 22.2}
+{'loss': 0.0584, 'grad_norm': 0.2944128215312958, 'learning_rate': 2.9323333333333334e-05, 'epoch': 22.2}
+{'loss': 0.0547, 'grad_norm': 0.4487317204475403, 'learning_rate': 2.9323000000000004e-05, 'epoch': 22.2}
+{'loss': 0.0434, 'grad_norm': 0.5154827833175659, 'learning_rate': 2.9322666666666666e-05, 'epoch': 22.2}
+{'loss': 0.0644, 'grad_norm': 1.1755114793777466, 'learning_rate': 2.9322333333333336e-05, 'epoch': 22.21}
+{'loss': 0.0423, 'grad_norm': 0.29100021719932556, 'learning_rate': 2.9322e-05, 'epoch': 22.21}
+{'loss': 0.0637, 'grad_norm': 0.4555946886539459, 'learning_rate': 2.9321666666666667e-05, 'epoch': 22.21}
+{'loss': 0.025, 'grad_norm': 0.49455103278160095, 'learning_rate': 2.9321333333333333e-05, 'epoch': 22.21}
+{'loss': 0.0136, 'grad_norm': 0.28613951802253723, 'learning_rate': 2.9321000000000003e-05, 'epoch': 22.21}
+{'loss': 0.0154, 'grad_norm': 0.2727801501750946, 'learning_rate': 2.9320666666666665e-05, 'epoch': 22.22}
+{'loss': 0.0201, 'grad_norm': 0.3077845871448517, 'learning_rate': 2.9320333333333335e-05, 'epoch': 22.22}
+{'loss': 0.008, 'grad_norm': 0.19647696614265442, 'learning_rate': 2.9320000000000004e-05, 'epoch': 22.22}
+{'loss': 0.0082, 'grad_norm': 0.297075092792511, 'learning_rate': 2.9319666666666666e-05, 'epoch': 22.22}
+{'loss': 0.0216, 'grad_norm': 1.275119662284851, 'learning_rate': 2.9319333333333336e-05, 'epoch': 22.22}
+{'loss': 0.0153, 'grad_norm': 0.4337138235569, 'learning_rate': 2.9318999999999998e-05, 'epoch': 22.23}
+{'loss': 0.0084, 'grad_norm': 0.2728216350078583, 'learning_rate': 2.9318666666666668e-05, 'epoch': 22.23}
+{'loss': 0.0157, 'grad_norm': 0.33013466000556946, 'learning_rate': 2.9318333333333334e-05, 'epoch': 22.23}
+{'loss': 0.0073, 'grad_norm': 0.19151604175567627, 'learning_rate': 2.9318e-05, 'epoch': 22.23}
+{'loss': 0.0093, 'grad_norm': 0.2966844141483307, 'learning_rate': 2.9317666666666665e-05, 'epoch': 22.23}
+{'loss': 0.009, 'grad_norm': 0.33475998044013977, 'learning_rate': 2.9317333333333335e-05, 'epoch': 22.23}
+{'loss': 0.0049, 'grad_norm': 0.16185058653354645, 'learning_rate': 2.9317e-05, 'epoch': 22.24}
+{'loss': 0.0105, 'grad_norm': 0.25134894251823425, 'learning_rate': 2.9316666666666667e-05, 'epoch': 22.24}
+{'loss': 0.0085, 'grad_norm': 0.21591123938560486, 'learning_rate': 2.9316333333333336e-05, 'epoch': 22.24}
+{'loss': 0.007, 'grad_norm': 0.36200016736984253, 'learning_rate': 2.9316e-05, 'epoch': 22.24}
+{'loss': 0.0078, 'grad_norm': 0.20390160381793976, 'learning_rate': 2.9315666666666668e-05, 'epoch': 22.24}
+{'loss': 0.0074, 'grad_norm': 0.5636849999427795, 'learning_rate': 2.9315333333333334e-05, 'epoch': 22.25}
+{'loss': 0.0136, 'grad_norm': 0.3945927619934082, 'learning_rate': 2.9315e-05, 'epoch': 22.25}
+{'loss': 0.0047, 'grad_norm': 0.20777307450771332, 'learning_rate': 2.931466666666667e-05, 'epoch': 22.25}
+{'loss': 0.0208, 'grad_norm': 0.7784906029701233, 'learning_rate': 2.9314333333333335e-05, 'epoch': 22.25}
+{'loss': 0.0034, 'grad_norm': 0.16684590280056, 'learning_rate': 2.9314e-05, 'epoch': 22.25}
+{'loss': 0.0059, 'grad_norm': 0.2453305870294571, 'learning_rate': 2.9313666666666667e-05, 'epoch': 22.25}
+{'loss': 0.0111, 'grad_norm': 0.4265834093093872, 'learning_rate': 2.9313333333333336e-05, 'epoch': 22.26}
+{'loss': 0.0041, 'grad_norm': 0.25547710061073303, 'learning_rate': 2.9313e-05, 'epoch': 22.26}
+{'loss': 0.0074, 'grad_norm': 0.6966615319252014, 'learning_rate': 2.9312666666666668e-05, 'epoch': 22.26}
+{'loss': 0.0038, 'grad_norm': 0.23735538125038147, 'learning_rate': 2.9312333333333334e-05, 'epoch': 22.26}
+{'loss': 0.0062, 'grad_norm': 0.24145880341529846, 'learning_rate': 2.9312e-05, 'epoch': 22.26}
+{'loss': 0.0054, 'grad_norm': 0.23477429151535034, 'learning_rate': 2.931166666666667e-05, 'epoch': 22.27}
+{'loss': 0.0115, 'grad_norm': 0.22543811798095703, 'learning_rate': 2.9311333333333335e-05, 'epoch': 22.27}
+{'loss': 0.0071, 'grad_norm': 0.21335336565971375, 'learning_rate': 2.9311e-05, 'epoch': 22.27}
+{'loss': 0.0107, 'grad_norm': 0.4495827853679657, 'learning_rate': 2.9310666666666667e-05, 'epoch': 22.27}
+{'loss': 0.0125, 'grad_norm': 0.5423740744590759, 'learning_rate': 2.9310333333333336e-05, 'epoch': 22.27}
+{'loss': 0.0047, 'grad_norm': 0.2808704376220703, 'learning_rate': 2.931e-05, 'epoch': 22.28}
+{'loss': 0.0144, 'grad_norm': 0.40028220415115356, 'learning_rate': 2.9309666666666668e-05, 'epoch': 22.28}
+{'loss': 0.1581, 'grad_norm': 0.6234591603279114, 'learning_rate': 2.930933333333333e-05, 'epoch': 22.28}
+{'loss': 0.1046, 'grad_norm': 0.5651040077209473, 'learning_rate': 2.9309e-05, 'epoch': 22.28}
+ 12%|█▏        | 12077/100000 [6:36:45<114:17:03,  4.68s/it] 12%|█▏        | 12078/100000 [6:36:49<109:14:22,  4.47s/it]                                                             12%|█▏        | 12078/100000 [6:36:49<109:14:22,  4.47s/it] 12%|█▏        | 12079/100000 [6:36:53<101:56:48,  4.17s/it]                                                             12%|█▏        | 12079/100000 [6:36:53<101:56:48,  4.17s/it] 12%|█▏        | 12080/100000 [6:36:56<94:58:11,  3.89s/it]                                                             12%|█▏        | 12080/100000 [6:36:56<94:58:11,  3.89s/it] 12%|█▏        | 12081/100000 [6:36:59<88:43:52,  3.63s/it]                                                            12%|█▏        | 12081/100000 [6:36:59<88:43:52,  3.63s/it] 12%|█▏        | 12082/100000 [6:37:02<82:16:39,  3.37s/it]                                                            12%|█▏        | 12082/100000 [6:37:02<82:16:39,  3.37s/it] 12%|█▏        | 12083/100000 [6:37:04<75:58:05,  3.11s/it]                                                            12%|█▏        | 12083/100000 [6:37:04<75:58:05,  3.11s/it] 12%|█▏        | 12084/100000 [6:37:07<70:25:06,  2.88s/it]                                                            12%|█▏        | 12084/100000 [6:37:07<70:25:06,  2.88s/it] 12%|█▏        | 12085/100000 [6:37:09<65:08:52,  2.67s/it]                                                            12%|█▏        | 12085/100000 [6:37:09<65:08:52,  2.67s/it] 12%|█▏        | 12086/100000 [6:37:11<60:53:18,  2.49s/it]                                                            12%|█▏        | 12086/100000 [6:37:11<60:53:18,  2.49s/it] 12%|█▏        | 12087/100000 [6:37:13<56:50:35,  2.33s/it]                                                            12%|█▏        | 12087/100000 [6:37:13<56:50:35,  2.33s/it] 12%|█▏        | 12088/100000 [6:37:15<53:14:53,  2.18s/it]                                                            12%|█▏        | 12088/100000 [6:37:15<53:14:53,  2.18s/it] 12%|█▏        | 12089/100000 [6:37:17<50:02:29,  2.05s/it]                                                            12%|█▏        | 12089/100000 [6:37:17<50:02:29,  2.05s/it] 12%|█▏        | 12090/100000 [6:37:18<47:17:29,  1.94s/it]                                                            12%|█▏        | 12090/100000 [6:37:18<47:17:29,  1.94s/it] 12%|█▏        | 12091/100000 [6:37:20<44:55:43,  1.84s/it]                                                            12%|█▏        | 12091/100000 [6:37:20<44:55:43,  1.84s/it] 12%|█▏        | 12092/100000 [6:37:21<43:01:23,  1.76s/it]                                                            12%|█▏        | 12092/100000 [6:37:21<43:01:23,  1.76s/it] 12%|█▏        | 12093/100000 [6:37:23<41:28:08,  1.70s/it]                                                            12%|█▏        | 12093/100000 [6:37:23<41:28:08,  1.70s/it] 12%|█▏        | 12094/100000 [6:37:24<39:45:02,  1.63s/it]                                                            12%|█▏        | 12094/100000 [6:37:24<39:45:02,  1.63s/it] 12%|█▏        | 12095/100000 [6:37:26<38:44:10,  1.59s/it]                                                            12%|█▏        | 12095/100000 [6:37:26<38:44:10,  1.59s/it] 12%|█▏        | 12096/100000 [6:37:27<37:43:05,  1.54s/it]                                                            12%|█▏        | 12096/100000 [6:37:27<37:43:05,  1.54s/it] 12%|█▏        | 12097/100000 [6:37:29<36:53:56,  1.51s/it]                                                            12%|█▏        | 12097/100000 [6:37:29<36:53:56,  1.51s/it] 12%|█▏        | 12098/100000 [6:37:30<35:52:42,  1.47s/it]                                                            12%|█▏        | 12098/100000 [6:37:30<35:52:42,  1.47s/it] 12%|█▏        | 12099/100000 [6:37:32<35:18:56,  1.45s/it]                                                            12%|█▏        | 12099/100000 [6:37:32<35:18:56,  1.45s/it] 12%|█▏        | 12100/100000 [6:37:33<34:24:15,  1.41s/it]                                                            12%|█▏        | 12100/100000 [6:37:33<34:24:15,  1.41s/it] 12%|█▏        | 12101/100000 [6:37:34<33:52:45,  1.39s/it]                                                            12%|█▏        | 12101/100000 [6:37:34<33:52:45,  1.39s/it] 12%|█▏        | 12102/100000 [6:37:36<33:46:47,  1.38s/it]                                                            12%|█▏        | 12102/100000 [6:37:36<33:46:47,  1.38s/it] 12%|█▏        | 12103/100000 [6:37:37<33:16:24,  1.36s/it]                                                            12%|█▏        | 12103/100000 [6:37:37<33:16:24,  1.36s/it] 12%|█▏        | 12104/100000 [6:37:38<32:38:20,  1.34s/it]                                                            12%|█▏        | 12104/100000 [6:37:38<32:38:20,  1.34s/it] 12%|█▏        | 12105/100000 [6:37:39<32:07:17,  1.32s/it]                                                            12%|█▏        | 12105/100000 [6:37:39<32:07:17,  1.32s/it] 12%|█▏        | 12106/100000 [6:37:41<31:39:18,  1.30s/it]                                                            12%|█▏        | 12106/100000 [6:37:41<31:39:18,  1.30s/it] 12%|█▏        | 12107/100000 [6:37:42<31:19:39,  1.28s/it]                                                            12%|█▏        | 12107/100000 [6:37:42<31:19:39,  1.28s/it] 12%|█▏        | 12108/100000 [6:37:43<30:51:19,  1.26s/it]                                                            12%|█▏        | 12108/100000 [6:37:43<30:51:19,  1.26s/it] 12%|█▏        | 12109/100000 [6:37:44<30:13:57,  1.24s/it]                                                            12%|█▏        | 12109/100000 [6:37:44<30:13:57,  1.24s/it] 12%|█▏        | 12110/100000 [6:37:45<29:45:47,  1.22s/it]                                                            12%|█▏        | 12110/100000 [6:37:45<29:45:47,  1.22s/it] 12%|█▏        | 12111/100000 [6:37:47<29:07:32,  1.19s/it]                                                            12%|█▏        | 12111/100000 [6:37:47<29:07:32,  1.19s/it] 12%|█▏        | 12112/100000 [6:37:48<28:45:50,  1.18s/it]                                                            12%|█▏        | 12112/100000 [6:37:48<28:45:50,  1.18s/it] 12%|█▏        | 12113/100000 [6:37:49<28:11:07,  1.15s/it]                                                            12%|█▏        | 12113/100000 [6:37:49<28:11:07,  1.15s/it] 12%|█▏        | 12114/100000 [6:37:50<27:58:58,  1.15s/it]                                                            12%|█▏        | 12114/100000 [6:37:50<27:58:58,  1.15s/it] 12%|█▏        | 12115/100000 [6:37:51<27:35:02,  1.13s/it]                                                            12%|█▏        | 12115/100000 [6:37:51<27:35:02,  1.13s/it] 12%|█▏        | 12116/100000 [6:37:52<27:13:03,  1.11s/it]                                                            12%|█▏        | 12116/100000 [6:37:52<27:13:03,  1.11s/it] 12%|█▏        | 12117/100000 [6:37:53<26:47:04,  1.10s/it]                                                            12%|█▏        | 12117/100000 [6:37:53<26:47:04,  1.10s/it] 12%|█▏        | 12118/100000 [6:37:54<26:32:30,  1.09s/it]                                                            12%|█▏        | 12118/100000 [6:37:54<26:32:30,  1.09s/it] 12%|█▏        | 12119/100000 [6:37:55<26:00:03,  1.07s/it]                                                            12%|█▏        | 12119/100000 [6:37:55<26:00:03,  1.07s/it] 12%|█▏        | 12120/100000 [6:37:56<25:32:01,  1.05s/it]                                                            12%|█▏        | 12120/100000 [6:37:56<25:32:01,  1.05s/it] 12%|█▏        | 12121/100000 [6:37:57<24:55:06,  1.02s/it]                                                            12%|█▏        | 12121/100000 [6:37:57<24:55:06,  1.02s/it] 12%|█▏        | 12122/100000 [6:37:58<24:32:46,  1.01s/it]                                                            12%|█▏        | 12122/100000 [6:37:58<24:32:46,  1.01s/it] 12%|█▏        | 12123/100000 [6:37:59<24:14:47,  1.01it/s]                                                            12%|█▏        | 12123/100000 [6:37:59<24:14:47,  1.01it/s] 12%|█▏        | 12124/100000 [6:38:00<23:26:21,  1.04it/s]                                                            12%|█▏        | 12124/100000 [6:38:00<23:26:21,  1.04it/s] 12%|█▏        | 12125/100000 [6:38:12<107:02:37,  4.39s/it]                                                             12%|█▏        | 12125/100000 [6:38:12<107:02:37,  4.39s/it] 12%|█▏        | 12126/100000 [6:38:19<120:43:52,  4.95s/it]                                                             12%|█▏        | 12126/100000 [6:38:19<120:43:52,  4.95s/it] 12%|█▏        | 12127/100000 [6:38:24<122:27:59,  5.02s/it]                                                             12%|█▏        | 12127/100000 [6:38:24<122:27:59,  5.02s/it] 12%|█▏        | 12128/100000 [6:38:28<116:26:12,  4.77s/it]                                                             12%|█▏        | 12128/100000 [6:38:28<116:26:12,  4.77s/it] 12%|█▏        | 12129/100000 [6:38:32<108:32:29,  4.45s/it]                                                             12%|█▏        | 12129/100000 [6:38:32<108:32:29,  4.45s/it] 12%|█▏        | 12130/100000 [6:38:35<100:12:34,  4.11s/it]                                                             12%|█▏        | 12130/100000 [6:38:35<100:12:34,  4.11s/it] 12%|█▏        | 12131/100000 [6:38:38<91:58:16,  3.77s/it]                                                             12%|█▏        | 12131/100000 [6:38:38<91:58:16,  3.77s/it] 12%|█▏        | 12132/100000 [6:38:41<84:52:07,  3.48s/it]                                                            12%|█▏        | 12132/100000 [6:38:41<84:52:07,  3.48s/it] 12%|█▏        | 12133/100000 [6:38:43<78:24:18,  3.21s/it]                                                            12%|█▏        | 12133/100000 [6:38:43<78:24:18,  3.21s/it] 12%|█▏        | 12134/100000 [6:38:46<71:59:12,  2.95s/it]                                                            12%|█▏        | 12134/100000 [6:38:46<71:59:12,  2.95s/it] 12%|█▏        | 12135/100000 [6:38:48<66:51:34,  2.74s/it]                                                            12%|█▏        | 12135/100000 [6:38:48<66:51:34,  2.74s/it] 12%|█▏        | 12136/100000 [6:38:50<62:09:28,  2.55s/it]                                                            12%|█▏        | 12136/100000 [6:38:50<62:09:28,  2.55s/it] 12%|█▏        | 12137/100000 [6:38:52<57:50:31,  2.37s/it]                                                            12%|█▏        | 12137/100000 [6:38:52<57:50:31,  2.37s/it] 12%|█▏        | 12138/100000 [6:38:54<53:59:29,  2.21s/it]                                                            12%|█▏        | 12138/100000 [6:38:54<53:59:29,  2.21s/it] 12%|█▏        | 12139/100000 [6:38:56<50:47:36,  2.08s/it]                                                            12%|█▏        | 12139/100000 [6:38:56<50:47:36,  2.08s/it] 12%|█▏        | 12140/100000 [6:38:57<48:04:59,  1.97s/it]                                                            12%|█▏        | 12140/100000 [6:38:57<48:04:59,  1.97s/it] 12%|█▏        | 12141/100000 [6:38:59<45:37:31,  1.87s/it]                                                            12%|█▏        | 12141/100000 [6:38:59<45:37:31,  1.87s/it] 12%|█▏        | 12142/100000 [6:39:01<43:12:16,  1.77s/it]                                                            12%|█▏        | 12142/100000 [6:39:01<43:12:16,  1.77s/it] 12%|█▏        | 12143/100000 [6:39:02<41:20:30,  1.69s/it]                                                            12%|█▏        | 12143/100000 [6:39:02<41:20:30,  1.69s/it] 12%|█▏        | 12144/100000 [6:39:04<39:31:53,  1.62s/it]                                                            12%|█▏        | 12144/100000 [6:39:04<39:31:53,  1.62s/it] 12%|█▏        | 12145/100000 [6:39:05<38:09:42,  1.56s/it]                                                            12%|█▏        | 12145/100000 [6:39:05<38:09:42,  1.56s/it] 12%|█▏        | 12146/100000 [6:39:06<37:21:06,  1.53s/it]                                                            12%|█▏        | 12146/100000 [6:39:06<37:21:06,  1.53s/it] 12%|█▏        | 12147/100000 [6:39:08<36:16:14,  1.49s/it]                                                            12%|█▏        | 12147/100000 [6:39:08<36:16:14,  1.49s/it] 12%|█▏        | 12148/100000 [6:39:09<35:22:05,  1.45s/it]                                                            12%|█▏        | 12148/100000 [6:39:09<35:22:05,  1.45s/it] 12%|█▏        | 12149/100000 [6:39:11<34:51:40,  1.43s/it]                                                            12%|█▏        | 12149/100000 [6:39:11<34:51:40,  1.43s/it] 12%|█▏        | 12150/100000 [6:39:12<33:52:45,  1.39s/it]                                                            12%|█▏        | 12150/100000 [6:39:12<33:52:45,  1.39s/it] 12%|█▏        | 12151/100000 [6:39:13<33:30:34,  1.37s/it]                                                            12%|█▏        | 12151/100000 [6:39:13<33:30:34,  1.37s/it] 12%|█▏        | 12152/100000 [6:39:15<33:00:15,  1.35s/it]                                                            12%|█▏        | 12152/100000 [6:39:15<33:00:15,  1.35s/it] 12%|█▏        | 12153/100000 [6:39:16<32:32:43,  1.33s/it]                                                            12%|█▏        | 12153/100000 [6:39:16<32:32:43,  1.33s/it] 12%|█▏        | 12154/100000 [6:39:17<31:54:23,  1.31s/it]                                                            12%|█▏        | 12154/100000 [6:39:17<31:54:23,  1.31s/it] 12%|█▏        | 12155/100000 [6:39:18<31:34:39,  1.29s/it]                                                           {'loss': 0.1222, 'grad_norm': 1.1081950664520264, 'learning_rate': 2.930866666666667e-05, 'epoch': 22.28}
+{'loss': 0.0584, 'grad_norm': 0.39549520611763, 'learning_rate': 2.9308333333333332e-05, 'epoch': 22.28}
+{'loss': 0.1001, 'grad_norm': 0.49096477031707764, 'learning_rate': 2.9308e-05, 'epoch': 22.29}
+{'loss': 0.0656, 'grad_norm': 0.3321293592453003, 'learning_rate': 2.9307666666666667e-05, 'epoch': 22.29}
+{'loss': 0.0507, 'grad_norm': 0.39119619131088257, 'learning_rate': 2.9307333333333333e-05, 'epoch': 22.29}
+{'loss': 0.052, 'grad_norm': 0.6798700094223022, 'learning_rate': 2.9307e-05, 'epoch': 22.29}
+{'loss': 0.0662, 'grad_norm': 0.4221579432487488, 'learning_rate': 2.930666666666667e-05, 'epoch': 22.29}
+{'loss': 0.0566, 'grad_norm': 0.33786314725875854, 'learning_rate': 2.9306333333333334e-05, 'epoch': 22.3}
+{'loss': 0.0293, 'grad_norm': 0.2803206741809845, 'learning_rate': 2.9306e-05, 'epoch': 22.3}
+{'loss': 0.0489, 'grad_norm': 0.5887284874916077, 'learning_rate': 2.930566666666667e-05, 'epoch': 22.3}
+{'loss': 0.0543, 'grad_norm': 0.4942704439163208, 'learning_rate': 2.9305333333333332e-05, 'epoch': 22.3}
+{'loss': 0.0362, 'grad_norm': 0.34390565752983093, 'learning_rate': 2.9305e-05, 'epoch': 22.3}
+{'loss': 0.0288, 'grad_norm': 0.3027403950691223, 'learning_rate': 2.9304666666666667e-05, 'epoch': 22.3}
+{'loss': 0.013, 'grad_norm': 0.334240198135376, 'learning_rate': 2.9304333333333333e-05, 'epoch': 22.31}
+{'loss': 0.0095, 'grad_norm': 0.2725203335285187, 'learning_rate': 2.9304e-05, 'epoch': 22.31}
+{'loss': 0.0138, 'grad_norm': 0.3006215989589691, 'learning_rate': 2.930366666666667e-05, 'epoch': 22.31}
+{'loss': 0.0087, 'grad_norm': 0.22081726789474487, 'learning_rate': 2.9303333333333335e-05, 'epoch': 22.31}
+{'loss': 0.0117, 'grad_norm': 0.2759893238544464, 'learning_rate': 2.9303e-05, 'epoch': 22.31}
+{'loss': 0.0095, 'grad_norm': 0.2866109311580658, 'learning_rate': 2.930266666666667e-05, 'epoch': 22.32}
+{'loss': 0.0044, 'grad_norm': 0.14103403687477112, 'learning_rate': 2.9302333333333332e-05, 'epoch': 22.32}
+{'loss': 0.0256, 'grad_norm': 0.2929133474826813, 'learning_rate': 2.9302e-05, 'epoch': 22.32}
+{'loss': 0.0093, 'grad_norm': 0.1882898211479187, 'learning_rate': 2.9301666666666668e-05, 'epoch': 22.32}
+{'loss': 0.0093, 'grad_norm': 0.16777978837490082, 'learning_rate': 2.9301333333333334e-05, 'epoch': 22.32}
+{'loss': 0.0081, 'grad_norm': 0.1872076392173767, 'learning_rate': 2.9301e-05, 'epoch': 22.33}
+{'loss': 0.0141, 'grad_norm': 0.49100226163864136, 'learning_rate': 2.930066666666667e-05, 'epoch': 22.33}
+{'loss': 0.035, 'grad_norm': 0.21988950669765472, 'learning_rate': 2.9300333333333335e-05, 'epoch': 22.33}
+{'loss': 0.0083, 'grad_norm': 0.21322642266750336, 'learning_rate': 2.93e-05, 'epoch': 22.33}
+{'loss': 0.0067, 'grad_norm': 0.28099849820137024, 'learning_rate': 2.929966666666667e-05, 'epoch': 22.33}
+{'loss': 0.004, 'grad_norm': 0.13967318832874298, 'learning_rate': 2.9299333333333333e-05, 'epoch': 22.33}
+{'loss': 0.0175, 'grad_norm': 0.38747766613960266, 'learning_rate': 2.9299000000000002e-05, 'epoch': 22.34}
+{'loss': 0.0046, 'grad_norm': 0.1795417219400406, 'learning_rate': 2.9298666666666664e-05, 'epoch': 22.34}
+{'loss': 0.0058, 'grad_norm': 0.21303912997245789, 'learning_rate': 2.9298333333333334e-05, 'epoch': 22.34}
+{'loss': 0.0056, 'grad_norm': 0.1777993142604828, 'learning_rate': 2.9298000000000003e-05, 'epoch': 22.34}
+{'loss': 0.0026, 'grad_norm': 0.09992282837629318, 'learning_rate': 2.9297666666666666e-05, 'epoch': 22.34}
+{'loss': 0.0091, 'grad_norm': 0.34188637137413025, 'learning_rate': 2.9297333333333335e-05, 'epoch': 22.35}
+{'loss': 0.0076, 'grad_norm': 0.2958120107650757, 'learning_rate': 2.9297e-05, 'epoch': 22.35}
+{'loss': 0.0065, 'grad_norm': 0.27804356813430786, 'learning_rate': 2.9296666666666667e-05, 'epoch': 22.35}
+{'loss': 0.0056, 'grad_norm': 0.23710592091083527, 'learning_rate': 2.9296333333333333e-05, 'epoch': 22.35}
+{'loss': 0.0044, 'grad_norm': 0.17549476027488708, 'learning_rate': 2.9296000000000002e-05, 'epoch': 22.35}
+{'loss': 0.0046, 'grad_norm': 0.15604440867900848, 'learning_rate': 2.9295666666666665e-05, 'epoch': 22.35}
+{'loss': 0.009, 'grad_norm': 0.3873245120048523, 'learning_rate': 2.9295333333333334e-05, 'epoch': 22.36}
+{'loss': 0.0049, 'grad_norm': 0.22579556703567505, 'learning_rate': 2.9295000000000003e-05, 'epoch': 22.36}
+{'loss': 0.0226, 'grad_norm': 0.5002829432487488, 'learning_rate': 2.9294666666666666e-05, 'epoch': 22.36}
+{'loss': 0.0115, 'grad_norm': 0.5181460380554199, 'learning_rate': 2.9294333333333335e-05, 'epoch': 22.36}
+{'loss': 0.0215, 'grad_norm': 0.27780306339263916, 'learning_rate': 2.9294e-05, 'epoch': 22.36}
+{'loss': 0.006, 'grad_norm': 0.4311021566390991, 'learning_rate': 2.9293666666666667e-05, 'epoch': 22.37}
+{'loss': 0.0045, 'grad_norm': 0.30893686413764954, 'learning_rate': 2.9293333333333333e-05, 'epoch': 22.37}
+{'loss': 0.0069, 'grad_norm': 0.26298242807388306, 'learning_rate': 2.9293000000000002e-05, 'epoch': 22.37}
+{'loss': 0.146, 'grad_norm': 0.6145325899124146, 'learning_rate': 2.9292666666666665e-05, 'epoch': 22.37}
+{'loss': 0.1247, 'grad_norm': 0.551490068435669, 'learning_rate': 2.9292333333333334e-05, 'epoch': 22.37}
+{'loss': 0.0839, 'grad_norm': 0.4913572072982788, 'learning_rate': 2.9292000000000003e-05, 'epoch': 22.37}
+{'loss': 0.0949, 'grad_norm': 0.4714609682559967, 'learning_rate': 2.9291666666666666e-05, 'epoch': 22.38}
+{'loss': 0.0748, 'grad_norm': 0.5117810964584351, 'learning_rate': 2.9291333333333335e-05, 'epoch': 22.38}
+{'loss': 0.0757, 'grad_norm': 0.5069825053215027, 'learning_rate': 2.9291e-05, 'epoch': 22.38}
+{'loss': 0.0428, 'grad_norm': 0.39257165789604187, 'learning_rate': 2.9290666666666667e-05, 'epoch': 22.38}
+{'loss': 0.0406, 'grad_norm': 0.3679068386554718, 'learning_rate': 2.9290333333333333e-05, 'epoch': 22.38}
+{'loss': 0.0572, 'grad_norm': 0.5544233322143555, 'learning_rate': 2.9290000000000002e-05, 'epoch': 22.39}
+{'loss': 0.0317, 'grad_norm': 0.37580254673957825, 'learning_rate': 2.928966666666667e-05, 'epoch': 22.39}
+{'loss': 0.0368, 'grad_norm': 0.3190949261188507, 'learning_rate': 2.9289333333333334e-05, 'epoch': 22.39}
+{'loss': 0.0398, 'grad_norm': 0.8851911425590515, 'learning_rate': 2.9289e-05, 'epoch': 22.39}
+{'loss': 0.0435, 'grad_norm': 0.27544206380844116, 'learning_rate': 2.9288666666666666e-05, 'epoch': 22.39}
+{'loss': 0.0127, 'grad_norm': 0.23330990970134735, 'learning_rate': 2.9288333333333336e-05, 'epoch': 22.4}
+{'loss': 0.0211, 'grad_norm': 0.3330238461494446, 'learning_rate': 2.9287999999999998e-05, 'epoch': 22.4}
+{'loss': 0.0272, 'grad_norm': 0.3399524390697479, 'learning_rate': 2.9287666666666667e-05, 'epoch': 22.4}
+{'loss': 0.009, 'grad_norm': 0.23550830781459808, 'learning_rate': 2.9287333333333333e-05, 'epoch': 22.4}
+{'loss': 0.0082, 'grad_norm': 0.2656426429748535, 'learning_rate': 2.9287e-05, 'epoch': 22.4}
+{'loss': 0.0256, 'grad_norm': 0.23883987963199615, 'learning_rate': 2.928666666666667e-05, 'epoch': 22.4}
+{'loss': 0.0359, 'grad_norm': 0.29757219552993774, 'learning_rate': 2.9286333333333335e-05, 'epoch': 22.41}
+{'loss': 0.0257, 'grad_norm': 0.4060526192188263, 'learning_rate': 2.9286e-05, 'epoch': 22.41}
+{'loss': 0.0142, 'grad_norm': 0.7830715775489807, 'learning_rate': 2.9285666666666666e-05, 'epoch': 22.41}
+{'loss': 0.011, 'grad_norm': 0.22146490216255188, 'learning_rate': 2.9285333333333336e-05, 'epoch': 22.41}
+{'loss': 0.013, 'grad_norm': 0.31865814328193665, 'learning_rate': 2.9284999999999998e-05, 'epoch': 22.41}
+{'loss': 0.005, 'grad_norm': 0.15901601314544678, 'learning_rate': 2.9284666666666668e-05, 'epoch': 22.42}
+{'loss': 0.0087, 'grad_norm': 0.3411862850189209, 'learning_rate': 2.9284333333333334e-05, 'epoch': 22.42}
+{'loss': 0.0125, 'grad_norm': 0.40633055567741394, 'learning_rate': 2.9284e-05, 'epoch': 22.42}
+{'loss': 0.0102, 'grad_norm': 0.6341411471366882, 'learning_rate': 2.928366666666667e-05, 'epoch': 22.42}
+{'loss': 0.007, 'grad_norm': 0.18682046234607697, 'learning_rate': 2.9283333333333335e-05, 'epoch': 22.42}
+{'loss': 0.0052, 'grad_norm': 0.17826856672763824, 'learning_rate': 2.9283e-05, 'epoch': 22.42}
+ 12%|█▏        | 12155/100000 [6:39:18<31:34:39,  1.29s/it] 12%|█▏        | 12156/100000 [6:39:20<31:00:50,  1.27s/it]                                                            12%|█▏        | 12156/100000 [6:39:20<31:00:50,  1.27s/it] 12%|█▏        | 12157/100000 [6:39:21<30:38:33,  1.26s/it]                                                            12%|█▏        | 12157/100000 [6:39:21<30:38:33,  1.26s/it] 12%|█▏        | 12158/100000 [6:39:22<29:55:55,  1.23s/it]                                                            12%|█▏        | 12158/100000 [6:39:22<29:55:55,  1.23s/it] 12%|█▏        | 12159/100000 [6:39:23<29:29:32,  1.21s/it]                                                            12%|█▏        | 12159/100000 [6:39:23<29:29:32,  1.21s/it] 12%|█▏        | 12160/100000 [6:39:24<29:07:05,  1.19s/it]                                                            12%|█▏        | 12160/100000 [6:39:24<29:07:05,  1.19s/it] 12%|█▏        | 12161/100000 [6:39:25<28:36:38,  1.17s/it]                                                            12%|█▏        | 12161/100000 [6:39:25<28:36:38,  1.17s/it] 12%|█▏        | 12162/100000 [6:39:26<28:16:07,  1.16s/it]                                                            12%|█▏        | 12162/100000 [6:39:26<28:16:07,  1.16s/it] 12%|█▏        | 12163/100000 [6:39:28<27:41:51,  1.14s/it]                                                            12%|█▏        | 12163/100000 [6:39:28<27:41:51,  1.14s/it] 12%|█▏        | 12164/100000 [6:39:29<27:25:25,  1.12s/it]                                                            12%|█▏        | 12164/100000 [6:39:29<27:25:25,  1.12s/it] 12%|█▏        | 12165/100000 [6:39:30<27:00:40,  1.11s/it]                                                            12%|█▏        | 12165/100000 [6:39:30<27:00:40,  1.11s/it] 12%|█▏        | 12166/100000 [6:39:31<26:50:06,  1.10s/it]                                                            12%|█▏        | 12166/100000 [6:39:31<26:50:06,  1.10s/it] 12%|█▏        | 12167/100000 [6:39:32<26:29:06,  1.09s/it]                                                            12%|█▏        | 12167/100000 [6:39:32<26:29:06,  1.09s/it] 12%|█▏        | 12168/100000 [6:39:33<26:07:24,  1.07s/it]                                                            12%|█▏        | 12168/100000 [6:39:33<26:07:24,  1.07s/it] 12%|█▏        | 12169/100000 [6:39:34<25:35:37,  1.05s/it]                                                            12%|█▏        | 12169/100000 [6:39:34<25:35:37,  1.05s/it] 12%|█▏        | 12170/100000 [6:39:35<25:12:02,  1.03s/it]                                                            12%|█▏        | 12170/100000 [6:39:35<25:12:02,  1.03s/it] 12%|█▏        | 12171/100000 [6:39:36<24:49:15,  1.02s/it]                                                            12%|█▏        | 12171/100000 [6:39:36<24:49:15,  1.02s/it] 12%|█▏        | 12172/100000 [6:39:37<24:16:34,  1.00it/s]                                                            12%|█▏        | 12172/100000 [6:39:37<24:16:34,  1.00it/s] 12%|█▏        | 12173/100000 [6:39:38<23:31:52,  1.04it/s]                                                            12%|█▏        | 12173/100000 [6:39:38<23:31:52,  1.04it/s] 12%|█▏        | 12174/100000 [6:39:39<23:12:25,  1.05it/s]                                                            12%|█▏        | 12174/100000 [6:39:39<23:12:25,  1.05it/s] 12%|█▏        | 12175/100000 [6:39:50<96:01:43,  3.94s/it]                                                            12%|█▏        | 12175/100000 [6:39:50<96:01:43,  3.94s/it] 12%|█▏        | 12176/100000 [6:39:55<108:37:32,  4.45s/it]                                                             12%|█▏        | 12176/100000 [6:39:55<108:37:32,  4.45s/it] 12%|█▏        | 12177/100000 [6:40:00<109:55:03,  4.51s/it]                                                             12%|█▏        | 12177/100000 [6:40:00<109:55:03,  4.51s/it] 12%|█▏        | 12178/100000 [6:40:04<105:17:26,  4.32s/it]                                                             12%|█▏        | 12178/100000 [6:40:04<105:17:26,  4.32s/it] 12%|█▏        | 12179/100000 [6:40:07<99:15:37,  4.07s/it]                                                             12%|█▏        | 12179/100000 [6:40:07<99:15:37,  4.07s/it] 12%|█▏        | 12180/100000 [6:40:10<91:28:06,  3.75s/it]                                                            12%|█▏        | 12180/100000 [6:40:10<91:28:06,  3.75s/it] 12%|█▏        | 12181/100000 [6:40:13<85:11:06,  3.49s/it]                                                            12%|█▏        | 12181/100000 [6:40:13<85:11:06,  3.49s/it] 12%|█▏        | 12182/100000 [6:40:16<78:04:36,  3.20s/it]                                                            12%|█▏        | 12182/100000 [6:40:16<78:04:36,  3.20s/it] 12%|█▏        | 12183/100000 [6:40:18<72:42:25,  2.98s/it]                                                            12%|█▏        | 12183/100000 [6:40:18<72:42:25,  2.98s/it] 12%|█▏        | 12184/100000 [6:40:20<67:52:18,  2.78s/it]                                                            12%|█▏        | 12184/100000 [6:40:20<67:52:18,  2.78s/it] 12%|█▏        | 12185/100000 [6:40:23<63:27:33,  2.60s/it]                                                            12%|█▏        | 12185/100000 [6:40:23<63:27:33,  2.60s/it] 12%|█▏        | 12186/100000 [6:40:25<59:34:06,  2.44s/it]                                                            12%|█▏        | 12186/100000 [6:40:25<59:34:06,  2.44s/it] 12%|█▏        | 12187/100000 [6:40:27<56:02:50,  2.30s/it]                                                            12%|█▏        | 12187/100000 [6:40:27<56:02:50,  2.30s/it] 12%|█▏        | 12188/100000 [6:40:28<52:53:04,  2.17s/it]                                                            12%|█▏        | 12188/100000 [6:40:28<52:53:04,  2.17s/it] 12%|█▏        | 12189/100000 [6:40:30<49:56:21,  2.05s/it]                                                            12%|█▏        | 12189/100000 [6:40:30<49:56:21,  2.05s/it] 12%|█▏        | 12190/100000 [6:40:32<47:30:16,  1.95s/it]                                                            12%|█▏        | 12190/100000 [6:40:32<47:30:16,  1.95s/it] 12%|█▏        | 12191/100000 [6:40:34<45:20:18,  1.86s/it]                                                            12%|█▏        | 12191/100000 [6:40:34<45:20:18,  1.86s/it] 12%|█▏        | 12192/100000 [6:40:35<43:26:09,  1.78s/it]                                                            12%|█▏        | 12192/100000 [6:40:35<43:26:09,  1.78s/it] 12%|█▏        | 12193/100000 [6:40:37<41:45:02,  1.71s/it]                                                            12%|█▏        | 12193/100000 [6:40:37<41:45:02,  1.71s/it] 12%|█▏        | 12194/100000 [6:40:38<39:35:06,  1.62s/it]                                                            12%|█▏        | 12194/100000 [6:40:38<39:35:06,  1.62s/it] 12%|█▏        | 12195/100000 [6:40:40<38:15:14,  1.57s/it]                                                            12%|█▏        | 12195/100000 [6:40:40<38:15:14,  1.57s/it] 12%|█▏        | 12196/100000 [6:40:41<37:22:22,  1.53s/it]                                                            12%|█▏        | 12196/100000 [6:40:41<37:22:22,  1.53s/it] 12%|█▏        | 12197/100000 [6:40:42<36:21:28,  1.49s/it]                                                            12%|█▏        | 12197/100000 [6:40:42<36:21:28,  1.49s/it] 12%|█▏        | 12198/100000 [6:40:44<35:07:30,  1.44s/it]                                                            12%|█▏        | 12198/100000 [6:40:44<35:07:30,  1.44s/it] 12%|█▏        | 12199/100000 [6:40:45<34:31:42,  1.42s/it]                                                            12%|█▏        | 12199/100000 [6:40:45<34:31:42,  1.42s/it] 12%|█▏        | 12200/100000 [6:40:46<33:49:51,  1.39s/it]                                                            12%|█▏        | 12200/100000 [6:40:46<33:49:51,  1.39s/it] 12%|█▏        | 12201/100000 [6:40:48<33:19:19,  1.37s/it]                                                            12%|█▏        | 12201/100000 [6:40:48<33:19:19,  1.37s/it] 12%|█▏        | 12202/100000 [6:40:49<33:02:40,  1.35s/it]                                                            12%|█▏        | 12202/100000 [6:40:49<33:02:40,  1.35s/it] 12%|█▏        | 12203/100000 [6:40:50<32:40:22,  1.34s/it]                                                            12%|█▏        | 12203/100000 [6:40:50<32:40:22,  1.34s/it] 12%|█▏        | 12204/100000 [6:40:52<32:06:19,  1.32s/it]                                                            12%|█▏        | 12204/100000 [6:40:52<32:06:19,  1.32s/it] 12%|█▏        | 12205/100000 [6:40:53<31:43:29,  1.30s/it]                                                            12%|█▏        | 12205/100000 [6:40:53<31:43:29,  1.30s/it] 12%|█▏        | 12206/100000 [6:40:54<30:55:49,  1.27s/it]                                                            12%|█▏        | 12206/100000 [6:40:54<30:55:49,  1.27s/it] 12%|█▏        | 12207/100000 [6:40:55<30:33:58,  1.25s/it]                                                            12%|█▏        | 12207/100000 [6:40:55<30:33:58,  1.25s/it] 12%|█▏        | 12208/100000 [6:40:57<30:11:27,  1.24s/it]                                                            12%|█▏        | 12208/100000 [6:40:57<30:11:27,  1.24s/it] 12%|█▏        | 12209/100000 [6:40:58<29:15:54,  1.20s/it]                                                            12%|█▏        | 12209/100000 [6:40:58<29:15:54,  1.20s/it] 12%|█▏        | 12210/100000 [6:40:59<28:53:33,  1.18s/it]                                                            12%|█▏        | 12210/100000 [6:40:59<28:53:33,  1.18s/it] 12%|█▏        | 12211/100000 [6:41:00<28:26:35,  1.17s/it]                                                            12%|█▏        | 12211/100000 [6:41:00<28:26:35,  1.17s/it] 12%|█▏        | 12212/100000 [6:41:01<27:55:42,  1.15s/it]                                                            12%|█▏        | 12212/100000 [6:41:01<27:55:42,  1.15s/it] 12%|█▏        | 12213/100000 [6:41:02<27:49:48,  1.14s/it]                                                            12%|█▏        | 12213/100000 [6:41:02<27:49:48,  1.14s/it] 12%|█▏        | 12214/100000 [6:41:03<27:31:20,  1.13s/it]                                                            12%|█▏        | 12214/100000 [6:41:03<27:31:20,  1.13s/it] 12%|█▏        | 12215/100000 [6:41:04<27:08:20,  1.11s/it]                                                            12%|█▏        | 12215/100000 [6:41:04<27:08:20,  1.11s/it] 12%|█▏        | 12216/100000 [6:41:05<26:53:19,  1.10s/it]                                                            12%|█▏        | 12216/100000 [6:41:05<26:53:19,  1.10s/it] 12%|█▏        | 12217/100000 [6:41:06<26:31:19,  1.09s/it]                                                            12%|█▏        | 12217/100000 [6:41:06<26:31:19,  1.09s/it] 12%|█▏        | 12218/100000 [6:41:07<25:51:48,  1.06s/it]                                                            12%|█▏        | 12218/100000 [6:41:07<25:51:48,  1.06s/it] 12%|█▏        | 12219/100000 [6:41:08<25:15:34,  1.04s/it]                                                            12%|█▏        | 12219/100000 [6:41:08<25:15:34,  1.04s/it] 12%|█▏        | 12220/100000 [6:41:09<24:44:44,  1.01s/it]                                                            12%|█▏        | 12220/100000 [6:41:09<24:44:44,  1.01s/it] 12%|█▏        | 12221/100000 [6:41:10<24:16:32,  1.00it/s]                                                            12%|█▏        | 12221/100000 [6:41:10<24:16:32,  1.00it/s] 12%|█▏        | 12222/100000 [6:41:11<24:10:55,  1.01it/s]                                                            12%|█▏        | 12222/100000 [6:41:11<24:10:55,  1.01it/s] 12%|█▏        | 12223/100000 [6:41:12<23:46:11,  1.03it/s]                                                            12%|█▏        | 12223/100000 [6:41:12<23:46:11,  1.03it/s] 12%|█▏        | 12224/100000 [6:41:13<22:56:19,  1.06it/s]                                                            12%|█▏        | 12224/100000 [6:41:13<22:56:19,  1.06it/s] 12%|█▏        | 12225/100000 [6:41:25<104:23:53,  4.28s/it]                                                             12%|█▏        | 12225/100000 [6:41:25<104:23:53,  4.28s/it] 12%|█▏        | 12226/100000 [6:41:31<115:51:28,  4.75s/it]                                                             12%|█▏        | 12226/100000 [6:41:31<115:51:28,  4.75s/it] 12%|█▏        | 12227/100000 [6:41:36<115:42:31,  4.75s/it]                                                             12%|█▏        | 12227/100000 [6:41:36<115:42:31,  4.75s/it] 12%|█▏        | 12228/100000 [6:41:40<110:57:33,  4.55s/it]                                                             12%|█▏        | 12228/100000 [6:41:40<110:57:33,  4.55s/it] 12%|█▏        | 12229/100000 [6:41:44<104:16:58,  4.28s/it]                                                             12%|█▏        | 12229/100000 [6:41:44<104:16:58,  4.28s/it] 12%|█▏        | 12230/100000 [6:41:47<97:19:18,  3.99s/it]                                                             12%|█▏        | 12230/100000 [6:41:47<97:19:18,  3.99s/it] 12%|█▏        | 12231/100000 [6:41:50<90:08:29,  3.70s/it]                                                            12%|█▏        | 12231/100000 [6:41:50<90:08:29,  3.70s/it] 12%|█▏        | 12232/100000 [6:41:53<83:36:58,  3.43s/it]                                                            12%|█▏        | 12232/100000 [6:41:53<83:36:58,  3.43s/it] 12%|█▏        | 12233/100000 [6:41:55<77:35:39,  3.18s/it]                                                           {'loss': 0.0055, 'grad_norm': 0.22934889793395996, 'learning_rate': 2.9282666666666667e-05, 'epoch': 22.43}
+{'loss': 0.0066, 'grad_norm': 0.20013564825057983, 'learning_rate': 2.9282333333333336e-05, 'epoch': 22.43}
+{'loss': 0.0065, 'grad_norm': 0.31481319665908813, 'learning_rate': 2.9282e-05, 'epoch': 22.43}
+{'loss': 0.0077, 'grad_norm': 0.24155759811401367, 'learning_rate': 2.9281666666666668e-05, 'epoch': 22.43}
+{'loss': 0.0069, 'grad_norm': 0.3853037655353546, 'learning_rate': 2.9281333333333337e-05, 'epoch': 22.43}
+{'loss': 0.009, 'grad_norm': 0.42370277643203735, 'learning_rate': 2.9281e-05, 'epoch': 22.44}
+{'loss': 0.0079, 'grad_norm': 0.27092936635017395, 'learning_rate': 2.928066666666667e-05, 'epoch': 22.44}
+{'loss': 0.0111, 'grad_norm': 0.27856534719467163, 'learning_rate': 2.9280333333333335e-05, 'epoch': 22.44}
+{'loss': 0.0193, 'grad_norm': 1.4294368028640747, 'learning_rate': 2.928e-05, 'epoch': 22.44}
+{'loss': 0.0051, 'grad_norm': 0.217570498585701, 'learning_rate': 2.9279666666666667e-05, 'epoch': 22.44}
+{'loss': 0.0093, 'grad_norm': 0.3201679587364197, 'learning_rate': 2.9279333333333336e-05, 'epoch': 22.45}
+{'loss': 0.0029, 'grad_norm': 0.0861976221203804, 'learning_rate': 2.9279e-05, 'epoch': 22.45}
+{'loss': 0.0094, 'grad_norm': 0.27611875534057617, 'learning_rate': 2.9278666666666668e-05, 'epoch': 22.45}
+{'loss': 0.0118, 'grad_norm': 0.5227705240249634, 'learning_rate': 2.9278333333333334e-05, 'epoch': 22.45}
+{'loss': 0.0103, 'grad_norm': 0.28735342621803284, 'learning_rate': 2.9278e-05, 'epoch': 22.45}
+{'loss': 0.006, 'grad_norm': 0.2518790066242218, 'learning_rate': 2.927766666666667e-05, 'epoch': 22.45}
+{'loss': 0.0067, 'grad_norm': 0.21540474891662598, 'learning_rate': 2.9277333333333332e-05, 'epoch': 22.46}
+{'loss': 0.005, 'grad_norm': 0.17142251133918762, 'learning_rate': 2.9277e-05, 'epoch': 22.46}
+{'loss': 0.007, 'grad_norm': 0.544914960861206, 'learning_rate': 2.9276666666666667e-05, 'epoch': 22.46}
+{'loss': 0.0282, 'grad_norm': 0.5627887845039368, 'learning_rate': 2.9276333333333333e-05, 'epoch': 22.46}
+{'loss': 0.1304, 'grad_norm': 0.5315102338790894, 'learning_rate': 2.9276e-05, 'epoch': 22.46}
+{'loss': 0.1575, 'grad_norm': 0.6638376712799072, 'learning_rate': 2.9275666666666668e-05, 'epoch': 22.47}
+{'loss': 0.0801, 'grad_norm': 0.543993353843689, 'learning_rate': 2.9275333333333334e-05, 'epoch': 22.47}
+{'loss': 0.1037, 'grad_norm': 0.48404455184936523, 'learning_rate': 2.9275e-05, 'epoch': 22.47}
+{'loss': 0.1334, 'grad_norm': 0.5442525744438171, 'learning_rate': 2.927466666666667e-05, 'epoch': 22.47}
+{'loss': 0.0792, 'grad_norm': 0.3651285767555237, 'learning_rate': 2.9274333333333332e-05, 'epoch': 22.47}
+{'loss': 0.0938, 'grad_norm': 0.6731127500534058, 'learning_rate': 2.9274e-05, 'epoch': 22.47}
+{'loss': 0.0419, 'grad_norm': 0.34531083703041077, 'learning_rate': 2.9273666666666667e-05, 'epoch': 22.48}
+{'loss': 0.0674, 'grad_norm': 0.4028952717781067, 'learning_rate': 2.9273333333333333e-05, 'epoch': 22.48}
+{'loss': 0.0481, 'grad_norm': 0.358442485332489, 'learning_rate': 2.9273000000000002e-05, 'epoch': 22.48}
+{'loss': 0.0316, 'grad_norm': 0.44311586022377014, 'learning_rate': 2.927266666666667e-05, 'epoch': 22.48}
+{'loss': 0.0895, 'grad_norm': 0.32679107785224915, 'learning_rate': 2.9272333333333334e-05, 'epoch': 22.48}
+{'loss': 0.0197, 'grad_norm': 0.44924479722976685, 'learning_rate': 2.9272e-05, 'epoch': 22.49}
+{'loss': 0.0312, 'grad_norm': 0.22197957336902618, 'learning_rate': 2.927166666666667e-05, 'epoch': 22.49}
+{'loss': 0.0378, 'grad_norm': 0.22441096603870392, 'learning_rate': 2.9271333333333332e-05, 'epoch': 22.49}
+{'loss': 0.0108, 'grad_norm': 0.24108120799064636, 'learning_rate': 2.9271e-05, 'epoch': 22.49}
+{'loss': 0.017, 'grad_norm': 0.22874818742275238, 'learning_rate': 2.9270666666666667e-05, 'epoch': 22.49}
+{'loss': 0.0107, 'grad_norm': 0.3547055423259735, 'learning_rate': 2.9270333333333333e-05, 'epoch': 22.49}
+{'loss': 0.0065, 'grad_norm': 0.1598084270954132, 'learning_rate': 2.9270000000000003e-05, 'epoch': 22.5}
+{'loss': 0.0057, 'grad_norm': 0.1760522723197937, 'learning_rate': 2.926966666666667e-05, 'epoch': 22.5}
+{'loss': 0.0042, 'grad_norm': 0.1980983018875122, 'learning_rate': 2.9269333333333335e-05, 'epoch': 22.5}
+{'loss': 0.0054, 'grad_norm': 0.24898752570152283, 'learning_rate': 2.9269e-05, 'epoch': 22.5}
+{'loss': 0.0061, 'grad_norm': 0.42561447620391846, 'learning_rate': 2.9268666666666666e-05, 'epoch': 22.5}
+{'loss': 0.0088, 'grad_norm': 0.3103271424770355, 'learning_rate': 2.9268333333333332e-05, 'epoch': 22.51}
+{'loss': 0.008, 'grad_norm': 0.2575102746486664, 'learning_rate': 2.9268e-05, 'epoch': 22.51}
+{'loss': 0.0051, 'grad_norm': 0.14075084030628204, 'learning_rate': 2.9267666666666664e-05, 'epoch': 22.51}
+{'loss': 0.0121, 'grad_norm': 0.38890862464904785, 'learning_rate': 2.9267333333333334e-05, 'epoch': 22.51}
+{'loss': 0.0037, 'grad_norm': 0.15616172552108765, 'learning_rate': 2.9267000000000003e-05, 'epoch': 22.51}
+{'loss': 0.0101, 'grad_norm': 0.5177579522132874, 'learning_rate': 2.9266666666666665e-05, 'epoch': 22.52}
+{'loss': 0.0072, 'grad_norm': 0.20640073716640472, 'learning_rate': 2.9266333333333335e-05, 'epoch': 22.52}
+{'loss': 0.01, 'grad_norm': 0.2602652907371521, 'learning_rate': 2.9266e-05, 'epoch': 22.52}
+{'loss': 0.0082, 'grad_norm': 0.29666656255722046, 'learning_rate': 2.9265666666666667e-05, 'epoch': 22.52}
+{'loss': 0.0111, 'grad_norm': 0.33792397379875183, 'learning_rate': 2.9265333333333333e-05, 'epoch': 22.52}
+{'loss': 0.0093, 'grad_norm': 0.22936464846134186, 'learning_rate': 2.9265000000000002e-05, 'epoch': 22.52}
+{'loss': 0.0086, 'grad_norm': 0.270159512758255, 'learning_rate': 2.9264666666666668e-05, 'epoch': 22.53}
+{'loss': 0.0035, 'grad_norm': 0.14591240882873535, 'learning_rate': 2.9264333333333334e-05, 'epoch': 22.53}
+{'loss': 0.0059, 'grad_norm': 0.15915511548519135, 'learning_rate': 2.9264000000000003e-05, 'epoch': 22.53}
+{'loss': 0.0053, 'grad_norm': 0.20213396847248077, 'learning_rate': 2.9263666666666666e-05, 'epoch': 22.53}
+{'loss': 0.008, 'grad_norm': 0.26984938979148865, 'learning_rate': 2.9263333333333335e-05, 'epoch': 22.53}
+{'loss': 0.009, 'grad_norm': 0.3322078287601471, 'learning_rate': 2.9263e-05, 'epoch': 22.54}
+{'loss': 0.0101, 'grad_norm': 0.7859511375427246, 'learning_rate': 2.9262666666666667e-05, 'epoch': 22.54}
+{'loss': 0.0044, 'grad_norm': 0.18283531069755554, 'learning_rate': 2.9262333333333333e-05, 'epoch': 22.54}
+{'loss': 0.0115, 'grad_norm': 0.3152421712875366, 'learning_rate': 2.9262000000000002e-05, 'epoch': 22.54}
+{'loss': 0.0057, 'grad_norm': 0.24157525599002838, 'learning_rate': 2.9261666666666668e-05, 'epoch': 22.54}
+{'loss': 0.0093, 'grad_norm': 0.26296094059944153, 'learning_rate': 2.9261333333333334e-05, 'epoch': 22.54}
+{'loss': 0.0098, 'grad_norm': 0.4341523051261902, 'learning_rate': 2.9261000000000003e-05, 'epoch': 22.55}
+{'loss': 0.0048, 'grad_norm': 0.2000827044248581, 'learning_rate': 2.9260666666666666e-05, 'epoch': 22.55}
+{'loss': 0.0083, 'grad_norm': 0.4425687789916992, 'learning_rate': 2.9260333333333335e-05, 'epoch': 22.55}
+{'loss': 0.0098, 'grad_norm': 0.3309001922607422, 'learning_rate': 2.926e-05, 'epoch': 22.55}
+{'loss': 0.0151, 'grad_norm': 0.18561774492263794, 'learning_rate': 2.9259666666666667e-05, 'epoch': 22.55}
+{'loss': 0.1422, 'grad_norm': 0.5745847225189209, 'learning_rate': 2.9259333333333333e-05, 'epoch': 22.56}
+{'loss': 0.1035, 'grad_norm': 0.4258785545825958, 'learning_rate': 2.9259e-05, 'epoch': 22.56}
+{'loss': 0.093, 'grad_norm': 0.554884672164917, 'learning_rate': 2.9258666666666668e-05, 'epoch': 22.56}
+{'loss': 0.0755, 'grad_norm': 0.35626792907714844, 'learning_rate': 2.9258333333333334e-05, 'epoch': 22.56}
+{'loss': 0.0659, 'grad_norm': 0.5393857955932617, 'learning_rate': 2.9258e-05, 'epoch': 22.56}
+{'loss': 0.0474, 'grad_norm': 0.43814486265182495, 'learning_rate': 2.9257666666666666e-05, 'epoch': 22.57}
+{'loss': 0.0505, 'grad_norm': 0.6040318012237549, 'learning_rate': 2.9257333333333335e-05, 'epoch': 22.57}
+{'loss': 0.064, 'grad_norm': 0.4554961919784546, 'learning_rate': 2.9256999999999998e-05, 'epoch': 22.57}
+ 12%|█▏        | 12233/100000 [6:41:55<77:35:39,  3.18s/it] 12%|█▏        | 12234/100000 [6:41:58<71:43:09,  2.94s/it]                                                            12%|█▏        | 12234/100000 [6:41:58<71:43:09,  2.94s/it] 12%|█▏        | 12235/100000 [6:42:00<66:22:54,  2.72s/it]                                                            12%|█▏        | 12235/100000 [6:42:00<66:22:54,  2.72s/it] 12%|█▏        | 12236/100000 [6:42:02<61:16:03,  2.51s/it]                                                            12%|█▏        | 12236/100000 [6:42:02<61:16:03,  2.51s/it] 12%|█▏        | 12237/100000 [6:42:04<56:38:27,  2.32s/it]                                                            12%|█▏        | 12237/100000 [6:42:04<56:38:27,  2.32s/it] 12%|█▏        | 12238/100000 [6:42:06<52:28:06,  2.15s/it]                                                            12%|█▏        | 12238/100000 [6:42:06<52:28:06,  2.15s/it] 12%|█▏        | 12239/100000 [6:42:07<49:02:25,  2.01s/it]                                                            12%|█▏        | 12239/100000 [6:42:07<49:02:25,  2.01s/it] 12%|█▏        | 12240/100000 [6:42:09<46:43:38,  1.92s/it]                                                            12%|█▏        | 12240/100000 [6:42:09<46:43:38,  1.92s/it] 12%|█▏        | 12241/100000 [6:42:10<44:13:49,  1.81s/it]                                                            12%|█▏        | 12241/100000 [6:42:10<44:13:49,  1.81s/it] 12%|█▏        | 12242/100000 [6:42:12<42:33:26,  1.75s/it]                                                            12%|█▏        | 12242/100000 [6:42:12<42:33:26,  1.75s/it] 12%|█▏        | 12243/100000 [6:42:14<41:03:02,  1.68s/it]                                                            12%|█▏        | 12243/100000 [6:42:14<41:03:02,  1.68s/it] 12%|█▏        | 12244/100000 [6:42:15<39:21:15,  1.61s/it]                                                            12%|█▏        | 12244/100000 [6:42:15<39:21:15,  1.61s/it] 12%|█▏        | 12245/100000 [6:42:17<38:14:23,  1.57s/it]                                                            12%|█▏        | 12245/100000 [6:42:17<38:14:23,  1.57s/it] 12%|█▏        | 12246/100000 [6:42:18<37:10:11,  1.52s/it]                                                            12%|█▏        | 12246/100000 [6:42:18<37:10:11,  1.52s/it] 12%|█▏        | 12247/100000 [6:42:19<36:26:22,  1.49s/it]                                                            12%|█▏        | 12247/100000 [6:42:19<36:26:22,  1.49s/it] 12%|█▏        | 12248/100000 [6:42:21<35:40:50,  1.46s/it]                                                            12%|█▏        | 12248/100000 [6:42:21<35:40:50,  1.46s/it] 12%|█▏        | 12249/100000 [6:42:22<35:04:58,  1.44s/it]                                                            12%|█▏        | 12249/100000 [6:42:22<35:04:58,  1.44s/it] 12%|█▏        | 12250/100000 [6:42:23<34:18:35,  1.41s/it]                                                            12%|█▏        | 12250/100000 [6:42:23<34:18:35,  1.41s/it] 12%|█▏        | 12251/100000 [6:42:25<33:42:51,  1.38s/it]                                                            12%|█▏        | 12251/100000 [6:42:25<33:42:51,  1.38s/it] 12%|█▏        | 12252/100000 [6:42:26<33:15:42,  1.36s/it]                                                            12%|█▏        | 12252/100000 [6:42:26<33:15:42,  1.36s/it] 12%|█▏        | 12253/100000 [6:42:27<32:45:13,  1.34s/it]                                                            12%|█▏        | 12253/100000 [6:42:27<32:45:13,  1.34s/it] 12%|█▏        | 12254/100000 [6:42:29<32:16:37,  1.32s/it]                                                            12%|█▏        | 12254/100000 [6:42:29<32:16:37,  1.32s/it] 12%|█▏        | 12255/100000 [6:42:30<31:53:07,  1.31s/it]                                                            12%|█▏        | 12255/100000 [6:42:30<31:53:07,  1.31s/it] 12%|█▏        | 12256/100000 [6:42:31<31:11:09,  1.28s/it]                                                            12%|█▏        | 12256/100000 [6:42:31<31:11:09,  1.28s/it] 12%|█▏        | 12257/100000 [6:42:32<30:47:10,  1.26s/it]                                                            12%|█▏        | 12257/100000 [6:42:32<30:47:10,  1.26s/it] 12%|█▏        | 12258/100000 [6:42:34<30:25:41,  1.25s/it]                                                            12%|█▏        | 12258/100000 [6:42:34<30:25:41,  1.25s/it] 12%|█▏        | 12259/100000 [6:42:35<29:41:21,  1.22s/it]                                                            12%|█▏        | 12259/100000 [6:42:35<29:41:21,  1.22s/it] 12%|█▏        | 12260/100000 [6:42:36<29:16:55,  1.20s/it]                                                            12%|█▏        | 12260/100000 [6:42:36<29:16:55,  1.20s/it] 12%|█▏        | 12261/100000 [6:42:37<28:42:39,  1.18s/it]                                                            12%|█▏        | 12261/100000 [6:42:37<28:42:39,  1.18s/it] 12%|█▏        | 12262/100000 [6:42:38<28:23:34,  1.17s/it]                                                            12%|█▏        | 12262/100000 [6:42:38<28:23:34,  1.17s/it] 12%|█▏        | 12263/100000 [6:42:39<27:55:09,  1.15s/it]                                                            12%|█▏        | 12263/100000 [6:42:39<27:55:09,  1.15s/it] 12%|█▏        | 12264/100000 [6:42:40<27:33:21,  1.13s/it]                                                            12%|█▏        | 12264/100000 [6:42:40<27:33:21,  1.13s/it] 12%|█▏        | 12265/100000 [6:42:41<27:05:44,  1.11s/it]                                                            12%|█▏        | 12265/100000 [6:42:41<27:05:44,  1.11s/it] 12%|█▏        | 12266/100000 [6:42:43<26:48:53,  1.10s/it]                                                            12%|█▏        | 12266/100000 [6:42:43<26:48:53,  1.10s/it] 12%|█▏        | 12267/100000 [6:42:44<26:28:40,  1.09s/it]                                                            12%|█▏        | 12267/100000 [6:42:44<26:28:40,  1.09s/it] 12%|█▏        | 12268/100000 [6:42:45<26:08:59,  1.07s/it]                                                            12%|█▏        | 12268/100000 [6:42:45<26:08:59,  1.07s/it] 12%|█▏        | 12269/100000 [6:42:46<25:48:04,  1.06s/it]                                                            12%|█▏        | 12269/100000 [6:42:46<25:48:04,  1.06s/it] 12%|█▏        | 12270/100000 [6:42:47<26:15:10,  1.08s/it]                                                            12%|█▏        | 12270/100000 [6:42:47<26:15:10,  1.08s/it] 12%|█▏        | 12271/100000 [6:42:48<25:18:09,  1.04s/it]                                                            12%|█▏        | 12271/100000 [6:42:48<25:18:09,  1.04s/it] 12%|█▏        | 12272/100000 [6:42:49<24:28:27,  1.00s/it]                                                            12%|█▏        | 12272/100000 [6:42:49<24:28:27,  1.00s/it] 12%|█▏        | 12273/100000 [6:42:50<23:38:52,  1.03it/s]                                                            12%|█▏        | 12273/100000 [6:42:50<23:38:52,  1.03it/s] 12%|█▏        | 12274/100000 [6:42:50<22:46:48,  1.07it/s]                                                            12%|█▏        | 12274/100000 [6:42:50<22:46:48,  1.07it/s] 12%|█▏        | 12275/100000 [6:43:02<104:01:31,  4.27s/it]                                                             12%|█▏        | 12275/100000 [6:43:02<104:01:31,  4.27s/it] 12%|█▏        | 12276/100000 [6:43:08<110:44:03,  4.54s/it]                                                             12%|█▏        | 12276/100000 [6:43:08<110:44:03,  4.54s/it] 12%|█▏        | 12277/100000 [6:43:12<113:11:44,  4.65s/it]                                                             12%|█▏        | 12277/100000 [6:43:13<113:11:44,  4.65s/it] 12%|█▏        | 12278/100000 [6:43:17<109:36:32,  4.50s/it]                                                             12%|█▏        | 12278/100000 [6:43:17<109:36:32,  4.50s/it] 12%|█▏        | 12279/100000 [6:43:20<104:08:09,  4.27s/it]                                                             12%|█▏        | 12279/100000 [6:43:20<104:08:09,  4.27s/it] 12%|█▏        | 12280/100000 [6:43:24<97:23:41,  4.00s/it]                                                             12%|█▏        | 12280/100000 [6:43:24<97:23:41,  4.00s/it] 12%|█▏        | 12281/100000 [6:43:27<89:46:17,  3.68s/it]                                                            12%|█▏        | 12281/100000 [6:43:27<89:46:17,  3.68s/it] 12%|█▏        | 12282/100000 [6:43:29<83:14:14,  3.42s/it]                                                            12%|█▏        | 12282/100000 [6:43:30<83:14:14,  3.42s/it] 12%|█▏        | 12283/100000 [6:43:32<76:05:43,  3.12s/it]                                                            12%|█▏        | 12283/100000 [6:43:32<76:05:43,  3.12s/it] 12%|█▏        | 12284/100000 [6:43:34<70:29:22,  2.89s/it]                                                            12%|█▏        | 12284/100000 [6:43:34<70:29:22,  2.89s/it] 12%|█▏        | 12285/100000 [6:43:36<65:23:06,  2.68s/it]                                                            12%|█▏        | 12285/100000 [6:43:36<65:23:06,  2.68s/it] 12%|█▏        | 12286/100000 [6:43:38<60:19:46,  2.48s/it]                                                            12%|█▏        | 12286/100000 [6:43:38<60:19:46,  2.48s/it] 12%|█▏        | 12287/100000 [6:43:40<56:27:54,  2.32s/it]                                                            12%|█▏        | 12287/100000 [6:43:40<56:27:54,  2.32s/it] 12%|█▏        | 12288/100000 [6:43:42<52:54:29,  2.17s/it]                                                            12%|█▏        | 12288/100000 [6:43:42<52:54:29,  2.17s/it] 12%|█▏        | 12289/100000 [6:43:44<49:51:19,  2.05s/it]                                                            12%|█▏        | 12289/100000 [6:43:44<49:51:19,  2.05s/it] 12%|█▏        | 12290/100000 [6:43:46<47:14:12,  1.94s/it]                                                            12%|█▏        | 12290/100000 [6:43:46<47:14:12,  1.94s/it] 12%|█▏        | 12291/100000 [6:43:47<44:44:04,  1.84s/it]                                                            12%|█▏        | 12291/100000 [6:43:47<44:44:04,  1.84s/it] 12%|█▏        | 12292/100000 [6:43:49<42:52:57,  1.76s/it]                                                            12%|█▏        | 12292/100000 [6:43:49<42:52:57,  1.76s/it] 12%|█▏        | 12293/100000 [6:43:50<41:03:54,  1.69s/it]                                                            12%|█▏        | 12293/100000 [6:43:50<41:03:54,  1.69s/it] 12%|█▏        | 12294/100000 [6:43:52<39:39:16,  1.63s/it]                                                            12%|█▏        | 12294/100000 [6:43:52<39:39:16,  1.63s/it] 12%|█▏        | 12295/100000 [6:43:53<38:10:02,  1.57s/it]                                                            12%|█▏        | 12295/100000 [6:43:53<38:10:02,  1.57s/it] 12%|█▏        | 12296/100000 [6:43:55<37:20:17,  1.53s/it]                                                            12%|█▏        | 12296/100000 [6:43:55<37:20:17,  1.53s/it] 12%|█▏        | 12297/100000 [6:43:56<36:29:00,  1.50s/it]                                                            12%|█▏        | 12297/100000 [6:43:56<36:29:00,  1.50s/it] 12%|█▏        | 12298/100000 [6:43:58<35:44:48,  1.47s/it]                                                            12%|█▏        | 12298/100000 [6:43:58<35:44:48,  1.47s/it] 12%|█▏        | 12299/100000 [6:43:59<34:51:36,  1.43s/it]                                                            12%|█▏        | 12299/100000 [6:43:59<34:51:36,  1.43s/it] 12%|█▏        | 12300/100000 [6:44:00<33:55:37,  1.39s/it]                                                            12%|█▏        | 12300/100000 [6:44:00<33:55:37,  1.39s/it] 12%|█▏        | 12301/100000 [6:44:02<33:29:14,  1.37s/it]                                                            12%|█▏        | 12301/100000 [6:44:02<33:29:14,  1.37s/it] 12%|█▏        | 12302/100000 [6:44:03<32:46:49,  1.35s/it]                                                            12%|█▏        | 12302/100000 [6:44:03<32:46:49,  1.35s/it] 12%|█▏        | 12303/100000 [6:44:04<32:17:38,  1.33s/it]                                                            12%|█▏        | 12303/100000 [6:44:04<32:17:38,  1.33s/it] 12%|█▏        | 12304/100000 [6:44:05<31:52:45,  1.31s/it]                                                            12%|█▏        | 12304/100000 [6:44:05<31:52:45,  1.31s/it] 12%|█▏        | 12305/100000 [6:44:07<31:34:17,  1.30s/it]                                                            12%|█▏        | 12305/100000 [6:44:07<31:34:17,  1.30s/it] 12%|█▏        | 12306/100000 [6:44:08<30:58:21,  1.27s/it]                                                            12%|█▏        | 12306/100000 [6:44:08<30:58:21,  1.27s/it] 12%|█▏        | 12307/100000 [6:44:09<30:39:38,  1.26s/it]                                                            12%|█▏        | 12307/100000 [6:44:09<30:39:38,  1.26s/it] 12%|█▏        | 12308/100000 [6:44:10<30:22:58,  1.25s/it]                                                            12%|█▏        | 12308/100000 [6:44:10<30:22:58,  1.25s/it] 12%|█▏        | 12309/100000 [6:44:11<29:40:20,  1.22s/it]                                                            12%|█▏        | 12309/100000 [6:44:11<29:40:20,  1.22s/it] 12%|█▏        | 12310/100000 [6:44:13<29:13:34,  1.20s/it]                                                            12%|█▏        | 12310/100000 [6:44:13<29:13:34,  1.20s/it] 12%|█▏        | 12311/100000 [6:44:14<28:43:41,  1.18s/it]                                                           {'loss': 0.0463, 'grad_norm': 0.36496084928512573, 'learning_rate': 2.9256666666666667e-05, 'epoch': 22.57}
+{'loss': 0.038, 'grad_norm': 0.8404495716094971, 'learning_rate': 2.9256333333333337e-05, 'epoch': 22.57}
+{'loss': 0.0317, 'grad_norm': 0.37269464135169983, 'learning_rate': 2.9256e-05, 'epoch': 22.57}
+{'loss': 0.0335, 'grad_norm': 0.659870445728302, 'learning_rate': 2.925566666666667e-05, 'epoch': 22.58}
+{'loss': 0.0308, 'grad_norm': 0.22030824422836304, 'learning_rate': 2.9255333333333334e-05, 'epoch': 22.58}
+{'loss': 0.0477, 'grad_norm': 0.3626607358455658, 'learning_rate': 2.9255e-05, 'epoch': 22.58}
+{'loss': 0.0113, 'grad_norm': 0.2966305911540985, 'learning_rate': 2.9254666666666666e-05, 'epoch': 22.58}
+{'loss': 0.0311, 'grad_norm': 0.3302536904811859, 'learning_rate': 2.9254333333333336e-05, 'epoch': 22.58}
+{'loss': 0.0076, 'grad_norm': 0.1487927883863449, 'learning_rate': 2.9253999999999998e-05, 'epoch': 22.59}
+{'loss': 0.0106, 'grad_norm': 0.22927799820899963, 'learning_rate': 2.9253666666666667e-05, 'epoch': 22.59}
+{'loss': 0.0095, 'grad_norm': 0.1772453337907791, 'learning_rate': 2.9253333333333337e-05, 'epoch': 22.59}
+{'loss': 0.0099, 'grad_norm': 0.6161147356033325, 'learning_rate': 2.9253e-05, 'epoch': 22.59}
+{'loss': 0.0298, 'grad_norm': 0.16344311833381653, 'learning_rate': 2.925266666666667e-05, 'epoch': 22.59}
+{'loss': 0.0086, 'grad_norm': 0.299240380525589, 'learning_rate': 2.9252333333333335e-05, 'epoch': 22.59}
+{'loss': 0.0075, 'grad_norm': 0.23759780824184418, 'learning_rate': 2.9252e-05, 'epoch': 22.6}
+{'loss': 0.0048, 'grad_norm': 0.14949437975883484, 'learning_rate': 2.9251666666666666e-05, 'epoch': 22.6}
+{'loss': 0.0061, 'grad_norm': 0.2368757277727127, 'learning_rate': 2.9251333333333336e-05, 'epoch': 22.6}
+{'loss': 0.0055, 'grad_norm': 0.2707505226135254, 'learning_rate': 2.9250999999999998e-05, 'epoch': 22.6}
+{'loss': 0.023, 'grad_norm': 0.34671154618263245, 'learning_rate': 2.9250666666666668e-05, 'epoch': 22.6}
+{'loss': 0.0025, 'grad_norm': 0.14770708978176117, 'learning_rate': 2.9250333333333337e-05, 'epoch': 22.61}
+{'loss': 0.0089, 'grad_norm': 0.30914875864982605, 'learning_rate': 2.925e-05, 'epoch': 22.61}
+{'loss': 0.0096, 'grad_norm': 0.3850860893726349, 'learning_rate': 2.924966666666667e-05, 'epoch': 22.61}
+{'loss': 0.0407, 'grad_norm': 0.7597085237503052, 'learning_rate': 2.9249333333333335e-05, 'epoch': 22.61}
+{'loss': 0.0022, 'grad_norm': 0.13821229338645935, 'learning_rate': 2.9249e-05, 'epoch': 22.61}
+{'loss': 0.0092, 'grad_norm': 0.2871163487434387, 'learning_rate': 2.9248666666666667e-05, 'epoch': 22.61}
+{'loss': 0.0068, 'grad_norm': 0.17912018299102783, 'learning_rate': 2.9248333333333333e-05, 'epoch': 22.62}
+{'loss': 0.0055, 'grad_norm': 0.21821361780166626, 'learning_rate': 2.9248000000000002e-05, 'epoch': 22.62}
+{'loss': 0.0034, 'grad_norm': 0.09547823667526245, 'learning_rate': 2.9247666666666668e-05, 'epoch': 22.62}
+{'loss': 0.0101, 'grad_norm': 0.2564859092235565, 'learning_rate': 2.9247333333333334e-05, 'epoch': 22.62}
+{'loss': 0.0173, 'grad_norm': 0.37441202998161316, 'learning_rate': 2.9247e-05, 'epoch': 22.62}
+{'loss': 0.0136, 'grad_norm': 0.3169558644294739, 'learning_rate': 2.924666666666667e-05, 'epoch': 22.63}
+{'loss': 0.0113, 'grad_norm': 0.4918834865093231, 'learning_rate': 2.924633333333333e-05, 'epoch': 22.63}
+{'loss': 0.0171, 'grad_norm': 0.4788316786289215, 'learning_rate': 2.9246e-05, 'epoch': 22.63}
+{'loss': 0.0084, 'grad_norm': 0.18662941455841064, 'learning_rate': 2.9245666666666667e-05, 'epoch': 22.63}
+{'loss': 0.0075, 'grad_norm': 0.2884886860847473, 'learning_rate': 2.9245333333333333e-05, 'epoch': 22.63}
+{'loss': 0.0111, 'grad_norm': 0.32492247223854065, 'learning_rate': 2.9245000000000002e-05, 'epoch': 22.64}
+{'loss': 0.0052, 'grad_norm': 0.16241343319416046, 'learning_rate': 2.9244666666666668e-05, 'epoch': 22.64}
+{'loss': 0.0159, 'grad_norm': 0.8470730781555176, 'learning_rate': 2.9244333333333334e-05, 'epoch': 22.64}
+{'loss': 0.0084, 'grad_norm': 0.6832287311553955, 'learning_rate': 2.9244e-05, 'epoch': 22.64}
+{'loss': 0.0117, 'grad_norm': 0.7469265460968018, 'learning_rate': 2.924366666666667e-05, 'epoch': 22.64}
+{'loss': 0.013, 'grad_norm': 0.5027961134910583, 'learning_rate': 2.9243333333333332e-05, 'epoch': 22.64}
+{'loss': 0.0101, 'grad_norm': 0.536918580532074, 'learning_rate': 2.9243e-05, 'epoch': 22.65}
+{'loss': 0.111, 'grad_norm': 0.6451272368431091, 'learning_rate': 2.9242666666666667e-05, 'epoch': 22.65}
+{'loss': 0.1548, 'grad_norm': 0.576657235622406, 'learning_rate': 2.9242333333333333e-05, 'epoch': 22.65}
+{'loss': 0.0777, 'grad_norm': 0.4048967957496643, 'learning_rate': 2.9242000000000002e-05, 'epoch': 22.65}
+{'loss': 0.0728, 'grad_norm': 0.6146196722984314, 'learning_rate': 2.9241666666666668e-05, 'epoch': 22.65}
+{'loss': 0.0761, 'grad_norm': 0.541233479976654, 'learning_rate': 2.9241333333333334e-05, 'epoch': 22.66}
+{'loss': 0.0583, 'grad_norm': 0.49906066060066223, 'learning_rate': 2.9241e-05, 'epoch': 22.66}
+{'loss': 0.0799, 'grad_norm': 0.3858031928539276, 'learning_rate': 2.924066666666667e-05, 'epoch': 22.66}
+{'loss': 0.0415, 'grad_norm': 0.34499648213386536, 'learning_rate': 2.9240333333333332e-05, 'epoch': 22.66}
+{'loss': 0.0449, 'grad_norm': 0.5997113585472107, 'learning_rate': 2.924e-05, 'epoch': 22.66}
+{'loss': 0.0362, 'grad_norm': 0.35634171962738037, 'learning_rate': 2.923966666666667e-05, 'epoch': 22.66}
+{'loss': 0.0327, 'grad_norm': 0.37014394998550415, 'learning_rate': 2.9239333333333333e-05, 'epoch': 22.67}
+{'loss': 0.0628, 'grad_norm': 0.49967631697654724, 'learning_rate': 2.9239000000000002e-05, 'epoch': 22.67}
+{'loss': 0.0292, 'grad_norm': 0.2549503743648529, 'learning_rate': 2.9238666666666665e-05, 'epoch': 22.67}
+{'loss': 0.015, 'grad_norm': 0.5967966318130493, 'learning_rate': 2.9238333333333334e-05, 'epoch': 22.67}
+{'loss': 0.0207, 'grad_norm': 0.36082586646080017, 'learning_rate': 2.9238e-05, 'epoch': 22.67}
+{'loss': 0.0234, 'grad_norm': 0.5506548285484314, 'learning_rate': 2.9237666666666666e-05, 'epoch': 22.68}
+{'loss': 0.0488, 'grad_norm': 0.3026949465274811, 'learning_rate': 2.9237333333333332e-05, 'epoch': 22.68}
+{'loss': 0.0094, 'grad_norm': 0.1955622285604477, 'learning_rate': 2.9237e-05, 'epoch': 22.68}
+{'loss': 0.0082, 'grad_norm': 0.1570124328136444, 'learning_rate': 2.9236666666666667e-05, 'epoch': 22.68}
+{'loss': 0.0144, 'grad_norm': 0.2552327811717987, 'learning_rate': 2.9236333333333333e-05, 'epoch': 22.68}
+{'loss': 0.0078, 'grad_norm': 0.16709206998348236, 'learning_rate': 2.9236000000000003e-05, 'epoch': 22.69}
+{'loss': 0.0126, 'grad_norm': 0.3998396694660187, 'learning_rate': 2.9235666666666665e-05, 'epoch': 22.69}
+{'loss': 0.0095, 'grad_norm': 0.30569109320640564, 'learning_rate': 2.9235333333333335e-05, 'epoch': 22.69}
+{'loss': 0.0078, 'grad_norm': 0.14271549880504608, 'learning_rate': 2.9235e-05, 'epoch': 22.69}
+{'loss': 0.0067, 'grad_norm': 0.2638216018676758, 'learning_rate': 2.9234666666666666e-05, 'epoch': 22.69}
+{'loss': 0.0054, 'grad_norm': 0.2199135720729828, 'learning_rate': 2.9234333333333332e-05, 'epoch': 22.69}
+{'loss': 0.0059, 'grad_norm': 0.22184860706329346, 'learning_rate': 2.9234e-05, 'epoch': 22.7}
+{'loss': 0.0062, 'grad_norm': 0.2710758447647095, 'learning_rate': 2.9233666666666668e-05, 'epoch': 22.7}
+{'loss': 0.0252, 'grad_norm': 0.38386720418930054, 'learning_rate': 2.9233333333333334e-05, 'epoch': 22.7}
+{'loss': 0.0105, 'grad_norm': 0.23074857890605927, 'learning_rate': 2.9233000000000003e-05, 'epoch': 22.7}
+{'loss': 0.0064, 'grad_norm': 0.12127603590488434, 'learning_rate': 2.9232666666666665e-05, 'epoch': 22.7}
+{'loss': 0.0078, 'grad_norm': 0.29814377427101135, 'learning_rate': 2.9232333333333335e-05, 'epoch': 22.71}
+{'loss': 0.0058, 'grad_norm': 0.18820050358772278, 'learning_rate': 2.9232e-05, 'epoch': 22.71}
+{'loss': 0.0119, 'grad_norm': 0.3828445374965668, 'learning_rate': 2.9231666666666667e-05, 'epoch': 22.71}
+{'loss': 0.0095, 'grad_norm': 0.3817533850669861, 'learning_rate': 2.9231333333333336e-05, 'epoch': 22.71}
+{'loss': 0.0106, 'grad_norm': 0.270891398191452, 'learning_rate': 2.9231000000000002e-05, 'epoch': 22.71}
+ 12%|█▏        | 12311/100000 [6:44:14<28:43:41,  1.18s/it] 12%|█▏        | 12312/100000 [6:44:15<28:28:21,  1.17s/it]                                                            12%|█▏        | 12312/100000 [6:44:15<28:28:21,  1.17s/it] 12%|█▏        | 12313/100000 [6:44:16<28:10:31,  1.16s/it]                                                            12%|█▏        | 12313/100000 [6:44:16<28:10:31,  1.16s/it] 12%|█▏        | 12314/100000 [6:44:17<27:45:23,  1.14s/it]                                                            12%|█▏        | 12314/100000 [6:44:17<27:45:23,  1.14s/it] 12%|█▏        | 12315/100000 [6:44:18<27:26:08,  1.13s/it]                                                            12%|█▏        | 12315/100000 [6:44:18<27:26:08,  1.13s/it] 12%|█▏        | 12316/100000 [6:44:19<27:04:29,  1.11s/it]                                                            12%|█▏        | 12316/100000 [6:44:19<27:04:29,  1.11s/it] 12%|█▏        | 12317/100000 [6:44:20<26:38:53,  1.09s/it]                                                            12%|█▏        | 12317/100000 [6:44:20<26:38:53,  1.09s/it] 12%|█▏        | 12318/100000 [6:44:21<26:09:48,  1.07s/it]                                                            12%|█▏        | 12318/100000 [6:44:21<26:09:48,  1.07s/it] 12%|█▏        | 12319/100000 [6:44:22<25:40:26,  1.05s/it]                                                            12%|█▏        | 12319/100000 [6:44:22<25:40:26,  1.05s/it] 12%|█▏        | 12320/100000 [6:44:23<25:14:06,  1.04s/it]                                                            12%|█▏        | 12320/100000 [6:44:23<25:14:06,  1.04s/it] 12%|█▏        | 12321/100000 [6:44:24<24:49:14,  1.02s/it]                                                            12%|█▏        | 12321/100000 [6:44:24<24:49:14,  1.02s/it] 12%|█▏        | 12322/100000 [6:44:25<24:27:09,  1.00s/it]                                                            12%|█▏        | 12322/100000 [6:44:25<24:27:09,  1.00s/it] 12%|█▏        | 12323/100000 [6:44:26<24:16:17,  1.00it/s]                                                            12%|█▏        | 12323/100000 [6:44:26<24:16:17,  1.00it/s] 12%|█▏        | 12324/100000 [6:44:27<23:32:09,  1.03it/s]                                                            12%|█▏        | 12324/100000 [6:44:27<23:32:09,  1.03it/s] 12%|█▏        | 12325/100000 [6:44:39<104:12:59,  4.28s/it]                                                             12%|█▏        | 12325/100000 [6:44:39<104:12:59,  4.28s/it] 12%|█▏        | 12326/100000 [6:44:45<115:00:22,  4.72s/it]                                                             12%|█▏        | 12326/100000 [6:44:45<115:00:22,  4.72s/it] 12%|█▏        | 12327/100000 [6:44:49<112:20:53,  4.61s/it]                                                             12%|█▏        | 12327/100000 [6:44:49<112:20:53,  4.61s/it] 12%|█▏        | 12328/100000 [6:44:53<107:57:44,  4.43s/it]                                                             12%|█▏        | 12328/100000 [6:44:53<107:57:44,  4.43s/it] 12%|█▏        | 12329/100000 [6:44:57<101:44:02,  4.18s/it]                                                             12%|█▏        | 12329/100000 [6:44:57<101:44:02,  4.18s/it] 12%|█▏        | 12330/100000 [6:45:00<94:50:07,  3.89s/it]                                                             12%|█▏        | 12330/100000 [6:45:00<94:50:07,  3.89s/it] 12%|█▏        | 12331/100000 [6:45:03<88:02:10,  3.62s/it]                                                            12%|█▏        | 12331/100000 [6:45:03<88:02:10,  3.62s/it] 12%|█▏        | 12332/100000 [6:45:06<81:46:22,  3.36s/it]                                                            12%|█▏        | 12332/100000 [6:45:06<81:46:22,  3.36s/it] 12%|█▏        | 12333/100000 [6:45:08<75:40:54,  3.11s/it]                                                            12%|█▏        | 12333/100000 [6:45:08<75:40:54,  3.11s/it] 12%|█▏        | 12334/100000 [6:45:11<70:15:31,  2.89s/it]                                                            12%|█▏        | 12334/100000 [6:45:11<70:15:31,  2.89s/it] 12%|█▏        | 12335/100000 [6:45:13<65:04:15,  2.67s/it]                                                            12%|█▏        | 12335/100000 [6:45:13<65:04:15,  2.67s/it] 12%|█▏        | 12336/100000 [6:45:15<60:16:42,  2.48s/it]                                                            12%|█▏        | 12336/100000 [6:45:15<60:16:42,  2.48s/it] 12%|█▏        | 12337/100000 [6:45:17<56:06:45,  2.30s/it]                                                            12%|█▏        | 12337/100000 [6:45:17<56:06:45,  2.30s/it] 12%|█▏        | 12338/100000 [6:45:19<51:28:19,  2.11s/it]                                                            12%|█▏        | 12338/100000 [6:45:19<51:28:19,  2.11s/it] 12%|█▏        | 12339/100000 [6:45:20<48:31:49,  1.99s/it]                                                            12%|█▏        | 12339/100000 [6:45:20<48:31:49,  1.99s/it] 12%|█▏        | 12340/100000 [6:45:22<45:39:01,  1.87s/it]                                                            12%|█▏        | 12340/100000 [6:45:22<45:39:01,  1.87s/it] 12%|█▏        | 12341/100000 [6:45:23<43:42:52,  1.80s/it]                                                            12%|█▏        | 12341/100000 [6:45:23<43:42:52,  1.80s/it] 12%|█▏        | 12342/100000 [6:45:25<41:51:59,  1.72s/it]                                                            12%|█▏        | 12342/100000 [6:45:25<41:51:59,  1.72s/it] 12%|█▏        | 12343/100000 [6:45:26<40:05:42,  1.65s/it]                                                            12%|█▏        | 12343/100000 [6:45:26<40:05:42,  1.65s/it] 12%|█▏        | 12344/100000 [6:45:28<38:43:19,  1.59s/it]                                                            12%|█▏        | 12344/100000 [6:45:28<38:43:19,  1.59s/it] 12%|█▏        | 12345/100000 [6:45:29<37:37:57,  1.55s/it]                                                            12%|█▏        | 12345/100000 [6:45:29<37:37:57,  1.55s/it] 12%|█▏        | 12346/100000 [6:45:31<36:24:14,  1.50s/it]                                                            12%|█▏        | 12346/100000 [6:45:31<36:24:14,  1.50s/it] 12%|█▏        | 12347/100000 [6:45:32<35:41:20,  1.47s/it]                                                            12%|█▏        | 12347/100000 [6:45:32<35:41:20,  1.47s/it] 12%|█▏        | 12348/100000 [6:45:34<34:56:21,  1.44s/it]                                                            12%|█▏        | 12348/100000 [6:45:34<34:56:21,  1.44s/it] 12%|█▏        | 12349/100000 [6:45:35<34:12:57,  1.41s/it]                                                            12%|█▏        | 12349/100000 [6:45:35<34:12:57,  1.41s/it] 12%|█▏        | 12350/100000 [6:45:36<33:44:25,  1.39s/it]                                                            12%|█▏        | 12350/100000 [6:45:36<33:44:25,  1.39s/it] 12%|█▏        | 12351/100000 [6:45:38<33:18:19,  1.37s/it]                                                            12%|█▏        | 12351/100000 [6:45:38<33:18:19,  1.37s/it] 12%|█▏        | 12352/100000 [6:45:39<32:33:47,  1.34s/it]                                                            12%|█▏        | 12352/100000 [6:45:39<32:33:47,  1.34s/it] 12%|█▏        | 12353/100000 [6:45:40<32:16:22,  1.33s/it]                                                            12%|█▏        | 12353/100000 [6:45:40<32:16:22,  1.33s/it] 12%|█▏        | 12354/100000 [6:45:41<31:52:04,  1.31s/it]                                                            12%|█▏        | 12354/100000 [6:45:41<31:52:04,  1.31s/it] 12%|█▏        | 12355/100000 [6:45:43<31:25:35,  1.29s/it]                                                            12%|█▏        | 12355/100000 [6:45:43<31:25:35,  1.29s/it] 12%|█▏        | 12356/100000 [6:45:44<30:59:45,  1.27s/it]                                                            12%|█▏        | 12356/100000 [6:45:44<30:59:45,  1.27s/it] 12%|█▏        | 12357/100000 [6:45:45<30:37:08,  1.26s/it]                                                            12%|█▏        | 12357/100000 [6:45:45<30:37:08,  1.26s/it] 12%|█▏        | 12358/100000 [6:45:46<29:48:10,  1.22s/it]                                                            12%|█▏        | 12358/100000 [6:45:46<29:48:10,  1.22s/it] 12%|█▏        | 12359/100000 [6:45:47<29:20:10,  1.21s/it]                                                            12%|█▏        | 12359/100000 [6:45:47<29:20:10,  1.21s/it] 12%|█▏        | 12360/100000 [6:45:48<28:45:10,  1.18s/it]                                                            12%|█▏        | 12360/100000 [6:45:48<28:45:10,  1.18s/it] 12%|█▏        | 12361/100000 [6:45:50<28:24:00,  1.17s/it]                                                            12%|█▏        | 12361/100000 [6:45:50<28:24:00,  1.17s/it] 12%|█▏        | 12362/100000 [6:45:51<28:06:29,  1.15s/it]                                                            12%|█▏        | 12362/100000 [6:45:51<28:06:29,  1.15s/it] 12%|█▏        | 12363/100000 [6:45:52<27:43:33,  1.14s/it]                                                            12%|█▏        | 12363/100000 [6:45:52<27:43:33,  1.14s/it] 12%|█▏        | 12364/100000 [6:45:53<27:22:29,  1.12s/it]                                                            12%|█▏        | 12364/100000 [6:45:53<27:22:29,  1.12s/it] 12%|█▏        | 12365/100000 [6:45:54<27:04:49,  1.11s/it]                                                            12%|█▏        | 12365/100000 [6:45:54<27:04:49,  1.11s/it] 12%|█▏        | 12366/100000 [6:45:55<26:45:56,  1.10s/it]                                                            12%|█▏        | 12366/100000 [6:45:55<26:45:56,  1.10s/it] 12%|█▏        | 12367/100000 [6:45:56<26:22:18,  1.08s/it]                                                            12%|█▏        | 12367/100000 [6:45:56<26:22:18,  1.08s/it] 12%|█▏        | 12368/100000 [6:45:57<26:00:45,  1.07s/it]                                                            12%|█▏        | 12368/100000 [6:45:57<26:00:45,  1.07s/it] 12%|█▏        | 12369/100000 [6:45:58<25:29:35,  1.05s/it]                                                            12%|█▏        | 12369/100000 [6:45:58<25:29:35,  1.05s/it] 12%|█▏        | 12370/100000 [6:45:59<24:55:45,  1.02s/it]                                                            12%|█▏        | 12370/100000 [6:45:59<24:55:45,  1.02s/it] 12%|█▏        | 12371/100000 [6:46:00<24:32:38,  1.01s/it]                                                            12%|█▏        | 12371/100000 [6:46:00<24:32:38,  1.01s/it] 12%|█▏        | 12372/100000 [6:46:01<24:17:00,  1.00it/s]                                                            12%|█▏        | 12372/100000 [6:46:01<24:17:00,  1.00it/s] 12%|█▏        | 12373/100000 [6:46:02<23:44:24,  1.03it/s]                                                            12%|█▏        | 12373/100000 [6:46:02<23:44:24,  1.03it/s] 12%|█▏        | 12374/100000 [6:46:03<22:56:24,  1.06it/s]                                                            12%|█▏        | 12374/100000 [6:46:03<22:56:24,  1.06it/s] 12%|█▏        | 12375/100000 [6:46:14<96:30:26,  3.96s/it]                                                            12%|█▏        | 12375/100000 [6:46:14<96:30:26,  3.96s/it] 12%|█▏        | 12376/100000 [6:46:19<106:32:40,  4.38s/it]                                                             12%|█▏        | 12376/100000 [6:46:19<106:32:40,  4.38s/it] 12%|█▏        | 12377/100000 [6:46:23<104:50:56,  4.31s/it]                                                             12%|█▏        | 12377/100000 [6:46:23<104:50:56,  4.31s/it] 12%|█▏        | 12378/100000 [6:46:27<101:46:54,  4.18s/it]                                                             12%|█▏        | 12378/100000 [6:46:27<101:46:54,  4.18s/it] 12%|█▏        | 12379/100000 [6:46:31<96:14:43,  3.95s/it]                                                             12%|█▏        | 12379/100000 [6:46:31<96:14:43,  3.95s/it] 12%|█▏        | 12380/100000 [6:46:34<88:55:50,  3.65s/it]                                                            12%|█▏        | 12380/100000 [6:46:34<88:55:50,  3.65s/it] 12%|█▏        | 12381/100000 [6:46:36<82:46:25,  3.40s/it]                                                            12%|█▏        | 12381/100000 [6:46:36<82:46:25,  3.40s/it] 12%|█▏        | 12382/100000 [6:46:39<76:58:03,  3.16s/it]                                                            12%|█▏        | 12382/100000 [6:46:39<76:58:03,  3.16s/it] 12%|█▏        | 12383/100000 [6:46:41<71:08:33,  2.92s/it]                                                            12%|█▏        | 12383/100000 [6:46:41<71:08:33,  2.92s/it] 12%|█▏        | 12384/100000 [6:46:44<65:46:18,  2.70s/it]                                                            12%|█▏        | 12384/100000 [6:46:44<65:46:18,  2.70s/it] 12%|█▏        | 12385/100000 [6:46:46<61:11:46,  2.51s/it]                                                            12%|█▏        | 12385/100000 [6:46:46<61:11:46,  2.51s/it] 12%|█▏        | 12386/100000 [6:46:48<56:42:00,  2.33s/it]                                                            12%|█▏        | 12386/100000 [6:46:48<56:42:00,  2.33s/it] 12%|█▏        | 12387/100000 [6:46:49<53:14:00,  2.19s/it]                                                            12%|█▏        | 12387/100000 [6:46:49<53:14:00,  2.19s/it] 12%|█▏        | 12388/100000 [6:46:51<50:03:43,  2.06s/it]                                                            12%|█▏        | 12388/100000 [6:46:51<50:03:43,  2.06s/it] 12%|█▏        | 12389/100000 [6:46:53<47:29:02,  1.95s/it]                                                            12%|█▏        | 12389/100000 [6:46:53<47:29:02,  1.95s/it] 12%|█▏        | 12390/100000 [6:46:55<45:10:29,  1.86s/it]                                                           {'loss': 0.0034, 'grad_norm': 0.09616384655237198, 'learning_rate': 2.9230666666666668e-05, 'epoch': 22.71}
+{'loss': 0.0027, 'grad_norm': 0.16380581259727478, 'learning_rate': 2.9230333333333334e-05, 'epoch': 22.72}
+{'loss': 0.0121, 'grad_norm': 0.35364049673080444, 'learning_rate': 2.9230000000000003e-05, 'epoch': 22.72}
+{'loss': 0.0134, 'grad_norm': 0.4222791790962219, 'learning_rate': 2.9229666666666666e-05, 'epoch': 22.72}
+{'loss': 0.0047, 'grad_norm': 0.3655267655849457, 'learning_rate': 2.9229333333333335e-05, 'epoch': 22.72}
+{'loss': 0.0056, 'grad_norm': 0.1754109412431717, 'learning_rate': 2.9229e-05, 'epoch': 22.72}
+{'loss': 0.0084, 'grad_norm': 0.21043196320533752, 'learning_rate': 2.9228666666666667e-05, 'epoch': 22.73}
+{'loss': 0.008, 'grad_norm': 0.26307398080825806, 'learning_rate': 2.9228333333333336e-05, 'epoch': 22.73}
+{'loss': 0.0064, 'grad_norm': 0.43681734800338745, 'learning_rate': 2.9228e-05, 'epoch': 22.73}
+{'loss': 0.0069, 'grad_norm': 0.267784059047699, 'learning_rate': 2.9227666666666668e-05, 'epoch': 22.73}
+{'loss': 0.0081, 'grad_norm': 0.22806259989738464, 'learning_rate': 2.9227333333333334e-05, 'epoch': 22.73}
+{'loss': 0.0072, 'grad_norm': 0.16762927174568176, 'learning_rate': 2.9227e-05, 'epoch': 22.73}
+{'loss': 0.0075, 'grad_norm': 0.41946953535079956, 'learning_rate': 2.9226666666666666e-05, 'epoch': 22.74}
+{'loss': 0.0139, 'grad_norm': 0.3906378448009491, 'learning_rate': 2.9226333333333335e-05, 'epoch': 22.74}
+{'loss': 0.1396, 'grad_norm': 0.5999815464019775, 'learning_rate': 2.9226e-05, 'epoch': 22.74}
+{'loss': 0.0924, 'grad_norm': 0.3809105157852173, 'learning_rate': 2.9225666666666667e-05, 'epoch': 22.74}
+{'loss': 0.053, 'grad_norm': 0.3599500060081482, 'learning_rate': 2.9225333333333336e-05, 'epoch': 22.74}
+{'loss': 0.0831, 'grad_norm': 0.529497504234314, 'learning_rate': 2.9225e-05, 'epoch': 22.75}
+{'loss': 0.0952, 'grad_norm': 0.5233191847801208, 'learning_rate': 2.9224666666666668e-05, 'epoch': 22.75}
+{'loss': 0.1162, 'grad_norm': 0.5627424716949463, 'learning_rate': 2.9224333333333334e-05, 'epoch': 22.75}
+{'loss': 0.0477, 'grad_norm': 0.5519795417785645, 'learning_rate': 2.9224e-05, 'epoch': 22.75}
+{'loss': 0.0557, 'grad_norm': 0.6382800936698914, 'learning_rate': 2.9223666666666666e-05, 'epoch': 22.75}
+{'loss': 0.037, 'grad_norm': 0.3135432004928589, 'learning_rate': 2.9223333333333335e-05, 'epoch': 22.76}
+{'loss': 0.0289, 'grad_norm': 0.26903706789016724, 'learning_rate': 2.9223e-05, 'epoch': 22.76}
+{'loss': 0.0197, 'grad_norm': 0.3219813108444214, 'learning_rate': 2.9222666666666667e-05, 'epoch': 22.76}
+{'loss': 0.0809, 'grad_norm': 0.611541211605072, 'learning_rate': 2.9222333333333337e-05, 'epoch': 22.76}
+{'loss': 0.0344, 'grad_norm': 0.5747827291488647, 'learning_rate': 2.9222e-05, 'epoch': 22.76}
+{'loss': 0.022, 'grad_norm': 0.2298043668270111, 'learning_rate': 2.922166666666667e-05, 'epoch': 22.76}
+{'loss': 0.0213, 'grad_norm': 0.3402498960494995, 'learning_rate': 2.9221333333333334e-05, 'epoch': 22.77}
+{'loss': 0.0232, 'grad_norm': 0.2586126923561096, 'learning_rate': 2.9221e-05, 'epoch': 22.77}
+{'loss': 0.0079, 'grad_norm': 0.15024542808532715, 'learning_rate': 2.9220666666666666e-05, 'epoch': 22.77}
+{'loss': 0.0245, 'grad_norm': 0.3457852900028229, 'learning_rate': 2.9220333333333336e-05, 'epoch': 22.77}
+{'loss': 0.0227, 'grad_norm': 0.1955130249261856, 'learning_rate': 2.922e-05, 'epoch': 22.77}
+{'loss': 0.0053, 'grad_norm': 0.16288869082927704, 'learning_rate': 2.9219666666666667e-05, 'epoch': 22.78}
+{'loss': 0.0078, 'grad_norm': 0.17608100175857544, 'learning_rate': 2.9219333333333337e-05, 'epoch': 22.78}
+{'loss': 0.013, 'grad_norm': 0.3658122420310974, 'learning_rate': 2.9219e-05, 'epoch': 22.78}
+{'loss': 0.004, 'grad_norm': 0.130655437707901, 'learning_rate': 2.921866666666667e-05, 'epoch': 22.78}
+{'loss': 0.0066, 'grad_norm': 0.4952363967895508, 'learning_rate': 2.921833333333333e-05, 'epoch': 22.78}
+{'loss': 0.009, 'grad_norm': 0.278836727142334, 'learning_rate': 2.9218e-05, 'epoch': 22.78}
+{'loss': 0.0044, 'grad_norm': 0.13057789206504822, 'learning_rate': 2.9217666666666666e-05, 'epoch': 22.79}
+{'loss': 0.006, 'grad_norm': 0.15483197569847107, 'learning_rate': 2.9217333333333332e-05, 'epoch': 22.79}
+{'loss': 0.0126, 'grad_norm': 0.6134659051895142, 'learning_rate': 2.9217e-05, 'epoch': 22.79}
+{'loss': 0.0077, 'grad_norm': 0.2991887927055359, 'learning_rate': 2.9216666666666668e-05, 'epoch': 22.79}
+{'loss': 0.003, 'grad_norm': 0.1424655318260193, 'learning_rate': 2.9216333333333334e-05, 'epoch': 22.79}
+{'loss': 0.0358, 'grad_norm': 1.4153794050216675, 'learning_rate': 2.9216e-05, 'epoch': 22.8}
+{'loss': 0.004, 'grad_norm': 0.13688984513282776, 'learning_rate': 2.921566666666667e-05, 'epoch': 22.8}
+{'loss': 0.0066, 'grad_norm': 0.38424474000930786, 'learning_rate': 2.921533333333333e-05, 'epoch': 22.8}
+{'loss': 0.0051, 'grad_norm': 0.19820640981197357, 'learning_rate': 2.9215e-05, 'epoch': 22.8}
+{'loss': 0.007, 'grad_norm': 0.20740287005901337, 'learning_rate': 2.921466666666667e-05, 'epoch': 22.8}
+{'loss': 0.0036, 'grad_norm': 0.14528685808181763, 'learning_rate': 2.9214333333333333e-05, 'epoch': 22.81}
+{'loss': 0.0283, 'grad_norm': 0.1387391835451126, 'learning_rate': 2.9214000000000002e-05, 'epoch': 22.81}
+{'loss': 0.0107, 'grad_norm': 0.3198137581348419, 'learning_rate': 2.9213666666666668e-05, 'epoch': 22.81}
+{'loss': 0.0076, 'grad_norm': 0.6842020750045776, 'learning_rate': 2.9213333333333334e-05, 'epoch': 22.81}
+{'loss': 0.0049, 'grad_norm': 0.3192748725414276, 'learning_rate': 2.9213e-05, 'epoch': 22.81}
+{'loss': 0.0048, 'grad_norm': 0.15512192249298096, 'learning_rate': 2.921266666666667e-05, 'epoch': 22.81}
+{'loss': 0.0041, 'grad_norm': 0.15249937772750854, 'learning_rate': 2.921233333333333e-05, 'epoch': 22.82}
+{'loss': 0.0116, 'grad_norm': 0.44840556383132935, 'learning_rate': 2.9212e-05, 'epoch': 22.82}
+{'loss': 0.0089, 'grad_norm': 0.5910830497741699, 'learning_rate': 2.921166666666667e-05, 'epoch': 22.82}
+{'loss': 0.0104, 'grad_norm': 0.25855201482772827, 'learning_rate': 2.9211333333333333e-05, 'epoch': 22.82}
+{'loss': 0.0112, 'grad_norm': 0.25850245356559753, 'learning_rate': 2.9211000000000002e-05, 'epoch': 22.82}
+{'loss': 0.0103, 'grad_norm': 0.40904897451400757, 'learning_rate': 2.9210666666666668e-05, 'epoch': 22.83}
+{'loss': 0.0101, 'grad_norm': 0.4205116927623749, 'learning_rate': 2.9210333333333334e-05, 'epoch': 22.83}
+{'loss': 0.0056, 'grad_norm': 0.2385093718767166, 'learning_rate': 2.921e-05, 'epoch': 22.83}
+{'loss': 0.0096, 'grad_norm': 0.3131072223186493, 'learning_rate': 2.920966666666667e-05, 'epoch': 22.83}
+{'loss': 0.0993, 'grad_norm': 0.4860314130783081, 'learning_rate': 2.9209333333333335e-05, 'epoch': 22.83}
+{'loss': 0.1497, 'grad_norm': 0.5568736791610718, 'learning_rate': 2.9209e-05, 'epoch': 22.83}
+{'loss': 0.1676, 'grad_norm': 0.649315595626831, 'learning_rate': 2.9208666666666667e-05, 'epoch': 22.84}
+{'loss': 0.0722, 'grad_norm': 0.46940651535987854, 'learning_rate': 2.9208333333333333e-05, 'epoch': 22.84}
+{'loss': 0.0828, 'grad_norm': 0.43727776408195496, 'learning_rate': 2.9208000000000002e-05, 'epoch': 22.84}
+{'loss': 0.05, 'grad_norm': 0.6778110265731812, 'learning_rate': 2.9207666666666665e-05, 'epoch': 22.84}
+{'loss': 0.0321, 'grad_norm': 0.3043400049209595, 'learning_rate': 2.9207333333333334e-05, 'epoch': 22.84}
+{'loss': 0.0585, 'grad_norm': 0.590112566947937, 'learning_rate': 2.9207e-05, 'epoch': 22.85}
+{'loss': 0.0292, 'grad_norm': 0.3127261996269226, 'learning_rate': 2.9206666666666666e-05, 'epoch': 22.85}
+{'loss': 0.0343, 'grad_norm': 0.3524312973022461, 'learning_rate': 2.9206333333333335e-05, 'epoch': 22.85}
+{'loss': 0.021, 'grad_norm': 0.3275330662727356, 'learning_rate': 2.9206e-05, 'epoch': 22.85}
+{'loss': 0.0518, 'grad_norm': 0.2704507112503052, 'learning_rate': 2.9205666666666667e-05, 'epoch': 22.85}
+{'loss': 0.0167, 'grad_norm': 0.3582041263580322, 'learning_rate': 2.9205333333333333e-05, 'epoch': 22.86}
+{'loss': 0.0154, 'grad_norm': 0.334196537733078, 'learning_rate': 2.9205000000000002e-05, 'epoch': 22.86}
+{'loss': 0.0097, 'grad_norm': 0.23437385261058807, 'learning_rate': 2.9204666666666665e-05, 'epoch': 22.86}
+ 12%|█▏        | 12390/100000 [6:46:55<45:10:29,  1.86s/it] 12%|█▏        | 12391/100000 [6:46:56<43:16:11,  1.78s/it]                                                            12%|█▏        | 12391/100000 [6:46:56<43:16:11,  1.78s/it] 12%|█▏        | 12392/100000 [6:46:58<41:16:00,  1.70s/it]                                                            12%|█▏        | 12392/100000 [6:46:58<41:16:00,  1.70s/it] 12%|█▏        | 12393/100000 [6:46:59<39:26:46,  1.62s/it]                                                            12%|█▏        | 12393/100000 [6:46:59<39:26:46,  1.62s/it] 12%|█▏        | 12394/100000 [6:47:01<38:14:11,  1.57s/it]                                                            12%|█▏        | 12394/100000 [6:47:01<38:14:11,  1.57s/it] 12%|█▏        | 12395/100000 [6:47:02<37:14:53,  1.53s/it]                                                            12%|█▏        | 12395/100000 [6:47:02<37:14:53,  1.53s/it] 12%|█▏        | 12396/100000 [6:47:03<36:25:25,  1.50s/it]                                                            12%|█▏        | 12396/100000 [6:47:03<36:25:25,  1.50s/it] 12%|█▏        | 12397/100000 [6:47:05<35:27:38,  1.46s/it]                                                            12%|█▏        | 12397/100000 [6:47:05<35:27:38,  1.46s/it] 12%|█▏        | 12398/100000 [6:47:06<34:55:19,  1.44s/it]                                                            12%|█▏        | 12398/100000 [6:47:06<34:55:19,  1.44s/it] 12%|█▏        | 12399/100000 [6:47:07<34:20:45,  1.41s/it]                                                            12%|█▏        | 12399/100000 [6:47:07<34:20:45,  1.41s/it] 12%|█▏        | 12400/100000 [6:47:09<33:50:10,  1.39s/it]                                                            12%|█▏        | 12400/100000 [6:47:09<33:50:10,  1.39s/it] 12%|█▏        | 12401/100000 [6:47:10<33:17:08,  1.37s/it]                                                            12%|█▏        | 12401/100000 [6:47:10<33:17:08,  1.37s/it] 12%|█▏        | 12402/100000 [6:47:11<32:48:01,  1.35s/it]                                                            12%|█▏        | 12402/100000 [6:47:11<32:48:01,  1.35s/it] 12%|█▏        | 12403/100000 [6:47:13<32:19:02,  1.33s/it]                                                            12%|█▏        | 12403/100000 [6:47:13<32:19:02,  1.33s/it] 12%|█▏        | 12404/100000 [6:47:14<31:51:12,  1.31s/it]                                                            12%|█▏        | 12404/100000 [6:47:14<31:51:12,  1.31s/it] 12%|█▏        | 12405/100000 [6:47:15<31:27:28,  1.29s/it]                                                            12%|█▏        | 12405/100000 [6:47:15<31:27:28,  1.29s/it] 12%|█▏        | 12406/100000 [6:47:16<30:51:57,  1.27s/it]                                                            12%|█▏        | 12406/100000 [6:47:16<30:51:57,  1.27s/it] 12%|█▏        | 12407/100000 [6:47:18<30:30:33,  1.25s/it]                                                            12%|█▏        | 12407/100000 [6:47:18<30:30:33,  1.25s/it] 12%|█▏        | 12408/100000 [6:47:19<29:51:39,  1.23s/it]                                                            12%|█▏        | 12408/100000 [6:47:19<29:51:39,  1.23s/it] 12%|█▏        | 12409/100000 [6:47:20<29:23:45,  1.21s/it]                                                            12%|█▏        | 12409/100000 [6:47:20<29:23:45,  1.21s/it] 12%|█▏        | 12410/100000 [6:47:21<28:49:56,  1.19s/it]                                                            12%|█▏        | 12410/100000 [6:47:21<28:49:56,  1.19s/it] 12%|█▏        | 12411/100000 [6:47:22<28:27:13,  1.17s/it]                                                            12%|█▏        | 12411/100000 [6:47:22<28:27:13,  1.17s/it] 12%|█▏        | 12412/100000 [6:47:23<28:08:35,  1.16s/it]                                                            12%|█▏        | 12412/100000 [6:47:23<28:08:35,  1.16s/it] 12%|█▏        | 12413/100000 [6:47:24<27:43:29,  1.14s/it]                                                            12%|█▏        | 12413/100000 [6:47:24<27:43:29,  1.14s/it] 12%|█▏        | 12414/100000 [6:47:26<27:12:49,  1.12s/it]                                                            12%|█▏        | 12414/100000 [6:47:26<27:12:49,  1.12s/it] 12%|█▏        | 12415/100000 [6:47:27<26:47:30,  1.10s/it]                                                            12%|█▏        | 12415/100000 [6:47:27<26:47:30,  1.10s/it] 12%|█▏        | 12416/100000 [6:47:28<26:32:22,  1.09s/it]                                                            12%|█▏        | 12416/100000 [6:47:28<26:32:22,  1.09s/it] 12%|█▏        | 12417/100000 [6:47:29<26:05:52,  1.07s/it]                                                            12%|█▏        | 12417/100000 [6:47:29<26:05:52,  1.07s/it] 12%|█▏        | 12418/100000 [6:47:30<25:44:14,  1.06s/it]                                                            12%|█▏        | 12418/100000 [6:47:30<25:44:14,  1.06s/it] 12%|█▏        | 12419/100000 [6:47:31<25:16:45,  1.04s/it]                                                            12%|█▏        | 12419/100000 [6:47:31<25:16:45,  1.04s/it] 12%|█▏        | 12420/100000 [6:47:32<24:49:28,  1.02s/it]                                                            12%|█▏        | 12420/100000 [6:47:32<24:49:28,  1.02s/it] 12%|█▏        | 12421/100000 [6:47:33<24:30:03,  1.01s/it]                                                            12%|█▏        | 12421/100000 [6:47:33<24:30:03,  1.01s/it] 12%|█▏        | 12422/100000 [6:47:34<24:08:21,  1.01it/s]                                                            12%|█▏        | 12422/100000 [6:47:34<24:08:21,  1.01it/s] 12%|█▏        | 12423/100000 [6:47:35<23:37:58,  1.03it/s]                                                            12%|█▏        | 12423/100000 [6:47:35<23:37:58,  1.03it/s] 12%|█▏        | 12424/100000 [6:47:35<22:49:14,  1.07it/s]                                                            12%|█▏        | 12424/100000 [6:47:35<22:49:14,  1.07it/s] 12%|█▏        | 12425/100000 [6:47:46<92:52:30,  3.82s/it]                                                            12%|█▏        | 12425/100000 [6:47:46<92:52:30,  3.82s/it] 12%|█▏        | 12426/100000 [6:47:51<104:11:44,  4.28s/it]                                                             12%|█▏        | 12426/100000 [6:47:51<104:11:44,  4.28s/it] 12%|█▏        | 12427/100000 [6:47:56<104:44:25,  4.31s/it]                                                             12%|█▏        | 12427/100000 [6:47:56<104:44:25,  4.31s/it] 12%|█▏        | 12428/100000 [6:47:59<100:50:23,  4.15s/it]                                                             12%|█▏        | 12428/100000 [6:47:59<100:50:23,  4.15s/it] 12%|█▏        | 12429/100000 [6:48:03<94:35:46,  3.89s/it]                                                             12%|█▏        | 12429/100000 [6:48:03<94:35:46,  3.89s/it] 12%|█▏        | 12430/100000 [6:48:06<86:56:22,  3.57s/it]                                                            12%|█▏        | 12430/100000 [6:48:06<86:56:22,  3.57s/it] 12%|█▏        | 12431/100000 [6:48:08<80:25:57,  3.31s/it]                                                            12%|█▏        | 12431/100000 [6:48:08<80:25:57,  3.31s/it] 12%|█▏        | 12432/100000 [6:48:11<73:15:55,  3.01s/it]                                                            12%|█▏        | 12432/100000 [6:48:11<73:15:55,  3.01s/it] 12%|█▏        | 12433/100000 [6:48:13<67:00:23,  2.75s/it]                                                            12%|█▏        | 12433/100000 [6:48:13<67:00:23,  2.75s/it] 12%|█▏        | 12434/100000 [6:48:15<60:58:09,  2.51s/it]                                                            12%|█▏        | 12434/100000 [6:48:15<60:58:09,  2.51s/it] 12%|█▏        | 12435/100000 [6:48:17<56:05:58,  2.31s/it]                                                            12%|█▏        | 12435/100000 [6:48:17<56:05:58,  2.31s/it] 12%|█▏        | 12436/100000 [6:48:18<51:38:03,  2.12s/it]                                                            12%|█▏        | 12436/100000 [6:48:18<51:38:03,  2.12s/it] 12%|█▏        | 12437/100000 [6:48:20<48:27:46,  1.99s/it]                                                            12%|█▏        | 12437/100000 [6:48:20<48:27:46,  1.99s/it] 12%|█▏        | 12438/100000 [6:48:22<45:47:09,  1.88s/it]                                                            12%|█▏        | 12438/100000 [6:48:22<45:47:09,  1.88s/it] 12%|█▏        | 12439/100000 [6:48:23<43:12:21,  1.78s/it]                                                            12%|█▏        | 12439/100000 [6:48:23<43:12:21,  1.78s/it] 12%|█▏        | 12440/100000 [6:48:25<41:13:03,  1.69s/it]                                                            12%|█▏        | 12440/100000 [6:48:25<41:13:03,  1.69s/it] 12%|█▏        | 12441/100000 [6:48:26<39:30:06,  1.62s/it]                                                            12%|█▏        | 12441/100000 [6:48:26<39:30:06,  1.62s/it] 12%|█▏        | 12442/100000 [6:48:27<38:03:54,  1.57s/it]                                                            12%|█▏        | 12442/100000 [6:48:27<38:03:54,  1.57s/it] 12%|█▏        | 12443/100000 [6:48:29<36:23:26,  1.50s/it]                                                            12%|█▏        | 12443/100000 [6:48:29<36:23:26,  1.50s/it] 12%|█▏        | 12444/100000 [6:48:30<35:30:19,  1.46s/it]                                                            12%|█▏        | 12444/100000 [6:48:30<35:30:19,  1.46s/it] 12%|█▏        | 12445/100000 [6:48:31<34:28:30,  1.42s/it]                                                            12%|█▏        | 12445/100000 [6:48:31<34:28:30,  1.42s/it] 12%|█▏        | 12446/100000 [6:48:33<33:40:21,  1.38s/it]                                                            12%|█▏        | 12446/100000 [6:48:33<33:40:21,  1.38s/it] 12%|█▏        | 12447/100000 [6:48:34<32:40:13,  1.34s/it]                                                            12%|█▏        | 12447/100000 [6:48:34<32:40:13,  1.34s/it] 12%|█▏        | 12448/100000 [6:48:35<32:17:01,  1.33s/it]                                                            12%|█▏        | 12448/100000 [6:48:35<32:17:01,  1.33s/it] 12%|█▏        | 12449/100000 [6:48:37<31:37:11,  1.30s/it]                                                            12%|█▏        | 12449/100000 [6:48:37<31:37:11,  1.30s/it] 12%|█▏        | 12450/100000 [6:48:38<31:07:47,  1.28s/it]                                                            12%|█▏        | 12450/100000 [6:48:38<31:07:47,  1.28s/it] 12%|█▏        | 12451/100000 [6:48:39<30:43:47,  1.26s/it]                                                            12%|█▏        | 12451/100000 [6:48:39<30:43:47,  1.26s/it] 12%|█▏        | 12452/100000 [6:48:40<30:20:04,  1.25s/it]                                                            12%|█▏        | 12452/100000 [6:48:40<30:20:04,  1.25s/it] 12%|█▏        | 12453/100000 [6:48:41<29:45:34,  1.22s/it]                                                            12%|█▏        | 12453/100000 [6:48:41<29:45:34,  1.22s/it] 12%|█▏        | 12454/100000 [6:48:43<28:54:35,  1.19s/it]                                                            12%|█▏        | 12454/100000 [6:48:43<28:54:35,  1.19s/it] 12%|█▏        | 12455/100000 [6:48:44<28:14:46,  1.16s/it]                                                            12%|█▏        | 12455/100000 [6:48:44<28:14:46,  1.16s/it] 12%|█▏        | 12456/100000 [6:48:45<27:42:54,  1.14s/it]                                                            12%|█▏        | 12456/100000 [6:48:45<27:42:54,  1.14s/it] 12%|█▏        | 12457/100000 [6:48:46<27:19:47,  1.12s/it]                                                            12%|█▏        | 12457/100000 [6:48:46<27:19:47,  1.12s/it] 12%|█▏        | 12458/100000 [6:48:47<26:58:25,  1.11s/it]                                                            12%|█▏        | 12458/100000 [6:48:47<26:58:25,  1.11s/it] 12%|█▏        | 12459/100000 [6:48:48<26:36:14,  1.09s/it]                                                            12%|█▏        | 12459/100000 [6:48:48<26:36:14,  1.09s/it] 12%|█▏        | 12460/100000 [6:48:49<26:11:26,  1.08s/it]                                                            12%|█▏        | 12460/100000 [6:48:49<26:11:26,  1.08s/it] 12%|█▏        | 12461/100000 [6:48:50<25:35:03,  1.05s/it]                                                            12%|█▏        | 12461/100000 [6:48:50<25:35:03,  1.05s/it] 12%|█▏        | 12462/100000 [6:48:51<24:51:48,  1.02s/it]                                                            12%|█▏        | 12462/100000 [6:48:51<24:51:48,  1.02s/it] 12%|█▏        | 12463/100000 [6:48:52<24:17:08,  1.00it/s]                                                            12%|█▏        | 12463/100000 [6:48:52<24:17:08,  1.00it/s] 12%|█▏        | 12464/100000 [6:48:53<23:46:47,  1.02it/s]                                                            12%|█▏        | 12464/100000 [6:48:53<23:46:47,  1.02it/s] 12%|█▏        | 12465/100000 [6:48:54<22:52:30,  1.06it/s]                                                            12%|█▏        | 12465/100000 [6:48:54<22:52:30,  1.06it/s] 12%|█▏        | 12466/100000 [6:48:54<21:15:34,  1.14it/s]                                                            12%|█▏        | 12466/100000 [6:48:54<21:15:34,  1.14it/s]{'loss': 0.0144, 'grad_norm': 0.5138218402862549, 'learning_rate': 2.9204333333333334e-05, 'epoch': 22.86}
+{'loss': 0.0121, 'grad_norm': 0.422588586807251, 'learning_rate': 2.9204e-05, 'epoch': 22.86}
+{'loss': 0.0129, 'grad_norm': 0.2288866490125656, 'learning_rate': 2.9203666666666666e-05, 'epoch': 22.86}
+{'loss': 0.0082, 'grad_norm': 0.1804754137992859, 'learning_rate': 2.9203333333333336e-05, 'epoch': 22.87}
+{'loss': 0.01, 'grad_norm': 0.2894505262374878, 'learning_rate': 2.9203e-05, 'epoch': 22.87}
+{'loss': 0.0109, 'grad_norm': 0.2467958778142929, 'learning_rate': 2.9202666666666667e-05, 'epoch': 22.87}
+{'loss': 0.0096, 'grad_norm': 0.2496487945318222, 'learning_rate': 2.9202333333333333e-05, 'epoch': 22.87}
+{'loss': 0.0033, 'grad_norm': 0.22739478945732117, 'learning_rate': 2.9202000000000003e-05, 'epoch': 22.87}
+{'loss': 0.0071, 'grad_norm': 0.1910630315542221, 'learning_rate': 2.9201666666666665e-05, 'epoch': 22.88}
+{'loss': 0.0067, 'grad_norm': 0.1774922013282776, 'learning_rate': 2.9201333333333335e-05, 'epoch': 22.88}
+{'loss': 0.0056, 'grad_norm': 0.20055580139160156, 'learning_rate': 2.9201e-05, 'epoch': 22.88}
+{'loss': 0.0077, 'grad_norm': 0.311154842376709, 'learning_rate': 2.9200666666666666e-05, 'epoch': 22.88}
+{'loss': 0.0113, 'grad_norm': 0.23825916647911072, 'learning_rate': 2.9200333333333336e-05, 'epoch': 22.88}
+{'loss': 0.0048, 'grad_norm': 0.1427665799856186, 'learning_rate': 2.92e-05, 'epoch': 22.88}
+{'loss': 0.0062, 'grad_norm': 0.27265864610671997, 'learning_rate': 2.9199666666666668e-05, 'epoch': 22.89}
+{'loss': 0.0093, 'grad_norm': 0.2476198524236679, 'learning_rate': 2.9199333333333334e-05, 'epoch': 22.89}
+{'loss': 0.0033, 'grad_norm': 0.23540052771568298, 'learning_rate': 2.9199000000000003e-05, 'epoch': 22.89}
+{'loss': 0.0049, 'grad_norm': 0.14567874372005463, 'learning_rate': 2.9198666666666665e-05, 'epoch': 22.89}
+{'loss': 0.0038, 'grad_norm': 0.20529676973819733, 'learning_rate': 2.9198333333333335e-05, 'epoch': 22.89}
+{'loss': 0.0055, 'grad_norm': 0.1766471415758133, 'learning_rate': 2.9198e-05, 'epoch': 22.9}
+{'loss': 0.0057, 'grad_norm': 0.3108919858932495, 'learning_rate': 2.9197666666666667e-05, 'epoch': 22.9}
+{'loss': 0.0169, 'grad_norm': 0.44312068819999695, 'learning_rate': 2.9197333333333336e-05, 'epoch': 22.9}
+{'loss': 0.0138, 'grad_norm': 0.9064782857894897, 'learning_rate': 2.9197e-05, 'epoch': 22.9}
+{'loss': 0.0108, 'grad_norm': 0.39348894357681274, 'learning_rate': 2.9196666666666668e-05, 'epoch': 22.9}
+{'loss': 0.004, 'grad_norm': 0.11488889157772064, 'learning_rate': 2.9196333333333334e-05, 'epoch': 22.9}
+{'loss': 0.0065, 'grad_norm': 0.2089713215827942, 'learning_rate': 2.9196e-05, 'epoch': 22.91}
+{'loss': 0.0036, 'grad_norm': 0.20302043855190277, 'learning_rate': 2.9195666666666666e-05, 'epoch': 22.91}
+{'loss': 0.0065, 'grad_norm': 0.2970274090766907, 'learning_rate': 2.9195333333333335e-05, 'epoch': 22.91}
+{'loss': 0.0047, 'grad_norm': 1.0791375637054443, 'learning_rate': 2.9195e-05, 'epoch': 22.91}
+{'loss': 0.0157, 'grad_norm': 0.742299497127533, 'learning_rate': 2.9194666666666667e-05, 'epoch': 22.91}
+{'loss': 0.0041, 'grad_norm': 0.1627863496541977, 'learning_rate': 2.9194333333333336e-05, 'epoch': 22.92}
+{'loss': 0.0026, 'grad_norm': 0.10822322219610214, 'learning_rate': 2.9194e-05, 'epoch': 22.92}
+{'loss': 0.0173, 'grad_norm': 0.6408373713493347, 'learning_rate': 2.9193666666666668e-05, 'epoch': 22.92}
+{'loss': 0.0089, 'grad_norm': 0.3392656445503235, 'learning_rate': 2.9193333333333334e-05, 'epoch': 22.92}
+{'loss': 0.0062, 'grad_norm': 0.6655851006507874, 'learning_rate': 2.9193e-05, 'epoch': 22.92}
+{'loss': 0.1226, 'grad_norm': 0.5653405785560608, 'learning_rate': 2.919266666666667e-05, 'epoch': 22.93}
+{'loss': 0.1196, 'grad_norm': 0.8246968388557434, 'learning_rate': 2.9192333333333335e-05, 'epoch': 22.93}
+{'loss': 0.0869, 'grad_norm': 0.5462274551391602, 'learning_rate': 2.9192e-05, 'epoch': 22.93}
+{'loss': 0.0669, 'grad_norm': 0.31987103819847107, 'learning_rate': 2.9191666666666667e-05, 'epoch': 22.93}
+{'loss': 0.0557, 'grad_norm': 0.4289247989654541, 'learning_rate': 2.9191333333333336e-05, 'epoch': 22.93}
+{'loss': 0.0436, 'grad_norm': 0.31459957361221313, 'learning_rate': 2.9191e-05, 'epoch': 22.93}
+{'loss': 0.0688, 'grad_norm': 0.7228941917419434, 'learning_rate': 2.9190666666666668e-05, 'epoch': 22.94}
+{'loss': 0.0388, 'grad_norm': 0.3625168800354004, 'learning_rate': 2.9190333333333334e-05, 'epoch': 22.94}
+{'loss': 0.0273, 'grad_norm': 0.3639623820781708, 'learning_rate': 2.919e-05, 'epoch': 22.94}
+{'loss': 0.0201, 'grad_norm': 0.391364723443985, 'learning_rate': 2.918966666666667e-05, 'epoch': 22.94}
+{'loss': 0.0196, 'grad_norm': 0.25264233350753784, 'learning_rate': 2.9189333333333335e-05, 'epoch': 22.94}
+{'loss': 0.0312, 'grad_norm': 0.24215036630630493, 'learning_rate': 2.9189e-05, 'epoch': 22.95}
+{'loss': 0.034, 'grad_norm': 0.3020641803741455, 'learning_rate': 2.9188666666666667e-05, 'epoch': 22.95}
+{'loss': 0.0124, 'grad_norm': 0.19730018079280853, 'learning_rate': 2.9188333333333333e-05, 'epoch': 22.95}
+{'loss': 0.0103, 'grad_norm': 0.23389595746994019, 'learning_rate': 2.9188e-05, 'epoch': 22.95}
+{'loss': 0.0073, 'grad_norm': 0.18454474210739136, 'learning_rate': 2.918766666666667e-05, 'epoch': 22.95}
+{'loss': 0.0075, 'grad_norm': 0.4759189486503601, 'learning_rate': 2.918733333333333e-05, 'epoch': 22.95}
+{'loss': 0.0115, 'grad_norm': 0.37919747829437256, 'learning_rate': 2.9187e-05, 'epoch': 22.96}
+{'loss': 0.0079, 'grad_norm': 0.2569182813167572, 'learning_rate': 2.918666666666667e-05, 'epoch': 22.96}
+{'loss': 0.0053, 'grad_norm': 0.3278430104255676, 'learning_rate': 2.9186333333333332e-05, 'epoch': 22.96}
+{'loss': 0.0179, 'grad_norm': 0.20840658247470856, 'learning_rate': 2.9186e-05, 'epoch': 22.96}
+{'loss': 0.0057, 'grad_norm': 0.15534381568431854, 'learning_rate': 2.9185666666666667e-05, 'epoch': 22.96}
+{'loss': 0.007, 'grad_norm': 0.1486392617225647, 'learning_rate': 2.9185333333333333e-05, 'epoch': 22.97}
+{'loss': 0.0029, 'grad_norm': 0.07954803854227066, 'learning_rate': 2.9185e-05, 'epoch': 22.97}
+{'loss': 0.0049, 'grad_norm': 0.13395774364471436, 'learning_rate': 2.918466666666667e-05, 'epoch': 22.97}
+{'loss': 0.0053, 'grad_norm': 0.17729364335536957, 'learning_rate': 2.9184333333333335e-05, 'epoch': 22.97}
+{'loss': 0.0042, 'grad_norm': 0.16160070896148682, 'learning_rate': 2.9184e-05, 'epoch': 22.97}
+{'loss': 0.0061, 'grad_norm': 0.28334203362464905, 'learning_rate': 2.918366666666667e-05, 'epoch': 22.98}
+{'loss': 0.0086, 'grad_norm': 0.3061280846595764, 'learning_rate': 2.9183333333333332e-05, 'epoch': 22.98}
+{'loss': 0.0019, 'grad_norm': 0.09037530422210693, 'learning_rate': 2.9183e-05, 'epoch': 22.98}
+{'loss': 0.004, 'grad_norm': 0.1277635246515274, 'learning_rate': 2.9182666666666668e-05, 'epoch': 22.98}
+{'loss': 0.009, 'grad_norm': 0.20603525638580322, 'learning_rate': 2.9182333333333334e-05, 'epoch': 22.98}
+{'loss': 0.0052, 'grad_norm': 0.23812738060951233, 'learning_rate': 2.9182e-05, 'epoch': 22.98}
+{'loss': 0.004, 'grad_norm': 0.2609906494617462, 'learning_rate': 2.918166666666667e-05, 'epoch': 22.99}
+{'loss': 0.008, 'grad_norm': 0.3261003792285919, 'learning_rate': 2.9181333333333335e-05, 'epoch': 22.99}
+{'loss': 0.0019, 'grad_norm': 0.08258796483278275, 'learning_rate': 2.9181e-05, 'epoch': 22.99}
+{'loss': 0.0064, 'grad_norm': 0.28730282187461853, 'learning_rate': 2.918066666666667e-05, 'epoch': 22.99}
+{'loss': 0.0064, 'grad_norm': 0.1670047640800476, 'learning_rate': 2.9180333333333333e-05, 'epoch': 22.99}
+{'loss': 0.0067, 'grad_norm': 0.23746854066848755, 'learning_rate': 2.9180000000000002e-05, 'epoch': 23.0}
+{'loss': 0.0051, 'grad_norm': 0.2047201544046402, 'learning_rate': 2.9179666666666668e-05, 'epoch': 23.0}
+{'loss': 0.0064, 'grad_norm': 0.2234080284833908, 'learning_rate': 2.9179333333333334e-05, 'epoch': 23.0}
+{'loss': 0.0002, 'grad_norm': 0.013559604994952679, 'learning_rate': 2.9179e-05, 'epoch': 23.0}
+ 12%|█▏        | 12467/100000 [6:49:13<149:49:26,  6.16s/it]                                                             12%|█▏        | 12467/100000 [6:49:13<149:49:26,  6.16s/it] 12%|█▏        | 12468/100000 [6:49:19<146:44:46,  6.04s/it]                                                             12%|█▏        | 12468/100000 [6:49:19<146:44:46,  6.04s/it] 12%|█▏        | 12469/100000 [6:49:23<134:13:40,  5.52s/it]                                                             12%|█▏        | 12469/100000 [6:49:23<134:13:40,  5.52s/it] 12%|█▏        | 12470/100000 [6:49:27<122:44:39,  5.05s/it]                                                             12%|█▏        | 12470/100000 [6:49:27<122:44:39,  5.05s/it] 12%|█▏        | 12471/100000 [6:49:30<111:59:40,  4.61s/it]                                                             12%|█▏        | 12471/100000 [6:49:30<111:59:40,  4.61s/it] 12%|█▏        | 12472/100000 [6:49:34<102:23:30,  4.21s/it]                                                             12%|█▏        | 12472/100000 [6:49:34<102:23:30,  4.21s/it] 12%|█▏        | 12473/100000 [6:49:37<93:29:11,  3.85s/it]                                                             12%|█▏        | 12473/100000 [6:49:37<93:29:11,  3.85s/it] 12%|█▏        | 12474/100000 [6:49:39<85:49:31,  3.53s/it]                                                            12%|█▏        | 12474/100000 [6:49:40<85:49:31,  3.53s/it] 12%|█▏        | 12475/100000 [6:49:42<78:30:12,  3.23s/it]                                                            12%|█▏        | 12475/100000 [6:49:42<78:30:12,  3.23s/it] 12%|█▏        | 12476/100000 [6:49:44<71:34:29,  2.94s/it]                                                            12%|█▏        | 12476/100000 [6:49:44<71:34:29,  2.94s/it] 12%|█▏        | 12477/100000 [6:49:47<66:16:16,  2.73s/it]                                                            12%|█▏        | 12477/100000 [6:49:47<66:16:16,  2.73s/it] 12%|█▏        | 12478/100000 [6:49:49<61:45:19,  2.54s/it]                                                            12%|█▏        | 12478/100000 [6:49:49<61:45:19,  2.54s/it] 12%|█▏        | 12479/100000 [6:49:51<57:33:13,  2.37s/it]                                                            12%|█▏        | 12479/100000 [6:49:51<57:33:13,  2.37s/it] 12%|█▏        | 12480/100000 [6:49:52<53:49:23,  2.21s/it]                                                            12%|█▏        | 12480/100000 [6:49:52<53:49:23,  2.21s/it] 12%|█▏        | 12481/100000 [6:49:54<50:36:16,  2.08s/it]                                                            12%|█▏        | 12481/100000 [6:49:54<50:36:16,  2.08s/it] 12%|█▏        | 12482/100000 [6:49:56<47:54:30,  1.97s/it]                                                            12%|█▏        | 12482/100000 [6:49:56<47:54:30,  1.97s/it] 12%|█▏        | 12483/100000 [6:49:58<45:20:45,  1.87s/it]                                                            12%|█▏        | 12483/100000 [6:49:58<45:20:45,  1.87s/it] 12%|█▏        | 12484/100000 [6:49:59<43:20:04,  1.78s/it]                                                            12%|█▏        | 12484/100000 [6:49:59<43:20:04,  1.78s/it] 12%|█▏        | 12485/100000 [6:50:01<41:52:39,  1.72s/it]                                                            12%|█▏        | 12485/100000 [6:50:01<41:52:39,  1.72s/it] 12%|█▏        | 12486/100000 [6:50:02<40:13:21,  1.65s/it]                                                            12%|█▏        | 12486/100000 [6:50:02<40:13:21,  1.65s/it] 12%|█▏        | 12487/100000 [6:50:04<38:49:08,  1.60s/it]                                                            12%|█▏        | 12487/100000 [6:50:04<38:49:08,  1.60s/it] 12%|█▏        | 12488/100000 [6:50:05<37:20:54,  1.54s/it]                                                            12%|█▏        | 12488/100000 [6:50:05<37:20:54,  1.54s/it] 12%|█▏        | 12489/100000 [6:50:06<36:26:14,  1.50s/it]                                                            12%|█▏        | 12489/100000 [6:50:06<36:26:14,  1.50s/it] 12%|█▏        | 12490/100000 [6:50:08<35:18:09,  1.45s/it]                                                            12%|█▏        | 12490/100000 [6:50:08<35:18:09,  1.45s/it] 12%|█▏        | 12491/100000 [6:50:09<34:40:43,  1.43s/it]                                                            12%|█▏        | 12491/100000 [6:50:09<34:40:43,  1.43s/it] 12%|█▏        | 12492/100000 [6:50:11<34:00:59,  1.40s/it]                                                            12%|█▏        | 12492/100000 [6:50:11<34:00:59,  1.40s/it] 12%|█▏        | 12493/100000 [6:50:12<33:26:15,  1.38s/it]                                                            12%|█▏        | 12493/100000 [6:50:12<33:26:15,  1.38s/it] 12%|█▏        | 12494/100000 [6:50:13<32:53:49,  1.35s/it]                                                            12%|█▏        | 12494/100000 [6:50:13<32:53:49,  1.35s/it] 12%|█▏        | 12495/100000 [6:50:14<32:14:58,  1.33s/it]                                                            12%|█▏        | 12495/100000 [6:50:14<32:14:58,  1.33s/it] 12%|█▏        | 12496/100000 [6:50:16<31:43:03,  1.30s/it]                                                            12%|█▏        | 12496/100000 [6:50:16<31:43:03,  1.30s/it] 12%|█▏        | 12497/100000 [6:50:17<31:19:52,  1.29s/it]                                                            12%|█▏        | 12497/100000 [6:50:17<31:19:52,  1.29s/it] 12%|█▏        | 12498/100000 [6:50:18<30:43:59,  1.26s/it]                                                            12%|█▏        | 12498/100000 [6:50:18<30:43:59,  1.26s/it] 12%|█▏        | 12499/100000 [6:50:19<30:29:20,  1.25s/it]                                                            12%|█▏        | 12499/100000 [6:50:19<30:29:20,  1.25s/it] 12%|█▎        | 12500/100000 [6:50:21<30:10:21,  1.24s/it]                                                            12%|█▎        | 12500/100000 [6:50:21<30:10:21,  1.24s/it] 13%|█▎        | 12501/100000 [6:50:22<29:34:58,  1.22s/it]                                                            13%|█▎        | 12501/100000 [6:50:22<29:34:58,  1.22s/it] 13%|█▎        | 12502/100000 [6:50:23<29:05:02,  1.20s/it]                                                            13%|█▎        | 12502/100000 [6:50:23<29:05:02,  1.20s/it] 13%|█▎        | 12503/100000 [6:50:24<28:44:24,  1.18s/it]                                                            13%|█▎        | 12503/100000 [6:50:24<28:44:24,  1.18s/it] 13%|█▎        | 12504/100000 [6:50:25<28:16:40,  1.16s/it]                                                            13%|█▎        | 12504/100000 [6:50:25<28:16:40,  1.16s/it] 13%|█▎        | 12505/100000 [6:50:26<27:50:23,  1.15s/it]                                                            13%|█▎        | 12505/100000 [6:50:26<27:50:23,  1.15s/it] 13%|█▎        | 12506/100000 [6:50:27<27:32:09,  1.13s/it]                                                            13%|█▎        | 12506/100000 [6:50:27<27:32:09,  1.13s/it] 13%|█▎        | 12507/100000 [6:50:28<27:02:30,  1.11s/it]                                                            13%|█▎        | 12507/100000 [6:50:28<27:02:30,  1.11s/it] 13%|█▎        | 12508/100000 [6:50:29<26:43:38,  1.10s/it]                                                            13%|█▎        | 12508/100000 [6:50:29<26:43:38,  1.10s/it] 13%|█▎        | 12509/100000 [6:50:31<26:16:30,  1.08s/it]                                                            13%|█▎        | 12509/100000 [6:50:31<26:16:30,  1.08s/it] 13%|█▎        | 12510/100000 [6:50:32<26:02:43,  1.07s/it]                                                            13%|█▎        | 12510/100000 [6:50:32<26:02:43,  1.07s/it] 13%|█▎        | 12511/100000 [6:50:33<25:39:08,  1.06s/it]                                                            13%|█▎        | 12511/100000 [6:50:33<25:39:08,  1.06s/it] 13%|█▎        | 12512/100000 [6:50:34<25:11:23,  1.04s/it]                                                            13%|█▎        | 12512/100000 [6:50:34<25:11:23,  1.04s/it] 13%|█▎        | 12513/100000 [6:50:35<24:46:43,  1.02s/it]                                                            13%|█▎        | 12513/100000 [6:50:35<24:46:43,  1.02s/it] 13%|█▎        | 12514/100000 [6:50:36<24:21:07,  1.00s/it]                                                            13%|█▎        | 12514/100000 [6:50:36<24:21:07,  1.00s/it] 13%|█▎        | 12515/100000 [6:50:36<23:52:52,  1.02it/s]                                                            13%|█▎        | 12515/100000 [6:50:36<23:52:52,  1.02it/s] 13%|█▎        | 12516/100000 [6:50:37<23:03:18,  1.05it/s]                                                            13%|█▎        | 12516/100000 [6:50:37<23:03:18,  1.05it/s] 13%|█▎        | 12517/100000 [6:50:47<83:54:53,  3.45s/it]                                                            13%|█▎        | 12517/100000 [6:50:47<83:54:53,  3.45s/it] 13%|█▎        | 12518/100000 [6:50:52<100:25:53,  4.13s/it]                                                             13%|█▎        | 12518/100000 [6:50:52<100:25:53,  4.13s/it] 13%|█▎        | 12519/100000 [6:50:57<105:08:11,  4.33s/it]                                                             13%|█▎        | 12519/100000 [6:50:57<105:08:11,  4.33s/it] 13%|█▎        | 12520/100000 [6:51:01<102:30:32,  4.22s/it]                                                             13%|█▎        | 12520/100000 [6:51:01<102:30:32,  4.22s/it] 13%|█▎        | 12521/100000 [6:51:04<96:22:41,  3.97s/it]                                                             13%|█▎        | 12521/100000 [6:51:04<96:22:41,  3.97s/it] 13%|█▎        | 12522/100000 [6:51:08<89:58:43,  3.70s/it]                                                            13%|█▎        | 12522/100000 [6:51:08<89:58:43,  3.70s/it] 13%|█▎        | 12523/100000 [6:51:10<84:00:38,  3.46s/it]                                                            13%|█▎        | 12523/100000 [6:51:10<84:00:38,  3.46s/it] 13%|█▎        | 12524/100000 [6:51:13<78:09:56,  3.22s/it]                                                            13%|█▎        | 12524/100000 [6:51:13<78:09:56,  3.22s/it] 13%|█▎        | 12525/100000 [6:51:16<72:45:53,  2.99s/it]                                                            13%|█▎        | 12525/100000 [6:51:16<72:45:53,  2.99s/it] 13%|█▎        | 12526/100000 [6:51:18<67:50:27,  2.79s/it]                                                            13%|█▎        | 12526/100000 [6:51:18<67:50:27,  2.79s/it] 13%|█▎        | 12527/100000 [6:51:20<63:12:43,  2.60s/it]                                                            13%|█▎        | 12527/100000 [6:51:20<63:12:43,  2.60s/it] 13%|█▎        | 12528/100000 [6:51:22<59:08:15,  2.43s/it]                                                            13%|█▎        | 12528/100000 [6:51:22<59:08:15,  2.43s/it] 13%|█▎        | 12529/100000 [6:51:24<55:35:51,  2.29s/it]                                                            13%|█▎        | 12529/100000 [6:51:24<55:35:51,  2.29s/it] 13%|█▎        | 12530/100000 [6:51:26<51:54:10,  2.14s/it]                                                            13%|█▎        | 12530/100000 [6:51:26<51:54:10,  2.14s/it] 13%|█▎        | 12531/100000 [6:51:28<48:45:04,  2.01s/it]                                                            13%|█▎        | 12531/100000 [6:51:28<48:45:04,  2.01s/it] 13%|█▎        | 12532/100000 [6:51:29<46:04:57,  1.90s/it]                                                            13%|█▎        | 12532/100000 [6:51:29<46:04:57,  1.90s/it] 13%|█▎        | 12533/100000 [6:51:31<43:28:23,  1.79s/it]                                                            13%|█▎        | 12533/100000 [6:51:31<43:28:23,  1.79s/it] 13%|█▎        | 12534/100000 [6:51:32<42:03:04,  1.73s/it]                                                            13%|█▎        | 12534/100000 [6:51:32<42:03:04,  1.73s/it] 13%|█▎        | 12535/100000 [6:51:34<40:36:52,  1.67s/it]                                                            13%|█▎        | 12535/100000 [6:51:34<40:36:52,  1.67s/it] 13%|█▎        | 12536/100000 [6:51:35<39:13:10,  1.61s/it]                                                            13%|█▎        | 12536/100000 [6:51:35<39:13:10,  1.61s/it] 13%|█▎        | 12537/100000 [6:51:37<37:46:11,  1.55s/it]                                                            13%|█▎        | 12537/100000 [6:51:37<37:46:11,  1.55s/it] 13%|█▎        | 12538/100000 [6:51:38<36:35:31,  1.51s/it]                                                            13%|█▎        | 12538/100000 [6:51:38<36:35:31,  1.51s/it] 13%|█▎        | 12539/100000 [6:51:40<35:36:16,  1.47s/it]                                                            13%|█▎        | 12539/100000 [6:51:40<35:36:16,  1.47s/it] 13%|█▎        | 12540/100000 [6:51:41<34:49:40,  1.43s/it]                                                            13%|█▎        | 12540/100000 [6:51:41<34:49:40,  1.43s/it] 13%|█▎        | 12541/100000 [6:51:42<34:25:06,  1.42s/it]                                                            13%|█▎        | 12541/100000 [6:51:42<34:25:06,  1.42s/it] 13%|█▎        | 12542/100000 [6:51:44<33:41:18,  1.39s/it]                                                            13%|█▎        | 12542/100000 [6:51:44<33:41:18,  1.39s/it] 13%|█▎        | 12543/100000 [6:51:45<33:19:00,  1.37s/it]                                                            13%|█▎        | 12543/100000 [6:51:45<33:19:00,  1.37s/it] 13%|█▎        | 12544/100000 [6:51:46<32:38:13,  1.34s/it]                                                            13%|█▎        | 12544/100000 [6:51:46<32:38:13,  1.34s/it] 13%|█▎        | 12545/100000 [6:51:47<32:20:53,  1.33s/it]                                                           {'loss': 0.1453, 'grad_norm': 1.3079710006713867, 'learning_rate': 2.917866666666667e-05, 'epoch': 23.0}
+{'loss': 0.0945, 'grad_norm': 0.37919649481773376, 'learning_rate': 2.9178333333333335e-05, 'epoch': 23.0}
+{'loss': 0.0713, 'grad_norm': 0.5010470151901245, 'learning_rate': 2.9178e-05, 'epoch': 23.01}
+{'loss': 0.0923, 'grad_norm': 0.5508612990379333, 'learning_rate': 2.9177666666666667e-05, 'epoch': 23.01}
+{'loss': 0.0611, 'grad_norm': 0.37328410148620605, 'learning_rate': 2.9177333333333333e-05, 'epoch': 23.01}
+{'loss': 0.081, 'grad_norm': 0.4111389219760895, 'learning_rate': 2.9177000000000002e-05, 'epoch': 23.01}
+{'loss': 0.0854, 'grad_norm': 0.37702229619026184, 'learning_rate': 2.9176666666666665e-05, 'epoch': 23.01}
+{'loss': 0.0359, 'grad_norm': 0.7613016963005066, 'learning_rate': 2.9176333333333334e-05, 'epoch': 23.01}
+{'loss': 0.0771, 'grad_norm': 0.5037769675254822, 'learning_rate': 2.9176000000000003e-05, 'epoch': 23.02}
+{'loss': 0.0912, 'grad_norm': 1.4689644575119019, 'learning_rate': 2.9175666666666666e-05, 'epoch': 23.02}
+{'loss': 0.0248, 'grad_norm': 0.408502995967865, 'learning_rate': 2.9175333333333335e-05, 'epoch': 23.02}
+{'loss': 0.0332, 'grad_norm': 0.375881165266037, 'learning_rate': 2.9175e-05, 'epoch': 23.02}
+{'loss': 0.0225, 'grad_norm': 0.19678357243537903, 'learning_rate': 2.9174666666666667e-05, 'epoch': 23.02}
+{'loss': 0.0119, 'grad_norm': 0.2557147741317749, 'learning_rate': 2.9174333333333333e-05, 'epoch': 23.03}
+{'loss': 0.058, 'grad_norm': 1.2409764528274536, 'learning_rate': 2.9174000000000002e-05, 'epoch': 23.03}
+{'loss': 0.0096, 'grad_norm': 0.23163054883480072, 'learning_rate': 2.9173666666666665e-05, 'epoch': 23.03}
+{'loss': 0.0358, 'grad_norm': 0.4650649130344391, 'learning_rate': 2.9173333333333334e-05, 'epoch': 23.03}
+{'loss': 0.0067, 'grad_norm': 0.16126181185245514, 'learning_rate': 2.9173000000000003e-05, 'epoch': 23.03}
+{'loss': 0.0099, 'grad_norm': 0.20258918404579163, 'learning_rate': 2.9172666666666666e-05, 'epoch': 23.04}
+{'loss': 0.0086, 'grad_norm': 0.23453587293624878, 'learning_rate': 2.9172333333333335e-05, 'epoch': 23.04}
+{'loss': 0.0076, 'grad_norm': 0.33570969104766846, 'learning_rate': 2.9172e-05, 'epoch': 23.04}
+{'loss': 0.005, 'grad_norm': 0.20703759789466858, 'learning_rate': 2.9171666666666667e-05, 'epoch': 23.04}
+{'loss': 0.0093, 'grad_norm': 0.29281994700431824, 'learning_rate': 2.9171333333333333e-05, 'epoch': 23.04}
+{'loss': 0.0055, 'grad_norm': 0.18278279900550842, 'learning_rate': 2.9171000000000002e-05, 'epoch': 23.04}
+{'loss': 0.0033, 'grad_norm': 0.15609000623226166, 'learning_rate': 2.9170666666666665e-05, 'epoch': 23.05}
+{'loss': 0.0065, 'grad_norm': 0.27524250745773315, 'learning_rate': 2.9170333333333334e-05, 'epoch': 23.05}
+{'loss': 0.0031, 'grad_norm': 0.11792323738336563, 'learning_rate': 2.9170000000000004e-05, 'epoch': 23.05}
+{'loss': 0.0385, 'grad_norm': 0.6204906702041626, 'learning_rate': 2.9169666666666666e-05, 'epoch': 23.05}
+{'loss': 0.0047, 'grad_norm': 0.13774995505809784, 'learning_rate': 2.9169333333333335e-05, 'epoch': 23.05}
+{'loss': 0.0032, 'grad_norm': 0.0980542004108429, 'learning_rate': 2.9169e-05, 'epoch': 23.06}
+{'loss': 0.0131, 'grad_norm': 0.5431872010231018, 'learning_rate': 2.9168666666666667e-05, 'epoch': 23.06}
+{'loss': 0.0043, 'grad_norm': 0.19743503630161285, 'learning_rate': 2.9168333333333333e-05, 'epoch': 23.06}
+{'loss': 0.0029, 'grad_norm': 0.2094327211380005, 'learning_rate': 2.9168e-05, 'epoch': 23.06}
+{'loss': 0.0048, 'grad_norm': 0.2092137336730957, 'learning_rate': 2.916766666666667e-05, 'epoch': 23.06}
+{'loss': 0.0054, 'grad_norm': 0.1424982249736786, 'learning_rate': 2.9167333333333334e-05, 'epoch': 23.06}
+{'loss': 0.0033, 'grad_norm': 0.20085524022579193, 'learning_rate': 2.9167e-05, 'epoch': 23.07}
+{'loss': 0.0124, 'grad_norm': 0.24300634860992432, 'learning_rate': 2.9166666666666666e-05, 'epoch': 23.07}
+{'loss': 0.0106, 'grad_norm': 0.24897274374961853, 'learning_rate': 2.9166333333333336e-05, 'epoch': 23.07}
+{'loss': 0.0112, 'grad_norm': 0.7429565787315369, 'learning_rate': 2.9165999999999998e-05, 'epoch': 23.07}
+{'loss': 0.0058, 'grad_norm': 0.12227975577116013, 'learning_rate': 2.9165666666666668e-05, 'epoch': 23.07}
+{'loss': 0.0071, 'grad_norm': 0.21596293151378632, 'learning_rate': 2.9165333333333334e-05, 'epoch': 23.08}
+{'loss': 0.0026, 'grad_norm': 0.14186695218086243, 'learning_rate': 2.9165e-05, 'epoch': 23.08}
+{'loss': 0.0049, 'grad_norm': 0.307436466217041, 'learning_rate': 2.916466666666667e-05, 'epoch': 23.08}
+{'loss': 0.0093, 'grad_norm': 0.42267316579818726, 'learning_rate': 2.9164333333333335e-05, 'epoch': 23.08}
+{'loss': 0.0048, 'grad_norm': 0.1583794504404068, 'learning_rate': 2.9164e-05, 'epoch': 23.08}
+{'loss': 0.0095, 'grad_norm': 0.30443325638771057, 'learning_rate': 2.9163666666666667e-05, 'epoch': 23.08}
+{'loss': 0.0065, 'grad_norm': 0.276859849691391, 'learning_rate': 2.9163333333333336e-05, 'epoch': 23.09}
+{'loss': 0.0111, 'grad_norm': 0.49172136187553406, 'learning_rate': 2.9163e-05, 'epoch': 23.09}
+{'loss': 0.0068, 'grad_norm': 0.47428908944129944, 'learning_rate': 2.9162666666666668e-05, 'epoch': 23.09}
+{'loss': 0.0046, 'grad_norm': 0.16608187556266785, 'learning_rate': 2.9162333333333334e-05, 'epoch': 23.09}
+{'loss': 0.1058, 'grad_norm': 0.6573468446731567, 'learning_rate': 2.9162e-05, 'epoch': 23.09}
+{'loss': 0.0954, 'grad_norm': 0.545746386051178, 'learning_rate': 2.916166666666667e-05, 'epoch': 23.1}
+{'loss': 0.1491, 'grad_norm': 0.5941588878631592, 'learning_rate': 2.9161333333333335e-05, 'epoch': 23.1}
+{'loss': 0.0645, 'grad_norm': 0.4453190863132477, 'learning_rate': 2.9161e-05, 'epoch': 23.1}
+{'loss': 0.0887, 'grad_norm': 0.3122742176055908, 'learning_rate': 2.9160666666666667e-05, 'epoch': 23.1}
+{'loss': 0.0764, 'grad_norm': 0.9442075490951538, 'learning_rate': 2.9160333333333336e-05, 'epoch': 23.1}
+{'loss': 0.0327, 'grad_norm': 0.2535693049430847, 'learning_rate': 2.916e-05, 'epoch': 23.11}
+{'loss': 0.0532, 'grad_norm': 0.45661574602127075, 'learning_rate': 2.9159666666666668e-05, 'epoch': 23.11}
+{'loss': 0.0371, 'grad_norm': 0.6820226311683655, 'learning_rate': 2.9159333333333337e-05, 'epoch': 23.11}
+{'loss': 0.0313, 'grad_norm': 0.4742131233215332, 'learning_rate': 2.9159e-05, 'epoch': 23.11}
+{'loss': 0.0468, 'grad_norm': 0.8153624534606934, 'learning_rate': 2.915866666666667e-05, 'epoch': 23.11}
+{'loss': 0.0377, 'grad_norm': 0.3805418908596039, 'learning_rate': 2.9158333333333335e-05, 'epoch': 23.11}
+{'loss': 0.0674, 'grad_norm': 0.30506157875061035, 'learning_rate': 2.9158e-05, 'epoch': 23.12}
+{'loss': 0.0401, 'grad_norm': 0.7386313676834106, 'learning_rate': 2.9157666666666667e-05, 'epoch': 23.12}
+{'loss': 0.0078, 'grad_norm': 0.22930021584033966, 'learning_rate': 2.9157333333333333e-05, 'epoch': 23.12}
+{'loss': 0.0218, 'grad_norm': 0.22462855279445648, 'learning_rate': 2.9157e-05, 'epoch': 23.12}
+{'loss': 0.0035, 'grad_norm': 0.11458956450223923, 'learning_rate': 2.9156666666666668e-05, 'epoch': 23.12}
+{'loss': 0.0059, 'grad_norm': 0.18596674501895905, 'learning_rate': 2.9156333333333334e-05, 'epoch': 23.13}
+{'loss': 0.0067, 'grad_norm': 0.2123582661151886, 'learning_rate': 2.9156e-05, 'epoch': 23.13}
+{'loss': 0.0405, 'grad_norm': 0.2569544315338135, 'learning_rate': 2.915566666666667e-05, 'epoch': 23.13}
+{'loss': 0.0086, 'grad_norm': 0.22042743861675262, 'learning_rate': 2.9155333333333332e-05, 'epoch': 23.13}
+{'loss': 0.006, 'grad_norm': 0.2655360698699951, 'learning_rate': 2.9155e-05, 'epoch': 23.13}
+{'loss': 0.008, 'grad_norm': 0.24769195914268494, 'learning_rate': 2.9154666666666667e-05, 'epoch': 23.13}
+{'loss': 0.0057, 'grad_norm': 0.25198256969451904, 'learning_rate': 2.9154333333333333e-05, 'epoch': 23.14}
+{'loss': 0.0054, 'grad_norm': 0.19294026494026184, 'learning_rate': 2.9154e-05, 'epoch': 23.14}
+{'loss': 0.008, 'grad_norm': 0.2432713508605957, 'learning_rate': 2.915366666666667e-05, 'epoch': 23.14}
+{'loss': 0.0145, 'grad_norm': 0.351470410823822, 'learning_rate': 2.9153333333333334e-05, 'epoch': 23.14}
+{'loss': 0.0134, 'grad_norm': 0.3115994930267334, 'learning_rate': 2.9153e-05, 'epoch': 23.14}
+ 13%|█▎        | 12545/100000 [6:51:47<32:20:53,  1.33s/it] 13%|█▎        | 12546/100000 [6:51:49<31:45:23,  1.31s/it]                                                            13%|█▎        | 12546/100000 [6:51:49<31:45:23,  1.31s/it] 13%|█▎        | 12547/100000 [6:51:50<32:29:02,  1.34s/it]                                                            13%|█▎        | 12547/100000 [6:51:50<32:29:02,  1.34s/it] 13%|█▎        | 12548/100000 [6:51:51<31:50:39,  1.31s/it]                                                            13%|█▎        | 12548/100000 [6:51:51<31:50:39,  1.31s/it] 13%|█▎        | 12549/100000 [6:51:53<31:13:57,  1.29s/it]                                                            13%|█▎        | 12549/100000 [6:51:53<31:13:57,  1.29s/it] 13%|█▎        | 12550/100000 [6:51:54<30:16:00,  1.25s/it]                                                            13%|█▎        | 12550/100000 [6:51:54<30:16:00,  1.25s/it] 13%|█▎        | 12551/100000 [6:51:55<29:43:02,  1.22s/it]                                                            13%|█▎        | 12551/100000 [6:51:55<29:43:02,  1.22s/it] 13%|█▎        | 12552/100000 [6:51:56<29:13:43,  1.20s/it]                                                            13%|█▎        | 12552/100000 [6:51:56<29:13:43,  1.20s/it] 13%|█▎        | 12553/100000 [6:51:57<28:41:49,  1.18s/it]                                                            13%|█▎        | 12553/100000 [6:51:57<28:41:49,  1.18s/it] 13%|█▎        | 12554/100000 [6:51:58<28:21:03,  1.17s/it]                                                            13%|█▎        | 12554/100000 [6:51:58<28:21:03,  1.17s/it] 13%|█▎        | 12555/100000 [6:51:59<27:51:54,  1.15s/it]                                                            13%|█▎        | 12555/100000 [6:51:59<27:51:54,  1.15s/it] 13%|█▎        | 12556/100000 [6:52:01<27:29:49,  1.13s/it]                                                            13%|█▎        | 12556/100000 [6:52:01<27:29:49,  1.13s/it] 13%|█▎        | 12557/100000 [6:52:02<27:04:47,  1.11s/it]                                                            13%|█▎        | 12557/100000 [6:52:02<27:04:47,  1.11s/it] 13%|█▎        | 12558/100000 [6:52:03<26:45:54,  1.10s/it]                                                            13%|█▎        | 12558/100000 [6:52:03<26:45:54,  1.10s/it] 13%|█▎        | 12559/100000 [6:52:04<26:18:07,  1.08s/it]                                                            13%|█▎        | 12559/100000 [6:52:04<26:18:07,  1.08s/it] 13%|█▎        | 12560/100000 [6:52:05<26:04:26,  1.07s/it]                                                            13%|█▎        | 12560/100000 [6:52:05<26:04:26,  1.07s/it] 13%|█▎        | 12561/100000 [6:52:06<25:45:02,  1.06s/it]                                                            13%|█▎        | 12561/100000 [6:52:06<25:45:02,  1.06s/it] 13%|█▎        | 12562/100000 [6:52:07<25:17:29,  1.04s/it]                                                            13%|█▎        | 12562/100000 [6:52:07<25:17:29,  1.04s/it] 13%|█▎        | 12563/100000 [6:52:08<24:54:56,  1.03s/it]                                                            13%|█▎        | 12563/100000 [6:52:08<24:54:56,  1.03s/it] 13%|█▎        | 12564/100000 [6:52:09<24:37:46,  1.01s/it]                                                            13%|█▎        | 12564/100000 [6:52:09<24:37:46,  1.01s/it] 13%|█▎        | 12565/100000 [6:52:10<23:56:22,  1.01it/s]                                                            13%|█▎        | 12565/100000 [6:52:10<23:56:22,  1.01it/s] 13%|█▎        | 12566/100000 [6:52:11<23:12:55,  1.05it/s]                                                            13%|█▎        | 12566/100000 [6:52:11<23:12:55,  1.05it/s] 13%|█▎        | 12567/100000 [6:52:20<85:24:28,  3.52s/it]                                                            13%|█▎        | 12567/100000 [6:52:20<85:24:28,  3.52s/it] 13%|█▎        | 12568/100000 [6:52:26<99:21:05,  4.09s/it]                                                            13%|█▎        | 12568/100000 [6:52:26<99:21:05,  4.09s/it] 13%|█▎        | 12569/100000 [6:52:30<105:24:48,  4.34s/it]                                                             13%|█▎        | 12569/100000 [6:52:30<105:24:48,  4.34s/it] 13%|█▎        | 12570/100000 [6:52:35<103:48:36,  4.27s/it]                                                             13%|█▎        | 12570/100000 [6:52:35<103:48:36,  4.27s/it] 13%|█▎        | 12571/100000 [6:52:38<99:09:29,  4.08s/it]                                                             13%|█▎        | 12571/100000 [6:52:38<99:09:29,  4.08s/it] 13%|█▎        | 12572/100000 [6:52:41<92:13:49,  3.80s/it]                                                            13%|█▎        | 12572/100000 [6:52:41<92:13:49,  3.80s/it] 13%|█▎        | 12573/100000 [6:52:44<86:28:25,  3.56s/it]                                                            13%|█▎        | 12573/100000 [6:52:44<86:28:25,  3.56s/it] 13%|█▎        | 12574/100000 [6:52:47<80:50:12,  3.33s/it]                                                            13%|█▎        | 12574/100000 [6:52:47<80:50:12,  3.33s/it] 13%|█▎        | 12575/100000 [6:52:50<74:44:59,  3.08s/it]                                                            13%|█▎        | 12575/100000 [6:52:50<74:44:59,  3.08s/it] 13%|█▎        | 12576/100000 [6:52:52<69:40:04,  2.87s/it]                                                            13%|█▎        | 12576/100000 [6:52:52<69:40:04,  2.87s/it] 13%|█▎        | 12577/100000 [6:52:54<64:04:06,  2.64s/it]                                                            13%|█▎        | 12577/100000 [6:52:54<64:04:06,  2.64s/it] 13%|█▎        | 12578/100000 [6:52:56<59:51:32,  2.46s/it]                                                            13%|█▎        | 12578/100000 [6:52:56<59:51:32,  2.46s/it] 13%|█▎        | 12579/100000 [6:52:58<56:11:11,  2.31s/it]                                                            13%|█▎        | 12579/100000 [6:52:58<56:11:11,  2.31s/it] 13%|█▎        | 12580/100000 [6:53:00<52:13:30,  2.15s/it]                                                            13%|█▎        | 12580/100000 [6:53:00<52:13:30,  2.15s/it] 13%|█▎        | 12581/100000 [6:53:02<48:35:44,  2.00s/it]                                                            13%|█▎        | 12581/100000 [6:53:02<48:35:44,  2.00s/it] 13%|█▎        | 12582/100000 [6:53:03<46:15:28,  1.90s/it]                                                            13%|█▎        | 12582/100000 [6:53:03<46:15:28,  1.90s/it] 13%|█▎        | 12583/100000 [6:53:05<43:53:36,  1.81s/it]                                                            13%|█▎        | 12583/100000 [6:53:05<43:53:36,  1.81s/it] 13%|█▎        | 12584/100000 [6:53:06<42:16:42,  1.74s/it]                                                            13%|█▎        | 12584/100000 [6:53:06<42:16:42,  1.74s/it] 13%|█▎        | 12585/100000 [6:53:08<40:51:01,  1.68s/it]                                                            13%|█▎        | 12585/100000 [6:53:08<40:51:01,  1.68s/it] 13%|█▎        | 12586/100000 [6:53:09<39:55:25,  1.64s/it]                                                            13%|█▎        | 12586/100000 [6:53:09<39:55:25,  1.64s/it] 13%|█▎        | 12587/100000 [6:53:11<38:25:28,  1.58s/it]                                                            13%|█▎        | 12587/100000 [6:53:11<38:25:28,  1.58s/it] 13%|█▎        | 12588/100000 [6:53:12<37:20:01,  1.54s/it]                                                            13%|█▎        | 12588/100000 [6:53:12<37:20:01,  1.54s/it] 13%|█▎        | 12589/100000 [6:53:14<36:10:00,  1.49s/it]                                                            13%|█▎        | 12589/100000 [6:53:14<36:10:00,  1.49s/it] 13%|█▎        | 12590/100000 [6:53:15<35:32:57,  1.46s/it]                                                            13%|█▎        | 12590/100000 [6:53:15<35:32:57,  1.46s/it] 13%|█▎        | 12591/100000 [6:53:17<34:50:54,  1.44s/it]                                                            13%|█▎        | 12591/100000 [6:53:17<34:50:54,  1.44s/it] 13%|█▎        | 12592/100000 [6:53:18<34:16:02,  1.41s/it]                                                            13%|█▎        | 12592/100000 [6:53:18<34:16:02,  1.41s/it] 13%|█▎        | 12593/100000 [6:53:19<33:44:10,  1.39s/it]                                                            13%|█▎        | 12593/100000 [6:53:19<33:44:10,  1.39s/it] 13%|█▎        | 12594/100000 [6:53:21<33:12:18,  1.37s/it]                                                            13%|█▎        | 12594/100000 [6:53:21<33:12:18,  1.37s/it] 13%|█▎        | 12595/100000 [6:53:22<32:42:03,  1.35s/it]                                                            13%|█▎        | 12595/100000 [6:53:22<32:42:03,  1.35s/it] 13%|█▎        | 12596/100000 [6:53:23<32:03:00,  1.32s/it]                                                            13%|█▎        | 12596/100000 [6:53:23<32:03:00,  1.32s/it] 13%|█▎        | 12597/100000 [6:53:24<31:44:39,  1.31s/it]                                                            13%|█▎        | 12597/100000 [6:53:24<31:44:39,  1.31s/it] 13%|█▎        | 12598/100000 [6:53:26<31:04:51,  1.28s/it]                                                            13%|█▎        | 12598/100000 [6:53:26<31:04:51,  1.28s/it] 13%|█▎        | 12599/100000 [6:53:27<30:44:43,  1.27s/it]                                                            13%|█▎        | 12599/100000 [6:53:27<30:44:43,  1.27s/it] 13%|█▎        | 12600/100000 [6:53:28<30:19:46,  1.25s/it]                                                            13%|█▎        | 12600/100000 [6:53:28<30:19:46,  1.25s/it] 13%|█▎        | 12601/100000 [6:53:29<29:42:22,  1.22s/it]                                                            13%|█▎        | 12601/100000 [6:53:29<29:42:22,  1.22s/it] 13%|█▎        | 12602/100000 [6:53:30<29:14:12,  1.20s/it]                                                            13%|█▎        | 12602/100000 [6:53:30<29:14:12,  1.20s/it] 13%|█▎        | 12603/100000 [6:53:31<28:42:42,  1.18s/it]                                                            13%|█▎        | 12603/100000 [6:53:31<28:42:42,  1.18s/it] 13%|█▎        | 12604/100000 [6:53:33<28:20:43,  1.17s/it]                                                            13%|█▎        | 12604/100000 [6:53:33<28:20:43,  1.17s/it] 13%|█▎        | 12605/100000 [6:53:34<27:54:10,  1.15s/it]                                                            13%|█▎        | 12605/100000 [6:53:34<27:54:10,  1.15s/it] 13%|█▎        | 12606/100000 [6:53:35<27:33:17,  1.14s/it]                                                            13%|█▎        | 12606/100000 [6:53:35<27:33:17,  1.14s/it] 13%|█▎        | 12607/100000 [6:53:36<27:13:46,  1.12s/it]                                                            13%|█▎        | 12607/100000 [6:53:36<27:13:46,  1.12s/it] 13%|█▎        | 12608/100000 [6:53:37<26:51:07,  1.11s/it]                                                            13%|█▎        | 12608/100000 [6:53:37<26:51:07,  1.11s/it] 13%|█▎        | 12609/100000 [6:53:38<26:22:23,  1.09s/it]                                                            13%|█▎        | 12609/100000 [6:53:38<26:22:23,  1.09s/it] 13%|█▎        | 12610/100000 [6:53:39<26:01:47,  1.07s/it]                                                            13%|█▎        | 12610/100000 [6:53:39<26:01:47,  1.07s/it] 13%|█▎        | 12611/100000 [6:53:40<25:36:14,  1.05s/it]                                                            13%|█▎        | 12611/100000 [6:53:40<25:36:14,  1.05s/it] 13%|█▎        | 12612/100000 [6:53:41<25:11:03,  1.04s/it]                                                            13%|█▎        | 12612/100000 [6:53:41<25:11:03,  1.04s/it] 13%|█▎        | 12613/100000 [6:53:42<24:46:41,  1.02s/it]                                                            13%|█▎        | 12613/100000 [6:53:42<24:46:41,  1.02s/it] 13%|█▎        | 12614/100000 [6:53:43<24:28:26,  1.01s/it]                                                            13%|█▎        | 12614/100000 [6:53:43<24:28:26,  1.01s/it] 13%|█▎        | 12615/100000 [6:53:44<24:06:26,  1.01it/s]                                                            13%|█▎        | 12615/100000 [6:53:44<24:06:26,  1.01it/s] 13%|█▎        | 12616/100000 [6:53:45<23:11:09,  1.05it/s]                                                            13%|█▎        | 12616/100000 [6:53:45<23:11:09,  1.05it/s] 13%|█▎        | 12617/100000 [6:53:57<101:14:32,  4.17s/it]                                                             13%|█▎        | 12617/100000 [6:53:57<101:14:32,  4.17s/it] 13%|█▎        | 12618/100000 [6:54:02<112:48:24,  4.65s/it]                                                             13%|█▎        | 12618/100000 [6:54:02<112:48:24,  4.65s/it] 13%|█▎        | 12619/100000 [6:54:07<113:25:29,  4.67s/it]                                                             13%|█▎        | 12619/100000 [6:54:07<113:25:29,  4.67s/it] 13%|█▎        | 12620/100000 [6:54:11<109:37:26,  4.52s/it]                                                             13%|█▎        | 12620/100000 [6:54:11<109:37:26,  4.52s/it] 13%|█▎        | 12621/100000 [6:54:15<103:35:13,  4.27s/it]                                                             13%|█▎        | 12621/100000 [6:54:15<103:35:13,  4.27s/it] 13%|█▎        | 12622/100000 [6:54:18<96:38:14,  3.98s/it]                                                             13%|█▎        | 12622/100000 [6:54:18<96:38:14,  3.98s/it] 13%|█▎        | 12623/100000 [6:54:21<89:10:57,  3.67s/it]                                                           {'loss': 0.0063, 'grad_norm': 0.39242538809776306, 'learning_rate': 2.915266666666667e-05, 'epoch': 23.15}
+{'loss': 0.0024, 'grad_norm': 0.11153402179479599, 'learning_rate': 2.9152333333333332e-05, 'epoch': 23.15}
+{'loss': 0.0049, 'grad_norm': 0.30442219972610474, 'learning_rate': 2.9152e-05, 'epoch': 23.15}
+{'loss': 0.0356, 'grad_norm': 0.2781001031398773, 'learning_rate': 2.9151666666666667e-05, 'epoch': 23.15}
+{'loss': 0.0047, 'grad_norm': 0.20190612971782684, 'learning_rate': 2.9151333333333333e-05, 'epoch': 23.15}
+{'loss': 0.0073, 'grad_norm': 0.3549395799636841, 'learning_rate': 2.9151000000000003e-05, 'epoch': 23.16}
+{'loss': 0.0173, 'grad_norm': 0.39812251925468445, 'learning_rate': 2.915066666666667e-05, 'epoch': 23.16}
+{'loss': 0.0056, 'grad_norm': 0.22466783225536346, 'learning_rate': 2.9150333333333334e-05, 'epoch': 23.16}
+{'loss': 0.0017, 'grad_norm': 0.06262242048978806, 'learning_rate': 2.915e-05, 'epoch': 23.16}
+{'loss': 0.0075, 'grad_norm': 0.5167449116706848, 'learning_rate': 2.914966666666667e-05, 'epoch': 23.16}
+{'loss': 0.0044, 'grad_norm': 0.1647091954946518, 'learning_rate': 2.9149333333333332e-05, 'epoch': 23.16}
+{'loss': 0.0031, 'grad_norm': 0.13090741634368896, 'learning_rate': 2.9149e-05, 'epoch': 23.17}
+{'loss': 0.0042, 'grad_norm': 0.3570130169391632, 'learning_rate': 2.9148666666666668e-05, 'epoch': 23.17}
+{'loss': 0.0079, 'grad_norm': 0.3519172966480255, 'learning_rate': 2.9148333333333333e-05, 'epoch': 23.17}
+{'loss': 0.0029, 'grad_norm': 0.22465786337852478, 'learning_rate': 2.9148000000000003e-05, 'epoch': 23.17}
+{'loss': 0.0026, 'grad_norm': 0.10870680212974548, 'learning_rate': 2.9147666666666665e-05, 'epoch': 23.17}
+{'loss': 0.006, 'grad_norm': 0.19479309022426605, 'learning_rate': 2.9147333333333335e-05, 'epoch': 23.18}
+{'loss': 0.0031, 'grad_norm': 0.26224997639656067, 'learning_rate': 2.9147e-05, 'epoch': 23.18}
+{'loss': 0.0039, 'grad_norm': 0.22105391323566437, 'learning_rate': 2.9146666666666667e-05, 'epoch': 23.18}
+{'loss': 0.006, 'grad_norm': 0.3528079390525818, 'learning_rate': 2.9146333333333332e-05, 'epoch': 23.18}
+{'loss': 0.0039, 'grad_norm': 0.19657863676548004, 'learning_rate': 2.9146000000000002e-05, 'epoch': 23.18}
+{'loss': 0.0017, 'grad_norm': 0.14275223016738892, 'learning_rate': 2.9145666666666664e-05, 'epoch': 23.18}
+{'loss': 0.1199, 'grad_norm': 0.6491601467132568, 'learning_rate': 2.9145333333333334e-05, 'epoch': 23.19}
+{'loss': 0.1151, 'grad_norm': 0.7567947506904602, 'learning_rate': 2.9145000000000003e-05, 'epoch': 23.19}
+{'loss': 0.068, 'grad_norm': 0.3431910574436188, 'learning_rate': 2.9144666666666666e-05, 'epoch': 23.19}
+{'loss': 0.0507, 'grad_norm': 0.40085679292678833, 'learning_rate': 2.9144333333333335e-05, 'epoch': 23.19}
+{'loss': 0.0545, 'grad_norm': 0.5359059572219849, 'learning_rate': 2.9144e-05, 'epoch': 23.19}
+{'loss': 0.1062, 'grad_norm': 0.7867258787155151, 'learning_rate': 2.9143666666666667e-05, 'epoch': 23.2}
+{'loss': 0.0363, 'grad_norm': 0.3034769892692566, 'learning_rate': 2.9143333333333333e-05, 'epoch': 23.2}
+{'loss': 0.0534, 'grad_norm': 1.3643563985824585, 'learning_rate': 2.9143000000000002e-05, 'epoch': 23.2}
+{'loss': 0.0444, 'grad_norm': 0.30873343348503113, 'learning_rate': 2.9142666666666668e-05, 'epoch': 23.2}
+{'loss': 0.0196, 'grad_norm': 0.3701000213623047, 'learning_rate': 2.9142333333333334e-05, 'epoch': 23.2}
+{'loss': 0.0192, 'grad_norm': 0.29086777567863464, 'learning_rate': 2.9142000000000003e-05, 'epoch': 23.2}
+{'loss': 0.0642, 'grad_norm': 0.3202081024646759, 'learning_rate': 2.9141666666666666e-05, 'epoch': 23.21}
+{'loss': 0.0289, 'grad_norm': 0.37413352727890015, 'learning_rate': 2.9141333333333335e-05, 'epoch': 23.21}
+{'loss': 0.0334, 'grad_norm': 0.23711729049682617, 'learning_rate': 2.9141e-05, 'epoch': 23.21}
+{'loss': 0.0108, 'grad_norm': 0.2957731783390045, 'learning_rate': 2.9140666666666667e-05, 'epoch': 23.21}
+{'loss': 0.027, 'grad_norm': 1.019913911819458, 'learning_rate': 2.9140333333333333e-05, 'epoch': 23.21}
+{'loss': 0.0112, 'grad_norm': 0.29194220900535583, 'learning_rate': 2.9140000000000002e-05, 'epoch': 23.22}
+{'loss': 0.0122, 'grad_norm': 0.33904239535331726, 'learning_rate': 2.9139666666666668e-05, 'epoch': 23.22}
+{'loss': 0.0105, 'grad_norm': 0.23502930998802185, 'learning_rate': 2.9139333333333334e-05, 'epoch': 23.22}
+{'loss': 0.0032, 'grad_norm': 0.08390850573778152, 'learning_rate': 2.9139000000000003e-05, 'epoch': 23.22}
+{'loss': 0.0066, 'grad_norm': 0.3864550292491913, 'learning_rate': 2.9138666666666666e-05, 'epoch': 23.22}
+{'loss': 0.0087, 'grad_norm': 0.37667298316955566, 'learning_rate': 2.9138333333333335e-05, 'epoch': 23.23}
+{'loss': 0.0078, 'grad_norm': 0.3234068751335144, 'learning_rate': 2.9137999999999998e-05, 'epoch': 23.23}
+{'loss': 0.0045, 'grad_norm': 0.145706906914711, 'learning_rate': 2.9137666666666667e-05, 'epoch': 23.23}
+{'loss': 0.0049, 'grad_norm': 0.1408831626176834, 'learning_rate': 2.9137333333333333e-05, 'epoch': 23.23}
+{'loss': 0.0084, 'grad_norm': 0.36585304141044617, 'learning_rate': 2.9137e-05, 'epoch': 23.23}
+{'loss': 0.0043, 'grad_norm': 0.1734265834093094, 'learning_rate': 2.913666666666667e-05, 'epoch': 23.23}
+{'loss': 0.0069, 'grad_norm': 0.24555036425590515, 'learning_rate': 2.9136333333333334e-05, 'epoch': 23.24}
+{'loss': 0.0042, 'grad_norm': 0.1656181663274765, 'learning_rate': 2.9136e-05, 'epoch': 23.24}
+{'loss': 0.0057, 'grad_norm': 0.27070939540863037, 'learning_rate': 2.9135666666666666e-05, 'epoch': 23.24}
+{'loss': 0.008, 'grad_norm': 0.27400118112564087, 'learning_rate': 2.9135333333333335e-05, 'epoch': 23.24}
+{'loss': 0.0042, 'grad_norm': 0.30686214566230774, 'learning_rate': 2.9134999999999998e-05, 'epoch': 23.24}
+{'loss': 0.0075, 'grad_norm': 0.46688786149024963, 'learning_rate': 2.9134666666666667e-05, 'epoch': 23.25}
+{'loss': 0.0058, 'grad_norm': 0.30184173583984375, 'learning_rate': 2.9134333333333337e-05, 'epoch': 23.25}
+{'loss': 0.0033, 'grad_norm': 0.15009987354278564, 'learning_rate': 2.9134e-05, 'epoch': 23.25}
+{'loss': 0.0133, 'grad_norm': 0.48980292677879333, 'learning_rate': 2.913366666666667e-05, 'epoch': 23.25}
+{'loss': 0.0046, 'grad_norm': 0.1655283272266388, 'learning_rate': 2.9133333333333334e-05, 'epoch': 23.25}
+{'loss': 0.0266, 'grad_norm': 0.665810763835907, 'learning_rate': 2.9133e-05, 'epoch': 23.25}
+{'loss': 0.0121, 'grad_norm': 1.3942642211914062, 'learning_rate': 2.9132666666666666e-05, 'epoch': 23.26}
+{'loss': 0.0024, 'grad_norm': 0.11559968441724777, 'learning_rate': 2.9132333333333336e-05, 'epoch': 23.26}
+{'loss': 0.0042, 'grad_norm': 0.14520831406116486, 'learning_rate': 2.9131999999999998e-05, 'epoch': 23.26}
+{'loss': 0.0064, 'grad_norm': 0.3412821590900421, 'learning_rate': 2.9131666666666668e-05, 'epoch': 23.26}
+{'loss': 0.0051, 'grad_norm': 0.28790393471717834, 'learning_rate': 2.9131333333333337e-05, 'epoch': 23.26}
+{'loss': 0.0083, 'grad_norm': 0.231611967086792, 'learning_rate': 2.9131e-05, 'epoch': 23.27}
+{'loss': 0.0062, 'grad_norm': 0.28216591477394104, 'learning_rate': 2.913066666666667e-05, 'epoch': 23.27}
+{'loss': 0.0048, 'grad_norm': 0.24869054555892944, 'learning_rate': 2.9130333333333335e-05, 'epoch': 23.27}
+{'loss': 0.0252, 'grad_norm': 0.27544718980789185, 'learning_rate': 2.913e-05, 'epoch': 23.27}
+{'loss': 0.0046, 'grad_norm': 0.6152492165565491, 'learning_rate': 2.9129666666666667e-05, 'epoch': 23.27}
+{'loss': 0.0058, 'grad_norm': 0.26752281188964844, 'learning_rate': 2.9129333333333336e-05, 'epoch': 23.28}
+{'loss': 0.0076, 'grad_norm': 0.31082385778427124, 'learning_rate': 2.9129e-05, 'epoch': 23.28}
+{'loss': 0.1092, 'grad_norm': 0.5576523542404175, 'learning_rate': 2.9128666666666668e-05, 'epoch': 23.28}
+{'loss': 0.1438, 'grad_norm': 0.5595287084579468, 'learning_rate': 2.9128333333333337e-05, 'epoch': 23.28}
+{'loss': 0.0899, 'grad_norm': 0.4700721800327301, 'learning_rate': 2.9128e-05, 'epoch': 23.28}
+{'loss': 0.1053, 'grad_norm': 0.5074760317802429, 'learning_rate': 2.912766666666667e-05, 'epoch': 23.28}
+{'loss': 0.0583, 'grad_norm': 0.3127371668815613, 'learning_rate': 2.912733333333333e-05, 'epoch': 23.29}
+{'loss': 0.101, 'grad_norm': 0.510924756526947, 'learning_rate': 2.9127e-05, 'epoch': 23.29}
+ 13%|█▎        | 12623/100000 [6:54:21<89:10:57,  3.67s/it] 13%|█▎        | 12624/100000 [6:54:24<82:50:29,  3.41s/it]                                                            13%|█▎        | 12624/100000 [6:54:24<82:50:29,  3.41s/it] 13%|█▎        | 12625/100000 [6:54:26<76:20:17,  3.15s/it]                                                            13%|█▎        | 12625/100000 [6:54:26<76:20:17,  3.15s/it] 13%|█▎        | 12626/100000 [6:54:29<70:44:41,  2.91s/it]                                                            13%|█▎        | 12626/100000 [6:54:29<70:44:41,  2.91s/it] 13%|█▎        | 12627/100000 [6:54:31<65:44:58,  2.71s/it]                                                            13%|█▎        | 12627/100000 [6:54:31<65:44:58,  2.71s/it] 13%|█▎        | 12628/100000 [6:54:33<61:20:37,  2.53s/it]                                                            13%|█▎        | 12628/100000 [6:54:33<61:20:37,  2.53s/it] 13%|█▎        | 12629/100000 [6:54:35<57:22:20,  2.36s/it]                                                            13%|█▎        | 12629/100000 [6:54:35<57:22:20,  2.36s/it] 13%|█▎        | 12630/100000 [6:54:37<53:43:49,  2.21s/it]                                                            13%|█▎        | 12630/100000 [6:54:37<53:43:49,  2.21s/it] 13%|█▎        | 12631/100000 [6:54:39<50:26:30,  2.08s/it]                                                            13%|█▎        | 12631/100000 [6:54:39<50:26:30,  2.08s/it] 13%|█▎        | 12632/100000 [6:54:40<47:42:22,  1.97s/it]                                                            13%|█▎        | 12632/100000 [6:54:40<47:42:22,  1.97s/it] 13%|█▎        | 12633/100000 [6:54:42<45:17:03,  1.87s/it]                                                            13%|█▎        | 12633/100000 [6:54:42<45:17:03,  1.87s/it] 13%|█▎        | 12634/100000 [6:54:44<43:23:06,  1.79s/it]                                                            13%|█▎        | 12634/100000 [6:54:44<43:23:06,  1.79s/it] 13%|█▎        | 12635/100000 [6:54:45<41:45:41,  1.72s/it]                                                            13%|█▎        | 12635/100000 [6:54:45<41:45:41,  1.72s/it] 13%|█▎        | 12636/100000 [6:54:47<40:09:23,  1.65s/it]                                                            13%|█▎        | 12636/100000 [6:54:47<40:09:23,  1.65s/it] 13%|█▎        | 12637/100000 [6:54:48<38:48:17,  1.60s/it]                                                            13%|█▎        | 12637/100000 [6:54:48<38:48:17,  1.60s/it] 13%|█▎        | 12638/100000 [6:54:50<37:40:54,  1.55s/it]                                                            13%|█▎        | 12638/100000 [6:54:50<37:40:54,  1.55s/it] 13%|█▎        | 12639/100000 [6:54:51<36:12:36,  1.49s/it]                                                            13%|█▎        | 12639/100000 [6:54:51<36:12:36,  1.49s/it] 13%|█▎        | 12640/100000 [6:54:52<35:40:23,  1.47s/it]                                                            13%|█▎        | 12640/100000 [6:54:52<35:40:23,  1.47s/it] 13%|█▎        | 12641/100000 [6:54:54<35:00:48,  1.44s/it]                                                            13%|█▎        | 12641/100000 [6:54:54<35:00:48,  1.44s/it] 13%|█▎        | 12642/100000 [6:54:55<34:21:52,  1.42s/it]                                                            13%|█▎        | 12642/100000 [6:54:55<34:21:52,  1.42s/it] 13%|█▎        | 12643/100000 [6:54:57<33:48:03,  1.39s/it]                                                            13%|█▎        | 12643/100000 [6:54:57<33:48:03,  1.39s/it] 13%|█▎        | 12644/100000 [6:54:58<33:00:10,  1.36s/it]                                                            13%|█▎        | 12644/100000 [6:54:58<33:00:10,  1.36s/it] 13%|█▎        | 12645/100000 [6:54:59<32:34:06,  1.34s/it]                                                            13%|█▎        | 12645/100000 [6:54:59<32:34:06,  1.34s/it] 13%|█▎        | 12646/100000 [6:55:00<31:55:56,  1.32s/it]                                                            13%|█▎        | 12646/100000 [6:55:00<31:55:56,  1.32s/it] 13%|█▎        | 12647/100000 [6:55:02<31:30:56,  1.30s/it]                                                            13%|█▎        | 12647/100000 [6:55:02<31:30:56,  1.30s/it] 13%|█▎        | 12648/100000 [6:55:03<30:53:42,  1.27s/it]                                                            13%|█▎        | 12648/100000 [6:55:03<30:53:42,  1.27s/it] 13%|█▎        | 12649/100000 [6:55:04<30:36:31,  1.26s/it]                                                            13%|█▎        | 12649/100000 [6:55:04<30:36:31,  1.26s/it] 13%|█▎        | 12650/100000 [6:55:05<30:17:08,  1.25s/it]                                                            13%|█▎        | 12650/100000 [6:55:05<30:17:08,  1.25s/it] 13%|█▎        | 12651/100000 [6:55:06<29:54:33,  1.23s/it]                                                            13%|█▎        | 12651/100000 [6:55:06<29:54:33,  1.23s/it] 13%|█▎        | 12652/100000 [6:55:08<29:25:11,  1.21s/it]                                                            13%|█▎        | 12652/100000 [6:55:08<29:25:11,  1.21s/it] 13%|█▎        | 12653/100000 [6:55:09<28:58:14,  1.19s/it]                                                            13%|█▎        | 12653/100000 [6:55:09<28:58:14,  1.19s/it] 13%|█▎        | 12654/100000 [6:55:10<28:34:07,  1.18s/it]                                                            13%|█▎        | 12654/100000 [6:55:10<28:34:07,  1.18s/it] 13%|█▎        | 12655/100000 [6:55:11<27:59:27,  1.15s/it]                                                            13%|█▎        | 12655/100000 [6:55:11<27:59:27,  1.15s/it] 13%|█▎        | 12656/100000 [6:55:12<27:34:21,  1.14s/it]                                                            13%|█▎        | 12656/100000 [6:55:12<27:34:21,  1.14s/it] 13%|█▎        | 12657/100000 [6:55:13<27:10:02,  1.12s/it]                                                            13%|█▎        | 12657/100000 [6:55:13<27:10:02,  1.12s/it] 13%|█▎        | 12658/100000 [6:55:14<26:50:38,  1.11s/it]                                                            13%|█▎        | 12658/100000 [6:55:14<26:50:38,  1.11s/it] 13%|█▎        | 12659/100000 [6:55:15<26:27:33,  1.09s/it]                                                            13%|█▎        | 12659/100000 [6:55:15<26:27:33,  1.09s/it] 13%|█▎        | 12660/100000 [6:55:16<26:08:10,  1.08s/it]                                                            13%|█▎        | 12660/100000 [6:55:16<26:08:10,  1.08s/it] 13%|█▎        | 12661/100000 [6:55:17<25:42:57,  1.06s/it]                                                            13%|█▎        | 12661/100000 [6:55:17<25:42:57,  1.06s/it] 13%|█▎        | 12662/100000 [6:55:18<25:09:20,  1.04s/it]                                                            13%|█▎        | 12662/100000 [6:55:18<25:09:20,  1.04s/it] 13%|█▎        | 12663/100000 [6:55:19<24:34:34,  1.01s/it]                                                            13%|█▎        | 12663/100000 [6:55:19<24:34:34,  1.01s/it] 13%|█▎        | 12664/100000 [6:55:20<24:09:36,  1.00it/s]                                                            13%|█▎        | 12664/100000 [6:55:20<24:09:36,  1.00it/s] 13%|█▎        | 12665/100000 [6:55:21<23:38:35,  1.03it/s]                                                            13%|█▎        | 12665/100000 [6:55:21<23:38:35,  1.03it/s] 13%|█▎        | 12666/100000 [6:55:22<22:56:03,  1.06it/s]                                                            13%|█▎        | 12666/100000 [6:55:22<22:56:03,  1.06it/s] 13%|█▎        | 12667/100000 [6:55:34<102:38:51,  4.23s/it]                                                             13%|█▎        | 12667/100000 [6:55:34<102:38:51,  4.23s/it] 13%|█▎        | 12668/100000 [6:55:40<114:57:45,  4.74s/it]                                                             13%|█▎        | 12668/100000 [6:55:40<114:57:45,  4.74s/it] 13%|█▎        | 12669/100000 [6:55:45<113:47:25,  4.69s/it]                                                             13%|█▎        | 12669/100000 [6:55:45<113:47:25,  4.69s/it] 13%|█▎        | 12670/100000 [6:55:49<108:54:27,  4.49s/it]                                                             13%|█▎        | 12670/100000 [6:55:49<108:54:27,  4.49s/it] 13%|█▎        | 12671/100000 [6:55:52<101:32:16,  4.19s/it]                                                             13%|█▎        | 12671/100000 [6:55:52<101:32:16,  4.19s/it] 13%|█▎        | 12672/100000 [6:55:55<95:19:25,  3.93s/it]                                                             13%|█▎        | 12672/100000 [6:55:55<95:19:25,  3.93s/it] 13%|█▎        | 12673/100000 [6:55:58<88:45:56,  3.66s/it]                                                            13%|█▎        | 12673/100000 [6:55:58<88:45:56,  3.66s/it] 13%|█▎        | 12674/100000 [6:56:01<82:50:35,  3.42s/it]                                                            13%|█▎        | 12674/100000 [6:56:01<82:50:35,  3.42s/it] 13%|█▎        | 12675/100000 [6:56:04<76:45:57,  3.16s/it]                                                            13%|█▎        | 12675/100000 [6:56:04<76:45:57,  3.16s/it] 13%|█▎        | 12676/100000 [6:56:06<71:02:03,  2.93s/it]                                                            13%|█▎        | 12676/100000 [6:56:06<71:02:03,  2.93s/it] 13%|█▎        | 12677/100000 [6:56:08<65:51:04,  2.71s/it]                                                            13%|█▎        | 12677/100000 [6:56:08<65:51:04,  2.71s/it] 13%|█▎        | 12678/100000 [6:56:10<61:01:09,  2.52s/it]                                                            13%|█▎        | 12678/100000 [6:56:10<61:01:09,  2.52s/it] 13%|█▎        | 12679/100000 [6:56:12<56:30:02,  2.33s/it]                                                            13%|█▎        | 12679/100000 [6:56:12<56:30:02,  2.33s/it] 13%|█▎        | 12680/100000 [6:56:14<53:04:31,  2.19s/it]                                                            13%|█▎        | 12680/100000 [6:56:14<53:04:31,  2.19s/it] 13%|█▎        | 12681/100000 [6:56:16<49:56:51,  2.06s/it]                                                            13%|█▎        | 12681/100000 [6:56:16<49:56:51,  2.06s/it] 13%|█▎        | 12682/100000 [6:56:18<47:14:38,  1.95s/it]                                                            13%|█▎        | 12682/100000 [6:56:18<47:14:38,  1.95s/it] 13%|█▎        | 12683/100000 [6:56:19<44:50:16,  1.85s/it]                                                            13%|█▎        | 12683/100000 [6:56:19<44:50:16,  1.85s/it] 13%|█▎        | 12684/100000 [6:56:21<43:01:21,  1.77s/it]                                                            13%|█▎        | 12684/100000 [6:56:21<43:01:21,  1.77s/it] 13%|█▎        | 12685/100000 [6:56:22<41:01:25,  1.69s/it]                                                            13%|█▎        | 12685/100000 [6:56:22<41:01:25,  1.69s/it] 13%|█▎        | 12686/100000 [6:56:24<39:40:50,  1.64s/it]                                                            13%|█▎        | 12686/100000 [6:56:24<39:40:50,  1.64s/it] 13%|█▎        | 12687/100000 [6:56:25<38:24:08,  1.58s/it]                                                            13%|█▎        | 12687/100000 [6:56:25<38:24:08,  1.58s/it] 13%|█▎        | 12688/100000 [6:56:27<37:13:52,  1.54s/it]                                                            13%|█▎        | 12688/100000 [6:56:27<37:13:52,  1.54s/it] 13%|█▎        | 12689/100000 [6:56:28<36:23:55,  1.50s/it]                                                            13%|█▎        | 12689/100000 [6:56:28<36:23:55,  1.50s/it] 13%|█▎        | 12690/100000 [6:56:30<35:20:13,  1.46s/it]                                                            13%|█▎        | 12690/100000 [6:56:30<35:20:13,  1.46s/it] 13%|█▎        | 12691/100000 [6:56:31<34:40:11,  1.43s/it]                                                            13%|█▎        | 12691/100000 [6:56:31<34:40:11,  1.43s/it] 13%|█▎        | 12692/100000 [6:56:32<34:07:00,  1.41s/it]                                                            13%|█▎        | 12692/100000 [6:56:32<34:07:00,  1.41s/it] 13%|█▎        | 12693/100000 [6:56:34<33:24:18,  1.38s/it]                                                            13%|█▎        | 12693/100000 [6:56:34<33:24:18,  1.38s/it] 13%|█▎        | 12694/100000 [6:56:35<32:55:57,  1.36s/it]                                                            13%|█▎        | 12694/100000 [6:56:35<32:55:57,  1.36s/it] 13%|█▎        | 12695/100000 [6:56:36<32:21:30,  1.33s/it]                                                            13%|█▎        | 12695/100000 [6:56:36<32:21:30,  1.33s/it] 13%|█▎        | 12696/100000 [6:56:37<32:03:15,  1.32s/it]                                                            13%|█▎        | 12696/100000 [6:56:37<32:03:15,  1.32s/it] 13%|█▎        | 12697/100000 [6:56:39<31:30:01,  1.30s/it]                                                            13%|█▎        | 12697/100000 [6:56:39<31:30:01,  1.30s/it] 13%|█▎        | 12698/100000 [6:56:40<30:50:47,  1.27s/it]                                                            13%|█▎        | 12698/100000 [6:56:40<30:50:47,  1.27s/it] 13%|█▎        | 12699/100000 [6:56:41<30:29:04,  1.26s/it]                                                            13%|█▎        | 12699/100000 [6:56:41<30:29:04,  1.26s/it] 13%|█▎        | 12700/100000 [6:56:42<29:48:48,  1.23s/it]                                                            13%|█▎        | 12700/100000 [6:56:42<29:48:48,  1.23s/it] 13%|█▎        | 12701/100000 [6:56:43<29:19:06,  1.21s/it]                                                           {'loss': 0.0423, 'grad_norm': 0.46187469363212585, 'learning_rate': 2.9126666666666667e-05, 'epoch': 23.29}
+{'loss': 0.073, 'grad_norm': 0.37520408630371094, 'learning_rate': 2.9126333333333333e-05, 'epoch': 23.29}
+{'loss': 0.0263, 'grad_norm': 0.3077435791492462, 'learning_rate': 2.9126000000000002e-05, 'epoch': 23.29}
+{'loss': 0.058, 'grad_norm': 0.32046741247177124, 'learning_rate': 2.9125666666666668e-05, 'epoch': 23.3}
+{'loss': 0.0277, 'grad_norm': 0.5632917284965515, 'learning_rate': 2.9125333333333334e-05, 'epoch': 23.3}
+{'loss': 0.0307, 'grad_norm': 0.7035937905311584, 'learning_rate': 2.9125e-05, 'epoch': 23.3}
+{'loss': 0.022, 'grad_norm': 0.794179379940033, 'learning_rate': 2.912466666666667e-05, 'epoch': 23.3}
+{'loss': 0.0282, 'grad_norm': 0.3423013389110565, 'learning_rate': 2.912433333333333e-05, 'epoch': 23.3}
+{'loss': 0.0126, 'grad_norm': 0.2058839648962021, 'learning_rate': 2.9124e-05, 'epoch': 23.3}
+{'loss': 0.0207, 'grad_norm': 0.270408570766449, 'learning_rate': 2.9123666666666667e-05, 'epoch': 23.31}
+{'loss': 0.0294, 'grad_norm': 0.3184267580509186, 'learning_rate': 2.9123333333333333e-05, 'epoch': 23.31}
+{'loss': 0.0124, 'grad_norm': 0.41973748803138733, 'learning_rate': 2.9123000000000002e-05, 'epoch': 23.31}
+{'loss': 0.0039, 'grad_norm': 0.1604977697134018, 'learning_rate': 2.9122666666666668e-05, 'epoch': 23.31}
+{'loss': 0.0087, 'grad_norm': 0.5372335314750671, 'learning_rate': 2.9122333333333334e-05, 'epoch': 23.31}
+{'loss': 0.0081, 'grad_norm': 0.17940805852413177, 'learning_rate': 2.9122e-05, 'epoch': 23.32}
+{'loss': 0.0061, 'grad_norm': 0.187593013048172, 'learning_rate': 2.912166666666667e-05, 'epoch': 23.32}
+{'loss': 0.012, 'grad_norm': 0.27255645394325256, 'learning_rate': 2.9121333333333332e-05, 'epoch': 23.32}
+{'loss': 0.0131, 'grad_norm': 0.5173263549804688, 'learning_rate': 2.9121e-05, 'epoch': 23.32}
+{'loss': 0.013, 'grad_norm': 0.3303021788597107, 'learning_rate': 2.9120666666666667e-05, 'epoch': 23.32}
+{'loss': 0.0036, 'grad_norm': 0.14484189450740814, 'learning_rate': 2.9120333333333333e-05, 'epoch': 23.33}
+{'loss': 0.0054, 'grad_norm': 0.19277650117874146, 'learning_rate': 2.9120000000000002e-05, 'epoch': 23.33}
+{'loss': 0.0081, 'grad_norm': 0.39073553681373596, 'learning_rate': 2.911966666666667e-05, 'epoch': 23.33}
+{'loss': 0.0036, 'grad_norm': 0.23671211302280426, 'learning_rate': 2.9119333333333334e-05, 'epoch': 23.33}
+{'loss': 0.004, 'grad_norm': 0.13604755699634552, 'learning_rate': 2.9119e-05, 'epoch': 23.33}
+{'loss': 0.0036, 'grad_norm': 0.12806524336338043, 'learning_rate': 2.911866666666667e-05, 'epoch': 23.33}
+{'loss': 0.0084, 'grad_norm': 0.26302891969680786, 'learning_rate': 2.9118333333333332e-05, 'epoch': 23.34}
+{'loss': 0.0082, 'grad_norm': 0.32138726115226746, 'learning_rate': 2.9118e-05, 'epoch': 23.34}
+{'loss': 0.006, 'grad_norm': 0.2769556939601898, 'learning_rate': 2.9117666666666667e-05, 'epoch': 23.34}
+{'loss': 0.007, 'grad_norm': 0.22334329783916473, 'learning_rate': 2.9117333333333333e-05, 'epoch': 23.34}
+{'loss': 0.0087, 'grad_norm': 0.5758256316184998, 'learning_rate': 2.9117000000000003e-05, 'epoch': 23.34}
+{'loss': 0.0071, 'grad_norm': 1.134762167930603, 'learning_rate': 2.9116666666666665e-05, 'epoch': 23.35}
+{'loss': 0.0043, 'grad_norm': 0.18429134786128998, 'learning_rate': 2.9116333333333334e-05, 'epoch': 23.35}
+{'loss': 0.0041, 'grad_norm': 0.13381122052669525, 'learning_rate': 2.9116e-05, 'epoch': 23.35}
+{'loss': 0.0133, 'grad_norm': 0.37146177887916565, 'learning_rate': 2.9115666666666666e-05, 'epoch': 23.35}
+{'loss': 0.0048, 'grad_norm': 0.1729261875152588, 'learning_rate': 2.9115333333333332e-05, 'epoch': 23.35}
+{'loss': 0.0078, 'grad_norm': 0.21925175189971924, 'learning_rate': 2.9115e-05, 'epoch': 23.35}
+{'loss': 0.0081, 'grad_norm': 0.3351660370826721, 'learning_rate': 2.9114666666666668e-05, 'epoch': 23.36}
+{'loss': 0.005, 'grad_norm': 0.150557741522789, 'learning_rate': 2.9114333333333333e-05, 'epoch': 23.36}
+{'loss': 0.009, 'grad_norm': 0.2575150430202484, 'learning_rate': 2.9114000000000003e-05, 'epoch': 23.36}
+{'loss': 0.0057, 'grad_norm': 0.24913664162158966, 'learning_rate': 2.9113666666666665e-05, 'epoch': 23.36}
+{'loss': 0.0021, 'grad_norm': 0.13307268917560577, 'learning_rate': 2.9113333333333335e-05, 'epoch': 23.36}
+{'loss': 0.0133, 'grad_norm': 0.47522854804992676, 'learning_rate': 2.9113e-05, 'epoch': 23.37}
+{'loss': 0.0066, 'grad_norm': 0.2812003791332245, 'learning_rate': 2.9112666666666667e-05, 'epoch': 23.37}
+{'loss': 0.0053, 'grad_norm': 0.33105483651161194, 'learning_rate': 2.9112333333333332e-05, 'epoch': 23.37}
+{'loss': 0.1752, 'grad_norm': 0.5941159725189209, 'learning_rate': 2.9112000000000002e-05, 'epoch': 23.37}
+{'loss': 0.1289, 'grad_norm': 0.5663772821426392, 'learning_rate': 2.9111666666666668e-05, 'epoch': 23.37}
+{'loss': 0.0951, 'grad_norm': 0.4650385081768036, 'learning_rate': 2.9111333333333334e-05, 'epoch': 23.37}
+{'loss': 0.0744, 'grad_norm': 0.659968376159668, 'learning_rate': 2.9111000000000003e-05, 'epoch': 23.38}
+{'loss': 0.0556, 'grad_norm': 0.44175758957862854, 'learning_rate': 2.9110666666666666e-05, 'epoch': 23.38}
+{'loss': 0.0617, 'grad_norm': 0.5107433795928955, 'learning_rate': 2.9110333333333335e-05, 'epoch': 23.38}
+{'loss': 0.0402, 'grad_norm': 0.3211396634578705, 'learning_rate': 2.911e-05, 'epoch': 23.38}
+{'loss': 0.0478, 'grad_norm': 0.37351423501968384, 'learning_rate': 2.9109666666666667e-05, 'epoch': 23.38}
+{'loss': 0.024, 'grad_norm': 0.2717868685722351, 'learning_rate': 2.9109333333333336e-05, 'epoch': 23.39}
+{'loss': 0.0448, 'grad_norm': 0.40558385848999023, 'learning_rate': 2.9109000000000002e-05, 'epoch': 23.39}
+{'loss': 0.0393, 'grad_norm': 0.4204607605934143, 'learning_rate': 2.9108666666666668e-05, 'epoch': 23.39}
+{'loss': 0.0241, 'grad_norm': 0.3483840823173523, 'learning_rate': 2.9108333333333334e-05, 'epoch': 23.39}
+{'loss': 0.0657, 'grad_norm': 0.4850672483444214, 'learning_rate': 2.9108000000000003e-05, 'epoch': 23.39}
+{'loss': 0.0128, 'grad_norm': 0.31261759996414185, 'learning_rate': 2.9107666666666666e-05, 'epoch': 23.4}
+{'loss': 0.0239, 'grad_norm': 0.4061281085014343, 'learning_rate': 2.9107333333333335e-05, 'epoch': 23.4}
+{'loss': 0.0144, 'grad_norm': 0.22250206768512726, 'learning_rate': 2.9106999999999998e-05, 'epoch': 23.4}
+{'loss': 0.0074, 'grad_norm': 0.2188418060541153, 'learning_rate': 2.9106666666666667e-05, 'epoch': 23.4}
+{'loss': 0.0123, 'grad_norm': 0.18531258404254913, 'learning_rate': 2.9106333333333336e-05, 'epoch': 23.4}
+{'loss': 0.0046, 'grad_norm': 0.16225002706050873, 'learning_rate': 2.9106e-05, 'epoch': 23.4}
+{'loss': 0.0058, 'grad_norm': 0.37271827459335327, 'learning_rate': 2.9105666666666668e-05, 'epoch': 23.41}
+{'loss': 0.0076, 'grad_norm': 0.3324749767780304, 'learning_rate': 2.9105333333333334e-05, 'epoch': 23.41}
+{'loss': 0.0031, 'grad_norm': 0.07640788704156876, 'learning_rate': 2.9105e-05, 'epoch': 23.41}
+{'loss': 0.0119, 'grad_norm': 0.36134073138237, 'learning_rate': 2.9104666666666666e-05, 'epoch': 23.41}
+{'loss': 0.0025, 'grad_norm': 0.12606969475746155, 'learning_rate': 2.9104333333333335e-05, 'epoch': 23.41}
+{'loss': 0.0088, 'grad_norm': 0.38095346093177795, 'learning_rate': 2.9103999999999998e-05, 'epoch': 23.42}
+{'loss': 0.0078, 'grad_norm': 0.18201282620429993, 'learning_rate': 2.9103666666666667e-05, 'epoch': 23.42}
+{'loss': 0.0129, 'grad_norm': 0.24027188122272491, 'learning_rate': 2.9103333333333336e-05, 'epoch': 23.42}
+{'loss': 0.0044, 'grad_norm': 0.12497299909591675, 'learning_rate': 2.9103e-05, 'epoch': 23.42}
+{'loss': 0.003, 'grad_norm': 0.3064292371273041, 'learning_rate': 2.910266666666667e-05, 'epoch': 23.42}
+{'loss': 0.0072, 'grad_norm': 0.2261001467704773, 'learning_rate': 2.9102333333333334e-05, 'epoch': 23.42}
+{'loss': 0.0062, 'grad_norm': 0.2631829082965851, 'learning_rate': 2.9102e-05, 'epoch': 23.43}
+{'loss': 0.0045, 'grad_norm': 0.23572014272212982, 'learning_rate': 2.9101666666666666e-05, 'epoch': 23.43}
+{'loss': 0.0063, 'grad_norm': 0.21679142117500305, 'learning_rate': 2.9101333333333335e-05, 'epoch': 23.43}
+{'loss': 0.0059, 'grad_norm': 0.16654612123966217, 'learning_rate': 2.9101e-05, 'epoch': 23.43}
+ 13%|█▎        | 12701/100000 [6:56:43<29:19:06,  1.21s/it] 13%|█▎        | 12702/100000 [6:56:45<28:55:15,  1.19s/it]                                                            13%|█▎        | 12702/100000 [6:56:45<28:55:15,  1.19s/it] 13%|█▎        | 12703/100000 [6:56:46<28:33:45,  1.18s/it]                                                            13%|█▎        | 12703/100000 [6:56:46<28:33:45,  1.18s/it] 13%|█▎        | 12704/100000 [6:56:47<28:07:58,  1.16s/it]                                                            13%|█▎        | 12704/100000 [6:56:47<28:07:58,  1.16s/it] 13%|█▎        | 12705/100000 [6:56:48<27:35:06,  1.14s/it]                                                            13%|█▎        | 12705/100000 [6:56:48<27:35:06,  1.14s/it] 13%|█▎        | 12706/100000 [6:56:49<27:15:42,  1.12s/it]                                                            13%|█▎        | 12706/100000 [6:56:49<27:15:42,  1.12s/it] 13%|█▎        | 12707/100000 [6:56:50<26:50:10,  1.11s/it]                                                            13%|█▎        | 12707/100000 [6:56:50<26:50:10,  1.11s/it] 13%|█▎        | 12708/100000 [6:56:51<26:37:01,  1.10s/it]                                                            13%|█▎        | 12708/100000 [6:56:51<26:37:01,  1.10s/it] 13%|█▎        | 12709/100000 [6:56:52<26:15:16,  1.08s/it]                                                            13%|█▎        | 12709/100000 [6:56:52<26:15:16,  1.08s/it] 13%|█▎        | 12710/100000 [6:56:53<25:56:01,  1.07s/it]                                                            13%|█▎        | 12710/100000 [6:56:53<25:56:01,  1.07s/it] 13%|█▎        | 12711/100000 [6:56:54<25:20:42,  1.05s/it]                                                            13%|█▎        | 12711/100000 [6:56:54<25:20:42,  1.05s/it] 13%|█▎        | 12712/100000 [6:56:55<24:52:04,  1.03s/it]                                                            13%|█▎        | 12712/100000 [6:56:55<24:52:04,  1.03s/it] 13%|█▎        | 12713/100000 [6:56:56<24:33:14,  1.01s/it]                                                            13%|█▎        | 12713/100000 [6:56:56<24:33:14,  1.01s/it] 13%|█▎        | 12714/100000 [6:56:57<24:19:01,  1.00s/it]                                                            13%|█▎        | 12714/100000 [6:56:57<24:19:01,  1.00s/it] 13%|█▎        | 12715/100000 [6:56:58<23:36:56,  1.03it/s]                                                            13%|█▎        | 12715/100000 [6:56:58<23:36:56,  1.03it/s] 13%|█▎        | 12716/100000 [6:56:59<23:10:51,  1.05it/s]                                                            13%|█▎        | 12716/100000 [6:56:59<23:10:51,  1.05it/s] 13%|█▎        | 12717/100000 [6:57:11<100:36:35,  4.15s/it]                                                             13%|█▎        | 12717/100000 [6:57:11<100:36:35,  4.15s/it] 13%|█▎        | 12718/100000 [6:57:16<112:07:55,  4.62s/it]                                                             13%|█▎        | 12718/100000 [6:57:16<112:07:55,  4.62s/it] 13%|█▎        | 12719/100000 [6:57:21<112:39:48,  4.65s/it]                                                             13%|█▎        | 12719/100000 [6:57:21<112:39:48,  4.65s/it] 13%|█▎        | 12720/100000 [6:57:25<106:00:29,  4.37s/it]                                                             13%|█▎        | 12720/100000 [6:57:25<106:00:29,  4.37s/it] 13%|█▎        | 12721/100000 [6:57:28<100:18:46,  4.14s/it]                                                             13%|█▎        | 12721/100000 [6:57:28<100:18:46,  4.14s/it] 13%|█▎        | 12722/100000 [6:57:32<94:04:04,  3.88s/it]                                                             13%|█▎        | 12722/100000 [6:57:32<94:04:04,  3.88s/it] 13%|█▎        | 12723/100000 [6:57:34<86:04:30,  3.55s/it]                                                            13%|█▎        | 12723/100000 [6:57:34<86:04:30,  3.55s/it] 13%|█▎        | 12724/100000 [6:57:37<79:00:40,  3.26s/it]                                                            13%|█▎        | 12724/100000 [6:57:37<79:00:40,  3.26s/it] 13%|█▎        | 12725/100000 [6:57:39<73:22:09,  3.03s/it]                                                            13%|█▎        | 12725/100000 [6:57:40<73:22:09,  3.03s/it] 13%|█▎        | 12726/100000 [6:57:42<67:02:50,  2.77s/it]                                                            13%|█▎        | 12726/100000 [6:57:42<67:02:50,  2.77s/it] 13%|█▎        | 12727/100000 [6:57:44<62:34:29,  2.58s/it]                                                            13%|█▎        | 12727/100000 [6:57:44<62:34:29,  2.58s/it] 13%|█▎        | 12728/100000 [6:57:46<58:12:11,  2.40s/it]                                                            13%|█▎        | 12728/100000 [6:57:46<58:12:11,  2.40s/it] 13%|█▎        | 12729/100000 [6:57:48<54:30:04,  2.25s/it]                                                            13%|█▎        | 12729/100000 [6:57:48<54:30:04,  2.25s/it] 13%|█▎        | 12730/100000 [6:57:49<51:04:58,  2.11s/it]                                                            13%|█▎        | 12730/100000 [6:57:49<51:04:58,  2.11s/it] 13%|█▎        | 12731/100000 [6:57:51<48:13:20,  1.99s/it]                                                            13%|█▎        | 12731/100000 [6:57:51<48:13:20,  1.99s/it] 13%|█▎        | 12732/100000 [6:57:53<45:54:41,  1.89s/it]                                                            13%|█▎        | 12732/100000 [6:57:53<45:54:41,  1.89s/it] 13%|█▎        | 12733/100000 [6:57:54<43:53:11,  1.81s/it]                                                            13%|█▎        | 12733/100000 [6:57:54<43:53:11,  1.81s/it] 13%|█▎        | 12734/100000 [6:57:56<42:17:36,  1.74s/it]                                                            13%|█▎        | 12734/100000 [6:57:56<42:17:36,  1.74s/it] 13%|█▎        | 12735/100000 [6:57:58<40:45:41,  1.68s/it]                                                            13%|█▎        | 12735/100000 [6:57:58<40:45:41,  1.68s/it] 13%|█▎        | 12736/100000 [6:57:59<39:15:50,  1.62s/it]                                                            13%|█▎        | 12736/100000 [6:57:59<39:15:50,  1.62s/it] 13%|█▎        | 12737/100000 [6:58:00<37:44:39,  1.56s/it]                                                            13%|█▎        | 12737/100000 [6:58:00<37:44:39,  1.56s/it] 13%|█▎        | 12738/100000 [6:58:02<36:31:32,  1.51s/it]                                                            13%|█▎        | 12738/100000 [6:58:02<36:31:32,  1.51s/it] 13%|█▎        | 12739/100000 [6:58:03<35:48:26,  1.48s/it]                                                            13%|█▎        | 12739/100000 [6:58:03<35:48:26,  1.48s/it] 13%|█▎        | 12740/100000 [6:58:05<35:05:29,  1.45s/it]                                                            13%|█▎        | 12740/100000 [6:58:05<35:05:29,  1.45s/it] 13%|█▎        | 12741/100000 [6:58:06<34:11:31,  1.41s/it]                                                            13%|█▎        | 12741/100000 [6:58:06<34:11:31,  1.41s/it] 13%|█▎        | 12742/100000 [6:58:07<33:40:55,  1.39s/it]                                                            13%|█▎        | 12742/100000 [6:58:07<33:40:55,  1.39s/it] 13%|█▎        | 12743/100000 [6:58:09<33:08:01,  1.37s/it]                                                            13%|█▎        | 12743/100000 [6:58:09<33:08:01,  1.37s/it] 13%|█▎        | 12744/100000 [6:58:10<32:39:08,  1.35s/it]                                                            13%|█▎        | 12744/100000 [6:58:10<32:39:08,  1.35s/it] 13%|█▎        | 12745/100000 [6:58:11<32:11:18,  1.33s/it]                                                            13%|█▎        | 12745/100000 [6:58:11<32:11:18,  1.33s/it] 13%|█▎        | 12746/100000 [6:58:12<31:47:49,  1.31s/it]                                                            13%|█▎        | 12746/100000 [6:58:12<31:47:49,  1.31s/it] 13%|█▎        | 12747/100000 [6:58:14<31:20:21,  1.29s/it]                                                            13%|█▎        | 12747/100000 [6:58:14<31:20:21,  1.29s/it] 13%|█▎        | 12748/100000 [6:58:15<30:55:22,  1.28s/it]                                                            13%|█▎        | 12748/100000 [6:58:15<30:55:22,  1.28s/it] 13%|█▎        | 12749/100000 [6:58:16<30:31:20,  1.26s/it]                                                            13%|█▎        | 12749/100000 [6:58:16<30:31:20,  1.26s/it] 13%|█▎        | 12750/100000 [6:58:17<29:52:05,  1.23s/it]                                                            13%|█▎        | 12750/100000 [6:58:17<29:52:05,  1.23s/it] 13%|█▎        | 12751/100000 [6:58:19<29:21:16,  1.21s/it]                                                            13%|█▎        | 12751/100000 [6:58:19<29:21:16,  1.21s/it] 13%|█▎        | 12752/100000 [6:58:20<28:47:09,  1.19s/it]                                                            13%|█▎        | 12752/100000 [6:58:20<28:47:09,  1.19s/it] 13%|█���        | 12753/100000 [6:58:21<29:12:41,  1.21s/it]                                                            13%|█▎        | 12753/100000 [6:58:21<29:12:41,  1.21s/it] 13%|█▎        | 12754/100000 [6:58:22<28:36:03,  1.18s/it]                                                            13%|█▎        | 12754/100000 [6:58:22<28:36:03,  1.18s/it] 13%|█▎        | 12755/100000 [6:58:23<28:07:58,  1.16s/it]                                                            13%|█▎        | 12755/100000 [6:58:23<28:07:58,  1.16s/it] 13%|█▎        | 12756/100000 [6:58:24<27:36:11,  1.14s/it]                                                            13%|█▎        | 12756/100000 [6:58:24<27:36:11,  1.14s/it] 13%|█▎        | 12757/100000 [6:58:25<27:04:36,  1.12s/it]                                                            13%|█▎        | 12757/100000 [6:58:25<27:04:36,  1.12s/it] 13%|█▎        | 12758/100000 [6:58:26<26:29:21,  1.09s/it]                                                            13%|█▎        | 12758/100000 [6:58:26<26:29:21,  1.09s/it] 13%|█▎        | 12759/100000 [6:58:27<26:16:05,  1.08s/it]                                                            13%|█▎        | 12759/100000 [6:58:27<26:16:05,  1.08s/it] 13%|█▎        | 12760/100000 [6:58:28<25:54:32,  1.07s/it]                                                            13%|█▎        | 12760/100000 [6:58:28<25:54:32,  1.07s/it] 13%|█▎        | 12761/100000 [6:58:29<25:29:06,  1.05s/it]                                                            13%|█▎        | 12761/100000 [6:58:29<25:29:06,  1.05s/it] 13%|█▎        | 12762/100000 [6:58:30<24:45:50,  1.02s/it]                                                            13%|█▎        | 12762/100000 [6:58:30<24:45:50,  1.02s/it] 13%|█▎        | 12763/100000 [6:58:31<24:34:35,  1.01s/it]                                                            13%|█▎        | 12763/100000 [6:58:31<24:34:35,  1.01s/it] 13%|█▎        | 12764/100000 [6:58:32<24:11:56,  1.00it/s]                                                            13%|█▎        | 12764/100000 [6:58:32<24:11:56,  1.00it/s] 13%|█▎        | 12765/100000 [6:58:33<23:48:36,  1.02it/s]                                                            13%|█▎        | 12765/100000 [6:58:33<23:48:36,  1.02it/s] 13%|█▎        | 12766/100000 [6:58:34<23:11:20,  1.04it/s]                                                            13%|█▎        | 12766/100000 [6:58:34<23:11:20,  1.04it/s] 13%|█▎        | 12767/100000 [6:58:45<91:41:04,  3.78s/it]                                                            13%|█▎        | 12767/100000 [6:58:45<91:41:04,  3.78s/it] 13%|█▎        | 12768/100000 [6:58:50<104:33:31,  4.32s/it]                                                             13%|█▎        | 12768/100000 [6:58:50<104:33:31,  4.32s/it] 13%|█▎        | 12769/100000 [6:58:55<105:57:16,  4.37s/it]                                                             13%|█▎        | 12769/100000 [6:58:55<105:57:16,  4.37s/it] 13%|█▎        | 12770/100000 [6:58:59<102:31:02,  4.23s/it]                                                             13%|█▎        | 12770/100000 [6:58:59<102:31:02,  4.23s/it] 13%|█▎        | 12771/100000 [6:59:02<96:49:36,  4.00s/it]                                                             13%|█▎        | 12771/100000 [6:59:02<96:49:36,  4.00s/it] 13%|█▎        | 12772/100000 [6:59:05<90:13:32,  3.72s/it]                                                            13%|█▎        | 12772/100000 [6:59:05<90:13:32,  3.72s/it] 13%|█▎        | 12773/100000 [6:59:08<84:42:26,  3.50s/it]                                                            13%|█▎        | 12773/100000 [6:59:08<84:42:26,  3.50s/it] 13%|█▎        | 12774/100000 [6:59:11<78:29:04,  3.24s/it]                                                            13%|█▎        | 12774/100000 [6:59:11<78:29:04,  3.24s/it] 13%|█▎        | 12775/100000 [6:59:13<72:37:52,  3.00s/it]                                                            13%|█▎        | 12775/100000 [6:59:13<72:37:52,  3.00s/it] 13%|█▎        | 12776/100000 [6:59:15<67:20:02,  2.78s/it]                                                            13%|█▎        | 12776/100000 [6:59:15<67:20:02,  2.78s/it] 13%|█▎        | 12777/100000 [6:59:17<62:25:12,  2.58s/it]                                                            13%|█▎        | 12777/100000 [6:59:17<62:25:12,  2.58s/it] 13%|█▎        | 12778/100000 [6:59:20<58:40:33,  2.42s/it]                                                            13%|█▎        | 12778/100000 [6:59:20<58:40:33,  2.42s/it] 13%|█▎        | 12779/100000 [6:59:21<54:40:58,  2.26s/it]                                                           {'loss': 0.0092, 'grad_norm': 0.39357325434684753, 'learning_rate': 2.9100666666666667e-05, 'epoch': 23.43}
+{'loss': 0.0027, 'grad_norm': 0.2027686983346939, 'learning_rate': 2.9100333333333337e-05, 'epoch': 23.44}
+{'loss': 0.0043, 'grad_norm': 0.18773828446865082, 'learning_rate': 2.91e-05, 'epoch': 23.44}
+{'loss': 0.0034, 'grad_norm': 0.1085064485669136, 'learning_rate': 2.909966666666667e-05, 'epoch': 23.44}
+{'loss': 0.0073, 'grad_norm': 0.24215655028820038, 'learning_rate': 2.9099333333333334e-05, 'epoch': 23.44}
+{'loss': 0.0096, 'grad_norm': 0.3163291811943054, 'learning_rate': 2.9099e-05, 'epoch': 23.44}
+{'loss': 0.0059, 'grad_norm': 0.1995258331298828, 'learning_rate': 2.9098666666666666e-05, 'epoch': 23.45}
+{'loss': 0.0024, 'grad_norm': 0.09423418343067169, 'learning_rate': 2.9098333333333336e-05, 'epoch': 23.45}
+{'loss': 0.0034, 'grad_norm': 0.1298067569732666, 'learning_rate': 2.9098e-05, 'epoch': 23.45}
+{'loss': 0.0068, 'grad_norm': 0.16497434675693512, 'learning_rate': 2.9097666666666668e-05, 'epoch': 23.45}
+{'loss': 0.0036, 'grad_norm': 0.16174855828285217, 'learning_rate': 2.9097333333333333e-05, 'epoch': 23.45}
+{'loss': 0.0018, 'grad_norm': 0.08075518906116486, 'learning_rate': 2.9097e-05, 'epoch': 23.45}
+{'loss': 0.0108, 'grad_norm': 0.2373785823583603, 'learning_rate': 2.909666666666667e-05, 'epoch': 23.46}
+{'loss': 0.0214, 'grad_norm': 0.23240111768245697, 'learning_rate': 2.909633333333333e-05, 'epoch': 23.46}
+{'loss': 0.006, 'grad_norm': 0.19462589919567108, 'learning_rate': 2.9096e-05, 'epoch': 23.46}
+{'loss': 0.0174, 'grad_norm': 0.2087223082780838, 'learning_rate': 2.9095666666666667e-05, 'epoch': 23.46}
+{'loss': 0.1128, 'grad_norm': 0.4997592866420746, 'learning_rate': 2.9095333333333332e-05, 'epoch': 23.46}
+{'loss': 0.1108, 'grad_norm': 0.5647820830345154, 'learning_rate': 2.9095000000000002e-05, 'epoch': 23.47}
+{'loss': 0.0906, 'grad_norm': 0.5153325796127319, 'learning_rate': 2.9094666666666668e-05, 'epoch': 23.47}
+{'loss': 0.1163, 'grad_norm': 0.560015082359314, 'learning_rate': 2.9094333333333334e-05, 'epoch': 23.47}
+{'loss': 0.0669, 'grad_norm': 0.5469334721565247, 'learning_rate': 2.9094e-05, 'epoch': 23.47}
+{'loss': 0.0516, 'grad_norm': 0.5907200574874878, 'learning_rate': 2.909366666666667e-05, 'epoch': 23.47}
+{'loss': 0.0358, 'grad_norm': 0.40143343806266785, 'learning_rate': 2.909333333333333e-05, 'epoch': 23.47}
+{'loss': 0.031, 'grad_norm': 0.37248697876930237, 'learning_rate': 2.9093e-05, 'epoch': 23.48}
+{'loss': 0.0435, 'grad_norm': 0.6797778010368347, 'learning_rate': 2.909266666666667e-05, 'epoch': 23.48}
+{'loss': 0.0214, 'grad_norm': 1.5801701545715332, 'learning_rate': 2.9092333333333333e-05, 'epoch': 23.48}
+{'loss': 0.029, 'grad_norm': 0.26523342728614807, 'learning_rate': 2.9092000000000002e-05, 'epoch': 23.48}
+{'loss': 0.0188, 'grad_norm': 0.2564677298069, 'learning_rate': 2.9091666666666668e-05, 'epoch': 23.48}
+{'loss': 0.0285, 'grad_norm': 0.31995120644569397, 'learning_rate': 2.9091333333333334e-05, 'epoch': 23.49}
+{'loss': 0.0092, 'grad_norm': 0.2464805245399475, 'learning_rate': 2.9091e-05, 'epoch': 23.49}
+{'loss': 0.0168, 'grad_norm': 0.30991116166114807, 'learning_rate': 2.909066666666667e-05, 'epoch': 23.49}
+{'loss': 0.0107, 'grad_norm': 0.2520284056663513, 'learning_rate': 2.909033333333333e-05, 'epoch': 23.49}
+{'loss': 0.0176, 'grad_norm': 0.2349097579717636, 'learning_rate': 2.909e-05, 'epoch': 23.49}
+{'loss': 0.0101, 'grad_norm': 0.4836427867412567, 'learning_rate': 2.908966666666667e-05, 'epoch': 23.49}
+{'loss': 0.0418, 'grad_norm': 1.5186824798583984, 'learning_rate': 2.9089333333333333e-05, 'epoch': 23.5}
+{'loss': 0.0119, 'grad_norm': 0.25052887201309204, 'learning_rate': 2.9089000000000002e-05, 'epoch': 23.5}
+{'loss': 0.0337, 'grad_norm': 0.2631968855857849, 'learning_rate': 2.9088666666666668e-05, 'epoch': 23.5}
+{'loss': 0.0042, 'grad_norm': 0.18188248574733734, 'learning_rate': 2.9088333333333334e-05, 'epoch': 23.5}
+{'loss': 0.0093, 'grad_norm': 0.5120291709899902, 'learning_rate': 2.9088e-05, 'epoch': 23.5}
+{'loss': 0.0039, 'grad_norm': 0.12005823105573654, 'learning_rate': 2.9087666666666666e-05, 'epoch': 23.51}
+{'loss': 0.0082, 'grad_norm': 0.28853529691696167, 'learning_rate': 2.9087333333333332e-05, 'epoch': 23.51}
+{'loss': 0.0051, 'grad_norm': 0.1488683521747589, 'learning_rate': 2.9087e-05, 'epoch': 23.51}
+{'loss': 0.0086, 'grad_norm': 0.6102681159973145, 'learning_rate': 2.9086666666666667e-05, 'epoch': 23.51}
+{'loss': 0.0079, 'grad_norm': 0.30232924222946167, 'learning_rate': 2.9086333333333333e-05, 'epoch': 23.51}
+{'loss': 0.0087, 'grad_norm': 0.3770429790019989, 'learning_rate': 2.9086000000000002e-05, 'epoch': 23.52}
+{'loss': 0.0072, 'grad_norm': 0.27687808871269226, 'learning_rate': 2.9085666666666665e-05, 'epoch': 23.52}
+{'loss': 0.0291, 'grad_norm': 0.4040433168411255, 'learning_rate': 2.9085333333333334e-05, 'epoch': 23.52}
+{'loss': 0.01, 'grad_norm': 0.4633181095123291, 'learning_rate': 2.9085e-05, 'epoch': 23.52}
+{'loss': 0.0058, 'grad_norm': 0.21011197566986084, 'learning_rate': 2.9084666666666666e-05, 'epoch': 23.52}
+{'loss': 0.0026, 'grad_norm': 0.09449068456888199, 'learning_rate': 2.9084333333333335e-05, 'epoch': 23.52}
+{'loss': 0.0052, 'grad_norm': 0.22294382750988007, 'learning_rate': 2.9084e-05, 'epoch': 23.53}
+{'loss': 0.0324, 'grad_norm': 0.6660040616989136, 'learning_rate': 2.9083666666666667e-05, 'epoch': 23.53}
+{'loss': 0.0064, 'grad_norm': 0.20625843107700348, 'learning_rate': 2.9083333333333333e-05, 'epoch': 23.53}
+{'loss': 0.0051, 'grad_norm': 0.21546894311904907, 'learning_rate': 2.9083000000000003e-05, 'epoch': 23.53}
+{'loss': 0.0059, 'grad_norm': 0.21883495151996613, 'learning_rate': 2.9082666666666665e-05, 'epoch': 23.53}
+{'loss': 0.0141, 'grad_norm': 1.180564522743225, 'learning_rate': 2.9082333333333334e-05, 'epoch': 23.54}
+{'loss': 0.0026, 'grad_norm': 0.13864454627037048, 'learning_rate': 2.9082e-05, 'epoch': 23.54}
+{'loss': 0.0038, 'grad_norm': 0.2007858157157898, 'learning_rate': 2.9081666666666666e-05, 'epoch': 23.54}
+{'loss': 0.007, 'grad_norm': 0.27783122658729553, 'learning_rate': 2.9081333333333336e-05, 'epoch': 23.54}
+{'loss': 0.0057, 'grad_norm': 0.19886739552021027, 'learning_rate': 2.9081e-05, 'epoch': 23.54}
+{'loss': 0.0054, 'grad_norm': 0.23898394405841827, 'learning_rate': 2.9080666666666668e-05, 'epoch': 23.54}
+{'loss': 0.0046, 'grad_norm': 0.22545062005519867, 'learning_rate': 2.9080333333333333e-05, 'epoch': 23.55}
+{'loss': 0.002, 'grad_norm': 0.16324621438980103, 'learning_rate': 2.9080000000000003e-05, 'epoch': 23.55}
+{'loss': 0.0041, 'grad_norm': 0.19871051609516144, 'learning_rate': 2.9079666666666665e-05, 'epoch': 23.55}
+{'loss': 0.0033, 'grad_norm': 0.31745415925979614, 'learning_rate': 2.9079333333333335e-05, 'epoch': 23.55}
+{'loss': 0.0151, 'grad_norm': 0.6388939619064331, 'learning_rate': 2.9079e-05, 'epoch': 23.55}
+{'loss': 0.1668, 'grad_norm': 0.46394413709640503, 'learning_rate': 2.9078666666666667e-05, 'epoch': 23.56}
+{'loss': 0.0812, 'grad_norm': 0.5517489910125732, 'learning_rate': 2.9078333333333336e-05, 'epoch': 23.56}
+{'loss': 0.0696, 'grad_norm': 0.46741852164268494, 'learning_rate': 2.9078000000000002e-05, 'epoch': 23.56}
+{'loss': 0.0636, 'grad_norm': 0.44784027338027954, 'learning_rate': 2.9077666666666668e-05, 'epoch': 23.56}
+{'loss': 0.0528, 'grad_norm': 0.4539169669151306, 'learning_rate': 2.9077333333333334e-05, 'epoch': 23.56}
+{'loss': 0.0333, 'grad_norm': 0.3409072458744049, 'learning_rate': 2.9077e-05, 'epoch': 23.57}
+{'loss': 0.0608, 'grad_norm': 0.4125320017337799, 'learning_rate': 2.9076666666666666e-05, 'epoch': 23.57}
+{'loss': 0.0594, 'grad_norm': 0.4366224408149719, 'learning_rate': 2.9076333333333335e-05, 'epoch': 23.57}
+{'loss': 0.0346, 'grad_norm': 0.32634279131889343, 'learning_rate': 2.9076e-05, 'epoch': 23.57}
+{'loss': 0.0271, 'grad_norm': 0.4740084409713745, 'learning_rate': 2.9075666666666667e-05, 'epoch': 23.57}
+{'loss': 0.0275, 'grad_norm': 0.45157182216644287, 'learning_rate': 2.9075333333333336e-05, 'epoch': 23.57}
+{'loss': 0.0467, 'grad_norm': 0.4033220410346985, 'learning_rate': 2.9075e-05, 'epoch': 23.58}
+ 13%|█▎        | 12779/100000 [6:59:21<54:40:58,  2.26s/it] 13%|█▎        | 12780/100000 [6:59:23<51:46:08,  2.14s/it]                                                            13%|█▎        | 12780/100000 [6:59:23<51:46:08,  2.14s/it] 13%|█▎        | 12781/100000 [6:59:25<48:52:36,  2.02s/it]                                                            13%|█▎        | 12781/100000 [6:59:25<48:52:36,  2.02s/it] 13%|█▎        | 12782/100000 [6:59:27<46:22:32,  1.91s/it]                                                            13%|█▎        | 12782/100000 [6:59:27<46:22:32,  1.91s/it] 13%|█▎        | 12783/100000 [6:59:28<44:15:40,  1.83s/it]                                                            13%|█▎        | 12783/100000 [6:59:28<44:15:40,  1.83s/it] 13%|█▎        | 12784/100000 [6:59:30<42:30:59,  1.75s/it]                                                            13%|█▎        | 12784/100000 [6:59:30<42:30:59,  1.75s/it] 13%|█▎        | 12785/100000 [6:59:31<40:56:42,  1.69s/it]                                                            13%|█▎        | 12785/100000 [6:59:31<40:56:42,  1.69s/it] 13%|█▎        | 12786/100000 [6:59:33<39:22:55,  1.63s/it]                                                            13%|█▎        | 12786/100000 [6:59:33<39:22:55,  1.63s/it] 13%|█▎        | 12787/100000 [6:59:34<37:47:47,  1.56s/it]                                                            13%|█▎        | 12787/100000 [6:59:34<37:47:47,  1.56s/it] 13%|█▎        | 12788/100000 [6:59:36<36:33:17,  1.51s/it]                                                            13%|█▎        | 12788/100000 [6:59:36<36:33:17,  1.51s/it] 13%|█▎        | 12789/100000 [6:59:37<35:51:04,  1.48s/it]                                                            13%|█▎        | 12789/100000 [6:59:37<35:51:04,  1.48s/it] 13%|█▎        | 12790/100000 [6:59:38<35:13:04,  1.45s/it]                                                            13%|█▎        | 12790/100000 [6:59:39<35:13:04,  1.45s/it] 13%|█▎        | 12791/100000 [6:59:40<34:36:00,  1.43s/it]                                                            13%|█▎        | 12791/100000 [6:59:40<34:36:00,  1.43s/it] 13%|█▎        | 12792/100000 [6:59:41<33:48:09,  1.40s/it]                                                            13%|█▎        | 12792/100000 [6:59:41<33:48:09,  1.40s/it] 13%|█▎        | 12793/100000 [6:59:43<33:17:58,  1.37s/it]                                                            13%|█▎        | 12793/100000 [6:59:43<33:17:58,  1.37s/it] 13%|█▎        | 12794/100000 [6:59:44<32:48:51,  1.35s/it]                                                            13%|█▎        | 12794/100000 [6:59:44<32:48:51,  1.35s/it] 13%|█▎        | 12795/100000 [6:59:45<32:21:00,  1.34s/it]                                                            13%|█▎        | 12795/100000 [6:59:45<32:21:00,  1.34s/it] 13%|█▎        | 12796/100000 [6:59:46<31:53:13,  1.32s/it]                                                            13%|█▎        | 12796/100000 [6:59:46<31:53:13,  1.32s/it] 13%|█▎        | 12797/100000 [6:59:48<31:30:43,  1.30s/it]                                                            13%|█▎        | 12797/100000 [6:59:48<31:30:43,  1.30s/it] 13%|█▎        | 12798/100000 [6:59:49<31:03:57,  1.28s/it]                                                            13%|█▎        | 12798/100000 [6:59:49<31:03:57,  1.28s/it] 13%|█▎        | 12799/100000 [6:59:50<30:39:54,  1.27s/it]                                                            13%|█▎        | 12799/100000 [6:59:50<30:39:54,  1.27s/it] 13%|█▎        | 12800/100000 [6:59:51<30:17:57,  1.25s/it]                                                            13%|█▎        | 12800/100000 [6:59:51<30:17:57,  1.25s/it] 13%|█▎        | 12801/100000 [6:59:52<29:41:22,  1.23s/it]                                                            13%|█▎        | 12801/100000 [6:59:53<29:41:22,  1.23s/it] 13%|█▎        | 12802/100000 [6:59:54<29:11:44,  1.21s/it]                                                            13%|█▎        | 12802/100000 [6:59:54<29:11:44,  1.21s/it] 13%|█▎        | 12803/100000 [6:59:55<28:35:34,  1.18s/it]                                                            13%|█▎        | 12803/100000 [6:59:55<28:35:34,  1.18s/it] 13%|█▎        | 12804/100000 [6:59:56<28:11:55,  1.16s/it]                                                            13%|█▎        | 12804/100000 [6:59:56<28:11:55,  1.16s/it] 13%|█▎        | 12805/100000 [6:59:57<27:42:22,  1.14s/it]                                                            13%|█▎        | 12805/100000 [6:59:57<27:42:22,  1.14s/it] 13%|█▎        | 12806/100000 [6:59:58<27:25:54,  1.13s/it]                                                            13%|█▎        | 12806/100000 [6:59:58<27:25:54,  1.13s/it] 13%|█▎        | 12807/100000 [6:59:59<27:07:00,  1.12s/it]                                                            13%|█▎        | 12807/100000 [6:59:59<27:07:00,  1.12s/it] 13%|█▎        | 12808/100000 [7:00:00<26:49:41,  1.11s/it]                                                            13%|█▎        | 12808/100000 [7:00:00<26:49:41,  1.11s/it] 13%|█▎        | 12809/100000 [7:00:01<26:30:15,  1.09s/it]                                                            13%|█▎        | 12809/100000 [7:00:01<26:30:15,  1.09s/it] 13%|█▎        | 12810/100000 [7:00:02<26:13:05,  1.08s/it]                                                            13%|█▎        | 12810/100000 [7:00:02<26:13:05,  1.08s/it] 13%|█▎        | 12811/100000 [7:00:03<25:46:03,  1.06s/it]                                                            13%|█▎        | 12811/100000 [7:00:03<25:46:03,  1.06s/it] 13%|█▎        | 12812/100000 [7:00:04<25:16:40,  1.04s/it]                                                            13%|█▎        | 12812/100000 [7:00:04<25:16:40,  1.04s/it] 13%|█▎        | 12813/100000 [7:00:05<24:47:01,  1.02s/it]                                                            13%|█▎        | 12813/100000 [7:00:05<24:47:01,  1.02s/it] 13%|█▎        | 12814/100000 [7:00:06<24:17:29,  1.00s/it]                                                            13%|█▎        | 12814/100000 [7:00:06<24:17:29,  1.00s/it] 13%|█▎        | 12815/100000 [7:00:07<23:53:12,  1.01it/s]                                                            13%|█▎        | 12815/100000 [7:00:07<23:53:12,  1.01it/s] 13%|█▎        | 12816/100000 [7:00:08<22:59:53,  1.05it/s]                                                            13%|█▎        | 12816/100000 [7:00:08<22:59:53,  1.05it/s] 13%|█▎        | 12817/100000 [7:00:20<104:00:23,  4.29s/it]                                                             13%|█▎        | 12817/100000 [7:00:20<104:00:23,  4.29s/it] 13%|█▎        | 12818/100000 [7:00:26<115:25:09,  4.77s/it]                                                             13%|█▎        | 12818/100000 [7:00:26<115:25:09,  4.77s/it] 13%|█▎        | 12819/100000 [7:00:31<115:03:47,  4.75s/it]                                                             13%|█▎        | 12819/100000 [7:00:31<115:03:47,  4.75s/it] 13%|█▎        | 12820/100000 [7:00:35<109:51:28,  4.54s/it]                                                             13%|█▎        | 12820/100000 [7:00:35<109:51:28,  4.54s/it] 13%|█▎        | 12821/100000 [7:00:38<103:12:43,  4.26s/it]                                                             13%|█▎        | 12821/100000 [7:00:39<103:12:43,  4.26s/it] 13%|█▎        | 12822/100000 [7:00:42<95:06:02,  3.93s/it]                                                             13%|█▎        | 12822/100000 [7:00:42<95:06:02,  3.93s/it] 13%|█▎        | 12823/100000 [7:00:45<88:21:17,  3.65s/it]                                                            13%|█▎        | 12823/100000 [7:00:45<88:21:17,  3.65s/it] 13%|█▎        | 12824/100000 [7:00:47<81:39:25,  3.37s/it]                                                            13%|█▎        | 12824/100000 [7:00:47<81:39:25,  3.37s/it] 13%|█▎        | 12825/100000 [7:00:50<75:35:51,  3.12s/it]                                                            13%|█▎        | 12825/100000 [7:00:50<75:35:51,  3.12s/it] 13%|█▎        | 12826/100000 [7:00:52<69:51:05,  2.88s/it]                                                            13%|█▎        | 12826/100000 [7:00:52<69:51:05,  2.88s/it] 13%|█▎        | 12827/100000 [7:00:54<64:25:06,  2.66s/it]                                                            13%|█▎        | 12827/100000 [7:00:54<64:25:06,  2.66s/it] 13%|█▎        | 12828/100000 [7:00:56<58:47:07,  2.43s/it]                                                            13%|█▎        | 12828/100000 [7:00:56<58:47:07,  2.43s/it] 13%|█▎        | 12829/100000 [7:00:58<55:06:49,  2.28s/it]                                                            13%|█▎        | 12829/100000 [7:00:58<55:06:49,  2.28s/it] 13%|█▎        | 12830/100000 [7:01:00<51:38:04,  2.13s/it]                                                            13%|█▎        | 12830/100000 [7:01:00<51:38:04,  2.13s/it] 13%|█▎        | 12831/100000 [7:01:02<48:36:18,  2.01s/it]                                                            13%|█▎        | 12831/100000 [7:01:02<48:36:18,  2.01s/it] 13%|█▎        | 12832/100000 [7:01:03<45:59:07,  1.90s/it]                                                            13%|█▎        | 12832/100000 [7:01:03<45:59:07,  1.90s/it] 13%|█▎        | 12833/100000 [7:01:05<43:51:13,  1.81s/it]                                                            13%|█▎        | 12833/100000 [7:01:05<43:51:13,  1.81s/it] 13%|█▎        | 12834/100000 [7:01:07<42:10:18,  1.74s/it]                                                            13%|█▎        | 12834/100000 [7:01:07<42:10:18,  1.74s/it] 13%|█▎        | 12835/100000 [7:01:08<40:11:18,  1.66s/it]                                                            13%|█▎        | 12835/100000 [7:01:08<40:11:18,  1.66s/it] 13%|█▎        | 12836/100000 [7:01:09<38:28:19,  1.59s/it]                                                            13%|█▎        | 12836/100000 [7:01:09<38:28:19,  1.59s/it] 13%|█▎        | 12837/100000 [7:01:11<37:24:17,  1.54s/it]                                                            13%|█▎        | 12837/100000 [7:01:11<37:24:17,  1.54s/it] 13%|█▎        | 12838/100000 [7:01:12<36:13:30,  1.50s/it]                                                            13%|█▎        | 12838/100000 [7:01:12<36:13:30,  1.50s/it] 13%|█▎        | 12839/100000 [7:01:14<35:33:04,  1.47s/it]                                                            13%|█▎        | 12839/100000 [7:01:14<35:33:04,  1.47s/it] 13%|█▎        | 12840/100000 [7:01:15<34:54:00,  1.44s/it]                                                            13%|█▎        | 12840/100000 [7:01:15<34:54:00,  1.44s/it] 13%|█▎        | 12841/100000 [7:01:16<33:48:06,  1.40s/it]                                                            13%|█▎        | 12841/100000 [7:01:16<33:48:06,  1.40s/it] 13%|█▎        | 12842/100000 [7:01:18<33:28:31,  1.38s/it]                                                            13%|█▎        | 12842/100000 [7:01:18<33:28:31,  1.38s/it] 13%|█▎        | 12843/100000 [7:01:19<32:52:03,  1.36s/it]                                                            13%|█▎        | 12843/100000 [7:01:19<32:52:03,  1.36s/it] 13%|█▎        | 12844/100000 [7:01:20<32:29:34,  1.34s/it]                                                            13%|█▎        | 12844/100000 [7:01:20<32:29:34,  1.34s/it] 13%|█▎        | 12845/100000 [7:01:22<32:07:29,  1.33s/it]                                                            13%|█▎        | 12845/100000 [7:01:22<32:07:29,  1.33s/it] 13%|█▎        | 12846/100000 [7:01:23<31:31:07,  1.30s/it]                                                            13%|█▎        | 12846/100000 [7:01:23<31:31:07,  1.30s/it] 13%|█▎        | 12847/100000 [7:01:24<31:09:39,  1.29s/it]                                                            13%|█▎        | 12847/100000 [7:01:24<31:09:39,  1.29s/it] 13%|█▎        | 12848/100000 [7:01:25<30:54:29,  1.28s/it]                                                            13%|█▎        | 12848/100000 [7:01:25<30:54:29,  1.28s/it] 13%|█▎        | 12849/100000 [7:01:27<30:31:20,  1.26s/it]                                                            13%|█▎        | 12849/100000 [7:01:27<30:31:20,  1.26s/it] 13%|█▎        | 12850/100000 [7:01:28<29:53:25,  1.23s/it]                                                            13%|█▎        | 12850/100000 [7:01:28<29:53:25,  1.23s/it] 13%|█▎        | 12851/100000 [7:01:29<29:23:52,  1.21s/it]                                                            13%|█▎        | 12851/100000 [7:01:29<29:23:52,  1.21s/it] 13%|█▎        | 12852/100000 [7:01:30<28:57:38,  1.20s/it]                                                            13%|█▎        | 12852/100000 [7:01:30<28:57:38,  1.20s/it] 13%|█▎        | 12853/100000 [7:01:31<28:36:47,  1.18s/it]                                                            13%|█▎        | 12853/100000 [7:01:31<28:36:47,  1.18s/it] 13%|█▎        | 12854/100000 [7:01:32<28:09:20,  1.16s/it]                                                            13%|█▎        | 12854/100000 [7:01:32<28:09:20,  1.16s/it] 13%|█▎        | 12855/100000 [7:01:33<27:42:11,  1.14s/it]                                                            13%|█▎        | 12855/100000 [7:01:33<27:42:11,  1.14s/it] 13%|█▎        | 12856/100000 [7:01:34<27:22:08,  1.13s/it]                                                            13%|█▎        | 12856/100000 [7:01:34<27:22:08,  1.13s/it] 13%|█▎        | 12857/100000 [7:01:36<27:01:38,  1.12s/it]                                                           {'loss': 0.0194, 'grad_norm': 0.5562022924423218, 'learning_rate': 2.9074666666666668e-05, 'epoch': 23.58}
+{'loss': 0.0141, 'grad_norm': 0.30805903673171997, 'learning_rate': 2.9074333333333334e-05, 'epoch': 23.58}
+{'loss': 0.024, 'grad_norm': 0.45251429080963135, 'learning_rate': 2.9074e-05, 'epoch': 23.58}
+{'loss': 0.0216, 'grad_norm': 0.3250104784965515, 'learning_rate': 2.9073666666666666e-05, 'epoch': 23.58}
+{'loss': 0.0041, 'grad_norm': 0.11664088815450668, 'learning_rate': 2.9073333333333335e-05, 'epoch': 23.59}
+{'loss': 0.0263, 'grad_norm': 0.5777392387390137, 'learning_rate': 2.9073e-05, 'epoch': 23.59}
+{'loss': 0.0114, 'grad_norm': 0.32111817598342896, 'learning_rate': 2.9072666666666667e-05, 'epoch': 23.59}
+{'loss': 0.0136, 'grad_norm': 0.34782543778419495, 'learning_rate': 2.9072333333333336e-05, 'epoch': 23.59}
+{'loss': 0.0094, 'grad_norm': 0.539177656173706, 'learning_rate': 2.9072e-05, 'epoch': 23.59}
+{'loss': 0.0069, 'grad_norm': 0.1888371706008911, 'learning_rate': 2.9071666666666668e-05, 'epoch': 23.59}
+{'loss': 0.0128, 'grad_norm': 0.3934464156627655, 'learning_rate': 2.9071333333333334e-05, 'epoch': 23.6}
+{'loss': 0.0054, 'grad_norm': 0.21380853652954102, 'learning_rate': 2.9071e-05, 'epoch': 23.6}
+{'loss': 0.0048, 'grad_norm': 0.18468987941741943, 'learning_rate': 2.9070666666666666e-05, 'epoch': 23.6}
+{'loss': 0.0044, 'grad_norm': 0.10190550237894058, 'learning_rate': 2.9070333333333335e-05, 'epoch': 23.6}
+{'loss': 0.0057, 'grad_norm': 0.31460437178611755, 'learning_rate': 2.907e-05, 'epoch': 23.6}
+{'loss': 0.0061, 'grad_norm': 0.20910628139972687, 'learning_rate': 2.9069666666666667e-05, 'epoch': 23.61}
+{'loss': 0.0111, 'grad_norm': 0.2906193435192108, 'learning_rate': 2.9069333333333336e-05, 'epoch': 23.61}
+{'loss': 0.055, 'grad_norm': 0.3938979506492615, 'learning_rate': 2.9069e-05, 'epoch': 23.61}
+{'loss': 0.0339, 'grad_norm': 0.27934545278549194, 'learning_rate': 2.906866666666667e-05, 'epoch': 23.61}
+{'loss': 0.007, 'grad_norm': 0.4780665338039398, 'learning_rate': 2.9068333333333334e-05, 'epoch': 23.61}
+{'loss': 0.0028, 'grad_norm': 0.14447623491287231, 'learning_rate': 2.9068e-05, 'epoch': 23.61}
+{'loss': 0.0126, 'grad_norm': 0.4102858901023865, 'learning_rate': 2.906766666666667e-05, 'epoch': 23.62}
+{'loss': 0.0072, 'grad_norm': 0.41097262501716614, 'learning_rate': 2.9067333333333332e-05, 'epoch': 23.62}
+{'loss': 0.0031, 'grad_norm': 0.11427780240774155, 'learning_rate': 2.9067e-05, 'epoch': 23.62}
+{'loss': 0.0076, 'grad_norm': 0.3202766180038452, 'learning_rate': 2.9066666666666667e-05, 'epoch': 23.62}
+{'loss': 0.0045, 'grad_norm': 0.21148407459259033, 'learning_rate': 2.9066333333333333e-05, 'epoch': 23.62}
+{'loss': 0.0062, 'grad_norm': 0.4769347608089447, 'learning_rate': 2.9066e-05, 'epoch': 23.63}
+{'loss': 0.0055, 'grad_norm': 0.19845016300678253, 'learning_rate': 2.906566666666667e-05, 'epoch': 23.63}
+{'loss': 0.0058, 'grad_norm': 0.2139330506324768, 'learning_rate': 2.906533333333333e-05, 'epoch': 23.63}
+{'loss': 0.0104, 'grad_norm': 0.27285897731781006, 'learning_rate': 2.9065e-05, 'epoch': 23.63}
+{'loss': 0.009, 'grad_norm': 0.4506590962409973, 'learning_rate': 2.906466666666667e-05, 'epoch': 23.63}
+{'loss': 0.0044, 'grad_norm': 0.3636559247970581, 'learning_rate': 2.9064333333333332e-05, 'epoch': 23.64}
+{'loss': 0.0025, 'grad_norm': 0.10463052988052368, 'learning_rate': 2.9064e-05, 'epoch': 23.64}
+{'loss': 0.0088, 'grad_norm': 0.47499239444732666, 'learning_rate': 2.9063666666666668e-05, 'epoch': 23.64}
+{'loss': 0.0046, 'grad_norm': 0.23979461193084717, 'learning_rate': 2.9063333333333333e-05, 'epoch': 23.64}
+{'loss': 0.0087, 'grad_norm': 0.3647124171257019, 'learning_rate': 2.9063e-05, 'epoch': 23.64}
+{'loss': 0.0048, 'grad_norm': 0.25506895780563354, 'learning_rate': 2.906266666666667e-05, 'epoch': 23.64}
+{'loss': 0.0099, 'grad_norm': 0.3625432252883911, 'learning_rate': 2.9062333333333335e-05, 'epoch': 23.65}
+{'loss': 0.1273, 'grad_norm': 0.5960791110992432, 'learning_rate': 2.9062e-05, 'epoch': 23.65}
+{'loss': 0.1252, 'grad_norm': 0.46018001437187195, 'learning_rate': 2.906166666666667e-05, 'epoch': 23.65}
+{'loss': 0.1154, 'grad_norm': 0.44288110733032227, 'learning_rate': 2.9061333333333332e-05, 'epoch': 23.65}
+{'loss': 0.0859, 'grad_norm': 0.4618895649909973, 'learning_rate': 2.9061000000000002e-05, 'epoch': 23.65}
+{'loss': 0.1258, 'grad_norm': 0.4462798237800598, 'learning_rate': 2.9060666666666668e-05, 'epoch': 23.66}
+{'loss': 0.0484, 'grad_norm': 0.5325228571891785, 'learning_rate': 2.9060333333333334e-05, 'epoch': 23.66}
+{'loss': 0.041, 'grad_norm': 0.3383803069591522, 'learning_rate': 2.906e-05, 'epoch': 23.66}
+{'loss': 0.0365, 'grad_norm': 0.3687587082386017, 'learning_rate': 2.905966666666667e-05, 'epoch': 23.66}
+{'loss': 0.077, 'grad_norm': 0.4730265438556671, 'learning_rate': 2.9059333333333335e-05, 'epoch': 23.66}
+{'loss': 0.0335, 'grad_norm': 0.41435232758522034, 'learning_rate': 2.9059e-05, 'epoch': 23.66}
+{'loss': 0.0235, 'grad_norm': 0.3603576123714447, 'learning_rate': 2.905866666666667e-05, 'epoch': 23.67}
+{'loss': 0.0158, 'grad_norm': 0.22493116557598114, 'learning_rate': 2.9058333333333333e-05, 'epoch': 23.67}
+{'loss': 0.0814, 'grad_norm': 0.5691091418266296, 'learning_rate': 2.9058000000000002e-05, 'epoch': 23.67}
+{'loss': 0.0219, 'grad_norm': 0.3875930607318878, 'learning_rate': 2.9057666666666668e-05, 'epoch': 23.67}
+{'loss': 0.0278, 'grad_norm': 0.7209383249282837, 'learning_rate': 2.9057333333333334e-05, 'epoch': 23.67}
+{'loss': 0.0321, 'grad_norm': 0.2960909605026245, 'learning_rate': 2.9057e-05, 'epoch': 23.68}
+{'loss': 0.0115, 'grad_norm': 0.3103616535663605, 'learning_rate': 2.9056666666666666e-05, 'epoch': 23.68}
+{'loss': 0.0082, 'grad_norm': 0.20014365017414093, 'learning_rate': 2.9056333333333335e-05, 'epoch': 23.68}
+{'loss': 0.0062, 'grad_norm': 0.1251969039440155, 'learning_rate': 2.9056e-05, 'epoch': 23.68}
+{'loss': 0.024, 'grad_norm': 0.26539865136146545, 'learning_rate': 2.9055666666666667e-05, 'epoch': 23.68}
+{'loss': 0.0085, 'grad_norm': 0.26761507987976074, 'learning_rate': 2.9055333333333333e-05, 'epoch': 23.69}
+{'loss': 0.0043, 'grad_norm': 0.077335886657238, 'learning_rate': 2.9055000000000002e-05, 'epoch': 23.69}
+{'loss': 0.007, 'grad_norm': 0.24382653832435608, 'learning_rate': 2.9054666666666665e-05, 'epoch': 23.69}
+{'loss': 0.0062, 'grad_norm': 0.2220059633255005, 'learning_rate': 2.9054333333333334e-05, 'epoch': 23.69}
+{'loss': 0.0221, 'grad_norm': 0.28311780095100403, 'learning_rate': 2.9054e-05, 'epoch': 23.69}
+{'loss': 0.0035, 'grad_norm': 0.1493522971868515, 'learning_rate': 2.9053666666666666e-05, 'epoch': 23.69}
+{'loss': 0.0089, 'grad_norm': 0.17693676054477692, 'learning_rate': 2.9053333333333335e-05, 'epoch': 23.7}
+{'loss': 0.0049, 'grad_norm': 0.21312695741653442, 'learning_rate': 2.9053e-05, 'epoch': 23.7}
+{'loss': 0.0073, 'grad_norm': 0.31813400983810425, 'learning_rate': 2.9052666666666667e-05, 'epoch': 23.7}
+{'loss': 0.0045, 'grad_norm': 0.1391538828611374, 'learning_rate': 2.9052333333333333e-05, 'epoch': 23.7}
+{'loss': 0.0061, 'grad_norm': 0.28718283772468567, 'learning_rate': 2.9052000000000002e-05, 'epoch': 23.7}
+{'loss': 0.0049, 'grad_norm': 0.27051207423210144, 'learning_rate': 2.9051666666666665e-05, 'epoch': 23.71}
+{'loss': 0.0048, 'grad_norm': 0.15699365735054016, 'learning_rate': 2.9051333333333334e-05, 'epoch': 23.71}
+{'loss': 0.0072, 'grad_norm': 0.5311880707740784, 'learning_rate': 2.9051000000000004e-05, 'epoch': 23.71}
+{'loss': 0.0092, 'grad_norm': 0.5135352611541748, 'learning_rate': 2.9050666666666666e-05, 'epoch': 23.71}
+{'loss': 0.0049, 'grad_norm': 0.30122503638267517, 'learning_rate': 2.9050333333333335e-05, 'epoch': 23.71}
+{'loss': 0.0349, 'grad_norm': 0.2334645688533783, 'learning_rate': 2.905e-05, 'epoch': 23.71}
+{'loss': 0.0044, 'grad_norm': 0.2619197368621826, 'learning_rate': 2.9049666666666667e-05, 'epoch': 23.72}
+{'loss': 0.0091, 'grad_norm': 0.23635706305503845, 'learning_rate': 2.9049333333333333e-05, 'epoch': 23.72}
+{'loss': 0.0053, 'grad_norm': 0.24201664328575134, 'learning_rate': 2.9049000000000003e-05, 'epoch': 23.72}
+ 13%|█▎        | 12857/100000 [7:01:36<27:01:38,  1.12s/it] 13%|█▎        | 12858/100000 [7:01:37<26:43:21,  1.10s/it]                                                            13%|█▎        | 12858/100000 [7:01:37<26:43:21,  1.10s/it] 13%|█▎        | 12859/100000 [7:01:38<26:21:40,  1.09s/it]                                                            13%|█▎        | 12859/100000 [7:01:38<26:21:40,  1.09s/it] 13%|█▎        | 12860/100000 [7:01:39<26:01:55,  1.08s/it]                                                            13%|█▎        | 12860/100000 [7:01:39<26:01:55,  1.08s/it] 13%|█▎        | 12861/100000 [7:01:40<25:24:45,  1.05s/it]                                                            13%|█▎        | 12861/100000 [7:01:40<25:24:45,  1.05s/it] 13%|█▎        | 12862/100000 [7:01:41<24:59:19,  1.03s/it]                                                            13%|█▎        | 12862/100000 [7:01:41<24:59:19,  1.03s/it] 13%|█▎        | 12863/100000 [7:01:42<24:33:02,  1.01s/it]                                                            13%|█▎        | 12863/100000 [7:01:42<24:33:02,  1.01s/it] 13%|█▎        | 12864/100000 [7:01:43<24:07:17,  1.00it/s]                                                            13%|█▎        | 12864/100000 [7:01:43<24:07:17,  1.00it/s] 13%|█▎        | 12865/100000 [7:01:44<23:26:53,  1.03it/s]                                                            13%|█▎        | 12865/100000 [7:01:44<23:26:53,  1.03it/s] 13%|█▎        | 12866/100000 [7:01:44<22:43:08,  1.07it/s]                                                            13%|█▎        | 12866/100000 [7:01:44<22:43:08,  1.07it/s] 13%|█▎        | 12867/100000 [7:01:57<106:07:02,  4.38s/it]                                                             13%|█▎        | 12867/100000 [7:01:57<106:07:02,  4.38s/it] 13%|█▎        | 12868/100000 [7:02:03<119:05:57,  4.92s/it]                                                             13%|█▎        | 12868/100000 [7:02:03<119:05:57,  4.92s/it] 13%|█▎        | 12869/100000 [7:02:08<119:42:26,  4.95s/it]                                                             13%|█▎        | 12869/100000 [7:02:08<119:42:26,  4.95s/it] 13%|█▎        | 12870/100000 [7:02:12<113:54:24,  4.71s/it]                                                             13%|█▎        | 12870/100000 [7:02:12<113:54:24,  4.71s/it] 13%|█▎        | 12871/100000 [7:02:16<106:13:08,  4.39s/it]                                                             13%|█▎        | 12871/100000 [7:02:16<106:13:08,  4.39s/it] 13%|█▎        | 12872/100000 [7:02:19<97:24:42,  4.02s/it]                                                             13%|█▎        | 12872/100000 [7:02:19<97:24:42,  4.02s/it] 13%|█▎        | 12873/100000 [7:02:22<89:47:49,  3.71s/it]                                                            13%|█▎        | 12873/100000 [7:02:22<89:47:49,  3.71s/it] 13%|█▎        | 12874/100000 [7:02:25<83:16:37,  3.44s/it]                                                            13%|█▎        | 12874/100000 [7:02:25<83:16:37,  3.44s/it] 13%|█▎        | 12875/100000 [7:02:27<76:04:04,  3.14s/it]                                                            13%|█▎        | 12875/100000 [7:02:27<76:04:04,  3.14s/it] 13%|█▎        | 12876/100000 [7:02:30<70:21:25,  2.91s/it]                                                            13%|█▎        | 12876/100000 [7:02:30<70:21:25,  2.91s/it] 13%|█▎        | 12877/100000 [7:02:32<64:58:37,  2.68s/it]                                                            13%|█▎        | 12877/100000 [7:02:32<64:58:37,  2.68s/it] 13%|█▎        | 12878/100000 [7:02:34<60:17:11,  2.49s/it]                                                            13%|█▎        | 12878/100000 [7:02:34<60:17:11,  2.49s/it] 13%|█▎        | 12879/100000 [7:02:36<56:15:17,  2.32s/it]                                                            13%|█▎        | 12879/100000 [7:02:36<56:15:17,  2.32s/it] 13%|█▎        | 12880/100000 [7:02:38<52:46:25,  2.18s/it]                                                            13%|█▎        | 12880/100000 [7:02:38<52:46:25,  2.18s/it] 13%|█▎        | 12881/100000 [7:02:39<49:09:39,  2.03s/it]                                                            13%|█▎        | 12881/100000 [7:02:39<49:09:39,  2.03s/it] 13%|█▎        | 12882/100000 [7:02:41<46:42:15,  1.93s/it]                                                            13%|█▎        | 12882/100000 [7:02:41<46:42:15,  1.93s/it] 13%|█▎        | 12883/100000 [7:02:43<44:33:44,  1.84s/it]                                                            13%|█▎        | 12883/100000 [7:02:43<44:33:44,  1.84s/it] 13%|█▎        | 12884/100000 [7:02:44<42:22:16,  1.75s/it]                                                            13%|█▎        | 12884/100000 [7:02:44<42:22:16,  1.75s/it] 13%|█▎        | 12885/100000 [7:02:46<40:46:15,  1.68s/it]                                                            13%|█▎        | 12885/100000 [7:02:46<40:46:15,  1.68s/it] 13%|█▎        | 12886/100000 [7:02:47<39:16:13,  1.62s/it]                                                            13%|█▎        | 12886/100000 [7:02:47<39:16:13,  1.62s/it] 13%|█▎        | 12887/100000 [7:02:49<38:02:14,  1.57s/it]                                                            13%|█▎        | 12887/100000 [7:02:49<38:02:14,  1.57s/it] 13%|█▎        | 12888/100000 [7:02:50<37:00:36,  1.53s/it]                                                            13%|█▎        | 12888/100000 [7:02:50<37:00:36,  1.53s/it] 13%|█▎        | 12889/100000 [7:02:51<36:08:06,  1.49s/it]                                                            13%|█▎        | 12889/100000 [7:02:51<36:08:06,  1.49s/it] 13%|█▎        | 12890/100000 [7:02:53<35:07:56,  1.45s/it]                                                            13%|█▎        | 12890/100000 [7:02:53<35:07:56,  1.45s/it] 13%|█▎        | 12891/100000 [7:02:54<34:35:49,  1.43s/it]                                                            13%|█▎        | 12891/100000 [7:02:54<34:35:49,  1.43s/it] 13%|█▎        | 12892/100000 [7:02:56<34:01:13,  1.41s/it]                                                            13%|█▎        | 12892/100000 [7:02:56<34:01:13,  1.41s/it] 13%|█▎        | 12893/100000 [7:02:57<33:30:38,  1.38s/it]                                                            13%|█▎        | 12893/100000 [7:02:57<33:30:38,  1.38s/it] 13%|█▎        | 12894/100000 [7:02:58<32:58:24,  1.36s/it]                                                            13%|█▎        | 12894/100000 [7:02:58<32:58:24,  1.36s/it] 13%|█▎        | 12895/100000 [7:02:59<32:27:15,  1.34s/it]                                                            13%|█▎        | 12895/100000 [7:02:59<32:27:15,  1.34s/it] 13%|█▎        | 12896/100000 [7:03:01<32:00:26,  1.32s/it]                                                            13%|█▎        | 12896/100000 [7:03:01<32:00:26,  1.32s/it] 13%|█▎        | 12897/100000 [7:03:02<31:29:18,  1.30s/it]                                                            13%|█▎        | 12897/100000 [7:03:02<31:29:18,  1.30s/it] 13%|█▎        | 12898/100000 [7:03:03<31:03:42,  1.28s/it]                                                            13%|█▎        | 12898/100000 [7:03:03<31:03:42,  1.28s/it] 13%|█▎        | 12899/100000 [7:03:04<30:44:09,  1.27s/it]                                                            13%|█▎        | 12899/100000 [7:03:04<30:44:09,  1.27s/it] 13%|█▎        | 12900/100000 [7:03:06<30:18:57,  1.25s/it]                                                            13%|█▎        | 12900/100000 [7:03:06<30:18:57,  1.25s/it] 13%|█▎        | 12901/100000 [7:03:07<29:33:08,  1.22s/it]                                                            13%|█▎        | 12901/100000 [7:03:07<29:33:08,  1.22s/it] 13%|█▎        | 12902/100000 [7:03:08<29:03:39,  1.20s/it]                                                            13%|█▎        | 12902/100000 [7:03:08<29:03:39,  1.20s/it] 13%|█▎        | 12903/100000 [7:03:09<28:31:13,  1.18s/it]                                                            13%|█▎        | 12903/100000 [7:03:09<28:31:13,  1.18s/it] 13%|█▎        | 12904/100000 [7:03:10<28:05:10,  1.16s/it]                                                            13%|█▎        | 12904/100000 [7:03:10<28:05:10,  1.16s/it] 13%|█▎        | 12905/100000 [7:03:11<27:42:32,  1.15s/it]                                                            13%|█▎        | 12905/100000 [7:03:11<27:42:32,  1.15s/it] 13%|█▎        | 12906/100000 [7:03:12<27:23:15,  1.13s/it]                                                            13%|█▎        | 12906/100000 [7:03:12<27:23:15,  1.13s/it] 13%|█▎        | 12907/100000 [7:03:14<27:05:14,  1.12s/it]                                                            13%|█▎        | 12907/100000 [7:03:14<27:05:14,  1.12s/it] 13%|█▎        | 12908/100000 [7:03:15<26:44:38,  1.11s/it]                                                            13%|█▎        | 12908/100000 [7:03:15<26:44:38,  1.11s/it] 13%|█▎        | 12909/100000 [7:03:16<26:18:37,  1.09s/it]                                                            13%|█▎        | 12909/100000 [7:03:16<26:18:37,  1.09s/it] 13%|█▎        | 12910/100000 [7:03:17<26:00:38,  1.08s/it]                                                            13%|█▎        | 12910/100000 [7:03:17<26:00:38,  1.08s/it] 13%|█▎        | 12911/100000 [7:03:18<25:37:53,  1.06s/it]                                                            13%|█▎        | 12911/100000 [7:03:18<25:37:53,  1.06s/it] 13%|█▎        | 12912/100000 [7:03:19<25:09:10,  1.04s/it]                                                            13%|█▎        | 12912/100000 [7:03:19<25:09:10,  1.04s/it] 13%|█▎        | 12913/100000 [7:03:20<24:42:18,  1.02s/it]                                                            13%|█▎        | 12913/100000 [7:03:20<24:42:18,  1.02s/it] 13%|█▎        | 12914/100000 [7:03:21<24:23:14,  1.01s/it]                                                            13%|█▎        | 12914/100000 [7:03:21<24:23:14,  1.01s/it] 13%|█▎        | 12915/100000 [7:03:22<23:48:39,  1.02it/s]                                                            13%|█▎        | 12915/100000 [7:03:22<23:48:39,  1.02it/s] 13%|█▎        | 12916/100000 [7:03:22<23:00:14,  1.05it/s]                                                            13%|█▎        | 12916/100000 [7:03:22<23:00:14,  1.05it/s] 13%|█▎        | 12917/100000 [7:03:33<90:26:05,  3.74s/it]                                                            13%|█▎        | 12917/100000 [7:03:33<90:26:05,  3.74s/it] 13%|█▎        | 12918/100000 [7:03:38<104:18:47,  4.31s/it]                                                             13%|█▎        | 12918/100000 [7:03:38<104:18:47,  4.31s/it] 13%|█▎        | 12919/100000 [7:03:43<104:57:33,  4.34s/it]                                                             13%|█▎        | 12919/100000 [7:03:43<104:57:33,  4.34s/it] 13%|█▎        | 12920/100000 [7:03:47<101:11:52,  4.18s/it]                                                             13%|█▎        | 12920/100000 [7:03:47<101:11:52,  4.18s/it] 13%|█▎        | 12921/100000 [7:03:50<95:14:56,  3.94s/it]                                                             13%|█▎        | 12921/100000 [7:03:50<95:14:56,  3.94s/it] 13%|█▎        | 12922/100000 [7:03:53<89:55:15,  3.72s/it]                                                            13%|█▎        | 12922/100000 [7:03:53<89:55:15,  3.72s/it] 13%|█▎        | 12923/100000 [7:03:56<83:11:01,  3.44s/it]                                                            13%|█▎        | 12923/100000 [7:03:56<83:11:01,  3.44s/it] 13%|█▎        | 12924/100000 [7:03:59<77:39:35,  3.21s/it]                                                            13%|█▎        | 12924/100000 [7:03:59<77:39:35,  3.21s/it] 13%|█▎        | 12925/100000 [7:04:01<71:55:08,  2.97s/it]                                                            13%|█▎        | 12925/100000 [7:04:01<71:55:08,  2.97s/it] 13%|█▎        | 12926/100000 [7:04:03<66:58:47,  2.77s/it]                                                            13%|█▎        | 12926/100000 [7:04:03<66:58:47,  2.77s/it] 13%|█▎        | 12927/100000 [7:04:05<62:16:22,  2.57s/it]                                                            13%|█▎        | 12927/100000 [7:04:05<62:16:22,  2.57s/it] 13%|█▎        | 12928/100000 [7:04:07<57:58:23,  2.40s/it]                                                            13%|█▎        | 12928/100000 [7:04:07<57:58:23,  2.40s/it] 13%|█▎        | 12929/100000 [7:04:09<54:05:05,  2.24s/it]                                                            13%|█▎        | 12929/100000 [7:04:09<54:05:05,  2.24s/it] 13%|█▎        | 12930/100000 [7:04:11<50:34:09,  2.09s/it]                                                            13%|█▎        | 12930/100000 [7:04:11<50:34:09,  2.09s/it] 13%|█▎        | 12931/100000 [7:04:13<47:40:04,  1.97s/it]                                                            13%|█▎        | 12931/100000 [7:04:13<47:40:04,  1.97s/it] 13%|█▎        | 12932/100000 [7:04:14<45:09:53,  1.87s/it]                                                            13%|█▎        | 12932/100000 [7:04:14<45:09:53,  1.87s/it] 13%|█▎        | 12933/100000 [7:04:16<43:13:18,  1.79s/it]                                                            13%|█▎        | 12933/100000 [7:04:16<43:13:18,  1.79s/it] 13%|█▎        | 12934/100000 [7:04:17<41:15:34,  1.71s/it]                                                            13%|█▎        | 12934/100000 [7:04:17<41:15:34,  1.71s/it] 13%|█▎        | 12935/100000 [7:04:19<39:47:35,  1.65s/it]                                                           {'loss': 0.004, 'grad_norm': 0.3879227340221405, 'learning_rate': 2.9048666666666665e-05, 'epoch': 23.72}
+{'loss': 0.003, 'grad_norm': 0.2202427089214325, 'learning_rate': 2.9048333333333334e-05, 'epoch': 23.72}
+{'loss': 0.007, 'grad_norm': 0.21150343120098114, 'learning_rate': 2.9048000000000004e-05, 'epoch': 23.73}
+{'loss': 0.0042, 'grad_norm': 0.20980283617973328, 'learning_rate': 2.9047666666666666e-05, 'epoch': 23.73}
+{'loss': 0.0074, 'grad_norm': 0.22404924035072327, 'learning_rate': 2.9047333333333336e-05, 'epoch': 23.73}
+{'loss': 0.0068, 'grad_norm': 0.26028111577033997, 'learning_rate': 2.9046999999999998e-05, 'epoch': 23.73}
+{'loss': 0.0064, 'grad_norm': 0.2740020453929901, 'learning_rate': 2.9046666666666668e-05, 'epoch': 23.73}
+{'loss': 0.0032, 'grad_norm': 0.22199766337871552, 'learning_rate': 2.9046333333333333e-05, 'epoch': 23.73}
+{'loss': 0.0118, 'grad_norm': 0.3249658942222595, 'learning_rate': 2.9046e-05, 'epoch': 23.74}
+{'loss': 0.0129, 'grad_norm': 0.2935706377029419, 'learning_rate': 2.904566666666667e-05, 'epoch': 23.74}
+{'loss': 0.1306, 'grad_norm': 0.5398800373077393, 'learning_rate': 2.9045333333333335e-05, 'epoch': 23.74}
+{'loss': 0.0956, 'grad_norm': 0.3459707796573639, 'learning_rate': 2.9045e-05, 'epoch': 23.74}
+{'loss': 0.099, 'grad_norm': 0.7129822969436646, 'learning_rate': 2.9044666666666667e-05, 'epoch': 23.74}
+{'loss': 0.07, 'grad_norm': 0.5271465182304382, 'learning_rate': 2.9044333333333336e-05, 'epoch': 23.75}
+{'loss': 0.0734, 'grad_norm': 0.5197558403015137, 'learning_rate': 2.9044e-05, 'epoch': 23.75}
+{'loss': 0.0382, 'grad_norm': 0.3547579050064087, 'learning_rate': 2.9043666666666668e-05, 'epoch': 23.75}
+{'loss': 0.0638, 'grad_norm': 0.38486313819885254, 'learning_rate': 2.9043333333333334e-05, 'epoch': 23.75}
+{'loss': 0.0366, 'grad_norm': 0.2941659390926361, 'learning_rate': 2.9043e-05, 'epoch': 23.75}
+{'loss': 0.0396, 'grad_norm': 0.37029245495796204, 'learning_rate': 2.904266666666667e-05, 'epoch': 23.76}
+{'loss': 0.0512, 'grad_norm': 0.8271615505218506, 'learning_rate': 2.9042333333333335e-05, 'epoch': 23.76}
+{'loss': 0.023, 'grad_norm': 0.5787763595581055, 'learning_rate': 2.9042e-05, 'epoch': 23.76}
+{'loss': 0.0432, 'grad_norm': 0.3281150162220001, 'learning_rate': 2.9041666666666667e-05, 'epoch': 23.76}
+{'loss': 0.0633, 'grad_norm': 0.5119446516036987, 'learning_rate': 2.9041333333333336e-05, 'epoch': 23.76}
+{'loss': 0.036, 'grad_norm': 0.27672407031059265, 'learning_rate': 2.9041e-05, 'epoch': 23.76}
+{'loss': 0.0299, 'grad_norm': 0.44429293274879456, 'learning_rate': 2.9040666666666668e-05, 'epoch': 23.77}
+{'loss': 0.0329, 'grad_norm': 0.24825359880924225, 'learning_rate': 2.9040333333333334e-05, 'epoch': 23.77}
+{'loss': 0.0113, 'grad_norm': 0.45071160793304443, 'learning_rate': 2.904e-05, 'epoch': 23.77}
+{'loss': 0.0067, 'grad_norm': 0.26706889271736145, 'learning_rate': 2.903966666666667e-05, 'epoch': 23.77}
+{'loss': 0.027, 'grad_norm': 0.41779765486717224, 'learning_rate': 2.9039333333333335e-05, 'epoch': 23.77}
+{'loss': 0.0097, 'grad_norm': 0.23480276763439178, 'learning_rate': 2.9039e-05, 'epoch': 23.78}
+{'loss': 0.0125, 'grad_norm': 0.2854717969894409, 'learning_rate': 2.9038666666666667e-05, 'epoch': 23.78}
+{'loss': 0.0036, 'grad_norm': 0.21366217732429504, 'learning_rate': 2.9038333333333336e-05, 'epoch': 23.78}
+{'loss': 0.0098, 'grad_norm': 0.1949768364429474, 'learning_rate': 2.9038e-05, 'epoch': 23.78}
+{'loss': 0.0029, 'grad_norm': 0.13498984277248383, 'learning_rate': 2.9037666666666668e-05, 'epoch': 23.78}
+{'loss': 0.0073, 'grad_norm': 0.25774431228637695, 'learning_rate': 2.9037333333333334e-05, 'epoch': 23.78}
+{'loss': 0.0121, 'grad_norm': 0.3333340287208557, 'learning_rate': 2.9037e-05, 'epoch': 23.79}
+{'loss': 0.0163, 'grad_norm': 0.18044157326221466, 'learning_rate': 2.903666666666667e-05, 'epoch': 23.79}
+{'loss': 0.0021, 'grad_norm': 0.08477292209863663, 'learning_rate': 2.9036333333333332e-05, 'epoch': 23.79}
+{'loss': 0.0036, 'grad_norm': 0.11724770069122314, 'learning_rate': 2.9036e-05, 'epoch': 23.79}
+{'loss': 0.0112, 'grad_norm': 0.480721116065979, 'learning_rate': 2.9035666666666667e-05, 'epoch': 23.79}
+{'loss': 0.0064, 'grad_norm': 0.2716176509857178, 'learning_rate': 2.9035333333333333e-05, 'epoch': 23.8}
+{'loss': 0.006, 'grad_norm': 0.3495538532733917, 'learning_rate': 2.9035e-05, 'epoch': 23.8}
+{'loss': 0.0038, 'grad_norm': 0.1573408991098404, 'learning_rate': 2.903466666666667e-05, 'epoch': 23.8}
+{'loss': 0.0043, 'grad_norm': 0.2714599072933197, 'learning_rate': 2.9034333333333334e-05, 'epoch': 23.8}
+{'loss': 0.0038, 'grad_norm': 0.14191612601280212, 'learning_rate': 2.9034e-05, 'epoch': 23.8}
+{'loss': 0.0123, 'grad_norm': 0.5580388307571411, 'learning_rate': 2.903366666666667e-05, 'epoch': 23.81}
+{'loss': 0.0073, 'grad_norm': 0.3556264340877533, 'learning_rate': 2.9033333333333332e-05, 'epoch': 23.81}
+{'loss': 0.01, 'grad_norm': 0.24814888834953308, 'learning_rate': 2.9033e-05, 'epoch': 23.81}
+{'loss': 0.0043, 'grad_norm': 0.35184523463249207, 'learning_rate': 2.9032666666666667e-05, 'epoch': 23.81}
+{'loss': 0.0047, 'grad_norm': 0.1633293479681015, 'learning_rate': 2.9032333333333333e-05, 'epoch': 23.81}
+{'loss': 0.0063, 'grad_norm': 0.1968468427658081, 'learning_rate': 2.9032e-05, 'epoch': 23.81}
+{'loss': 0.0059, 'grad_norm': 0.3138710558414459, 'learning_rate': 2.903166666666667e-05, 'epoch': 23.82}
+{'loss': 0.0058, 'grad_norm': 0.19953186810016632, 'learning_rate': 2.9031333333333334e-05, 'epoch': 23.82}
+{'loss': 0.0069, 'grad_norm': 0.19568628072738647, 'learning_rate': 2.9031e-05, 'epoch': 23.82}
+{'loss': 0.0063, 'grad_norm': 0.3259732127189636, 'learning_rate': 2.903066666666667e-05, 'epoch': 23.82}
+{'loss': 0.0044, 'grad_norm': 0.1458972543478012, 'learning_rate': 2.9030333333333332e-05, 'epoch': 23.82}
+{'loss': 0.0051, 'grad_norm': 0.16559676826000214, 'learning_rate': 2.903e-05, 'epoch': 23.83}
+{'loss': 0.0059, 'grad_norm': 0.3490874171257019, 'learning_rate': 2.9029666666666668e-05, 'epoch': 23.83}
+{'loss': 0.0076, 'grad_norm': 0.5214719772338867, 'learning_rate': 2.9029333333333333e-05, 'epoch': 23.83}
+{'loss': 0.0113, 'grad_norm': 0.2873786985874176, 'learning_rate': 2.9029000000000003e-05, 'epoch': 23.83}
+{'loss': 0.151, 'grad_norm': 0.7002087235450745, 'learning_rate': 2.902866666666667e-05, 'epoch': 23.83}
+{'loss': 0.108, 'grad_norm': 0.48249414563179016, 'learning_rate': 2.9028333333333335e-05, 'epoch': 23.83}
+{'loss': 0.0875, 'grad_norm': 0.5469855070114136, 'learning_rate': 2.9028e-05, 'epoch': 23.84}
+{'loss': 0.0698, 'grad_norm': 0.3179090917110443, 'learning_rate': 2.902766666666667e-05, 'epoch': 23.84}
+{'loss': 0.0512, 'grad_norm': 0.30969929695129395, 'learning_rate': 2.9027333333333332e-05, 'epoch': 23.84}
+{'loss': 0.0404, 'grad_norm': 1.0350627899169922, 'learning_rate': 2.9027000000000002e-05, 'epoch': 23.84}
+{'loss': 0.0655, 'grad_norm': 0.5427265763282776, 'learning_rate': 2.9026666666666664e-05, 'epoch': 23.84}
+{'loss': 0.048, 'grad_norm': 0.48509711027145386, 'learning_rate': 2.9026333333333334e-05, 'epoch': 23.85}
+{'loss': 0.0208, 'grad_norm': 0.5452003479003906, 'learning_rate': 2.9026000000000003e-05, 'epoch': 23.85}
+{'loss': 0.0243, 'grad_norm': 0.361055850982666, 'learning_rate': 2.9025666666666666e-05, 'epoch': 23.85}
+{'loss': 0.0268, 'grad_norm': 0.3371514081954956, 'learning_rate': 2.9025333333333335e-05, 'epoch': 23.85}
+{'loss': 0.0188, 'grad_norm': 0.23774278163909912, 'learning_rate': 2.9025e-05, 'epoch': 23.85}
+{'loss': 0.0227, 'grad_norm': 0.364484041929245, 'learning_rate': 2.9024666666666667e-05, 'epoch': 23.86}
+{'loss': 0.0112, 'grad_norm': 0.42037510871887207, 'learning_rate': 2.9024333333333333e-05, 'epoch': 23.86}
+{'loss': 0.0173, 'grad_norm': 0.29534637928009033, 'learning_rate': 2.9024000000000002e-05, 'epoch': 23.86}
+{'loss': 0.0062, 'grad_norm': 3.09122896194458, 'learning_rate': 2.9023666666666665e-05, 'epoch': 23.86}
+{'loss': 0.0058, 'grad_norm': 0.28615516424179077, 'learning_rate': 2.9023333333333334e-05, 'epoch': 23.86}
+{'loss': 0.031, 'grad_norm': 1.4320789575576782, 'learning_rate': 2.9023000000000003e-05, 'epoch': 23.86}
+ 13%|█▎        | 12935/100000 [7:04:19<39:47:35,  1.65s/it] 13%|█▎        | 12936/100000 [7:04:20<38:11:12,  1.58s/it]                                                            13%|█▎        | 12936/100000 [7:04:20<38:11:12,  1.58s/it] 13%|█▎        | 12937/100000 [7:04:22<37:14:26,  1.54s/it]                                                            13%|█▎        | 12937/100000 [7:04:22<37:14:26,  1.54s/it] 13%|█▎        | 12938/100000 [7:04:23<36:14:22,  1.50s/it]                                                            13%|█▎        | 12938/100000 [7:04:23<36:14:22,  1.50s/it] 13%|█▎        | 12939/100000 [7:04:25<35:14:42,  1.46s/it]                                                            13%|█▎        | 12939/100000 [7:04:25<35:14:42,  1.46s/it] 13%|█▎        | 12940/100000 [7:04:26<34:42:06,  1.43s/it]                                                            13%|█▎        | 12940/100000 [7:04:26<34:42:06,  1.43s/it] 13%|█▎        | 12941/100000 [7:04:27<33:54:30,  1.40s/it]                                                            13%|█▎        | 12941/100000 [7:04:27<33:54:30,  1.40s/it] 13%|█▎        | 12942/100000 [7:04:29<33:23:51,  1.38s/it]                                                            13%|█▎        | 12942/100000 [7:04:29<33:23:51,  1.38s/it] 13%|█▎        | 12943/100000 [7:04:30<32:32:16,  1.35s/it]                                                            13%|█▎        | 12943/100000 [7:04:30<32:32:16,  1.35s/it] 13%|█▎        | 12944/100000 [7:04:31<32:04:00,  1.33s/it]                                                            13%|█▎        | 12944/100000 [7:04:31<32:04:00,  1.33s/it] 13%|█▎        | 12945/100000 [7:04:32<31:31:31,  1.30s/it]                                                            13%|█▎        | 12945/100000 [7:04:32<31:31:31,  1.30s/it] 13%|█▎        | 12946/100000 [7:04:34<31:15:01,  1.29s/it]                                                            13%|█▎        | 12946/100000 [7:04:34<31:15:01,  1.29s/it] 13%|█▎        | 12947/100000 [7:04:35<30:44:09,  1.27s/it]                                                            13%|█▎        | 12947/100000 [7:04:35<30:44:09,  1.27s/it] 13%|█▎        | 12948/100000 [7:04:36<30:29:17,  1.26s/it]                                                            13%|█▎        | 12948/100000 [7:04:36<30:29:17,  1.26s/it] 13%|█▎        | 12949/100000 [7:04:37<29:52:16,  1.24s/it]                                                            13%|█▎        | 12949/100000 [7:04:37<29:52:16,  1.24s/it] 13%|█▎        | 12950/100000 [7:04:39<29:14:23,  1.21s/it]                                                            13%|█▎        | 12950/100000 [7:04:39<29:14:23,  1.21s/it] 13%|█▎        | 12951/100000 [7:04:40<28:55:48,  1.20s/it]                                                            13%|█▎        | 12951/100000 [7:04:40<28:55:48,  1.20s/it] 13%|█▎        | 12952/100000 [7:04:41<28:23:27,  1.17s/it]                                                            13%|█▎        | 12952/100000 [7:04:41<28:23:27,  1.17s/it] 13%|█▎        | 12953/100000 [7:04:42<27:59:20,  1.16s/it]                                                            13%|█▎        | 12953/100000 [7:04:42<27:59:20,  1.16s/it] 13%|█▎        | 12954/100000 [7:04:43<27:48:45,  1.15s/it]                                                            13%|█▎        | 12954/100000 [7:04:43<27:48:45,  1.15s/it] 13%|█▎        | 12955/100000 [7:04:44<27:25:14,  1.13s/it]                                                            13%|█▎        | 12955/100000 [7:04:44<27:25:14,  1.13s/it] 13%|█▎        | 12956/100000 [7:04:45<26:57:35,  1.12s/it]                                                            13%|█▎        | 12956/100000 [7:04:45<26:57:35,  1.12s/it] 13%|█▎        | 12957/100000 [7:04:46<26:37:59,  1.10s/it]                                                            13%|█▎        | 12957/100000 [7:04:46<26:37:59,  1.10s/it] 13%|█▎        | 12958/100000 [7:04:47<26:14:37,  1.09s/it]                                                            13%|█▎        | 12958/100000 [7:04:47<26:14:37,  1.09s/it] 13%|█▎        | 12959/100000 [7:04:48<25:50:46,  1.07s/it]                                                            13%|█▎        | 12959/100000 [7:04:48<25:50:46,  1.07s/it] 13%|█▎        | 12960/100000 [7:04:49<25:25:46,  1.05s/it]                                                            13%|█▎        | 12960/100000 [7:04:49<25:25:46,  1.05s/it] 13%|█▎        | 12961/100000 [7:04:50<24:56:04,  1.03s/it]                                                            13%|█▎        | 12961/100000 [7:04:50<24:56:04,  1.03s/it] 13%|█▎        | 12962/100000 [7:04:51<24:26:20,  1.01s/it]                                                            13%|█▎        | 12962/100000 [7:04:51<24:26:20,  1.01s/it] 13%|█▎        | 12963/100000 [7:04:52<23:58:53,  1.01it/s]                                                            13%|█▎        | 12963/100000 [7:04:52<23:58:53,  1.01it/s] 13%|█▎        | 12964/100000 [7:04:53<23:11:14,  1.04it/s]                                                            13%|█▎        | 12964/100000 [7:04:53<23:11:14,  1.04it/s] 13%|█▎        | 12965/100000 [7:04:54<22:48:19,  1.06it/s]                                                            13%|█▎        | 12965/100000 [7:04:54<22:48:19,  1.06it/s] 13%|█▎        | 12966/100000 [7:04:55<22:25:39,  1.08it/s]                                                            13%|█▎        | 12966/100000 [7:04:55<22:25:39,  1.08it/s] 13%|█▎        | 12967/100000 [7:05:06<96:05:34,  3.97s/it]                                                            13%|█▎        | 12967/100000 [7:05:06<96:05:34,  3.97s/it] 13%|█▎        | 12968/100000 [7:05:11<106:38:12,  4.41s/it]                                                             13%|█▎        | 12968/100000 [7:05:11<106:38:12,  4.41s/it] 13%|█▎        | 12969/100000 [7:05:16<107:01:54,  4.43s/it]                                                             13%|█▎        | 12969/100000 [7:05:16<107:01:54,  4.43s/it] 13%|█▎        | 12970/100000 [7:05:20<102:39:20,  4.25s/it]                                                             13%|█▎        | 12970/100000 [7:05:20<102:39:20,  4.25s/it] 13%|█▎        | 12971/100000 [7:05:23<95:08:19,  3.94s/it]                                                             13%|█▎        | 12971/100000 [7:05:23<95:08:19,  3.94s/it] 13%|█▎        | 12972/100000 [7:05:26<88:03:26,  3.64s/it]                                                            13%|█▎        | 12972/100000 [7:05:26<88:03:26,  3.64s/it] 13%|█▎        | 12973/100000 [7:05:29<80:49:18,  3.34s/it]                                                            13%|█▎        | 12973/100000 [7:05:29<80:49:18,  3.34s/it] 13%|█▎        | 12974/100000 [7:05:31<73:38:10,  3.05s/it]                                                            13%|█▎        | 12974/100000 [7:05:31<73:38:10,  3.05s/it] 13%|█▎        | 12975/100000 [7:05:33<66:56:11,  2.77s/it]                                                            13%|█▎        | 12975/100000 [7:05:33<66:56:11,  2.77s/it] 13%|█▎        | 12976/100000 [7:05:35<61:11:31,  2.53s/it]                                                            13%|█▎        | 12976/100000 [7:05:35<61:11:31,  2.53s/it] 13%|█▎        | 12977/100000 [7:05:37<56:33:55,  2.34s/it]                                                            13%|█▎        | 12977/100000 [7:05:37<56:33:55,  2.34s/it] 13%|█▎        | 12978/100000 [7:05:39<52:12:01,  2.16s/it]                                                            13%|█▎        | 12978/100000 [7:05:39<52:12:01,  2.16s/it] 13%|█▎        | 12979/100000 [7:05:40<48:32:52,  2.01s/it]                                                            13%|█▎        | 12979/100000 [7:05:40<48:32:52,  2.01s/it] 13%|█▎        | 12980/100000 [7:05:42<45:37:38,  1.89s/it]                                                            13%|█▎        | 12980/100000 [7:05:42<45:37:38,  1.89s/it] 13%|█▎        | 12981/100000 [7:05:43<43:05:18,  1.78s/it]                                                            13%|█▎        | 12981/100000 [7:05:43<43:05:18,  1.78s/it] 13%|█▎        | 12982/100000 [7:05:45<40:57:32,  1.69s/it]                                                            13%|█▎        | 12982/100000 [7:05:45<40:57:32,  1.69s/it] 13%|█▎        | 12983/100000 [7:05:46<39:22:35,  1.63s/it]                                                            13%|█▎        | 12983/100000 [7:05:46<39:22:35,  1.63s/it] 13%|█▎        | 12984/100000 [7:05:48<37:23:57,  1.55s/it]                                                            13%|█▎        | 12984/100000 [7:05:48<37:23:57,  1.55s/it] 13%|█▎        | 12985/100000 [7:05:49<36:16:05,  1.50s/it]                                                            13%|█▎        | 12985/100000 [7:05:49<36:16:05,  1.50s/it] 13%|█▎        | 12986/100000 [7:05:51<35:18:34,  1.46s/it]                                                            13%|█▎        | 12986/100000 [7:05:51<35:18:34,  1.46s/it] 13%|█▎        | 12987/100000 [7:05:52<34:22:12,  1.42s/it]                                                            13%|█▎        | 12987/100000 [7:05:52<34:22:12,  1.42s/it] 13%|█▎        | 12988/100000 [7:05:53<33:28:40,  1.39s/it]                                                            13%|█▎        | 12988/100000 [7:05:53<33:28:40,  1.39s/it] 13%|█▎        | 12989/100000 [7:05:54<32:41:50,  1.35s/it]                                                            13%|█▎        | 12989/100000 [7:05:54<32:41:50,  1.35s/it] 13%|█▎        | 12990/100000 [7:05:56<31:59:10,  1.32s/it]                                                            13%|█▎        | 12990/100000 [7:05:56<31:59:10,  1.32s/it] 13%|█▎        | 12991/100000 [7:05:57<31:28:25,  1.30s/it]                                                            13%|█▎        | 12991/100000 [7:05:57<31:28:25,  1.30s/it] 13%|█▎        | 12992/100000 [7:05:58<30:34:49,  1.27s/it]                                                            13%|█▎        | 12992/100000 [7:05:58<30:34:49,  1.27s/it] 13%|█▎        | 12993/100000 [7:05:59<30:20:31,  1.26s/it]                                                            13%|█▎        | 12993/100000 [7:05:59<30:20:31,  1.26s/it] 13%|█▎        | 12994/100000 [7:06:00<29:24:49,  1.22s/it]                                                            13%|█▎        | 12994/100000 [7:06:01<29:24:49,  1.22s/it] 13%|█▎        | 12995/100000 [7:06:02<29:04:30,  1.20s/it]                                                            13%|█▎        | 12995/100000 [7:06:02<29:04:30,  1.20s/it] 13%|█▎        | 12996/100000 [7:06:03<28:43:05,  1.19s/it]                                                            13%|█▎        | 12996/100000 [7:06:03<28:43:05,  1.19s/it] 13%|█▎        | 12997/100000 [7:06:04<28:11:18,  1.17s/it]                                                            13%|█▎        | 12997/100000 [7:06:04<28:11:18,  1.17s/it] 13%|█▎        | 12998/100000 [7:06:05<27:33:31,  1.14s/it]                                                            13%|█▎        | 12998/100000 [7:06:05<27:33:31,  1.14s/it] 13%|█▎        | 12999/100000 [7:06:06<26:56:27,  1.11s/it]                                                            13%|█▎        | 12999/100000 [7:06:06<26:56:27,  1.11s/it] 13%|█▎        | 13000/100000 [7:06:07<26:30:06,  1.10s/it]                                                            13%|█▎        | 13000/100000 [7:06:07<26:30:06,  1.10s/it]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.0061, 'grad_norm': 0.24899813532829285, 'learning_rate': 2.9022666666666666e-05, 'epoch': 23.87}
+{'loss': 0.0036, 'grad_norm': 0.1240304559469223, 'learning_rate': 2.9022333333333335e-05, 'epoch': 23.87}
+{'loss': 0.0068, 'grad_norm': 0.25697949528694153, 'learning_rate': 2.9022e-05, 'epoch': 23.87}
+{'loss': 0.0072, 'grad_norm': 0.23376378417015076, 'learning_rate': 2.9021666666666667e-05, 'epoch': 23.87}
+{'loss': 0.0055, 'grad_norm': 0.1371239274740219, 'learning_rate': 2.9021333333333333e-05, 'epoch': 23.87}
+{'loss': 0.0067, 'grad_norm': 0.3965795636177063, 'learning_rate': 2.9021000000000002e-05, 'epoch': 23.88}
+{'loss': 0.0106, 'grad_norm': 0.2709249258041382, 'learning_rate': 2.9020666666666668e-05, 'epoch': 23.88}
+{'loss': 0.0115, 'grad_norm': 0.5115156769752502, 'learning_rate': 2.9020333333333334e-05, 'epoch': 23.88}
+{'loss': 0.0069, 'grad_norm': 0.2460068166255951, 'learning_rate': 2.9020000000000003e-05, 'epoch': 23.88}
+{'loss': 0.0189, 'grad_norm': 0.14581836760044098, 'learning_rate': 2.9019666666666666e-05, 'epoch': 23.88}
+{'loss': 0.0056, 'grad_norm': 0.2299008071422577, 'learning_rate': 2.9019333333333335e-05, 'epoch': 23.88}
+{'loss': 0.0044, 'grad_norm': 0.15325182676315308, 'learning_rate': 2.9019e-05, 'epoch': 23.89}
+{'loss': 0.0108, 'grad_norm': 0.24629101157188416, 'learning_rate': 2.9018666666666667e-05, 'epoch': 23.89}
+{'loss': 0.0145, 'grad_norm': 0.25775256752967834, 'learning_rate': 2.9018333333333333e-05, 'epoch': 23.89}
+{'loss': 0.0046, 'grad_norm': 0.20524519681930542, 'learning_rate': 2.9018000000000002e-05, 'epoch': 23.89}
+{'loss': 0.0076, 'grad_norm': 0.21955180168151855, 'learning_rate': 2.9017666666666668e-05, 'epoch': 23.89}
+{'loss': 0.0039, 'grad_norm': 0.44401729106903076, 'learning_rate': 2.9017333333333334e-05, 'epoch': 23.9}
+{'loss': 0.0056, 'grad_norm': 0.29561930894851685, 'learning_rate': 2.9017e-05, 'epoch': 23.9}
+{'loss': 0.0042, 'grad_norm': 0.17952415347099304, 'learning_rate': 2.9016666666666666e-05, 'epoch': 23.9}
+{'loss': 0.0036, 'grad_norm': 0.41808587312698364, 'learning_rate': 2.9016333333333335e-05, 'epoch': 23.9}
+{'loss': 0.0055, 'grad_norm': 0.23725056648254395, 'learning_rate': 2.9015999999999998e-05, 'epoch': 23.9}
+{'loss': 0.0084, 'grad_norm': 0.372693806886673, 'learning_rate': 2.9015666666666667e-05, 'epoch': 23.9}
+{'loss': 0.007, 'grad_norm': 0.19695430994033813, 'learning_rate': 2.9015333333333333e-05, 'epoch': 23.91}
+{'loss': 0.0032, 'grad_norm': 0.13928771018981934, 'learning_rate': 2.9015e-05, 'epoch': 23.91}
+{'loss': 0.0104, 'grad_norm': 0.43361949920654297, 'learning_rate': 2.901466666666667e-05, 'epoch': 23.91}
+{'loss': 0.0049, 'grad_norm': 0.1476796269416809, 'learning_rate': 2.9014333333333334e-05, 'epoch': 23.91}
+{'loss': 0.0067, 'grad_norm': 0.2999615967273712, 'learning_rate': 2.9014e-05, 'epoch': 23.91}
+{'loss': 0.0119, 'grad_norm': 0.7123618125915527, 'learning_rate': 2.9013666666666666e-05, 'epoch': 23.92}
+{'loss': 0.0033, 'grad_norm': 0.18582561612129211, 'learning_rate': 2.9013333333333336e-05, 'epoch': 23.92}
+{'loss': 0.0071, 'grad_norm': 0.5258939862251282, 'learning_rate': 2.9012999999999998e-05, 'epoch': 23.92}
+{'loss': 0.0128, 'grad_norm': 0.6415529847145081, 'learning_rate': 2.9012666666666668e-05, 'epoch': 23.92}
+{'loss': 0.0132, 'grad_norm': 0.29516181349754333, 'learning_rate': 2.9012333333333337e-05, 'epoch': 23.92}
+{'loss': 0.1746, 'grad_norm': 0.7700099349021912, 'learning_rate': 2.9012e-05, 'epoch': 23.93}
+{'loss': 0.1412, 'grad_norm': 0.46317270398139954, 'learning_rate': 2.901166666666667e-05, 'epoch': 23.93}
+{'loss': 0.1088, 'grad_norm': 0.6192085146903992, 'learning_rate': 2.9011333333333335e-05, 'epoch': 23.93}
+{'loss': 0.0943, 'grad_norm': 0.6775713562965393, 'learning_rate': 2.9011e-05, 'epoch': 23.93}
+{'loss': 0.0614, 'grad_norm': 0.6361328959465027, 'learning_rate': 2.9010666666666667e-05, 'epoch': 23.93}
+{'loss': 0.0678, 'grad_norm': 0.6036672592163086, 'learning_rate': 2.9010333333333336e-05, 'epoch': 23.93}
+{'loss': 0.0702, 'grad_norm': 0.37628716230392456, 'learning_rate': 2.901e-05, 'epoch': 23.94}
+{'loss': 0.0843, 'grad_norm': 0.34638822078704834, 'learning_rate': 2.9009666666666668e-05, 'epoch': 23.94}
+{'loss': 0.034, 'grad_norm': 0.4206011891365051, 'learning_rate': 2.9009333333333337e-05, 'epoch': 23.94}
+{'loss': 0.0732, 'grad_norm': 0.4541192352771759, 'learning_rate': 2.9009e-05, 'epoch': 23.94}
+{'loss': 0.0167, 'grad_norm': 0.3251061737537384, 'learning_rate': 2.900866666666667e-05, 'epoch': 23.94}
+{'loss': 0.0125, 'grad_norm': 0.4052632451057434, 'learning_rate': 2.9008333333333335e-05, 'epoch': 23.95}
+{'loss': 0.0106, 'grad_norm': 0.20792420208454132, 'learning_rate': 2.9008e-05, 'epoch': 23.95}
+{'loss': 0.0157, 'grad_norm': 0.2851109206676483, 'learning_rate': 2.9007666666666667e-05, 'epoch': 23.95}
+{'loss': 0.0161, 'grad_norm': 0.4680311381816864, 'learning_rate': 2.9007333333333336e-05, 'epoch': 23.95}
+{'loss': 0.0334, 'grad_norm': 0.1415628045797348, 'learning_rate': 2.9007e-05, 'epoch': 23.95}
+{'loss': 0.0088, 'grad_norm': 0.20743387937545776, 'learning_rate': 2.9006666666666668e-05, 'epoch': 23.95}
+{'loss': 0.0204, 'grad_norm': 0.20807644724845886, 'learning_rate': 2.9006333333333334e-05, 'epoch': 23.96}
+{'loss': 0.0062, 'grad_norm': 0.2604505121707916, 'learning_rate': 2.9006e-05, 'epoch': 23.96}
+{'loss': 0.0053, 'grad_norm': 0.22881126403808594, 'learning_rate': 2.900566666666667e-05, 'epoch': 23.96}
+{'loss': 0.0041, 'grad_norm': 0.11627691984176636, 'learning_rate': 2.900533333333333e-05, 'epoch': 23.96}
+{'loss': 0.0072, 'grad_norm': 0.24788479506969452, 'learning_rate': 2.9005e-05, 'epoch': 23.96}
+{'loss': 0.006, 'grad_norm': 0.27122530341148376, 'learning_rate': 2.9004666666666667e-05, 'epoch': 23.97}
+{'loss': 0.0043, 'grad_norm': 0.2032022923231125, 'learning_rate': 2.9004333333333333e-05, 'epoch': 23.97}
+{'loss': 0.004, 'grad_norm': 0.31291407346725464, 'learning_rate': 2.9004000000000002e-05, 'epoch': 23.97}
+{'loss': 0.0113, 'grad_norm': 0.38916656374931335, 'learning_rate': 2.9003666666666668e-05, 'epoch': 23.97}
+{'loss': 0.0118, 'grad_norm': 0.2948424518108368, 'learning_rate': 2.9003333333333334e-05, 'epoch': 23.97}
+{'loss': 0.0082, 'grad_norm': 0.223440483212471, 'learning_rate': 2.9003e-05, 'epoch': 23.98}
+{'loss': 0.0103, 'grad_norm': 0.4852774739265442, 'learning_rate': 2.900266666666667e-05, 'epoch': 23.98}
+{'loss': 0.0038, 'grad_norm': 0.2066236287355423, 'learning_rate': 2.9002333333333332e-05, 'epoch': 23.98}
+{'loss': 0.0078, 'grad_norm': 0.32647451758384705, 'learning_rate': 2.9002e-05, 'epoch': 23.98}
+{'loss': 0.005, 'grad_norm': 0.21102245151996613, 'learning_rate': 2.9001666666666667e-05, 'epoch': 23.98}
+{'loss': 0.0124, 'grad_norm': 0.4090909957885742, 'learning_rate': 2.9001333333333333e-05, 'epoch': 23.98}
+{'loss': 0.0041, 'grad_norm': 0.1885944902896881, 'learning_rate': 2.9001000000000002e-05, 'epoch': 23.99}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:01,  4.29it/s][A
+ 30%|███       | 3/10 [00:02<00:05,  1.25it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.43it/s][A
+ 50%|█████     | 5/10 [00:04<00:04,  1.03it/s][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.23it/s][A
+ 70%|███████   | 7/10 [00:05<00:03,  1.00s/it][A
+ 80%|████████  | 8/10 [00:06<00:01,  1.17it/s][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.20s/it][A
+100%|██████████| 10/10 [00:08<00:00,  1.04it/s][A                                                           
+                                               [A 13%|█▎        | 13000/100000 [7:06:40<26:30:06,  1.10s/it]
+100%|██████████| 10/10 [00:09<00:00,  1.04it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-13000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-13000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-13000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-13000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-13000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-13000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-13000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-12000] due to args.save_total_limit
+ 13%|█▎        | 13001/100000 [7:06:53<350:09:56, 14.49s/it]                                                             13%|█▎        | 13001/100000 [7:06:53<350:09:56, 14.49s/it] 13%|█▎        | 13002/100000 [7:06:54<252:50:51, 10.46s/it]                                                             13%|█▎        | 13002/100000 [7:06:54<252:50:51, 10.46s/it] 13%|█▎        | 13003/100000 [7:06:55<184:24:49,  7.63s/it]                                                             13%|█▎        | 13003/100000 [7:06:55<184:24:49,  7.63s/it] 13%|█▎        | 13004/100000 [7:06:56<136:04:11,  5.63s/it]                                                             13%|█▎        | 13004/100000 [7:06:56<136:04:11,  5.63s/it] 13%|█▎        | 13005/100000 [7:06:57<102:28:50,  4.24s/it]                                                             13%|█▎        | 13005/100000 [7:06:57<102:28:50,  4.24s/it] 13%|█▎        | 13006/100000 [7:06:58<78:24:25,  3.24s/it]                                                             13%|█▎        | 13006/100000 [7:06:58<78:24:25,  3.24s/it] 13%|█▎        | 13007/100000 [7:06:59<61:43:31,  2.55s/it]                                                            13%|█▎        | 13007/100000 [7:06:59<61:43:31,  2.55s/it] 13%|█▎        | 13008/100000 [7:07:00<49:29:39,  2.05s/it]                                                            13%|█▎        | 13008/100000 [7:07:00<49:29:39,  2.05s/it]{'eval_loss': 0.38288652896881104, 'eval_wer': 0.3898695318495779, 'eval_cer': 0.11374653290820956, 'eval_runtime': 15.7412, 'eval_samples_per_second': 19.312, 'eval_steps_per_second': 0.635, 'epoch': 23.99}
+{'loss': 0.0112, 'grad_norm': 0.45336973667144775, 'learning_rate': 2.9000666666666668e-05, 'epoch': 23.99}
+{'loss': 0.0076, 'grad_norm': 0.5542886257171631, 'learning_rate': 2.9000333333333334e-05, 'epoch': 23.99}
+{'loss': 0.0044, 'grad_norm': 0.18405455350875854, 'learning_rate': 2.9e-05, 'epoch': 23.99}
+{'loss': 0.006, 'grad_norm': 0.2096349596977234, 'learning_rate': 2.899966666666667e-05, 'epoch': 23.99}
+{'loss': 0.0053, 'grad_norm': 0.2750890851020813, 'learning_rate': 2.8999333333333332e-05, 'epoch': 24.0}
+{'loss': 0.0051, 'grad_norm': 0.24388429522514343, 'learning_rate': 2.8999e-05, 'epoch': 24.0}
+{'loss': 0.0086, 'grad_norm': 0.6541364789009094, 'learning_rate': 2.8998666666666667e-05, 'epoch': 24.0}
+{'loss': 0.0008, 'grad_norm': 0.0675673708319664, 'learning_rate': 2.8998333333333333e-05, 'epoch': 24.0}
+ 13%|█▎        | 13009/100000 [7:07:18<167:08:28,  6.92s/it]                                                             13%|█▎        | 13009/100000 [7:07:18<167:08:28,  6.92s/it] 13%|█▎        | 13010/100000 [7:07:23<155:02:50,  6.42s/it]                                                             13%|█▎        | 13010/100000 [7:07:23<155:02:50,  6.42s/it] 13%|█▎        | 13011/100000 [7:07:27<138:59:50,  5.75s/it]                                                             13%|█▎        | 13011/100000 [7:07:27<138:59:50,  5.75s/it] 13%|█▎        | 13012/100000 [7:07:31<123:02:17,  5.09s/it]                                                             13%|█▎        | 13012/100000 [7:07:31<123:02:17,  5.09s/it] 13%|█▎        | 13013/100000 [7:07:35<112:07:16,  4.64s/it]                                                             13%|█▎        | 13013/100000 [7:07:35<112:07:16,  4.64s/it] 13%|█▎        | 13014/100000 [7:07:38<101:52:40,  4.22s/it]                                                             13%|█▎        | 13014/100000 [7:07:38<101:52:40,  4.22s/it] 13%|█▎        | 13015/100000 [7:07:41<92:45:57,  3.84s/it]                                                             13%|█▎        | 13015/100000 [7:07:41<92:45:57,  3.84s/it] 13%|█▎        | 13016/100000 [7:07:43<84:13:11,  3.49s/it]                                                            13%|█▎        | 13016/100000 [7:07:43<84:13:11,  3.49s/it] 13%|█▎        | 13017/100000 [7:07:46<77:04:01,  3.19s/it]                                                            13%|█▎        | 13017/100000 [7:07:46<77:04:01,  3.19s/it] 13%|█▎        | 13018/100000 [7:07:48<70:55:00,  2.94s/it]                                                            13%|█▎        | 13018/100000 [7:07:48<70:55:00,  2.94s/it] 13%|█▎        | 13019/100000 [7:07:50<65:22:31,  2.71s/it]                                                            13%|█▎        | 13019/100000 [7:07:50<65:22:31,  2.71s/it] 13%|█▎        | 13020/100000 [7:07:52<60:31:47,  2.51s/it]                                                            13%|█▎        | 13020/100000 [7:07:52<60:31:47,  2.51s/it] 13%|█▎        | 13021/100000 [7:07:54<55:53:29,  2.31s/it]                                                            13%|█▎        | 13021/100000 [7:07:54<55:53:29,  2.31s/it] 13%|█▎        | 13022/100000 [7:07:56<51:27:02,  2.13s/it]                                                            13%|█▎        | 13022/100000 [7:07:56<51:27:02,  2.13s/it] 13%|█▎        | 13023/100000 [7:07:58<48:52:22,  2.02s/it]                                                            13%|█▎        | 13023/100000 [7:07:58<48:52:22,  2.02s/it] 13%|█▎        | 13024/100000 [7:07:59<46:21:06,  1.92s/it]                                                            13%|█▎        | 13024/100000 [7:07:59<46:21:06,  1.92s/it] 13%|█▎        | 13025/100000 [7:08:01<43:50:26,  1.81s/it]                                                            13%|█▎        | 13025/100000 [7:08:01<43:50:26,  1.81s/it] 13%|█▎        | 13026/100000 [7:08:03<42:08:42,  1.74s/it]                                                            13%|█▎        | 13026/100000 [7:08:03<42:08:42,  1.74s/it] 13%|█▎        | 13027/100000 [7:08:04<40:36:47,  1.68s/it]                                                            13%|█▎        | 13027/100000 [7:08:04<40:36:47,  1.68s/it] 13%|█▎        | 13028/100000 [7:08:06<39:09:54,  1.62s/it]                                                            13%|█▎        | 13028/100000 [7:08:06<39:09:54,  1.62s/it] 13%|█▎        | 13029/100000 [7:08:07<37:52:06,  1.57s/it]                                                            13%|█▎        | 13029/100000 [7:08:07<37:52:06,  1.57s/it] 13%|█▎        | 13030/100000 [7:08:08<36:37:18,  1.52s/it]                                                            13%|█▎        | 13030/100000 [7:08:08<36:37:18,  1.52s/it] 13%|█▎        | 13031/100000 [7:08:10<35:48:52,  1.48s/it]                                                            13%|█▎        | 13031/100000 [7:08:10<35:48:52,  1.48s/it] 13%|█▎        | 13032/100000 [7:08:11<34:48:11,  1.44s/it]                                                            13%|█▎        | 13032/100000 [7:08:11<34:48:11,  1.44s/it] 13%|█▎        | 13033/100000 [7:08:13<34:21:50,  1.42s/it]                                                            13%|█▎        | 13033/100000 [7:08:13<34:21:50,  1.42s/it] 13%|█▎        | 13034/100000 [7:08:14<33:51:12,  1.40s/it]                                                            13%|█▎        | 13034/100000 [7:08:14<33:51:12,  1.40s/it] 13%|█▎        | 13035/100000 [7:08:15<32:50:03,  1.36s/it]                                                            13%|█▎        | 13035/100000 [7:08:15<32:50:03,  1.36s/it] 13%|█▎        | 13036/100000 [7:08:16<32:29:30,  1.35s/it]                                                            13%|█▎        | 13036/100000 [7:08:16<32:29:30,  1.35s/it] 13%|█▎        | 13037/100000 [7:08:18<31:57:01,  1.32s/it]                                                            13%|█▎        | 13037/100000 [7:08:18<31:57:01,  1.32s/it] 13%|█▎        | 13038/100000 [7:08:19<33:14:36,  1.38s/it]                                                            13%|█▎        | 13038/100000 [7:08:19<33:14:36,  1.38s/it] 13%|█▎        | 13039/100000 [7:08:20<32:18:53,  1.34s/it]                                                            13%|█▎        | 13039/100000 [7:08:20<32:18:53,  1.34s/it] 13%|█▎        | 13040/100000 [7:08:22<31:23:05,  1.30s/it]                                                            13%|█▎        | 13040/100000 [7:08:22<31:23:05,  1.30s/it] 13%|█▎        | 13041/100000 [7:08:23<30:42:47,  1.27s/it]                                                            13%|█▎        | 13041/100000 [7:08:23<30:42:47,  1.27s/it] 13%|█▎        | 13042/100000 [7:08:24<30:03:51,  1.24s/it]                                                            13%|█▎        | 13042/100000 [7:08:24<30:03:51,  1.24s/it] 13%|█▎        | 13043/100000 [7:08:25<29:40:15,  1.23s/it]                                                            13%|█▎        | 13043/100000 [7:08:25<29:40:15,  1.23s/it] 13%|█▎        | 13044/100000 [7:08:26<29:07:36,  1.21s/it]                                                            13%|█▎        | 13044/100000 [7:08:26<29:07:36,  1.21s/it] 13%|█▎        | 13045/100000 [7:08:28<28:42:34,  1.19s/it]                                                            13%|█▎        | 13045/100000 [7:08:28<28:42:34,  1.19s/it] 13%|█▎        | 13046/100000 [7:08:29<28:18:52,  1.17s/it]                                                            13%|█▎        | 13046/100000 [7:08:29<28:18:52,  1.17s/it] 13%|█▎        | 13047/100000 [7:08:30<27:42:12,  1.15s/it]                                                            13%|█▎        | 13047/100000 [7:08:30<27:42:12,  1.15s/it] 13%|█▎        | 13048/100000 [7:08:31<27:26:34,  1.14s/it]                                                            13%|█▎        | 13048/100000 [7:08:31<27:26:34,  1.14s/it] 13%|█▎        | 13049/100000 [7:08:32<27:08:32,  1.12s/it]                                                            13%|█▎        | 13049/100000 [7:08:32<27:08:32,  1.12s/it] 13%|█▎        | 13050/100000 [7:08:33<26:43:02,  1.11s/it]                                                            13%|█▎        | 13050/100000 [7:08:33<26:43:02,  1.11s/it] 13%|█▎        | 13051/100000 [7:08:34<26:03:28,  1.08s/it]                                                            13%|█▎        | 13051/100000 [7:08:34<26:03:28,  1.08s/it] 13%|█▎        | 13052/100000 [7:08:35<25:41:07,  1.06s/it]                                                            13%|█▎        | 13052/100000 [7:08:35<25:41:07,  1.06s/it] 13%|█▎        | 13053/100000 [7:08:36<25:14:50,  1.05s/it]                                                            13%|█▎        | 13053/100000 [7:08:36<25:14:50,  1.05s/it] 13%|█▎        | 13054/100000 [7:08:37<24:52:48,  1.03s/it]                                                            13%|█▎        | 13054/100000 [7:08:37<24:52:48,  1.03s/it] 13%|█▎        | 13055/100000 [7:08:38<24:08:07,  1.00it/s]                                                            13%|█▎        | 13055/100000 [7:08:38<24:08:07,  1.00it/s] 13%|█▎        | 13056/100000 [7:08:39<23:51:21,  1.01it/s]                                                            13%|█▎        | 13056/100000 [7:08:39<23:51:21,  1.01it/s] 13%|█▎        | 13057/100000 [7:08:40<23:24:19,  1.03it/s]                                                            13%|█▎        | 13057/100000 [7:08:40<23:24:19,  1.03it/s] 13%|█▎        | 13058/100000 [7:08:41<22:56:55,  1.05it/s]                                                            13%|█▎        | 13058/100000 [7:08:41<22:56:55,  1.05it/s] 13%|█▎        | 13059/100000 [7:08:53<104:13:37,  4.32s/it]                                                             13%|█▎        | 13059/100000 [7:08:53<104:13:37,  4.32s/it] 13%|█▎        | 13060/100000 [7:08:59<115:19:38,  4.78s/it]                                                             13%|█▎        | 13060/100000 [7:08:59<115:19:38,  4.78s/it] 13%|█▎        | 13061/100000 [7:09:04<115:52:33,  4.80s/it]                                                             13%|█▎        | 13061/100000 [7:09:04<115:52:33,  4.80s/it] 13%|█▎        | 13062/100000 [7:09:08<110:41:20,  4.58s/it]                                                             13%|█▎        | 13062/100000 [7:09:08<110:41:20,  4.58s/it] 13%|█▎        | 13063/100000 [7:09:12<104:43:40,  4.34s/it]                                                             13%|█▎        | 13063/100000 [7:09:12<104:43:40,  4.34s/it] 13%|█▎        | 13064/100000 [7:09:15<97:36:10,  4.04s/it]                                                             13%|█▎        | 13064/100000 [7:09:15<97:36:10,  4.04s/it] 13%|█▎        | 13065/100000 [7:09:18<89:10:30,  3.69s/it]                                                            13%|█▎        | 13065/100000 [7:09:18<89:10:30,  3.69s/it] 13%|█▎        | 13066/100000 [7:09:21<82:12:40,  3.40s/it]                                                            13%|█▎        | 13066/100000 [7:09:21<82:12:40,  3.40s/it] 13%|█▎        | 13067/100000 [7:09:23<75:55:18,  3.14s/it]                                                            13%|█▎        | 13067/100000 [7:09:23<75:55:18,  3.14s/it] 13%|█▎        | 13068/100000 [7:09:25<70:13:48,  2.91s/it]                                                            13%|█▎        | 13068/100000 [7:09:25<70:13:48,  2.91s/it] 13%|█▎        | 13069/100000 [7:09:28<64:25:42,  2.67s/it]                                                            13%|█▎        | 13069/100000 [7:09:28<64:25:42,  2.67s/it] 13%|█▎        | 13070/100000 [7:09:30<60:10:46,  2.49s/it]                                                            13%|█▎        | 13070/100000 [7:09:30<60:10:46,  2.49s/it] 13%|█▎        | 13071/100000 [7:09:32<56:00:44,  2.32s/it]                                                            13%|█▎        | 13071/100000 [7:09:32<56:00:44,  2.32s/it] 13%|█▎        | 13072/100000 [7:09:33<52:29:36,  2.17s/it]                                                            13%|█▎        | 13072/100000 [7:09:33<52:29:36,  2.17s/it] 13%|█▎        | 13073/100000 [7:09:35<49:36:47,  2.05s/it]                                                            13%|█▎        | 13073/100000 [7:09:35<49:36:47,  2.05s/it] 13%|█▎        | 13074/100000 [7:09:37<46:45:27,  1.94s/it]                                                            13%|█▎        | 13074/100000 [7:09:37<46:45:27,  1.94s/it] 13%|█▎        | 13075/100000 [7:09:38<44:31:37,  1.84s/it]                                                            13%|█▎        | 13075/100000 [7:09:38<44:31:37,  1.84s/it] 13%|█▎        | 13076/100000 [7:09:40<42:43:05,  1.77s/it]                                                            13%|█▎        | 13076/100000 [7:09:40<42:43:05,  1.77s/it] 13%|█▎        | 13077/100000 [7:09:42<41:02:30,  1.70s/it]                                                            13%|█▎        | 13077/100000 [7:09:42<41:02:30,  1.70s/it] 13%|█▎        | 13078/100000 [7:09:43<39:10:06,  1.62s/it]                                                            13%|█▎        | 13078/100000 [7:09:43<39:10:06,  1.62s/it] 13%|█▎        | 13079/100000 [7:09:44<37:56:02,  1.57s/it]                                                            13%|█▎        | 13079/100000 [7:09:44<37:56:02,  1.57s/it] 13%|█▎        | 13080/100000 [7:09:46<36:57:42,  1.53s/it]                                                            13%|█▎        | 13080/100000 [7:09:46<36:57:42,  1.53s/it] 13%|█▎        | 13081/100000 [7:09:47<36:02:45,  1.49s/it]                                                            13%|█▎        | 13081/100000 [7:09:47<36:02:45,  1.49s/it] 13%|█▎        | 13082/100000 [7:09:49<35:04:41,  1.45s/it]                                                            13%|█▎        | 13082/100000 [7:09:49<35:04:41,  1.45s/it] 13%|█▎        | 13083/100000 [7:09:50<34:21:56,  1.42s/it]                                                            13%|█▎        | 13083/100000 [7:09:50<34:21:56,  1.42s/it] 13%|█▎        | 13084/100000 [7:09:51<33:26:26,  1.39s/it]                                                            13%|█▎        | 13084/100000 [7:09:51<33:26:26,  1.39s/it] 13%|█▎        | 13085/100000 [7:09:53<33:11:36,  1.37s/it]                                                            13%|█▎        | 13085/100000 [7:09:53<33:11:36,  1.37s/it] 13%|█▎        | 13086/100000 [7:09:54<32:29:01,  1.35s/it]                                                            13%|█▎        | 13086/100000 [7:09:54<32:29:01,  1.35s/it] 13%|█▎        | 13087/100000 [7:09:55<31:54:15,  1.32s/it]                                                           {'loss': 0.1244, 'grad_norm': 0.7535595893859863, 'learning_rate': 2.8998000000000003e-05, 'epoch': 24.0}
+{'loss': 0.1111, 'grad_norm': 0.40268534421920776, 'learning_rate': 2.899766666666667e-05, 'epoch': 24.0}
+{'loss': 0.0655, 'grad_norm': 0.49000465869903564, 'learning_rate': 2.8997333333333334e-05, 'epoch': 24.01}
+{'loss': 0.052, 'grad_norm': 0.6041421890258789, 'learning_rate': 2.8997e-05, 'epoch': 24.01}
+{'loss': 0.0523, 'grad_norm': 0.37183427810668945, 'learning_rate': 2.8996666666666666e-05, 'epoch': 24.01}
+{'loss': 0.0852, 'grad_norm': 0.5852181315422058, 'learning_rate': 2.8996333333333332e-05, 'epoch': 24.01}
+{'loss': 0.0321, 'grad_norm': 0.32598167657852173, 'learning_rate': 2.8996e-05, 'epoch': 24.01}
+{'loss': 0.0431, 'grad_norm': 0.342527836561203, 'learning_rate': 2.8995666666666667e-05, 'epoch': 24.01}
+{'loss': 0.0439, 'grad_norm': 0.753602147102356, 'learning_rate': 2.8995333333333333e-05, 'epoch': 24.02}
+{'loss': 0.0432, 'grad_norm': 0.46627503633499146, 'learning_rate': 2.8995000000000003e-05, 'epoch': 24.02}
+{'loss': 0.0298, 'grad_norm': 0.37367913126945496, 'learning_rate': 2.8994666666666665e-05, 'epoch': 24.02}
+{'loss': 0.0205, 'grad_norm': 0.5896576046943665, 'learning_rate': 2.8994333333333335e-05, 'epoch': 24.02}
+{'loss': 0.0388, 'grad_norm': 0.46239790320396423, 'learning_rate': 2.8994e-05, 'epoch': 24.02}
+{'loss': 0.0259, 'grad_norm': 0.25117456912994385, 'learning_rate': 2.8993666666666667e-05, 'epoch': 24.03}
+{'loss': 0.0174, 'grad_norm': 0.20962220430374146, 'learning_rate': 2.8993333333333332e-05, 'epoch': 24.03}
+{'loss': 0.0439, 'grad_norm': 0.3992897570133209, 'learning_rate': 2.8993000000000002e-05, 'epoch': 24.03}
+{'loss': 0.0058, 'grad_norm': 0.14528046548366547, 'learning_rate': 2.8992666666666668e-05, 'epoch': 24.03}
+{'loss': 0.0047, 'grad_norm': 0.2308790236711502, 'learning_rate': 2.8992333333333334e-05, 'epoch': 24.03}
+{'loss': 0.0049, 'grad_norm': 0.12781424820423126, 'learning_rate': 2.8992000000000003e-05, 'epoch': 24.04}
+{'loss': 0.0061, 'grad_norm': 0.2648352384567261, 'learning_rate': 2.8991666666666666e-05, 'epoch': 24.04}
+{'loss': 0.0049, 'grad_norm': 0.16820089519023895, 'learning_rate': 2.8991333333333335e-05, 'epoch': 24.04}
+{'loss': 0.0055, 'grad_norm': 0.37286460399627686, 'learning_rate': 2.8991e-05, 'epoch': 24.04}
+{'loss': 0.0088, 'grad_norm': 0.3106335699558258, 'learning_rate': 2.8990666666666667e-05, 'epoch': 24.04}
+{'loss': 0.005, 'grad_norm': 0.27128398418426514, 'learning_rate': 2.8990333333333333e-05, 'epoch': 24.04}
+{'loss': 0.0094, 'grad_norm': 0.29108282923698425, 'learning_rate': 2.8990000000000002e-05, 'epoch': 24.05}
+{'loss': 0.006, 'grad_norm': 0.2468157261610031, 'learning_rate': 2.8989666666666668e-05, 'epoch': 24.05}
+{'loss': 0.0074, 'grad_norm': 0.28584250807762146, 'learning_rate': 2.8989333333333334e-05, 'epoch': 24.05}
+{'loss': 0.0043, 'grad_norm': 0.2079189568758011, 'learning_rate': 2.8989000000000003e-05, 'epoch': 24.05}
+{'loss': 0.0071, 'grad_norm': 0.4608403146266937, 'learning_rate': 2.8988666666666666e-05, 'epoch': 24.05}
+{'loss': 0.0022, 'grad_norm': 0.09350863099098206, 'learning_rate': 2.8988333333333335e-05, 'epoch': 24.06}
+{'loss': 0.0173, 'grad_norm': 0.48382362723350525, 'learning_rate': 2.8988e-05, 'epoch': 24.06}
+{'loss': 0.0077, 'grad_norm': 0.44276735186576843, 'learning_rate': 2.8987666666666667e-05, 'epoch': 24.06}
+{'loss': 0.0081, 'grad_norm': 0.3569282591342926, 'learning_rate': 2.8987333333333336e-05, 'epoch': 24.06}
+{'loss': 0.0015, 'grad_norm': 0.11440275609493256, 'learning_rate': 2.8987000000000002e-05, 'epoch': 24.06}
+{'loss': 0.0027, 'grad_norm': 0.11149106919765472, 'learning_rate': 2.8986666666666668e-05, 'epoch': 24.06}
+{'loss': 0.0067, 'grad_norm': 0.576856255531311, 'learning_rate': 2.8986333333333334e-05, 'epoch': 24.07}
+{'loss': 0.0019, 'grad_norm': 0.07895402610301971, 'learning_rate': 2.8986e-05, 'epoch': 24.07}
+{'loss': 0.0052, 'grad_norm': 0.15396630764007568, 'learning_rate': 2.8985666666666666e-05, 'epoch': 24.07}
+{'loss': 0.0033, 'grad_norm': 0.1727500557899475, 'learning_rate': 2.8985333333333335e-05, 'epoch': 24.07}
+{'loss': 0.0144, 'grad_norm': 1.133514165878296, 'learning_rate': 2.8984999999999998e-05, 'epoch': 24.07}
+{'loss': 0.0094, 'grad_norm': 0.7800816297531128, 'learning_rate': 2.8984666666666667e-05, 'epoch': 24.08}
+{'loss': 0.0057, 'grad_norm': 0.13474318385124207, 'learning_rate': 2.8984333333333336e-05, 'epoch': 24.08}
+{'loss': 0.0098, 'grad_norm': 0.20290903747081757, 'learning_rate': 2.8984e-05, 'epoch': 24.08}
+{'loss': 0.0046, 'grad_norm': 0.22160065174102783, 'learning_rate': 2.8983666666666668e-05, 'epoch': 24.08}
+{'loss': 0.0111, 'grad_norm': 0.5779085755348206, 'learning_rate': 2.8983333333333334e-05, 'epoch': 24.08}
+{'loss': 0.0076, 'grad_norm': 0.39063599705696106, 'learning_rate': 2.8983e-05, 'epoch': 24.08}
+{'loss': 0.008, 'grad_norm': 0.34382039308547974, 'learning_rate': 2.8982666666666666e-05, 'epoch': 24.09}
+{'loss': 0.0027, 'grad_norm': 0.10230110585689545, 'learning_rate': 2.8982333333333335e-05, 'epoch': 24.09}
+{'loss': 0.0165, 'grad_norm': 0.6774642467498779, 'learning_rate': 2.8981999999999998e-05, 'epoch': 24.09}
+{'loss': 0.0098, 'grad_norm': 0.2824467122554779, 'learning_rate': 2.8981666666666667e-05, 'epoch': 24.09}
+{'loss': 0.1176, 'grad_norm': 0.5672895908355713, 'learning_rate': 2.8981333333333337e-05, 'epoch': 24.09}
+{'loss': 0.1258, 'grad_norm': 0.3753058910369873, 'learning_rate': 2.8981e-05, 'epoch': 24.1}
+{'loss': 0.0992, 'grad_norm': 0.5236627459526062, 'learning_rate': 2.898066666666667e-05, 'epoch': 24.1}
+{'loss': 0.0433, 'grad_norm': 0.46382221579551697, 'learning_rate': 2.8980333333333334e-05, 'epoch': 24.1}
+{'loss': 0.0483, 'grad_norm': 0.3146475553512573, 'learning_rate': 2.898e-05, 'epoch': 24.1}
+{'loss': 0.0892, 'grad_norm': 0.4047550857067108, 'learning_rate': 2.8979666666666666e-05, 'epoch': 24.1}
+{'loss': 0.0531, 'grad_norm': 0.38300085067749023, 'learning_rate': 2.8979333333333336e-05, 'epoch': 24.11}
+{'loss': 0.0476, 'grad_norm': 0.4566096067428589, 'learning_rate': 2.8979e-05, 'epoch': 24.11}
+{'loss': 0.0597, 'grad_norm': 0.36871248483657837, 'learning_rate': 2.8978666666666667e-05, 'epoch': 24.11}
+{'loss': 0.0416, 'grad_norm': 0.42504021525382996, 'learning_rate': 2.8978333333333337e-05, 'epoch': 24.11}
+{'loss': 0.0171, 'grad_norm': 0.744490385055542, 'learning_rate': 2.8978e-05, 'epoch': 24.11}
+{'loss': 0.0374, 'grad_norm': 0.32120198011398315, 'learning_rate': 2.897766666666667e-05, 'epoch': 24.11}
+{'loss': 0.0406, 'grad_norm': 0.40598228573799133, 'learning_rate': 2.8977333333333335e-05, 'epoch': 24.12}
+{'loss': 0.0151, 'grad_norm': 0.44137951731681824, 'learning_rate': 2.8977e-05, 'epoch': 24.12}
+{'loss': 0.0071, 'grad_norm': 0.1768002212047577, 'learning_rate': 2.8976666666666666e-05, 'epoch': 24.12}
+{'loss': 0.0054, 'grad_norm': 0.13510826230049133, 'learning_rate': 2.8976333333333332e-05, 'epoch': 24.12}
+{'loss': 0.0068, 'grad_norm': 0.21818716824054718, 'learning_rate': 2.8976000000000002e-05, 'epoch': 24.12}
+{'loss': 0.0062, 'grad_norm': 0.16706795990467072, 'learning_rate': 2.8975666666666668e-05, 'epoch': 24.13}
+{'loss': 0.0098, 'grad_norm': 0.31920814514160156, 'learning_rate': 2.8975333333333334e-05, 'epoch': 24.13}
+{'loss': 0.0141, 'grad_norm': 0.2236560881137848, 'learning_rate': 2.8975e-05, 'epoch': 24.13}
+{'loss': 0.005, 'grad_norm': 0.1601002961397171, 'learning_rate': 2.897466666666667e-05, 'epoch': 24.13}
+{'loss': 0.0048, 'grad_norm': 0.13643929362297058, 'learning_rate': 2.897433333333333e-05, 'epoch': 24.13}
+{'loss': 0.0048, 'grad_norm': 0.24548067152500153, 'learning_rate': 2.8974e-05, 'epoch': 24.13}
+{'loss': 0.0129, 'grad_norm': 0.3406643569469452, 'learning_rate': 2.8973666666666667e-05, 'epoch': 24.14}
+{'loss': 0.0058, 'grad_norm': 0.362541526556015, 'learning_rate': 2.8973333333333333e-05, 'epoch': 24.14}
+{'loss': 0.0081, 'grad_norm': 0.21052448451519012, 'learning_rate': 2.8973000000000002e-05, 'epoch': 24.14}
+{'loss': 0.0037, 'grad_norm': 0.3793521523475647, 'learning_rate': 2.8972666666666668e-05, 'epoch': 24.14}
+{'loss': 0.0026, 'grad_norm': 0.11015784740447998, 'learning_rate': 2.8972333333333334e-05, 'epoch': 24.14}
+ 13%|█▎        | 13087/100000 [7:09:55<31:54:15,  1.32s/it] 13%|█▎        | 13088/100000 [7:09:56<31:29:00,  1.30s/it]                                                            13%|█▎        | 13088/100000 [7:09:56<31:29:00,  1.30s/it] 13%|█▎        | 13089/100000 [7:09:58<31:05:56,  1.29s/it]                                                            13%|█▎        | 13089/100000 [7:09:58<31:05:56,  1.29s/it] 13%|█▎        | 13090/100000 [7:09:59<30:27:27,  1.26s/it]                                                            13%|█▎        | 13090/100000 [7:09:59<30:27:27,  1.26s/it] 13%|█▎        | 13091/100000 [7:10:00<30:11:15,  1.25s/it]                                                            13%|█▎        | 13091/100000 [7:10:00<30:11:15,  1.25s/it] 13%|█▎        | 13092/100000 [7:10:01<29:55:40,  1.24s/it]                                                            13%|█▎        | 13092/100000 [7:10:01<29:55:40,  1.24s/it] 13%|█▎        | 13093/100000 [7:10:03<29:27:07,  1.22s/it]                                                            13%|█▎        | 13093/100000 [7:10:03<29:27:07,  1.22s/it] 13%|█▎        | 13094/100000 [7:10:04<29:08:55,  1.21s/it]                                                            13%|█▎        | 13094/100000 [7:10:04<29:08:55,  1.21s/it] 13%|█▎        | 13095/100000 [7:10:05<28:41:04,  1.19s/it]                                                            13%|█▎        | 13095/100000 [7:10:05<28:41:04,  1.19s/it] 13%|█▎        | 13096/100000 [7:10:06<28:32:28,  1.18s/it]                                                            13%|█▎        | 13096/100000 [7:10:06<28:32:28,  1.18s/it] 13%|█▎        | 13097/100000 [7:10:07<28:02:50,  1.16s/it]                                                            13%|█▎        | 13097/100000 [7:10:07<28:02:50,  1.16s/it] 13%|█▎        | 13098/100000 [7:10:08<27:50:53,  1.15s/it]                                                            13%|█▎        | 13098/100000 [7:10:08<27:50:53,  1.15s/it] 13%|█▎        | 13099/100000 [7:10:09<27:37:29,  1.14s/it]                                                            13%|█▎        | 13099/100000 [7:10:09<27:37:29,  1.14s/it] 13%|█▎        | 13100/100000 [7:10:10<27:08:50,  1.12s/it]                                                            13%|█▎        | 13100/100000 [7:10:10<27:08:50,  1.12s/it] 13%|█▎        | 13101/100000 [7:10:12<26:46:32,  1.11s/it]                                                            13%|█▎        | 13101/100000 [7:10:12<26:46:32,  1.11s/it] 13%|█▎        | 13102/100000 [7:10:13<26:33:50,  1.10s/it]                                                            13%|█▎        | 13102/100000 [7:10:13<26:33:50,  1.10s/it] 13%|█▎        | 13103/100000 [7:10:14<25:32:24,  1.06s/it]                                                            13%|█▎        | 13103/100000 [7:10:14<25:32:24,  1.06s/it] 13%|█▎        | 13104/100000 [7:10:15<24:59:05,  1.04s/it]                                                            13%|█▎        | 13104/100000 [7:10:15<24:59:05,  1.04s/it] 13%|█▎        | 13105/100000 [7:10:16<24:45:55,  1.03s/it]                                                            13%|█▎        | 13105/100000 [7:10:16<24:45:55,  1.03s/it] 13%|█▎        | 13106/100000 [7:10:17<24:24:08,  1.01s/it]                                                            13%|█▎        | 13106/100000 [7:10:17<24:24:08,  1.01s/it] 13%|█▎        | 13107/100000 [7:10:18<24:30:05,  1.02s/it]                                                            13%|█▎        | 13107/100000 [7:10:18<24:30:05,  1.02s/it] 13%|█▎        | 13108/100000 [7:10:18<23:24:57,  1.03it/s]                                                            13%|█▎        | 13108/100000 [7:10:18<23:24:57,  1.03it/s] 13%|█▎        | 13109/100000 [7:10:31<107:46:14,  4.47s/it]                                                             13%|█▎        | 13109/100000 [7:10:31<107:46:14,  4.47s/it] 13%|█▎        | 13110/100000 [7:10:37<116:13:21,  4.82s/it]                                                             13%|█▎        | 13110/100000 [7:10:37<116:13:21,  4.82s/it] 13%|█▎        | 13111/100000 [7:10:41<115:55:16,  4.80s/it]                                                             13%|█▎        | 13111/100000 [7:10:41<115:55:16,  4.80s/it] 13%|█▎        | 13112/100000 [7:10:45<108:46:06,  4.51s/it]                                                             13%|█▎        | 13112/100000 [7:10:45<108:46:06,  4.51s/it] 13%|█▎        | 13113/100000 [7:10:49<101:41:10,  4.21s/it]                                                             13%|█▎        | 13113/100000 [7:10:49<101:41:10,  4.21s/it] 13%|█▎        | 13114/100000 [7:10:52<94:34:47,  3.92s/it]                                                             13%|█▎        | 13114/100000 [7:10:52<94:34:47,  3.92s/it] 13%|█▎        | 13115/100000 [7:10:55<88:08:21,  3.65s/it]                                                            13%|█▎        | 13115/100000 [7:10:55<88:08:21,  3.65s/it] 13%|█▎        | 13116/100000 [7:10:58<82:00:58,  3.40s/it]                                                            13%|█▎        | 13116/100000 [7:10:58<82:00:58,  3.40s/it] 13%|█▎        | 13117/100000 [7:11:00<75:47:38,  3.14s/it]                                                            13%|█▎        | 13117/100000 [7:11:00<75:47:38,  3.14s/it] 13%|█▎        | 13118/100000 [7:11:03<69:32:21,  2.88s/it]                                                            13%|█▎        | 13118/100000 [7:11:03<69:32:21,  2.88s/it] 13%|█▎        | 13119/100000 [7:11:05<64:12:17,  2.66s/it]                                                            13%|█▎        | 13119/100000 [7:11:05<64:12:17,  2.66s/it] 13%|█▎        | 13120/100000 [7:11:07<60:01:24,  2.49s/it]                                                            13%|█▎        | 13120/100000 [7:11:07<60:01:24,  2.49s/it] 13%|█▎        | 13121/100000 [7:11:09<55:54:42,  2.32s/it]                                                            13%|█▎        | 13121/100000 [7:11:09<55:54:42,  2.32s/it] 13%|█▎        | 13122/100000 [7:11:11<52:35:00,  2.18s/it]                                                            13%|█▎        | 13122/100000 [7:11:11<52:35:00,  2.18s/it] 13%|█▎        | 13123/100000 [7:11:12<49:05:27,  2.03s/it]                                                            13%|█▎        | 13123/100000 [7:11:12<49:05:27,  2.03s/it] 13%|█▎        | 13124/100000 [7:11:14<45:57:35,  1.90s/it]                                                            13%|█▎        | 13124/100000 [7:11:14<45:57:35,  1.90s/it] 13%|█▎        | 13125/100000 [7:11:16<43:53:16,  1.82s/it]                                                            13%|█▎        | 13125/100000 [7:11:16<43:53:16,  1.82s/it] 13%|█▎        | 13126/100000 [7:11:17<41:57:12,  1.74s/it]                                                            13%|█▎        | 13126/100000 [7:11:17<41:57:12,  1.74s/it] 13%|█▎        | 13127/100000 [7:11:19<40:32:41,  1.68s/it]                                                            13%|█▎        | 13127/100000 [7:11:19<40:32:41,  1.68s/it] 13%|█▎        | 13128/100000 [7:11:20<38:59:09,  1.62s/it]                                                            13%|█▎        | 13128/100000 [7:11:20<38:59:09,  1.62s/it] 13%|█▎        | 13129/100000 [7:11:22<37:32:33,  1.56s/it]                                                            13%|█▎        | 13129/100000 [7:11:22<37:32:33,  1.56s/it] 13%|█▎        | 13130/100000 [7:11:23<36:17:19,  1.50s/it]                                                            13%|█▎        | 13130/100000 [7:11:23<36:17:19,  1.50s/it] 13%|█▎        | 13131/100000 [7:11:24<35:35:50,  1.48s/it]                                                            13%|█▎        | 13131/100000 [7:11:24<35:35:50,  1.48s/it] 13%|█▎        | 13132/100000 [7:11:26<34:37:05,  1.43s/it]                                                            13%|█▎        | 13132/100000 [7:11:26<34:37:05,  1.43s/it] 13%|█▎        | 13133/100000 [7:11:27<34:04:15,  1.41s/it]                                                            13%|█▎        | 13133/100000 [7:11:27<34:04:15,  1.41s/it] 13%|█▎        | 13134/100000 [7:11:28<33:25:06,  1.38s/it]                                                            13%|█▎        | 13134/100000 [7:11:28<33:25:06,  1.38s/it] 13%|█▎        | 13135/100000 [7:11:30<33:04:23,  1.37s/it]                                                            13%|█▎        | 13135/100000 [7:11:30<33:04:23,  1.37s/it] 13%|█▎        | 13136/100000 [7:11:31<32:27:08,  1.34s/it]                                                            13%|█▎        | 13136/100000 [7:11:31<32:27:08,  1.34s/it] 13%|█▎        | 13137/100000 [7:11:32<31:55:02,  1.32s/it]                                                            13%|█▎        | 13137/100000 [7:11:32<31:55:02,  1.32s/it] 13%|█▎        | 13138/100000 [7:11:34<31:43:18,  1.31s/it]                                                            13%|█▎        | 13138/100000 [7:11:34<31:43:18,  1.31s/it] 13%|█▎        | 13139/100000 [7:11:35<31:13:40,  1.29s/it]                                                            13%|█▎        | 13139/100000 [7:11:35<31:13:40,  1.29s/it] 13%|█▎        | 13140/100000 [7:11:36<30:38:46,  1.27s/it]                                                            13%|█▎        | 13140/100000 [7:11:36<30:38:46,  1.27s/it] 13%|█▎        | 13141/100000 [7:11:37<30:09:35,  1.25s/it]                                                            13%|█▎        | 13141/100000 [7:11:37<30:09:35,  1.25s/it] 13%|█▎        | 13142/100000 [7:11:38<29:49:47,  1.24s/it]                                                            13%|█▎        | 13142/100000 [7:11:38<29:49:47,  1.24s/it] 13%|█▎        | 13143/100000 [7:11:40<29:06:47,  1.21s/it]                                                            13%|█▎        | 13143/100000 [7:11:40<29:06:47,  1.21s/it] 13%|█▎        | 13144/100000 [7:11:41<28:41:18,  1.19s/it]                                                            13%|█▎        | 13144/100000 [7:11:41<28:41:18,  1.19s/it] 13%|█▎        | 13145/100000 [7:11:42<28:20:08,  1.17s/it]                                                            13%|█▎        | 13145/100000 [7:11:42<28:20:08,  1.17s/it] 13%|█▎        | 13146/100000 [7:11:43<27:54:53,  1.16s/it]                                                            13%|█▎        | 13146/100000 [7:11:43<27:54:53,  1.16s/it] 13%|█▎        | 13147/100000 [7:11:44<27:27:05,  1.14s/it]                                                            13%|█▎        | 13147/100000 [7:11:44<27:27:05,  1.14s/it] 13%|█▎        | 13148/100000 [7:11:45<27:11:52,  1.13s/it]                                                            13%|█▎        | 13148/100000 [7:11:45<27:11:52,  1.13s/it] 13%|█▎        | 13149/100000 [7:11:46<26:52:34,  1.11s/it]                                                            13%|█▎        | 13149/100000 [7:11:46<26:52:34,  1.11s/it] 13%|█▎        | 13150/100000 [7:11:47<26:34:33,  1.10s/it]                                                            13%|█▎        | 13150/100000 [7:11:47<26:34:33,  1.10s/it] 13%|█▎        | 13151/100000 [7:11:48<26:12:25,  1.09s/it]                                                            13%|█▎        | 13151/100000 [7:11:48<26:12:25,  1.09s/it] 13%|█▎        | 13152/100000 [7:11:49<25:50:35,  1.07s/it]                                                            13%|█▎        | 13152/100000 [7:11:49<25:50:35,  1.07s/it] 13%|█▎        | 13153/100000 [7:11:50<25:25:13,  1.05s/it]                                                            13%|█▎        | 13153/100000 [7:11:50<25:25:13,  1.05s/it] 13%|█▎        | 13154/100000 [7:11:51<24:58:30,  1.04s/it]                                                            13%|█▎        | 13154/100000 [7:11:51<24:58:30,  1.04s/it] 13%|█▎        | 13155/100000 [7:11:52<24:32:14,  1.02s/it]                                                            13%|█▎        | 13155/100000 [7:11:52<24:32:14,  1.02s/it] 13%|█▎        | 13156/100000 [7:11:53<24:10:00,  1.00s/it]                                                            13%|█▎        | 13156/100000 [7:11:53<24:10:00,  1.00s/it] 13%|█▎        | 13157/100000 [7:11:54<23:46:14,  1.01it/s]                                                            13%|█▎        | 13157/100000 [7:11:54<23:46:14,  1.01it/s] 13%|█▎        | 13158/100000 [7:11:55<23:14:00,  1.04it/s]                                                            13%|█▎        | 13158/100000 [7:11:55<23:14:00,  1.04it/s] 13%|█▎        | 13159/100000 [7:12:07<102:08:12,  4.23s/it]                                                             13%|█▎        | 13159/100000 [7:12:07<102:08:12,  4.23s/it] 13%|█▎        | 13160/100000 [7:12:13<113:20:43,  4.70s/it]                                                             13%|█▎        | 13160/100000 [7:12:13<113:20:43,  4.70s/it] 13%|█▎        | 13161/100000 [7:12:17<112:37:25,  4.67s/it]                                                             13%|█▎        | 13161/100000 [7:12:17<112:37:25,  4.67s/it] 13%|█▎        | 13162/100000 [7:12:21<107:15:38,  4.45s/it]                                                             13%|█▎        | 13162/100000 [7:12:21<107:15:38,  4.45s/it] 13%|█▎        | 13163/100000 [7:12:25<101:29:04,  4.21s/it]                                                             13%|█▎        | 13163/100000 [7:12:25<101:29:04,  4.21s/it] 13%|█▎        | 13164/100000 [7:12:28<93:42:56,  3.89s/it]                                                             13%|█▎        | 13164/100000 [7:12:28<93:42:56,  3.89s/it] 13%|█▎        | 13165/100000 [7:12:31<86:57:15,  3.60s/it]                                                           {'loss': 0.0023, 'grad_norm': 0.08412471413612366, 'learning_rate': 2.8972e-05, 'epoch': 24.15}
+{'loss': 0.0031, 'grad_norm': 0.2851986587047577, 'learning_rate': 2.897166666666667e-05, 'epoch': 24.15}
+{'loss': 0.0027, 'grad_norm': 0.1866234540939331, 'learning_rate': 2.897133333333333e-05, 'epoch': 24.15}
+{'loss': 0.0021, 'grad_norm': 0.10915181040763855, 'learning_rate': 2.8971e-05, 'epoch': 24.15}
+{'loss': 0.0069, 'grad_norm': 0.3201306164264679, 'learning_rate': 2.897066666666667e-05, 'epoch': 24.15}
+{'loss': 0.0042, 'grad_norm': 0.538478672504425, 'learning_rate': 2.8970333333333333e-05, 'epoch': 24.16}
+{'loss': 0.0036, 'grad_norm': 0.12584218382835388, 'learning_rate': 2.8970000000000002e-05, 'epoch': 24.16}
+{'loss': 0.0068, 'grad_norm': 0.2512202262878418, 'learning_rate': 2.8969666666666668e-05, 'epoch': 24.16}
+{'loss': 0.0074, 'grad_norm': 0.3698013424873352, 'learning_rate': 2.8969333333333334e-05, 'epoch': 24.16}
+{'loss': 0.0025, 'grad_norm': 0.13004982471466064, 'learning_rate': 2.8969e-05, 'epoch': 24.16}
+{'loss': 0.0107, 'grad_norm': 0.44549521803855896, 'learning_rate': 2.896866666666667e-05, 'epoch': 24.16}
+{'loss': 0.0087, 'grad_norm': 0.33616870641708374, 'learning_rate': 2.8968333333333332e-05, 'epoch': 24.17}
+{'loss': 0.0017, 'grad_norm': 0.114255391061306, 'learning_rate': 2.8968e-05, 'epoch': 24.17}
+{'loss': 0.0139, 'grad_norm': 0.8930944204330444, 'learning_rate': 2.896766666666667e-05, 'epoch': 24.17}
+{'loss': 0.0122, 'grad_norm': 0.6546629071235657, 'learning_rate': 2.8967333333333333e-05, 'epoch': 24.17}
+{'loss': 0.0088, 'grad_norm': 0.4253278076648712, 'learning_rate': 2.8967000000000002e-05, 'epoch': 24.17}
+{'loss': 0.0072, 'grad_norm': 0.2592533528804779, 'learning_rate': 2.8966666666666665e-05, 'epoch': 24.18}
+{'loss': 0.0038, 'grad_norm': 0.24567706882953644, 'learning_rate': 2.8966333333333334e-05, 'epoch': 24.18}
+{'loss': 0.0035, 'grad_norm': 0.21996194124221802, 'learning_rate': 2.8966e-05, 'epoch': 24.18}
+{'loss': 0.0069, 'grad_norm': 0.5467721223831177, 'learning_rate': 2.8965666666666666e-05, 'epoch': 24.18}
+{'loss': 0.0048, 'grad_norm': 0.19381636381149292, 'learning_rate': 2.8965333333333332e-05, 'epoch': 24.18}
+{'loss': 0.0124, 'grad_norm': 0.15538102388381958, 'learning_rate': 2.8965e-05, 'epoch': 24.18}
+{'loss': 0.1145, 'grad_norm': 0.6547185182571411, 'learning_rate': 2.8964666666666667e-05, 'epoch': 24.19}
+{'loss': 0.1432, 'grad_norm': 0.612529456615448, 'learning_rate': 2.8964333333333333e-05, 'epoch': 24.19}
+{'loss': 0.1157, 'grad_norm': 0.5609632730484009, 'learning_rate': 2.8964000000000003e-05, 'epoch': 24.19}
+{'loss': 0.1006, 'grad_norm': 0.3962590992450714, 'learning_rate': 2.8963666666666665e-05, 'epoch': 24.19}
+{'loss': 0.041, 'grad_norm': 0.3930540382862091, 'learning_rate': 2.8963333333333334e-05, 'epoch': 24.19}
+{'loss': 0.0613, 'grad_norm': 0.5370532870292664, 'learning_rate': 2.8963e-05, 'epoch': 24.2}
+{'loss': 0.0355, 'grad_norm': 0.5153535008430481, 'learning_rate': 2.8962666666666666e-05, 'epoch': 24.2}
+{'loss': 0.049, 'grad_norm': 0.4103752374649048, 'learning_rate': 2.8962333333333336e-05, 'epoch': 24.2}
+{'loss': 0.0612, 'grad_norm': 0.35563552379608154, 'learning_rate': 2.8962e-05, 'epoch': 24.2}
+{'loss': 0.0478, 'grad_norm': 0.3967292606830597, 'learning_rate': 2.8961666666666667e-05, 'epoch': 24.2}
+{'loss': 0.0329, 'grad_norm': 0.42570221424102783, 'learning_rate': 2.8961333333333333e-05, 'epoch': 24.2}
+{'loss': 0.0428, 'grad_norm': 0.34922346472740173, 'learning_rate': 2.8961000000000003e-05, 'epoch': 24.21}
+{'loss': 0.0234, 'grad_norm': 0.46752482652664185, 'learning_rate': 2.8960666666666665e-05, 'epoch': 24.21}
+{'loss': 0.015, 'grad_norm': 0.7021492719650269, 'learning_rate': 2.8960333333333335e-05, 'epoch': 24.21}
+{'loss': 0.0157, 'grad_norm': 0.28904110193252563, 'learning_rate': 2.896e-05, 'epoch': 24.21}
+{'loss': 0.0299, 'grad_norm': 0.36432945728302, 'learning_rate': 2.8959666666666666e-05, 'epoch': 24.21}
+{'loss': 0.009, 'grad_norm': 0.26848480105400085, 'learning_rate': 2.8959333333333336e-05, 'epoch': 24.22}
+{'loss': 0.0183, 'grad_norm': 0.19157792627811432, 'learning_rate': 2.8959000000000002e-05, 'epoch': 24.22}
+{'loss': 0.009, 'grad_norm': 0.35590115189552307, 'learning_rate': 2.8958666666666668e-05, 'epoch': 24.22}
+{'loss': 0.0125, 'grad_norm': 0.46946394443511963, 'learning_rate': 2.8958333333333334e-05, 'epoch': 24.22}
+{'loss': 0.0122, 'grad_norm': 0.3206366300582886, 'learning_rate': 2.8958000000000003e-05, 'epoch': 24.22}
+{'loss': 0.0051, 'grad_norm': 0.19763174653053284, 'learning_rate': 2.8957666666666665e-05, 'epoch': 24.23}
+{'loss': 0.0066, 'grad_norm': 0.18738523125648499, 'learning_rate': 2.8957333333333335e-05, 'epoch': 24.23}
+{'loss': 0.0073, 'grad_norm': 0.554878830909729, 'learning_rate': 2.8957e-05, 'epoch': 24.23}
+{'loss': 0.0064, 'grad_norm': 0.3369830548763275, 'learning_rate': 2.8956666666666667e-05, 'epoch': 24.23}
+{'loss': 0.006, 'grad_norm': 0.3536060154438019, 'learning_rate': 2.8956333333333336e-05, 'epoch': 24.23}
+{'loss': 0.0182, 'grad_norm': 0.30617913603782654, 'learning_rate': 2.8956e-05, 'epoch': 24.23}
+{'loss': 0.0025, 'grad_norm': 0.4099351465702057, 'learning_rate': 2.8955666666666668e-05, 'epoch': 24.24}
+{'loss': 0.0076, 'grad_norm': 0.2719319760799408, 'learning_rate': 2.8955333333333334e-05, 'epoch': 24.24}
+{'loss': 0.0071, 'grad_norm': 0.29288655519485474, 'learning_rate': 2.8955e-05, 'epoch': 24.24}
+{'loss': 0.0101, 'grad_norm': 0.36805543303489685, 'learning_rate': 2.8954666666666666e-05, 'epoch': 24.24}
+{'loss': 0.0045, 'grad_norm': 0.1612132489681244, 'learning_rate': 2.8954333333333335e-05, 'epoch': 24.24}
+{'loss': 0.0039, 'grad_norm': 0.17175914347171783, 'learning_rate': 2.8954e-05, 'epoch': 24.25}
+{'loss': 0.0041, 'grad_norm': 0.15694212913513184, 'learning_rate': 2.8953666666666667e-05, 'epoch': 24.25}
+{'loss': 0.0032, 'grad_norm': 0.1983942985534668, 'learning_rate': 2.8953333333333336e-05, 'epoch': 24.25}
+{'loss': 0.0112, 'grad_norm': 0.42327597737312317, 'learning_rate': 2.8953e-05, 'epoch': 24.25}
+{'loss': 0.0289, 'grad_norm': 0.29380321502685547, 'learning_rate': 2.8952666666666668e-05, 'epoch': 24.25}
+{'loss': 0.005, 'grad_norm': 0.21177636086940765, 'learning_rate': 2.8952333333333334e-05, 'epoch': 24.25}
+{'loss': 0.0124, 'grad_norm': 1.7719300985336304, 'learning_rate': 2.8952e-05, 'epoch': 24.26}
+{'loss': 0.0088, 'grad_norm': 0.41852688789367676, 'learning_rate': 2.8951666666666666e-05, 'epoch': 24.26}
+{'loss': 0.0046, 'grad_norm': 0.1518332064151764, 'learning_rate': 2.8951333333333335e-05, 'epoch': 24.26}
+{'loss': 0.0017, 'grad_norm': 0.09099515527486801, 'learning_rate': 2.8951e-05, 'epoch': 24.26}
+{'loss': 0.0021, 'grad_norm': 0.1368519365787506, 'learning_rate': 2.8950666666666667e-05, 'epoch': 24.26}
+{'loss': 0.0131, 'grad_norm': 0.27972957491874695, 'learning_rate': 2.8950333333333336e-05, 'epoch': 24.27}
+{'loss': 0.0109, 'grad_norm': 0.39006727933883667, 'learning_rate': 2.895e-05, 'epoch': 24.27}
+{'loss': 0.0073, 'grad_norm': 0.23203179240226746, 'learning_rate': 2.8949666666666668e-05, 'epoch': 24.27}
+{'loss': 0.0131, 'grad_norm': 0.43176040053367615, 'learning_rate': 2.8949333333333334e-05, 'epoch': 24.27}
+{'loss': 0.0032, 'grad_norm': 0.1430387645959854, 'learning_rate': 2.8949e-05, 'epoch': 24.27}
+{'loss': 0.008, 'grad_norm': 0.32787269353866577, 'learning_rate': 2.8948666666666666e-05, 'epoch': 24.28}
+{'loss': 0.0124, 'grad_norm': 0.3612595498561859, 'learning_rate': 2.8948333333333335e-05, 'epoch': 24.28}
+{'loss': 0.1127, 'grad_norm': 0.8463873863220215, 'learning_rate': 2.8948e-05, 'epoch': 24.28}
+{'loss': 0.0955, 'grad_norm': 0.453067421913147, 'learning_rate': 2.8947666666666667e-05, 'epoch': 24.28}
+{'loss': 0.068, 'grad_norm': 0.4151947796344757, 'learning_rate': 2.8947333333333337e-05, 'epoch': 24.28}
+{'loss': 0.0635, 'grad_norm': 0.3739778995513916, 'learning_rate': 2.8947e-05, 'epoch': 24.28}
+{'loss': 0.0461, 'grad_norm': 0.486072838306427, 'learning_rate': 2.894666666666667e-05, 'epoch': 24.29}
+{'loss': 0.048, 'grad_norm': 0.33261334896087646, 'learning_rate': 2.894633333333333e-05, 'epoch': 24.29}
+ 13%|█▎        | 13165/100000 [7:12:31<86:57:15,  3.60s/it] 13%|█▎        | 13166/100000 [7:12:34<79:34:24,  3.30s/it]                                                            13%|█▎        | 13166/100000 [7:12:34<79:34:24,  3.30s/it] 13%|█▎        | 13167/100000 [7:12:36<73:43:39,  3.06s/it]                                                            13%|█▎        | 13167/100000 [7:12:36<73:43:39,  3.06s/it] 13%|█▎        | 13168/100000 [7:12:39<68:16:39,  2.83s/it]                                                            13%|█▎        | 13168/100000 [7:12:39<68:16:39,  2.83s/it] 13%|█▎        | 13169/100000 [7:12:41<63:14:25,  2.62s/it]                                                            13%|█▎        | 13169/100000 [7:12:41<63:14:25,  2.62s/it] 13%|█▎        | 13170/100000 [7:12:43<58:31:35,  2.43s/it]                                                            13%|█▎        | 13170/100000 [7:12:43<58:31:35,  2.43s/it] 13%|█▎        | 13171/100000 [7:12:45<54:44:58,  2.27s/it]                                                            13%|█▎        | 13171/100000 [7:12:45<54:44:58,  2.27s/it] 13%|█▎        | 13172/100000 [7:12:46<51:23:18,  2.13s/it]                                                            13%|█▎        | 13172/100000 [7:12:46<51:23:18,  2.13s/it] 13%|█▎        | 13173/100000 [7:12:48<48:34:44,  2.01s/it]                                                            13%|█▎        | 13173/100000 [7:12:48<48:34:44,  2.01s/it] 13%|█▎        | 13174/100000 [7:12:50<45:37:39,  1.89s/it]                                                            13%|█▎        | 13174/100000 [7:12:50<45:37:39,  1.89s/it] 13%|█▎        | 13175/100000 [7:12:51<43:43:44,  1.81s/it]                                                            13%|█▎        | 13175/100000 [7:12:51<43:43:44,  1.81s/it] 13%|█▎        | 13176/100000 [7:12:53<41:40:18,  1.73s/it]                                                            13%|█▎        | 13176/100000 [7:12:53<41:40:18,  1.73s/it] 13%|█▎        | 13177/100000 [7:12:54<40:17:18,  1.67s/it]                                                            13%|█▎        | 13177/100000 [7:12:54<40:17:18,  1.67s/it] 13%|█▎        | 13178/100000 [7:12:56<38:52:46,  1.61s/it]                                                            13%|█▎        | 13178/100000 [7:12:56<38:52:46,  1.61s/it] 13%|█▎        | 13179/100000 [7:12:57<37:27:18,  1.55s/it]                                                            13%|█▎        | 13179/100000 [7:12:57<37:27:18,  1.55s/it] 13%|█▎        | 13180/100000 [7:12:59<36:14:07,  1.50s/it]                                                            13%|█▎        | 13180/100000 [7:12:59<36:14:07,  1.50s/it] 13%|█▎        | 13181/100000 [7:13:00<35:34:52,  1.48s/it]                                                            13%|█▎        | 13181/100000 [7:13:00<35:34:52,  1.48s/it] 13%|█▎        | 13182/100000 [7:13:01<34:39:38,  1.44s/it]                                                            13%|█▎        | 13182/100000 [7:13:01<34:39:38,  1.44s/it] 13%|█▎        | 13183/100000 [7:13:03<34:13:00,  1.42s/it]                                                            13%|█▎        | 13183/100000 [7:13:03<34:13:00,  1.42s/it] 13%|█▎        | 13184/100000 [7:13:04<33:22:32,  1.38s/it]                                                            13%|█▎        | 13184/100000 [7:13:04<33:22:32,  1.38s/it] 13%|█▎        | 13185/100000 [7:13:05<33:01:36,  1.37s/it]                                                            13%|█▎        | 13185/100000 [7:13:05<33:01:36,  1.37s/it] 13%|█▎        | 13186/100000 [7:13:07<32:38:32,  1.35s/it]                                                            13%|█▎        | 13186/100000 [7:13:07<32:38:32,  1.35s/it] 13%|█▎        | 13187/100000 [7:13:08<32:12:13,  1.34s/it]                                                            13%|█▎        | 13187/100000 [7:13:08<32:12:13,  1.34s/it] 13%|█▎        | 13188/100000 [7:13:09<31:31:54,  1.31s/it]                                                            13%|█▎        | 13188/100000 [7:13:09<31:31:54,  1.31s/it] 13%|█▎        | 13189/100000 [7:13:11<31:06:05,  1.29s/it]                                                            13%|█▎        | 13189/100000 [7:13:11<31:06:05,  1.29s/it] 13%|█▎        | 13190/100000 [7:13:12<30:29:50,  1.26s/it]                                                            13%|█▎        | 13190/100000 [7:13:12<30:29:50,  1.26s/it] 13%|█▎        | 13191/100000 [7:13:13<30:11:35,  1.25s/it]                                                            13%|█▎        | 13191/100000 [7:13:13<30:11:35,  1.25s/it] 13%|█▎        | 13192/100000 [7:13:14<29:31:53,  1.22s/it]                                                            13%|█▎        | 13192/100000 [7:13:14<29:31:53,  1.22s/it] 13%|█▎        | 13193/100000 [7:13:15<29:06:14,  1.21s/it]                                                            13%|█▎        | 13193/100000 [7:13:15<29:06:14,  1.21s/it] 13%|█▎        | 13194/100000 [7:13:16<28:34:53,  1.19s/it]                                                            13%|█▎        | 13194/100000 [7:13:16<28:34:53,  1.19s/it] 13%|█▎        | 13195/100000 [7:13:18<28:15:44,  1.17s/it]                                                            13%|█▎        | 13195/100000 [7:13:18<28:15:44,  1.17s/it] 13%|█▎        | 13196/100000 [7:13:19<27:47:33,  1.15s/it]                                                            13%|█▎        | 13196/100000 [7:13:19<27:47:33,  1.15s/it] 13%|█▎        | 13197/100000 [7:13:20<27:12:54,  1.13s/it]                                                            13%|█▎        | 13197/100000 [7:13:20<27:12:54,  1.13s/it] 13%|█▎        | 13198/100000 [7:13:21<27:06:26,  1.12s/it]                                                            13%|█▎        | 13198/100000 [7:13:21<27:06:26,  1.12s/it] 13%|█▎        | 13199/100000 [7:13:22<26:26:13,  1.10s/it]                                                            13%|█▎        | 13199/100000 [7:13:22<26:26:13,  1.10s/it] 13%|█▎        | 13200/100000 [7:13:23<26:03:23,  1.08s/it]                                                            13%|█▎        | 13200/100000 [7:13:23<26:03:23,  1.08s/it] 13%|█▎        | 13201/100000 [7:13:24<25:42:28,  1.07s/it]                                                            13%|█▎        | 13201/100000 [7:13:24<25:42:28,  1.07s/it] 13%|█▎        | 13202/100000 [7:13:25<25:17:27,  1.05s/it]                                                            13%|█▎        | 13202/100000 [7:13:25<25:17:27,  1.05s/it] 13%|█▎        | 13203/100000 [7:13:26<24:59:43,  1.04s/it]                                                            13%|█▎        | 13203/100000 [7:13:26<24:59:43,  1.04s/it] 13%|█▎        | 13204/100000 [7:13:27<24:21:31,  1.01s/it]                                                            13%|█▎        | 13204/100000 [7:13:27<24:21:31,  1.01s/it] 13%|█▎        | 13205/100000 [7:13:28<23:51:45,  1.01it/s]                                                            13%|█▎        | 13205/100000 [7:13:28<23:51:45,  1.01it/s] 13%|█▎        | 13206/100000 [7:13:29<23:34:03,  1.02it/s]                                                            13%|█▎        | 13206/100000 [7:13:29<23:34:03,  1.02it/s] 13%|█▎        | 13207/100000 [7:13:30<22:49:17,  1.06it/s]                                                            13%|█▎        | 13207/100000 [7:13:30<22:49:17,  1.06it/s] 13%|█▎        | 13208/100000 [7:13:31<22:26:16,  1.07it/s]                                                            13%|█▎        | 13208/100000 [7:13:31<22:26:16,  1.07it/s] 13%|█▎        | 13209/100000 [7:13:40<84:20:40,  3.50s/it]                                                            13%|█▎        | 13209/100000 [7:13:40<84:20:40,  3.50s/it] 13%|█▎        | 13210/100000 [7:13:46<101:21:29,  4.20s/it]                                                             13%|█▎        | 13210/100000 [7:13:46<101:21:29,  4.20s/it] 13%|█▎        | 13211/100000 [7:13:51<104:40:05,  4.34s/it]                                                             13%|█▎        | 13211/100000 [7:13:51<104:40:05,  4.34s/it] 13%|█▎        | 13212/100000 [7:13:55<102:24:19,  4.25s/it]                                                             13%|█▎        | 13212/100000 [7:13:55<102:24:19,  4.25s/it] 13%|█▎        | 13213/100000 [7:13:58<98:08:48,  4.07s/it]                                                             13%|█▎        | 13213/100000 [7:13:58<98:08:48,  4.07s/it] 13%|█▎        | 13214/100000 [7:14:02<93:18:20,  3.87s/it]                                                            13%|█▎        | 13214/100000 [7:14:02<93:18:20,  3.87s/it] 13%|█▎        | 13215/100000 [7:14:05<87:29:06,  3.63s/it]                                                            13%|█▎        | 13215/100000 [7:14:05<87:29:06,  3.63s/it] 13%|█▎        | 13216/100000 [7:14:07<80:54:38,  3.36s/it]                                                            13%|█▎        | 13216/100000 [7:14:07<80:54:38,  3.36s/it] 13%|█▎        | 13217/100000 [7:14:10<75:56:19,  3.15s/it]                                                            13%|█▎        | 13217/100000 [7:14:10<75:56:19,  3.15s/it] 13%|█▎        | 13218/100000 [7:14:13<70:43:57,  2.93s/it]                                                            13%|█▎        | 13218/100000 [7:14:13<70:43:57,  2.93s/it] 13%|█▎        | 13219/100000 [7:14:15<65:20:29,  2.71s/it]                                                            13%|█▎        | 13219/100000 [7:14:15<65:20:29,  2.71s/it] 13%|█▎        | 13220/100000 [7:14:17<60:29:18,  2.51s/it]                                                            13%|█▎        | 13220/100000 [7:14:17<60:29:18,  2.51s/it] 13%|█▎        | 13221/100000 [7:14:19<56:22:18,  2.34s/it]                                                            13%|█▎        | 13221/100000 [7:14:19<56:22:18,  2.34s/it] 13%|█▎        | 13222/100000 [7:14:21<53:03:48,  2.20s/it]                                                            13%|█▎        | 13222/100000 [7:14:21<53:03:48,  2.20s/it] 13%|█▎        | 13223/100000 [7:14:22<49:53:25,  2.07s/it]                                                            13%|█▎        | 13223/100000 [7:14:22<49:53:25,  2.07s/it] 13%|█▎        | 13224/100000 [7:14:24<47:23:08,  1.97s/it]                                                            13%|█▎        | 13224/100000 [7:14:24<47:23:08,  1.97s/it] 13%|█▎        | 13225/100000 [7:14:26<44:45:06,  1.86s/it]                                                            13%|█▎        | 13225/100000 [7:14:26<44:45:06,  1.86s/it] 13%|█▎        | 13226/100000 [7:14:27<42:57:22,  1.78s/it]                                                            13%|█▎        | 13226/100000 [7:14:27<42:57:22,  1.78s/it] 13%|█▎        | 13227/100000 [7:14:29<41:25:25,  1.72s/it]                                                            13%|█▎        | 13227/100000 [7:14:29<41:25:25,  1.72s/it] 13%|█▎        | 13228/100000 [7:14:30<39:54:16,  1.66s/it]                                                            13%|█▎        | 13228/100000 [7:14:30<39:54:16,  1.66s/it] 13%|█▎        | 13229/100000 [7:14:32<38:29:29,  1.60s/it]                                                            13%|█▎        | 13229/100000 [7:14:32<38:29:29,  1.60s/it] 13%|█▎        | 13230/100000 [7:14:33<37:19:05,  1.55s/it]                                                            13%|█▎        | 13230/100000 [7:14:33<37:19:05,  1.55s/it] 13%|█▎        | 13231/100000 [7:14:35<36:23:01,  1.51s/it]                                                            13%|█▎        | 13231/100000 [7:14:35<36:23:01,  1.51s/it] 13%|█▎        | 13232/100000 [7:14:36<35:18:20,  1.46s/it]                                                            13%|█▎        | 13232/100000 [7:14:36<35:18:20,  1.46s/it] 13%|█▎        | 13233/100000 [7:14:37<34:41:10,  1.44s/it]                                                            13%|█▎        | 13233/100000 [7:14:37<34:41:10,  1.44s/it] 13%|█▎        | 13234/100000 [7:14:39<34:05:07,  1.41s/it]                                                            13%|█▎        | 13234/100000 [7:14:39<34:05:07,  1.41s/it] 13%|█▎        | 13235/100000 [7:14:40<33:33:27,  1.39s/it]                                                            13%|█▎        | 13235/100000 [7:14:40<33:33:27,  1.39s/it] 13%|█▎        | 13236/100000 [7:14:41<32:43:04,  1.36s/it]                                                            13%|█▎        | 13236/100000 [7:14:41<32:43:04,  1.36s/it] 13%|█▎        | 13237/100000 [7:14:43<32:16:34,  1.34s/it]                                                            13%|█▎        | 13237/100000 [7:14:43<32:16:34,  1.34s/it] 13%|█▎        | 13238/100000 [7:14:44<31:51:48,  1.32s/it]                                                            13%|█▎        | 13238/100000 [7:14:44<31:51:48,  1.32s/it] 13%|█▎        | 13239/100000 [7:14:45<31:25:07,  1.30s/it]                                                            13%|█▎        | 13239/100000 [7:14:45<31:25:07,  1.30s/it] 13%|█▎        | 13240/100000 [7:14:46<30:45:44,  1.28s/it]                                                            13%|█▎        | 13240/100000 [7:14:46<30:45:44,  1.28s/it] 13%|█▎        | 13241/100000 [7:14:48<30:28:13,  1.26s/it]                                                            13%|█▎        | 13241/100000 [7:14:48<30:28:13,  1.26s/it] 13%|█▎        | 13242/100000 [7:14:49<30:09:20,  1.25s/it]                                                            13%|█▎        | 13242/100000 [7:14:49<30:09:20,  1.25s/it] 13%|█▎        | 13243/100000 [7:14:50<29:23:46,  1.22s/it]                                                           {'loss': 0.0442, 'grad_norm': 0.3986312448978424, 'learning_rate': 2.8946e-05, 'epoch': 24.29}
+{'loss': 0.0656, 'grad_norm': 0.5497700572013855, 'learning_rate': 2.894566666666667e-05, 'epoch': 24.29}
+{'loss': 0.058, 'grad_norm': 0.41510388255119324, 'learning_rate': 2.8945333333333332e-05, 'epoch': 24.29}
+{'loss': 0.031, 'grad_norm': 0.28671392798423767, 'learning_rate': 2.8945e-05, 'epoch': 24.3}
+{'loss': 0.0557, 'grad_norm': 0.8106816411018372, 'learning_rate': 2.8944666666666667e-05, 'epoch': 24.3}
+{'loss': 0.021, 'grad_norm': 0.26283910870552063, 'learning_rate': 2.8944333333333333e-05, 'epoch': 24.3}
+{'loss': 0.0208, 'grad_norm': 0.3150317370891571, 'learning_rate': 2.8944e-05, 'epoch': 24.3}
+{'loss': 0.0123, 'grad_norm': 0.448843389749527, 'learning_rate': 2.894366666666667e-05, 'epoch': 24.3}
+{'loss': 0.0088, 'grad_norm': 0.19662699103355408, 'learning_rate': 2.894333333333333e-05, 'epoch': 24.3}
+{'loss': 0.0099, 'grad_norm': 0.2782691717147827, 'learning_rate': 2.8943e-05, 'epoch': 24.31}
+{'loss': 0.0048, 'grad_norm': 0.12477515637874603, 'learning_rate': 2.894266666666667e-05, 'epoch': 24.31}
+{'loss': 0.009, 'grad_norm': 0.44106438755989075, 'learning_rate': 2.8942333333333332e-05, 'epoch': 24.31}
+{'loss': 0.0067, 'grad_norm': 0.15457753837108612, 'learning_rate': 2.8942000000000002e-05, 'epoch': 24.31}
+{'loss': 0.0059, 'grad_norm': 0.14934605360031128, 'learning_rate': 2.8941666666666668e-05, 'epoch': 24.31}
+{'loss': 0.0039, 'grad_norm': 0.15137791633605957, 'learning_rate': 2.8941333333333334e-05, 'epoch': 24.32}
+{'loss': 0.0085, 'grad_norm': 0.21593965590000153, 'learning_rate': 2.8941e-05, 'epoch': 24.32}
+{'loss': 0.0063, 'grad_norm': 0.2960059344768524, 'learning_rate': 2.894066666666667e-05, 'epoch': 24.32}
+{'loss': 0.0022, 'grad_norm': 0.13511642813682556, 'learning_rate': 2.894033333333333e-05, 'epoch': 24.32}
+{'loss': 0.0063, 'grad_norm': 0.22784291207790375, 'learning_rate': 2.894e-05, 'epoch': 24.32}
+{'loss': 0.004, 'grad_norm': 0.11898264288902283, 'learning_rate': 2.893966666666667e-05, 'epoch': 24.33}
+{'loss': 0.0049, 'grad_norm': 0.23218907415866852, 'learning_rate': 2.8939333333333333e-05, 'epoch': 24.33}
+{'loss': 0.0036, 'grad_norm': 0.2760145664215088, 'learning_rate': 2.8939000000000002e-05, 'epoch': 24.33}
+{'loss': 0.0041, 'grad_norm': 0.22240634262561798, 'learning_rate': 2.8938666666666668e-05, 'epoch': 24.33}
+{'loss': 0.0048, 'grad_norm': 0.18136060237884521, 'learning_rate': 2.8938333333333334e-05, 'epoch': 24.33}
+{'loss': 0.0049, 'grad_norm': 0.31389379501342773, 'learning_rate': 2.8938e-05, 'epoch': 24.33}
+{'loss': 0.0063, 'grad_norm': 0.2006513774394989, 'learning_rate': 2.893766666666667e-05, 'epoch': 24.34}
+{'loss': 0.0057, 'grad_norm': 0.3250141143798828, 'learning_rate': 2.8937333333333335e-05, 'epoch': 24.34}
+{'loss': 0.0055, 'grad_norm': 0.1399124562740326, 'learning_rate': 2.8937e-05, 'epoch': 24.34}
+{'loss': 0.008, 'grad_norm': 0.36624839901924133, 'learning_rate': 2.893666666666667e-05, 'epoch': 24.34}
+{'loss': 0.0142, 'grad_norm': 0.2624996304512024, 'learning_rate': 2.8936333333333333e-05, 'epoch': 24.34}
+{'loss': 0.0033, 'grad_norm': 0.16521060466766357, 'learning_rate': 2.8936000000000002e-05, 'epoch': 24.35}
+{'loss': 0.0018, 'grad_norm': 0.1808953732252121, 'learning_rate': 2.8935666666666665e-05, 'epoch': 24.35}
+{'loss': 0.0082, 'grad_norm': 0.2830214500427246, 'learning_rate': 2.8935333333333334e-05, 'epoch': 24.35}
+{'loss': 0.0118, 'grad_norm': 0.8021502494812012, 'learning_rate': 2.8935e-05, 'epoch': 24.35}
+{'loss': 0.0078, 'grad_norm': 0.28621774911880493, 'learning_rate': 2.8934666666666666e-05, 'epoch': 24.35}
+{'loss': 0.005, 'grad_norm': 0.5483892560005188, 'learning_rate': 2.8934333333333335e-05, 'epoch': 24.35}
+{'loss': 0.0026, 'grad_norm': 0.11460002511739731, 'learning_rate': 2.8934e-05, 'epoch': 24.36}
+{'loss': 0.0056, 'grad_norm': 0.22816605865955353, 'learning_rate': 2.8933666666666667e-05, 'epoch': 24.36}
+{'loss': 0.0011, 'grad_norm': 0.06393951922655106, 'learning_rate': 2.8933333333333333e-05, 'epoch': 24.36}
+{'loss': 0.0034, 'grad_norm': 0.26738423109054565, 'learning_rate': 2.8933000000000002e-05, 'epoch': 24.36}
+{'loss': 0.0043, 'grad_norm': 0.4886252284049988, 'learning_rate': 2.8932666666666665e-05, 'epoch': 24.36}
+{'loss': 0.0057, 'grad_norm': 0.3189277648925781, 'learning_rate': 2.8932333333333334e-05, 'epoch': 24.37}
+{'loss': 0.004, 'grad_norm': 0.1422029286623001, 'learning_rate': 2.8932e-05, 'epoch': 24.37}
+{'loss': 0.001, 'grad_norm': 0.07584530115127563, 'learning_rate': 2.8931666666666666e-05, 'epoch': 24.37}
+{'loss': 0.1437, 'grad_norm': 0.9531792998313904, 'learning_rate': 2.8931333333333335e-05, 'epoch': 24.37}
+{'loss': 0.124, 'grad_norm': 0.6607851982116699, 'learning_rate': 2.8931e-05, 'epoch': 24.37}
+{'loss': 0.0584, 'grad_norm': 0.43645626306533813, 'learning_rate': 2.8930666666666667e-05, 'epoch': 24.37}
+{'loss': 0.1331, 'grad_norm': 0.7066429853439331, 'learning_rate': 2.8930333333333333e-05, 'epoch': 24.38}
+{'loss': 0.0721, 'grad_norm': 0.6537086963653564, 'learning_rate': 2.8930000000000003e-05, 'epoch': 24.38}
+{'loss': 0.0539, 'grad_norm': 0.481343150138855, 'learning_rate': 2.8929666666666665e-05, 'epoch': 24.38}
+{'loss': 0.0644, 'grad_norm': 1.752601146697998, 'learning_rate': 2.8929333333333334e-05, 'epoch': 24.38}
+{'loss': 0.0564, 'grad_norm': 0.49992284178733826, 'learning_rate': 2.8929000000000004e-05, 'epoch': 24.38}
+{'loss': 0.0531, 'grad_norm': 0.4543759822845459, 'learning_rate': 2.8928666666666666e-05, 'epoch': 24.39}
+{'loss': 0.0298, 'grad_norm': 0.4484714865684509, 'learning_rate': 2.8928333333333336e-05, 'epoch': 24.39}
+{'loss': 0.044, 'grad_norm': 0.5918431878089905, 'learning_rate': 2.8928e-05, 'epoch': 24.39}
+{'loss': 0.0324, 'grad_norm': 0.29719340801239014, 'learning_rate': 2.8927666666666667e-05, 'epoch': 24.39}
+{'loss': 0.0549, 'grad_norm': 0.20278289914131165, 'learning_rate': 2.8927333333333333e-05, 'epoch': 24.39}
+{'loss': 0.0388, 'grad_norm': 0.2530817985534668, 'learning_rate': 2.8927000000000003e-05, 'epoch': 24.4}
+{'loss': 0.0477, 'grad_norm': 0.5364762544631958, 'learning_rate': 2.8926666666666665e-05, 'epoch': 24.4}
+{'loss': 0.0251, 'grad_norm': 0.7806441187858582, 'learning_rate': 2.8926333333333335e-05, 'epoch': 24.4}
+{'loss': 0.0114, 'grad_norm': 0.29668524861335754, 'learning_rate': 2.8926e-05, 'epoch': 24.4}
+{'loss': 0.0141, 'grad_norm': 0.282160222530365, 'learning_rate': 2.8925666666666666e-05, 'epoch': 24.4}
+{'loss': 0.0102, 'grad_norm': 0.24868442118167877, 'learning_rate': 2.8925333333333336e-05, 'epoch': 24.4}
+{'loss': 0.0074, 'grad_norm': 0.30800092220306396, 'learning_rate': 2.8925e-05, 'epoch': 24.41}
+{'loss': 0.021, 'grad_norm': 0.23089873790740967, 'learning_rate': 2.8924666666666668e-05, 'epoch': 24.41}
+{'loss': 0.0067, 'grad_norm': 0.33230042457580566, 'learning_rate': 2.8924333333333334e-05, 'epoch': 24.41}
+{'loss': 0.0063, 'grad_norm': 0.40151605010032654, 'learning_rate': 2.8924e-05, 'epoch': 24.41}
+{'loss': 0.0052, 'grad_norm': 0.29878801107406616, 'learning_rate': 2.8923666666666665e-05, 'epoch': 24.41}
+{'loss': 0.0035, 'grad_norm': 0.1386539191007614, 'learning_rate': 2.8923333333333335e-05, 'epoch': 24.42}
+{'loss': 0.0081, 'grad_norm': 0.20161989331245422, 'learning_rate': 2.8923e-05, 'epoch': 24.42}
+{'loss': 0.0042, 'grad_norm': 0.23625294864177704, 'learning_rate': 2.8922666666666667e-05, 'epoch': 24.42}
+{'loss': 0.0075, 'grad_norm': 0.45596843957901, 'learning_rate': 2.8922333333333336e-05, 'epoch': 24.42}
+{'loss': 0.0054, 'grad_norm': 0.2962850034236908, 'learning_rate': 2.8922e-05, 'epoch': 24.42}
+{'loss': 0.0161, 'grad_norm': 0.7074769139289856, 'learning_rate': 2.8921666666666668e-05, 'epoch': 24.42}
+{'loss': 0.0047, 'grad_norm': 0.22207657992839813, 'learning_rate': 2.8921333333333334e-05, 'epoch': 24.43}
+{'loss': 0.0067, 'grad_norm': 0.26032233238220215, 'learning_rate': 2.8921e-05, 'epoch': 24.43}
+{'loss': 0.005, 'grad_norm': 0.15774919092655182, 'learning_rate': 2.892066666666667e-05, 'epoch': 24.43}
+{'loss': 0.0039, 'grad_norm': 0.20989170670509338, 'learning_rate': 2.8920333333333335e-05, 'epoch': 24.43}
+ 13%|█▎        | 13243/100000 [7:14:50<29:23:46,  1.22s/it] 13%|█▎        | 13244/100000 [7:14:51<28:58:03,  1.20s/it]                                                            13%|█▎        | 13244/100000 [7:14:51<28:58:03,  1.20s/it] 13%|█▎        | 13245/100000 [7:14:52<28:27:44,  1.18s/it]                                                            13%|█▎        | 13245/100000 [7:14:52<28:27:44,  1.18s/it] 13%|█▎        | 13246/100000 [7:14:53<27:59:48,  1.16s/it]                                                            13%|█▎        | 13246/100000 [7:14:53<27:59:48,  1.16s/it] 13%|█▎        | 13247/100000 [7:14:55<27:37:34,  1.15s/it]                                                            13%|█▎        | 13247/100000 [7:14:55<27:37:34,  1.15s/it] 13%|█▎        | 13248/100000 [7:14:56<27:06:31,  1.12s/it]                                                            13%|█▎        | 13248/100000 [7:14:56<27:06:31,  1.12s/it] 13%|█▎        | 13249/100000 [7:14:57<26:33:55,  1.10s/it]                                                            13%|█▎        | 13249/100000 [7:14:57<26:33:55,  1.10s/it] 13%|█▎        | 13250/100000 [7:14:58<26:12:16,  1.09s/it]                                                            13%|█▎        | 13250/100000 [7:14:58<26:12:16,  1.09s/it] 13%|█▎        | 13251/100000 [7:14:59<25:54:21,  1.08s/it]                                                            13%|█▎        | 13251/100000 [7:14:59<25:54:21,  1.08s/it] 13%|█▎        | 13252/100000 [7:15:00<25:32:47,  1.06s/it]                                                            13%|█▎        | 13252/100000 [7:15:00<25:32:47,  1.06s/it] 13%|█▎        | 13253/100000 [7:15:01<25:20:34,  1.05s/it]                                                            13%|█▎        | 13253/100000 [7:15:01<25:20:34,  1.05s/it] 13%|█▎        | 13254/100000 [7:15:02<24:58:08,  1.04s/it]                                                            13%|█▎        | 13254/100000 [7:15:02<24:58:08,  1.04s/it] 13%|█▎        | 13255/100000 [7:15:03<24:36:20,  1.02s/it]                                                            13%|█▎        | 13255/100000 [7:15:03<24:36:20,  1.02s/it] 13%|█▎        | 13256/100000 [7:15:04<24:14:21,  1.01s/it]                                                            13%|█▎        | 13256/100000 [7:15:04<24:14:21,  1.01s/it] 13%|█▎        | 13257/100000 [7:15:05<23:52:31,  1.01it/s]                                                            13%|█▎        | 13257/100000 [7:15:05<23:52:31,  1.01it/s] 13%|█▎        | 13258/100000 [7:15:06<23:16:05,  1.04it/s]                                                            13%|█▎        | 13258/100000 [7:15:06<23:16:05,  1.04it/s] 13%|█▎        | 13259/100000 [7:15:17<99:56:42,  4.15s/it]                                                            13%|█▎        | 13259/100000 [7:15:17<99:56:42,  4.15s/it] 13%|█▎        | 13260/100000 [7:15:23<111:49:52,  4.64s/it]                                                             13%|█▎        | 13260/100000 [7:15:23<111:49:52,  4.64s/it] 13%|█▎        | 13261/100000 [7:15:27<109:44:15,  4.55s/it]                                                             13%|█▎        | 13261/100000 [7:15:27<109:44:15,  4.55s/it] 13%|█▎        | 13262/100000 [7:15:31<105:41:11,  4.39s/it]                                                             13%|█▎        | 13262/100000 [7:15:31<105:41:11,  4.39s/it] 13%|█▎        | 13263/100000 [7:15:35<98:32:00,  4.09s/it]                                                             13%|█▎        | 13263/100000 [7:15:35<98:32:00,  4.09s/it] 13%|█▎        | 13264/100000 [7:15:38<92:25:34,  3.84s/it]                                                            13%|█▎        | 13264/100000 [7:15:38<92:25:34,  3.84s/it] 13%|█▎        | 13265/100000 [7:15:41<86:39:06,  3.60s/it]                                                            13%|█▎        | 13265/100000 [7:15:41<86:39:06,  3.60s/it] 13%|█▎        | 13266/100000 [7:15:44<80:12:32,  3.33s/it]                                                            13%|█▎        | 13266/100000 [7:15:44<80:12:32,  3.33s/it] 13%|█▎        | 13267/100000 [7:15:46<74:07:23,  3.08s/it]                                                            13%|█▎        | 13267/100000 [7:15:46<74:07:23,  3.08s/it] 13%|█▎        | 13268/100000 [7:15:49<68:28:54,  2.84s/it]                                                            13%|█▎        | 13268/100000 [7:15:49<68:28:54,  2.84s/it] 13%|█▎        | 13269/100000 [7:15:51<63:30:34,  2.64s/it]                                                            13%|█▎        | 13269/100000 [7:15:51<63:30:34,  2.64s/it] 13%|█▎        | 13270/100000 [7:15:53<59:08:28,  2.45s/it]                                                            13%|█▎        | 13270/100000 [7:15:53<59:08:28,  2.45s/it] 13%|█▎        | 13271/100000 [7:15:55<55:11:47,  2.29s/it]                                                            13%|█▎        | 13271/100000 [7:15:55<55:11:47,  2.29s/it] 13%|█▎        | 13272/100000 [7:15:56<51:49:48,  2.15s/it]                                                            13%|█▎        | 13272/100000 [7:15:56<51:49:48,  2.15s/it] 13%|█▎        | 13273/100000 [7:15:58<48:48:22,  2.03s/it]                                                            13%|█▎        | 13273/100000 [7:15:58<48:48:22,  2.03s/it] 13%|█▎        | 13274/100000 [7:16:00<45:44:51,  1.90s/it]                                                            13%|█▎        | 13274/100000 [7:16:00<45:44:51,  1.90s/it] 13%|█▎        | 13275/100000 [7:16:01<43:49:19,  1.82s/it]                                                            13%|█▎        | 13275/100000 [7:16:01<43:49:19,  1.82s/it] 13%|█▎        | 13276/100000 [7:16:03<42:05:04,  1.75s/it]                                                            13%|█▎        | 13276/100000 [7:16:03<42:05:04,  1.75s/it] 13%|█▎        | 13277/100000 [7:16:05<40:32:24,  1.68s/it]                                                            13%|█▎        | 13277/100000 [7:16:05<40:32:24,  1.68s/it] 13%|█▎        | 13278/100000 [7:16:06<39:03:44,  1.62s/it]                                                            13%|█▎        | 13278/100000 [7:16:06<39:03:44,  1.62s/it] 13%|█▎        | 13279/100000 [7:16:07<37:31:57,  1.56s/it]                                                            13%|█▎        | 13279/100000 [7:16:07<37:31:57,  1.56s/it] 13%|█▎        | 13280/100000 [7:16:09<36:34:45,  1.52s/it]                                                            13%|█▎        | 13280/100000 [7:16:09<36:34:45,  1.52s/it] 13%|█▎        | 13281/100000 [7:16:10<35:41:45,  1.48s/it]                                                            13%|█▎        | 13281/100000 [7:16:10<35:41:45,  1.48s/it] 13%|█▎        | 13282/100000 [7:16:12<34:55:24,  1.45s/it]                                                            13%|█▎        | 13282/100000 [7:16:12<34:55:24,  1.45s/it] 13%|█▎        | 13283/100000 [7:16:13<34:16:27,  1.42s/it]                                                            13%|█▎        | 13283/100000 [7:16:13<34:16:27,  1.42s/it] 13%|█▎        | 13284/100000 [7:16:14<33:40:40,  1.40s/it]                                                            13%|█▎        | 13284/100000 [7:16:14<33:40:40,  1.40s/it] 13%|█▎        | 13285/100000 [7:16:16<32:52:41,  1.36s/it]                                                            13%|█▎        | 13285/100000 [7:16:16<32:52:41,  1.36s/it] 13%|█▎        | 13286/100000 [7:16:17<32:19:34,  1.34s/it]                                                            13%|█▎        | 13286/100000 [7:16:17<32:19:34,  1.34s/it] 13%|█▎        | 13287/100000 [7:16:18<31:37:28,  1.31s/it]                                                            13%|█▎        | 13287/100000 [7:16:18<31:37:28,  1.31s/it] 13%|█▎        | 13288/100000 [7:16:19<31:08:40,  1.29s/it]                                                            13%|█▎        | 13288/100000 [7:16:19<31:08:40,  1.29s/it] 13%|█▎        | 13289/100000 [7:16:21<30:42:21,  1.27s/it]                                                            13%|█▎        | 13289/100000 [7:16:21<30:42:21,  1.27s/it] 13%|█▎        | 13290/100000 [7:16:22<30:22:54,  1.26s/it]                                                            13%|█▎        | 13290/100000 [7:16:22<30:22:54,  1.26s/it] 13%|█▎        | 13291/100000 [7:16:23<30:02:38,  1.25s/it]                                                            13%|█▎        | 13291/100000 [7:16:23<30:02:38,  1.25s/it] 13%|█▎        | 13292/100000 [7:16:24<29:28:12,  1.22s/it]                                                            13%|█▎        | 13292/100000 [7:16:24<29:28:12,  1.22s/it] 13%|█▎        | 13293/100000 [7:16:25<29:02:30,  1.21s/it]                                                            13%|█▎        | 13293/100000 [7:16:25<29:02:30,  1.21s/it] 13%|█▎        | 13294/100000 [7:16:27<28:37:06,  1.19s/it]                                                            13%|█▎        | 13294/100000 [7:16:27<28:37:06,  1.19s/it] 13%|█▎        | 13295/100000 [7:16:28<28:09:00,  1.17s/it]                                                            13%|█▎        | 13295/100000 [7:16:28<28:09:00,  1.17s/it] 13%|█▎        | 13296/100000 [7:16:29<27:50:49,  1.16s/it]                                                            13%|█▎        | 13296/100000 [7:16:29<27:50:49,  1.16s/it] 13%|█▎        | 13297/100000 [7:16:30<27:15:01,  1.13s/it]                                                            13%|█▎        | 13297/100000 [7:16:30<27:15:01,  1.13s/it] 13%|█▎        | 13298/100000 [7:16:31<26:44:41,  1.11s/it]                                                            13%|█▎        | 13298/100000 [7:16:31<26:44:41,  1.11s/it] 13%|█▎        | 13299/100000 [7:16:32<26:31:27,  1.10s/it]                                                            13%|█▎        | 13299/100000 [7:16:32<26:31:27,  1.10s/it] 13%|█▎        | 13300/100000 [7:16:33<26:01:22,  1.08s/it]                                                            13%|█▎        | 13300/100000 [7:16:33<26:01:22,  1.08s/it] 13%|█▎        | 13301/100000 [7:16:34<25:29:53,  1.06s/it]                                                            13%|█▎        | 13301/100000 [7:16:34<25:29:53,  1.06s/it] 13%|█▎        | 13302/100000 [7:16:35<25:08:52,  1.04s/it]                                                            13%|█▎        | 13302/100000 [7:16:35<25:08:52,  1.04s/it] 13%|█▎        | 13303/100000 [7:16:36<25:01:55,  1.04s/it]                                                            13%|█▎        | 13303/100000 [7:16:36<25:01:55,  1.04s/it] 13%|█▎        | 13304/100000 [7:16:37<24:41:18,  1.03s/it]                                                            13%|█▎        | 13304/100000 [7:16:37<24:41:18,  1.03s/it] 13%|█▎        | 13305/100000 [7:16:38<24:23:32,  1.01s/it]                                                            13%|█▎        | 13305/100000 [7:16:38<24:23:32,  1.01s/it] 13%|█▎        | 13306/100000 [7:16:39<23:53:21,  1.01it/s]                                                            13%|█▎        | 13306/100000 [7:16:39<23:53:21,  1.01it/s] 13%|█▎        | 13307/100000 [7:16:40<23:06:25,  1.04it/s]                                                            13%|█▎        | 13307/100000 [7:16:40<23:06:25,  1.04it/s] 13%|█▎        | 13308/100000 [7:16:41<22:13:07,  1.08it/s]                                                            13%|█▎        | 13308/100000 [7:16:41<22:13:07,  1.08it/s] 13%|█▎        | 13309/100000 [7:16:53<103:19:09,  4.29s/it]                                                             13%|█▎        | 13309/100000 [7:16:53<103:19:09,  4.29s/it] 13%|█▎        | 13310/100000 [7:16:59<115:14:31,  4.79s/it]                                                             13%|█▎        | 13310/100000 [7:16:59<115:14:31,  4.79s/it] 13%|█▎        | 13311/100000 [7:17:04<114:36:04,  4.76s/it]                                                             13%|█▎        | 13311/100000 [7:17:04<114:36:04,  4.76s/it] 13%|█▎        | 13312/100000 [7:17:07<108:17:39,  4.50s/it]                                                             13%|█▎        | 13312/100000 [7:17:07<108:17:39,  4.50s/it] 13%|█▎        | 13313/100000 [7:17:11<100:50:23,  4.19s/it]                                                             13%|█▎        | 13313/100000 [7:17:11<100:50:23,  4.19s/it] 13%|█▎        | 13314/100000 [7:17:14<93:35:05,  3.89s/it]                                                             13%|█▎        | 13314/100000 [7:17:14<93:35:05,  3.89s/it] 13%|█▎        | 13315/100000 [7:17:17<86:35:46,  3.60s/it]                                                            13%|█▎        | 13315/100000 [7:17:17<86:35:46,  3.60s/it] 13%|█▎        | 13316/100000 [7:17:20<79:44:16,  3.31s/it]                                                            13%|█▎        | 13316/100000 [7:17:20<79:44:16,  3.31s/it] 13%|█▎        | 13317/100000 [7:17:22<73:24:52,  3.05s/it]                                                            13%|█▎        | 13317/100000 [7:17:22<73:24:52,  3.05s/it] 13%|█▎        | 13318/100000 [7:17:24<67:48:57,  2.82s/it]                                                            13%|█▎        | 13318/100000 [7:17:24<67:48:57,  2.82s/it] 13%|█▎        | 13319/100000 [7:17:26<62:12:51,  2.58s/it]                                                            13%|█▎        | 13319/100000 [7:17:26<62:12:51,  2.58s/it] 13%|█▎        | 13320/100000 [7:17:28<57:54:17,  2.40s/it]                                                            13%|█▎        | 13320/100000 [7:17:28<57:54:17,  2.40s/it] 13%|█▎        | 13321/100000 [7:17:30<54:20:15,  2.26s/it]                                                           {'loss': 0.0044, 'grad_norm': 0.25299087166786194, 'learning_rate': 2.892e-05, 'epoch': 24.43}
+{'loss': 0.0128, 'grad_norm': 0.31932535767555237, 'learning_rate': 2.8919666666666667e-05, 'epoch': 24.44}
+{'loss': 0.0029, 'grad_norm': 0.14626465737819672, 'learning_rate': 2.8919333333333336e-05, 'epoch': 24.44}
+{'loss': 0.0026, 'grad_norm': 0.2414906620979309, 'learning_rate': 2.8919e-05, 'epoch': 24.44}
+{'loss': 0.0074, 'grad_norm': 0.20157982409000397, 'learning_rate': 2.8918666666666668e-05, 'epoch': 24.44}
+{'loss': 0.0018, 'grad_norm': 0.14444953203201294, 'learning_rate': 2.8918333333333334e-05, 'epoch': 24.44}
+{'loss': 0.0115, 'grad_norm': 0.26020002365112305, 'learning_rate': 2.8918e-05, 'epoch': 24.45}
+{'loss': 0.0071, 'grad_norm': 0.18706028163433075, 'learning_rate': 2.891766666666667e-05, 'epoch': 24.45}
+{'loss': 0.0053, 'grad_norm': 0.7018864154815674, 'learning_rate': 2.8917333333333335e-05, 'epoch': 24.45}
+{'loss': 0.007, 'grad_norm': 0.20267437398433685, 'learning_rate': 2.8917e-05, 'epoch': 24.45}
+{'loss': 0.0072, 'grad_norm': 0.22838689386844635, 'learning_rate': 2.8916666666666667e-05, 'epoch': 24.45}
+{'loss': 0.0039, 'grad_norm': 0.30894041061401367, 'learning_rate': 2.8916333333333336e-05, 'epoch': 24.45}
+{'loss': 0.0084, 'grad_norm': 0.33067917823791504, 'learning_rate': 2.8916e-05, 'epoch': 24.46}
+{'loss': 0.003, 'grad_norm': 0.10167045146226883, 'learning_rate': 2.8915666666666668e-05, 'epoch': 24.46}
+{'loss': 0.014, 'grad_norm': 0.37686604261398315, 'learning_rate': 2.8915333333333334e-05, 'epoch': 24.46}
+{'loss': 0.0052, 'grad_norm': 0.5401965379714966, 'learning_rate': 2.8915e-05, 'epoch': 24.46}
+{'loss': 0.1161, 'grad_norm': 0.7932718992233276, 'learning_rate': 2.891466666666667e-05, 'epoch': 24.46}
+{'loss': 0.1108, 'grad_norm': 0.6346531510353088, 'learning_rate': 2.8914333333333332e-05, 'epoch': 24.47}
+{'loss': 0.1033, 'grad_norm': 0.6250077486038208, 'learning_rate': 2.8914e-05, 'epoch': 24.47}
+{'loss': 0.0862, 'grad_norm': 0.5043835639953613, 'learning_rate': 2.8913666666666667e-05, 'epoch': 24.47}
+{'loss': 0.0542, 'grad_norm': 0.3136883080005646, 'learning_rate': 2.8913333333333333e-05, 'epoch': 24.47}
+{'loss': 0.0719, 'grad_norm': 0.4678816795349121, 'learning_rate': 2.8913e-05, 'epoch': 24.47}
+{'loss': 0.0384, 'grad_norm': 0.30108150839805603, 'learning_rate': 2.891266666666667e-05, 'epoch': 24.47}
+{'loss': 0.042, 'grad_norm': 0.33100152015686035, 'learning_rate': 2.8912333333333334e-05, 'epoch': 24.48}
+{'loss': 0.0338, 'grad_norm': 0.41817301511764526, 'learning_rate': 2.8912e-05, 'epoch': 24.48}
+{'loss': 0.0461, 'grad_norm': 0.5045404434204102, 'learning_rate': 2.891166666666667e-05, 'epoch': 24.48}
+{'loss': 0.0282, 'grad_norm': 0.3951895236968994, 'learning_rate': 2.8911333333333332e-05, 'epoch': 24.48}
+{'loss': 0.0291, 'grad_norm': 0.5995557904243469, 'learning_rate': 2.8911e-05, 'epoch': 24.48}
+{'loss': 0.0178, 'grad_norm': 0.39431875944137573, 'learning_rate': 2.8910666666666667e-05, 'epoch': 24.49}
+{'loss': 0.0146, 'grad_norm': 0.19993415474891663, 'learning_rate': 2.8910333333333333e-05, 'epoch': 24.49}
+{'loss': 0.022, 'grad_norm': 0.49636518955230713, 'learning_rate': 2.891e-05, 'epoch': 24.49}
+{'loss': 0.0063, 'grad_norm': 0.16462446749210358, 'learning_rate': 2.890966666666667e-05, 'epoch': 24.49}
+{'loss': 0.0052, 'grad_norm': 0.2293635904788971, 'learning_rate': 2.8909333333333335e-05, 'epoch': 24.49}
+{'loss': 0.0078, 'grad_norm': 0.2452090084552765, 'learning_rate': 2.8909e-05, 'epoch': 24.49}
+{'loss': 0.0172, 'grad_norm': 0.5290648341178894, 'learning_rate': 2.890866666666667e-05, 'epoch': 24.5}
+{'loss': 0.0126, 'grad_norm': 0.28430402278900146, 'learning_rate': 2.8908333333333332e-05, 'epoch': 24.5}
+{'loss': 0.0115, 'grad_norm': 0.22045278549194336, 'learning_rate': 2.8908000000000002e-05, 'epoch': 24.5}
+{'loss': 0.006, 'grad_norm': 0.28687742352485657, 'learning_rate': 2.8907666666666668e-05, 'epoch': 24.5}
+{'loss': 0.0083, 'grad_norm': 0.2711004316806793, 'learning_rate': 2.8907333333333334e-05, 'epoch': 24.5}
+{'loss': 0.0054, 'grad_norm': 0.1592472940683365, 'learning_rate': 2.8907e-05, 'epoch': 24.51}
+{'loss': 0.0056, 'grad_norm': 0.20724567770957947, 'learning_rate': 2.890666666666667e-05, 'epoch': 24.51}
+{'loss': 0.0047, 'grad_norm': 0.19441282749176025, 'learning_rate': 2.8906333333333335e-05, 'epoch': 24.51}
+{'loss': 0.008, 'grad_norm': 0.2539184093475342, 'learning_rate': 2.8906e-05, 'epoch': 24.51}
+{'loss': 0.0067, 'grad_norm': 0.36838990449905396, 'learning_rate': 2.8905666666666667e-05, 'epoch': 24.51}
+{'loss': 0.0058, 'grad_norm': 0.23784856498241425, 'learning_rate': 2.8905333333333333e-05, 'epoch': 24.52}
+{'loss': 0.0024, 'grad_norm': 0.1111980453133583, 'learning_rate': 2.8905000000000002e-05, 'epoch': 24.52}
+{'loss': 0.0087, 'grad_norm': 0.24265041947364807, 'learning_rate': 2.8904666666666664e-05, 'epoch': 24.52}
+{'loss': 0.0052, 'grad_norm': 0.21897314488887787, 'learning_rate': 2.8904333333333334e-05, 'epoch': 24.52}
+{'loss': 0.0144, 'grad_norm': 0.29665127396583557, 'learning_rate': 2.8904000000000003e-05, 'epoch': 24.52}
+{'loss': 0.008, 'grad_norm': 0.2656313180923462, 'learning_rate': 2.8903666666666666e-05, 'epoch': 24.52}
+{'loss': 0.0042, 'grad_norm': 0.1815796196460724, 'learning_rate': 2.8903333333333335e-05, 'epoch': 24.53}
+{'loss': 0.0061, 'grad_norm': 0.2628864049911499, 'learning_rate': 2.8903e-05, 'epoch': 24.53}
+{'loss': 0.0026, 'grad_norm': 0.09849076718091965, 'learning_rate': 2.8902666666666667e-05, 'epoch': 24.53}
+{'loss': 0.0053, 'grad_norm': 0.25689443945884705, 'learning_rate': 2.8902333333333333e-05, 'epoch': 24.53}
+{'loss': 0.0081, 'grad_norm': 0.28762394189834595, 'learning_rate': 2.8902000000000002e-05, 'epoch': 24.53}
+{'loss': 0.0043, 'grad_norm': 0.14530755579471588, 'learning_rate': 2.8901666666666665e-05, 'epoch': 24.54}
+{'loss': 0.0027, 'grad_norm': 0.10289536416530609, 'learning_rate': 2.8901333333333334e-05, 'epoch': 24.54}
+{'loss': 0.007, 'grad_norm': 0.33966517448425293, 'learning_rate': 2.8901000000000003e-05, 'epoch': 24.54}
+{'loss': 0.0036, 'grad_norm': 0.21148870885372162, 'learning_rate': 2.8900666666666666e-05, 'epoch': 24.54}
+{'loss': 0.0048, 'grad_norm': 0.24400590360164642, 'learning_rate': 2.8900333333333335e-05, 'epoch': 24.54}
+{'loss': 0.0045, 'grad_norm': 0.2181837111711502, 'learning_rate': 2.89e-05, 'epoch': 24.54}
+{'loss': 0.004, 'grad_norm': 0.16021010279655457, 'learning_rate': 2.8899666666666667e-05, 'epoch': 24.55}
+{'loss': 0.0203, 'grad_norm': 0.39383822679519653, 'learning_rate': 2.8899333333333333e-05, 'epoch': 24.55}
+{'loss': 0.0139, 'grad_norm': 0.6963154077529907, 'learning_rate': 2.8899000000000002e-05, 'epoch': 24.55}
+{'loss': 0.0112, 'grad_norm': 0.4663408100605011, 'learning_rate': 2.8898666666666668e-05, 'epoch': 24.55}
+{'loss': 0.0091, 'grad_norm': 0.6084351539611816, 'learning_rate': 2.8898333333333334e-05, 'epoch': 24.55}
+{'loss': 0.0855, 'grad_norm': 0.4496295154094696, 'learning_rate': 2.8898000000000004e-05, 'epoch': 24.56}
+{'loss': 0.0998, 'grad_norm': 0.5155513882637024, 'learning_rate': 2.8897666666666666e-05, 'epoch': 24.56}
+{'loss': 0.1049, 'grad_norm': 0.6382702589035034, 'learning_rate': 2.8897333333333335e-05, 'epoch': 24.56}
+{'loss': 0.0648, 'grad_norm': 0.8368784785270691, 'learning_rate': 2.8897e-05, 'epoch': 24.56}
+{'loss': 0.0595, 'grad_norm': 0.5362563729286194, 'learning_rate': 2.8896666666666667e-05, 'epoch': 24.56}
+{'loss': 0.0354, 'grad_norm': 0.42777219414711, 'learning_rate': 2.8896333333333333e-05, 'epoch': 24.57}
+{'loss': 0.0547, 'grad_norm': 0.5480246543884277, 'learning_rate': 2.8896e-05, 'epoch': 24.57}
+{'loss': 0.0548, 'grad_norm': 0.5275306105613708, 'learning_rate': 2.889566666666667e-05, 'epoch': 24.57}
+{'loss': 0.0294, 'grad_norm': 0.4799412786960602, 'learning_rate': 2.8895333333333334e-05, 'epoch': 24.57}
+{'loss': 0.0237, 'grad_norm': 0.3169337213039398, 'learning_rate': 2.8895e-05, 'epoch': 24.57}
+{'loss': 0.018, 'grad_norm': 0.3254132866859436, 'learning_rate': 2.8894666666666666e-05, 'epoch': 24.57}
+{'loss': 0.0166, 'grad_norm': 0.1958315074443817, 'learning_rate': 2.8894333333333336e-05, 'epoch': 24.58}
+ 13%|█▎        | 13321/100000 [7:17:30<54:20:15,  2.26s/it] 13%|█▎        | 13322/100000 [7:17:32<50:57:42,  2.12s/it]                                                            13%|█▎        | 13322/100000 [7:17:32<50:57:42,  2.12s/it] 13%|█▎        | 13323/100000 [7:17:34<48:10:07,  2.00s/it]                                                            13%|█▎        | 13323/100000 [7:17:34<48:10:07,  2.00s/it] 13%|█▎        | 13324/100000 [7:17:35<45:41:34,  1.90s/it]                                                            13%|█▎        | 13324/100000 [7:17:35<45:41:34,  1.90s/it] 13%|█▎        | 13325/100000 [7:17:37<43:29:16,  1.81s/it]                                                            13%|█▎        | 13325/100000 [7:17:37<43:29:16,  1.81s/it] 13%|█▎        | 13326/100000 [7:17:39<41:35:23,  1.73s/it]                                                            13%|█▎        | 13326/100000 [7:17:39<41:35:23,  1.73s/it] 13%|█▎        | 13327/100000 [7:17:40<40:10:02,  1.67s/it]                                                            13%|█▎        | 13327/100000 [7:17:40<40:10:02,  1.67s/it] 13%|█▎        | 13328/100000 [7:17:42<38:48:48,  1.61s/it]                                                            13%|█▎        | 13328/100000 [7:17:42<38:48:48,  1.61s/it] 13%|█▎        | 13329/100000 [7:17:43<37:18:06,  1.55s/it]                                                            13%|█▎        | 13329/100000 [7:17:43<37:18:06,  1.55s/it] 13%|█▎        | 13330/100000 [7:17:44<36:29:02,  1.52s/it]                                                            13%|█▎        | 13330/100000 [7:17:44<36:29:02,  1.52s/it] 13%|█▎        | 13331/100000 [7:17:46<35:39:33,  1.48s/it]                                                            13%|█▎        | 13331/100000 [7:17:46<35:39:33,  1.48s/it] 13%|█▎        | 13332/100000 [7:17:47<34:56:40,  1.45s/it]                                                            13%|█▎        | 13332/100000 [7:17:47<34:56:40,  1.45s/it] 13%|█▎        | 13333/100000 [7:17:49<34:24:46,  1.43s/it]                                                            13%|█▎        | 13333/100000 [7:17:49<34:24:46,  1.43s/it] 13%|█▎        | 13334/100000 [7:17:50<33:28:40,  1.39s/it]                                                            13%|█▎        | 13334/100000 [7:17:50<33:28:40,  1.39s/it] 13%|█▎        | 13335/100000 [7:17:51<32:56:12,  1.37s/it]                                                            13%|█▎        | 13335/100000 [7:17:51<32:56:12,  1.37s/it] 13%|█▎        | 13336/100000 [7:17:53<32:31:39,  1.35s/it]                                                            13%|█▎        | 13336/100000 [7:17:53<32:31:39,  1.35s/it] 13%|█▎        | 13337/100000 [7:17:54<32:10:54,  1.34s/it]                                                            13%|█▎        | 13337/100000 [7:17:54<32:10:54,  1.34s/it] 13%|█▎        | 13338/100000 [7:17:55<31:32:46,  1.31s/it]                                                            13%|█▎        | 13338/100000 [7:17:55<31:32:46,  1.31s/it] 13%|█▎        | 13339/100000 [7:17:56<31:11:34,  1.30s/it]                                                            13%|█▎        | 13339/100000 [7:17:56<31:11:34,  1.30s/it] 13%|█▎        | 13340/100000 [7:17:58<30:47:58,  1.28s/it]                                                            13%|█▎        | 13340/100000 [7:17:58<30:47:58,  1.28s/it] 13%|█▎        | 13341/100000 [7:17:59<30:13:53,  1.26s/it]                                                            13%|█▎        | 13341/100000 [7:17:59<30:13:53,  1.26s/it] 13%|█▎        | 13342/100000 [7:18:00<29:37:34,  1.23s/it]                                                            13%|█▎        | 13342/100000 [7:18:00<29:37:34,  1.23s/it] 13%|█▎        | 13343/100000 [7:18:01<28:54:36,  1.20s/it]                                                            13%|█▎        | 13343/100000 [7:18:01<28:54:36,  1.20s/it] 13%|█▎        | 13344/100000 [7:18:02<28:34:40,  1.19s/it]                                                            13%|█▎        | 13344/100000 [7:18:02<28:34:40,  1.19s/it] 13%|█▎        | 13345/100000 [7:18:03<28:04:52,  1.17s/it]                                                            13%|█▎        | 13345/100000 [7:18:03<28:04:52,  1.17s/it] 13%|█▎        | 13346/100000 [7:18:05<27:43:07,  1.15s/it]                                                            13%|█▎        | 13346/100000 [7:18:05<27:43:07,  1.15s/it] 13%|█▎        | 13347/100000 [7:18:06<27:17:41,  1.13s/it]                                                            13%|█▎        | 13347/100000 [7:18:06<27:17:41,  1.13s/it] 13%|█▎        | 13348/100000 [7:18:07<26:42:33,  1.11s/it]                                                            13%|█▎        | 13348/100000 [7:18:07<26:42:33,  1.11s/it] 13%|█▎        | 13349/100000 [7:18:08<26:19:33,  1.09s/it]                                                            13%|█▎        | 13349/100000 [7:18:08<26:19:33,  1.09s/it] 13%|█▎        | 13350/100000 [7:18:09<25:53:37,  1.08s/it]                                                            13%|█▎        | 13350/100000 [7:18:09<25:53:37,  1.08s/it] 13%|█▎        | 13351/100000 [7:18:10<25:26:27,  1.06s/it]                                                            13%|█▎        | 13351/100000 [7:18:10<25:26:27,  1.06s/it] 13%|█▎        | 13352/100000 [7:18:11<25:21:14,  1.05s/it]                                                            13%|█▎        | 13352/100000 [7:18:11<25:21:14,  1.05s/it] 13%|█▎        | 13353/100000 [7:18:12<24:53:58,  1.03s/it]                                                            13%|█▎        | 13353/100000 [7:18:12<24:53:58,  1.03s/it] 13%|█▎        | 13354/100000 [7:18:13<24:15:01,  1.01s/it]                                                            13%|█▎        | 13354/100000 [7:18:13<24:15:01,  1.01s/it] 13%|█▎        | 13355/100000 [7:18:14<23:42:49,  1.01it/s]                                                            13%|█▎        | 13355/100000 [7:18:14<23:42:49,  1.01it/s] 13%|█▎        | 13356/100000 [7:18:15<23:35:01,  1.02it/s]                                                            13%|█▎        | 13356/100000 [7:18:15<23:35:01,  1.02it/s] 13%|█▎        | 13357/100000 [7:18:16<23:12:47,  1.04it/s]                                                            13%|█▎        | 13357/100000 [7:18:16<23:12:47,  1.04it/s] 13%|█▎        | 13358/100000 [7:18:16<22:30:41,  1.07it/s]                                                            13%|█▎        | 13358/100000 [7:18:16<22:30:41,  1.07it/s] 13%|█▎        | 13359/100000 [7:18:28<97:32:13,  4.05s/it]                                                            13%|█▎        | 13359/100000 [7:18:28<97:32:13,  4.05s/it] 13%|█▎        | 13360/100000 [7:18:34<111:33:59,  4.64s/it]                                                             13%|█▎        | 13360/100000 [7:18:34<111:33:59,  4.64s/it] 13%|█▎        | 13361/100000 [7:18:38<110:55:31,  4.61s/it]                                                             13%|█▎        | 13361/100000 [7:18:38<110:55:31,  4.61s/it] 13%|█▎        | 13362/100000 [7:18:42<107:47:45,  4.48s/it]                                                             13%|█▎        | 13362/100000 [7:18:42<107:47:45,  4.48s/it] 13%|█▎        | 13363/100000 [7:18:46<101:54:14,  4.23s/it]                                                             13%|█▎        | 13363/100000 [7:18:46<101:54:14,  4.23s/it] 13%|█▎        | 13364/100000 [7:18:49<95:21:55,  3.96s/it]                                                             13%|█▎        | 13364/100000 [7:18:49<95:21:55,  3.96s/it] 13%|█▎        | 13365/100000 [7:18:52<88:09:00,  3.66s/it]                                                            13%|█▎        | 13365/100000 [7:18:52<88:09:00,  3.66s/it] 13%|█▎        | 13366/100000 [7:18:55<81:28:43,  3.39s/it]                                                            13%|█▎        | 13366/100000 [7:18:55<81:28:43,  3.39s/it] 13%|█▎        | 13367/100000 [7:18:58<75:23:01,  3.13s/it]                                                            13%|���▎        | 13367/100000 [7:18:58<75:23:01,  3.13s/it] 13%|█▎        | 13368/100000 [7:19:00<69:34:40,  2.89s/it]                                                            13%|█▎        | 13368/100000 [7:19:00<69:34:40,  2.89s/it] 13%|█▎        | 13369/100000 [7:19:02<64:34:45,  2.68s/it]                                                            13%|█▎        | 13369/100000 [7:19:02<64:34:45,  2.68s/it] 13%|█▎        | 13370/100000 [7:19:04<60:05:19,  2.50s/it]                                                            13%|█▎        | 13370/100000 [7:19:04<60:05:19,  2.50s/it] 13%|█▎        | 13371/100000 [7:19:06<55:57:10,  2.33s/it]                                                            13%|█▎        | 13371/100000 [7:19:06<55:57:10,  2.33s/it] 13%|█▎        | 13372/100000 [7:19:08<51:24:27,  2.14s/it]                                                            13%|█▎        | 13372/100000 [7:19:08<51:24:27,  2.14s/it] 13%|█▎        | 13373/100000 [7:19:10<48:10:17,  2.00s/it]                                                            13%|█▎        | 13373/100000 [7:19:10<48:10:17,  2.00s/it] 13%|█▎        | 13374/100000 [7:19:11<45:49:36,  1.90s/it]                                                            13%|█▎        | 13374/100000 [7:19:11<45:49:36,  1.90s/it] 13%|█▎        | 13375/100000 [7:19:13<43:21:08,  1.80s/it]                                                            13%|█▎        | 13375/100000 [7:19:13<43:21:08,  1.80s/it] 13%|█▎        | 13376/100000 [7:19:14<41:41:15,  1.73s/it]                                                            13%|█▎        | 13376/100000 [7:19:14<41:41:15,  1.73s/it] 13%|█▎        | 13377/100000 [7:19:16<40:03:15,  1.66s/it]                                                            13%|█▎        | 13377/100000 [7:19:16<40:03:15,  1.66s/it] 13%|█▎        | 13378/100000 [7:19:17<38:28:56,  1.60s/it]                                                            13%|█▎        | 13378/100000 [7:19:17<38:28:56,  1.60s/it] 13%|█▎        | 13379/100000 [7:19:19<37:28:24,  1.56s/it]                                                            13%|█▎        | 13379/100000 [7:19:19<37:28:24,  1.56s/it] 13%|█▎        | 13380/100000 [7:19:20<36:38:37,  1.52s/it]                                                            13%|█▎        | 13380/100000 [7:19:20<36:38:37,  1.52s/it] 13%|█▎        | 13381/100000 [7:19:22<35:51:36,  1.49s/it]                                                            13%|█▎        | 13381/100000 [7:19:22<35:51:36,  1.49s/it] 13%|█▎        | 13382/100000 [7:19:23<35:09:36,  1.46s/it]                                                            13%|█▎        | 13382/100000 [7:19:23<35:09:36,  1.46s/it] 13%|█▎        | 13383/100000 [7:19:24<34:30:52,  1.43s/it]                                                            13%|█▎        | 13383/100000 [7:19:24<34:30:52,  1.43s/it] 13%|█▎        | 13384/100000 [7:19:26<33:54:24,  1.41s/it]                                                            13%|█▎        | 13384/100000 [7:19:26<33:54:24,  1.41s/it] 13%|█▎        | 13385/100000 [7:19:27<33:22:25,  1.39s/it]                                                            13%|█▎        | 13385/100000 [7:19:27<33:22:25,  1.39s/it] 13%|█▎        | 13386/100000 [7:19:28<32:38:38,  1.36s/it]                                                            13%|█▎        | 13386/100000 [7:19:28<32:38:38,  1.36s/it] 13%|█▎        | 13387/100000 [7:19:30<32:12:25,  1.34s/it]                                                            13%|█▎        | 13387/100000 [7:19:30<32:12:25,  1.34s/it] 13%|█▎        | 13388/100000 [7:19:31<31:30:31,  1.31s/it]                                                            13%|█▎        | 13388/100000 [7:19:31<31:30:31,  1.31s/it] 13%|█▎        | 13389/100000 [7:19:32<31:11:22,  1.30s/it]                                                            13%|█▎        | 13389/100000 [7:19:32<31:11:22,  1.30s/it] 13%|█▎        | 13390/100000 [7:19:33<30:47:51,  1.28s/it]                                                            13%|█▎        | 13390/100000 [7:19:33<30:47:51,  1.28s/it] 13%|█▎        | 13391/100000 [7:19:35<30:24:35,  1.26s/it]                                                            13%|█▎        | 13391/100000 [7:19:35<30:24:35,  1.26s/it] 13%|█▎        | 13392/100000 [7:19:36<30:02:47,  1.25s/it]                                                            13%|█▎        | 13392/100000 [7:19:36<30:02:47,  1.25s/it] 13%|█▎        | 13393/100000 [7:19:37<29:20:20,  1.22s/it]                                                            13%|█▎        | 13393/100000 [7:19:37<29:20:20,  1.22s/it] 13%|█▎        | 13394/100000 [7:19:38<28:54:40,  1.20s/it]                                                            13%|█▎        | 13394/100000 [7:19:38<28:54:40,  1.20s/it] 13%|█▎        | 13395/100000 [7:19:39<28:23:32,  1.18s/it]                                                            13%|█▎        | 13395/100000 [7:19:39<28:23:32,  1.18s/it] 13%|█▎        | 13396/100000 [7:19:40<28:06:08,  1.17s/it]                                                            13%|█▎        | 13396/100000 [7:19:40<28:06:08,  1.17s/it] 13%|█▎        | 13397/100000 [7:19:42<27:48:40,  1.16s/it]                                                            13%|█▎        | 13397/100000 [7:19:42<27:48:40,  1.16s/it] 13%|█▎        | 13398/100000 [7:19:43<27:14:27,  1.13s/it]                                                            13%|█▎        | 13398/100000 [7:19:43<27:14:27,  1.13s/it] 13%|█▎        | 13399/100000 [7:19:44<26:57:57,  1.12s/it]                                                           {'loss': 0.0379, 'grad_norm': 0.3534824848175049, 'learning_rate': 2.8893999999999998e-05, 'epoch': 24.58}
+{'loss': 0.0295, 'grad_norm': 0.2735038101673126, 'learning_rate': 2.8893666666666667e-05, 'epoch': 24.58}
+{'loss': 0.0195, 'grad_norm': 0.2168884128332138, 'learning_rate': 2.8893333333333333e-05, 'epoch': 24.58}
+{'loss': 0.0138, 'grad_norm': 0.3940054774284363, 'learning_rate': 2.8893e-05, 'epoch': 24.58}
+{'loss': 0.0043, 'grad_norm': 0.10811630636453629, 'learning_rate': 2.889266666666667e-05, 'epoch': 24.59}
+{'loss': 0.0207, 'grad_norm': 0.27094316482543945, 'learning_rate': 2.8892333333333335e-05, 'epoch': 24.59}
+{'loss': 0.0125, 'grad_norm': 0.2474210113286972, 'learning_rate': 2.8892e-05, 'epoch': 24.59}
+{'loss': 0.038, 'grad_norm': 0.24952836334705353, 'learning_rate': 2.8891666666666666e-05, 'epoch': 24.59}
+{'loss': 0.0074, 'grad_norm': 0.19649440050125122, 'learning_rate': 2.8891333333333336e-05, 'epoch': 24.59}
+{'loss': 0.009, 'grad_norm': 0.290304571390152, 'learning_rate': 2.8891e-05, 'epoch': 24.59}
+{'loss': 0.0062, 'grad_norm': 0.28430837392807007, 'learning_rate': 2.8890666666666668e-05, 'epoch': 24.6}
+{'loss': 0.0045, 'grad_norm': 0.14937494695186615, 'learning_rate': 2.8890333333333334e-05, 'epoch': 24.6}
+{'loss': 0.0039, 'grad_norm': 0.17749227583408356, 'learning_rate': 2.889e-05, 'epoch': 24.6}
+{'loss': 0.0054, 'grad_norm': 0.16499114036560059, 'learning_rate': 2.888966666666667e-05, 'epoch': 24.6}
+{'loss': 0.0109, 'grad_norm': 0.38722649216651917, 'learning_rate': 2.8889333333333335e-05, 'epoch': 24.6}
+{'loss': 0.0095, 'grad_norm': 0.5073453187942505, 'learning_rate': 2.8889e-05, 'epoch': 24.61}
+{'loss': 0.0034, 'grad_norm': 0.1586906909942627, 'learning_rate': 2.8888666666666667e-05, 'epoch': 24.61}
+{'loss': 0.0036, 'grad_norm': 0.15562497079372406, 'learning_rate': 2.8888333333333336e-05, 'epoch': 24.61}
+{'loss': 0.0048, 'grad_norm': 0.23065587878227234, 'learning_rate': 2.8888e-05, 'epoch': 24.61}
+{'loss': 0.0104, 'grad_norm': 0.5878494381904602, 'learning_rate': 2.8887666666666668e-05, 'epoch': 24.61}
+{'loss': 0.0055, 'grad_norm': 0.2063795030117035, 'learning_rate': 2.8887333333333337e-05, 'epoch': 24.61}
+{'loss': 0.003, 'grad_norm': 0.1259927600622177, 'learning_rate': 2.8887e-05, 'epoch': 24.62}
+{'loss': 0.0035, 'grad_norm': 0.15318113565444946, 'learning_rate': 2.888666666666667e-05, 'epoch': 24.62}
+{'loss': 0.0066, 'grad_norm': 0.2823616862297058, 'learning_rate': 2.8886333333333335e-05, 'epoch': 24.62}
+{'loss': 0.0325, 'grad_norm': 0.23812097311019897, 'learning_rate': 2.8886e-05, 'epoch': 24.62}
+{'loss': 0.0033, 'grad_norm': 0.14409127831459045, 'learning_rate': 2.8885666666666667e-05, 'epoch': 24.62}
+{'loss': 0.0012, 'grad_norm': 0.0659145936369896, 'learning_rate': 2.8885333333333333e-05, 'epoch': 24.63}
+{'loss': 0.0105, 'grad_norm': 0.3200194239616394, 'learning_rate': 2.8885e-05, 'epoch': 24.63}
+{'loss': 0.0052, 'grad_norm': 0.26891952753067017, 'learning_rate': 2.8884666666666668e-05, 'epoch': 24.63}
+{'loss': 0.0074, 'grad_norm': 0.328961580991745, 'learning_rate': 2.8884333333333334e-05, 'epoch': 24.63}
+{'loss': 0.0094, 'grad_norm': 0.1385984867811203, 'learning_rate': 2.8884e-05, 'epoch': 24.63}
+{'loss': 0.0046, 'grad_norm': 0.15883958339691162, 'learning_rate': 2.888366666666667e-05, 'epoch': 24.64}
+{'loss': 0.003, 'grad_norm': 0.21640440821647644, 'learning_rate': 2.8883333333333332e-05, 'epoch': 24.64}
+{'loss': 0.0043, 'grad_norm': 0.18219715356826782, 'learning_rate': 2.8883e-05, 'epoch': 24.64}
+{'loss': 0.0042, 'grad_norm': 0.23579628765583038, 'learning_rate': 2.8882666666666667e-05, 'epoch': 24.64}
+{'loss': 0.0094, 'grad_norm': 0.3087804913520813, 'learning_rate': 2.8882333333333333e-05, 'epoch': 24.64}
+{'loss': 0.0137, 'grad_norm': 0.3579120635986328, 'learning_rate': 2.8882000000000002e-05, 'epoch': 24.64}
+{'loss': 0.0114, 'grad_norm': 0.3803880512714386, 'learning_rate': 2.8881666666666668e-05, 'epoch': 24.65}
+{'loss': 0.1614, 'grad_norm': 0.5040902495384216, 'learning_rate': 2.8881333333333334e-05, 'epoch': 24.65}
+{'loss': 0.0932, 'grad_norm': 0.5189815163612366, 'learning_rate': 2.8881e-05, 'epoch': 24.65}
+{'loss': 0.1499, 'grad_norm': 0.3309284448623657, 'learning_rate': 2.888066666666667e-05, 'epoch': 24.65}
+{'loss': 0.0822, 'grad_norm': 0.4587146043777466, 'learning_rate': 2.8880333333333332e-05, 'epoch': 24.65}
+{'loss': 0.0672, 'grad_norm': 0.34885290265083313, 'learning_rate': 2.888e-05, 'epoch': 24.66}
+{'loss': 0.0574, 'grad_norm': 0.38283026218414307, 'learning_rate': 2.8879666666666667e-05, 'epoch': 24.66}
+{'loss': 0.0586, 'grad_norm': 0.38761594891548157, 'learning_rate': 2.8879333333333333e-05, 'epoch': 24.66}
+{'loss': 0.0365, 'grad_norm': 0.3336412012577057, 'learning_rate': 2.8879000000000003e-05, 'epoch': 24.66}
+{'loss': 0.03, 'grad_norm': 0.3232431411743164, 'learning_rate': 2.887866666666667e-05, 'epoch': 24.66}
+{'loss': 0.0777, 'grad_norm': 0.5756363868713379, 'learning_rate': 2.8878333333333334e-05, 'epoch': 24.66}
+{'loss': 0.0313, 'grad_norm': 0.5154371857643127, 'learning_rate': 2.8878e-05, 'epoch': 24.67}
+{'loss': 0.02, 'grad_norm': 0.35584941506385803, 'learning_rate': 2.887766666666667e-05, 'epoch': 24.67}
+{'loss': 0.0728, 'grad_norm': 0.5981518030166626, 'learning_rate': 2.8877333333333332e-05, 'epoch': 24.67}
+{'loss': 0.066, 'grad_norm': 0.4004424810409546, 'learning_rate': 2.8877e-05, 'epoch': 24.67}
+{'loss': 0.0089, 'grad_norm': 0.27876365184783936, 'learning_rate': 2.8876666666666667e-05, 'epoch': 24.67}
+{'loss': 0.0088, 'grad_norm': 0.22904369235038757, 'learning_rate': 2.8876333333333333e-05, 'epoch': 24.68}
+{'loss': 0.0203, 'grad_norm': 0.2941538691520691, 'learning_rate': 2.8876000000000003e-05, 'epoch': 24.68}
+{'loss': 0.0091, 'grad_norm': 0.30584147572517395, 'learning_rate': 2.8875666666666665e-05, 'epoch': 24.68}
+{'loss': 0.0103, 'grad_norm': 0.31425368785858154, 'learning_rate': 2.8875333333333335e-05, 'epoch': 24.68}
+{'loss': 0.0021, 'grad_norm': 0.07397730648517609, 'learning_rate': 2.8875e-05, 'epoch': 24.68}
+{'loss': 0.005, 'grad_norm': 0.19247840344905853, 'learning_rate': 2.8874666666666666e-05, 'epoch': 24.69}
+{'loss': 0.0075, 'grad_norm': 0.30215951800346375, 'learning_rate': 2.8874333333333332e-05, 'epoch': 24.69}
+{'loss': 0.0176, 'grad_norm': 0.34927937388420105, 'learning_rate': 2.8874000000000002e-05, 'epoch': 24.69}
+{'loss': 0.0047, 'grad_norm': 0.17897507548332214, 'learning_rate': 2.8873666666666668e-05, 'epoch': 24.69}
+{'loss': 0.0087, 'grad_norm': 0.7408897280693054, 'learning_rate': 2.8873333333333334e-05, 'epoch': 24.69}
+{'loss': 0.0054, 'grad_norm': 0.16339300572872162, 'learning_rate': 2.8873000000000003e-05, 'epoch': 24.69}
+{'loss': 0.0025, 'grad_norm': 0.11997639387845993, 'learning_rate': 2.8872666666666665e-05, 'epoch': 24.7}
+{'loss': 0.0377, 'grad_norm': 0.618619978427887, 'learning_rate': 2.8872333333333335e-05, 'epoch': 24.7}
+{'loss': 0.0018, 'grad_norm': 0.08947763592004776, 'learning_rate': 2.8872e-05, 'epoch': 24.7}
+{'loss': 0.0054, 'grad_norm': 0.16694006323814392, 'learning_rate': 2.8871666666666667e-05, 'epoch': 24.7}
+{'loss': 0.0081, 'grad_norm': 0.44772008061408997, 'learning_rate': 2.8871333333333333e-05, 'epoch': 24.7}
+{'loss': 0.0362, 'grad_norm': 0.3581324815750122, 'learning_rate': 2.8871000000000002e-05, 'epoch': 24.71}
+{'loss': 0.0092, 'grad_norm': 0.17675131559371948, 'learning_rate': 2.8870666666666668e-05, 'epoch': 24.71}
+{'loss': 0.006, 'grad_norm': 0.2986243665218353, 'learning_rate': 2.8870333333333334e-05, 'epoch': 24.71}
+{'loss': 0.0032, 'grad_norm': 0.14071765542030334, 'learning_rate': 2.8870000000000003e-05, 'epoch': 24.71}
+{'loss': 0.0084, 'grad_norm': 0.3196142911911011, 'learning_rate': 2.8869666666666666e-05, 'epoch': 24.71}
+{'loss': 0.0095, 'grad_norm': 0.5192102789878845, 'learning_rate': 2.8869333333333335e-05, 'epoch': 24.71}
+{'loss': 0.0118, 'grad_norm': 0.21429091691970825, 'learning_rate': 2.8869e-05, 'epoch': 24.72}
+{'loss': 0.0055, 'grad_norm': 0.309095561504364, 'learning_rate': 2.8868666666666667e-05, 'epoch': 24.72}
+{'loss': 0.0069, 'grad_norm': 0.1888907253742218, 'learning_rate': 2.8868333333333333e-05, 'epoch': 24.72}
+ 13%|█▎        | 13399/100000 [7:19:44<26:57:57,  1.12s/it] 13%|█▎        | 13400/100000 [7:19:45<26:34:16,  1.10s/it]                                                            13%|█▎        | 13400/100000 [7:19:45<26:34:16,  1.10s/it] 13%|█▎        | 13401/100000 [7:19:46<26:16:58,  1.09s/it]                                                            13%|█▎        | 13401/100000 [7:19:46<26:16:58,  1.09s/it] 13%|█▎        | 13402/100000 [7:19:47<25:55:15,  1.08s/it]                                                            13%|█▎        | 13402/100000 [7:19:47<25:55:15,  1.08s/it] 13%|█▎        | 13403/100000 [7:19:48<25:24:05,  1.06s/it]                                                            13%|█▎        | 13403/100000 [7:19:48<25:24:05,  1.06s/it] 13%|█▎        | 13404/100000 [7:19:49<24:48:49,  1.03s/it]                                                            13%|█▎        | 13404/100000 [7:19:49<24:48:49,  1.03s/it] 13%|█▎        | 13405/100000 [7:19:50<24:06:01,  1.00s/it]                                                            13%|█▎        | 13405/100000 [7:19:50<24:06:01,  1.00s/it] 13%|█▎        | 13406/100000 [7:19:51<23:53:54,  1.01it/s]                                                            13%|█▎        | 13406/100000 [7:19:51<23:53:54,  1.01it/s] 13%|█▎        | 13407/100000 [7:19:52<23:36:24,  1.02it/s]                                                            13%|█▎        | 13407/100000 [7:19:52<23:36:24,  1.02it/s] 13%|█▎        | 13408/100000 [7:19:53<23:04:05,  1.04it/s]                                                            13%|█▎        | 13408/100000 [7:19:53<23:04:05,  1.04it/s] 13%|█▎        | 13409/100000 [7:20:05<101:32:35,  4.22s/it]                                                             13%|█▎        | 13409/100000 [7:20:05<101:32:35,  4.22s/it] 13%|█▎        | 13410/100000 [7:20:10<112:59:16,  4.70s/it]                                                             13%|█▎        | 13410/100000 [7:20:10<112:59:16,  4.70s/it] 13%|█▎        | 13411/100000 [7:20:15<111:09:10,  4.62s/it]                                                             13%|█▎        | 13411/100000 [7:20:15<111:09:10,  4.62s/it] 13%|█▎        | 13412/100000 [7:20:19<105:51:15,  4.40s/it]                                                             13%|█▎        | 13412/100000 [7:20:19<105:51:15,  4.40s/it] 13%|█▎        | 13413/100000 [7:20:22<100:08:42,  4.16s/it]                                                             13%|█▎        | 13413/100000 [7:20:22<100:08:42,  4.16s/it] 13%|█▎        | 13414/100000 [7:20:26<94:00:59,  3.91s/it]                                                             13%|█▎        | 13414/100000 [7:20:26<94:00:59,  3.91s/it] 13%|█▎        | 13415/100000 [7:20:28<86:32:30,  3.60s/it]                                                            13%|█▎        | 13415/100000 [7:20:28<86:32:30,  3.60s/it] 13%|█▎        | 13416/100000 [7:20:31<80:19:52,  3.34s/it]                                                            13%|█▎        | 13416/100000 [7:20:31<80:19:52,  3.34s/it] 13%|█▎        | 13417/100000 [7:20:34<73:59:44,  3.08s/it]                                                            13%|█▎        | 13417/100000 [7:20:34<73:59:44,  3.08s/it] 13%|█▎        | 13418/100000 [7:20:36<67:47:46,  2.82s/it]                                                            13%|█▎        | 13418/100000 [7:20:36<67:47:46,  2.82s/it] 13%|█▎        | 13419/100000 [7:20:38<62:45:04,  2.61s/it]                                                            13%|█▎        | 13419/100000 [7:20:38<62:45:04,  2.61s/it] 13%|█▎        | 13420/100000 [7:20:40<58:16:14,  2.42s/it]                                                            13%|█▎        | 13420/100000 [7:20:40<58:16:14,  2.42s/it] 13%|█▎        | 13421/100000 [7:20:42<54:29:17,  2.27s/it]                                                            13%|█▎        | 13421/100000 [7:20:42<54:29:17,  2.27s/it] 13%|█▎        | 13422/100000 [7:20:44<51:04:20,  2.12s/it]                                                            13%|█▎        | 13422/100000 [7:20:44<51:04:20,  2.12s/it] 13%|█▎        | 13423/100000 [7:20:45<48:03:21,  2.00s/it]                                                            13%|█▎        | 13423/100000 [7:20:45<48:03:21,  2.00s/it] 13%|█▎        | 13424/100000 [7:20:47<45:20:23,  1.89s/it]                                                            13%|█▎        | 13424/100000 [7:20:47<45:20:23,  1.89s/it] 13%|█▎        | 13425/100000 [7:20:49<43:03:43,  1.79s/it]                                                            13%|█▎        | 13425/100000 [7:20:49<43:03:43,  1.79s/it] 13%|█▎        | 13426/100000 [7:20:50<41:16:54,  1.72s/it]                                                            13%|█▎        | 13426/100000 [7:20:50<41:16:54,  1.72s/it] 13%|█▎        | 13427/100000 [7:20:52<39:50:11,  1.66s/it]                                                            13%|█▎        | 13427/100000 [7:20:52<39:50:11,  1.66s/it] 13%|█▎        | 13428/100000 [7:20:53<38:09:50,  1.59s/it]                                                            13%|█▎        | 13428/100000 [7:20:53<38:09:50,  1.59s/it] 13%|█▎        | 13429/100000 [7:20:55<37:04:53,  1.54s/it]                                                            13%|█▎        | 13429/100000 [7:20:55<37:04:53,  1.54s/it] 13%|█▎        | 13430/100000 [7:20:56<36:12:02,  1.51s/it]                                                            13%|█▎        | 13430/100000 [7:20:56<36:12:02,  1.51s/it] 13%|█▎        | 13431/100000 [7:20:57<35:07:04,  1.46s/it]                                                            13%|█▎        | 13431/100000 [7:20:57<35:07:04,  1.46s/it] 13%|█▎        | 13432/100000 [7:20:59<34:17:17,  1.43s/it]                                                            13%|█▎        | 13432/100000 [7:20:59<34:17:17,  1.43s/it] 13%|█▎        | 13433/100000 [7:21:00<33:34:22,  1.40s/it]                                                            13%|█▎        | 13433/100000 [7:21:00<33:34:22,  1.40s/it] 13%|█▎        | 13434/100000 [7:21:01<32:58:07,  1.37s/it]                                                            13%|█▎        | 13434/100000 [7:21:01<32:58:07,  1.37s/it] 13%|█▎        | 13435/100000 [7:21:03<32:20:36,  1.35s/it]                                                            13%|█▎        | 13435/100000 [7:21:03<32:20:36,  1.35s/it] 13%|█▎        | 13436/100000 [7:21:04<32:04:01,  1.33s/it]                                                            13%|█▎        | 13436/100000 [7:21:04<32:04:01,  1.33s/it] 13%|█▎        | 13437/100000 [7:21:05<31:14:03,  1.30s/it]                                                            13%|█▎        | 13437/100000 [7:21:05<31:14:03,  1.30s/it] 13%|█▎        | 13438/100000 [7:21:06<31:04:45,  1.29s/it]                                                            13%|█▎        | 13438/100000 [7:21:06<31:04:45,  1.29s/it] 13%|█▎        | 13439/100000 [7:21:08<30:41:55,  1.28s/it]                                                            13%|█▎        | 13439/100000 [7:21:08<30:41:55,  1.28s/it] 13%|█▎        | 13440/100000 [7:21:09<30:12:23,  1.26s/it]                                                            13%|█▎        | 13440/100000 [7:21:09<30:12:23,  1.26s/it] 13%|█▎        | 13441/100000 [7:21:10<29:46:38,  1.24s/it]                                                            13%|█▎        | 13441/100000 [7:21:10<29:46:38,  1.24s/it] 13%|█▎        | 13442/100000 [7:21:11<29:03:08,  1.21s/it]                                                            13%|█▎        | 13442/100000 [7:21:11<29:03:08,  1.21s/it] 13%|█▎        | 13443/100000 [7:21:12<28:45:50,  1.20s/it]                                                            13%|█▎        | 13443/100000 [7:21:12<28:45:50,  1.20s/it] 13%|█▎        | 13444/100000 [7:21:13<28:25:46,  1.18s/it]                                                            13%|█▎        | 13444/100000 [7:21:13<28:25:46,  1.18s/it] 13%|█▎        | 13445/100000 [7:21:15<27:45:15,  1.15s/it]                                                            13%|█▎        | 13445/100000 [7:21:15<27:45:15,  1.15s/it] 13%|█▎        | 13446/100000 [7:21:16<27:32:15,  1.15s/it]                                                            13%|█▎        | 13446/100000 [7:21:16<27:32:15,  1.15s/it] 13%|█▎        | 13447/100000 [7:21:17<27:02:39,  1.12s/it]                                                            13%|█▎        | 13447/100000 [7:21:17<27:02:39,  1.12s/it] 13%|█▎        | 13448/100000 [7:21:18<26:49:10,  1.12s/it]                                                            13%|█▎        | 13448/100000 [7:21:18<26:49:10,  1.12s/it] 13%|█▎        | 13449/100000 [7:21:19<26:35:09,  1.11s/it]                                                            13%|█▎        | 13449/100000 [7:21:19<26:35:09,  1.11s/it] 13%|█▎        | 13450/100000 [7:21:20<26:24:00,  1.10s/it]                                                            13%|█▎        | 13450/100000 [7:21:20<26:24:00,  1.10s/it] 13%|█▎        | 13451/100000 [7:21:21<26:01:37,  1.08s/it]                                                            13%|█▎        | 13451/100000 [7:21:21<26:01:37,  1.08s/it] 13%|█▎        | 13452/100000 [7:21:22<25:23:59,  1.06s/it]                                                            13%|█▎        | 13452/100000 [7:21:22<25:23:59,  1.06s/it] 13%|█▎        | 13453/100000 [7:21:23<24:48:39,  1.03s/it]                                                            13%|█▎        | 13453/100000 [7:21:23<24:48:39,  1.03s/it] 13%|█▎        | 13454/100000 [7:21:24<24:19:15,  1.01s/it]                                                            13%|█▎        | 13454/100000 [7:21:24<24:19:15,  1.01s/it] 13%|█▎        | 13455/100000 [7:21:25<24:05:16,  1.00s/it]                                                            13%|█▎        | 13455/100000 [7:21:25<24:05:16,  1.00s/it] 13%|█▎        | 13456/100000 [7:21:26<23:45:55,  1.01it/s]                                                            13%|█▎        | 13456/100000 [7:21:26<23:45:55,  1.01it/s] 13%|█▎        | 13457/100000 [7:21:27<23:20:47,  1.03it/s]                                                            13%|█▎        | 13457/100000 [7:21:27<23:20:47,  1.03it/s] 13%|█▎        | 13458/100000 [7:21:28<22:41:12,  1.06it/s]                                                            13%|█▎        | 13458/100000 [7:21:28<22:41:12,  1.06it/s] 13%|█▎        | 13459/100000 [7:21:40<102:30:53,  4.26s/it]                                                             13%|█▎        | 13459/100000 [7:21:40<102:30:53,  4.26s/it] 13%|█▎        | 13460/100000 [7:21:45<111:54:17,  4.66s/it]                                                             13%|█▎        | 13460/100000 [7:21:45<111:54:17,  4.66s/it] 13%|█▎        | 13461/100000 [7:21:50<111:57:44,  4.66s/it]                                                             13%|█▎        | 13461/100000 [7:21:50<111:57:44,  4.66s/it] 13%|█▎        | 13462/100000 [7:21:54<107:59:15,  4.49s/it]                                                             13%|█▎        | 13462/100000 [7:21:54<107:59:15,  4.49s/it] 13%|█▎        | 13463/100000 [7:21:58<101:48:33,  4.24s/it]                                                             13%|█▎        | 13463/100000 [7:21:58<101:48:33,  4.24s/it] 13%|█▎        | 13464/100000 [7:22:01<95:09:46,  3.96s/it]                                                             13%|█▎        | 13464/100000 [7:22:01<95:09:46,  3.96s/it] 13%|█▎        | 13465/100000 [7:22:04<88:44:02,  3.69s/it]                                                            13%|█▎        | 13465/100000 [7:22:04<88:44:02,  3.69s/it] 13%|█▎        | 13466/100000 [7:22:07<81:42:34,  3.40s/it]                                                            13%|█▎        | 13466/100000 [7:22:07<81:42:34,  3.40s/it] 13%|█▎        | 13467/100000 [7:22:09<74:49:08,  3.11s/it]                                                            13%|█▎        | 13467/100000 [7:22:09<74:49:08,  3.11s/it] 13%|█▎        | 13468/100000 [7:22:12<69:30:06,  2.89s/it]                                                            13%|█▎        | 13468/100000 [7:22:12<69:30:06,  2.89s/it] 13%|█▎        | 13469/100000 [7:22:14<64:44:22,  2.69s/it]                                                            13%|█▎        | 13469/100000 [7:22:14<64:44:22,  2.69s/it] 13%|█▎        | 13470/100000 [7:22:16<60:15:16,  2.51s/it]                                                            13%|█▎        | 13470/100000 [7:22:16<60:15:16,  2.51s/it] 13%|█▎        | 13471/100000 [7:22:18<56:14:10,  2.34s/it]                                                            13%|█▎        | 13471/100000 [7:22:18<56:14:10,  2.34s/it] 13%|█▎        | 13472/100000 [7:22:20<52:44:44,  2.19s/it]                                                            13%|█▎        | 13472/100000 [7:22:20<52:44:44,  2.19s/it] 13%|█▎        | 13473/100000 [7:22:22<49:41:24,  2.07s/it]                                                            13%|█▎        | 13473/100000 [7:22:22<49:41:24,  2.07s/it] 13%|█▎        | 13474/100000 [7:22:23<46:41:48,  1.94s/it]                                                            13%|█▎        | 13474/100000 [7:22:23<46:41:48,  1.94s/it] 13%|█▎        | 13475/100000 [7:22:25<44:31:51,  1.85s/it]                                                            13%|█▎        | 13475/100000 [7:22:25<44:31:51,  1.85s/it] 13%|█▎        | 13476/100000 [7:22:26<42:48:45,  1.78s/it]                                                            13%|█▎        | 13476/100000 [7:22:26<42:48:45,  1.78s/it] 13%|█▎        | 13477/100000 [7:22:28<41:07:15,  1.71s/it]                                                           {'loss': 0.0056, 'grad_norm': 0.3549118638038635, 'learning_rate': 2.8868000000000002e-05, 'epoch': 24.72}
+{'loss': 0.0048, 'grad_norm': 0.15123812854290009, 'learning_rate': 2.8867666666666668e-05, 'epoch': 24.72}
+{'loss': 0.0049, 'grad_norm': 0.18749882280826569, 'learning_rate': 2.8867333333333334e-05, 'epoch': 24.73}
+{'loss': 0.0025, 'grad_norm': 0.14293302595615387, 'learning_rate': 2.8867000000000003e-05, 'epoch': 24.73}
+{'loss': 0.0048, 'grad_norm': 0.14083927869796753, 'learning_rate': 2.8866666666666666e-05, 'epoch': 24.73}
+{'loss': 0.0081, 'grad_norm': 0.3582073450088501, 'learning_rate': 2.8866333333333335e-05, 'epoch': 24.73}
+{'loss': 0.0052, 'grad_norm': 0.32324060797691345, 'learning_rate': 2.8866e-05, 'epoch': 24.73}
+{'loss': 0.0073, 'grad_norm': 0.42408451437950134, 'learning_rate': 2.8865666666666667e-05, 'epoch': 24.73}
+{'loss': 0.0139, 'grad_norm': 0.7171687483787537, 'learning_rate': 2.8865333333333336e-05, 'epoch': 24.74}
+{'loss': 0.0085, 'grad_norm': 0.43229997158050537, 'learning_rate': 2.8865e-05, 'epoch': 24.74}
+{'loss': 0.2258, 'grad_norm': 0.7140260338783264, 'learning_rate': 2.8864666666666668e-05, 'epoch': 24.74}
+{'loss': 0.0694, 'grad_norm': 0.34567001461982727, 'learning_rate': 2.8864333333333334e-05, 'epoch': 24.74}
+{'loss': 0.1287, 'grad_norm': 0.6018345355987549, 'learning_rate': 2.8864e-05, 'epoch': 24.74}
+{'loss': 0.0671, 'grad_norm': 0.5588078498840332, 'learning_rate': 2.8863666666666666e-05, 'epoch': 24.75}
+{'loss': 0.0574, 'grad_norm': 0.4431043863296509, 'learning_rate': 2.8863333333333335e-05, 'epoch': 24.75}
+{'loss': 0.0652, 'grad_norm': 0.3815719187259674, 'learning_rate': 2.8862999999999998e-05, 'epoch': 24.75}
+{'loss': 0.0853, 'grad_norm': 0.4633784592151642, 'learning_rate': 2.8862666666666667e-05, 'epoch': 24.75}
+{'loss': 0.0583, 'grad_norm': 0.30097484588623047, 'learning_rate': 2.8862333333333337e-05, 'epoch': 24.75}
+{'loss': 0.0418, 'grad_norm': 0.3656047284603119, 'learning_rate': 2.8862e-05, 'epoch': 24.76}
+{'loss': 0.0238, 'grad_norm': 0.32067063450813293, 'learning_rate': 2.886166666666667e-05, 'epoch': 24.76}
+{'loss': 0.0244, 'grad_norm': 0.2664825916290283, 'learning_rate': 2.8861333333333334e-05, 'epoch': 24.76}
+{'loss': 0.0197, 'grad_norm': 0.261997789144516, 'learning_rate': 2.8861e-05, 'epoch': 24.76}
+{'loss': 0.035, 'grad_norm': 0.3810383677482605, 'learning_rate': 2.8860666666666666e-05, 'epoch': 24.76}
+{'loss': 0.0398, 'grad_norm': 0.26574939489364624, 'learning_rate': 2.8860333333333336e-05, 'epoch': 24.76}
+{'loss': 0.0297, 'grad_norm': 0.33361557126045227, 'learning_rate': 2.8859999999999998e-05, 'epoch': 24.77}
+{'loss': 0.0255, 'grad_norm': 0.19486159086227417, 'learning_rate': 2.8859666666666667e-05, 'epoch': 24.77}
+{'loss': 0.0089, 'grad_norm': 0.23205748200416565, 'learning_rate': 2.8859333333333337e-05, 'epoch': 24.77}
+{'loss': 0.0266, 'grad_norm': 0.28048232197761536, 'learning_rate': 2.8859e-05, 'epoch': 24.77}
+{'loss': 0.0424, 'grad_norm': 0.2901442348957062, 'learning_rate': 2.885866666666667e-05, 'epoch': 24.77}
+{'loss': 0.0249, 'grad_norm': 0.19676855206489563, 'learning_rate': 2.8858333333333335e-05, 'epoch': 24.78}
+{'loss': 0.0037, 'grad_norm': 0.1431822031736374, 'learning_rate': 2.8858e-05, 'epoch': 24.78}
+{'loss': 0.0206, 'grad_norm': 0.17462551593780518, 'learning_rate': 2.8857666666666666e-05, 'epoch': 24.78}
+{'loss': 0.0037, 'grad_norm': 0.130209818482399, 'learning_rate': 2.8857333333333336e-05, 'epoch': 24.78}
+{'loss': 0.0085, 'grad_norm': 0.22776542603969574, 'learning_rate': 2.8857000000000002e-05, 'epoch': 24.78}
+{'loss': 0.0063, 'grad_norm': 0.22143611311912537, 'learning_rate': 2.8856666666666668e-05, 'epoch': 24.78}
+{'loss': 0.0047, 'grad_norm': 0.15124769508838654, 'learning_rate': 2.8856333333333337e-05, 'epoch': 24.79}
+{'loss': 0.004, 'grad_norm': 0.2723243832588196, 'learning_rate': 2.8856e-05, 'epoch': 24.79}
+{'loss': 0.0171, 'grad_norm': 0.41200390458106995, 'learning_rate': 2.885566666666667e-05, 'epoch': 24.79}
+{'loss': 0.0081, 'grad_norm': 0.17938579618930817, 'learning_rate': 2.885533333333333e-05, 'epoch': 24.79}
+{'loss': 0.0021, 'grad_norm': 0.12062520533800125, 'learning_rate': 2.8855e-05, 'epoch': 24.79}
+{'loss': 0.014, 'grad_norm': 0.5112106800079346, 'learning_rate': 2.8854666666666667e-05, 'epoch': 24.8}
+{'loss': 0.0039, 'grad_norm': 0.21921005845069885, 'learning_rate': 2.8854333333333333e-05, 'epoch': 24.8}
+{'loss': 0.0102, 'grad_norm': 0.4647342562675476, 'learning_rate': 2.8854000000000002e-05, 'epoch': 24.8}
+{'loss': 0.0029, 'grad_norm': 0.17171858251094818, 'learning_rate': 2.8853666666666668e-05, 'epoch': 24.8}
+{'loss': 0.0057, 'grad_norm': 0.39785921573638916, 'learning_rate': 2.8853333333333334e-05, 'epoch': 24.8}
+{'loss': 0.0053, 'grad_norm': 0.1778843104839325, 'learning_rate': 2.8853e-05, 'epoch': 24.81}
+{'loss': 0.0084, 'grad_norm': 0.26482951641082764, 'learning_rate': 2.885266666666667e-05, 'epoch': 24.81}
+{'loss': 0.0062, 'grad_norm': 0.5930157899856567, 'learning_rate': 2.885233333333333e-05, 'epoch': 24.81}
+{'loss': 0.008, 'grad_norm': 0.7362170815467834, 'learning_rate': 2.8852e-05, 'epoch': 24.81}
+{'loss': 0.01, 'grad_norm': 0.2874982953071594, 'learning_rate': 2.8851666666666667e-05, 'epoch': 24.81}
+{'loss': 0.0048, 'grad_norm': 0.2321842610836029, 'learning_rate': 2.8851333333333333e-05, 'epoch': 24.81}
+{'loss': 0.0074, 'grad_norm': 0.550155520439148, 'learning_rate': 2.8851000000000002e-05, 'epoch': 24.82}
+{'loss': 0.007, 'grad_norm': 0.4127471148967743, 'learning_rate': 2.8850666666666668e-05, 'epoch': 24.82}
+{'loss': 0.0131, 'grad_norm': 0.33397412300109863, 'learning_rate': 2.8850333333333334e-05, 'epoch': 24.82}
+{'loss': 0.0039, 'grad_norm': 0.25564906001091003, 'learning_rate': 2.885e-05, 'epoch': 24.82}
+{'loss': 0.0013, 'grad_norm': 0.0578516349196434, 'learning_rate': 2.884966666666667e-05, 'epoch': 24.82}
+{'loss': 0.0038, 'grad_norm': 0.14229914546012878, 'learning_rate': 2.8849333333333332e-05, 'epoch': 24.83}
+{'loss': 0.0081, 'grad_norm': 0.5849806070327759, 'learning_rate': 2.8849e-05, 'epoch': 24.83}
+{'loss': 0.0052, 'grad_norm': 0.2880188524723053, 'learning_rate': 2.884866666666667e-05, 'epoch': 24.83}
+{'loss': 0.0126, 'grad_norm': 0.32646384835243225, 'learning_rate': 2.8848333333333333e-05, 'epoch': 24.83}
+{'loss': 0.1134, 'grad_norm': 0.651218593120575, 'learning_rate': 2.8848000000000002e-05, 'epoch': 24.83}
+{'loss': 0.0834, 'grad_norm': 0.3713066577911377, 'learning_rate': 2.8847666666666668e-05, 'epoch': 24.83}
+{'loss': 0.061, 'grad_norm': 0.4958324730396271, 'learning_rate': 2.8847333333333334e-05, 'epoch': 24.84}
+{'loss': 0.0809, 'grad_norm': 0.5096185803413391, 'learning_rate': 2.8847e-05, 'epoch': 24.84}
+{'loss': 0.0972, 'grad_norm': 0.2968968451023102, 'learning_rate': 2.884666666666667e-05, 'epoch': 24.84}
+{'loss': 0.0804, 'grad_norm': 0.3534603416919708, 'learning_rate': 2.8846333333333332e-05, 'epoch': 24.84}
+{'loss': 0.0425, 'grad_norm': 0.3805117607116699, 'learning_rate': 2.8846e-05, 'epoch': 24.84}
+{'loss': 0.0254, 'grad_norm': 0.2468799501657486, 'learning_rate': 2.8845666666666667e-05, 'epoch': 24.85}
+{'loss': 0.0336, 'grad_norm': 0.4495117962360382, 'learning_rate': 2.8845333333333333e-05, 'epoch': 24.85}
+{'loss': 0.0221, 'grad_norm': 0.38449251651763916, 'learning_rate': 2.8845000000000003e-05, 'epoch': 24.85}
+{'loss': 0.0217, 'grad_norm': 0.38495227694511414, 'learning_rate': 2.8844666666666665e-05, 'epoch': 24.85}
+{'loss': 0.0275, 'grad_norm': 0.5466144680976868, 'learning_rate': 2.8844333333333334e-05, 'epoch': 24.85}
+{'loss': 0.0384, 'grad_norm': 0.4924391508102417, 'learning_rate': 2.8844e-05, 'epoch': 24.86}
+{'loss': 0.0243, 'grad_norm': 0.33810392022132874, 'learning_rate': 2.8843666666666666e-05, 'epoch': 24.86}
+{'loss': 0.0079, 'grad_norm': 0.17373476922512054, 'learning_rate': 2.8843333333333332e-05, 'epoch': 24.86}
+{'loss': 0.0169, 'grad_norm': 0.5740019083023071, 'learning_rate': 2.8843e-05, 'epoch': 24.86}
+{'loss': 0.0051, 'grad_norm': 0.1319696605205536, 'learning_rate': 2.8842666666666667e-05, 'epoch': 24.86}
+{'loss': 0.0219, 'grad_norm': 0.46193742752075195, 'learning_rate': 2.8842333333333333e-05, 'epoch': 24.86}
+ 13%|█▎        | 13477/100000 [7:22:28<41:07:15,  1.71s/it] 13%|█▎        | 13478/100000 [7:22:29<39:11:29,  1.63s/it]                                                            13%|█▎        | 13478/100000 [7:22:29<39:11:29,  1.63s/it] 13%|█▎        | 13479/100000 [7:22:31<37:55:07,  1.58s/it]                                                            13%|█▎        | 13479/100000 [7:22:31<37:55:07,  1.58s/it] 13%|█▎        | 13480/100000 [7:22:32<36:28:08,  1.52s/it]                                                            13%|█▎        | 13480/100000 [7:22:32<36:28:08,  1.52s/it] 13%|█▎        | 13481/100000 [7:22:34<35:31:37,  1.48s/it]                                                            13%|█▎        | 13481/100000 [7:22:34<35:31:37,  1.48s/it] 13%|█▎        | 13482/100000 [7:22:35<35:04:13,  1.46s/it]                                                            13%|█▎        | 13482/100000 [7:22:35<35:04:13,  1.46s/it] 13%|█▎        | 13483/100000 [7:22:36<34:24:29,  1.43s/it]                                                            13%|█▎        | 13483/100000 [7:22:36<34:24:29,  1.43s/it] 13%|█▎        | 13484/100000 [7:22:38<33:32:23,  1.40s/it]                                                            13%|█▎        | 13484/100000 [7:22:38<33:32:23,  1.40s/it] 13%|█▎        | 13485/100000 [7:22:39<33:05:16,  1.38s/it]                                                            13%|█▎        | 13485/100000 [7:22:39<33:05:16,  1.38s/it] 13%|█▎        | 13486/100000 [7:22:40<32:33:41,  1.35s/it]                                                            13%|█▎        | 13486/100000 [7:22:40<32:33:41,  1.35s/it] 13%|█▎        | 13487/100000 [7:22:42<32:01:32,  1.33s/it]                                                            13%|█▎        | 13487/100000 [7:22:42<32:01:32,  1.33s/it] 13%|█▎        | 13488/100000 [7:22:43<31:30:37,  1.31s/it]                                                            13%|█▎        | 13488/100000 [7:22:43<31:30:37,  1.31s/it] 13%|█▎        | 13489/100000 [7:22:44<31:04:19,  1.29s/it]                                                            13%|█▎        | 13489/100000 [7:22:44<31:04:19,  1.29s/it] 13%|█▎        | 13490/100000 [7:22:45<30:29:34,  1.27s/it]                                                            13%|█▎        | 13490/100000 [7:22:45<30:29:34,  1.27s/it] 13%|█▎        | 13491/100000 [7:22:47<30:03:00,  1.25s/it]                                                            13%|█▎        | 13491/100000 [7:22:47<30:03:00,  1.25s/it] 13%|█▎        | 13492/100000 [7:22:48<29:03:54,  1.21s/it]                                                            13%|█▎        | 13492/100000 [7:22:48<29:03:54,  1.21s/it] 13%|█▎        | 13493/100000 [7:22:49<28:33:03,  1.19s/it]                                                            13%|█▎        | 13493/100000 [7:22:49<28:33:03,  1.19s/it] 13%|█▎        | 13494/100000 [7:22:50<28:14:11,  1.18s/it]                                                            13%|█▎        | 13494/100000 [7:22:50<28:14:11,  1.18s/it] 13%|█▎        | 13495/100000 [7:22:51<27:54:28,  1.16s/it]                                                            13%|█▎        | 13495/100000 [7:22:51<27:54:28,  1.16s/it] 13%|█▎        | 13496/100000 [7:22:52<27:21:49,  1.14s/it]                                                            13%|█▎        | 13496/100000 [7:22:52<27:21:49,  1.14s/it] 13%|█▎        | 13497/100000 [7:22:53<27:08:33,  1.13s/it]                                                            13%|█▎        | 13497/100000 [7:22:53<27:08:33,  1.13s/it] 13%|█▎        | 13498/100000 [7:22:54<26:52:58,  1.12s/it]                                                            13%|█▎        | 13498/100000 [7:22:54<26:52:58,  1.12s/it] 13%|█▎        | 13499/100000 [7:22:55<26:20:40,  1.10s/it]                                                            13%|█▎        | 13499/100000 [7:22:55<26:20:40,  1.10s/it] 14%|█▎        | 13500/100000 [7:22:57<26:10:43,  1.09s/it]                                                            14%|█▎        | 13500/100000 [7:22:57<26:10:43,  1.09s/it] 14%|█▎        | 13501/100000 [7:22:58<25:39:07,  1.07s/it]                                                            14%|█▎        | 13501/100000 [7:22:58<25:39:07,  1.07s/it] 14%|█▎        | 13502/100000 [7:22:59<25:21:49,  1.06s/it]                                                            14%|█▎        | 13502/100000 [7:22:59<25:21:49,  1.06s/it] 14%|█▎        | 13503/100000 [7:23:00<24:48:45,  1.03s/it]                                                            14%|█▎        | 13503/100000 [7:23:00<24:48:45,  1.03s/it] 14%|█▎        | 13504/100000 [7:23:01<24:20:10,  1.01s/it]                                                            14%|█▎        | 13504/100000 [7:23:01<24:20:10,  1.01s/it] 14%|█▎        | 13505/100000 [7:23:01<23:50:32,  1.01it/s]                                                            14%|█▎        | 13505/100000 [7:23:01<23:50:32,  1.01it/s] 14%|█▎        | 13506/100000 [7:23:02<23:30:23,  1.02it/s]                                                            14%|█▎        | 13506/100000 [7:23:02<23:30:23,  1.02it/s] 14%|█▎        | 13507/100000 [7:23:03<23:15:01,  1.03it/s]                                                            14%|█▎        | 13507/100000 [7:23:03<23:15:01,  1.03it/s] 14%|█▎        | 13508/100000 [7:23:04<22:17:19,  1.08it/s]                                                            14%|█▎        | 13508/100000 [7:23:04<22:17:19,  1.08it/s] 14%|█▎        | 13509/100000 [7:23:14<82:57:17,  3.45s/it]                                                            14%|█▎        | 13509/100000 [7:23:14<82:57:17,  3.45s/it] 14%|█▎        | 13510/100000 [7:23:19<95:12:26,  3.96s/it]                                                            14%|█▎        | 13510/100000 [7:23:19<95:12:26,  3.96s/it] 14%|█▎        | 13511/100000 [7:23:23<96:59:29,  4.04s/it]                                                            14%|█▎        | 13511/100000 [7:23:23<96:59:29,  4.04s/it] 14%|█▎        | 13512/100000 [7:23:27<94:39:55,  3.94s/it]                                                            14%|█▎        | 13512/100000 [7:23:27<94:39:55,  3.94s/it] 14%|█▎        | 13513/100000 [7:23:30<89:21:37,  3.72s/it]                                                            14%|█▎        | 13513/100000 [7:23:30<89:21:37,  3.72s/it] 14%|█▎        | 13514/100000 [7:23:33<83:37:16,  3.48s/it]                                                            14%|█▎        | 13514/100000 [7:23:33<83:37:16,  3.48s/it] 14%|█▎        | 13515/100000 [7:23:35<77:11:13,  3.21s/it]                                                            14%|█▎        | 13515/100000 [7:23:35<77:11:13,  3.21s/it] 14%|█▎        | 13516/100000 [7:23:38<71:13:56,  2.97s/it]                                                            14%|█▎        | 13516/100000 [7:23:38<71:13:56,  2.97s/it] 14%|█▎        | 13517/100000 [7:23:40<65:30:30,  2.73s/it]                                                            14%|█▎        | 13517/100000 [7:23:40<65:30:30,  2.73s/it] 14%|█▎        | 13518/100000 [7:23:42<60:17:11,  2.51s/it]                                                            14%|█▎        | 13518/100000 [7:23:42<60:17:11,  2.51s/it] 14%|█▎        | 13519/100000 [7:23:44<55:39:01,  2.32s/it]                                                            14%|█▎        | 13519/100000 [7:23:44<55:39:01,  2.32s/it] 14%|█▎        | 13520/100000 [7:23:45<51:26:25,  2.14s/it]                                                            14%|█▎        | 13520/100000 [7:23:45<51:26:25,  2.14s/it] 14%|█▎        | 13521/100000 [7:23:47<48:08:26,  2.00s/it]                                                            14%|█▎        | 13521/100000 [7:23:47<48:08:26,  2.00s/it] 14%|█▎        | 13522/100000 [7:23:49<44:59:59,  1.87s/it]                                                            14%|█▎        | 13522/100000 [7:23:49<44:59:59,  1.87s/it] 14%|█▎        | 13523/100000 [7:23:50<42:43:06,  1.78s/it]                                                            14%|█▎        | 13523/100000 [7:23:50<42:43:06,  1.78s/it] 14%|█▎        | 13524/100000 [7:23:52<40:43:35,  1.70s/it]                                                            14%|█▎        | 13524/100000 [7:23:52<40:43:35,  1.70s/it] 14%|█▎        | 13525/100000 [7:23:53<38:59:24,  1.62s/it]                                                            14%|█▎        | 13525/100000 [7:23:53<38:59:24,  1.62s/it] 14%|█▎        | 13526/100000 [7:23:55<37:19:26,  1.55s/it]                                                            14%|█▎        | 13526/100000 [7:23:55<37:19:26,  1.55s/it] 14%|█▎        | 13527/100000 [7:23:56<36:14:31,  1.51s/it]                                                            14%|█▎        | 13527/100000 [7:23:56<36:14:31,  1.51s/it] 14%|█▎        | 13528/100000 [7:23:57<34:51:11,  1.45s/it]                                                            14%|█▎        | 13528/100000 [7:23:57<34:51:11,  1.45s/it] 14%|█▎        | 13529/100000 [7:23:59<33:59:56,  1.42s/it]                                                            14%|█▎        | 13529/100000 [7:23:59<33:59:56,  1.42s/it] 14%|█▎        | 13530/100000 [7:24:00<33:21:37,  1.39s/it]                                                            14%|█▎        | 13530/100000 [7:24:00<33:21:37,  1.39s/it] 14%|█▎        | 13531/100000 [7:24:01<32:32:36,  1.35s/it]                                                            14%|█▎        | 13531/100000 [7:24:01<32:32:36,  1.35s/it] 14%|█▎        | 13532/100000 [7:24:03<31:56:57,  1.33s/it]                                                            14%|█▎        | 13532/100000 [7:24:03<31:56:57,  1.33s/it] 14%|█▎        | 13533/100000 [7:24:04<31:19:14,  1.30s/it]                                                            14%|█▎        | 13533/100000 [7:24:04<31:19:14,  1.30s/it] 14%|█▎        | 13534/100000 [7:24:05<30:43:43,  1.28s/it]                                                            14%|█▎        | 13534/100000 [7:24:05<30:43:43,  1.28s/it] 14%|█▎        | 13535/100000 [7:24:06<30:06:29,  1.25s/it]                                                            14%|█▎        | 13535/100000 [7:24:06<30:06:29,  1.25s/it] 14%|█▎        | 13536/100000 [7:24:07<29:46:17,  1.24s/it]                                                            14%|█▎        | 13536/100000 [7:24:07<29:46:17,  1.24s/it] 14%|█▎        | 13537/100000 [7:24:09<29:16:00,  1.22s/it]                                                            14%|█▎        | 13537/100000 [7:24:09<29:16:00,  1.22s/it] 14%|█▎        | 13538/100000 [7:24:10<28:36:52,  1.19s/it]                                                            14%|█▎        | 13538/100000 [7:24:10<28:36:52,  1.19s/it] 14%|█▎        | 13539/100000 [7:24:11<28:08:08,  1.17s/it]                                                            14%|█▎        | 13539/100000 [7:24:11<28:08:08,  1.17s/it] 14%|█▎        | 13540/100000 [7:24:12<27:30:36,  1.15s/it]                                                            14%|█▎        | 13540/100000 [7:24:12<27:30:36,  1.15s/it] 14%|█▎        | 13541/100000 [7:24:13<27:07:57,  1.13s/it]                                                            14%|█▎        | 13541/100000 [7:24:13<27:07:57,  1.13s/it] 14%|█▎        | 13542/100000 [7:24:14<26:36:22,  1.11s/it]                                                            14%|█▎        | 13542/100000 [7:24:14<26:36:22,  1.11s/it] 14%|█▎        | 13543/100000 [7:24:15<26:17:36,  1.09s/it]                                                            14%|█▎        | 13543/100000 [7:24:15<26:17:36,  1.09s/it] 14%|█▎        | 13544/100000 [7:24:16<25:58:02,  1.08s/it]                                                            14%|█▎        | 13544/100000 [7:24:16<25:58:02,  1.08s/it] 14%|█▎        | 13545/100000 [7:24:17<26:26:14,  1.10s/it]                                                            14%|█▎        | 13545/100000 [7:24:17<26:26:14,  1.10s/it] 14%|█▎        | 13546/100000 [7:24:18<25:13:23,  1.05s/it]                                                            14%|█▎        | 13546/100000 [7:24:18<25:13:23,  1.05s/it] 14%|█▎        | 13547/100000 [7:24:19<24:15:31,  1.01s/it]                                                            14%|█▎        | 13547/100000 [7:24:19<24:15:31,  1.01s/it] 14%|█▎        | 13548/100000 [7:24:20<23:30:33,  1.02it/s]                                                            14%|█▎        | 13548/100000 [7:24:20<23:30:33,  1.02it/s] 14%|█▎        | 13549/100000 [7:24:21<22:52:47,  1.05it/s]                                                            14%|█▎        | 13549/100000 [7:24:21<22:52:47,  1.05it/s] 14%|█▎        | 13550/100000 [7:24:22<21:46:04,  1.10it/s]                                                            14%|█▎        | 13550/100000 [7:24:22<21:46:04,  1.10it/s]{'loss': 0.0043, 'grad_norm': 0.13610051572322845, 'learning_rate': 2.8842000000000003e-05, 'epoch': 24.87}
+{'loss': 0.0078, 'grad_norm': 0.2926333248615265, 'learning_rate': 2.8841666666666665e-05, 'epoch': 24.87}
+{'loss': 0.0068, 'grad_norm': 0.35700613260269165, 'learning_rate': 2.8841333333333335e-05, 'epoch': 24.87}
+{'loss': 0.0059, 'grad_norm': 0.4237408936023712, 'learning_rate': 2.8841e-05, 'epoch': 24.87}
+{'loss': 0.0112, 'grad_norm': 0.26153576374053955, 'learning_rate': 2.8840666666666666e-05, 'epoch': 24.87}
+{'loss': 0.0069, 'grad_norm': 0.22728842496871948, 'learning_rate': 2.8840333333333336e-05, 'epoch': 24.88}
+{'loss': 0.0142, 'grad_norm': 0.22643160820007324, 'learning_rate': 2.8840000000000002e-05, 'epoch': 24.88}
+{'loss': 0.0188, 'grad_norm': 0.2977308928966522, 'learning_rate': 2.8839666666666668e-05, 'epoch': 24.88}
+{'loss': 0.0048, 'grad_norm': 0.17739634215831757, 'learning_rate': 2.8839333333333334e-05, 'epoch': 24.88}
+{'loss': 0.0024, 'grad_norm': 0.1741904318332672, 'learning_rate': 2.8839000000000003e-05, 'epoch': 24.88}
+{'loss': 0.0073, 'grad_norm': 0.2034701704978943, 'learning_rate': 2.8838666666666665e-05, 'epoch': 24.88}
+{'loss': 0.0707, 'grad_norm': 0.24229569733142853, 'learning_rate': 2.8838333333333335e-05, 'epoch': 24.89}
+{'loss': 0.0124, 'grad_norm': 0.49798405170440674, 'learning_rate': 2.8838e-05, 'epoch': 24.89}
+{'loss': 0.0045, 'grad_norm': 0.29836997389793396, 'learning_rate': 2.8837666666666667e-05, 'epoch': 24.89}
+{'loss': 0.0053, 'grad_norm': 0.2838921546936035, 'learning_rate': 2.8837333333333336e-05, 'epoch': 24.89}
+{'loss': 0.0093, 'grad_norm': 0.2837573289871216, 'learning_rate': 2.8837000000000002e-05, 'epoch': 24.89}
+{'loss': 0.0037, 'grad_norm': 0.12989038228988647, 'learning_rate': 2.8836666666666668e-05, 'epoch': 24.9}
+{'loss': 0.0057, 'grad_norm': 0.22318127751350403, 'learning_rate': 2.8836333333333334e-05, 'epoch': 24.9}
+{'loss': 0.01, 'grad_norm': 0.30415669083595276, 'learning_rate': 2.8836000000000003e-05, 'epoch': 24.9}
+{'loss': 0.0038, 'grad_norm': 0.11953115463256836, 'learning_rate': 2.8835666666666666e-05, 'epoch': 24.9}
+{'loss': 0.0108, 'grad_norm': 0.3473064601421356, 'learning_rate': 2.8835333333333335e-05, 'epoch': 24.9}
+{'loss': 0.0097, 'grad_norm': 0.30331888794898987, 'learning_rate': 2.8834999999999998e-05, 'epoch': 24.9}
+{'loss': 0.013, 'grad_norm': 0.4642525315284729, 'learning_rate': 2.8834666666666667e-05, 'epoch': 24.91}
+{'loss': 0.0106, 'grad_norm': 0.23262901604175568, 'learning_rate': 2.8834333333333336e-05, 'epoch': 24.91}
+{'loss': 0.0037, 'grad_norm': 0.22102048993110657, 'learning_rate': 2.8834e-05, 'epoch': 24.91}
+{'loss': 0.0084, 'grad_norm': 0.44870537519454956, 'learning_rate': 2.8833666666666668e-05, 'epoch': 24.91}
+{'loss': 0.0049, 'grad_norm': 0.1932738572359085, 'learning_rate': 2.8833333333333334e-05, 'epoch': 24.91}
+{'loss': 0.0096, 'grad_norm': 0.3363226056098938, 'learning_rate': 2.8833e-05, 'epoch': 24.92}
+{'loss': 0.0088, 'grad_norm': 0.2664887309074402, 'learning_rate': 2.8832666666666666e-05, 'epoch': 24.92}
+{'loss': 0.0173, 'grad_norm': 0.34887585043907166, 'learning_rate': 2.8832333333333335e-05, 'epoch': 24.92}
+{'loss': 0.0062, 'grad_norm': 0.1695641726255417, 'learning_rate': 2.8832e-05, 'epoch': 24.92}
+{'loss': 0.0023, 'grad_norm': 0.09887981414794922, 'learning_rate': 2.8831666666666667e-05, 'epoch': 24.92}
+{'loss': 0.1358, 'grad_norm': 0.6092426180839539, 'learning_rate': 2.8831333333333336e-05, 'epoch': 24.93}
+{'loss': 0.0617, 'grad_norm': 0.3662014603614807, 'learning_rate': 2.8831e-05, 'epoch': 24.93}
+{'loss': 0.0661, 'grad_norm': 0.38646215200424194, 'learning_rate': 2.8830666666666668e-05, 'epoch': 24.93}
+{'loss': 0.1526, 'grad_norm': 0.6269811987876892, 'learning_rate': 2.8830333333333334e-05, 'epoch': 24.93}
+{'loss': 0.0508, 'grad_norm': 0.3474038243293762, 'learning_rate': 2.883e-05, 'epoch': 24.93}
+{'loss': 0.0335, 'grad_norm': 0.3669436573982239, 'learning_rate': 2.8829666666666666e-05, 'epoch': 24.93}
+{'loss': 0.0312, 'grad_norm': 0.3087623119354248, 'learning_rate': 2.8829333333333335e-05, 'epoch': 24.94}
+{'loss': 0.0507, 'grad_norm': 0.4781001806259155, 'learning_rate': 2.8829e-05, 'epoch': 24.94}
+{'loss': 0.0321, 'grad_norm': 0.26677459478378296, 'learning_rate': 2.8828666666666667e-05, 'epoch': 24.94}
+{'loss': 0.0253, 'grad_norm': 0.3729875981807709, 'learning_rate': 2.8828333333333337e-05, 'epoch': 24.94}
+{'loss': 0.0217, 'grad_norm': 0.3847418427467346, 'learning_rate': 2.8828e-05, 'epoch': 24.94}
+{'loss': 0.0143, 'grad_norm': 0.3041211664676666, 'learning_rate': 2.882766666666667e-05, 'epoch': 24.95}
+{'loss': 0.0477, 'grad_norm': 0.6895516514778137, 'learning_rate': 2.8827333333333334e-05, 'epoch': 24.95}
+{'loss': 0.0163, 'grad_norm': 0.6736093163490295, 'learning_rate': 2.8827e-05, 'epoch': 24.95}
+{'loss': 0.0078, 'grad_norm': 0.15927226841449738, 'learning_rate': 2.8826666666666666e-05, 'epoch': 24.95}
+{'loss': 0.0118, 'grad_norm': 0.2903159558773041, 'learning_rate': 2.8826333333333336e-05, 'epoch': 24.95}
+{'loss': 0.0081, 'grad_norm': 0.23991265892982483, 'learning_rate': 2.8826e-05, 'epoch': 24.95}
+{'loss': 0.008, 'grad_norm': 0.17719998955726624, 'learning_rate': 2.8825666666666667e-05, 'epoch': 24.96}
+{'loss': 0.0066, 'grad_norm': 0.266058087348938, 'learning_rate': 2.8825333333333333e-05, 'epoch': 24.96}
+{'loss': 0.007, 'grad_norm': 0.16486336290836334, 'learning_rate': 2.8825e-05, 'epoch': 24.96}
+{'loss': 0.0033, 'grad_norm': 0.10596636682748795, 'learning_rate': 2.882466666666667e-05, 'epoch': 24.96}
+{'loss': 0.0086, 'grad_norm': 0.43525850772857666, 'learning_rate': 2.882433333333333e-05, 'epoch': 24.96}
+{'loss': 0.008, 'grad_norm': 0.17290306091308594, 'learning_rate': 2.8824e-05, 'epoch': 24.97}
+{'loss': 0.0079, 'grad_norm': 0.3244077265262604, 'learning_rate': 2.882366666666667e-05, 'epoch': 24.97}
+{'loss': 0.0047, 'grad_norm': 0.16322195529937744, 'learning_rate': 2.8823333333333332e-05, 'epoch': 24.97}
+{'loss': 0.0026, 'grad_norm': 0.09850552678108215, 'learning_rate': 2.8823000000000002e-05, 'epoch': 24.97}
+{'loss': 0.008, 'grad_norm': 0.17957203090190887, 'learning_rate': 2.8822666666666668e-05, 'epoch': 24.97}
+{'loss': 0.0103, 'grad_norm': 0.42165297269821167, 'learning_rate': 2.8822333333333334e-05, 'epoch': 24.98}
+{'loss': 0.0082, 'grad_norm': 0.21143174171447754, 'learning_rate': 2.8822e-05, 'epoch': 24.98}
+{'loss': 0.0063, 'grad_norm': 0.1594984382390976, 'learning_rate': 2.882166666666667e-05, 'epoch': 24.98}
+{'loss': 0.0041, 'grad_norm': 0.13408170640468597, 'learning_rate': 2.882133333333333e-05, 'epoch': 24.98}
+{'loss': 0.0056, 'grad_norm': 0.19753006100654602, 'learning_rate': 2.8821e-05, 'epoch': 24.98}
+{'loss': 0.0076, 'grad_norm': 0.21510076522827148, 'learning_rate': 2.882066666666667e-05, 'epoch': 24.98}
+{'loss': 0.003, 'grad_norm': 0.10175257921218872, 'learning_rate': 2.8820333333333333e-05, 'epoch': 24.99}
+{'loss': 0.0031, 'grad_norm': 0.10908100754022598, 'learning_rate': 2.8820000000000002e-05, 'epoch': 24.99}
+{'loss': 0.0077, 'grad_norm': 0.37116262316703796, 'learning_rate': 2.8819666666666668e-05, 'epoch': 24.99}
+{'loss': 0.0027, 'grad_norm': 0.13784131407737732, 'learning_rate': 2.8819333333333334e-05, 'epoch': 24.99}
+{'loss': 0.0063, 'grad_norm': 0.1495315283536911, 'learning_rate': 2.8819e-05, 'epoch': 24.99}
+{'loss': 0.004, 'grad_norm': 0.17947818338871002, 'learning_rate': 2.881866666666667e-05, 'epoch': 25.0}
+{'loss': 0.0035, 'grad_norm': 0.22032637894153595, 'learning_rate': 2.881833333333333e-05, 'epoch': 25.0}
+{'loss': 0.002, 'grad_norm': 0.08717142790555954, 'learning_rate': 2.8818e-05, 'epoch': 25.0}
+{'loss': 0.0297, 'grad_norm': 0.766228973865509, 'learning_rate': 2.881766666666667e-05, 'epoch': 25.0}
+ 14%|█▎        | 13551/100000 [7:24:40<145:29:18,  6.06s/it]                                                             14%|█▎        | 13551/100000 [7:24:40<145:29:18,  6.06s/it] 14%|█▎        | 13552/100000 [7:24:45<138:57:42,  5.79s/it]                                                             14%|█▎        | 13552/100000 [7:24:45<138:57:42,  5.79s/it] 14%|█▎        | 13553/100000 [7:24:49<129:20:37,  5.39s/it]                                                             14%|█▎        | 13553/100000 [7:24:49<129:20:37,  5.39s/it] 14%|█▎        | 13554/100000 [7:24:53<118:39:34,  4.94s/it]                                                             14%|█▎        | 13554/100000 [7:24:53<118:39:34,  4.94s/it] 14%|█▎        | 13555/100000 [7:24:57<108:22:02,  4.51s/it]                                                             14%|█▎        | 13555/100000 [7:24:57<108:22:02,  4.51s/it] 14%|█▎        | 13556/100000 [7:25:00<98:21:44,  4.10s/it]                                                             14%|█▎        | 13556/100000 [7:25:00<98:21:44,  4.10s/it] 14%|█▎        | 13557/100000 [7:25:03<89:48:53,  3.74s/it]                                                            14%|█▎        | 13557/100000 [7:25:03<89:48:53,  3.74s/it] 14%|█▎        | 13558/100000 [7:25:06<82:17:00,  3.43s/it]                                                            14%|█▎        | 13558/100000 [7:25:06<82:17:00,  3.43s/it] 14%|█▎        | 13559/100000 [7:25:08<75:18:26,  3.14s/it]                                                            14%|█▎        | 13559/100000 [7:25:08<75:18:26,  3.14s/it] 14%|█▎        | 13560/100000 [7:25:10<68:41:39,  2.86s/it]                                                            14%|█▎        | 13560/100000 [7:25:10<68:41:39,  2.86s/it] 14%|█▎        | 13561/100000 [7:25:12<63:29:41,  2.64s/it]                                                            14%|█▎        | 13561/100000 [7:25:12<63:29:41,  2.64s/it] 14%|█▎        | 13562/100000 [7:25:14<57:55:49,  2.41s/it]                                                            14%|█▎        | 13562/100000 [7:25:14<57:55:49,  2.41s/it] 14%|█▎        | 13563/100000 [7:25:16<53:54:33,  2.25s/it]                                                            14%|█▎        | 13563/100000 [7:25:16<53:54:33,  2.25s/it] 14%|█▎        | 13564/100000 [7:25:18<50:42:31,  2.11s/it]                                                            14%|█▎        | 13564/100000 [7:25:18<50:42:31,  2.11s/it] 14%|█▎        | 13565/100000 [7:25:20<47:59:18,  2.00s/it]                                                            14%|█▎        | 13565/100000 [7:25:20<47:59:18,  2.00s/it] 14%|█▎        | 13566/100000 [7:25:21<45:41:43,  1.90s/it]                                                            14%|█▎        | 13566/100000 [7:25:21<45:41:43,  1.90s/it] 14%|█▎        | 13567/100000 [7:25:23<43:41:18,  1.82s/it]                                                            14%|█▎        | 13567/100000 [7:25:23<43:41:18,  1.82s/it] 14%|█▎        | 13568/100000 [7:25:25<41:52:39,  1.74s/it]                                                            14%|█▎        | 13568/100000 [7:25:25<41:52:39,  1.74s/it] 14%|█▎        | 13569/100000 [7:25:26<40:19:49,  1.68s/it]                                                            14%|█▎        | 13569/100000 [7:25:26<40:19:49,  1.68s/it] 14%|█▎        | 13570/100000 [7:25:28<38:26:02,  1.60s/it]                                                            14%|█▎        | 13570/100000 [7:25:28<38:26:02,  1.60s/it] 14%|█▎        | 13571/100000 [7:25:29<37:23:03,  1.56s/it]                                                            14%|█▎        | 13571/100000 [7:25:29<37:23:03,  1.56s/it] 14%|█▎        | 13572/100000 [7:25:30<36:18:30,  1.51s/it]                                                            14%|█▎        | 13572/100000 [7:25:30<36:18:30,  1.51s/it] 14%|█▎        | 13573/100000 [7:25:32<35:26:36,  1.48s/it]                                                            14%|█▎        | 13573/100000 [7:25:32<35:26:36,  1.48s/it] 14%|█▎        | 13574/100000 [7:25:33<34:37:32,  1.44s/it]                                                            14%|█▎        | 13574/100000 [7:25:33<34:37:32,  1.44s/it] 14%|█▎        | 13575/100000 [7:25:34<34:02:19,  1.42s/it]                                                            14%|█▎        | 13575/100000 [7:25:34<34:02:19,  1.42s/it] 14%|█▎        | 13576/100000 [7:25:36<33:37:55,  1.40s/it]                                                            14%|█▎        | 13576/100000 [7:25:36<33:37:55,  1.40s/it] 14%|█▎        | 13577/100000 [7:25:37<33:12:21,  1.38s/it]                                                            14%|█▎        | 13577/100000 [7:25:37<33:12:21,  1.38s/it] 14%|█▎        | 13578/100000 [7:25:38<32:38:43,  1.36s/it]                                                            14%|█▎        | 13578/100000 [7:25:39<32:38:43,  1.36s/it] 14%|█▎        | 13579/100000 [7:25:40<32:10:22,  1.34s/it]                                                            14%|█▎        | 13579/100000 [7:25:40<32:10:22,  1.34s/it] 14%|█▎        | 13580/100000 [7:25:41<31:46:48,  1.32s/it]                                                            14%|█▎        | 13580/100000 [7:25:41<31:46:48,  1.32s/it] 14%|█▎        | 13581/100000 [7:25:42<31:17:07,  1.30s/it]                                                            14%|█▎        | 13581/100000 [7:25:42<31:17:07,  1.30s/it] 14%|█▎        | 13582/100000 [7:25:44<30:37:27,  1.28s/it]                                                            14%|█▎        | 13582/100000 [7:25:44<30:37:27,  1.28s/it] 14%|█▎        | 13583/100000 [7:25:45<30:03:47,  1.25s/it]                                                            14%|█▎        | 13583/100000 [7:25:45<30:03:47,  1.25s/it] 14%|█▎        | 13584/100000 [7:25:46<29:49:18,  1.24s/it]                                                            14%|█▎        | 13584/100000 [7:25:46<29:49:18,  1.24s/it] 14%|█▎        | 13585/100000 [7:25:47<29:05:29,  1.21s/it]                                                            14%|█▎        | 13585/100000 [7:25:47<29:05:29,  1.21s/it] 14%|█▎        | 13586/100000 [7:25:48<28:42:16,  1.20s/it]                                                            14%|█▎        | 13586/100000 [7:25:48<28:42:16,  1.20s/it] 14%|█▎        | 13587/100000 [7:25:49<28:01:10,  1.17s/it]                                                            14%|█▎        | 13587/100000 [7:25:49<28:01:10,  1.17s/it] 14%|█▎        | 13588/100000 [7:25:50<27:41:58,  1.15s/it]                                                            14%|█▎        | 13588/100000 [7:25:50<27:41:58,  1.15s/it] 14%|█▎        | 13589/100000 [7:25:52<27:13:24,  1.13s/it]                                                            14%|█▎        | 13589/100000 [7:25:52<27:13:24,  1.13s/it] 14%|█▎        | 13590/100000 [7:25:53<26:55:28,  1.12s/it]                                                            14%|█▎        | 13590/100000 [7:25:53<26:55:28,  1.12s/it] 14%|█▎        | 13591/100000 [7:25:54<26:26:13,  1.10s/it]                                                            14%|█▎        | 13591/100000 [7:25:54<26:26:13,  1.10s/it] 14%|█▎        | 13592/100000 [7:25:55<26:12:26,  1.09s/it]                                                            14%|█▎        | 13592/100000 [7:25:55<26:12:26,  1.09s/it] 14%|█▎        | 13593/100000 [7:25:56<25:58:55,  1.08s/it]                                                            14%|█▎        | 13593/100000 [7:25:56<25:58:55,  1.08s/it] 14%|█▎        | 13594/100000 [7:25:57<25:41:05,  1.07s/it]                                                            14%|█▎        | 13594/100000 [7:25:57<25:41:05,  1.07s/it] 14%|█▎        | 13595/100000 [7:25:58<24:58:30,  1.04s/it]                                                            14%|█▎        | 13595/100000 [7:25:58<24:58:30,  1.04s/it] 14%|█▎        | 13596/100000 [7:25:59<24:22:39,  1.02s/it]                                                            14%|█▎        | 13596/100000 [7:25:59<24:22:39,  1.02s/it] 14%|█▎        | 13597/100000 [7:26:00<23:59:18,  1.00it/s]                                                            14%|█▎        | 13597/100000 [7:26:00<23:59:18,  1.00it/s] 14%|█▎        | 13598/100000 [7:26:01<23:29:46,  1.02it/s]                                                            14%|█▎        | 13598/100000 [7:26:01<23:29:46,  1.02it/s] 14%|█▎        | 13599/100000 [7:26:02<23:08:02,  1.04it/s]                                                            14%|█▎        | 13599/100000 [7:26:02<23:08:02,  1.04it/s] 14%|█▎        | 13600/100000 [7:26:03<22:37:19,  1.06it/s]                                                            14%|█▎        | 13600/100000 [7:26:03<22:37:19,  1.06it/s] 14%|█▎        | 13601/100000 [7:26:14<99:43:59,  4.16s/it]                                                            14%|█▎        | 13601/100000 [7:26:14<99:43:59,  4.16s/it] 14%|█▎        | 13602/100000 [7:26:20<112:07:55,  4.67s/it]                                                             14%|█▎        | 13602/100000 [7:26:20<112:07:55,  4.67s/it] 14%|█▎        | 13603/100000 [7:26:25<111:49:47,  4.66s/it]                                                             14%|█▎        | 13603/100000 [7:26:25<111:49:47,  4.66s/it] 14%|█▎        | 13604/100000 [7:26:29<105:57:59,  4.42s/it]                                                             14%|█▎        | 13604/100000 [7:26:29<105:57:59,  4.42s/it] 14%|█▎        | 13605/100000 [7:26:32<97:27:23,  4.06s/it]                                                             14%|█▎        | 13605/100000 [7:26:32<97:27:23,  4.06s/it] 14%|█▎        | 13606/100000 [7:26:35<91:04:24,  3.79s/it]                                                            14%|█▎        | 13606/100000 [7:26:35<91:04:24,  3.79s/it] 14%|█▎        | 13607/100000 [7:26:38<85:14:54,  3.55s/it]                                                            14%|█▎        | 13607/100000 [7:26:38<85:14:54,  3.55s/it] 14%|█▎        | 13608/100000 [7:26:41<79:37:00,  3.32s/it]                                                            14%|█▎        | 13608/100000 [7:26:41<79:37:00,  3.32s/it] 14%|█▎        | 13609/100000 [7:26:43<73:55:17,  3.08s/it]                                                            14%|█▎        | 13609/100000 [7:26:43<73:55:17,  3.08s/it] 14%|█▎        | 13610/100000 [7:26:45<67:47:02,  2.82s/it]                                                            14%|█▎        | 13610/100000 [7:26:45<67:47:02,  2.82s/it] 14%|█▎        | 13611/100000 [7:26:48<63:09:02,  2.63s/it]                                                            14%|█▎        | 13611/100000 [7:26:48<63:09:02,  2.63s/it] 14%|█▎        | 13612/100000 [7:26:50<58:47:38,  2.45s/it]                                                            14%|█▎        | 13612/100000 [7:26:50<58:47:38,  2.45s/it] 14%|█▎        | 13613/100000 [7:26:52<55:03:23,  2.29s/it]                                                            14%|█▎        | 13613/100000 [7:26:52<55:03:23,  2.29s/it] 14%|█▎        | 13614/100000 [7:26:53<51:45:54,  2.16s/it]                                                            14%|█▎        | 13614/100000 [7:26:53<51:45:54,  2.16s/it] 14%|█▎        | 13615/100000 [7:26:55<48:48:49,  2.03s/it]                                                            14%|█▎        | 13615/100000 [7:26:55<48:48:49,  2.03s/it] 14%|█▎        | 13616/100000 [7:26:57<46:23:46,  1.93s/it]                                                            14%|█▎        | 13616/100000 [7:26:57<46:23:46,  1.93s/it] 14%|█▎        | 13617/100000 [7:26:58<44:02:09,  1.84s/it]                                                            14%|█▎        | 13617/100000 [7:26:59<44:02:09,  1.84s/it] 14%|█▎        | 13618/100000 [7:27:00<42:23:50,  1.77s/it]                                                            14%|█▎        | 13618/100000 [7:27:00<42:23:50,  1.77s/it] 14%|█▎        | 13619/100000 [7:27:02<40:45:08,  1.70s/it]                                                            14%|█▎        | 13619/100000 [7:27:02<40:45:08,  1.70s/it] 14%|█▎        | 13620/100000 [7:27:03<39:03:59,  1.63s/it]                                                            14%|█▎        | 13620/100000 [7:27:03<39:03:59,  1.63s/it] 14%|█▎        | 13621/100000 [7:27:04<37:17:50,  1.55s/it]                                                            14%|█▎        | 13621/100000 [7:27:04<37:17:50,  1.55s/it] 14%|█▎        | 13622/100000 [7:27:06<36:13:59,  1.51s/it]                                                            14%|█▎        | 13622/100000 [7:27:06<36:13:59,  1.51s/it] 14%|█▎        | 13623/100000 [7:27:07<35:38:42,  1.49s/it]                                                            14%|█▎        | 13623/100000 [7:27:07<35:38:42,  1.49s/it] 14%|█▎        | 13624/100000 [7:27:09<34:44:24,  1.45s/it]                                                            14%|█▎        | 13624/100000 [7:27:09<34:44:24,  1.45s/it] 14%|█▎        | 13625/100000 [7:27:10<33:59:44,  1.42s/it]                                                            14%|█▎        | 13625/100000 [7:27:10<33:59:44,  1.42s/it] 14%|█▎        | 13626/100000 [7:27:11<33:33:34,  1.40s/it]                                                            14%|█▎        | 13626/100000 [7:27:11<33:33:34,  1.40s/it] 14%|█▎        | 13627/100000 [7:27:13<33:01:27,  1.38s/it]                                                            14%|█▎        | 13627/100000 [7:27:13<33:01:27,  1.38s/it] 14%|█▎        | 13628/100000 [7:27:14<32:17:38,  1.35s/it]                                                            14%|█▎        | 13628/100000 [7:27:14<32:17:38,  1.35s/it] 14%|█▎        | 13629/100000 [7:27:15<31:57:40,  1.33s/it]                                                           {'loss': 0.1689, 'grad_norm': 0.502040445804596, 'learning_rate': 2.8817333333333333e-05, 'epoch': 25.0}
+{'loss': 0.0909, 'grad_norm': 0.41068142652511597, 'learning_rate': 2.8817000000000002e-05, 'epoch': 25.0}
+{'loss': 0.0564, 'grad_norm': 0.3879607319831848, 'learning_rate': 2.8816666666666668e-05, 'epoch': 25.01}
+{'loss': 0.0549, 'grad_norm': 0.31146150827407837, 'learning_rate': 2.8816333333333334e-05, 'epoch': 25.01}
+{'loss': 0.0529, 'grad_norm': 0.515511691570282, 'learning_rate': 2.8816e-05, 'epoch': 25.01}
+{'loss': 0.0903, 'grad_norm': 0.349189817905426, 'learning_rate': 2.881566666666667e-05, 'epoch': 25.01}
+{'loss': 0.0776, 'grad_norm': 0.5013755559921265, 'learning_rate': 2.8815333333333335e-05, 'epoch': 25.01}
+{'loss': 0.0319, 'grad_norm': 0.42771899700164795, 'learning_rate': 2.8815e-05, 'epoch': 25.01}
+{'loss': 0.0173, 'grad_norm': 0.22613854706287384, 'learning_rate': 2.8814666666666667e-05, 'epoch': 25.02}
+{'loss': 0.0725, 'grad_norm': 0.34730762243270874, 'learning_rate': 2.8814333333333333e-05, 'epoch': 25.02}
+{'loss': 0.0161, 'grad_norm': 0.24891577661037445, 'learning_rate': 2.8814000000000002e-05, 'epoch': 25.02}
+{'loss': 0.0184, 'grad_norm': 0.4423004388809204, 'learning_rate': 2.8813666666666665e-05, 'epoch': 25.02}
+{'loss': 0.0303, 'grad_norm': 0.2701072096824646, 'learning_rate': 2.8813333333333334e-05, 'epoch': 25.02}
+{'loss': 0.0128, 'grad_norm': 0.29532355070114136, 'learning_rate': 2.8813e-05, 'epoch': 25.03}
+{'loss': 0.0256, 'grad_norm': 0.27251678705215454, 'learning_rate': 2.8812666666666666e-05, 'epoch': 25.03}
+{'loss': 0.0235, 'grad_norm': 0.2066493034362793, 'learning_rate': 2.8812333333333335e-05, 'epoch': 25.03}
+{'loss': 0.003, 'grad_norm': 0.12427642196416855, 'learning_rate': 2.8812e-05, 'epoch': 25.03}
+{'loss': 0.0099, 'grad_norm': 0.3608299493789673, 'learning_rate': 2.8811666666666667e-05, 'epoch': 25.03}
+{'loss': 0.0179, 'grad_norm': 0.1806800216436386, 'learning_rate': 2.8811333333333333e-05, 'epoch': 25.04}
+{'loss': 0.0304, 'grad_norm': 0.5715934634208679, 'learning_rate': 2.8811000000000002e-05, 'epoch': 25.04}
+{'loss': 0.0012, 'grad_norm': 0.10905469208955765, 'learning_rate': 2.8810666666666665e-05, 'epoch': 25.04}
+{'loss': 0.0043, 'grad_norm': 0.15964914858341217, 'learning_rate': 2.8810333333333334e-05, 'epoch': 25.04}
+{'loss': 0.002, 'grad_norm': 0.07477544993162155, 'learning_rate': 2.881e-05, 'epoch': 25.04}
+{'loss': 0.0009, 'grad_norm': 0.11960326135158539, 'learning_rate': 2.8809666666666666e-05, 'epoch': 25.04}
+{'loss': 0.0036, 'grad_norm': 0.17168718576431274, 'learning_rate': 2.8809333333333336e-05, 'epoch': 25.05}
+{'loss': 0.0041, 'grad_norm': 0.14043472707271576, 'learning_rate': 2.8809e-05, 'epoch': 25.05}
+{'loss': 0.0031, 'grad_norm': 0.18809548020362854, 'learning_rate': 2.8808666666666667e-05, 'epoch': 25.05}
+{'loss': 0.0043, 'grad_norm': 0.16893936693668365, 'learning_rate': 2.8808333333333333e-05, 'epoch': 25.05}
+{'loss': 0.0116, 'grad_norm': 0.5226263403892517, 'learning_rate': 2.8808000000000003e-05, 'epoch': 25.05}
+{'loss': 0.0162, 'grad_norm': 0.7630420923233032, 'learning_rate': 2.8807666666666665e-05, 'epoch': 25.06}
+{'loss': 0.0222, 'grad_norm': 0.17915871739387512, 'learning_rate': 2.8807333333333335e-05, 'epoch': 25.06}
+{'loss': 0.0036, 'grad_norm': 0.30622854828834534, 'learning_rate': 2.8807000000000004e-05, 'epoch': 25.06}
+{'loss': 0.0027, 'grad_norm': 0.16288454830646515, 'learning_rate': 2.8806666666666666e-05, 'epoch': 25.06}
+{'loss': 0.0124, 'grad_norm': 0.41513580083847046, 'learning_rate': 2.8806333333333336e-05, 'epoch': 25.06}
+{'loss': 0.0056, 'grad_norm': 0.28535616397857666, 'learning_rate': 2.8806e-05, 'epoch': 25.06}
+{'loss': 0.0071, 'grad_norm': 0.3623763620853424, 'learning_rate': 2.8805666666666668e-05, 'epoch': 25.07}
+{'loss': 0.0022, 'grad_norm': 0.14072564244270325, 'learning_rate': 2.8805333333333334e-05, 'epoch': 25.07}
+{'loss': 0.0103, 'grad_norm': 0.3874894082546234, 'learning_rate': 2.8805e-05, 'epoch': 25.07}
+{'loss': 0.0011, 'grad_norm': 0.08016061782836914, 'learning_rate': 2.8804666666666665e-05, 'epoch': 25.07}
+{'loss': 0.0054, 'grad_norm': 0.22445538640022278, 'learning_rate': 2.8804333333333335e-05, 'epoch': 25.07}
+{'loss': 0.0022, 'grad_norm': 0.11151864379644394, 'learning_rate': 2.8804e-05, 'epoch': 25.08}
+{'loss': 0.0089, 'grad_norm': 0.2736489176750183, 'learning_rate': 2.8803666666666667e-05, 'epoch': 25.08}
+{'loss': 0.0024, 'grad_norm': 0.14825448393821716, 'learning_rate': 2.8803333333333336e-05, 'epoch': 25.08}
+{'loss': 0.0032, 'grad_norm': 0.2685433626174927, 'learning_rate': 2.8803e-05, 'epoch': 25.08}
+{'loss': 0.0026, 'grad_norm': 0.17419521510601044, 'learning_rate': 2.8802666666666668e-05, 'epoch': 25.08}
+{'loss': 0.0058, 'grad_norm': 0.2433479279279709, 'learning_rate': 2.8802333333333334e-05, 'epoch': 25.08}
+{'loss': 0.0035, 'grad_norm': 0.15277212858200073, 'learning_rate': 2.8802e-05, 'epoch': 25.09}
+{'loss': 0.0017, 'grad_norm': 0.20970101654529572, 'learning_rate': 2.8801666666666666e-05, 'epoch': 25.09}
+{'loss': 0.0021, 'grad_norm': 0.12431564927101135, 'learning_rate': 2.8801333333333335e-05, 'epoch': 25.09}
+{'loss': 0.0074, 'grad_norm': 0.5341439843177795, 'learning_rate': 2.8801e-05, 'epoch': 25.09}
+{'loss': 0.1557, 'grad_norm': 0.7216334342956543, 'learning_rate': 2.8800666666666667e-05, 'epoch': 25.09}
+{'loss': 0.0688, 'grad_norm': 0.6455937027931213, 'learning_rate': 2.8800333333333336e-05, 'epoch': 25.1}
+{'loss': 0.0601, 'grad_norm': 0.36682724952697754, 'learning_rate': 2.88e-05, 'epoch': 25.1}
+{'loss': 0.0536, 'grad_norm': 0.42346009612083435, 'learning_rate': 2.8799666666666668e-05, 'epoch': 25.1}
+{'loss': 0.0467, 'grad_norm': 0.6256864666938782, 'learning_rate': 2.8799333333333334e-05, 'epoch': 25.1}
+{'loss': 0.0529, 'grad_norm': 0.35584160685539246, 'learning_rate': 2.8799e-05, 'epoch': 25.1}
+{'loss': 0.0317, 'grad_norm': 0.29889115691185, 'learning_rate': 2.879866666666667e-05, 'epoch': 25.11}
+{'loss': 0.0296, 'grad_norm': 0.37145760655403137, 'learning_rate': 2.8798333333333335e-05, 'epoch': 25.11}
+{'loss': 0.0252, 'grad_norm': 0.4296289086341858, 'learning_rate': 2.8798e-05, 'epoch': 25.11}
+{'loss': 0.0168, 'grad_norm': 0.3164059817790985, 'learning_rate': 2.8797666666666667e-05, 'epoch': 25.11}
+{'loss': 0.0176, 'grad_norm': 0.31333017349243164, 'learning_rate': 2.8797333333333336e-05, 'epoch': 25.11}
+{'loss': 0.0344, 'grad_norm': 0.31346407532691956, 'learning_rate': 2.8797e-05, 'epoch': 25.11}
+{'loss': 0.0455, 'grad_norm': 0.43452003598213196, 'learning_rate': 2.8796666666666668e-05, 'epoch': 25.12}
+{'loss': 0.0211, 'grad_norm': 0.3308866322040558, 'learning_rate': 2.8796333333333334e-05, 'epoch': 25.12}
+{'loss': 0.0078, 'grad_norm': 0.1883377730846405, 'learning_rate': 2.8796e-05, 'epoch': 25.12}
+{'loss': 0.0049, 'grad_norm': 0.15821512043476105, 'learning_rate': 2.879566666666667e-05, 'epoch': 25.12}
+{'loss': 0.0052, 'grad_norm': 0.21383026242256165, 'learning_rate': 2.8795333333333332e-05, 'epoch': 25.12}
+{'loss': 0.0084, 'grad_norm': 0.2946529984474182, 'learning_rate': 2.8795e-05, 'epoch': 25.13}
+{'loss': 0.0091, 'grad_norm': 0.5541951656341553, 'learning_rate': 2.8794666666666667e-05, 'epoch': 25.13}
+{'loss': 0.0047, 'grad_norm': 0.1361600160598755, 'learning_rate': 2.8794333333333333e-05, 'epoch': 25.13}
+{'loss': 0.0068, 'grad_norm': 0.18995541334152222, 'learning_rate': 2.8794e-05, 'epoch': 25.13}
+{'loss': 0.0061, 'grad_norm': 0.15388409793376923, 'learning_rate': 2.879366666666667e-05, 'epoch': 25.13}
+{'loss': 0.0126, 'grad_norm': 0.29169967770576477, 'learning_rate': 2.879333333333333e-05, 'epoch': 25.13}
+{'loss': 0.0102, 'grad_norm': 0.8038426041603088, 'learning_rate': 2.8793e-05, 'epoch': 25.14}
+{'loss': 0.0061, 'grad_norm': 0.24247054755687714, 'learning_rate': 2.879266666666667e-05, 'epoch': 25.14}
+{'loss': 0.0122, 'grad_norm': 1.249650001525879, 'learning_rate': 2.8792333333333332e-05, 'epoch': 25.14}
+{'loss': 0.0089, 'grad_norm': 0.27134811878204346, 'learning_rate': 2.8792e-05, 'epoch': 25.14}
+{'loss': 0.0147, 'grad_norm': 0.33459794521331787, 'learning_rate': 2.8791666666666667e-05, 'epoch': 25.14}
+ 14%|█▎        | 13629/100000 [7:27:15<31:57:40,  1.33s/it] 14%|█▎        | 13630/100000 [7:27:17<31:24:39,  1.31s/it]                                                            14%|█▎        | 13630/100000 [7:27:17<31:24:39,  1.31s/it] 14%|█▎        | 13631/100000 [7:27:18<31:05:44,  1.30s/it]                                                            14%|█▎        | 13631/100000 [7:27:18<31:05:44,  1.30s/it] 14%|█▎        | 13632/100000 [7:27:19<30:30:54,  1.27s/it]                                                            14%|█▎        | 13632/100000 [7:27:19<30:30:54,  1.27s/it] 14%|█▎        | 13633/100000 [7:27:20<30:08:58,  1.26s/it]                                                            14%|█▎        | 13633/100000 [7:27:20<30:08:58,  1.26s/it] 14%|█▎        | 13634/100000 [7:27:21<29:48:49,  1.24s/it]                                                            14%|█▎        | 13634/100000 [7:27:21<29:48:49,  1.24s/it] 14%|█▎        | 13635/100000 [7:27:23<29:07:18,  1.21s/it]                                                            14%|█▎        | 13635/100000 [7:27:23<29:07:18,  1.21s/it] 14%|█▎        | 13636/100000 [7:27:24<28:44:14,  1.20s/it]                                                            14%|█▎        | 13636/100000 [7:27:24<28:44:14,  1.20s/it] 14%|█▎        | 13637/100000 [7:27:25<28:14:06,  1.18s/it]                                                            14%|█▎        | 13637/100000 [7:27:25<28:14:06,  1.18s/it] 14%|█▎        | 13638/100000 [7:27:26<27:57:04,  1.17s/it]                                                            14%|█▎        | 13638/100000 [7:27:26<27:57:04,  1.17s/it] 14%|█▎        | 13639/100000 [7:27:27<27:37:49,  1.15s/it]                                                            14%|█▎        | 13639/100000 [7:27:27<27:37:49,  1.15s/it] 14%|█▎        | 13640/100000 [7:27:28<27:18:25,  1.14s/it]                                                            14%|█▎        | 13640/100000 [7:27:28<27:18:25,  1.14s/it] 14%|█▎        | 13641/100000 [7:27:29<26:59:52,  1.13s/it]                                                            14%|█▎        | 13641/100000 [7:27:29<26:59:52,  1.13s/it] 14%|█▎        | 13642/100000 [7:27:30<26:38:07,  1.11s/it]                                                            14%|█▎        | 13642/100000 [7:27:30<26:38:07,  1.11s/it] 14%|█▎        | 13643/100000 [7:27:31<26:20:21,  1.10s/it]                                                            14%|█▎        | 13643/100000 [7:27:31<26:20:21,  1.10s/it] 14%|█▎        | 13644/100000 [7:27:33<25:50:01,  1.08s/it]                                                            14%|█▎        | 13644/100000 [7:27:33<25:50:01,  1.08s/it] 14%|█▎        | 13645/100000 [7:27:34<25:22:33,  1.06s/it]                                                            14%|█▎        | 13645/100000 [7:27:34<25:22:33,  1.06s/it] 14%|█▎        | 13646/100000 [7:27:35<24:58:09,  1.04s/it]                                                            14%|█▎        | 13646/100000 [7:27:35<24:58:09,  1.04s/it] 14%|█▎        | 13647/100000 [7:27:36<25:36:58,  1.07s/it]                                                            14%|█▎        | 13647/100000 [7:27:36<25:36:58,  1.07s/it] 14%|█▎        | 13648/100000 [7:27:37<24:58:16,  1.04s/it]                                                            14%|█▎        | 13648/100000 [7:27:37<24:58:16,  1.04s/it] 14%|█▎        | 13649/100000 [7:27:38<23:51:02,  1.01it/s]                                                            14%|█▎        | 13649/100000 [7:27:38<23:51:02,  1.01it/s] 14%|█▎        | 13650/100000 [7:27:38<22:42:18,  1.06it/s]                                                            14%|█▎        | 13650/100000 [7:27:38<22:42:18,  1.06it/s] 14%|█▎        | 13651/100000 [7:27:50<99:59:58,  4.17s/it]                                                            14%|█▎        | 13651/100000 [7:27:50<99:59:58,  4.17s/it] 14%|█▎        | 13652/100000 [7:27:56<111:16:55,  4.64s/it]                                                             14%|█▎        | 13652/100000 [7:27:56<111:16:55,  4.64s/it] 14%|█▎        | 13653/100000 [7:28:01<112:23:26,  4.69s/it]                                                             14%|█▎        | 13653/100000 [7:28:01<112:23:26,  4.69s/it] 14%|█▎        | 13654/100000 [7:28:05<108:49:10,  4.54s/it]                                                             14%|█▎        | 13654/100000 [7:28:05<108:49:10,  4.54s/it] 14%|█▎        | 13655/100000 [7:28:08<101:22:42,  4.23s/it]                                                             14%|█▎        | 13655/100000 [7:28:08<101:22:42,  4.23s/it] 14%|█▎        | 13656/100000 [7:28:11<93:49:10,  3.91s/it]                                                             14%|█▎        | 13656/100000 [7:28:11<93:49:10,  3.91s/it] 14%|█▎        | 13657/100000 [7:28:14<87:15:01,  3.64s/it]                                                            14%|█▎        | 13657/100000 [7:28:14<87:15:01,  3.64s/it] 14%|█▎        | 13658/100000 [7:28:17<80:14:08,  3.35s/it]                                                            14%|█▎        | 13658/100000 [7:28:17<80:14:08,  3.35s/it] 14%|█▎        | 13659/100000 [7:28:20<74:12:11,  3.09s/it]                                                            14%|█▎        | 13659/100000 [7:28:20<74:12:11,  3.09s/it] 14%|█▎        | 13660/100000 [7:28:22<68:11:54,  2.84s/it]                                                            14%|█▎        | 13660/100000 [7:28:22<68:11:54,  2.84s/it] 14%|█▎        | 13661/100000 [7:28:24<63:25:58,  2.64s/it]                                                            14%|█▎        | 13661/100000 [7:28:24<63:25:58,  2.64s/it] 14%|█▎        | 13662/100000 [7:28:26<58:47:32,  2.45s/it]                                                            14%|█▎        | 13662/100000 [7:28:26<58:47:32,  2.45s/it] 14%|█▎        | 13663/100000 [7:28:28<55:09:12,  2.30s/it]                                                            14%|█▎        | 13663/100000 [7:28:28<55:09:12,  2.30s/it] 14%|█▎        | 13664/100000 [7:28:30<51:52:09,  2.16s/it]                                                            14%|█▎        | 13664/100000 [7:28:30<51:52:09,  2.16s/it] 14%|█▎        | 13665/100000 [7:28:32<49:06:11,  2.05s/it]                                                            14%|█▎        | 13665/100000 [7:28:32<49:06:11,  2.05s/it] 14%|█▎        | 13666/100000 [7:28:33<46:29:48,  1.94s/it]                                                            14%|█▎        | 13666/100000 [7:28:33<46:29:48,  1.94s/it] 14%|█▎        | 13667/100000 [7:28:35<44:17:46,  1.85s/it]                                                            14%|█▎        | 13667/100000 [7:28:35<44:17:46,  1.85s/it] 14%|█▎        | 13668/100000 [7:28:36<42:03:09,  1.75s/it]                                                            14%|█▎        | 13668/100000 [7:28:36<42:03:09,  1.75s/it] 14%|█▎        | 13669/100000 [7:28:38<40:31:52,  1.69s/it]                                                            14%|█▎        | 13669/100000 [7:28:38<40:31:52,  1.69s/it] 14%|█▎        | 13670/100000 [7:28:40<39:14:06,  1.64s/it]                                                            14%|█▎        | 13670/100000 [7:28:40<39:14:06,  1.64s/it] 14%|█▎        | 13671/100000 [7:28:41<37:56:43,  1.58s/it]                                                            14%|█▎        | 13671/100000 [7:28:41<37:56:43,  1.58s/it] 14%|█▎        | 13672/100000 [7:28:42<36:53:27,  1.54s/it]                                                            14%|█▎        | 13672/100000 [7:28:42<36:53:27,  1.54s/it] 14%|█▎        | 13673/100000 [7:28:44<36:01:32,  1.50s/it]                                                            14%|█▎        | 13673/100000 [7:28:44<36:01:32,  1.50s/it] 14%|█▎        | 13674/100000 [7:28:45<34:46:41,  1.45s/it]                                                            14%|█▎        | 13674/100000 [7:28:45<34:46:41,  1.45s/it] 14%|█▎        | 13675/100000 [7:28:47<34:22:25,  1.43s/it]                                                            14%|█▎        | 13675/100000 [7:28:47<34:22:25,  1.43s/it] 14%|█▎        | 13676/100000 [7:28:48<33:38:45,  1.40s/it]                                                            14%|█▎        | 13676/100000 [7:28:48<33:38:45,  1.40s/it] 14%|█▎        | 13677/100000 [7:28:49<33:06:01,  1.38s/it]                                                            14%|█▎        | 13677/100000 [7:28:49<33:06:01,  1.38s/it] 14%|█▎        | 13678/100000 [7:28:51<32:40:52,  1.36s/it]                                                            14%|█▎        | 13678/100000 [7:28:51<32:40:52,  1.36s/it] 14%|█▎        | 13679/100000 [7:28:52<32:10:33,  1.34s/it]                                                            14%|█▎        | 13679/100000 [7:28:52<32:10:33,  1.34s/it] 14%|█▎        | 13680/100000 [7:28:53<31:32:26,  1.32s/it]                                                            14%|█▎        | 13680/100000 [7:28:53<31:32:26,  1.32s/it] 14%|█▎        | 13681/100000 [7:28:54<31:08:03,  1.30s/it]                                                            14%|█▎        | 13681/100000 [7:28:54<31:08:03,  1.30s/it] 14%|█▎        | 13682/100000 [7:28:56<30:40:37,  1.28s/it]                                                            14%|█▎        | 13682/100000 [7:28:56<30:40:37,  1.28s/it] 14%|█▎        | 13683/100000 [7:28:57<30:16:19,  1.26s/it]                                                            14%|█▎        | 13683/100000 [7:28:57<30:16:19,  1.26s/it] 14%|█▎        | 13684/100000 [7:28:58<29:35:42,  1.23s/it]                                                            14%|█▎        | 13684/100000 [7:28:58<29:35:42,  1.23s/it] 14%|█▎        | 13685/100000 [7:28:59<29:08:49,  1.22s/it]                                                            14%|█▎        | 13685/100000 [7:28:59<29:08:49,  1.22s/it] 14%|█▎        | 13686/100000 [7:29:00<28:43:13,  1.20s/it]                                                            14%|█▎        | 13686/100000 [7:29:00<28:43:13,  1.20s/it] 14%|█▎        | 13687/100000 [7:29:01<28:15:22,  1.18s/it]                                                            14%|█▎        | 13687/100000 [7:29:01<28:15:22,  1.18s/it] 14%|█▎        | 13688/100000 [7:29:03<27:49:18,  1.16s/it]                                                            14%|█▎        | 13688/100000 [7:29:03<27:49:18,  1.16s/it] 14%|█▎        | 13689/100000 [7:29:04<27:01:20,  1.13s/it]                                                            14%|█▎        | 13689/100000 [7:29:04<27:01:20,  1.13s/it] 14%|█▎        | 13690/100000 [7:29:05<26:42:26,  1.11s/it]                                                            14%|█▎        | 13690/100000 [7:29:05<26:42:26,  1.11s/it] 14%|█▎        | 13691/100000 [7:29:06<26:05:58,  1.09s/it]                                                            14%|█▎        | 13691/100000 [7:29:06<26:05:58,  1.09s/it] 14%|█▎        | 13692/100000 [7:29:07<26:07:25,  1.09s/it]                                                            14%|█▎        | 13692/100000 [7:29:07<26:07:25,  1.09s/it] 14%|█▎        | 13693/100000 [7:29:08<25:57:11,  1.08s/it]                                                            14%|█▎        | 13693/100000 [7:29:08<25:57:11,  1.08s/it] 14%|█▎        | 13694/100000 [7:29:09<25:34:51,  1.07s/it]                                                            14%|█▎        | 13694/100000 [7:29:09<25:34:51,  1.07s/it] 14%|█▎        | 13695/100000 [7:29:10<24:54:23,  1.04s/it]                                                            14%|█▎        | 13695/100000 [7:29:10<24:54:23,  1.04s/it] 14%|█▎        | 13696/100000 [7:29:11<24:31:21,  1.02s/it]                                                            14%|█▎        | 13696/100000 [7:29:11<24:31:21,  1.02s/it] 14%|█▎        | 13697/100000 [7:29:12<24:15:21,  1.01s/it]                                                            14%|█▎        | 13697/100000 [7:29:12<24:15:21,  1.01s/it] 14%|█▎        | 13698/100000 [7:29:13<23:54:27,  1.00it/s]                                                            14%|█▎        | 13698/100000 [7:29:13<23:54:27,  1.00it/s] 14%|█▎        | 13699/100000 [7:29:14<23:18:54,  1.03it/s]                                                            14%|█▎        | 13699/100000 [7:29:14<23:18:54,  1.03it/s] 14%|█▎        | 13700/100000 [7:29:15<22:56:41,  1.04it/s]                                                            14%|█▎        | 13700/100000 [7:29:15<22:56:41,  1.04it/s] 14%|█▎        | 13701/100000 [7:29:26<94:22:28,  3.94s/it]                                                            14%|█▎        | 13701/100000 [7:29:26<94:22:28,  3.94s/it] 14%|█▎        | 13702/100000 [7:29:31<106:22:09,  4.44s/it]                                                             14%|█▎        | 13702/100000 [7:29:31<106:22:09,  4.44s/it] 14%|█▎        | 13703/100000 [7:29:36<106:35:31,  4.45s/it]                                                             14%|█▎        | 13703/100000 [7:29:36<106:35:31,  4.45s/it] 14%|█▎        | 13704/100000 [7:29:39<101:15:07,  4.22s/it]                                                             14%|█▎        | 13704/100000 [7:29:39<101:15:07,  4.22s/it] 14%|█▎        | 13705/100000 [7:29:43<96:11:39,  4.01s/it]                                                             14%|█▎        | 13705/100000 [7:29:43<96:11:39,  4.01s/it] 14%|█▎        | 13706/100000 [7:29:46<89:32:20,  3.74s/it]                                                            14%|█▎        | 13706/100000 [7:29:46<89:32:20,  3.74s/it] 14%|█▎        | 13707/100000 [7:29:49<83:11:28,  3.47s/it]                                                           {'loss': 0.0053, 'grad_norm': 0.42010146379470825, 'learning_rate': 2.8791333333333333e-05, 'epoch': 25.15}
+{'loss': 0.0063, 'grad_norm': 0.16870661079883575, 'learning_rate': 2.8791e-05, 'epoch': 25.15}
+{'loss': 0.0045, 'grad_norm': 0.2020006626844406, 'learning_rate': 2.879066666666667e-05, 'epoch': 25.15}
+{'loss': 0.0271, 'grad_norm': 0.273642361164093, 'learning_rate': 2.8790333333333335e-05, 'epoch': 25.15}
+{'loss': 0.0083, 'grad_norm': 0.32549455761909485, 'learning_rate': 2.879e-05, 'epoch': 25.15}
+{'loss': 0.0069, 'grad_norm': 0.3531877398490906, 'learning_rate': 2.878966666666667e-05, 'epoch': 25.16}
+{'loss': 0.0033, 'grad_norm': 0.16902898252010345, 'learning_rate': 2.8789333333333332e-05, 'epoch': 25.16}
+{'loss': 0.0038, 'grad_norm': 0.20311951637268066, 'learning_rate': 2.8789e-05, 'epoch': 25.16}
+{'loss': 0.0042, 'grad_norm': 0.15935593843460083, 'learning_rate': 2.8788666666666668e-05, 'epoch': 25.16}
+{'loss': 0.0058, 'grad_norm': 0.642253041267395, 'learning_rate': 2.8788333333333334e-05, 'epoch': 25.16}
+{'loss': 0.0045, 'grad_norm': 0.20698927342891693, 'learning_rate': 2.8788e-05, 'epoch': 25.16}
+{'loss': 0.0027, 'grad_norm': 0.16226263344287872, 'learning_rate': 2.878766666666667e-05, 'epoch': 25.17}
+{'loss': 0.0033, 'grad_norm': 0.19789494574069977, 'learning_rate': 2.8787333333333335e-05, 'epoch': 25.17}
+{'loss': 0.0059, 'grad_norm': 0.4175894856452942, 'learning_rate': 2.8787e-05, 'epoch': 25.17}
+{'loss': 0.0048, 'grad_norm': 0.25816839933395386, 'learning_rate': 2.878666666666667e-05, 'epoch': 25.17}
+{'loss': 0.006, 'grad_norm': 0.24436330795288086, 'learning_rate': 2.8786333333333333e-05, 'epoch': 25.17}
+{'loss': 0.0044, 'grad_norm': 0.26902177929878235, 'learning_rate': 2.8786000000000002e-05, 'epoch': 25.18}
+{'loss': 0.0166, 'grad_norm': 0.6639602184295654, 'learning_rate': 2.8785666666666668e-05, 'epoch': 25.18}
+{'loss': 0.0012, 'grad_norm': 0.05455506592988968, 'learning_rate': 2.8785333333333334e-05, 'epoch': 25.18}
+{'loss': 0.0068, 'grad_norm': 0.29231777787208557, 'learning_rate': 2.8785e-05, 'epoch': 25.18}
+{'loss': 0.0021, 'grad_norm': 0.08994735032320023, 'learning_rate': 2.8784666666666666e-05, 'epoch': 25.18}
+{'loss': 0.0105, 'grad_norm': 0.4141843318939209, 'learning_rate': 2.8784333333333335e-05, 'epoch': 25.18}
+{'loss': 0.1008, 'grad_norm': 0.45748546719551086, 'learning_rate': 2.8784e-05, 'epoch': 25.19}
+{'loss': 0.1024, 'grad_norm': 0.4383915662765503, 'learning_rate': 2.8783666666666667e-05, 'epoch': 25.19}
+{'loss': 0.1288, 'grad_norm': 0.5043680667877197, 'learning_rate': 2.8783333333333333e-05, 'epoch': 25.19}
+{'loss': 0.0724, 'grad_norm': 0.44734859466552734, 'learning_rate': 2.8783000000000002e-05, 'epoch': 25.19}
+{'loss': 0.0877, 'grad_norm': 0.7525545358657837, 'learning_rate': 2.8782666666666665e-05, 'epoch': 25.19}
+{'loss': 0.0608, 'grad_norm': 0.43058881163597107, 'learning_rate': 2.8782333333333334e-05, 'epoch': 25.2}
+{'loss': 0.0535, 'grad_norm': 0.6278600096702576, 'learning_rate': 2.8782000000000003e-05, 'epoch': 25.2}
+{'loss': 0.0471, 'grad_norm': 0.40241897106170654, 'learning_rate': 2.8781666666666666e-05, 'epoch': 25.2}
+{'loss': 0.0289, 'grad_norm': 0.35044482350349426, 'learning_rate': 2.8781333333333335e-05, 'epoch': 25.2}
+{'loss': 0.0781, 'grad_norm': 0.555040717124939, 'learning_rate': 2.8781e-05, 'epoch': 25.2}
+{'loss': 0.0326, 'grad_norm': 0.5007652640342712, 'learning_rate': 2.8780666666666667e-05, 'epoch': 25.2}
+{'loss': 0.033, 'grad_norm': 0.4233347475528717, 'learning_rate': 2.8780333333333333e-05, 'epoch': 25.21}
+{'loss': 0.0214, 'grad_norm': 0.4547087252140045, 'learning_rate': 2.8780000000000002e-05, 'epoch': 25.21}
+{'loss': 0.016, 'grad_norm': 0.31385135650634766, 'learning_rate': 2.8779666666666665e-05, 'epoch': 25.21}
+{'loss': 0.0244, 'grad_norm': 0.7495867609977722, 'learning_rate': 2.8779333333333334e-05, 'epoch': 25.21}
+{'loss': 0.013, 'grad_norm': 0.4695708453655243, 'learning_rate': 2.8779000000000003e-05, 'epoch': 25.21}
+{'loss': 0.0057, 'grad_norm': 0.16245493292808533, 'learning_rate': 2.8778666666666666e-05, 'epoch': 25.22}
+{'loss': 0.0103, 'grad_norm': 0.29763901233673096, 'learning_rate': 2.8778333333333335e-05, 'epoch': 25.22}
+{'loss': 0.0107, 'grad_norm': 0.1941731572151184, 'learning_rate': 2.8778e-05, 'epoch': 25.22}
+{'loss': 0.0147, 'grad_norm': 0.3459717929363251, 'learning_rate': 2.8777666666666667e-05, 'epoch': 25.22}
+{'loss': 0.0133, 'grad_norm': 0.375107079744339, 'learning_rate': 2.8777333333333333e-05, 'epoch': 25.22}
+{'loss': 0.0231, 'grad_norm': 0.3817448616027832, 'learning_rate': 2.8777000000000002e-05, 'epoch': 25.23}
+{'loss': 0.002, 'grad_norm': 0.2049887627363205, 'learning_rate': 2.8776666666666665e-05, 'epoch': 25.23}
+{'loss': 0.0086, 'grad_norm': 0.3521776497364044, 'learning_rate': 2.8776333333333334e-05, 'epoch': 25.23}
+{'loss': 0.0011, 'grad_norm': 0.04273456335067749, 'learning_rate': 2.8776000000000004e-05, 'epoch': 25.23}
+{'loss': 0.0071, 'grad_norm': 0.2826165556907654, 'learning_rate': 2.8775666666666666e-05, 'epoch': 25.23}
+{'loss': 0.0072, 'grad_norm': 0.17444173991680145, 'learning_rate': 2.8775333333333336e-05, 'epoch': 25.23}
+{'loss': 0.0048, 'grad_norm': 0.27987492084503174, 'learning_rate': 2.8774999999999998e-05, 'epoch': 25.24}
+{'loss': 0.0044, 'grad_norm': 0.35382506251335144, 'learning_rate': 2.8774666666666667e-05, 'epoch': 25.24}
+{'loss': 0.0063, 'grad_norm': 0.22350679337978363, 'learning_rate': 2.8774333333333333e-05, 'epoch': 25.24}
+{'loss': 0.0049, 'grad_norm': 0.2280522584915161, 'learning_rate': 2.8774e-05, 'epoch': 25.24}
+{'loss': 0.0064, 'grad_norm': 0.22186324000358582, 'learning_rate': 2.877366666666667e-05, 'epoch': 25.24}
+{'loss': 0.0096, 'grad_norm': 0.30040767788887024, 'learning_rate': 2.8773333333333335e-05, 'epoch': 25.25}
+{'loss': 0.0029, 'grad_norm': 0.12468577921390533, 'learning_rate': 2.8773e-05, 'epoch': 25.25}
+{'loss': 0.0055, 'grad_norm': 0.2888202667236328, 'learning_rate': 2.8772666666666666e-05, 'epoch': 25.25}
+{'loss': 0.0086, 'grad_norm': 0.49866822361946106, 'learning_rate': 2.8772333333333336e-05, 'epoch': 25.25}
+{'loss': 0.0069, 'grad_norm': 0.31418851017951965, 'learning_rate': 2.8771999999999998e-05, 'epoch': 25.25}
+{'loss': 0.0102, 'grad_norm': 0.49223172664642334, 'learning_rate': 2.8771666666666668e-05, 'epoch': 25.25}
+{'loss': 0.0056, 'grad_norm': 0.16645334661006927, 'learning_rate': 2.8771333333333334e-05, 'epoch': 25.26}
+{'loss': 0.0042, 'grad_norm': 0.23253782093524933, 'learning_rate': 2.8771e-05, 'epoch': 25.26}
+{'loss': 0.005, 'grad_norm': 0.17528776824474335, 'learning_rate': 2.877066666666667e-05, 'epoch': 25.26}
+{'loss': 0.0033, 'grad_norm': 0.1108769103884697, 'learning_rate': 2.8770333333333335e-05, 'epoch': 25.26}
+{'loss': 0.0039, 'grad_norm': 0.32757946848869324, 'learning_rate': 2.877e-05, 'epoch': 25.26}
+{'loss': 0.0072, 'grad_norm': 0.29985570907592773, 'learning_rate': 2.8769666666666667e-05, 'epoch': 25.27}
+{'loss': 0.0048, 'grad_norm': 0.16443781554698944, 'learning_rate': 2.8769333333333336e-05, 'epoch': 25.27}
+{'loss': 0.003, 'grad_norm': 0.15562738478183746, 'learning_rate': 2.8769e-05, 'epoch': 25.27}
+{'loss': 0.0039, 'grad_norm': 0.29432448744773865, 'learning_rate': 2.8768666666666668e-05, 'epoch': 25.27}
+{'loss': 0.0178, 'grad_norm': 0.265778511762619, 'learning_rate': 2.8768333333333334e-05, 'epoch': 25.27}
+{'loss': 0.0085, 'grad_norm': 0.32704463601112366, 'learning_rate': 2.8768e-05, 'epoch': 25.28}
+{'loss': 0.0009, 'grad_norm': 0.0786413848400116, 'learning_rate': 2.876766666666667e-05, 'epoch': 25.28}
+{'loss': 0.1118, 'grad_norm': 0.43745529651641846, 'learning_rate': 2.8767333333333335e-05, 'epoch': 25.28}
+{'loss': 0.0922, 'grad_norm': 0.6298274993896484, 'learning_rate': 2.8767e-05, 'epoch': 25.28}
+{'loss': 0.076, 'grad_norm': 0.3927988111972809, 'learning_rate': 2.8766666666666667e-05, 'epoch': 25.28}
+{'loss': 0.055, 'grad_norm': 0.34882792830467224, 'learning_rate': 2.8766333333333336e-05, 'epoch': 25.28}
+{'loss': 0.0384, 'grad_norm': 0.31682804226875305, 'learning_rate': 2.8766e-05, 'epoch': 25.29}
+{'loss': 0.0295, 'grad_norm': 0.4535244405269623, 'learning_rate': 2.8765666666666668e-05, 'epoch': 25.29}
+ 14%|█▎        | 13707/100000 [7:29:49<83:11:28,  3.47s/it] 14%|█▎        | 13708/100000 [7:29:52<77:57:01,  3.25s/it]                                                            14%|█▎        | 13708/100000 [7:29:52<77:57:01,  3.25s/it] 14%|█▎        | 13709/100000 [7:29:54<72:19:42,  3.02s/it]                                                            14%|█▎        | 13709/100000 [7:29:54<72:19:42,  3.02s/it] 14%|█▎        | 13710/100000 [7:29:56<67:13:44,  2.80s/it]                                                            14%|█▎        | 13710/100000 [7:29:56<67:13:44,  2.80s/it] 14%|█▎        | 13711/100000 [7:29:58<62:21:50,  2.60s/it]                                                            14%|█▎        | 13711/100000 [7:29:58<62:21:50,  2.60s/it] 14%|█▎        | 13712/100000 [7:30:00<58:03:33,  2.42s/it]                                                            14%|█▎        | 13712/100000 [7:30:00<58:03:33,  2.42s/it] 14%|█▎        | 13713/100000 [7:30:02<53:46:15,  2.24s/it]                                                            14%|█▎        | 13713/100000 [7:30:02<53:46:15,  2.24s/it] 14%|█▎        | 13714/100000 [7:30:04<50:27:04,  2.10s/it]                                                            14%|█▎        | 13714/100000 [7:30:04<50:27:04,  2.10s/it] 14%|█▎        | 13715/100000 [7:30:06<47:36:36,  1.99s/it]                                                            14%|█▎        | 13715/100000 [7:30:06<47:36:36,  1.99s/it] 14%|█▎        | 13716/100000 [7:30:07<45:02:48,  1.88s/it]                                                            14%|█▎        | 13716/100000 [7:30:07<45:02:48,  1.88s/it] 14%|█▎        | 13717/100000 [7:30:09<43:08:55,  1.80s/it]                                                            14%|█▎        | 13717/100000 [7:30:09<43:08:55,  1.80s/it] 14%|█▎        | 13718/100000 [7:30:11<41:05:49,  1.71s/it]                                                            14%|█▎        | 13718/100000 [7:30:11<41:05:49,  1.71s/it] 14%|█▎        | 13719/100000 [7:30:12<39:34:31,  1.65s/it]                                                            14%|█▎        | 13719/100000 [7:30:12<39:34:31,  1.65s/it] 14%|█▎        | 13720/100000 [7:30:13<38:16:29,  1.60s/it]                                                            14%|█▎        | 13720/100000 [7:30:13<38:16:29,  1.60s/it] 14%|█▎        | 13721/100000 [7:30:15<37:11:44,  1.55s/it]                                                            14%|█▎        | 13721/100000 [7:30:15<37:11:44,  1.55s/it] 14%|█▎        | 13722/100000 [7:30:16<36:10:52,  1.51s/it]                                                            14%|█▎        | 13722/100000 [7:30:16<36:10:52,  1.51s/it] 14%|█▎        | 13723/100000 [7:30:18<35:12:49,  1.47s/it]                                                            14%|█▎        | 13723/100000 [7:30:18<35:12:49,  1.47s/it] 14%|█▎        | 13724/100000 [7:30:19<34:23:32,  1.44s/it]                                                            14%|█▎        | 13724/100000 [7:30:19<34:23:32,  1.44s/it] 14%|█▎        | 13725/100000 [7:30:20<33:25:23,  1.39s/it]                                                            14%|█▎        | 13725/100000 [7:30:20<33:25:23,  1.39s/it] 14%|█▎        | 13726/100000 [7:30:22<32:56:48,  1.37s/it]                                                            14%|█▎        | 13726/100000 [7:30:22<32:56:48,  1.37s/it] 14%|█▎        | 13727/100000 [7:30:23<32:22:23,  1.35s/it]                                                            14%|█▎        | 13727/100000 [7:30:23<32:22:23,  1.35s/it] 14%|█▎        | 13728/100000 [7:30:24<31:48:47,  1.33s/it]                                                            14%|█▎        | 13728/100000 [7:30:24<31:48:47,  1.33s/it] 14%|█▎        | 13729/100000 [7:30:26<31:08:39,  1.30s/it]                                                            14%|█▎        | 13729/100000 [7:30:26<31:08:39,  1.30s/it] 14%|█▎        | 13730/100000 [7:30:27<31:03:54,  1.30s/it]                                                            14%|█▎        | 13730/100000 [7:30:27<31:03:54,  1.30s/it] 14%|█▎        | 13731/100000 [7:30:28<30:43:15,  1.28s/it]                                                            14%|█▎        | 13731/100000 [7:30:28<30:43:15,  1.28s/it] 14%|█▎        | 13732/100000 [7:30:29<30:08:00,  1.26s/it]                                                            14%|█▎        | 13732/100000 [7:30:29<30:08:00,  1.26s/it] 14%|█▎        | 13733/100000 [7:30:30<29:51:52,  1.25s/it]                                                            14%|█▎        | 13733/100000 [7:30:30<29:51:52,  1.25s/it] 14%|█▎        | 13734/100000 [7:30:32<29:16:28,  1.22s/it]                                                            14%|█▎        | 13734/100000 [7:30:32<29:16:28,  1.22s/it] 14%|█▎        | 13735/100000 [7:30:33<28:39:50,  1.20s/it]                                                            14%|█▎        | 13735/100000 [7:30:33<28:39:50,  1.20s/it] 14%|█▎        | 13736/100000 [7:30:34<28:25:58,  1.19s/it]                                                            14%|█▎        | 13736/100000 [7:30:34<28:25:58,  1.19s/it] 14%|█▎        | 13737/100000 [7:30:35<27:57:31,  1.17s/it]                                                            14%|█▎        | 13737/100000 [7:30:35<27:57:31,  1.17s/it] 14%|█▎        | 13738/100000 [7:30:36<27:33:55,  1.15s/it]                                                            14%|█▎        | 13738/100000 [7:30:36<27:33:55,  1.15s/it] 14%|█▎        | 13739/100000 [7:30:37<26:59:52,  1.13s/it]                                                            14%|█▎        | 13739/100000 [7:30:37<26:59:52,  1.13s/it] 14%|█▎        | 13740/100000 [7:30:38<27:00:08,  1.13s/it]                                                            14%|█▎        | 13740/100000 [7:30:38<27:00:08,  1.13s/it] 14%|█▎        | 13741/100000 [7:30:39<26:33:46,  1.11s/it]                                                            14%|█▎        | 13741/100000 [7:30:39<26:33:46,  1.11s/it] 14%|█▎        | 13742/100000 [7:30:41<26:22:28,  1.10s/it]                                                            14%|█▎        | 13742/100000 [7:30:41<26:22:28,  1.10s/it] 14%|█▎        | 13743/100000 [7:30:42<25:56:09,  1.08s/it]                                                            14%|█▎        | 13743/100000 [7:30:42<25:56:09,  1.08s/it] 14%|█▎        | 13744/100000 [7:30:43<25:41:02,  1.07s/it]                                                            14%|█▎        | 13744/100000 [7:30:43<25:41:02,  1.07s/it] 14%|█▎        | 13745/100000 [7:30:44<25:13:44,  1.05s/it]                                                            14%|█▎        | 13745/100000 [7:30:44<25:13:44,  1.05s/it] 14%|█▎        | 13746/100000 [7:30:45<24:45:42,  1.03s/it]                                                            14%|█▎        | 13746/100000 [7:30:45<24:45:42,  1.03s/it] 14%|█▎        | 13747/100000 [7:30:46<24:18:19,  1.01s/it]                                                            14%|█▎        | 13747/100000 [7:30:46<24:18:19,  1.01s/it] 14%|█���        | 13748/100000 [7:30:47<23:45:29,  1.01it/s]                                                            14%|█▎        | 13748/100000 [7:30:47<23:45:29,  1.01it/s] 14%|█▎        | 13749/100000 [7:30:47<23:17:34,  1.03it/s]                                                            14%|█▎        | 13749/100000 [7:30:47<23:17:34,  1.03it/s] 14%|█▍        | 13750/100000 [7:30:48<22:14:44,  1.08it/s]                                                            14%|█▍        | 13750/100000 [7:30:48<22:14:44,  1.08it/s] 14%|█▍        | 13751/100000 [7:31:00<100:11:35,  4.18s/it]                                                             14%|█▍        | 13751/100000 [7:31:00<100:11:35,  4.18s/it] 14%|█▍        | 13752/100000 [7:31:06<113:04:46,  4.72s/it]                                                             14%|█▍        | 13752/100000 [7:31:06<113:04:46,  4.72s/it] 14%|█▍        | 13753/100000 [7:31:10<111:20:31,  4.65s/it]                                                             14%|█▍        | 13753/100000 [7:31:10<111:20:31,  4.65s/it] 14%|█▍        | 13754/100000 [7:31:15<107:15:53,  4.48s/it]                                                             14%|█▍        | 13754/100000 [7:31:15<107:15:53,  4.48s/it] 14%|█▍        | 13755/100000 [7:31:18<100:23:49,  4.19s/it]                                                             14%|█▍        | 13755/100000 [7:31:18<100:23:49,  4.19s/it] 14%|█▍        | 13756/100000 [7:31:21<94:18:34,  3.94s/it]                                                             14%|█▍        | 13756/100000 [7:31:21<94:18:34,  3.94s/it] 14%|█▍        | 13757/100000 [7:31:25<88:15:36,  3.68s/it]                                                            14%|█▍        | 13757/100000 [7:31:25<88:15:36,  3.68s/it] 14%|█▍        | 13758/100000 [7:31:27<82:29:49,  3.44s/it]                                                            14%|█▍        | 13758/100000 [7:31:27<82:29:49,  3.44s/it] 14%|█▍        | 13759/100000 [7:31:30<75:58:12,  3.17s/it]                                                            14%|█▍        | 13759/100000 [7:31:30<75:58:12,  3.17s/it] 14%|█▍        | 13760/100000 [7:31:32<70:36:07,  2.95s/it]                                                            14%|█▍        | 13760/100000 [7:31:32<70:36:07,  2.95s/it] 14%|█▍        | 13761/100000 [7:31:34<64:29:08,  2.69s/it]                                                            14%|█▍        | 13761/100000 [7:31:34<64:29:08,  2.69s/it] 14%|█▍        | 13762/100000 [7:31:37<60:18:12,  2.52s/it]                                                            14%|█▍        | 13762/100000 [7:31:37<60:18:12,  2.52s/it] 14%|█▍        | 13763/100000 [7:31:39<56:22:52,  2.35s/it]                                                            14%|█▍        | 13763/100000 [7:31:39<56:22:52,  2.35s/it] 14%|█▍        | 13764/100000 [7:31:40<52:33:24,  2.19s/it]                                                            14%|█▍        | 13764/100000 [7:31:40<52:33:24,  2.19s/it] 14%|█▍        | 13765/100000 [7:31:42<49:33:48,  2.07s/it]                                                            14%|█▍        | 13765/100000 [7:31:42<49:33:48,  2.07s/it] 14%|█▍        | 13766/100000 [7:31:44<46:50:45,  1.96s/it]                                                            14%|█▍        | 13766/100000 [7:31:44<46:50:45,  1.96s/it] 14%|█▍        | 13767/100000 [7:31:45<44:28:16,  1.86s/it]                                                            14%|█▍        | 13767/100000 [7:31:45<44:28:16,  1.86s/it] 14%|█▍        | 13768/100000 [7:31:47<42:18:41,  1.77s/it]                                                            14%|█▍        | 13768/100000 [7:31:47<42:18:41,  1.77s/it] 14%|█▍        | 13769/100000 [7:31:49<40:42:29,  1.70s/it]                                                            14%|█▍        | 13769/100000 [7:31:49<40:42:29,  1.70s/it] 14%|█▍        | 13770/100000 [7:31:50<39:15:46,  1.64s/it]                                                            14%|█▍        | 13770/100000 [7:31:50<39:15:46,  1.64s/it] 14%|█▍        | 13771/100000 [7:31:52<37:59:51,  1.59s/it]                                                            14%|█▍        | 13771/100000 [7:31:52<37:59:51,  1.59s/it] 14%|█▍        | 13772/100000 [7:31:53<36:33:27,  1.53s/it]                                                            14%|█▍        | 13772/100000 [7:31:53<36:33:27,  1.53s/it] 14%|█▍        | 13773/100000 [7:31:54<35:43:30,  1.49s/it]                                                            14%|█▍        | 13773/100000 [7:31:54<35:43:30,  1.49s/it] 14%|█▍        | 13774/100000 [7:31:56<34:30:30,  1.44s/it]                                                            14%|█▍        | 13774/100000 [7:31:56<34:30:30,  1.44s/it] 14%|█��        | 13775/100000 [7:31:57<33:52:49,  1.41s/it]                                                            14%|█▍        | 13775/100000 [7:31:57<33:52:49,  1.41s/it] 14%|█▍        | 13776/100000 [7:31:58<33:15:57,  1.39s/it]                                                            14%|█▍        | 13776/100000 [7:31:58<33:15:57,  1.39s/it] 14%|█▍        | 13777/100000 [7:32:00<32:42:08,  1.37s/it]                                                            14%|█▍        | 13777/100000 [7:32:00<32:42:08,  1.37s/it] 14%|█▍        | 13778/100000 [7:32:01<32:10:05,  1.34s/it]                                                            14%|█▍        | 13778/100000 [7:32:01<32:10:05,  1.34s/it] 14%|█▍        | 13779/100000 [7:32:02<31:55:12,  1.33s/it]                                                            14%|█▍        | 13779/100000 [7:32:02<31:55:12,  1.33s/it] 14%|█▍        | 13780/100000 [7:32:03<31:14:28,  1.30s/it]                                                            14%|█▍        | 13780/100000 [7:32:03<31:14:28,  1.30s/it] 14%|█▍        | 13781/100000 [7:32:05<30:57:48,  1.29s/it]                                                            14%|█▍        | 13781/100000 [7:32:05<30:57:48,  1.29s/it] 14%|█▍        | 13782/100000 [7:32:06<30:24:35,  1.27s/it]                                                            14%|█▍        | 13782/100000 [7:32:06<30:24:35,  1.27s/it] 14%|█▍        | 13783/100000 [7:32:07<30:00:54,  1.25s/it]                                                            14%|█▍        | 13783/100000 [7:32:07<30:00:54,  1.25s/it] 14%|█▍        | 13784/100000 [7:32:08<29:47:27,  1.24s/it]                                                            14%|█▍        | 13784/100000 [7:32:08<29:47:27,  1.24s/it] 14%|█▍        | 13785/100000 [7:32:10<29:14:53,  1.22s/it]                                                           {'loss': 0.0274, 'grad_norm': 0.4537026584148407, 'learning_rate': 2.8765333333333337e-05, 'epoch': 25.29}
+{'loss': 0.0326, 'grad_norm': 0.30101144313812256, 'learning_rate': 2.8765e-05, 'epoch': 25.29}
+{'loss': 0.0912, 'grad_norm': 0.6969102621078491, 'learning_rate': 2.876466666666667e-05, 'epoch': 25.29}
+{'loss': 0.0395, 'grad_norm': 0.3315484821796417, 'learning_rate': 2.8764333333333332e-05, 'epoch': 25.3}
+{'loss': 0.0426, 'grad_norm': 0.2811791002750397, 'learning_rate': 2.8764e-05, 'epoch': 25.3}
+{'loss': 0.0153, 'grad_norm': 0.4676089584827423, 'learning_rate': 2.8763666666666667e-05, 'epoch': 25.3}
+{'loss': 0.0456, 'grad_norm': 0.5364266633987427, 'learning_rate': 2.8763333333333333e-05, 'epoch': 25.3}
+{'loss': 0.0225, 'grad_norm': 0.25764209032058716, 'learning_rate': 2.8763e-05, 'epoch': 25.3}
+{'loss': 0.0166, 'grad_norm': 0.4249553680419922, 'learning_rate': 2.8762666666666668e-05, 'epoch': 25.3}
+{'loss': 0.0352, 'grad_norm': 0.3083512783050537, 'learning_rate': 2.8762333333333334e-05, 'epoch': 25.31}
+{'loss': 0.0079, 'grad_norm': 0.2641586363315582, 'learning_rate': 2.8762e-05, 'epoch': 25.31}
+{'loss': 0.0073, 'grad_norm': 0.2892804443836212, 'learning_rate': 2.876166666666667e-05, 'epoch': 25.31}
+{'loss': 0.0058, 'grad_norm': 0.3115205466747284, 'learning_rate': 2.8761333333333332e-05, 'epoch': 25.31}
+{'loss': 0.0246, 'grad_norm': 0.6394883990287781, 'learning_rate': 2.8761e-05, 'epoch': 25.31}
+{'loss': 0.0052, 'grad_norm': 0.29537880420684814, 'learning_rate': 2.8760666666666667e-05, 'epoch': 25.32}
+{'loss': 0.0063, 'grad_norm': 0.39419668912887573, 'learning_rate': 2.8760333333333333e-05, 'epoch': 25.32}
+{'loss': 0.0033, 'grad_norm': 0.11710794270038605, 'learning_rate': 2.876e-05, 'epoch': 25.32}
+{'loss': 0.0032, 'grad_norm': 0.20329396426677704, 'learning_rate': 2.875966666666667e-05, 'epoch': 25.32}
+{'loss': 0.0025, 'grad_norm': 0.1527843326330185, 'learning_rate': 2.8759333333333334e-05, 'epoch': 25.32}
+{'loss': 0.0057, 'grad_norm': 0.16141752898693085, 'learning_rate': 2.8759e-05, 'epoch': 25.33}
+{'loss': 0.008, 'grad_norm': 0.2185315191745758, 'learning_rate': 2.875866666666667e-05, 'epoch': 25.33}
+{'loss': 0.0059, 'grad_norm': 0.23512014746665955, 'learning_rate': 2.8758333333333332e-05, 'epoch': 25.33}
+{'loss': 0.0064, 'grad_norm': 0.18767587840557098, 'learning_rate': 2.8758e-05, 'epoch': 25.33}
+{'loss': 0.0064, 'grad_norm': 0.24704614281654358, 'learning_rate': 2.8757666666666667e-05, 'epoch': 25.33}
+{'loss': 0.0059, 'grad_norm': 0.7131418585777283, 'learning_rate': 2.8757333333333333e-05, 'epoch': 25.33}
+{'loss': 0.0052, 'grad_norm': 0.20158667862415314, 'learning_rate': 2.8757000000000003e-05, 'epoch': 25.34}
+{'loss': 0.0063, 'grad_norm': 0.23540963232517242, 'learning_rate': 2.875666666666667e-05, 'epoch': 25.34}
+{'loss': 0.004, 'grad_norm': 0.15179704129695892, 'learning_rate': 2.8756333333333335e-05, 'epoch': 25.34}
+{'loss': 0.0057, 'grad_norm': 0.3278792202472687, 'learning_rate': 2.8756e-05, 'epoch': 25.34}
+{'loss': 0.0204, 'grad_norm': 0.2591707408428192, 'learning_rate': 2.875566666666667e-05, 'epoch': 25.34}
+{'loss': 0.0036, 'grad_norm': 0.1418246179819107, 'learning_rate': 2.8755333333333332e-05, 'epoch': 25.35}
+{'loss': 0.0046, 'grad_norm': 0.16631825268268585, 'learning_rate': 2.8755e-05, 'epoch': 25.35}
+{'loss': 0.0022, 'grad_norm': 0.06749407947063446, 'learning_rate': 2.8754666666666664e-05, 'epoch': 25.35}
+{'loss': 0.0022, 'grad_norm': 0.07478956133127213, 'learning_rate': 2.8754333333333334e-05, 'epoch': 25.35}
+{'loss': 0.0154, 'grad_norm': 0.5097907185554504, 'learning_rate': 2.8754000000000003e-05, 'epoch': 25.35}
+{'loss': 0.0044, 'grad_norm': 0.1690087914466858, 'learning_rate': 2.8753666666666665e-05, 'epoch': 25.35}
+{'loss': 0.007, 'grad_norm': 0.2194225937128067, 'learning_rate': 2.8753333333333335e-05, 'epoch': 25.36}
+{'loss': 0.0057, 'grad_norm': 0.14810651540756226, 'learning_rate': 2.8753e-05, 'epoch': 25.36}
+{'loss': 0.0078, 'grad_norm': 0.21244044601917267, 'learning_rate': 2.8752666666666667e-05, 'epoch': 25.36}
+{'loss': 0.0092, 'grad_norm': 1.2006323337554932, 'learning_rate': 2.8752333333333333e-05, 'epoch': 25.36}
+{'loss': 0.0025, 'grad_norm': 0.177195206284523, 'learning_rate': 2.8752000000000002e-05, 'epoch': 25.36}
+{'loss': 0.0049, 'grad_norm': 0.3909979462623596, 'learning_rate': 2.8751666666666664e-05, 'epoch': 25.37}
+{'loss': 0.017, 'grad_norm': 1.1116374731063843, 'learning_rate': 2.8751333333333334e-05, 'epoch': 25.37}
+{'loss': 0.017, 'grad_norm': 0.2975039780139923, 'learning_rate': 2.8751000000000003e-05, 'epoch': 25.37}
+{'loss': 0.1609, 'grad_norm': nan, 'learning_rate': 2.8751000000000003e-05, 'epoch': 25.37}
+{'loss': 0.1283, 'grad_norm': 0.5848435759544373, 'learning_rate': 2.8750666666666666e-05, 'epoch': 25.37}
+{'loss': 0.0762, 'grad_norm': 0.435305118560791, 'learning_rate': 2.8750333333333335e-05, 'epoch': 25.37}
+{'loss': 0.0796, 'grad_norm': 1.2225451469421387, 'learning_rate': 2.875e-05, 'epoch': 25.38}
+{'loss': 0.0573, 'grad_norm': 0.7846620678901672, 'learning_rate': 2.8749666666666667e-05, 'epoch': 25.38}
+{'loss': 0.055, 'grad_norm': 0.41929861903190613, 'learning_rate': 2.8749333333333333e-05, 'epoch': 25.38}
+{'loss': 0.0698, 'grad_norm': 0.5668908357620239, 'learning_rate': 2.8749000000000002e-05, 'epoch': 25.38}
+{'loss': 0.0487, 'grad_norm': 0.4807840883731842, 'learning_rate': 2.8748666666666668e-05, 'epoch': 25.38}
+{'loss': 0.0667, 'grad_norm': 0.503312885761261, 'learning_rate': 2.8748333333333334e-05, 'epoch': 25.39}
+{'loss': 0.0217, 'grad_norm': 0.6881386041641235, 'learning_rate': 2.8748000000000003e-05, 'epoch': 25.39}
+{'loss': 0.0201, 'grad_norm': 0.3284233510494232, 'learning_rate': 2.8747666666666666e-05, 'epoch': 25.39}
+{'loss': 0.0245, 'grad_norm': 0.49530842900276184, 'learning_rate': 2.8747333333333335e-05, 'epoch': 25.39}
+{'loss': 0.0183, 'grad_norm': 0.3061735928058624, 'learning_rate': 2.8747e-05, 'epoch': 25.39}
+{'loss': 0.03, 'grad_norm': 0.29596859216690063, 'learning_rate': 2.8746666666666667e-05, 'epoch': 25.4}
+{'loss': 0.0253, 'grad_norm': 0.27488064765930176, 'learning_rate': 2.8746333333333333e-05, 'epoch': 25.4}
+{'loss': 0.0144, 'grad_norm': 0.3477145731449127, 'learning_rate': 2.8746000000000002e-05, 'epoch': 25.4}
+{'loss': 0.0111, 'grad_norm': 0.319806843996048, 'learning_rate': 2.8745666666666668e-05, 'epoch': 25.4}
+{'loss': 0.022, 'grad_norm': 0.3649977147579193, 'learning_rate': 2.8745333333333334e-05, 'epoch': 25.4}
+{'loss': 0.0039, 'grad_norm': 0.11577984690666199, 'learning_rate': 2.8745000000000003e-05, 'epoch': 25.4}
+{'loss': 0.0048, 'grad_norm': 0.1643013060092926, 'learning_rate': 2.8744666666666666e-05, 'epoch': 25.41}
+{'loss': 0.0058, 'grad_norm': 0.25984930992126465, 'learning_rate': 2.8744333333333335e-05, 'epoch': 25.41}
+{'loss': 0.0093, 'grad_norm': 0.37410005927085876, 'learning_rate': 2.8743999999999998e-05, 'epoch': 25.41}
+{'loss': 0.0103, 'grad_norm': 0.5347874164581299, 'learning_rate': 2.8743666666666667e-05, 'epoch': 25.41}
+{'loss': 0.0097, 'grad_norm': 0.30911314487457275, 'learning_rate': 2.8743333333333333e-05, 'epoch': 25.41}
+{'loss': 0.006, 'grad_norm': 0.2698220908641815, 'learning_rate': 2.8743e-05, 'epoch': 25.42}
+{'loss': 0.0166, 'grad_norm': 0.3670751750469208, 'learning_rate': 2.874266666666667e-05, 'epoch': 25.42}
+{'loss': 0.0046, 'grad_norm': 0.31863951683044434, 'learning_rate': 2.8742333333333334e-05, 'epoch': 25.42}
+{'loss': 0.0069, 'grad_norm': 0.3697512447834015, 'learning_rate': 2.8742e-05, 'epoch': 25.42}
+{'loss': 0.0191, 'grad_norm': 0.1975865662097931, 'learning_rate': 2.8741666666666666e-05, 'epoch': 25.42}
+{'loss': 0.003, 'grad_norm': 0.189303457736969, 'learning_rate': 2.8741333333333336e-05, 'epoch': 25.42}
+{'loss': 0.0108, 'grad_norm': 0.747004508972168, 'learning_rate': 2.8740999999999998e-05, 'epoch': 25.43}
+{'loss': 0.0022, 'grad_norm': 0.07769419997930527, 'learning_rate': 2.8740666666666667e-05, 'epoch': 25.43}
+{'loss': 0.0038, 'grad_norm': 0.15571707487106323, 'learning_rate': 2.8740333333333337e-05, 'epoch': 25.43}
+{'loss': 0.0021, 'grad_norm': 0.06311183422803879, 'learning_rate': 2.874e-05, 'epoch': 25.43}
+ 14%|█▍        | 13785/100000 [7:32:10<29:14:53,  1.22s/it] 14%|█▍        | 13786/100000 [7:32:11<28:47:58,  1.20s/it]                                                            14%|█▍        | 13786/100000 [7:32:11<28:47:58,  1.20s/it] 14%|█▍        | 13787/100000 [7:32:12<27:59:26,  1.17s/it]                                                            14%|█▍        | 13787/100000 [7:32:12<27:59:26,  1.17s/it] 14%|█▍        | 13788/100000 [7:32:13<27:45:04,  1.16s/it]                                                            14%|█▍        | 13788/100000 [7:32:13<27:45:04,  1.16s/it] 14%|█▍        | 13789/100000 [7:32:14<27:25:35,  1.15s/it]                                                            14%|█▍        | 13789/100000 [7:32:14<27:25:35,  1.15s/it] 14%|█▍        | 13790/100000 [7:32:15<27:04:55,  1.13s/it]                                                            14%|█▍        | 13790/100000 [7:32:15<27:04:55,  1.13s/it] 14%|█▍        | 13791/100000 [7:32:16<26:38:55,  1.11s/it]                                                            14%|█▍        | 13791/100000 [7:32:16<26:38:55,  1.11s/it] 14%|█▍        | 13792/100000 [7:32:17<26:22:13,  1.10s/it]                                                            14%|█▍        | 13792/100000 [7:32:17<26:22:13,  1.10s/it] 14%|█▍        | 13793/100000 [7:32:18<25:58:14,  1.08s/it]                                                            14%|█▍        | 13793/100000 [7:32:18<25:58:14,  1.08s/it] 14%|█▍        | 13794/100000 [7:32:19<25:27:03,  1.06s/it]                                                            14%|█▍        | 13794/100000 [7:32:19<25:27:03,  1.06s/it] 14%|█▍        | 13795/100000 [7:32:20<25:07:10,  1.05s/it]                                                            14%|█▍        | 13795/100000 [7:32:20<25:07:10,  1.05s/it] 14%|█▍        | 13796/100000 [7:32:21<24:42:51,  1.03s/it]                                                            14%|█▍        | 13796/100000 [7:32:21<24:42:51,  1.03s/it] 14%|█▍        | 13797/100000 [7:32:22<24:16:57,  1.01s/it]                                                            14%|█▍        | 13797/100000 [7:32:22<24:16:57,  1.01s/it] 14%|█▍        | 13798/100000 [7:32:23<23:56:39,  1.00it/s]                                                            14%|█▍        | 13798/100000 [7:32:23<23:56:39,  1.00it/s] 14%|█▍        | 13799/100000 [7:32:24<23:26:46,  1.02it/s]                                                            14%|█▍        | 13799/100000 [7:32:24<23:26:46,  1.02it/s] 14%|█▍        | 13800/100000 [7:32:25<22:37:28,  1.06it/s]                                                            14%|█▍        | 13800/100000 [7:32:25<22:37:28,  1.06it/s] 14%|█▍        | 13801/100000 [7:32:36<97:07:27,  4.06s/it]                                                            14%|█▍        | 13801/100000 [7:32:36<97:07:27,  4.06s/it] 14%|█▍        | 13802/100000 [7:32:42<111:21:00,  4.65s/it]                                                             14%|█▍        | 13802/100000 [7:32:42<111:21:00,  4.65s/it] 14%|█▍        | 13803/100000 [7:32:47<111:15:27,  4.65s/it]                                                             14%|█▍        | 13803/100000 [7:32:47<111:15:27,  4.65s/it] 14%|█▍        | 13804/100000 [7:32:51<106:17:11,  4.44s/it]                                                             14%|█▍        | 13804/100000 [7:32:51<106:17:11,  4.44s/it] 14%|█▍        | 13805/100000 [7:32:54<99:12:10,  4.14s/it]                                                             14%|█▍        | 13805/100000 [7:32:55<99:12:10,  4.14s/it] 14%|█▍        | 13806/100000 [7:32:58<92:19:36,  3.86s/it]                                                            14%|█▍        | 13806/100000 [7:32:58<92:19:36,  3.86s/it] 14%|█▍        | 13807/100000 [7:33:01<85:55:48,  3.59s/it]                                                            14%|█▍        | 13807/100000 [7:33:01<85:55:48,  3.59s/it] 14%|█▍        | 13808/100000 [7:33:03<79:15:28,  3.31s/it]                                                            14%|█▍        | 13808/100000 [7:33:03<79:15:28,  3.31s/it] 14%|█▍        | 13809/100000 [7:33:06<72:55:24,  3.05s/it]                                                            14%|█▍        | 13809/100000 [7:33:06<72:55:24,  3.05s/it] 14%|█▍        | 13810/100000 [7:33:08<67:35:06,  2.82s/it]                                                            14%|█▍        | 13810/100000 [7:33:08<67:35:06,  2.82s/it] 14%|█▍        | 13811/100000 [7:33:10<62:07:48,  2.60s/it]                                                            14%|█▍        | 13811/100000 [7:33:10<62:07:48,  2.60s/it] 14%|█▍        | 13812/100000 [7:33:12<57:40:50,  2.41s/it]                                                            14%|█▍        | 13812/100000 [7:33:12<57:40:50,  2.41s/it] 14%|█▍        | 13813/100000 [7:33:14<53:43:52,  2.24s/it]                                                            14%|█▍        | 13813/100000 [7:33:14<53:43:52,  2.24s/it] 14%|█▍        | 13814/100000 [7:33:16<50:06:59,  2.09s/it]                                                            14%|█▍        | 13814/100000 [7:33:16<50:06:59,  2.09s/it] 14%|█▍        | 13815/100000 [7:33:17<47:02:38,  1.97s/it]                                                            14%|█▍        | 13815/100000 [7:33:17<47:02:38,  1.97s/it] 14%|█▍        | 13816/100000 [7:33:19<44:22:45,  1.85s/it]                                                            14%|█▍        | 13816/100000 [7:33:19<44:22:45,  1.85s/it] 14%|█▍        | 13817/100000 [7:33:21<42:16:29,  1.77s/it]                                                            14%|█▍        | 13817/100000 [7:33:21<42:16:29,  1.77s/it] 14%|█▍        | 13818/100000 [7:33:22<40:28:40,  1.69s/it]                                                            14%|█▍        | 13818/100000 [7:33:22<40:28:40,  1.69s/it] 14%|█▍        | 13819/100000 [7:33:24<39:05:14,  1.63s/it]                                                            14%|█▍        | 13819/100000 [7:33:24<39:05:14,  1.63s/it] 14%|█▍        | 13820/100000 [7:33:25<37:43:01,  1.58s/it]                                                            14%|█▍        | 13820/100000 [7:33:25<37:43:01,  1.58s/it] 14%|█▍        | 13821/100000 [7:33:26<36:28:06,  1.52s/it]                                                            14%|█▍        | 13821/100000 [7:33:26<36:28:06,  1.52s/it] 14%|█▍        | 13822/100000 [7:33:28<35:38:02,  1.49s/it]                                                            14%|█▍        | 13822/100000 [7:33:28<35:38:02,  1.49s/it] 14%|█▍        | 13823/100000 [7:33:29<34:40:42,  1.45s/it]                                                            14%|█▍        | 13823/100000 [7:33:29<34:40:42,  1.45s/it] 14%|█▍        | 13824/100000 [7:33:30<34:02:50,  1.42s/it]                                                            14%|█▍        | 13824/100000 [7:33:30<34:02:50,  1.42s/it] 14%|█▍        | 13825/100000 [7:33:32<33:03:28,  1.38s/it]                                                            14%|█▍        | 13825/100000 [7:33:32<33:03:28,  1.38s/it] 14%|█▍        | 13826/100000 [7:33:33<32:35:42,  1.36s/it]                                                            14%|█▍        | 13826/100000 [7:33:33<32:35:42,  1.36s/it] 14%|█▍        | 13827/100000 [7:33:34<32:11:46,  1.35s/it]                                                            14%|█▍        | 13827/100000 [7:33:34<32:11:46,  1.35s/it] 14%|█▍        | 13828/100000 [7:33:36<31:50:17,  1.33s/it]                                                            14%|█▍        | 13828/100000 [7:33:36<31:50:17,  1.33s/it] 14%|█▍        | 13829/100000 [7:33:37<31:12:43,  1.30s/it]                                                            14%|█▍        | 13829/100000 [7:33:37<31:12:43,  1.30s/it] 14%|█▍        | 13830/100000 [7:33:38<30:41:30,  1.28s/it]                                                            14%|█▍        | 13830/100000 [7:33:38<30:41:30,  1.28s/it] 14%|█▍        | 13831/100000 [7:33:39<30:07:36,  1.26s/it]                                                            14%|█▍        | 13831/100000 [7:33:39<30:07:36,  1.26s/it] 14%|█▍        | 13832/100000 [7:33:41<29:51:31,  1.25s/it]                                                            14%|█▍        | 13832/100000 [7:33:41<29:51:31,  1.25s/it] 14%|█▍        | 13833/100000 [7:33:42<29:31:24,  1.23s/it]                                                            14%|█▍        | 13833/100000 [7:33:42<29:31:24,  1.23s/it] 14%|█▍        | 13834/100000 [7:33:43<28:56:33,  1.21s/it]                                                            14%|█▍        | 13834/100000 [7:33:43<28:56:33,  1.21s/it] 14%|█▍        | 13835/100000 [7:33:44<28:31:25,  1.19s/it]                                                            14%|█▍        | 13835/100000 [7:33:44<28:31:25,  1.19s/it] 14%|█▍        | 13836/100000 [7:33:45<27:49:32,  1.16s/it]                                                            14%|█▍        | 13836/100000 [7:33:45<27:49:32,  1.16s/it] 14%|█▍        | 13837/100000 [7:33:46<27:34:45,  1.15s/it]                                                            14%|█▍        | 13837/100000 [7:33:46<27:34:45,  1.15s/it] 14%|█▍        | 13838/100000 [7:33:47<27:24:35,  1.15s/it]                                                            14%|█▍        | 13838/100000 [7:33:47<27:24:35,  1.15s/it] 14%|█▍        | 13839/100000 [7:33:49<26:50:39,  1.12s/it]                                                            14%|█▍        | 13839/100000 [7:33:49<26:50:39,  1.12s/it] 14%|█▍        | 13840/100000 [7:33:50<26:22:48,  1.10s/it]                                                            14%|█▍        | 13840/100000 [7:33:50<26:22:48,  1.10s/it] 14%|█▍        | 13841/100000 [7:33:51<26:00:46,  1.09s/it]                                                            14%|█▍        | 13841/100000 [7:33:51<26:00:46,  1.09s/it] 14%|█▍        | 13842/100000 [7:33:52<26:02:06,  1.09s/it]                                                            14%|█▍        | 13842/100000 [7:33:52<26:02:06,  1.09s/it] 14%|█▍        | 13843/100000 [7:33:53<25:37:45,  1.07s/it]                                                            14%|█▍        | 13843/100000 [7:33:53<25:37:45,  1.07s/it] 14%|█▍        | 13844/100000 [7:33:54<25:23:02,  1.06s/it]                                                            14%|█▍        | 13844/100000 [7:33:54<25:23:02,  1.06s/it] 14%|█▍        | 13845/100000 [7:33:55<24:50:35,  1.04s/it]                                                            14%|█▍        | 13845/100000 [7:33:55<24:50:35,  1.04s/it] 14%|█▍        | 13846/100000 [7:33:56<24:24:44,  1.02s/it]                                                            14%|█▍        | 13846/100000 [7:33:56<24:24:44,  1.02s/it] 14%|█▍        | 13847/100000 [7:33:57<24:04:45,  1.01s/it]                                                            14%|█▍        | 13847/100000 [7:33:57<24:04:45,  1.01s/it] 14%|█▍        | 13848/100000 [7:33:58<23:36:31,  1.01it/s]                                                            14%|█▍        | 13848/100000 [7:33:58<23:36:31,  1.01it/s] 14%|█▍        | 13849/100000 [7:33:59<23:09:35,  1.03it/s]                                                            14%|█▍        | 13849/100000 [7:33:59<23:09:35,  1.03it/s] 14%|█▍        | 13850/100000 [7:33:59<22:36:27,  1.06it/s]                                                            14%|█▍        | 13850/100000 [7:33:59<22:36:27,  1.06it/s] 14%|█▍        | 13851/100000 [7:34:10<89:23:52,  3.74s/it]                                                            14%|█▍        | 13851/100000 [7:34:10<89:23:52,  3.74s/it] 14%|█▍        | 13852/100000 [7:34:16<105:47:20,  4.42s/it]                                                             14%|█▍        | 13852/100000 [7:34:16<105:47:20,  4.42s/it] 14%|█▍        | 13853/100000 [7:34:20<105:56:33,  4.43s/it]                                                             14%|█▍        | 13853/100000 [7:34:20<105:56:33,  4.43s/it] 14%|█▍        | 13854/100000 [7:34:24<101:55:10,  4.26s/it]                                                             14%|█▍        | 13854/100000 [7:34:24<101:55:10,  4.26s/it] 14%|█▍        | 13855/100000 [7:34:28<97:19:40,  4.07s/it]                                                             14%|█▍        | 13855/100000 [7:34:28<97:19:40,  4.07s/it] 14%|█▍        | 13856/100000 [7:34:31<91:19:40,  3.82s/it]                                                            14%|█▍        | 13856/100000 [7:34:31<91:19:40,  3.82s/it] 14%|█▍        | 13857/100000 [7:34:34<84:35:57,  3.54s/it]                                                            14%|█▍        | 13857/100000 [7:34:34<84:35:57,  3.54s/it] 14%|█▍        | 13858/100000 [7:34:37<79:04:30,  3.30s/it]                                                            14%|█▍        | 13858/100000 [7:34:37<79:04:30,  3.30s/it] 14%|█▍        | 13859/100000 [7:34:39<74:02:19,  3.09s/it]                                                            14%|█▍        | 13859/100000 [7:34:39<74:02:19,  3.09s/it] 14%|█▍        | 13860/100000 [7:34:41<68:32:31,  2.86s/it]                                                            14%|█▍        | 13860/100000 [7:34:41<68:32:31,  2.86s/it] 14%|█▍        | 13861/100000 [7:34:44<63:40:04,  2.66s/it]                                                            14%|█▍        | 13861/100000 [7:34:44<63:40:04,  2.66s/it] 14%|█▍        | 13862/100000 [7:34:46<59:22:53,  2.48s/it]                                                            14%|█▍        | 13862/100000 [7:34:46<59:22:53,  2.48s/it] 14%|█▍        | 13863/100000 [7:34:48<55:18:54,  2.31s/it]                                                           {'loss': 0.0031, 'grad_norm': 0.12324243038892746, 'learning_rate': 2.873966666666667e-05, 'epoch': 25.43}
+{'loss': 0.0103, 'grad_norm': 1.1392844915390015, 'learning_rate': 2.8739333333333335e-05, 'epoch': 25.44}
+{'loss': 0.0333, 'grad_norm': 0.33735352754592896, 'learning_rate': 2.8739e-05, 'epoch': 25.44}
+{'loss': 0.0037, 'grad_norm': 0.18859614431858063, 'learning_rate': 2.8738666666666666e-05, 'epoch': 25.44}
+{'loss': 0.0044, 'grad_norm': 0.4658453166484833, 'learning_rate': 2.8738333333333336e-05, 'epoch': 25.44}
+{'loss': 0.0084, 'grad_norm': 0.29348111152648926, 'learning_rate': 2.8737999999999998e-05, 'epoch': 25.44}
+{'loss': 0.0055, 'grad_norm': 0.17754070460796356, 'learning_rate': 2.8737666666666668e-05, 'epoch': 25.45}
+{'loss': 0.0039, 'grad_norm': 0.2359544187784195, 'learning_rate': 2.8737333333333337e-05, 'epoch': 25.45}
+{'loss': 0.0019, 'grad_norm': 0.11587945371866226, 'learning_rate': 2.8737e-05, 'epoch': 25.45}
+{'loss': 0.0096, 'grad_norm': 0.3465985357761383, 'learning_rate': 2.873666666666667e-05, 'epoch': 25.45}
+{'loss': 0.0063, 'grad_norm': 0.31631413102149963, 'learning_rate': 2.8736333333333335e-05, 'epoch': 25.45}
+{'loss': 0.0081, 'grad_norm': 0.4622824788093567, 'learning_rate': 2.8736e-05, 'epoch': 25.45}
+{'loss': 0.0029, 'grad_norm': 0.1349441111087799, 'learning_rate': 2.8735666666666667e-05, 'epoch': 25.46}
+{'loss': 0.0045, 'grad_norm': 0.5047300457954407, 'learning_rate': 2.8735333333333336e-05, 'epoch': 25.46}
+{'loss': 0.0098, 'grad_norm': 0.4179021716117859, 'learning_rate': 2.8735e-05, 'epoch': 25.46}
+{'loss': 0.0035, 'grad_norm': 0.23024718463420868, 'learning_rate': 2.8734666666666668e-05, 'epoch': 25.46}
+{'loss': 0.1122, 'grad_norm': 0.7658423781394958, 'learning_rate': 2.8734333333333334e-05, 'epoch': 25.46}
+{'loss': 0.1327, 'grad_norm': 0.4380490183830261, 'learning_rate': 2.8734e-05, 'epoch': 25.47}
+{'loss': 0.0584, 'grad_norm': 0.5566225647926331, 'learning_rate': 2.873366666666667e-05, 'epoch': 25.47}
+{'loss': 0.102, 'grad_norm': 1.2810173034667969, 'learning_rate': 2.873333333333333e-05, 'epoch': 25.47}
+{'loss': 0.0893, 'grad_norm': 0.5459073781967163, 'learning_rate': 2.8733e-05, 'epoch': 25.47}
+{'loss': 0.0529, 'grad_norm': 0.4217475652694702, 'learning_rate': 2.8732666666666667e-05, 'epoch': 25.47}
+{'loss': 0.0353, 'grad_norm': 0.3302052617073059, 'learning_rate': 2.8732333333333333e-05, 'epoch': 25.47}
+{'loss': 0.053, 'grad_norm': 0.39502203464508057, 'learning_rate': 2.8732000000000002e-05, 'epoch': 25.48}
+{'loss': 0.0433, 'grad_norm': 0.3716045618057251, 'learning_rate': 2.8731666666666668e-05, 'epoch': 25.48}
+{'loss': 0.025, 'grad_norm': 0.30203694105148315, 'learning_rate': 2.8731333333333334e-05, 'epoch': 25.48}
+{'loss': 0.0464, 'grad_norm': 0.621515691280365, 'learning_rate': 2.8731e-05, 'epoch': 25.48}
+{'loss': 0.013, 'grad_norm': 0.2422146201133728, 'learning_rate': 2.873066666666667e-05, 'epoch': 25.48}
+{'loss': 0.0166, 'grad_norm': 0.3242398500442505, 'learning_rate': 2.8730333333333332e-05, 'epoch': 25.49}
+{'loss': 0.0324, 'grad_norm': 0.5535221099853516, 'learning_rate': 2.873e-05, 'epoch': 25.49}
+{'loss': 0.0244, 'grad_norm': 0.19889982044696808, 'learning_rate': 2.8729666666666667e-05, 'epoch': 25.49}
+{'loss': 0.0065, 'grad_norm': 0.14758522808551788, 'learning_rate': 2.8729333333333333e-05, 'epoch': 25.49}
+{'loss': 0.0082, 'grad_norm': 0.207974374294281, 'learning_rate': 2.8729000000000002e-05, 'epoch': 25.49}
+{'loss': 0.0108, 'grad_norm': 0.2960265278816223, 'learning_rate': 2.8728666666666668e-05, 'epoch': 25.49}
+{'loss': 0.0098, 'grad_norm': 0.48034244775772095, 'learning_rate': 2.8728333333333334e-05, 'epoch': 25.5}
+{'loss': 0.0097, 'grad_norm': 0.2875449061393738, 'learning_rate': 2.8728e-05, 'epoch': 25.5}
+{'loss': 0.0059, 'grad_norm': 0.2575296461582184, 'learning_rate': 2.872766666666667e-05, 'epoch': 25.5}
+{'loss': 0.0048, 'grad_norm': 0.19673795998096466, 'learning_rate': 2.8727333333333332e-05, 'epoch': 25.5}
+{'loss': 0.005, 'grad_norm': 0.6091803908348083, 'learning_rate': 2.8727e-05, 'epoch': 25.5}
+{'loss': 0.0073, 'grad_norm': 0.26289331912994385, 'learning_rate': 2.8726666666666667e-05, 'epoch': 25.51}
+{'loss': 0.0194, 'grad_norm': 0.2928977310657501, 'learning_rate': 2.8726333333333333e-05, 'epoch': 25.51}
+{'loss': 0.0038, 'grad_norm': 0.1658514142036438, 'learning_rate': 2.8726000000000002e-05, 'epoch': 25.51}
+{'loss': 0.011, 'grad_norm': 0.5831472277641296, 'learning_rate': 2.872566666666667e-05, 'epoch': 25.51}
+{'loss': 0.0051, 'grad_norm': 0.22511175274848938, 'learning_rate': 2.8725333333333334e-05, 'epoch': 25.51}
+{'loss': 0.0034, 'grad_norm': 0.2004740834236145, 'learning_rate': 2.8725e-05, 'epoch': 25.52}
+{'loss': 0.0075, 'grad_norm': 0.4446840286254883, 'learning_rate': 2.8724666666666666e-05, 'epoch': 25.52}
+{'loss': 0.0082, 'grad_norm': 0.45033150911331177, 'learning_rate': 2.8724333333333332e-05, 'epoch': 25.52}
+{'loss': 0.0063, 'grad_norm': 0.17718258500099182, 'learning_rate': 2.8724e-05, 'epoch': 25.52}
+{'loss': 0.0042, 'grad_norm': 0.17210236191749573, 'learning_rate': 2.8723666666666667e-05, 'epoch': 25.52}
+{'loss': 0.0059, 'grad_norm': 0.43359464406967163, 'learning_rate': 2.8723333333333333e-05, 'epoch': 25.52}
+{'loss': 0.0094, 'grad_norm': 0.3382089138031006, 'learning_rate': 2.8723000000000003e-05, 'epoch': 25.53}
+{'loss': 0.0186, 'grad_norm': 0.7305532693862915, 'learning_rate': 2.8722666666666665e-05, 'epoch': 25.53}
+{'loss': 0.0353, 'grad_norm': 0.691562831401825, 'learning_rate': 2.8722333333333335e-05, 'epoch': 25.53}
+{'loss': 0.0069, 'grad_norm': 0.22980351746082306, 'learning_rate': 2.8722e-05, 'epoch': 25.53}
+{'loss': 0.0122, 'grad_norm': 1.1313012838363647, 'learning_rate': 2.8721666666666666e-05, 'epoch': 25.53}
+{'loss': 0.0052, 'grad_norm': 0.2683294713497162, 'learning_rate': 2.8721333333333332e-05, 'epoch': 25.54}
+{'loss': 0.0124, 'grad_norm': 0.4816579520702362, 'learning_rate': 2.8721e-05, 'epoch': 25.54}
+{'loss': 0.0043, 'grad_norm': 0.2540108859539032, 'learning_rate': 2.8720666666666668e-05, 'epoch': 25.54}
+{'loss': 0.0051, 'grad_norm': 0.16645418107509613, 'learning_rate': 2.8720333333333334e-05, 'epoch': 25.54}
+{'loss': 0.0087, 'grad_norm': 0.447847843170166, 'learning_rate': 2.8720000000000003e-05, 'epoch': 25.54}
+{'loss': 0.0082, 'grad_norm': 0.4923630952835083, 'learning_rate': 2.8719666666666665e-05, 'epoch': 25.54}
+{'loss': 0.0048, 'grad_norm': 0.19476549327373505, 'learning_rate': 2.8719333333333335e-05, 'epoch': 25.55}
+{'loss': 0.0075, 'grad_norm': 0.5130172371864319, 'learning_rate': 2.8719e-05, 'epoch': 25.55}
+{'loss': 0.0066, 'grad_norm': 0.8781978487968445, 'learning_rate': 2.8718666666666667e-05, 'epoch': 25.55}
+{'loss': 0.0145, 'grad_norm': 0.5883736610412598, 'learning_rate': 2.8718333333333333e-05, 'epoch': 25.55}
+{'loss': 0.0065, 'grad_norm': 0.3041222393512726, 'learning_rate': 2.8718000000000002e-05, 'epoch': 25.55}
+{'loss': 0.1257, 'grad_norm': 0.588570773601532, 'learning_rate': 2.8717666666666668e-05, 'epoch': 25.56}
+{'loss': 0.1183, 'grad_norm': 0.49004557728767395, 'learning_rate': 2.8717333333333334e-05, 'epoch': 25.56}
+{'loss': 0.0888, 'grad_norm': 0.5519627332687378, 'learning_rate': 2.8717000000000003e-05, 'epoch': 25.56}
+{'loss': 0.0951, 'grad_norm': 0.6542931795120239, 'learning_rate': 2.8716666666666666e-05, 'epoch': 25.56}
+{'loss': 0.0795, 'grad_norm': 0.5098896026611328, 'learning_rate': 2.8716333333333335e-05, 'epoch': 25.56}
+{'loss': 0.0592, 'grad_norm': 0.561345636844635, 'learning_rate': 2.8716e-05, 'epoch': 25.57}
+{'loss': 0.0378, 'grad_norm': 0.38035711646080017, 'learning_rate': 2.8715666666666667e-05, 'epoch': 25.57}
+{'loss': 0.0544, 'grad_norm': 0.4322569966316223, 'learning_rate': 2.8715333333333336e-05, 'epoch': 25.57}
+{'loss': 0.0436, 'grad_norm': 0.6671208143234253, 'learning_rate': 2.8715000000000002e-05, 'epoch': 25.57}
+{'loss': 0.0358, 'grad_norm': 0.3293718695640564, 'learning_rate': 2.8714666666666668e-05, 'epoch': 25.57}
+{'loss': 0.0175, 'grad_norm': 0.2848909795284271, 'learning_rate': 2.8714333333333334e-05, 'epoch': 25.57}
+{'loss': 0.0316, 'grad_norm': 0.2711280286312103, 'learning_rate': 2.8714e-05, 'epoch': 25.58}
+ 14%|█▍        | 13863/100000 [7:34:48<55:18:54,  2.31s/it] 14%|█▍        | 13864/100000 [7:34:49<51:48:59,  2.17s/it]                                                            14%|█▍        | 13864/100000 [7:34:49<51:48:59,  2.17s/it] 14%|█▍        | 13865/100000 [7:34:51<48:37:00,  2.03s/it]                                                            14%|█▍        | 13865/100000 [7:34:51<48:37:00,  2.03s/it] 14%|█▍        | 13866/100000 [7:34:53<46:15:46,  1.93s/it]                                                            14%|█▍        | 13866/100000 [7:34:53<46:15:46,  1.93s/it] 14%|█▍        | 13867/100000 [7:34:55<43:59:54,  1.84s/it]                                                            14%|█▍        | 13867/100000 [7:34:55<43:59:54,  1.84s/it] 14%|█▍        | 13868/100000 [7:34:56<42:16:00,  1.77s/it]                                                            14%|█▍        | 13868/100000 [7:34:56<42:16:00,  1.77s/it] 14%|█▍        | 13869/100000 [7:34:58<40:44:16,  1.70s/it]                                                            14%|█▍        | 13869/100000 [7:34:58<40:44:16,  1.70s/it] 14%|█▍        | 13870/100000 [7:34:59<38:48:51,  1.62s/it]                                                            14%|█▍        | 13870/100000 [7:34:59<38:48:51,  1.62s/it] 14%|█▍        | 13871/100000 [7:35:01<37:38:23,  1.57s/it]                                                            14%|█▍        | 13871/100000 [7:35:01<37:38:23,  1.57s/it] 14%|█▍        | 13872/100000 [7:35:02<36:14:17,  1.51s/it]                                                            14%|█▍        | 13872/100000 [7:35:02<36:14:17,  1.51s/it] 14%|█▍        | 13873/100000 [7:35:03<35:31:24,  1.48s/it]                                                            14%|█▍        | 13873/100000 [7:35:03<35:31:24,  1.48s/it] 14%|█▍        | 13874/100000 [7:35:05<34:21:33,  1.44s/it]                                                            14%|█▍        | 13874/100000 [7:35:05<34:21:33,  1.44s/it] 14%|█▍        | 13875/100000 [7:35:06<33:32:32,  1.40s/it]                                                            14%|█▍        | 13875/100000 [7:35:06<33:32:32,  1.40s/it] 14%|█▍        | 13876/100000 [7:35:07<33:14:45,  1.39s/it]                                                            14%|█▍        | 13876/100000 [7:35:07<33:14:45,  1.39s/it] 14%|█▍        | 13877/100000 [7:35:09<32:41:51,  1.37s/it]                                                            14%|█▍        | 13877/100000 [7:35:09<32:41:51,  1.37s/it] 14%|█▍        | 13878/100000 [7:35:10<32:13:17,  1.35s/it]                                                            14%|█▍        | 13878/100000 [7:35:10<32:13:17,  1.35s/it] 14%|█▍        | 13879/100000 [7:35:11<31:44:14,  1.33s/it]                                                            14%|█▍        | 13879/100000 [7:35:11<31:44:14,  1.33s/it] 14%|█▍        | 13880/100000 [7:35:13<31:17:47,  1.31s/it]                                                            14%|█▍        | 13880/100000 [7:35:13<31:17:47,  1.31s/it] 14%|█▍        | 13881/100000 [7:35:14<30:51:31,  1.29s/it]                                                            14%|█▍        | 13881/100000 [7:35:14<30:51:31,  1.29s/it] 14%|█▍        | 13882/100000 [7:35:15<30:15:36,  1.26s/it]                                                            14%|█▍        | 13882/100000 [7:35:15<30:15:36,  1.26s/it] 14%|█▍        | 13883/100000 [7:35:16<29:55:57,  1.25s/it]                                                            14%|█▍        | 13883/100000 [7:35:16<29:55:57,  1.25s/it] 14%|█▍        | 13884/100000 [7:35:17<29:04:53,  1.22s/it]                                                            14%|█▍        | 13884/100000 [7:35:17<29:04:53,  1.22s/it] 14%|█▍        | 13885/100000 [7:35:18<28:48:44,  1.20s/it]                                                            14%|█▍        | 13885/100000 [7:35:18<28:48:44,  1.20s/it] 14%|█▍        | 13886/100000 [7:35:20<28:15:44,  1.18s/it]                                                            14%|█▍        | 13886/100000 [7:35:20<28:15:44,  1.18s/it] 14%|█▍        | 13887/100000 [7:35:21<27:55:58,  1.17s/it]                                                            14%|█▍        | 13887/100000 [7:35:21<27:55:58,  1.17s/it] 14%|█▍        | 13888/100000 [7:35:22<27:34:21,  1.15s/it]                                                            14%|█▍        | 13888/100000 [7:35:22<27:34:21,  1.15s/it] 14%|█▍        | 13889/100000 [7:35:23<27:06:53,  1.13s/it]                                                            14%|█▍        | 13889/100000 [7:35:23<27:06:53,  1.13s/it] 14%|█▍        | 13890/100000 [7:35:24<26:52:13,  1.12s/it]                                                            14%|█▍        | 13890/100000 [7:35:24<26:52:13,  1.12s/it] 14%|█▍        | 13891/100000 [7:35:25<26:24:41,  1.10s/it]                                                            14%|█▍        | 13891/100000 [7:35:25<26:24:41,  1.10s/it] 14%|█▍        | 13892/100000 [7:35:26<26:10:46,  1.09s/it]                                                            14%|█▍        | 13892/100000 [7:35:26<26:10:46,  1.09s/it] 14%|█▍        | 13893/100000 [7:35:27<25:44:03,  1.08s/it]                                                            14%|█▍        | 13893/100000 [7:35:27<25:44:03,  1.08s/it] 14%|█▍        | 13894/100000 [7:35:28<25:24:46,  1.06s/it]                                                            14%|█▍        | 13894/100000 [7:35:28<25:24:46,  1.06s/it] 14%|█▍        | 13895/100000 [7:35:29<24:39:41,  1.03s/it]                                                            14%|█▍        | 13895/100000 [7:35:29<24:39:41,  1.03s/it] 14%|█▍        | 13896/100000 [7:35:30<24:06:34,  1.01s/it]                                                            14%|█▍        | 13896/100000 [7:35:30<24:06:34,  1.01s/it] 14%|█▍        | 13897/100000 [7:35:31<23:44:22,  1.01it/s]                                                            14%|█▍        | 13897/100000 [7:35:31<23:44:22,  1.01it/s] 14%|█▍        | 13898/100000 [7:35:32<23:15:08,  1.03it/s]                                                            14%|█▍        | 13898/100000 [7:35:32<23:15:08,  1.03it/s] 14%|█▍        | 13899/100000 [7:35:33<22:52:18,  1.05it/s]                                                            14%|█▍        | 13899/100000 [7:35:33<22:52:18,  1.05it/s] 14%|█▍        | 13900/100000 [7:35:34<22:26:42,  1.07it/s]                                                            14%|█▍        | 13900/100000 [7:35:34<22:26:42,  1.07it/s] 14%|█▍        | 13901/100000 [7:35:44<90:40:25,  3.79s/it]                                                            14%|█▍        | 13901/100000 [7:35:44<90:40:25,  3.79s/it] 14%|█▍        | 13902/100000 [7:35:50<102:56:58,  4.30s/it]                                                             14%|█▍        | 13902/100000 [7:35:50<102:56:58,  4.30s/it] 14%|█▍        | 13903/100000 [7:35:54<103:55:50,  4.35s/it]                                                             14%|█▍        | 13903/100000 [7:35:54<103:55:50,  4.35s/it] 14%|█▍        | 13904/100000 [7:35:58<100:34:44,  4.21s/it]                                                             14%|█▍        | 13904/100000 [7:35:58<100:34:44,  4.21s/it] 14%|█▍        | 13905/100000 [7:36:02<95:21:24,  3.99s/it]                                                             14%|█▍        | 13905/100000 [7:36:02<95:21:24,  3.99s/it] 14%|█▍        | 13906/100000 [7:36:05<89:08:09,  3.73s/it]                                                            14%|█▍        | 13906/100000 [7:36:05<89:08:09,  3.73s/it] 14%|█▍        | 13907/100000 [7:36:08<83:20:29,  3.48s/it]                                                            14%|█▍        | 13907/100000 [7:36:08<83:20:29,  3.48s/it] 14%|█▍        | 13908/100000 [7:36:10<76:11:26,  3.19s/it]                                                            14%|█▍        | 13908/100000 [7:36:10<76:11:26,  3.19s/it] 14%|█▍        | 13909/100000 [7:36:13<70:27:09,  2.95s/it]                                                            14%|█▍        | 13909/100000 [7:36:13<70:27:09,  2.95s/it] 14%|█▍        | 13910/100000 [7:36:15<65:09:57,  2.73s/it]                                                            14%|█▍        | 13910/100000 [7:36:15<65:09:57,  2.73s/it] 14%|█▍        | 13911/100000 [7:36:17<60:24:20,  2.53s/it]                                                            14%|█▍        | 13911/100000 [7:36:17<60:24:20,  2.53s/it] 14%|█▍        | 13912/100000 [7:36:19<56:14:02,  2.35s/it]                                                            14%|█▍        | 13912/100000 [7:36:19<56:14:02,  2.35s/it] 14%|█▍        | 13913/100000 [7:36:21<52:37:48,  2.20s/it]                                                            14%|█▍        | 13913/100000 [7:36:21<52:37:48,  2.20s/it] 14%|█▍        | 13914/100000 [7:36:22<48:55:03,  2.05s/it]                                                            14%|█▍        | 13914/100000 [7:36:22<48:55:03,  2.05s/it] 14%|█▍        | 13915/100000 [7:36:24<46:15:14,  1.93s/it]                                                            14%|█▍        | 13915/100000 [7:36:24<46:15:14,  1.93s/it] 14%|█▍        | 13916/100000 [7:36:26<44:00:38,  1.84s/it]                                                            14%|█▍        | 13916/100000 [7:36:26<44:00:38,  1.84s/it] 14%|█▍        | 13917/100000 [7:36:27<42:08:02,  1.76s/it]                                                            14%|█▍        | 13917/100000 [7:36:27<42:08:02,  1.76s/it] 14%|█▍        | 13918/100000 [7:36:29<40:35:49,  1.70s/it]                                                            14%|█▍        | 13918/100000 [7:36:29<40:35:49,  1.70s/it] 14%|█▍        | 13919/100000 [7:36:30<38:46:10,  1.62s/it]                                                            14%|█▍        | 13919/100000 [7:36:30<38:46:10,  1.62s/it] 14%|█▍        | 13920/100000 [7:36:32<37:36:34,  1.57s/it]                                                            14%|█▍        | 13920/100000 [7:36:32<37:36:34,  1.57s/it] 14%|█▍        | 13921/100000 [7:36:33<36:36:21,  1.53s/it]                                                            14%|█▍        | 13921/100000 [7:36:33<36:36:21,  1.53s/it] 14%|█▍        | 13922/100000 [7:36:34<35:47:13,  1.50s/it]                                                            14%|█▍        | 13922/100000 [7:36:34<35:47:13,  1.50s/it] 14%|█▍        | 13923/100000 [7:36:36<35:05:30,  1.47s/it]                                                            14%|█▍        | 13923/100000 [7:36:36<35:05:30,  1.47s/it] 14%|█▍        | 13924/100000 [7:36:37<34:29:21,  1.44s/it]                                                            14%|█▍        | 13924/100000 [7:36:37<34:29:21,  1.44s/it] 14%|█▍        | 13925/100000 [7:36:39<33:54:41,  1.42s/it]                                                            14%|█▍        | 13925/100000 [7:36:39<33:54:41,  1.42s/it] 14%|█▍        | 13926/100000 [7:36:40<33:21:31,  1.40s/it]                                                            14%|█▍        | 13926/100000 [7:36:40<33:21:31,  1.40s/it] 14%|█▍        | 13927/100000 [7:36:41<32:36:40,  1.36s/it]                                                            14%|█▍        | 13927/100000 [7:36:41<32:36:40,  1.36s/it] 14%|█▍        | 13928/100000 [7:36:43<32:06:24,  1.34s/it]                                                            14%|█▍        | 13928/100000 [7:36:43<32:06:24,  1.34s/it] 14%|█▍        | 13929/100000 [7:36:44<31:43:27,  1.33s/it]                                                            14%|█▍        | 13929/100000 [7:36:44<31:43:27,  1.33s/it] 14%|█▍        | 13930/100000 [7:36:45<31:22:28,  1.31s/it]                                                            14%|█▍        | 13930/100000 [7:36:45<31:22:28,  1.31s/it] 14%|█▍        | 13931/100000 [7:36:46<30:53:45,  1.29s/it]                                                            14%|█▍        | 13931/100000 [7:36:46<30:53:45,  1.29s/it] 14%|█▍        | 13932/100000 [7:36:48<30:29:03,  1.28s/it]                                                            14%|█▍        | 13932/100000 [7:36:48<30:29:03,  1.28s/it] 14%|█▍        | 13933/100000 [7:36:49<30:06:16,  1.26s/it]                                                            14%|█▍        | 13933/100000 [7:36:49<30:06:16,  1.26s/it] 14%|█▍        | 13934/100000 [7:36:50<29:27:10,  1.23s/it]                                                            14%|█▍        | 13934/100000 [7:36:50<29:27:10,  1.23s/it] 14%|█▍        | 13935/100000 [7:36:51<29:00:23,  1.21s/it]                                                            14%|█▍        | 13935/100000 [7:36:51<29:00:23,  1.21s/it] 14%|█▍        | 13936/100000 [7:36:52<28:34:25,  1.20s/it]                                                            14%|█▍        | 13936/100000 [7:36:52<28:34:25,  1.20s/it] 14%|█▍        | 13937/100000 [7:36:53<28:09:59,  1.18s/it]                                                            14%|█▍        | 13937/100000 [7:36:53<28:09:59,  1.18s/it] 14%|█▍        | 13938/100000 [7:36:55<27:38:40,  1.16s/it]                                                            14%|█▍        | 13938/100000 [7:36:55<27:38:40,  1.16s/it] 14%|█▍        | 13939/100000 [7:36:56<26:54:16,  1.13s/it]                                                            14%|█▍        | 13939/100000 [7:36:56<26:54:16,  1.13s/it] 14%|█▍        | 13940/100000 [7:36:57<26:27:39,  1.11s/it]                                                            14%|█▍        | 13940/100000 [7:36:57<26:27:39,  1.11s/it] 14%|█▍        | 13941/100000 [7:36:58<26:18:00,  1.10s/it]                                                           {'loss': 0.0186, 'grad_norm': 0.2882595360279083, 'learning_rate': 2.8713666666666666e-05, 'epoch': 25.58}
+{'loss': 0.0553, 'grad_norm': 0.5483098030090332, 'learning_rate': 2.8713333333333335e-05, 'epoch': 25.58}
+{'loss': 0.0106, 'grad_norm': 1.0351965427398682, 'learning_rate': 2.8712999999999998e-05, 'epoch': 25.58}
+{'loss': 0.0213, 'grad_norm': 0.8314506411552429, 'learning_rate': 2.8712666666666667e-05, 'epoch': 25.58}
+{'loss': 0.01, 'grad_norm': 0.5011735558509827, 'learning_rate': 2.8712333333333336e-05, 'epoch': 25.59}
+{'loss': 0.0073, 'grad_norm': 0.19918778538703918, 'learning_rate': 2.8712e-05, 'epoch': 25.59}
+{'loss': 0.0138, 'grad_norm': 0.44274699687957764, 'learning_rate': 2.8711666666666668e-05, 'epoch': 25.59}
+{'loss': 0.0344, 'grad_norm': 0.2641814947128296, 'learning_rate': 2.8711333333333334e-05, 'epoch': 25.59}
+{'loss': 0.0069, 'grad_norm': 0.2949162721633911, 'learning_rate': 2.8711e-05, 'epoch': 25.59}
+{'loss': 0.0179, 'grad_norm': 0.4576517641544342, 'learning_rate': 2.8710666666666666e-05, 'epoch': 25.59}
+{'loss': 0.0097, 'grad_norm': 0.3257240653038025, 'learning_rate': 2.8710333333333335e-05, 'epoch': 25.6}
+{'loss': 0.0045, 'grad_norm': 0.266026109457016, 'learning_rate': 2.871e-05, 'epoch': 25.6}
+{'loss': 0.0074, 'grad_norm': 0.28286173939704895, 'learning_rate': 2.8709666666666667e-05, 'epoch': 25.6}
+{'loss': 0.0041, 'grad_norm': 0.5088093280792236, 'learning_rate': 2.8709333333333337e-05, 'epoch': 25.6}
+{'loss': 0.005, 'grad_norm': 0.25021037459373474, 'learning_rate': 2.8709e-05, 'epoch': 25.6}
+{'loss': 0.0035, 'grad_norm': 0.24160067737102509, 'learning_rate': 2.870866666666667e-05, 'epoch': 25.61}
+{'loss': 0.0074, 'grad_norm': 0.34590643644332886, 'learning_rate': 2.8708333333333334e-05, 'epoch': 25.61}
+{'loss': 0.0101, 'grad_norm': 0.5404072403907776, 'learning_rate': 2.8708e-05, 'epoch': 25.61}
+{'loss': 0.0035, 'grad_norm': 0.1285506635904312, 'learning_rate': 2.8707666666666666e-05, 'epoch': 25.61}
+{'loss': 0.0072, 'grad_norm': 0.23897305130958557, 'learning_rate': 2.8707333333333336e-05, 'epoch': 25.61}
+{'loss': 0.006, 'grad_norm': 0.29718905687332153, 'learning_rate': 2.8707e-05, 'epoch': 25.61}
+{'loss': 0.0024, 'grad_norm': 0.08984941989183426, 'learning_rate': 2.8706666666666667e-05, 'epoch': 25.62}
+{'loss': 0.0074, 'grad_norm': 0.223371222615242, 'learning_rate': 2.8706333333333337e-05, 'epoch': 25.62}
+{'loss': 0.0079, 'grad_norm': 0.16034305095672607, 'learning_rate': 2.8706e-05, 'epoch': 25.62}
+{'loss': 0.0039, 'grad_norm': 0.2069733887910843, 'learning_rate': 2.870566666666667e-05, 'epoch': 25.62}
+{'loss': 0.0145, 'grad_norm': 0.3699100613594055, 'learning_rate': 2.8705333333333335e-05, 'epoch': 25.62}
+{'loss': 0.0065, 'grad_norm': 0.5772353410720825, 'learning_rate': 2.8705e-05, 'epoch': 25.63}
+{'loss': 0.002, 'grad_norm': 0.0805864930152893, 'learning_rate': 2.8704666666666666e-05, 'epoch': 25.63}
+{'loss': 0.005, 'grad_norm': 0.19519758224487305, 'learning_rate': 2.8704333333333332e-05, 'epoch': 25.63}
+{'loss': 0.0061, 'grad_norm': 0.21675550937652588, 'learning_rate': 2.8704e-05, 'epoch': 25.63}
+{'loss': 0.0043, 'grad_norm': 0.15496018528938293, 'learning_rate': 2.8703666666666668e-05, 'epoch': 25.63}
+{'loss': 0.0093, 'grad_norm': 0.5796242356300354, 'learning_rate': 2.8703333333333334e-05, 'epoch': 25.64}
+{'loss': 0.004, 'grad_norm': 0.26933422684669495, 'learning_rate': 2.8703e-05, 'epoch': 25.64}
+{'loss': 0.0082, 'grad_norm': 1.446235179901123, 'learning_rate': 2.870266666666667e-05, 'epoch': 25.64}
+{'loss': 0.015, 'grad_norm': 1.0523089170455933, 'learning_rate': 2.870233333333333e-05, 'epoch': 25.64}
+{'loss': 0.0084, 'grad_norm': 0.45611003041267395, 'learning_rate': 2.8702e-05, 'epoch': 25.64}
+{'loss': 0.0025, 'grad_norm': 0.15992005169391632, 'learning_rate': 2.8701666666666667e-05, 'epoch': 25.64}
+{'loss': 0.0017, 'grad_norm': 0.08912533521652222, 'learning_rate': 2.8701333333333333e-05, 'epoch': 25.65}
+{'loss': 0.1265, 'grad_norm': 1.0898728370666504, 'learning_rate': 2.8701000000000002e-05, 'epoch': 25.65}
+{'loss': 0.1012, 'grad_norm': 0.5395174622535706, 'learning_rate': 2.8700666666666668e-05, 'epoch': 25.65}
+{'loss': 0.0628, 'grad_norm': 0.4160155951976776, 'learning_rate': 2.8700333333333334e-05, 'epoch': 25.65}
+{'loss': 0.0745, 'grad_norm': 0.5603948831558228, 'learning_rate': 2.87e-05, 'epoch': 25.65}
+{'loss': 0.0692, 'grad_norm': 0.4057348370552063, 'learning_rate': 2.869966666666667e-05, 'epoch': 25.66}
+{'loss': 0.0394, 'grad_norm': 0.379995733499527, 'learning_rate': 2.869933333333333e-05, 'epoch': 25.66}
+{'loss': 0.0504, 'grad_norm': 0.5244229435920715, 'learning_rate': 2.8699e-05, 'epoch': 25.66}
+{'loss': 0.0344, 'grad_norm': 0.34626778960227966, 'learning_rate': 2.869866666666667e-05, 'epoch': 25.66}
+{'loss': 0.0491, 'grad_norm': 0.5717699527740479, 'learning_rate': 2.8698333333333333e-05, 'epoch': 25.66}
+{'loss': 0.0252, 'grad_norm': 0.33867087960243225, 'learning_rate': 2.8698000000000002e-05, 'epoch': 25.66}
+{'loss': 0.0261, 'grad_norm': 0.7220029830932617, 'learning_rate': 2.8697666666666668e-05, 'epoch': 25.67}
+{'loss': 0.0953, 'grad_norm': 0.48679837584495544, 'learning_rate': 2.8697333333333334e-05, 'epoch': 25.67}
+{'loss': 0.0296, 'grad_norm': 0.45722731947898865, 'learning_rate': 2.8697e-05, 'epoch': 25.67}
+{'loss': 0.033, 'grad_norm': 0.27095258235931396, 'learning_rate': 2.869666666666667e-05, 'epoch': 25.67}
+{'loss': 0.004, 'grad_norm': 0.12416177988052368, 'learning_rate': 2.8696333333333332e-05, 'epoch': 25.67}
+{'loss': 0.0085, 'grad_norm': 0.27076831459999084, 'learning_rate': 2.8696e-05, 'epoch': 25.68}
+{'loss': 0.0153, 'grad_norm': 0.4575108289718628, 'learning_rate': 2.869566666666667e-05, 'epoch': 25.68}
+{'loss': 0.0392, 'grad_norm': 0.33490633964538574, 'learning_rate': 2.8695333333333333e-05, 'epoch': 25.68}
+{'loss': 0.0212, 'grad_norm': 0.4233061969280243, 'learning_rate': 2.8695000000000002e-05, 'epoch': 25.68}
+{'loss': 0.0341, 'grad_norm': 0.37904930114746094, 'learning_rate': 2.8694666666666668e-05, 'epoch': 25.68}
+{'loss': 0.0148, 'grad_norm': 0.3937544524669647, 'learning_rate': 2.8694333333333334e-05, 'epoch': 25.69}
+{'loss': 0.0095, 'grad_norm': 0.21121932566165924, 'learning_rate': 2.8694e-05, 'epoch': 25.69}
+{'loss': 0.0067, 'grad_norm': 0.17242980003356934, 'learning_rate': 2.8693666666666666e-05, 'epoch': 25.69}
+{'loss': 0.006, 'grad_norm': 0.6399073600769043, 'learning_rate': 2.8693333333333335e-05, 'epoch': 25.69}
+{'loss': 0.0123, 'grad_norm': 0.4123702943325043, 'learning_rate': 2.8693e-05, 'epoch': 25.69}
+{'loss': 0.0168, 'grad_norm': 0.2438940405845642, 'learning_rate': 2.8692666666666667e-05, 'epoch': 25.69}
+{'loss': 0.0063, 'grad_norm': 0.18913382291793823, 'learning_rate': 2.8692333333333333e-05, 'epoch': 25.7}
+{'loss': 0.0047, 'grad_norm': 0.2355855107307434, 'learning_rate': 2.8692000000000002e-05, 'epoch': 25.7}
+{'loss': 0.0062, 'grad_norm': 0.16520513594150543, 'learning_rate': 2.8691666666666665e-05, 'epoch': 25.7}
+{'loss': 0.0138, 'grad_norm': 0.50859135389328, 'learning_rate': 2.8691333333333334e-05, 'epoch': 25.7}
+{'loss': 0.0085, 'grad_norm': 0.3660358488559723, 'learning_rate': 2.8691e-05, 'epoch': 25.7}
+{'loss': 0.0045, 'grad_norm': 0.2390100210905075, 'learning_rate': 2.8690666666666666e-05, 'epoch': 25.71}
+{'loss': 0.011, 'grad_norm': 0.2729160785675049, 'learning_rate': 2.8690333333333336e-05, 'epoch': 25.71}
+{'loss': 0.0084, 'grad_norm': 0.2517271041870117, 'learning_rate': 2.869e-05, 'epoch': 25.71}
+{'loss': 0.0109, 'grad_norm': 0.291607141494751, 'learning_rate': 2.8689666666666667e-05, 'epoch': 25.71}
+{'loss': 0.0105, 'grad_norm': 0.43152952194213867, 'learning_rate': 2.8689333333333333e-05, 'epoch': 25.71}
+{'loss': 0.0107, 'grad_norm': 0.21754711866378784, 'learning_rate': 2.8689000000000003e-05, 'epoch': 25.71}
+{'loss': 0.0068, 'grad_norm': 0.3606095016002655, 'learning_rate': 2.8688666666666665e-05, 'epoch': 25.72}
+{'loss': 0.0066, 'grad_norm': 0.3872680962085724, 'learning_rate': 2.8688333333333335e-05, 'epoch': 25.72}
+{'loss': 0.0074, 'grad_norm': 0.24474932253360748, 'learning_rate': 2.8688e-05, 'epoch': 25.72}
+ 14%|█▍        | 13941/100000 [7:36:58<26:18:00,  1.10s/it] 14%|█▍        | 13942/100000 [7:36:59<26:02:56,  1.09s/it]                                                            14%|█���        | 13942/100000 [7:36:59<26:02:56,  1.09s/it] 14%|█▍        | 13943/100000 [7:37:00<25:35:30,  1.07s/it]                                                            14%|█▍        | 13943/100000 [7:37:00<25:35:30,  1.07s/it] 14%|█▍        | 13944/100000 [7:37:01<25:20:31,  1.06s/it]                                                            14%|█▍        | 13944/100000 [7:37:01<25:20:31,  1.06s/it] 14%|█▍        | 13945/100000 [7:37:02<24:57:25,  1.04s/it]                                                            14%|█▍        | 13945/100000 [7:37:02<24:57:25,  1.04s/it] 14%|█▍        | 13946/100000 [7:37:03<24:26:47,  1.02s/it]                                                            14%|█▍        | 13946/100000 [7:37:03<24:26:47,  1.02s/it] 14%|█▍        | 13947/100000 [7:37:04<24:04:00,  1.01s/it]                                                            14%|█▍        | 13947/100000 [7:37:04<24:04:00,  1.01s/it] 14%|█▍        | 13948/100000 [7:37:05<23:44:54,  1.01it/s]                                                            14%|█▍        | 13948/100000 [7:37:05<23:44:54,  1.01it/s] 14%|█▍        | 13949/100000 [7:37:06<23:12:21,  1.03it/s]                                                            14%|█▍        | 13949/100000 [7:37:06<23:12:21,  1.03it/s] 14%|█▍        | 13950/100000 [7:37:07<22:39:46,  1.05it/s]                                                            14%|█▍        | 13950/100000 [7:37:07<22:39:46,  1.05it/s] 14%|█▍        | 13951/100000 [7:37:17<93:07:02,  3.90s/it]                                                            14%|█▍        | 13951/100000 [7:37:17<93:07:02,  3.90s/it] 14%|█▍        | 13952/100000 [7:37:23<107:02:22,  4.48s/it]                                                             14%|█▍        | 13952/100000 [7:37:23<107:02:22,  4.48s/it] 14%|█▍        | 13953/100000 [7:37:28<110:34:32,  4.63s/it]                                                             14%|█▍        | 13953/100000 [7:37:28<110:34:32,  4.63s/it] 14%|█▍        | 13954/100000 [7:37:32<107:11:21,  4.48s/it]                                                             14%|█▍        | 13954/100000 [7:37:32<107:11:21,  4.48s/it] 14%|█▍        | 13955/100000 [7:37:36<101:25:51,  4.24s/it]                                                             14%|█▍        | 13955/100000 [7:37:36<101:25:51,  4.24s/it] 14%|█▍        | 13956/100000 [7:37:39<94:36:19,  3.96s/it]                                                             14%|█▍        | 13956/100000 [7:37:39<94:36:19,  3.96s/it] 14%|█▍        | 13957/100000 [7:37:42<88:08:15,  3.69s/it]                                                            14%|█▍        | 13957/100000 [7:37:42<88:08:15,  3.69s/it] 14%|█▍        | 13958/100000 [7:37:45<82:02:01,  3.43s/it]                                                            14%|█▍        | 13958/100000 [7:37:45<82:02:01,  3.43s/it] 14%|█▍        | 13959/100000 [7:37:48<76:08:48,  3.19s/it]                                                            14%|█▍        | 13959/100000 [7:37:48<76:08:48,  3.19s/it] 14%|█▍        | 13960/100000 [7:37:50<70:35:36,  2.95s/it]                                                            14%|█▍        | 13960/100000 [7:37:50<70:35:36,  2.95s/it] 14%|█▍        | 13961/100000 [7:37:52<65:31:35,  2.74s/it]                                                            14%|█▍        | 13961/100000 [7:37:52<65:31:35,  2.74s/it] 14%|█▍        | 13962/100000 [7:37:55<60:51:46,  2.55s/it]                                                            14%|█▍        | 13962/100000 [7:37:55<60:51:46,  2.55s/it] 14%|█▍        | 13963/100000 [7:37:56<56:14:10,  2.35s/it]                                                            14%|█▍        | 13963/100000 [7:37:56<56:14:10,  2.35s/it] 14%|█▍        | 13964/100000 [7:37:58<52:40:53,  2.20s/it]                                                            14%|█▍        | 13964/100000 [7:37:58<52:40:53,  2.20s/it] 14%|█▍        | 13965/100000 [7:38:00<49:29:03,  2.07s/it]                                                            14%|█▍        | 13965/100000 [7:38:00<49:29:03,  2.07s/it] 14%|█▍        | 13966/100000 [7:38:02<46:50:42,  1.96s/it]                                                            14%|█▍        | 13966/100000 [7:38:02<46:50:42,  1.96s/it] 14%|█▍        | 13967/100000 [7:38:03<44:34:27,  1.87s/it]                                                            14%|█▍        | 13967/100000 [7:38:03<44:34:27,  1.87s/it] 14%|█▍        | 13968/100000 [7:38:05<42:43:17,  1.79s/it]                                                            14%|█▍        | 13968/100000 [7:38:05<42:43:17,  1.79s/it] 14%|█▍        | 13969/100000 [7:38:07<40:45:39,  1.71s/it]                                                            14%|█▍        | 13969/100000 [7:38:07<40:45:39,  1.71s/it] 14%|█▍        | 13970/100000 [7:38:08<39:15:31,  1.64s/it]                                                            14%|█▍        | 13970/100000 [7:38:08<39:15:31,  1.64s/it] 14%|█▍        | 13971/100000 [7:38:09<37:57:19,  1.59s/it]                                                            14%|█▍        | 13971/100000 [7:38:09<37:57:19,  1.59s/it] 14%|█▍        | 13972/100000 [7:38:11<36:52:36,  1.54s/it]                                                            14%|█▍        | 13972/100000 [7:38:11<36:52:36,  1.54s/it] 14%|█▍        | 13973/100000 [7:38:12<35:57:08,  1.50s/it]                                                            14%|█▍        | 13973/100000 [7:38:12<35:57:08,  1.50s/it] 14%|█▍        | 13974/100000 [7:38:14<35:13:13,  1.47s/it]                                                            14%|█▍        | 13974/100000 [7:38:14<35:13:13,  1.47s/it] 14%|█▍        | 13975/100000 [7:38:15<34:32:47,  1.45s/it]                                                            14%|█▍        | 13975/100000 [7:38:15<34:32:47,  1.45s/it] 14%|█▍        | 13976/100000 [7:38:16<33:56:11,  1.42s/it]                                                            14%|█▍        | 13976/100000 [7:38:16<33:56:11,  1.42s/it] 14%|█▍        | 13977/100000 [7:38:18<33:20:13,  1.40s/it]                                                            14%|█▍        | 13977/100000 [7:38:18<33:20:13,  1.40s/it] 14%|█▍        | 13978/100000 [7:38:19<32:30:57,  1.36s/it]                                                            14%|█▍        | 13978/100000 [7:38:19<32:30:57,  1.36s/it] 14%|█▍        | 13979/100000 [7:38:20<32:04:46,  1.34s/it]                                                            14%|█▍        | 13979/100000 [7:38:20<32:04:46,  1.34s/it] 14%|█▍        | 13980/100000 [7:38:22<31:40:03,  1.33s/it]                                                            14%|█▍        | 13980/100000 [7:38:22<31:40:03,  1.33s/it] 14%|█▍        | 13981/100000 [7:38:23<31:12:03,  1.31s/it]                                                            14%|█▍        | 13981/100000 [7:38:23<31:12:03,  1.31s/it] 14%|█▍        | 13982/100000 [7:38:24<30:26:56,  1.27s/it]                                                            14%|█▍        | 13982/100000 [7:38:24<30:26:56,  1.27s/it] 14%|█▍        | 13983/100000 [7:38:25<30:06:11,  1.26s/it]                                                            14%|█▍        | 13983/100000 [7:38:25<30:06:11,  1.26s/it] 14%|█▍        | 13984/100000 [7:38:27<29:49:51,  1.25s/it]                                                            14%|█▍        | 13984/100000 [7:38:27<29:49:51,  1.25s/it] 14%|█▍        | 13985/100000 [7:38:28<29:04:10,  1.22s/it]                                                            14%|█▍        | 13985/100000 [7:38:28<29:04:10,  1.22s/it] 14%|█▍        | 13986/100000 [7:38:29<28:39:52,  1.20s/it]                                                            14%|█▍        | 13986/100000 [7:38:29<28:39:52,  1.20s/it] 14%|█▍        | 13987/100000 [7:38:30<28:17:10,  1.18s/it]                                                            14%|█▍        | 13987/100000 [7:38:30<28:17:10,  1.18s/it] 14%|█▍        | 13988/100000 [7:38:31<27:51:24,  1.17s/it]                                                            14%|█▍        | 13988/100000 [7:38:31<27:51:24,  1.17s/it] 14%|█▍        | 13989/100000 [7:38:32<27:28:16,  1.15s/it]                                                            14%|█▍        | 13989/100000 [7:38:32<27:28:16,  1.15s/it] 14%|█▍        | 13990/100000 [7:38:33<27:09:02,  1.14s/it]                                                            14%|█▍        | 13990/100000 [7:38:33<27:09:02,  1.14s/it] 14%|█▍        | 13991/100000 [7:38:34<26:46:45,  1.12s/it]                                                            14%|█▍        | 13991/100000 [7:38:34<26:46:45,  1.12s/it] 14%|█▍        | 13992/100000 [7:38:36<26:28:26,  1.11s/it]                                                            14%|█▍        | 13992/100000 [7:38:36<26:28:26,  1.11s/it] 14%|█▍        | 13993/100000 [7:38:37<26:01:50,  1.09s/it]                                                            14%|█▍        | 13993/100000 [7:38:37<26:01:50,  1.09s/it] 14%|█▍        | 13994/100000 [7:38:38<25:37:11,  1.07s/it]                                                            14%|█▍        | 13994/100000 [7:38:38<25:37:11,  1.07s/it] 14%|█▍        | 13995/100000 [7:38:39<25:12:41,  1.06s/it]                                                            14%|█▍        | 13995/100000 [7:38:39<25:12:41,  1.06s/it] 14%|█▍        | 13996/100000 [7:38:40<24:44:01,  1.04s/it]                                                            14%|█▍        | 13996/100000 [7:38:40<24:44:01,  1.04s/it] 14%|█▍        | 13997/100000 [7:38:41<24:18:49,  1.02s/it]                                                            14%|█▍        | 13997/100000 [7:38:41<24:18:49,  1.02s/it] 14%|█▍        | 13998/100000 [7:38:42<23:57:52,  1.00s/it]                                                            14%|█▍        | 13998/100000 [7:38:42<23:57:52,  1.00s/it] 14%|█▍        | 13999/100000 [7:38:43<23:27:04,  1.02it/s]                                                            14%|█▍        | 13999/100000 [7:38:43<23:27:04,  1.02it/s] 14%|█▍        | 14000/100000 [7:38:43<22:42:35,  1.05it/s]                                                            14%|█▍        | 14000/100000 [7:38:43<22:42:35,  1.05it/s]The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+{'loss': 0.003, 'grad_norm': 0.0998922809958458, 'learning_rate': 2.8687666666666666e-05, 'epoch': 25.72}
+{'loss': 0.0061, 'grad_norm': 0.36174479126930237, 'learning_rate': 2.8687333333333336e-05, 'epoch': 25.72}
+{'loss': 0.0055, 'grad_norm': 0.3098700940608978, 'learning_rate': 2.8687e-05, 'epoch': 25.73}
+{'loss': 0.0109, 'grad_norm': 0.638459324836731, 'learning_rate': 2.8686666666666668e-05, 'epoch': 25.73}
+{'loss': 0.0093, 'grad_norm': 0.35461121797561646, 'learning_rate': 2.8686333333333334e-05, 'epoch': 25.73}
+{'loss': 0.0042, 'grad_norm': 0.14713731408119202, 'learning_rate': 2.8686000000000003e-05, 'epoch': 25.73}
+{'loss': 0.0061, 'grad_norm': 0.21553030610084534, 'learning_rate': 2.8685666666666665e-05, 'epoch': 25.73}
+{'loss': 0.0054, 'grad_norm': 0.24078437685966492, 'learning_rate': 2.8685333333333335e-05, 'epoch': 25.73}
+{'loss': 0.0136, 'grad_norm': 0.4704957604408264, 'learning_rate': 2.8685e-05, 'epoch': 25.74}
+{'loss': 0.0218, 'grad_norm': 1.031306505203247, 'learning_rate': 2.8684666666666667e-05, 'epoch': 25.74}
+{'loss': 0.1239, 'grad_norm': 0.7354793548583984, 'learning_rate': 2.8684333333333336e-05, 'epoch': 25.74}
+{'loss': 0.0813, 'grad_norm': 0.43336817622184753, 'learning_rate': 2.8684e-05, 'epoch': 25.74}
+{'loss': 0.111, 'grad_norm': 0.48846545815467834, 'learning_rate': 2.8683666666666668e-05, 'epoch': 25.74}
+{'loss': 0.0533, 'grad_norm': 0.48932769894599915, 'learning_rate': 2.8683333333333334e-05, 'epoch': 25.75}
+{'loss': 0.0647, 'grad_norm': 0.5916051864624023, 'learning_rate': 2.8683e-05, 'epoch': 25.75}
+{'loss': 0.0752, 'grad_norm': 0.5129830837249756, 'learning_rate': 2.8682666666666666e-05, 'epoch': 25.75}
+{'loss': 0.0473, 'grad_norm': 0.4459969699382782, 'learning_rate': 2.8682333333333335e-05, 'epoch': 25.75}
+{'loss': 0.0351, 'grad_norm': 0.8263006210327148, 'learning_rate': 2.8682e-05, 'epoch': 25.75}
+{'loss': 0.042, 'grad_norm': 0.6295078992843628, 'learning_rate': 2.8681666666666667e-05, 'epoch': 25.76}
+{'loss': 0.0261, 'grad_norm': 0.3544279932975769, 'learning_rate': 2.8681333333333336e-05, 'epoch': 25.76}
+{'loss': 0.0233, 'grad_norm': 0.2778114676475525, 'learning_rate': 2.8681e-05, 'epoch': 25.76}
+{'loss': 0.0319, 'grad_norm': 0.26822900772094727, 'learning_rate': 2.8680666666666668e-05, 'epoch': 25.76}
+{'loss': 0.0482, 'grad_norm': 0.7484460473060608, 'learning_rate': 2.8680333333333334e-05, 'epoch': 25.76}
+{'loss': 0.0103, 'grad_norm': 0.1940113604068756, 'learning_rate': 2.868e-05, 'epoch': 25.76}
+{'loss': 0.0206, 'grad_norm': 0.3328947126865387, 'learning_rate': 2.8679666666666666e-05, 'epoch': 25.77}
+{'loss': 0.0189, 'grad_norm': 0.3248881697654724, 'learning_rate': 2.8679333333333335e-05, 'epoch': 25.77}
+{'loss': 0.0071, 'grad_norm': 0.17101606726646423, 'learning_rate': 2.8679e-05, 'epoch': 25.77}
+{'loss': 0.0083, 'grad_norm': 0.18649211525917053, 'learning_rate': 2.8678666666666667e-05, 'epoch': 25.77}
+{'loss': 0.0091, 'grad_norm': 0.2769390940666199, 'learning_rate': 2.8678333333333336e-05, 'epoch': 25.77}
+{'loss': 0.0082, 'grad_norm': 0.2639617323875427, 'learning_rate': 2.8678e-05, 'epoch': 25.78}
+{'loss': 0.0112, 'grad_norm': 0.27369749546051025, 'learning_rate': 2.8677666666666668e-05, 'epoch': 25.78}
+{'loss': 0.0053, 'grad_norm': 0.2493075728416443, 'learning_rate': 2.8677333333333334e-05, 'epoch': 25.78}
+{'loss': 0.0094, 'grad_norm': 0.35896432399749756, 'learning_rate': 2.8677e-05, 'epoch': 25.78}
+{'loss': 0.0189, 'grad_norm': 0.6993874311447144, 'learning_rate': 2.867666666666667e-05, 'epoch': 25.78}
+{'loss': 0.0064, 'grad_norm': 0.27760475873947144, 'learning_rate': 2.8676333333333335e-05, 'epoch': 25.78}
+{'loss': 0.0074, 'grad_norm': 0.32611775398254395, 'learning_rate': 2.8676e-05, 'epoch': 25.79}
+{'loss': 0.0061, 'grad_norm': 0.17413999140262604, 'learning_rate': 2.8675666666666667e-05, 'epoch': 25.79}
+{'loss': 0.008, 'grad_norm': 0.1638621687889099, 'learning_rate': 2.8675333333333336e-05, 'epoch': 25.79}
+{'loss': 0.0101, 'grad_norm': 0.4006885588169098, 'learning_rate': 2.8675e-05, 'epoch': 25.79}
+{'loss': 0.009, 'grad_norm': 0.29481589794158936, 'learning_rate': 2.867466666666667e-05, 'epoch': 25.79}
+{'loss': 0.0025, 'grad_norm': 0.10241249948740005, 'learning_rate': 2.867433333333333e-05, 'epoch': 25.8}
+{'loss': 0.0068, 'grad_norm': 0.198036789894104, 'learning_rate': 2.8674e-05, 'epoch': 25.8}
+{'loss': 0.0051, 'grad_norm': 0.14961473643779755, 'learning_rate': 2.867366666666667e-05, 'epoch': 25.8}
+{'loss': 0.0036, 'grad_norm': 0.11135370284318924, 'learning_rate': 2.8673333333333332e-05, 'epoch': 25.8}
+{'loss': 0.0071, 'grad_norm': 0.38078421354293823, 'learning_rate': 2.8673e-05, 'epoch': 25.8}
+{'loss': 0.0037, 'grad_norm': 0.15546701848506927, 'learning_rate': 2.8672666666666667e-05, 'epoch': 25.81}
+{'loss': 0.0069, 'grad_norm': 0.3690662980079651, 'learning_rate': 2.8672333333333333e-05, 'epoch': 25.81}
+{'loss': 0.0119, 'grad_norm': 0.21701663732528687, 'learning_rate': 2.8672e-05, 'epoch': 25.81}
+{'loss': 0.0079, 'grad_norm': 0.5214126706123352, 'learning_rate': 2.867166666666667e-05, 'epoch': 25.81}
+{'loss': 0.0042, 'grad_norm': 0.24381795525550842, 'learning_rate': 2.867133333333333e-05, 'epoch': 25.81}
+{'loss': 0.0048, 'grad_norm': 0.36028149724006653, 'learning_rate': 2.8671e-05, 'epoch': 25.81}
+{'loss': 0.0033, 'grad_norm': 0.2194744199514389, 'learning_rate': 2.867066666666667e-05, 'epoch': 25.82}
+{'loss': 0.0069, 'grad_norm': 0.3237725496292114, 'learning_rate': 2.8670333333333332e-05, 'epoch': 25.82}
+{'loss': 0.0158, 'grad_norm': 0.4830024540424347, 'learning_rate': 2.867e-05, 'epoch': 25.82}
+{'loss': 0.0311, 'grad_norm': 0.8800148367881775, 'learning_rate': 2.8669666666666668e-05, 'epoch': 25.82}
+{'loss': 0.0028, 'grad_norm': 0.18014296889305115, 'learning_rate': 2.8669333333333334e-05, 'epoch': 25.82}
+{'loss': 0.0049, 'grad_norm': 0.25388187170028687, 'learning_rate': 2.8669e-05, 'epoch': 25.83}
+{'loss': 0.0101, 'grad_norm': 0.5490654706954956, 'learning_rate': 2.866866666666667e-05, 'epoch': 25.83}
+{'loss': 0.008, 'grad_norm': 0.4083966910839081, 'learning_rate': 2.8668333333333335e-05, 'epoch': 25.83}
+{'loss': 0.0142, 'grad_norm': 0.3681202232837677, 'learning_rate': 2.8668e-05, 'epoch': 25.83}
+
+  0%|          | 0/10 [00:00<?, ?it/s][A
+ 20%|██        | 2/10 [00:00<00:02,  3.95it/s][A
+ 30%|███       | 3/10 [00:01<00:05,  1.31it/s][A
+ 40%|████      | 4/10 [00:02<00:04,  1.50it/s][A
+ 50%|█████     | 5/10 [00:04<00:05,  1.09s/it][A
+ 60%|██████    | 6/10 [00:04<00:03,  1.13it/s][A
+ 70%|███████   | 7/10 [00:06<00:03,  1.24s/it][A
+ 80%|████████  | 8/10 [00:07<00:02,  1.03s/it][A
+ 90%|█████████ | 9/10 [00:08<00:01,  1.14s/it][A
+100%|██████████| 10/10 [00:09<00:00,  1.10it/s][A                                                           
+                                               [A 14%|█▍        | 14000/100000 [7:39:17<22:42:35,  1.05it/s]
+100%|██████████| 10/10 [00:09<00:00,  1.10it/s][A
+                                               [ASaving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h/checkpoint-14000
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-14000/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-14000/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-14000/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-14000/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-14000/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/checkpoint-14000/added_tokens.json
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-13000] due to args.save_total_limit
+
+
+Training completed. Do not forget to share your model on huggingface.co/models =)
+
+
+Loading best model from ./w2v-bert-2.0-chichewa_34_34h/checkpoint-9000 (score: 0.3083859980106354).
+                                                            14%|█▍        | 14000/100000 [7:39:30<22:42:35,  1.05it/s]Deleting older checkpoint [w2v-bert-2.0-chichewa_34_34h/checkpoint-14000] due to args.save_total_limit
+ 14%|█▍        | 14000/100000 [7:39:31<47:02:48,  1.97s/it]
+Waiting for the current checkpoint push to be finished, this might take a couple of minutes.
+Saving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Saving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Dropping the following result as it does not have all the necessary fields:
+{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.4121258633921719}]}
+{'eval_loss': 0.417955607175827, 'eval_wer': 0.4121258633921719, 'eval_cer': 0.11683127251989528, 'eval_runtime': 16.0102, 'eval_samples_per_second': 18.988, 'eval_steps_per_second': 0.625, 'epoch': 25.83}
+{'train_runtime': 27570.5866, 'train_samples_per_second': 232.131, 'train_steps_per_second': 3.627, 'train_loss': 0.3484456565128265, 'epoch': 25.83}
+***** train metrics *****
+  epoch                    =         25.831
+  total_flos               = 175357195097GF
+  train_loss               =         0.3484
+  train_runtime            =     7:39:30.58
+  train_samples            =          34643
+  train_samples_per_second =        232.131
+  train_steps_per_second   =          3.627
+04/19/2025 23:04:37 - INFO - __main__ - *** Evaluate ***
+The following columns in the evaluation set don't have a corresponding argument in `Wav2Vec2BertForCTC.forward` and have been ignored: input_length. If input_length are not expected by `Wav2Vec2BertForCTC.forward`,  you can safely ignore this message.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+Trainer.tokenizer is now deprecated. You should use Trainer.processing_class instead.
+
+***** Running Evaluation *****
+  Num examples = 304
+  Batch size = 32
+  0%|          | 0/10 [00:00<?, ?it/s] 20%|██        | 2/10 [00:00<00:02,  3.89it/s] 30%|███       | 3/10 [00:02<00:06,  1.03it/s] 40%|████      | 4/10 [00:02<00:04,  1.26it/s] 50%|█████     | 5/10 [00:04<00:05,  1.17s/it] 60%|██████    | 6/10 [00:05<00:03,  1.05it/s] 70%|███████   | 7/10 [00:06<00:03,  1.11s/it] 80%|████████  | 8/10 [00:07<00:01,  1.08it/s] 90%|█████████ | 9/10 [00:09<00:01,  1.18s/it]100%|██████████| 10/10 [00:09<00:00,  1.04it/s]100%|██████████| 10/10 [00:10<00:00,  1.04s/it]
+Saving model checkpoint to ./w2v-bert-2.0-chichewa_34_34h
+Configuration saved in ./w2v-bert-2.0-chichewa_34_34h/config.json
+Model weights saved in ./w2v-bert-2.0-chichewa_34_34h/model.safetensors
+Feature extractor saved in ./w2v-bert-2.0-chichewa_34_34h/preprocessor_config.json
+tokenizer config file saved in ./w2v-bert-2.0-chichewa_34_34h/tokenizer_config.json
+Special tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/special_tokens_map.json
+added tokens file saved in ./w2v-bert-2.0-chichewa_34_34h/added_tokens.json
+Dropping the following result as it does not have all the necessary fields:
+{'task': {'name': 'Automatic Speech Recognition', 'type': 'automatic-speech-recognition'}, 'metrics': [{'name': 'Wer', 'type': 'wer', 'value': 0.39102072141212585}]}
+***** eval metrics *****
+  epoch                   =     25.831
+  eval_cer                =     0.1127
+  eval_loss               =     0.3084
+  eval_runtime            = 0:00:17.26
+  eval_samples            =        304
+  eval_samples_per_second =     17.608
+  eval_steps_per_second   =      0.579
+  eval_wer                =      0.391
+events.out.tfevents.1745103911.synvoices-a100-chichewa.80198.1:   0%|          | 0.00/453 [00:00<?, ?B/s]events.out.tfevents.1745103911.synvoices-a100-chichewa.80198.1: 100%|██████████| 453/453 [00:00<00:00, 2.50kB/s]