Model save

Browse files

Files changed (6) hide show

README.md +2 -4
all_results.json +5 -5
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +1535 -182

README.md CHANGED Viewed

@@ -1,11 +1,9 @@
 ---
 base_model: Qwen/Qwen2.5-3B-Instruct
-datasets: kguo2/scaffold_finetune
 library_name: transformers
 model_name: finetune_demo
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for finetune_demo
-This model is a fine-tuned version of [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct) on the [kguo2/scaffold_finetune](https://huggingface.co/datasets/kguo2/scaffold_finetune) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/nd/huggingface/runs/xccpwccm)
 This model was trained with SFT.

 ---
 base_model: Qwen/Qwen2.5-3B-Instruct
 library_name: transformers
 model_name: finetune_demo
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for finetune_demo
+This model is a fine-tuned version of [Qwen/Qwen2.5-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-3B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/nd/huggingface/runs/mvkr71e8)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 9.27422622990336e+16,
-    "train_loss": 0.0753641640438753,
-    "train_runtime": 542.7298,
     "train_samples": 29047,
-    "train_samples_per_second": 19.957,
-    "train_steps_per_second": 0.313
 }

 {
+    "total_flos": 2.7740847281799168e+17,
+    "train_loss": 0.0704414379602571,
+    "train_runtime": 3418.2006,
     "train_samples": 29047,
+    "train_samples_per_second": 18.999,
+    "train_steps_per_second": 0.298
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a997095ab3c297c641e3b306d5e858d3c0e4fa484ce2be37b69fc327788ec24b
 size 4957560304

 version https://git-lfs.github.com/spec/v1
+oid sha256:85790087dcd5089191b26416bd4153cb60820697feb02b07f4c62255c81e612b
 size 4957560304

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57d63e58b40b13e620238e4f1f57bedeb9e19e7fd4fe398a37d49f0ccf3c8d3a
 size 1836696752

 version https://git-lfs.github.com/spec/v1
+oid sha256:43badf75af60904b4dd685210c63f876f68df9fd045abde724222125c6cec9fa
 size 1836696752

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 9.27422622990336e+16,
-    "train_loss": 0.0753641640438753,
-    "train_runtime": 542.7298,
     "train_samples": 29047,
-    "train_samples_per_second": 19.957,
-    "train_steps_per_second": 0.313
 }

 {
+    "total_flos": 2.7740847281799168e+17,
+    "train_loss": 0.0704414379602571,
+    "train_runtime": 3418.2006,
     "train_samples": 29047,
+    "train_samples_per_second": 18.999,
+    "train_steps_per_second": 0.298
 }

trainer_state.json CHANGED Viewed

@@ -2,299 +2,1652 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 170,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.029411764705882353,
-      "grad_norm": 4.553732872009277,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.7808,
-      "num_tokens": 163560.0,
       "step": 5
     },
     {
-      "epoch": 0.058823529411764705,
-      "grad_norm": 2.3360044956207275,
-      "learning_rate": 4.9995716618706634e-05,
-      "loss": 0.1826,
-      "num_tokens": 327236.0,
       "step": 10
     },
     {
-      "epoch": 0.08823529411764706,
-      "grad_norm": 0.659660279750824,
-      "learning_rate": 4.9845969445888354e-05,
-      "loss": 0.0853,
-      "num_tokens": 490970.0,
       "step": 15
     },
     {
-      "epoch": 0.11764705882352941,
-      "grad_norm": 0.6894950866699219,
-      "learning_rate": 4.948368129547296e-05,
-      "loss": 0.0705,
-      "num_tokens": 654151.0,
       "step": 20
     },
     {
-      "epoch": 0.14705882352941177,
-      "grad_norm": 0.47198617458343506,
-      "learning_rate": 4.891229802725401e-05,
-      "loss": 0.0624,
-      "num_tokens": 817991.0,
       "step": 25
     },
     {
-      "epoch": 0.17647058823529413,
-      "grad_norm": 0.4311853051185608,
-      "learning_rate": 4.8137254283872696e-05,
-      "loss": 0.0577,
-      "num_tokens": 981831.0,
       "step": 30
     },
     {
-      "epoch": 0.20588235294117646,
-      "grad_norm": 0.37233826518058777,
-      "learning_rate": 4.7165921799873716e-05,
-      "loss": 0.0542,
-      "num_tokens": 1145572.0,
       "step": 35
     },
     {
-      "epoch": 0.23529411764705882,
-      "grad_norm": 0.32413461804389954,
-      "learning_rate": 4.6007539286346375e-05,
-      "loss": 0.0539,
-      "num_tokens": 1309412.0,
       "step": 40
     },
     {
-      "epoch": 0.2647058823529412,
-      "grad_norm": 0.27661165595054626,
-      "learning_rate": 4.467312455804482e-05,
-      "loss": 0.0528,
-      "num_tokens": 1473224.0,
       "step": 45
     },
     {
-      "epoch": 0.29411764705882354,
-      "grad_norm": 0.25189208984375,
-      "learning_rate": 4.317536973877955e-05,
-      "loss": 0.0528,
-      "num_tokens": 1637064.0,
       "step": 50
     },
     {
-      "epoch": 0.3235294117647059,
-      "grad_norm": 0.258693665266037,
-      "learning_rate": 4.1528520541821506e-05,
-      "loss": 0.0506,
-      "num_tokens": 1800823.0,
       "step": 55
     },
     {
-      "epoch": 0.35294117647058826,
-      "grad_norm": 0.22541610896587372,
-      "learning_rate": 3.974824077352845e-05,
-      "loss": 0.0504,
-      "num_tokens": 1964243.0,
       "step": 60
     },
     {
-      "epoch": 0.38235294117647056,
-      "grad_norm": 0.31295299530029297,
-      "learning_rate": 3.785146334895093e-05,
-      "loss": 0.0504,
-      "num_tokens": 2127639.0,
       "step": 65
     },
     {
-      "epoch": 0.4117647058823529,
-      "grad_norm": 0.24782125651836395,
-      "learning_rate": 3.58562292364649e-05,
-      "loss": 0.0489,
-      "num_tokens": 2291479.0,
       "step": 70
     },
     {
-      "epoch": 0.4411764705882353,
-      "grad_norm": 0.20237773656845093,
-      "learning_rate": 3.378151586328963e-05,
-      "loss": 0.0489,
-      "num_tokens": 2455319.0,
       "step": 75
     },
     {
-      "epoch": 0.47058823529411764,
-      "grad_norm": 0.15972378849983215,
-      "learning_rate": 3.164705661399079e-05,
-      "loss": 0.0489,
-      "num_tokens": 2619081.0,
       "step": 80
     },
     {
-      "epoch": 0.5,
-      "grad_norm": 0.18197670578956604,
-      "learning_rate": 2.947315313878701e-05,
-      "loss": 0.0496,
-      "num_tokens": 2782547.0,
       "step": 85
     },
     {
-      "epoch": 0.5294117647058824,
-      "grad_norm": 0.6986818909645081,
-      "learning_rate": 2.7280482256866697e-05,
-      "loss": 0.0478,
-      "num_tokens": 2946387.0,
       "step": 90
     },
     {
-      "epoch": 0.5588235294117647,
-      "grad_norm": 0.22870764136314392,
-      "learning_rate": 2.508989929133051e-05,
-      "loss": 0.0474,
-      "num_tokens": 3109604.0,
       "step": 95
     },
     {
-      "epoch": 0.5882352941176471,
-      "grad_norm": 0.17916245758533478,
-      "learning_rate": 2.2922239706315745e-05,
-      "loss": 0.0461,
-      "num_tokens": 3273444.0,
       "step": 100
     },
     {
-      "epoch": 0.6176470588235294,
-      "grad_norm": 0.3453664779663086,
-      "learning_rate": 2.079812093300668e-05,
-      "loss": 0.046,
-      "num_tokens": 3435972.0,
       "step": 105
     },
     {
-      "epoch": 0.6470588235294118,
-      "grad_norm": 0.26898708939552307,
-      "learning_rate": 1.8737746269439006e-05,
-      "loss": 0.0452,
-      "num_tokens": 3599812.0,
       "step": 110
     },
     {
-      "epoch": 0.6764705882352942,
-      "grad_norm": 0.2884495258331299,
-      "learning_rate": 1.6760712719281375e-05,
-      "loss": 0.0459,
-      "num_tokens": 3763587.0,
       "step": 115
     },
     {
-      "epoch": 0.7058823529411765,
-      "grad_norm": 0.25366732478141785,
-      "learning_rate": 1.4885824597312362e-05,
-      "loss": 0.0461,
-      "num_tokens": 3927092.0,
       "step": 120
     },
     {
-      "epoch": 0.7352941176470589,
-      "grad_norm": 0.21009443700313568,
-      "learning_rate": 1.313091467446158e-05,
-      "loss": 0.0444,
-      "num_tokens": 4090932.0,
       "step": 125
     },
     {
-      "epoch": 0.7647058823529411,
-      "grad_norm": 0.19418346881866455,
-      "learning_rate": 1.1512674563572253e-05,
-      "loss": 0.0459,
-      "num_tokens": 4254483.0,
       "step": 130
     },
     {
-      "epoch": 0.7941176470588235,
-      "grad_norm": 0.19523853063583374,
-      "learning_rate": 1.0046495959150554e-05,
-      "loss": 0.0446,
-      "num_tokens": 4418323.0,
       "step": 135
     },
     {
-      "epoch": 0.8235294117647058,
-      "grad_norm": 0.1927725076675415,
-      "learning_rate": 8.746324241130455e-06,
-      "loss": 0.0434,
-      "num_tokens": 4581587.0,
       "step": 140
     },
     {
-      "epoch": 0.8529411764705882,
-      "grad_norm": 0.1469401717185974,
-      "learning_rate": 7.624525835084185e-06,
-      "loss": 0.0436,
-      "num_tokens": 4745427.0,
       "step": 145
     },
     {
-      "epoch": 0.8823529411764706,
-      "grad_norm": 0.1357996016740799,
-      "learning_rate": 6.691770590465606e-06,
-      "loss": 0.0432,
-      "num_tokens": 4909267.0,
       "step": 150
     },
     {
-      "epoch": 0.9117647058823529,
-      "grad_norm": 0.16276375949382782,
-      "learning_rate": 5.95693029563144e-06,
-      "loss": 0.0429,
-      "num_tokens": 5073107.0,
       "step": 155
     },
     {
-      "epoch": 0.9411764705882353,
-      "grad_norm": 0.17533668875694275,
-      "learning_rate": 5.426994294902611e-06,
-      "loss": 0.0431,
-      "num_tokens": 5236905.0,
       "step": 160
     },
     {
-      "epoch": 0.9705882352941176,
-      "grad_norm": 0.1326180398464203,
-      "learning_rate": 5.10700301026355e-06,
-      "loss": 0.0434,
-      "num_tokens": 5400452.0,
       "step": 165
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.19520561397075653,
-      "learning_rate": 5e-06,
-      "loss": 0.0428,
-      "num_tokens": 5563792.0,
       "step": 170
     },
     {
-      "epoch": 1.0,
-      "step": 170,
-      "total_flos": 9.27422622990336e+16,
-      "train_loss": 0.0753641640438753,
-      "train_runtime": 542.7298,
-      "train_samples_per_second": 19.957,
-      "train_steps_per_second": 0.313
     }
   ],
   "logging_steps": 5,
-  "max_steps": 170,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -308,7 +1661,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.27422622990336e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 1017,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.014749262536873156,
+      "grad_norm": 28.681703567504883,
+      "learning_rate": 4.901960784313726e-06,
+      "loss": 1.7339,
+      "num_tokens": 81920.0,
       "step": 5
     },
     {
+      "epoch": 0.029498525073746312,
+      "grad_norm": 6.434526443481445,
+      "learning_rate": 9.803921568627451e-06,
+      "loss": 0.985,
+      "num_tokens": 163840.0,
       "step": 10
     },
     {
+      "epoch": 0.04424778761061947,
+      "grad_norm": 2.7200655937194824,
+      "learning_rate": 1.4705882352941177e-05,
+      "loss": 0.2836,
+      "num_tokens": 245760.0,
       "step": 15
     },
     {
+      "epoch": 0.058997050147492625,
+      "grad_norm": 1.4244611263275146,
+      "learning_rate": 1.9607843137254903e-05,
+      "loss": 0.1205,
+      "num_tokens": 327680.0,
       "step": 20
     },
     {
+      "epoch": 0.07374631268436578,
+      "grad_norm": 1.7670924663543701,
+      "learning_rate": 2.4509803921568626e-05,
+      "loss": 0.0935,
+      "num_tokens": 409600.0,
       "step": 25
     },
     {
+      "epoch": 0.08849557522123894,
+      "grad_norm": 1.4682564735412598,
+      "learning_rate": 2.9411764705882354e-05,
+      "loss": 0.083,
+      "num_tokens": 491479.0,
       "step": 30
     },
     {
+      "epoch": 0.10324483775811209,
+      "grad_norm": 1.1769920587539673,
+      "learning_rate": 3.431372549019608e-05,
+      "loss": 0.0815,
+      "num_tokens": 573399.0,
       "step": 35
     },
     {
+      "epoch": 0.11799410029498525,
+      "grad_norm": 1.2460798025131226,
+      "learning_rate": 3.9215686274509805e-05,
+      "loss": 0.0752,
+      "num_tokens": 655143.0,
       "step": 40
     },
     {
+      "epoch": 0.13274336283185842,
+      "grad_norm": 0.7001373171806335,
+      "learning_rate": 4.411764705882353e-05,
+      "loss": 0.0739,
+      "num_tokens": 737063.0,
       "step": 45
     },
     {
+      "epoch": 0.14749262536873156,
+      "grad_norm": 0.7255822420120239,
+      "learning_rate": 4.901960784313725e-05,
+      "loss": 0.0708,
+      "num_tokens": 818902.0,
       "step": 50
     },
     {
+      "epoch": 0.16224188790560473,
+      "grad_norm": 1.1189676523208618,
+      "learning_rate": 4.999809624142209e-05,
+      "loss": 0.0902,
+      "num_tokens": 900822.0,
       "step": 55
     },
     {
+      "epoch": 0.17699115044247787,
+      "grad_norm": 20.670774459838867,
+      "learning_rate": 4.9990362774334994e-05,
+      "loss": 0.1074,
+      "num_tokens": 982742.0,
       "step": 60
     },
     {
+      "epoch": 0.19174041297935104,
+      "grad_norm": 0.5863003730773926,
+      "learning_rate": 4.997668265705137e-05,
+      "loss": 0.0683,
+      "num_tokens": 1064662.0,
       "step": 65
     },
     {
+      "epoch": 0.20648967551622419,
+      "grad_norm": 0.6090629696846008,
+      "learning_rate": 4.9957059506714846e-05,
+      "loss": 0.0693,
+      "num_tokens": 1146582.0,
       "step": 70
     },
     {
+      "epoch": 0.22123893805309736,
+      "grad_norm": 0.4677298069000244,
+      "learning_rate": 4.9931498511859377e-05,
+      "loss": 0.0673,
+      "num_tokens": 1228502.0,
       "step": 75
     },
     {
+      "epoch": 0.2359882005899705,
+      "grad_norm": 0.5659052729606628,
+      "learning_rate": 4.990000643103734e-05,
+      "loss": 0.0685,
+      "num_tokens": 1310422.0,
       "step": 80
     },
     {
+      "epoch": 0.25073746312684364,
+      "grad_norm": 0.39706626534461975,
+      "learning_rate": 4.986259159103256e-05,
+      "loss": 0.0669,
+      "num_tokens": 1392342.0,
       "step": 85
     },
     {
+      "epoch": 0.26548672566371684,
+      "grad_norm": 0.38469579815864563,
+      "learning_rate": 4.981926388465857e-05,
+      "loss": 0.0653,
+      "num_tokens": 1474262.0,
       "step": 90
     },
     {
+      "epoch": 0.28023598820059,
+      "grad_norm": 0.3758561313152313,
+      "learning_rate": 4.9770034768142934e-05,
+      "loss": 0.0635,
+      "num_tokens": 1555918.0,
       "step": 95
     },
     {
+      "epoch": 0.2949852507374631,
+      "grad_norm": 0.439568430185318,
+      "learning_rate": 4.971491725809807e-05,
+      "loss": 0.0638,
+      "num_tokens": 1637838.0,
       "step": 100
     },
     {
+      "epoch": 0.30973451327433627,
+      "grad_norm": 0.3522689938545227,
+      "learning_rate": 4.965392592807956e-05,
+      "loss": 0.0631,
+      "num_tokens": 1719758.0,
       "step": 105
     },
     {
+      "epoch": 0.32448377581120946,
+      "grad_norm": 0.3989611864089966,
+      "learning_rate": 4.9587076904732756e-05,
+      "loss": 0.0605,
+      "num_tokens": 1801678.0,
       "step": 110
     },
     {
+      "epoch": 0.3392330383480826,
+      "grad_norm": 0.34883007407188416,
+      "learning_rate": 4.951438786352881e-05,
+      "loss": 0.0619,
+      "num_tokens": 1883598.0,
       "step": 115
     },
     {
+      "epoch": 0.35398230088495575,
+      "grad_norm": 0.29905784130096436,
+      "learning_rate": 4.943587802409103e-05,
+      "loss": 0.063,
+      "num_tokens": 1965518.0,
       "step": 120
     },
     {
+      "epoch": 0.3687315634218289,
+      "grad_norm": 0.3990210294723511,
+      "learning_rate": 4.935156814511314e-05,
+      "loss": 0.0617,
+      "num_tokens": 2047438.0,
       "step": 125
     },
     {
+      "epoch": 0.3834808259587021,
+      "grad_norm": 0.23905648291110992,
+      "learning_rate": 4.926148051887042e-05,
+      "loss": 0.0595,
+      "num_tokens": 2129358.0,
       "step": 130
     },
     {
+      "epoch": 0.39823008849557523,
+      "grad_norm": 0.2639841139316559,
+      "learning_rate": 4.916563896532549e-05,
+      "loss": 0.059,
+      "num_tokens": 2211230.0,
       "step": 135
     },
     {
+      "epoch": 0.41297935103244837,
+      "grad_norm": 0.29038557410240173,
+      "learning_rate": 4.906406882583004e-05,
+      "loss": 0.0568,
+      "num_tokens": 2293150.0,
       "step": 140
     },
     {
+      "epoch": 0.4277286135693215,
+      "grad_norm": 0.30302760004997253,
+      "learning_rate": 4.895679695642444e-05,
+      "loss": 0.0591,
+      "num_tokens": 2374790.0,
       "step": 145
     },
     {
+      "epoch": 0.4424778761061947,
+      "grad_norm": 0.2980372905731201,
+      "learning_rate": 4.884385172073666e-05,
+      "loss": 0.0608,
+      "num_tokens": 2456682.0,
       "step": 150
     },
     {
+      "epoch": 0.45722713864306785,
+      "grad_norm": 0.3176118731498718,
+      "learning_rate": 4.8725262982482794e-05,
+      "loss": 0.058,
+      "num_tokens": 2538602.0,
       "step": 155
     },
     {
+      "epoch": 0.471976401179941,
+      "grad_norm": 0.2424178570508957,
+      "learning_rate": 4.860106209757071e-05,
+      "loss": 0.0578,
+      "num_tokens": 2620522.0,
       "step": 160
     },
     {
+      "epoch": 0.48672566371681414,
+      "grad_norm": 0.4045540988445282,
+      "learning_rate": 4.847128190580936e-05,
+      "loss": 0.0577,
+      "num_tokens": 2702326.0,
       "step": 165
     },
     {
+      "epoch": 0.5014749262536873,
+      "grad_norm": 0.248455211520195,
+      "learning_rate": 4.8335956722225616e-05,
+      "loss": 0.0566,
+      "num_tokens": 2784246.0,
       "step": 170
     },
     {
+      "epoch": 0.5162241887905604,
+      "grad_norm": 0.2201586663722992,
+      "learning_rate": 4.819512232799107e-05,
+      "loss": 0.0575,
+      "num_tokens": 2866166.0,
+      "step": 175
+    },
+    {
+      "epoch": 0.5309734513274337,
+      "grad_norm": 0.23909515142440796,
+      "learning_rate": 4.804881596096118e-05,
+      "loss": 0.0553,
+      "num_tokens": 2948086.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.5457227138643068,
+      "grad_norm": 0.23102901875972748,
+      "learning_rate": 4.789707630582923e-05,
+      "loss": 0.0591,
+      "num_tokens": 3029739.0,
+      "step": 185
+    },
+    {
+      "epoch": 0.56047197640118,
+      "grad_norm": 0.2302148938179016,
+      "learning_rate": 4.773994348389782e-05,
+      "loss": 0.0587,
+      "num_tokens": 3111659.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.5752212389380531,
+      "grad_norm": 0.20451895892620087,
+      "learning_rate": 4.757745904247038e-05,
+      "loss": 0.0601,
+      "num_tokens": 3193453.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.5899705014749262,
+      "grad_norm": 0.19253046810626984,
+      "learning_rate": 4.7409665943865705e-05,
+      "loss": 0.0579,
+      "num_tokens": 3275373.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.6047197640117994,
+      "grad_norm": 0.2857654094696045,
+      "learning_rate": 4.7236608554058375e-05,
+      "loss": 0.0577,
+      "num_tokens": 3357228.0,
+      "step": 205
+    },
+    {
+      "epoch": 0.6194690265486725,
+      "grad_norm": 0.21651217341423035,
+      "learning_rate": 4.7058332630947935e-05,
+      "loss": 0.0602,
+      "num_tokens": 3439124.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.6342182890855457,
+      "grad_norm": 0.22674554586410522,
+      "learning_rate": 4.6874885312260186e-05,
+      "loss": 0.0588,
+      "num_tokens": 3520967.0,
+      "step": 215
+    },
+    {
+      "epoch": 0.6489675516224189,
+      "grad_norm": 0.22327347099781036,
+      "learning_rate": 4.668631510308349e-05,
+      "loss": 0.0585,
+      "num_tokens": 3602887.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.6637168141592921,
+      "grad_norm": 0.19307062029838562,
+      "learning_rate": 4.649267186304362e-05,
+      "loss": 0.0574,
+      "num_tokens": 3684556.0,
+      "step": 225
+    },
+    {
+      "epoch": 0.6784660766961652,
+      "grad_norm": 0.2287718951702118,
+      "learning_rate": 4.6294006793120436e-05,
+      "loss": 0.0576,
+      "num_tokens": 3766476.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.6932153392330384,
+      "grad_norm": 0.16587583720684052,
+      "learning_rate": 4.609037242210989e-05,
+      "loss": 0.056,
+      "num_tokens": 3848396.0,
+      "step": 235
+    },
+    {
+      "epoch": 0.7079646017699115,
+      "grad_norm": 0.2796880900859833,
+      "learning_rate": 4.5881822592734946e-05,
+      "loss": 0.0572,
+      "num_tokens": 3930227.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.7227138643067846,
+      "grad_norm": 0.2181931585073471,
+      "learning_rate": 4.5668412447409116e-05,
+      "loss": 0.057,
+      "num_tokens": 4011953.0,
+      "step": 245
+    },
+    {
+      "epoch": 0.7374631268436578,
+      "grad_norm": 0.31474748253822327,
+      "learning_rate": 4.545019841365628e-05,
+      "loss": 0.0555,
+      "num_tokens": 4093782.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.7522123893805309,
+      "grad_norm": 0.19964337348937988,
+      "learning_rate": 4.5227238189190775e-05,
+      "loss": 0.0559,
+      "num_tokens": 4175702.0,
+      "step": 255
+    },
+    {
+      "epoch": 0.7669616519174042,
+      "grad_norm": 0.17513608932495117,
+      "learning_rate": 4.4999590726661605e-05,
+      "loss": 0.0555,
+      "num_tokens": 4257622.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.7817109144542773,
+      "grad_norm": 0.18871212005615234,
+      "learning_rate": 4.476731621806485e-05,
+      "loss": 0.0572,
+      "num_tokens": 4339542.0,
+      "step": 265
+    },
+    {
+      "epoch": 0.7964601769911505,
+      "grad_norm": 0.18672113120555878,
+      "learning_rate": 4.453047607882834e-05,
+      "loss": 0.0579,
+      "num_tokens": 4421462.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.8112094395280236,
+      "grad_norm": 0.20873971283435822,
+      "learning_rate": 4.428913293157293e-05,
+      "loss": 0.0552,
+      "num_tokens": 4503098.0,
+      "step": 275
+    },
+    {
+      "epoch": 0.8259587020648967,
+      "grad_norm": 0.17426809668540955,
+      "learning_rate": 4.404335058955446e-05,
+      "loss": 0.0554,
+      "num_tokens": 4585018.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.8407079646017699,
+      "grad_norm": 0.18556445837020874,
+      "learning_rate": 4.379319403979104e-05,
+      "loss": 0.0565,
+      "num_tokens": 4666938.0,
+      "step": 285
+    },
+    {
+      "epoch": 0.855457227138643,
+      "grad_norm": 0.1989375203847885,
+      "learning_rate": 4.353872942587985e-05,
+      "loss": 0.0559,
+      "num_tokens": 4748858.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.8702064896755162,
+      "grad_norm": 0.2044542133808136,
+      "learning_rate": 4.32800240305082e-05,
+      "loss": 0.0548,
+      "num_tokens": 4830778.0,
+      "step": 295
+    },
+    {
+      "epoch": 0.8849557522123894,
+      "grad_norm": 0.17457793653011322,
+      "learning_rate": 4.301714625766342e-05,
+      "loss": 0.0563,
+      "num_tokens": 4912698.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.8997050147492626,
+      "grad_norm": 0.1791624128818512,
+      "learning_rate": 4.275016561454622e-05,
+      "loss": 0.0566,
+      "num_tokens": 4994553.0,
+      "step": 305
+    },
+    {
+      "epoch": 0.9144542772861357,
+      "grad_norm": 0.16299232840538025,
+      "learning_rate": 4.247915269319241e-05,
+      "loss": 0.0553,
+      "num_tokens": 5076473.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.9292035398230089,
+      "grad_norm": 0.1811797171831131,
+      "learning_rate": 4.2204179151807685e-05,
+      "loss": 0.0554,
+      "num_tokens": 5158254.0,
+      "step": 315
+    },
+    {
+      "epoch": 0.943952802359882,
+      "grad_norm": 0.1605992168188095,
+      "learning_rate": 4.19253176958206e-05,
+      "loss": 0.0558,
+      "num_tokens": 5240174.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.9587020648967551,
+      "grad_norm": 0.18501946330070496,
+      "learning_rate": 4.1642642058658605e-05,
+      "loss": 0.0554,
+      "num_tokens": 5322094.0,
+      "step": 325
+    },
+    {
+      "epoch": 0.9734513274336283,
+      "grad_norm": 0.18083244562149048,
+      "learning_rate": 4.135622698225229e-05,
+      "loss": 0.0562,
+      "num_tokens": 5403956.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.9882005899705014,
+      "grad_norm": 0.21333028376102448,
+      "learning_rate": 4.1066148197272944e-05,
+      "loss": 0.0566,
+      "num_tokens": 5485712.0,
+      "step": 335
+    },
+    {
+      "epoch": 1.0029498525073746,
+      "grad_norm": 0.19363561272621155,
+      "learning_rate": 4.077248240310868e-05,
+      "loss": 0.0553,
+      "num_tokens": 5567632.0,
+      "step": 340
+    },
+    {
+      "epoch": 1.0176991150442478,
+      "grad_norm": 0.1972503960132599,
+      "learning_rate": 4.047530724758451e-05,
+      "loss": 0.0551,
+      "num_tokens": 5649552.0,
+      "step": 345
+    },
+    {
+      "epoch": 1.0324483775811208,
+      "grad_norm": 0.16727674007415771,
+      "learning_rate": 4.017470130643149e-05,
+      "loss": 0.0566,
+      "num_tokens": 5731214.0,
+      "step": 350
+    },
+    {
+      "epoch": 1.047197640117994,
+      "grad_norm": 0.14662833511829376,
+      "learning_rate": 3.987074406251067e-05,
+      "loss": 0.0567,
+      "num_tokens": 5813045.0,
+      "step": 355
+    },
+    {
+      "epoch": 1.0619469026548674,
+      "grad_norm": 0.16213928163051605,
+      "learning_rate": 3.9563515884797074e-05,
+      "loss": 0.057,
+      "num_tokens": 5894884.0,
+      "step": 360
+    },
+    {
+      "epoch": 1.0766961651917404,
+      "grad_norm": 0.13559935986995697,
+      "learning_rate": 3.925309800712945e-05,
+      "loss": 0.0545,
+      "num_tokens": 5976776.0,
+      "step": 365
+    },
+    {
+      "epoch": 1.0914454277286136,
+      "grad_norm": 0.16717351973056793,
+      "learning_rate": 3.8939572506731375e-05,
+      "loss": 0.0558,
+      "num_tokens": 6058573.0,
+      "step": 370
+    },
+    {
+      "epoch": 1.1061946902654867,
+      "grad_norm": 0.11658819019794464,
+      "learning_rate": 3.8623022282509245e-05,
+      "loss": 0.0555,
+      "num_tokens": 6140493.0,
+      "step": 375
+    },
+    {
+      "epoch": 1.12094395280236,
+      "grad_norm": 0.14316953718662262,
+      "learning_rate": 3.83035310331331e-05,
+      "loss": 0.0553,
+      "num_tokens": 6222413.0,
+      "step": 380
+    },
+    {
+      "epoch": 1.135693215339233,
+      "grad_norm": 0.15932655334472656,
+      "learning_rate": 3.798118323490597e-05,
+      "loss": 0.0542,
+      "num_tokens": 6304333.0,
+      "step": 385
+    },
+    {
+      "epoch": 1.1504424778761062,
+      "grad_norm": 0.11980193108320236,
+      "learning_rate": 3.765606411942759e-05,
+      "loss": 0.0535,
+      "num_tokens": 6386253.0,
+      "step": 390
+    },
+    {
+      "epoch": 1.1651917404129795,
+      "grad_norm": 0.1464000791311264,
+      "learning_rate": 3.7328259651058384e-05,
+      "loss": 0.0547,
+      "num_tokens": 6468173.0,
+      "step": 395
+    },
+    {
+      "epoch": 1.1799410029498525,
+      "grad_norm": 0.12491417676210403,
+      "learning_rate": 3.699785650418977e-05,
+      "loss": 0.0536,
+      "num_tokens": 6550093.0,
+      "step": 400
+    },
+    {
+      "epoch": 1.1946902654867257,
+      "grad_norm": 0.15376126766204834,
+      "learning_rate": 3.666494204032668e-05,
+      "loss": 0.0555,
+      "num_tokens": 6631948.0,
+      "step": 405
+    },
+    {
+      "epoch": 1.2094395280235988,
+      "grad_norm": 0.16010604798793793,
+      "learning_rate": 3.63296042849884e-05,
+      "loss": 0.0544,
+      "num_tokens": 6713791.0,
+      "step": 410
+    },
+    {
+      "epoch": 1.224188790560472,
+      "grad_norm": 0.15632019937038422,
+      "learning_rate": 3.5991931904433824e-05,
+      "loss": 0.0557,
+      "num_tokens": 6795632.0,
+      "step": 415
+    },
+    {
+      "epoch": 1.238938053097345,
+      "grad_norm": 0.14752759039402008,
+      "learning_rate": 3.5652014182217355e-05,
+      "loss": 0.0543,
+      "num_tokens": 6877552.0,
+      "step": 420
+    },
+    {
+      "epoch": 1.2536873156342183,
+      "grad_norm": 0.21005742251873016,
+      "learning_rate": 3.530994099558153e-05,
+      "loss": 0.0533,
+      "num_tokens": 6959472.0,
+      "step": 425
+    },
+    {
+      "epoch": 1.2684365781710913,
+      "grad_norm": 0.13375329971313477,
+      "learning_rate": 3.496580279169265e-05,
+      "loss": 0.0553,
+      "num_tokens": 7041392.0,
+      "step": 430
+    },
+    {
+      "epoch": 1.2831858407079646,
+      "grad_norm": 0.16405825316905975,
+      "learning_rate": 3.461969056372582e-05,
+      "loss": 0.0545,
+      "num_tokens": 7123312.0,
+      "step": 435
+    },
+    {
+      "epoch": 1.2979351032448379,
+      "grad_norm": 0.1644970029592514,
+      "learning_rate": 3.427169582680551e-05,
+      "loss": 0.0551,
+      "num_tokens": 7205232.0,
+      "step": 440
+    },
+    {
+      "epoch": 1.3126843657817109,
+      "grad_norm": 0.1362873613834381,
+      "learning_rate": 3.392191059380812e-05,
+      "loss": 0.0544,
+      "num_tokens": 7287046.0,
+      "step": 445
+    },
+    {
+      "epoch": 1.3274336283185841,
+      "grad_norm": 0.148273766040802,
+      "learning_rate": 3.3570427351033046e-05,
+      "loss": 0.0546,
+      "num_tokens": 7368966.0,
+      "step": 450
+    },
+    {
+      "epoch": 1.3421828908554572,
+      "grad_norm": 0.14546248316764832,
+      "learning_rate": 3.321733903374841e-05,
+      "loss": 0.0539,
+      "num_tokens": 7450886.0,
+      "step": 455
+    },
+    {
+      "epoch": 1.3569321533923304,
+      "grad_norm": 0.14057567715644836,
+      "learning_rate": 3.286273900161818e-05,
+      "loss": 0.0553,
+      "num_tokens": 7532806.0,
+      "step": 460
+    },
+    {
+      "epoch": 1.3716814159292037,
+      "grad_norm": 0.1333959847688675,
+      "learning_rate": 3.250672101401707e-05,
+      "loss": 0.0546,
+      "num_tokens": 7614726.0,
+      "step": 465
+    },
+    {
+      "epoch": 1.3864306784660767,
+      "grad_norm": 0.1370707005262375,
+      "learning_rate": 3.214937920523974e-05,
+      "loss": 0.0561,
+      "num_tokens": 7696402.0,
+      "step": 470
+    },
+    {
+      "epoch": 1.4011799410029497,
+      "grad_norm": 0.1322726011276245,
+      "learning_rate": 3.1790808059610786e-05,
+      "loss": 0.0536,
+      "num_tokens": 7778322.0,
+      "step": 475
+    },
+    {
+      "epoch": 1.415929203539823,
+      "grad_norm": 0.14645648002624512,
+      "learning_rate": 3.143110238650236e-05,
+      "loss": 0.0543,
+      "num_tokens": 7860242.0,
+      "step": 480
+    },
+    {
+      "epoch": 1.4306784660766962,
+      "grad_norm": 0.1392751932144165,
+      "learning_rate": 3.107035729526566e-05,
+      "loss": 0.0555,
+      "num_tokens": 7942073.0,
+      "step": 485
+    },
+    {
+      "epoch": 1.4454277286135693,
+      "grad_norm": 0.15789316594600677,
+      "learning_rate": 3.070866817008319e-05,
+      "loss": 0.0565,
+      "num_tokens": 8023993.0,
+      "step": 490
+    },
+    {
+      "epoch": 1.4601769911504425,
+      "grad_norm": 0.11416062712669373,
+      "learning_rate": 3.0346130644748367e-05,
+      "loss": 0.0557,
+      "num_tokens": 8105787.0,
+      "step": 495
+    },
+    {
+      "epoch": 1.4749262536873156,
+      "grad_norm": 0.14937061071395874,
+      "learning_rate": 2.998284057737909e-05,
+      "loss": 0.0532,
+      "num_tokens": 8187707.0,
+      "step": 500
+    },
+    {
+      "epoch": 1.4896755162241888,
+      "grad_norm": 0.11278703063726425,
+      "learning_rate": 2.9618894025071984e-05,
+      "loss": 0.0534,
+      "num_tokens": 8269536.0,
+      "step": 505
+    },
+    {
+      "epoch": 1.504424778761062,
+      "grad_norm": 0.1776408553123474,
+      "learning_rate": 2.925438721850412e-05,
+      "loss": 0.0545,
+      "num_tokens": 8351456.0,
+      "step": 510
+    },
+    {
+      "epoch": 1.519174041297935,
+      "grad_norm": 0.1571996957063675,
+      "learning_rate": 2.88894165364887e-05,
+      "loss": 0.054,
+      "num_tokens": 8433240.0,
+      "step": 515
+    },
+    {
+      "epoch": 1.5339233038348081,
+      "grad_norm": 0.15761998295783997,
+      "learning_rate": 2.8524078480491684e-05,
+      "loss": 0.0534,
+      "num_tokens": 8515160.0,
+      "step": 520
+    },
+    {
+      "epoch": 1.5486725663716814,
+      "grad_norm": 0.12947538495063782,
+      "learning_rate": 2.8158469649115978e-05,
+      "loss": 0.0539,
+      "num_tokens": 8597080.0,
+      "step": 525
+    },
+    {
+      "epoch": 1.5634218289085546,
+      "grad_norm": 0.15504850447177887,
+      "learning_rate": 2.779268671255985e-05,
+      "loss": 0.0539,
+      "num_tokens": 8678806.0,
+      "step": 530
+    },
+    {
+      "epoch": 1.5781710914454279,
+      "grad_norm": 0.11758331209421158,
+      "learning_rate": 2.7426826387056555e-05,
+      "loss": 0.055,
+      "num_tokens": 8760726.0,
+      "step": 535
+    },
+    {
+      "epoch": 1.592920353982301,
+      "grad_norm": 0.14461639523506165,
+      "learning_rate": 2.7060985409301627e-05,
+      "loss": 0.0557,
+      "num_tokens": 8842646.0,
+      "step": 540
+    },
+    {
+      "epoch": 1.607669616519174,
+      "grad_norm": 0.15372057259082794,
+      "learning_rate": 2.6695260510874914e-05,
+      "loss": 0.054,
+      "num_tokens": 8924450.0,
+      "step": 545
+    },
+    {
+      "epoch": 1.6224188790560472,
+      "grad_norm": 0.14337101578712463,
+      "learning_rate": 2.632974839266385e-05,
+      "loss": 0.0531,
+      "num_tokens": 9006370.0,
+      "step": 550
+    },
+    {
+      "epoch": 1.6371681415929205,
+      "grad_norm": 0.12814313173294067,
+      "learning_rate": 2.5964545699294906e-05,
+      "loss": 0.0549,
+      "num_tokens": 9088290.0,
+      "step": 555
+    },
+    {
+      "epoch": 1.6519174041297935,
+      "grad_norm": 0.1454104632139206,
+      "learning_rate": 2.559974899357991e-05,
+      "loss": 0.0541,
+      "num_tokens": 9170162.0,
+      "step": 560
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.11160258203744888,
+      "learning_rate": 2.5235454730983955e-05,
+      "loss": 0.0535,
+      "num_tokens": 9252082.0,
+      "step": 565
+    },
+    {
+      "epoch": 1.6814159292035398,
+      "grad_norm": 0.14262907207012177,
+      "learning_rate": 2.487175923412175e-05,
+      "loss": 0.0538,
+      "num_tokens": 9334002.0,
+      "step": 570
+    },
+    {
+      "epoch": 1.696165191740413,
+      "grad_norm": 0.12927588820457458,
+      "learning_rate": 2.4508758667289076e-05,
+      "loss": 0.054,
+      "num_tokens": 9415922.0,
+      "step": 575
+    },
+    {
+      "epoch": 1.7109144542772863,
+      "grad_norm": 0.1411578357219696,
+      "learning_rate": 2.4146549011036074e-05,
+      "loss": 0.0519,
+      "num_tokens": 9497842.0,
+      "step": 580
+    },
+    {
+      "epoch": 1.7256637168141593,
+      "grad_norm": 0.14883753657341003,
+      "learning_rate": 2.378522603678917e-05,
+      "loss": 0.0524,
+      "num_tokens": 9579762.0,
+      "step": 585
+    },
+    {
+      "epoch": 1.7404129793510323,
+      "grad_norm": 0.13972261548042297,
+      "learning_rate": 2.3424885281528248e-05,
+      "loss": 0.0546,
+      "num_tokens": 9661480.0,
+      "step": 590
+    },
+    {
+      "epoch": 1.7551622418879056,
+      "grad_norm": 0.15459661185741425,
+      "learning_rate": 2.3065622022525813e-05,
+      "loss": 0.0528,
+      "num_tokens": 9743400.0,
+      "step": 595
+    },
+    {
+      "epoch": 1.7699115044247788,
+      "grad_norm": 0.12449204921722412,
+      "learning_rate": 2.2707531252154868e-05,
+      "loss": 0.0539,
+      "num_tokens": 9825283.0,
+      "step": 600
+    },
+    {
+      "epoch": 1.7846607669616519,
+      "grad_norm": 0.14224207401275635,
+      "learning_rate": 2.2350707652772102e-05,
+      "loss": 0.0552,
+      "num_tokens": 9906978.0,
+      "step": 605
+    },
+    {
+      "epoch": 1.799410029498525,
+      "grad_norm": 0.11525611579418182,
+      "learning_rate": 2.1995245571683016e-05,
+      "loss": 0.0555,
+      "num_tokens": 9988898.0,
+      "step": 610
+    },
+    {
+      "epoch": 1.8141592920353982,
+      "grad_norm": 0.12278515100479126,
+      "learning_rate": 2.1641238996195645e-05,
+      "loss": 0.0532,
+      "num_tokens": 10070818.0,
+      "step": 615
+    },
+    {
+      "epoch": 1.8289085545722714,
+      "grad_norm": 0.14640717208385468,
+      "learning_rate": 2.1288781528769553e-05,
+      "loss": 0.0545,
+      "num_tokens": 10152738.0,
+      "step": 620
+    },
+    {
+      "epoch": 1.8436578171091447,
+      "grad_norm": 0.11209894716739655,
+      "learning_rate": 2.0937966362266443e-05,
+      "loss": 0.0522,
+      "num_tokens": 10234658.0,
+      "step": 625
+    },
+    {
+      "epoch": 1.8584070796460177,
+      "grad_norm": 0.13037630915641785,
+      "learning_rate": 2.0588886255309192e-05,
+      "loss": 0.0533,
+      "num_tokens": 10316562.0,
+      "step": 630
+    },
+    {
+      "epoch": 1.8731563421828907,
+      "grad_norm": 0.12001070380210876,
+      "learning_rate": 2.0241633507755625e-05,
+      "loss": 0.0559,
+      "num_tokens": 10398482.0,
+      "step": 635
+    },
+    {
+      "epoch": 1.887905604719764,
+      "grad_norm": 0.13977284729480743,
+      "learning_rate": 1.989629993629364e-05,
+      "loss": 0.0526,
+      "num_tokens": 10480361.0,
+      "step": 640
+    },
+    {
+      "epoch": 1.9026548672566372,
+      "grad_norm": 0.13830554485321045,
+      "learning_rate": 1.9552976850164047e-05,
+      "loss": 0.0538,
+      "num_tokens": 10562281.0,
+      "step": 645
+    },
+    {
+      "epoch": 1.9174041297935103,
+      "grad_norm": 0.11689659208059311,
+      "learning_rate": 1.9211755027017625e-05,
+      "loss": 0.0521,
+      "num_tokens": 10644201.0,
+      "step": 650
+    },
+    {
+      "epoch": 1.9321533923303835,
+      "grad_norm": 0.1302964985370636,
+      "learning_rate": 1.8872724688912684e-05,
+      "loss": 0.0544,
+      "num_tokens": 10726121.0,
+      "step": 655
+    },
+    {
+      "epoch": 1.9469026548672566,
+      "grad_norm": 0.11920026689767838,
+      "learning_rate": 1.8535975478459566e-05,
+      "loss": 0.0539,
+      "num_tokens": 10807790.0,
+      "step": 660
+    },
+    {
+      "epoch": 1.9616519174041298,
+      "grad_norm": 0.14449501037597656,
+      "learning_rate": 1.8201596435118356e-05,
+      "loss": 0.052,
+      "num_tokens": 10889546.0,
+      "step": 665
+    },
+    {
+      "epoch": 1.976401179941003,
+      "grad_norm": 0.13730932772159576,
+      "learning_rate": 1.7869675971656062e-05,
+      "loss": 0.0545,
+      "num_tokens": 10971466.0,
+      "step": 670
+    },
+    {
+      "epoch": 1.991150442477876,
+      "grad_norm": 0.14631158113479614,
+      "learning_rate": 1.7540301850769482e-05,
+      "loss": 0.051,
+      "num_tokens": 11053344.0,
+      "step": 675
+    },
+    {
+      "epoch": 2.005899705014749,
+      "grad_norm": 0.14203102886676788,
+      "learning_rate": 1.721356116188001e-05,
+      "loss": 0.0551,
+      "num_tokens": 11135264.0,
+      "step": 680
+    },
+    {
+      "epoch": 2.0206489675516224,
+      "grad_norm": 0.14633382856845856,
+      "learning_rate": 1.688954029810639e-05,
+      "loss": 0.0528,
+      "num_tokens": 11217184.0,
+      "step": 685
+    },
+    {
+      "epoch": 2.0353982300884956,
+      "grad_norm": 0.12269877642393112,
+      "learning_rate": 1.6568324933421605e-05,
+      "loss": 0.0524,
+      "num_tokens": 11299104.0,
+      "step": 690
+    },
+    {
+      "epoch": 2.050147492625369,
+      "grad_norm": 0.13254043459892273,
+      "learning_rate": 1.6250000000000005e-05,
+      "loss": 0.0532,
+      "num_tokens": 11381024.0,
+      "step": 695
+    },
+    {
+      "epoch": 2.0648967551622417,
+      "grad_norm": 0.13670207560062408,
+      "learning_rate": 1.5934649665760377e-05,
+      "loss": 0.0538,
+      "num_tokens": 11462944.0,
+      "step": 700
+    },
+    {
+      "epoch": 2.079646017699115,
+      "grad_norm": 0.13071012496948242,
+      "learning_rate": 1.5622357312111275e-05,
+      "loss": 0.054,
+      "num_tokens": 11544864.0,
+      "step": 705
+    },
+    {
+      "epoch": 2.094395280235988,
+      "grad_norm": 0.11913175135850906,
+      "learning_rate": 1.5313205511904228e-05,
+      "loss": 0.052,
+      "num_tokens": 11626784.0,
+      "step": 710
+    },
+    {
+      "epoch": 2.1091445427728615,
+      "grad_norm": 0.11887428164482117,
+      "learning_rate": 1.5007276007600757e-05,
+      "loss": 0.0526,
+      "num_tokens": 11708704.0,
+      "step": 715
+    },
+    {
+      "epoch": 2.1238938053097347,
+      "grad_norm": 0.12120334059000015,
+      "learning_rate": 1.4704649689658917e-05,
+      "loss": 0.0521,
+      "num_tokens": 11790559.0,
+      "step": 720
+    },
+    {
+      "epoch": 2.1386430678466075,
+      "grad_norm": 0.09578295052051544,
+      "learning_rate": 1.4405406575145198e-05,
+      "loss": 0.0549,
+      "num_tokens": 11872285.0,
+      "step": 725
+    },
+    {
+      "epoch": 2.1533923303834808,
+      "grad_norm": 0.13386505842208862,
+      "learning_rate": 1.4109625786577236e-05,
+      "loss": 0.0542,
+      "num_tokens": 11954205.0,
+      "step": 730
+    },
+    {
+      "epoch": 2.168141592920354,
+      "grad_norm": 0.1328478455543518,
+      "learning_rate": 1.3817385531003186e-05,
+      "loss": 0.0518,
+      "num_tokens": 12036002.0,
+      "step": 735
+    },
+    {
+      "epoch": 2.1828908554572273,
+      "grad_norm": 0.13573037087917328,
+      "learning_rate": 1.3528763079323076e-05,
+      "loss": 0.053,
+      "num_tokens": 12117880.0,
+      "step": 740
+    },
+    {
+      "epoch": 2.1976401179941005,
+      "grad_norm": 0.11889643222093582,
+      "learning_rate": 1.3243834745857667e-05,
+      "loss": 0.0518,
+      "num_tokens": 12199800.0,
+      "step": 745
+    },
+    {
+      "epoch": 2.2123893805309733,
+      "grad_norm": 0.13203181326389313,
+      "learning_rate": 1.29626758681703e-05,
+      "loss": 0.0538,
+      "num_tokens": 12281720.0,
+      "step": 750
+    },
+    {
+      "epoch": 2.2271386430678466,
+      "grad_norm": 0.15322619676589966,
+      "learning_rate": 1.2685360787146994e-05,
+      "loss": 0.0521,
+      "num_tokens": 12363640.0,
+      "step": 755
+    },
+    {
+      "epoch": 2.24188790560472,
+      "grad_norm": 0.1316722333431244,
+      "learning_rate": 1.2411962827340023e-05,
+      "loss": 0.0509,
+      "num_tokens": 12445316.0,
+      "step": 760
+    },
+    {
+      "epoch": 2.256637168141593,
+      "grad_norm": 0.12419988960027695,
+      "learning_rate": 1.2142554277580288e-05,
+      "loss": 0.0523,
+      "num_tokens": 12527159.0,
+      "step": 765
+    },
+    {
+      "epoch": 2.271386430678466,
+      "grad_norm": 0.16085049510002136,
+      "learning_rate": 1.187720637186349e-05,
+      "loss": 0.0535,
+      "num_tokens": 12609079.0,
+      "step": 770
+    },
+    {
+      "epoch": 2.286135693215339,
+      "grad_norm": 0.1237749382853508,
+      "learning_rate": 1.1615989270515268e-05,
+      "loss": 0.0537,
+      "num_tokens": 12690873.0,
+      "step": 775
+    },
+    {
+      "epoch": 2.3008849557522124,
+      "grad_norm": 0.10973517596721649,
+      "learning_rate": 1.1358972041640139e-05,
+      "loss": 0.0528,
+      "num_tokens": 12772682.0,
+      "step": 780
+    },
+    {
+      "epoch": 2.3156342182890857,
+      "grad_norm": 0.12612909078598022,
+      "learning_rate": 1.110622264285934e-05,
+      "loss": 0.0527,
+      "num_tokens": 12854602.0,
+      "step": 785
+    },
+    {
+      "epoch": 2.330383480825959,
+      "grad_norm": 0.14214757084846497,
+      "learning_rate": 1.085780790334219e-05,
+      "loss": 0.0513,
+      "num_tokens": 12936522.0,
+      "step": 790
+    },
+    {
+      "epoch": 2.3451327433628317,
+      "grad_norm": 0.12092974781990051,
+      "learning_rate": 1.0613793506135872e-05,
+      "loss": 0.05,
+      "num_tokens": 13018442.0,
+      "step": 795
+    },
+    {
+      "epoch": 2.359882005899705,
+      "grad_norm": 0.11506114155054092,
+      "learning_rate": 1.0374243970798297e-05,
+      "loss": 0.052,
+      "num_tokens": 13100341.0,
+      "step": 800
+    },
+    {
+      "epoch": 2.3746312684365782,
+      "grad_norm": 0.13261866569519043,
+      "learning_rate": 1.0139222636338505e-05,
+      "loss": 0.0521,
+      "num_tokens": 13182261.0,
+      "step": 805
+    },
+    {
+      "epoch": 2.3893805309734515,
+      "grad_norm": 0.13615797460079193,
+      "learning_rate": 9.90879164446933e-06,
+      "loss": 0.0531,
+      "num_tokens": 13264181.0,
+      "step": 810
+    },
+    {
+      "epoch": 2.4041297935103243,
+      "grad_norm": 0.1656993329524994,
+      "learning_rate": 9.683011923176537e-06,
+      "loss": 0.0534,
+      "num_tokens": 13346101.0,
+      "step": 815
+    },
+    {
+      "epoch": 2.4188790560471976,
+      "grad_norm": 0.12165559083223343,
+      "learning_rate": 9.461943170608942e-06,
+      "loss": 0.0523,
+      "num_tokens": 13427963.0,
+      "step": 820
+    },
+    {
+      "epoch": 2.433628318584071,
+      "grad_norm": 0.12782715260982513,
+      "learning_rate": 9.245643839293718e-06,
+      "loss": 0.0517,
+      "num_tokens": 13509883.0,
+      "step": 825
+    },
+    {
+      "epoch": 2.448377581120944,
+      "grad_norm": 0.11893630027770996,
+      "learning_rate": 9.034171120680993e-06,
+      "loss": 0.0543,
+      "num_tokens": 13591803.0,
+      "step": 830
+    },
+    {
+      "epoch": 2.4631268436578173,
+      "grad_norm": 0.1121756061911583,
+      "learning_rate": 8.827580930021936e-06,
+      "loss": 0.0508,
+      "num_tokens": 13673723.0,
+      "step": 835
+    },
+    {
+      "epoch": 2.47787610619469,
+      "grad_norm": 0.14923910796642303,
+      "learning_rate": 8.625927891584307e-06,
+      "loss": 0.052,
+      "num_tokens": 13755595.0,
+      "step": 840
+    },
+    {
+      "epoch": 2.4926253687315634,
+      "grad_norm": 0.12945568561553955,
+      "learning_rate": 8.429265324209275e-06,
+      "loss": 0.0541,
+      "num_tokens": 13837426.0,
+      "step": 845
+    },
+    {
+      "epoch": 2.5073746312684366,
+      "grad_norm": 0.11035799235105515,
+      "learning_rate": 8.237645227213465e-06,
+      "loss": 0.0535,
+      "num_tokens": 13919095.0,
+      "step": 850
+    },
+    {
+      "epoch": 2.52212389380531,
+      "grad_norm": 0.12474622577428818,
+      "learning_rate": 8.051118266639879e-06,
+      "loss": 0.0527,
+      "num_tokens": 14001015.0,
+      "step": 855
+    },
+    {
+      "epoch": 2.5368731563421827,
+      "grad_norm": 0.12021201103925705,
+      "learning_rate": 7.869733761861347e-06,
+      "loss": 0.0519,
+      "num_tokens": 14082733.0,
+      "step": 860
+    },
+    {
+      "epoch": 2.551622418879056,
+      "grad_norm": 0.15574879944324493,
+      "learning_rate": 7.693539672540045e-06,
+      "loss": 0.0524,
+      "num_tokens": 14164653.0,
+      "step": 865
+    },
+    {
+      "epoch": 2.566371681415929,
+      "grad_norm": 0.12805156409740448,
+      "learning_rate": 7.522582585946558e-06,
+      "loss": 0.0527,
+      "num_tokens": 14246457.0,
+      "step": 870
+    },
+    {
+      "epoch": 2.5811209439528024,
+      "grad_norm": 0.13377341628074646,
+      "learning_rate": 7.356907704641764e-06,
+      "loss": 0.0521,
+      "num_tokens": 14328377.0,
+      "step": 875
+    },
+    {
+      "epoch": 2.5958702064896757,
+      "grad_norm": 0.1164890006184578,
+      "learning_rate": 7.196558834524891e-06,
+      "loss": 0.0531,
+      "num_tokens": 14410297.0,
+      "step": 880
+    },
+    {
+      "epoch": 2.6106194690265485,
+      "grad_norm": 0.1588173806667328,
+      "learning_rate": 7.041578373250875e-06,
+      "loss": 0.0513,
+      "num_tokens": 14491946.0,
+      "step": 885
+    },
+    {
+      "epoch": 2.6253687315634218,
+      "grad_norm": 0.12378757447004318,
+      "learning_rate": 6.892007299020003e-06,
+      "loss": 0.0523,
+      "num_tokens": 14573866.0,
+      "step": 890
+    },
+    {
+      "epoch": 2.640117994100295,
+      "grad_norm": 0.12086950987577438,
+      "learning_rate": 6.747885159742945e-06,
+      "loss": 0.0528,
+      "num_tokens": 14655786.0,
+      "step": 895
+    },
+    {
+      "epoch": 2.6548672566371683,
+      "grad_norm": 0.13173659145832062,
+      "learning_rate": 6.609250062583937e-06,
+      "loss": 0.0513,
+      "num_tokens": 14737706.0,
+      "step": 900
+    },
+    {
+      "epoch": 2.669616519174041,
+      "grad_norm": 0.11908340454101562,
+      "learning_rate": 6.476138663884902e-06,
+      "loss": 0.0508,
+      "num_tokens": 14819610.0,
+      "step": 905
+    },
+    {
+      "epoch": 2.6843657817109143,
+      "grad_norm": 0.16239605844020844,
+      "learning_rate": 6.34858615947318e-06,
+      "loss": 0.0536,
+      "num_tokens": 14901366.0,
+      "step": 910
+    },
+    {
+      "epoch": 2.6991150442477876,
+      "grad_norm": 0.14603886008262634,
+      "learning_rate": 6.226626275355474e-06,
+      "loss": 0.0506,
+      "num_tokens": 14983286.0,
+      "step": 915
+    },
+    {
+      "epoch": 2.713864306784661,
+      "grad_norm": 0.13718026876449585,
+      "learning_rate": 6.110291258800356e-06,
+      "loss": 0.0519,
+      "num_tokens": 15065206.0,
+      "step": 920
+    },
+    {
+      "epoch": 2.728613569321534,
+      "grad_norm": 0.12413609027862549,
+      "learning_rate": 5.9996118698118335e-06,
+      "loss": 0.052,
+      "num_tokens": 15147126.0,
+      "step": 925
+    },
+    {
+      "epoch": 2.7433628318584073,
+      "grad_norm": 0.14036346971988678,
+      "learning_rate": 5.89461737299613e-06,
+      "loss": 0.0515,
+      "num_tokens": 15229046.0,
+      "step": 930
+    },
+    {
+      "epoch": 2.75811209439528,
+      "grad_norm": 0.1299838423728943,
+      "learning_rate": 5.795335529823848e-06,
+      "loss": 0.0523,
+      "num_tokens": 15310966.0,
+      "step": 935
+    },
+    {
+      "epoch": 2.7728613569321534,
+      "grad_norm": 0.12340506166219711,
+      "learning_rate": 5.701792591289609e-06,
+      "loss": 0.0524,
+      "num_tokens": 15392621.0,
+      "step": 940
+    },
+    {
+      "epoch": 2.7876106194690267,
+      "grad_norm": 0.11809273809194565,
+      "learning_rate": 5.614013290971055e-06,
+      "loss": 0.0512,
+      "num_tokens": 15474541.0,
+      "step": 945
+    },
+    {
+      "epoch": 2.8023598820058995,
+      "grad_norm": 0.11352474987506866,
+      "learning_rate": 5.532020838489065e-06,
+      "loss": 0.052,
+      "num_tokens": 15556461.0,
+      "step": 950
+    },
+    {
+      "epoch": 2.8171091445427727,
+      "grad_norm": 0.12270710617303848,
+      "learning_rate": 5.455836913370934e-06,
+      "loss": 0.0533,
+      "num_tokens": 15638316.0,
+      "step": 955
+    },
+    {
+      "epoch": 2.831858407079646,
+      "grad_norm": 0.1239713653922081,
+      "learning_rate": 5.38548165931812e-06,
+      "loss": 0.0523,
+      "num_tokens": 15720236.0,
+      "step": 960
+    },
+    {
+      "epoch": 2.8466076696165192,
+      "grad_norm": 0.13654908537864685,
+      "learning_rate": 5.3209736788800545e-06,
+      "loss": 0.0505,
+      "num_tokens": 15802115.0,
+      "step": 965
+    },
+    {
+      "epoch": 2.8613569321533925,
+      "grad_norm": 0.12271752953529358,
+      "learning_rate": 5.262330028535478e-06,
+      "loss": 0.0527,
+      "num_tokens": 15884035.0,
+      "step": 970
+    },
+    {
+      "epoch": 2.8761061946902657,
+      "grad_norm": 0.11097793281078339,
+      "learning_rate": 5.209566214182558e-06,
+      "loss": 0.0503,
+      "num_tokens": 15965955.0,
+      "step": 975
+    },
+    {
+      "epoch": 2.8908554572271385,
+      "grad_norm": 0.12811797857284546,
+      "learning_rate": 5.162696187038983e-06,
+      "loss": 0.0521,
+      "num_tokens": 16047875.0,
+      "step": 980
+    },
+    {
+      "epoch": 2.905604719764012,
+      "grad_norm": 0.12047919631004333,
+      "learning_rate": 5.121732339953144e-06,
+      "loss": 0.0526,
+      "num_tokens": 16129795.0,
+      "step": 985
+    },
+    {
+      "epoch": 2.920353982300885,
+      "grad_norm": 0.1275618076324463,
+      "learning_rate": 5.086685504127355e-06,
+      "loss": 0.0525,
+      "num_tokens": 16211715.0,
+      "step": 990
+    },
+    {
+      "epoch": 2.935103244837758,
+      "grad_norm": 0.13480406999588013,
+      "learning_rate": 5.057564946253982e-06,
+      "loss": 0.054,
+      "num_tokens": 16293598.0,
+      "step": 995
+    },
+    {
+      "epoch": 2.949852507374631,
+      "grad_norm": 0.17191572487354279,
+      "learning_rate": 5.03437836606527e-06,
+      "loss": 0.0514,
+      "num_tokens": 16375518.0,
+      "step": 1000
+    },
+    {
+      "epoch": 2.9646017699115044,
+      "grad_norm": 0.1515762060880661,
+      "learning_rate": 5.0171318942974285e-06,
+      "loss": 0.054,
+      "num_tokens": 16457438.0,
+      "step": 1005
+    },
+    {
+      "epoch": 2.9793510324483776,
+      "grad_norm": 0.15460149943828583,
+      "learning_rate": 5.005830091069644e-06,
+      "loss": 0.053,
+      "num_tokens": 16539277.0,
+      "step": 1010
+    },
+    {
+      "epoch": 2.994100294985251,
+      "grad_norm": 0.11925122141838074,
+      "learning_rate": 5.000475944678329e-06,
+      "loss": 0.0522,
+      "num_tokens": 16620976.0,
+      "step": 1015
+    },
+    {
+      "epoch": 3.0,
+      "num_tokens": 16653744.0,
+      "step": 1017,
+      "total_flos": 2.7740847281799168e+17,
+      "train_loss": 0.0704414379602571,
+      "train_runtime": 3418.2006,
+      "train_samples_per_second": 18.999,
+      "train_steps_per_second": 0.298
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1017,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.7740847281799168e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null