End of training

Browse files

Files changed (7) hide show

README.md +3 -2
all_results.json +10 -10
eval_results.json +5 -5
train_results.json +6 -6
trainer_state.json +1155 -345
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: all_tasks_combined_8b_sft
@@ -15,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # all_tasks_combined_8b_sft
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4941
 ## Model description

 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: all_tasks_combined_8b_sft
 # all_tasks_combined_8b_sft
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the identity and the data_mc_filtered datasets.
 It achieves the following results on the evaluation set:
+- Loss: 0.4943
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 10.0,
-    "eval_loss": 1.065657615661621,
-    "eval_runtime": 1.1497,
-    "eval_samples_per_second": 19.135,
-    "eval_steps_per_second": 2.609,
-    "total_flos": 52476849684480.0,
-    "train_loss": 0.2212562888971905,
-    "train_runtime": 2292.2808,
-    "train_samples_per_second": 4.663,
-    "train_steps_per_second": 0.292
 }

 {
+    "epoch": 2.9953574744661093,
+    "eval_loss": 0.4942765235900879,
+    "eval_runtime": 19.3607,
+    "eval_samples_per_second": 18.181,
+    "eval_steps_per_second": 2.273,
+    "total_flos": 292826854195200.0,
+    "train_loss": 0.2790517607955389,
+    "train_runtime": 12257.2359,
+    "train_samples_per_second": 4.217,
+    "train_steps_per_second": 0.132
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 10.0,
-    "eval_loss": 1.065657615661621,
-    "eval_runtime": 1.1497,
-    "eval_samples_per_second": 19.135,
-    "eval_steps_per_second": 2.609
 }

 {
+    "epoch": 2.9953574744661093,
+    "eval_loss": 0.4942765235900879,
+    "eval_runtime": 19.3607,
+    "eval_samples_per_second": 18.181,
+    "eval_steps_per_second": 2.273
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "total_flos": 52476849684480.0,
-    "train_loss": 0.2212562888971905,
-    "train_runtime": 2292.2808,
-    "train_samples_per_second": 4.663,
-    "train_steps_per_second": 0.292
 }

 {
+    "epoch": 2.9953574744661093,
+    "total_flos": 292826854195200.0,
+    "train_loss": 0.2790517607955389,
+    "train_runtime": 12257.2359,
+    "train_samples_per_second": 4.217,
+    "train_steps_per_second": 0.132
 }

trainer_state.json CHANGED Viewed

@@ -1,600 +1,1410 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 50,
-  "global_step": 670,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.14925373134328357,
-      "grad_norm": 62.46964209905432,
-      "learning_rate": 1.4925373134328358e-06,
-      "loss": 1.5237,
       "step": 10
     },
     {
-      "epoch": 0.29850746268656714,
-      "grad_norm": 18.23641099206786,
-      "learning_rate": 2.9850746268656716e-06,
-      "loss": 0.8967,
       "step": 20
     },
     {
-      "epoch": 0.44776119402985076,
-      "grad_norm": 17.700391850985287,
-      "learning_rate": 4.477611940298508e-06,
-      "loss": 0.7064,
       "step": 30
     },
     {
-      "epoch": 0.5970149253731343,
-      "grad_norm": 15.47240679468768,
-      "learning_rate": 5.970149253731343e-06,
-      "loss": 0.7563,
       "step": 40
     },
     {
-      "epoch": 0.746268656716418,
-      "grad_norm": 13.336317250535666,
-      "learning_rate": 7.46268656716418e-06,
-      "loss": 0.7504,
       "step": 50
     },
     {
-      "epoch": 0.746268656716418,
-      "eval_loss": 0.7051475048065186,
-      "eval_runtime": 1.1419,
-      "eval_samples_per_second": 19.266,
-      "eval_steps_per_second": 2.627,
       "step": 50
     },
     {
-      "epoch": 0.8955223880597015,
-      "grad_norm": 13.252454175450078,
-      "learning_rate": 8.955223880597016e-06,
-      "loss": 0.6893,
       "step": 60
     },
     {
-      "epoch": 1.044776119402985,
-      "grad_norm": 11.80189996714652,
-      "learning_rate": 9.999389284703265e-06,
-      "loss": 0.7673,
       "step": 70
     },
     {
-      "epoch": 1.1940298507462686,
-      "grad_norm": 8.996097585606723,
-      "learning_rate": 9.988536273658876e-06,
-      "loss": 0.4853,
       "step": 80
     },
     {
-      "epoch": 1.3432835820895521,
-      "grad_norm": 10.21049769891817,
-      "learning_rate": 9.964145714351633e-06,
-      "loss": 0.4875,
       "step": 90
     },
     {
-      "epoch": 1.4925373134328357,
-      "grad_norm": 15.200908102543476,
-      "learning_rate": 9.926283796211796e-06,
-      "loss": 0.6328,
       "step": 100
     },
     {
-      "epoch": 1.4925373134328357,
-      "eval_loss": 0.6948466897010803,
-      "eval_runtime": 1.1346,
-      "eval_samples_per_second": 19.391,
-      "eval_steps_per_second": 2.644,
       "step": 100
     },
     {
-      "epoch": 1.6417910447761193,
-      "grad_norm": 11.348256417642952,
-      "learning_rate": 9.87505326632108e-06,
-      "loss": 0.5766,
       "step": 110
     },
     {
-      "epoch": 1.7910447761194028,
-      "grad_norm": 9.974009872915042,
-      "learning_rate": 9.810593150584658e-06,
-      "loss": 0.5581,
       "step": 120
     },
     {
-      "epoch": 1.9402985074626866,
-      "grad_norm": 9.043873474237678,
-      "learning_rate": 9.733078376452172e-06,
-      "loss": 0.5858,
       "step": 130
     },
     {
-      "epoch": 2.08955223880597,
-      "grad_norm": 6.359601801482128,
-      "learning_rate": 9.642719298211602e-06,
-      "loss": 0.3937,
       "step": 140
     },
     {
-      "epoch": 2.2388059701492535,
-      "grad_norm": 7.850358378677195,
-      "learning_rate": 9.539761126144193e-06,
-      "loss": 0.2823,
       "step": 150
     },
     {
-      "epoch": 2.2388059701492535,
-      "eval_loss": 0.8329303860664368,
-      "eval_runtime": 1.1443,
-      "eval_samples_per_second": 19.226,
-      "eval_steps_per_second": 2.622,
       "step": 150
     },
     {
-      "epoch": 2.388059701492537,
-      "grad_norm": 7.403616207329922,
-      "learning_rate": 9.424483261089584e-06,
-      "loss": 0.3042,
       "step": 160
     },
     {
-      "epoch": 2.5373134328358207,
-      "grad_norm": 9.903824789117488,
-      "learning_rate": 9.297198536226927e-06,
-      "loss": 0.3432,
       "step": 170
     },
     {
-      "epoch": 2.6865671641791042,
-      "grad_norm": 7.276007975249782,
-      "learning_rate": 9.158252368129628e-06,
-      "loss": 0.3385,
       "step": 180
     },
     {
-      "epoch": 2.835820895522388,
-      "grad_norm": 6.961512240006563,
-      "learning_rate": 9.008021819397488e-06,
-      "loss": 0.3322,
       "step": 190
     },
     {
-      "epoch": 2.9850746268656714,
-      "grad_norm": 9.214663023889504,
-      "learning_rate": 8.846914575410035e-06,
-      "loss": 0.3349,
       "step": 200
     },
     {
-      "epoch": 2.9850746268656714,
-      "eval_loss": 0.8281504511833191,
-      "eval_runtime": 1.138,
-      "eval_samples_per_second": 19.332,
-      "eval_steps_per_second": 2.636,
       "step": 200
     },
     {
-      "epoch": 3.1343283582089554,
-      "grad_norm": 6.775051665842526,
-      "learning_rate": 8.675367837977848e-06,
-      "loss": 0.2317,
       "step": 210
     },
     {
-      "epoch": 3.283582089552239,
-      "grad_norm": 10.639831698910774,
-      "learning_rate": 8.49384713889421e-06,
-      "loss": 0.219,
       "step": 220
     },
     {
-      "epoch": 3.4328358208955225,
-      "grad_norm": 5.513116180089331,
-      "learning_rate": 8.302845076606786e-06,
-      "loss": 0.2004,
       "step": 230
     },
     {
-      "epoch": 3.582089552238806,
-      "grad_norm": 4.675709172799224,
-      "learning_rate": 8.10287997943769e-06,
-      "loss": 0.2106,
       "step": 240
     },
     {
-      "epoch": 3.7313432835820897,
-      "grad_norm": 7.218127118287365,
-      "learning_rate": 7.894494498979558e-06,
-      "loss": 0.2069,
       "step": 250
     },
     {
-      "epoch": 3.7313432835820897,
-      "eval_loss": 0.7403361797332764,
-      "eval_runtime": 1.1421,
-      "eval_samples_per_second": 19.263,
-      "eval_steps_per_second": 2.627,
       "step": 250
     },
     {
-      "epoch": 3.8805970149253732,
-      "grad_norm": 5.413632092673544,
-      "learning_rate": 7.678254137484797e-06,
-      "loss": 0.2099,
       "step": 260
     },
     {
-      "epoch": 4.029850746268656,
-      "grad_norm": 4.514679371933533,
-      "learning_rate": 7.4547457132442895e-06,
-      "loss": 0.1866,
       "step": 270
     },
     {
-      "epoch": 4.17910447761194,
-      "grad_norm": 5.397504900004704,
-      "learning_rate": 7.2245757681200835e-06,
-      "loss": 0.0992,
       "step": 280
     },
     {
-      "epoch": 4.3283582089552235,
-      "grad_norm": 6.311754836671643,
-      "learning_rate": 6.988368921553601e-06,
-      "loss": 0.1249,
       "step": 290
     },
     {
-      "epoch": 4.477611940298507,
-      "grad_norm": 5.288945692952636,
-      "learning_rate": 6.746766175516159e-06,
-      "loss": 0.0942,
       "step": 300
     },
     {
-      "epoch": 4.477611940298507,
-      "eval_loss": 0.8359870910644531,
-      "eval_runtime": 1.1349,
-      "eval_samples_per_second": 19.385,
-      "eval_steps_per_second": 2.643,
       "step": 300
     },
     {
-      "epoch": 4.6268656716417915,
-      "grad_norm": 8.659651343283201,
-      "learning_rate": 6.500423175001705e-06,
-      "loss": 0.1187,
       "step": 310
     },
     {
-      "epoch": 4.776119402985074,
-      "grad_norm": 5.073570072467742,
-      "learning_rate": 6.2500084287822925e-06,
-      "loss": 0.131,
       "step": 320
     },
     {
-      "epoch": 4.925373134328359,
-      "grad_norm": 5.5550702226053605,
-      "learning_rate": 5.996201495254757e-06,
-      "loss": 0.1343,
       "step": 330
     },
     {
-      "epoch": 5.074626865671641,
-      "grad_norm": 3.9447083325808108,
-      "learning_rate": 5.73969113830165e-06,
-      "loss": 0.1011,
       "step": 340
     },
     {
-      "epoch": 5.223880597014926,
-      "grad_norm": 3.2472003531286338,
-      "learning_rate": 5.481173458170952e-06,
-      "loss": 0.0553,
       "step": 350
     },
     {
-      "epoch": 5.223880597014926,
-      "eval_loss": 0.8742682933807373,
-      "eval_runtime": 1.1401,
-      "eval_samples_per_second": 19.296,
-      "eval_steps_per_second": 2.631,
       "step": 350
     },
     {
-      "epoch": 5.373134328358209,
-      "grad_norm": 3.628965369391052,
-      "learning_rate": 5.221350002446882e-06,
-      "loss": 0.061,
       "step": 360
     },
     {
-      "epoch": 5.522388059701493,
-      "grad_norm": 2.5871034929884313,
-      "learning_rate": 4.96092586223808e-06,
-      "loss": 0.0554,
       "step": 370
     },
     {
-      "epoch": 5.6716417910447765,
-      "grad_norm": 3.7166476236947528,
-      "learning_rate": 4.700607758749626e-06,
-      "loss": 0.0627,
       "step": 380
     },
     {
-      "epoch": 5.82089552238806,
-      "grad_norm": 5.238055742685194,
-      "learning_rate": 4.441102125431398e-06,
-      "loss": 0.0642,
       "step": 390
     },
     {
-      "epoch": 5.970149253731344,
-      "grad_norm": 4.718083316839321,
-      "learning_rate": 4.183113190907349e-06,
-      "loss": 0.0774,
       "step": 400
     },
     {
-      "epoch": 5.970149253731344,
-      "eval_loss": 0.834354817867279,
-      "eval_runtime": 1.1389,
-      "eval_samples_per_second": 19.317,
-      "eval_steps_per_second": 2.634,
       "step": 400
     },
     {
-      "epoch": 6.119402985074627,
-      "grad_norm": 3.1655302149163553,
-      "learning_rate": 3.927341067888065e-06,
-      "loss": 0.0478,
       "step": 410
     },
     {
-      "epoch": 6.268656716417911,
-      "grad_norm": 2.6103089340590206,
-      "learning_rate": 3.6744798532528137e-06,
-      "loss": 0.0356,
       "step": 420
     },
     {
-      "epoch": 6.417910447761194,
-      "grad_norm": 2.1582814059469797,
-      "learning_rate": 3.4252157444569478e-06,
-      "loss": 0.0264,
       "step": 430
     },
     {
-      "epoch": 6.567164179104478,
-      "grad_norm": 5.753417833105347,
-      "learning_rate": 3.1802251773762294e-06,
-      "loss": 0.039,
       "step": 440
     },
     {
-      "epoch": 6.7164179104477615,
-      "grad_norm": 2.948747643898508,
-      "learning_rate": 2.9401729906414385e-06,
-      "loss": 0.0352,
       "step": 450
     },
     {
-      "epoch": 6.7164179104477615,
-      "eval_loss": 0.9773427844047546,
-      "eval_runtime": 1.1359,
-      "eval_samples_per_second": 19.368,
-      "eval_steps_per_second": 2.641,
       "step": 450
     },
     {
-      "epoch": 6.865671641791045,
-      "grad_norm": 4.989745569465322,
-      "learning_rate": 2.7057106214448216e-06,
-      "loss": 0.043,
       "step": 460
     },
     {
-      "epoch": 7.014925373134329,
-      "grad_norm": 0.42314469761534634,
-      "learning_rate": 2.4774743377144265e-06,
-      "loss": 0.0236,
       "step": 470
     },
     {
-      "epoch": 7.164179104477612,
-      "grad_norm": 0.5481091739655988,
-      "learning_rate": 2.256083511453747e-06,
-      "loss": 0.0173,
       "step": 480
     },
     {
-      "epoch": 7.313432835820896,
-      "grad_norm": 1.00555080244342,
-      "learning_rate": 2.042138937932388e-06,
-      "loss": 0.0167,
       "step": 490
     },
     {
-      "epoch": 7.462686567164179,
-      "grad_norm": 0.9232480963513995,
-      "learning_rate": 1.8362212052889827e-06,
-      "loss": 0.0176,
       "step": 500
     },
     {
-      "epoch": 7.462686567164179,
-      "eval_loss": 0.9960648417472839,
-      "eval_runtime": 1.136,
-      "eval_samples_per_second": 19.366,
-      "eval_steps_per_second": 2.641,
       "step": 500
     },
     {
-      "epoch": 7.611940298507463,
-      "grad_norm": 2.6590690516807345,
-      "learning_rate": 1.63888911897084e-06,
-      "loss": 0.0175,
       "step": 510
     },
     {
-      "epoch": 7.7611940298507465,
-      "grad_norm": 1.6242460024315573,
-      "learning_rate": 1.4506781852859836e-06,
-      "loss": 0.0171,
       "step": 520
     },
     {
-      "epoch": 7.91044776119403,
-      "grad_norm": 1.0094779557317752,
-      "learning_rate": 1.2720991581827852e-06,
-      "loss": 0.0123,
       "step": 530
     },
     {
-      "epoch": 8.059701492537313,
-      "grad_norm": 0.05439658756015428,
-      "learning_rate": 1.1036366532008552e-06,
-      "loss": 0.0061,
       "step": 540
     },
     {
-      "epoch": 8.208955223880597,
-      "grad_norm": 1.4613912695331988,
-      "learning_rate": 9.457478323545749e-07,
-      "loss": 0.0083,
       "step": 550
     },
     {
-      "epoch": 8.208955223880597,
-      "eval_loss": 1.016642689704895,
-      "eval_runtime": 1.135,
-      "eval_samples_per_second": 19.383,
-      "eval_steps_per_second": 2.643,
       "step": 550
     },
     {
-      "epoch": 8.35820895522388,
-      "grad_norm": 0.8842473436486248,
-      "learning_rate": 7.988611635181099e-07,
-      "loss": 0.007,
       "step": 560
     },
     {
-      "epoch": 8.507462686567164,
-      "grad_norm": 1.1014869055273346,
-      "learning_rate": 6.633752576786251e-07,
-      "loss": 0.0119,
       "step": 570
     },
     {
-      "epoch": 8.656716417910447,
-      "grad_norm": 0.10980572243131498,
-      "learning_rate": 5.396577872130676e-07,
-      "loss": 0.0107,
       "step": 580
     },
     {
-      "epoch": 8.805970149253731,
-      "grad_norm": 0.5442600253450464,
-      "learning_rate": 4.2804448812404754e-07,
-      "loss": 0.0041,
       "step": 590
     },
     {
-      "epoch": 8.955223880597014,
-      "grad_norm": 1.4383902839461293,
-      "learning_rate": 3.288382489424502e-07,
-      "loss": 0.0075,
       "step": 600
     },
     {
-      "epoch": 8.955223880597014,
-      "eval_loss": 1.043831467628479,
-      "eval_runtime": 1.1419,
-      "eval_samples_per_second": 19.266,
-      "eval_steps_per_second": 2.627,
       "step": 600
     },
     {
-      "epoch": 9.104477611940299,
-      "grad_norm": 0.04597308958713943,
-      "learning_rate": 2.4230828876927293e-07,
-      "loss": 0.0047,
       "step": 610
     },
     {
-      "epoch": 9.253731343283581,
-      "grad_norm": 0.11644667495675552,
-      "learning_rate": 1.6868942668726408e-07,
-      "loss": 0.004,
       "step": 620
     },
     {
-      "epoch": 9.402985074626866,
-      "grad_norm": 0.632174719460539,
-      "learning_rate": 1.0818144452496293e-07,
-      "loss": 0.005,
       "step": 630
     },
     {
-      "epoch": 9.552238805970148,
-      "grad_norm": 0.41757906274589185,
-      "learning_rate": 6.094854470245326e-08,
-      "loss": 0.003,
       "step": 640
     },
     {
-      "epoch": 9.701492537313433,
-      "grad_norm": 0.623129850332705,
-      "learning_rate": 2.711890463007405e-08,
-      "loss": 0.0028,
       "step": 650
     },
     {
-      "epoch": 9.701492537313433,
-      "eval_loss": 1.0667099952697754,
-      "eval_runtime": 1.1414,
-      "eval_samples_per_second": 19.275,
-      "eval_steps_per_second": 2.628,
       "step": 650
     },
     {
-      "epoch": 9.850746268656717,
-      "grad_norm": 0.1499912028824655,
-      "learning_rate": 6.784328869339218e-09,
-      "loss": 0.0046,
       "step": 660
     },
     {
-      "epoch": 10.0,
-      "grad_norm": 0.3933267850861081,
-      "learning_rate": 0.0,
-      "loss": 0.0054,
       "step": 670
     },
     {
-      "epoch": 10.0,
-      "step": 670,
-      "total_flos": 52476849684480.0,
-      "train_loss": 0.2212562888971905,
-      "train_runtime": 2292.2808,
-      "train_samples_per_second": 4.663,
-      "train_steps_per_second": 0.292
     }
   ],
   "logging_steps": 10,
-  "max_steps": 670,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 5000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -608,7 +1418,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 52476849684480.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9953574744661093,
   "eval_steps": 50,
+  "global_step": 1614,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.018570102135561744,
+      "grad_norm": 33.58969944080453,
+      "learning_rate": 6.17283950617284e-07,
+      "loss": 0.8947,
       "step": 10
     },
     {
+      "epoch": 0.03714020427112349,
+      "grad_norm": 16.744611450678853,
+      "learning_rate": 1.234567901234568e-06,
+      "loss": 0.6994,
       "step": 20
     },
     {
+      "epoch": 0.055710306406685235,
+      "grad_norm": 13.439601262151244,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.624,
       "step": 30
     },
     {
+      "epoch": 0.07428040854224698,
+      "grad_norm": 13.907357312219297,
+      "learning_rate": 2.469135802469136e-06,
+      "loss": 0.4977,
       "step": 40
     },
     {
+      "epoch": 0.09285051067780872,
+      "grad_norm": 8.492973049121323,
+      "learning_rate": 3.08641975308642e-06,
+      "loss": 0.4639,
       "step": 50
     },
     {
+      "epoch": 0.09285051067780872,
+      "eval_loss": 0.5398163199424744,
+      "eval_runtime": 19.4371,
+      "eval_samples_per_second": 18.11,
+      "eval_steps_per_second": 2.264,
       "step": 50
     },
     {
+      "epoch": 0.11142061281337047,
+      "grad_norm": 8.651091209611899,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.4468,
       "step": 60
     },
     {
+      "epoch": 0.12999071494893222,
+      "grad_norm": 5.085215797862169,
+      "learning_rate": 4.3209876543209875e-06,
+      "loss": 0.3832,
       "step": 70
     },
     {
+      "epoch": 0.14856081708449395,
+      "grad_norm": 7.069622973657299,
+      "learning_rate": 4.938271604938272e-06,
+      "loss": 0.4276,
       "step": 80
     },
     {
+      "epoch": 0.1671309192200557,
+      "grad_norm": 99.76457865321862,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.5276,
       "step": 90
     },
     {
+      "epoch": 0.18570102135561745,
+      "grad_norm": 6.1883235099602905,
+      "learning_rate": 6.17283950617284e-06,
+      "loss": 0.4939,
       "step": 100
     },
     {
+      "epoch": 0.18570102135561745,
+      "eval_loss": 0.5121593475341797,
+      "eval_runtime": 19.3824,
+      "eval_samples_per_second": 18.161,
+      "eval_steps_per_second": 2.27,
       "step": 100
     },
     {
+      "epoch": 0.2042711234911792,
+      "grad_norm": 7.381670488617432,
+      "learning_rate": 6.790123456790124e-06,
+      "loss": 0.4866,
       "step": 110
     },
     {
+      "epoch": 0.22284122562674094,
+      "grad_norm": 5.554268011959653,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.4282,
       "step": 120
     },
     {
+      "epoch": 0.2414113277623027,
+      "grad_norm": 5.807686582470137,
+      "learning_rate": 8.024691358024692e-06,
+      "loss": 0.4918,
       "step": 130
     },
     {
+      "epoch": 0.25998142989786444,
+      "grad_norm": 6.799528459280429,
+      "learning_rate": 8.641975308641975e-06,
+      "loss": 0.4841,
       "step": 140
     },
     {
+      "epoch": 0.2785515320334262,
+      "grad_norm": 4.94296183453013,
+      "learning_rate": 9.25925925925926e-06,
+      "loss": 0.4822,
       "step": 150
     },
     {
+      "epoch": 0.2785515320334262,
+      "eval_loss": 0.5242471694946289,
+      "eval_runtime": 19.4304,
+      "eval_samples_per_second": 18.116,
+      "eval_steps_per_second": 2.264,
       "step": 150
     },
     {
+      "epoch": 0.2971216341689879,
+      "grad_norm": 5.6102713178528205,
+      "learning_rate": 9.876543209876543e-06,
+      "loss": 0.4886,
       "step": 160
     },
     {
+      "epoch": 0.31569173630454966,
+      "grad_norm": 4.845388135628488,
+      "learning_rate": 9.99925101063302e-06,
+      "loss": 0.4529,
       "step": 170
     },
     {
+      "epoch": 0.3342618384401114,
+      "grad_norm": 5.39966471118419,
+      "learning_rate": 9.99620862590714e-06,
+      "loss": 0.4463,
       "step": 180
     },
     {
+      "epoch": 0.3528319405756732,
+      "grad_norm": 5.489503360186311,
+      "learning_rate": 9.990827457067342e-06,
+      "loss": 0.4885,
       "step": 190
     },
     {
+      "epoch": 0.3714020427112349,
+      "grad_norm": 4.684590902011352,
+      "learning_rate": 9.983110023102148e-06,
+      "loss": 0.4701,
       "step": 200
     },
     {
+      "epoch": 0.3714020427112349,
+      "eval_loss": 0.5521253943443298,
+      "eval_runtime": 19.3667,
+      "eval_samples_per_second": 18.176,
+      "eval_steps_per_second": 2.272,
       "step": 200
     },
     {
+      "epoch": 0.38997214484679665,
+      "grad_norm": 6.186929243018788,
+      "learning_rate": 9.973059936633308e-06,
+      "loss": 0.4983,
       "step": 210
     },
     {
+      "epoch": 0.4085422469823584,
+      "grad_norm": 7.186427473045426,
+      "learning_rate": 9.960681902224692e-06,
+      "loss": 0.4983,
       "step": 220
     },
     {
+      "epoch": 0.4271123491179202,
+      "grad_norm": 4.948600368895616,
+      "learning_rate": 9.945981714180021e-06,
+      "loss": 0.493,
       "step": 230
     },
     {
+      "epoch": 0.4456824512534819,
+      "grad_norm": 4.131993099439563,
+      "learning_rate": 9.928966253830492e-06,
+      "loss": 0.4753,
       "step": 240
     },
     {
+      "epoch": 0.46425255338904364,
+      "grad_norm": 4.007998907864266,
+      "learning_rate": 9.909643486313533e-06,
+      "loss": 0.4216,
       "step": 250
     },
     {
+      "epoch": 0.46425255338904364,
+      "eval_loss": 0.5373674631118774,
+      "eval_runtime": 19.3954,
+      "eval_samples_per_second": 18.149,
+      "eval_steps_per_second": 2.269,
       "step": 250
     },
     {
+      "epoch": 0.4828226555246054,
+      "grad_norm": 4.355924678117399,
+      "learning_rate": 9.888022456844251e-06,
+      "loss": 0.4874,
       "step": 260
     },
     {
+      "epoch": 0.5013927576601671,
+      "grad_norm": 4.3475514584684385,
+      "learning_rate": 9.864113286481237e-06,
+      "loss": 0.4499,
       "step": 270
     },
     {
+      "epoch": 0.5199628597957289,
+      "grad_norm": 4.925328524759934,
+      "learning_rate": 9.837927167388793e-06,
+      "loss": 0.4604,
       "step": 280
     },
     {
+      "epoch": 0.5385329619312906,
+      "grad_norm": 4.580602008041337,
+      "learning_rate": 9.809476357597738e-06,
+      "loss": 0.4697,
       "step": 290
     },
     {
+      "epoch": 0.5571030640668524,
+      "grad_norm": 3.9055769337575335,
+      "learning_rate": 9.778774175267294e-06,
+      "loss": 0.4159,
       "step": 300
     },
     {
+      "epoch": 0.5571030640668524,
+      "eval_loss": 0.5146207213401794,
+      "eval_runtime": 19.4216,
+      "eval_samples_per_second": 18.124,
+      "eval_steps_per_second": 2.266,
       "step": 300
     },
     {
+      "epoch": 0.5756731662024142,
+      "grad_norm": 4.477623029269123,
+      "learning_rate": 9.745834992450688e-06,
+      "loss": 0.487,
       "step": 310
     },
     {
+      "epoch": 0.5942432683379758,
+      "grad_norm": 3.729028613174465,
+      "learning_rate": 9.710674228367422e-06,
+      "loss": 0.4751,
       "step": 320
     },
     {
+      "epoch": 0.6128133704735376,
+      "grad_norm": 4.298167407385586,
+      "learning_rate": 9.673308342185366e-06,
+      "loss": 0.4289,
       "step": 330
     },
     {
+      "epoch": 0.6313834726090993,
+      "grad_norm": 4.984754626750181,
+      "learning_rate": 9.633754825316015e-06,
+      "loss": 0.4783,
       "step": 340
     },
     {
+      "epoch": 0.6499535747446611,
+      "grad_norm": 3.9844077010010444,
+      "learning_rate": 9.592032193226564e-06,
+      "loss": 0.4502,
       "step": 350
     },
     {
+      "epoch": 0.6499535747446611,
+      "eval_loss": 0.5022189617156982,
+      "eval_runtime": 19.4166,
+      "eval_samples_per_second": 18.129,
+      "eval_steps_per_second": 2.266,
       "step": 350
     },
     {
+      "epoch": 0.6685236768802229,
+      "grad_norm": 4.474043738957621,
+      "learning_rate": 9.548159976772593e-06,
+      "loss": 0.4341,
       "step": 360
     },
     {
+      "epoch": 0.6870937790157846,
+      "grad_norm": 12.385083857047688,
+      "learning_rate": 9.502158713055444e-06,
+      "loss": 0.4612,
       "step": 370
     },
     {
+      "epoch": 0.7056638811513464,
+      "grad_norm": 3.8491200153587535,
+      "learning_rate": 9.454049935808568e-06,
+      "loss": 0.4352,
       "step": 380
     },
     {
+      "epoch": 0.724233983286908,
+      "grad_norm": 4.149978752910591,
+      "learning_rate": 9.403856165317322e-06,
+      "loss": 0.3996,
       "step": 390
     },
     {
+      "epoch": 0.7428040854224698,
+      "grad_norm": 4.740837408740574,
+      "learning_rate": 9.351600897876964e-06,
+      "loss": 0.4625,
       "step": 400
     },
     {
+      "epoch": 0.7428040854224698,
+      "eval_loss": 0.49847906827926636,
+      "eval_runtime": 19.3879,
+      "eval_samples_per_second": 18.156,
+      "eval_steps_per_second": 2.269,
       "step": 400
     },
     {
+      "epoch": 0.7613741875580315,
+      "grad_norm": 4.734999881046304,
+      "learning_rate": 9.297308594793757e-06,
+      "loss": 0.3962,
       "step": 410
     },
     {
+      "epoch": 0.7799442896935933,
+      "grad_norm": 3.769866725347126,
+      "learning_rate": 9.241004670934348e-06,
+      "loss": 0.458,
       "step": 420
     },
     {
+      "epoch": 0.7985143918291551,
+      "grad_norm": 3.6685753005427832,
+      "learning_rate": 9.182715482828764e-06,
+      "loss": 0.3995,
       "step": 430
     },
     {
+      "epoch": 0.8170844939647168,
+      "grad_norm": 3.876272765109621,
+      "learning_rate": 9.122468316332611e-06,
+      "loss": 0.5064,
       "step": 440
     },
     {
+      "epoch": 0.8356545961002786,
+      "grad_norm": 4.30859512157268,
+      "learning_rate": 9.060291373854252e-06,
+      "loss": 0.4313,
       "step": 450
     },
     {
+      "epoch": 0.8356545961002786,
+      "eval_loss": 0.47159674763679504,
+      "eval_runtime": 19.4024,
+      "eval_samples_per_second": 18.142,
+      "eval_steps_per_second": 2.268,
       "step": 450
     },
     {
+      "epoch": 0.8542246982358404,
+      "grad_norm": 4.898314330177169,
+      "learning_rate": 8.99621376115291e-06,
+      "loss": 0.3925,
       "step": 460
     },
     {
+      "epoch": 0.872794800371402,
+      "grad_norm": 3.1139075537025684,
+      "learning_rate": 8.930265473713939e-06,
+      "loss": 0.4499,
       "step": 470
     },
     {
+      "epoch": 0.8913649025069638,
+      "grad_norm": 3.627205546071805,
+      "learning_rate": 8.862477382707569e-06,
+      "loss": 0.3699,
       "step": 480
     },
     {
+      "epoch": 0.9099350046425255,
+      "grad_norm": 4.789522180281674,
+      "learning_rate": 8.792881220537752e-06,
+      "loss": 0.4436,
       "step": 490
     },
     {
+      "epoch": 0.9285051067780873,
+      "grad_norm": 2.96048981245909,
+      "learning_rate": 8.721509565987858e-06,
+      "loss": 0.4472,
       "step": 500
     },
     {
+      "epoch": 0.9285051067780873,
+      "eval_loss": 0.47707709670066833,
+      "eval_runtime": 19.4043,
+      "eval_samples_per_second": 18.14,
+      "eval_steps_per_second": 2.268,
       "step": 500
     },
     {
+      "epoch": 0.947075208913649,
+      "grad_norm": 3.043235000042675,
+      "learning_rate": 8.64839582897015e-06,
+      "loss": 0.4165,
       "step": 510
     },
     {
+      "epoch": 0.9656453110492108,
+      "grad_norm": 4.594551610015674,
+      "learning_rate": 8.573574234886217e-06,
+      "loss": 0.4319,
       "step": 520
     },
     {
+      "epoch": 0.9842154131847726,
+      "grad_norm": 3.3821933340348482,
+      "learning_rate": 8.497079808605659e-06,
+      "loss": 0.4254,
       "step": 530
     },
     {
+      "epoch": 1.0018570102135562,
+      "grad_norm": 6.485913778240125,
+      "learning_rate": 8.418948358070535e-06,
+      "loss": 0.4035,
       "step": 540
     },
     {
+      "epoch": 1.020427112349118,
+      "grad_norm": 3.6050686984381373,
+      "learning_rate": 8.339216457533244e-06,
+      "loss": 0.2753,
       "step": 550
     },
     {
+      "epoch": 1.020427112349118,
+      "eval_loss": 0.5026086568832397,
+      "eval_runtime": 19.4196,
+      "eval_samples_per_second": 18.126,
+      "eval_steps_per_second": 2.266,
       "step": 550
     },
     {
+      "epoch": 1.0389972144846797,
+      "grad_norm": 3.2597416531200416,
+      "learning_rate": 8.257921430435678e-06,
+      "loss": 0.2879,
       "step": 560
     },
     {
+      "epoch": 1.0575673166202415,
+      "grad_norm": 3.347364037440774,
+      "learning_rate": 8.175101331937692e-06,
+      "loss": 0.2567,
       "step": 570
     },
     {
+      "epoch": 1.076137418755803,
+      "grad_norm": 2.8678452979996316,
+      "learning_rate": 8.090794931103026e-06,
+      "loss": 0.2597,
       "step": 580
     },
     {
+      "epoch": 1.0947075208913648,
+      "grad_norm": 3.714937118745614,
+      "learning_rate": 8.005041692751055e-06,
+      "loss": 0.2831,
       "step": 590
     },
     {
+      "epoch": 1.1132776230269266,
+      "grad_norm": 4.1369787389179224,
+      "learning_rate": 7.917881758982838e-06,
+      "loss": 0.2877,
       "step": 600
     },
     {
+      "epoch": 1.1132776230269266,
+      "eval_loss": 0.4783521890640259,
+      "eval_runtime": 19.3969,
+      "eval_samples_per_second": 18.147,
+      "eval_steps_per_second": 2.268,
       "step": 600
     },
     {
+      "epoch": 1.1318477251624883,
+      "grad_norm": 3.8629861075408964,
+      "learning_rate": 7.829355930390126e-06,
+      "loss": 0.2965,
       "step": 610
     },
     {
+      "epoch": 1.15041782729805,
+      "grad_norm": 3.8801891490338334,
+      "learning_rate": 7.739505646956136e-06,
+      "loss": 0.2889,
       "step": 620
     },
     {
+      "epoch": 1.1689879294336118,
+      "grad_norm": 3.1120305459072584,
+      "learning_rate": 7.648372968656995e-06,
+      "loss": 0.2891,
       "step": 630
     },
     {
+      "epoch": 1.1875580315691736,
+      "grad_norm": 2.7200004915782636,
+      "learning_rate": 7.5560005557729664e-06,
+      "loss": 0.2774,
       "step": 640
     },
     {
+      "epoch": 1.2061281337047354,
+      "grad_norm": 3.7661310879129415,
+      "learning_rate": 7.462431648918689e-06,
+      "loss": 0.3038,
       "step": 650
     },
     {
+      "epoch": 1.2061281337047354,
+      "eval_loss": 0.4794943630695343,
+      "eval_runtime": 19.4005,
+      "eval_samples_per_second": 18.144,
+      "eval_steps_per_second": 2.268,
       "step": 650
     },
     {
+      "epoch": 1.2246982358402971,
+      "grad_norm": 3.4542640506421876,
+      "learning_rate": 7.367710048801715e-06,
+      "loss": 0.292,
       "step": 660
     },
     {
+      "epoch": 1.243268337975859,
+      "grad_norm": 2.949849968659152,
+      "learning_rate": 7.271880095718895e-06,
+      "loss": 0.2753,
       "step": 670
     },
     {
+      "epoch": 1.2618384401114207,
+      "grad_norm": 3.7882283436275834,
+      "learning_rate": 7.1749866488001604e-06,
+      "loss": 0.2802,
+      "step": 680
+    },
+    {
+      "epoch": 1.2804085422469824,
+      "grad_norm": 2.7991103167976403,
+      "learning_rate": 7.0770750650094335e-06,
+      "loss": 0.284,
+      "step": 690
+    },
+    {
+      "epoch": 1.2989786443825442,
+      "grad_norm": 3.1581810974702322,
+      "learning_rate": 6.978191177912499e-06,
+      "loss": 0.2944,
+      "step": 700
+    },
+    {
+      "epoch": 1.2989786443825442,
+      "eval_loss": 0.4681582748889923,
+      "eval_runtime": 19.4083,
+      "eval_samples_per_second": 18.137,
+      "eval_steps_per_second": 2.267,
+      "step": 700
+    },
+    {
+      "epoch": 1.317548746518106,
+      "grad_norm": 3.1190982947461943,
+      "learning_rate": 6.878381276221777e-06,
+      "loss": 0.2786,
+      "step": 710
+    },
+    {
+      "epoch": 1.3361188486536677,
+      "grad_norm": 3.3739780549267757,
+      "learning_rate": 6.777692082128024e-06,
+      "loss": 0.2748,
+      "step": 720
+    },
+    {
+      "epoch": 1.3546889507892295,
+      "grad_norm": 3.2357722923246315,
+      "learning_rate": 6.676170729429132e-06,
+      "loss": 0.2635,
+      "step": 730
+    },
+    {
+      "epoch": 1.3732590529247912,
+      "grad_norm": 3.603099890429247,
+      "learning_rate": 6.573864741466236e-06,
+      "loss": 0.2978,
+      "step": 740
+    },
+    {
+      "epoch": 1.3918291550603528,
+      "grad_norm": 3.3730203042394873,
+      "learning_rate": 6.470822008877482e-06,
+      "loss": 0.2722,
+      "step": 750
+    },
+    {
+      "epoch": 1.3918291550603528,
+      "eval_loss": 0.4681358337402344,
+      "eval_runtime": 19.3821,
+      "eval_samples_per_second": 18.161,
+      "eval_steps_per_second": 2.27,
+      "step": 750
+    },
+    {
+      "epoch": 1.4103992571959145,
+      "grad_norm": 3.608817378094592,
+      "learning_rate": 6.367090767179855e-06,
+      "loss": 0.2691,
+      "step": 760
+    },
+    {
+      "epoch": 1.4289693593314763,
+      "grad_norm": 4.122346770691036,
+      "learning_rate": 6.262719574189564e-06,
+      "loss": 0.2974,
+      "step": 770
+    },
+    {
+      "epoch": 1.447539461467038,
+      "grad_norm": 3.795562564382414,
+      "learning_rate": 6.157757287291557e-06,
+      "loss": 0.272,
+      "step": 780
+    },
+    {
+      "epoch": 1.4661095636025998,
+      "grad_norm": 3.4474808363843903,
+      "learning_rate": 6.052253040568804e-06,
+      "loss": 0.2924,
+      "step": 790
+    },
+    {
+      "epoch": 1.4846796657381616,
+      "grad_norm": 3.5395096255499885,
+      "learning_rate": 5.946256221802052e-06,
+      "loss": 0.2734,
+      "step": 800
+    },
+    {
+      "epoch": 1.4846796657381616,
+      "eval_loss": 0.4480016827583313,
+      "eval_runtime": 19.4053,
+      "eval_samples_per_second": 18.139,
+      "eval_steps_per_second": 2.267,
+      "step": 800
+    },
+    {
+      "epoch": 1.5032497678737233,
+      "grad_norm": 2.890746658579431,
+      "learning_rate": 5.839816449350824e-06,
+      "loss": 0.2277,
+      "step": 810
+    },
+    {
+      "epoch": 1.521819870009285,
+      "grad_norm": 3.8258223876451884,
+      "learning_rate": 5.7329835489264855e-06,
+      "loss": 0.296,
+      "step": 820
+    },
+    {
+      "epoch": 1.5403899721448466,
+      "grad_norm": 3.528517987679271,
+      "learning_rate": 5.62580753026823e-06,
+      "loss": 0.2521,
+      "step": 830
+    },
+    {
+      "epoch": 1.5589600742804084,
+      "grad_norm": 2.677594926231651,
+      "learning_rate": 5.518338563732945e-06,
+      "loss": 0.2523,
+      "step": 840
+    },
+    {
+      "epoch": 1.5775301764159702,
+      "grad_norm": 3.4048411120623876,
+      "learning_rate": 5.410626956809864e-06,
+      "loss": 0.2826,
+      "step": 850
+    },
+    {
+      "epoch": 1.5775301764159702,
+      "eval_loss": 0.44835272431373596,
+      "eval_runtime": 19.3933,
+      "eval_samples_per_second": 18.151,
+      "eval_steps_per_second": 2.269,
+      "step": 850
+    },
+    {
+      "epoch": 1.596100278551532,
+      "grad_norm": 2.8957625744349014,
+      "learning_rate": 5.30272313057105e-06,
+      "loss": 0.2436,
+      "step": 860
+    },
+    {
+      "epoch": 1.6146703806870937,
+      "grad_norm": 2.9749580565630933,
+      "learning_rate": 5.194677596068689e-06,
+      "loss": 0.2633,
+      "step": 870
+    },
+    {
+      "epoch": 1.6332404828226554,
+      "grad_norm": 3.485048080470531,
+      "learning_rate": 5.0865409306902755e-06,
+      "loss": 0.2525,
+      "step": 880
+    },
+    {
+      "epoch": 1.6518105849582172,
+      "grad_norm": 3.517296425834879,
+      "learning_rate": 4.978363754482741e-06,
+      "loss": 0.2776,
+      "step": 890
+    },
+    {
+      "epoch": 1.670380687093779,
+      "grad_norm": 2.773820634987393,
+      "learning_rate": 4.870196706456609e-06,
+      "loss": 0.2344,
+      "step": 900
+    },
+    {
+      "epoch": 1.670380687093779,
+      "eval_loss": 0.43884018063545227,
+      "eval_runtime": 19.3629,
+      "eval_samples_per_second": 18.179,
+      "eval_steps_per_second": 2.272,
+      "step": 900
+    },
+    {
+      "epoch": 1.6889507892293407,
+      "grad_norm": 4.004058405011273,
+      "learning_rate": 4.762090420881289e-06,
+      "loss": 0.247,
+      "step": 910
+    },
+    {
+      "epoch": 1.7075208913649025,
+      "grad_norm": 4.098064484974279,
+      "learning_rate": 4.654095503582568e-06,
+      "loss": 0.2864,
+      "step": 920
+    },
+    {
+      "epoch": 1.7260909935004642,
+      "grad_norm": 3.5973991483602945,
+      "learning_rate": 4.546262508253429e-06,
+      "loss": 0.248,
+      "step": 930
+    },
+    {
+      "epoch": 1.744661095636026,
+      "grad_norm": 4.143958197553495,
+      "learning_rate": 4.438641912789277e-06,
+      "loss": 0.265,
+      "step": 940
+    },
+    {
+      "epoch": 1.7632311977715878,
+      "grad_norm": 2.8268071610510126,
+      "learning_rate": 4.331284095658637e-06,
+      "loss": 0.2437,
+      "step": 950
+    },
+    {
+      "epoch": 1.7632311977715878,
+      "eval_loss": 0.42715513706207275,
+      "eval_runtime": 19.3915,
+      "eval_samples_per_second": 18.152,
+      "eval_steps_per_second": 2.269,
+      "step": 950
+    },
+    {
+      "epoch": 1.7818012999071495,
+      "grad_norm": 3.815603949375226,
+      "learning_rate": 4.224239312320399e-06,
+      "loss": 0.2493,
+      "step": 960
+    },
+    {
+      "epoch": 1.8003714020427113,
+      "grad_norm": 3.7789513906241248,
+      "learning_rate": 4.117557671698648e-06,
+      "loss": 0.2371,
+      "step": 970
+    },
+    {
+      "epoch": 1.818941504178273,
+      "grad_norm": 2.8941597604671903,
+      "learning_rate": 4.011289112726085e-06,
+      "loss": 0.2605,
+      "step": 980
+    },
+    {
+      "epoch": 1.8375116063138348,
+      "grad_norm": 3.5121780352826337,
+      "learning_rate": 3.905483380967027e-06,
+      "loss": 0.2457,
+      "step": 990
+    },
+    {
+      "epoch": 1.8560817084493966,
+      "grad_norm": 3.129527995601254,
+      "learning_rate": 3.800190005330918e-06,
+      "loss": 0.2113,
+      "step": 1000
+    },
+    {
+      "epoch": 1.8560817084493966,
+      "eval_loss": 0.4232879877090454,
+      "eval_runtime": 19.3985,
+      "eval_samples_per_second": 18.146,
+      "eval_steps_per_second": 2.268,
+      "step": 1000
+    },
+    {
+      "epoch": 1.8746518105849583,
+      "grad_norm": 3.7626616094158876,
+      "learning_rate": 3.695458274887268e-06,
+      "loss": 0.2709,
+      "step": 1010
+    },
+    {
+      "epoch": 1.89322191272052,
+      "grad_norm": 3.5799401116393743,
+      "learning_rate": 3.5913372157928515e-06,
+      "loss": 0.2678,
+      "step": 1020
+    },
+    {
+      "epoch": 1.9117920148560819,
+      "grad_norm": 3.304004098929529,
+      "learning_rate": 3.487875568341995e-06,
+      "loss": 0.2439,
+      "step": 1030
+    },
+    {
+      "epoch": 1.9303621169916436,
+      "grad_norm": 2.842908582122805,
+      "learning_rate": 3.3851217641506657e-06,
+      "loss": 0.2691,
+      "step": 1040
+    },
+    {
+      "epoch": 1.9489322191272052,
+      "grad_norm": 2.4953468111237402,
+      "learning_rate": 3.2831239034850593e-06,
+      "loss": 0.2548,
+      "step": 1050
+    },
+    {
+      "epoch": 1.9489322191272052,
+      "eval_loss": 0.4117203652858734,
+      "eval_runtime": 19.4229,
+      "eval_samples_per_second": 18.123,
+      "eval_steps_per_second": 2.265,
+      "step": 1050
+    },
+    {
+      "epoch": 1.967502321262767,
+      "grad_norm": 3.2206038323962836,
+      "learning_rate": 3.1819297327453045e-06,
+      "loss": 0.2381,
+      "step": 1060
+    },
+    {
+      "epoch": 1.9860724233983287,
+      "grad_norm": 3.5882038303694372,
+      "learning_rate": 3.081586622114809e-06,
+      "loss": 0.219,
+      "step": 1070
+    },
+    {
+      "epoch": 2.0037140204271124,
+      "grad_norm": 2.4519833657637693,
+      "learning_rate": 2.9821415433857174e-06,
+      "loss": 0.245,
+      "step": 1080
+    },
+    {
+      "epoch": 2.022284122562674,
+      "grad_norm": 2.5708061741401345,
+      "learning_rate": 2.8836410479708625e-06,
+      "loss": 0.1082,
+      "step": 1090
+    },
+    {
+      "epoch": 2.040854224698236,
+      "grad_norm": 2.758692661666751,
+      "learning_rate": 2.786131245112495e-06,
+      "loss": 0.1126,
+      "step": 1100
+    },
+    {
+      "epoch": 2.040854224698236,
+      "eval_loss": 0.5031464695930481,
+      "eval_runtime": 19.3667,
+      "eval_samples_per_second": 18.176,
+      "eval_steps_per_second": 2.272,
+      "step": 1100
+    },
+    {
+      "epoch": 2.0594243268337977,
+      "grad_norm": 2.9605517752760933,
+      "learning_rate": 2.689657780298019e-06,
+      "loss": 0.1195,
+      "step": 1110
+    },
+    {
+      "epoch": 2.0779944289693595,
+      "grad_norm": 2.55505057652882,
+      "learning_rate": 2.5942658138927866e-06,
+      "loss": 0.1006,
+      "step": 1120
+    },
+    {
+      "epoch": 2.0965645311049212,
+      "grad_norm": 3.246793514684397,
+      "learning_rate": 2.5000000000000015e-06,
+      "loss": 0.1069,
+      "step": 1130
+    },
+    {
+      "epoch": 2.115134633240483,
+      "grad_norm": 3.2377032295876105,
+      "learning_rate": 2.406904465557614e-06,
+      "loss": 0.0936,
+      "step": 1140
+    },
+    {
+      "epoch": 2.1337047353760448,
+      "grad_norm": 2.5395933544539218,
+      "learning_rate": 2.3150227896819782e-06,
+      "loss": 0.1128,
+      "step": 1150
+    },
+    {
+      "epoch": 2.1337047353760448,
+      "eval_loss": 0.48206087946891785,
+      "eval_runtime": 19.455,
+      "eval_samples_per_second": 18.093,
+      "eval_steps_per_second": 2.262,
+      "step": 1150
+    },
+    {
+      "epoch": 2.152274837511606,
+      "grad_norm": 2.5999204788587007,
+      "learning_rate": 2.2243979832679515e-06,
+      "loss": 0.1172,
+      "step": 1160
+    },
+    {
+      "epoch": 2.170844939647168,
+      "grad_norm": 2.9958486705632446,
+      "learning_rate": 2.1350724688549906e-06,
+      "loss": 0.1098,
+      "step": 1170
+    },
+    {
+      "epoch": 2.1894150417827296,
+      "grad_norm": 2.2061344645528633,
+      "learning_rate": 2.0470880607686605e-06,
+      "loss": 0.0953,
+      "step": 1180
+    },
+    {
+      "epoch": 2.2079851439182914,
+      "grad_norm": 1.406675633603301,
+      "learning_rate": 1.9604859455468587e-06,
+      "loss": 0.1081,
+      "step": 1190
+    },
+    {
+      "epoch": 2.226555246053853,
+      "grad_norm": 2.9325208784441203,
+      "learning_rate": 1.8753066626599086e-06,
+      "loss": 0.0993,
+      "step": 1200
+    },
+    {
+      "epoch": 2.226555246053853,
+      "eval_loss": 0.49974343180656433,
+      "eval_runtime": 19.4104,
+      "eval_samples_per_second": 18.135,
+      "eval_steps_per_second": 2.267,
+      "step": 1200
+    },
+    {
+      "epoch": 2.245125348189415,
+      "grad_norm": 3.1642149256556356,
+      "learning_rate": 1.7915900855335506e-06,
+      "loss": 0.1187,
+      "step": 1210
+    },
+    {
+      "epoch": 2.2636954503249767,
+      "grad_norm": 3.0092943445643003,
+      "learning_rate": 1.7093754028837345e-06,
+      "loss": 0.1,
+      "step": 1220
+    },
+    {
+      "epoch": 2.2822655524605384,
+      "grad_norm": 2.553339861021684,
+      "learning_rate": 1.6287011003719105e-06,
+      "loss": 0.1044,
+      "step": 1230
+    },
+    {
+      "epoch": 2.3008356545961,
+      "grad_norm": 2.021123673041649,
+      "learning_rate": 1.549604942589441e-06,
+      "loss": 0.1012,
+      "step": 1240
+    },
+    {
+      "epoch": 2.319405756731662,
+      "grad_norm": 2.1421187938993724,
+      "learning_rate": 1.4721239553795485e-06,
+      "loss": 0.0978,
+      "step": 1250
+    },
+    {
+      "epoch": 2.319405756731662,
+      "eval_loss": 0.4895870089530945,
+      "eval_runtime": 19.3723,
+      "eval_samples_per_second": 18.17,
+      "eval_steps_per_second": 2.271,
+      "step": 1250
+    },
+    {
+      "epoch": 2.3379758588672237,
+      "grad_norm": 3.298579283457447,
+      "learning_rate": 1.3962944085050833e-06,
+      "loss": 0.1094,
+      "step": 1260
+    },
+    {
+      "epoch": 2.3565459610027855,
+      "grad_norm": 3.3116222885011846,
+      "learning_rate": 1.3221517986702249e-06,
+      "loss": 0.1023,
+      "step": 1270
+    },
+    {
+      "epoch": 2.3751160631383472,
+      "grad_norm": 2.3986802183164824,
+      "learning_rate": 1.2497308329040475e-06,
+      "loss": 0.0953,
+      "step": 1280
+    },
+    {
+      "epoch": 2.393686165273909,
+      "grad_norm": 2.6963628811320035,
+      "learning_rate": 1.1790654123137552e-06,
+      "loss": 0.1014,
+      "step": 1290
+    },
+    {
+      "epoch": 2.4122562674094707,
+      "grad_norm": 3.541306025884895,
+      "learning_rate": 1.1101886162151764e-06,
+      "loss": 0.1056,
+      "step": 1300
+    },
+    {
+      "epoch": 2.4122562674094707,
+      "eval_loss": 0.4979850947856903,
+      "eval_runtime": 19.4616,
+      "eval_samples_per_second": 18.087,
+      "eval_steps_per_second": 2.261,
+      "step": 1300
+    },
+    {
+      "epoch": 2.4308263695450325,
+      "grad_norm": 1.8964890409301638,
+      "learning_rate": 1.0431326866479457e-06,
+      "loss": 0.0855,
+      "step": 1310
+    },
+    {
+      "epoch": 2.4493964716805943,
+      "grad_norm": 2.08584902180452,
+      "learning_rate": 9.779290132826224e-07,
+      "loss": 0.1018,
+      "step": 1320
+    },
+    {
+      "epoch": 2.467966573816156,
+      "grad_norm": 2.1509863412780357,
+      "learning_rate": 9.146081187268185e-07,
+      "loss": 0.1057,
+      "step": 1330
+    },
+    {
+      "epoch": 2.486536675951718,
+      "grad_norm": 2.337018038983776,
+      "learning_rate": 8.531996442372048e-07,
+      "loss": 0.0969,
+      "step": 1340
+    },
+    {
+      "epoch": 2.5051067780872796,
+      "grad_norm": 2.1781847876681604,
+      "learning_rate": 7.937323358440935e-07,
+      "loss": 0.0897,
+      "step": 1350
+    },
+    {
+      "epoch": 2.5051067780872796,
+      "eval_loss": 0.4882669448852539,
+      "eval_runtime": 19.5254,
+      "eval_samples_per_second": 18.028,
+      "eval_steps_per_second": 2.253,
+      "step": 1350
+    },
+    {
+      "epoch": 2.5236768802228413,
+      "grad_norm": 2.6685806136301684,
+      "learning_rate": 7.362340308950783e-07,
+      "loss": 0.0976,
+      "step": 1360
+    },
+    {
+      "epoch": 2.542246982358403,
+      "grad_norm": 2.6897365042467047,
+      "learning_rate": 6.807316450240425e-07,
+      "loss": 0.0957,
+      "step": 1370
+    },
+    {
+      "epoch": 2.560817084493965,
+      "grad_norm": 2.143646748023798,
+      "learning_rate": 6.2725115955164e-07,
+      "loss": 0.1087,
+      "step": 1380
+    },
+    {
+      "epoch": 2.5793871866295266,
+      "grad_norm": 3.3390598746500264,
+      "learning_rate": 5.758176093231294e-07,
+      "loss": 0.0952,
+      "step": 1390
+    },
+    {
+      "epoch": 2.5979572887650884,
+      "grad_norm": 3.150702584087223,
+      "learning_rate": 5.264550709892685e-07,
+      "loss": 0.0872,
+      "step": 1400
+    },
+    {
+      "epoch": 2.5979572887650884,
+      "eval_loss": 0.49406710267066956,
+      "eval_runtime": 19.3841,
+      "eval_samples_per_second": 18.159,
+      "eval_steps_per_second": 2.27,
+      "step": 1400
+    },
+    {
+      "epoch": 2.61652739090065,
+      "grad_norm": 3.077156808484069,
+      "learning_rate": 4.791866517357491e-07,
+      "loss": 0.1028,
+      "step": 1410
+    },
+    {
+      "epoch": 2.635097493036212,
+      "grad_norm": 2.2139585731845703,
+      "learning_rate": 4.3403447846645355e-07,
+      "loss": 0.0929,
+      "step": 1420
+    },
+    {
+      "epoch": 2.6536675951717736,
+      "grad_norm": 2.509450394120424,
+      "learning_rate": 3.910196874455896e-07,
+      "loss": 0.0956,
+      "step": 1430
+    },
+    {
+      "epoch": 2.6722376973073354,
+      "grad_norm": 4.615247501065769,
+      "learning_rate": 3.501624144035559e-07,
+      "loss": 0.1015,
+      "step": 1440
+    },
+    {
+      "epoch": 2.690807799442897,
+      "grad_norm": 3.284511844581789,
+      "learning_rate": 3.1148178511116624e-07,
+      "loss": 0.0916,
+      "step": 1450
+    },
+    {
+      "epoch": 2.690807799442897,
+      "eval_loss": 0.49390342831611633,
+      "eval_runtime": 19.3724,
+      "eval_samples_per_second": 18.17,
+      "eval_steps_per_second": 2.271,
+      "step": 1450
+    },
+    {
+      "epoch": 2.709377901578459,
+      "grad_norm": 2.9686013973926695,
+      "learning_rate": 2.7499590642665773e-07,
+      "loss": 0.101,
+      "step": 1460
+    },
+    {
+      "epoch": 2.7279480037140207,
+      "grad_norm": 2.6344171640489265,
+      "learning_rate": 2.407218578196524e-07,
+      "loss": 0.0899,
+      "step": 1470
+    },
+    {
+      "epoch": 2.7465181058495824,
+      "grad_norm": 6.728672130977422,
+      "learning_rate": 2.0867568337605616e-07,
+      "loss": 0.1063,
+      "step": 1480
+    },
+    {
+      "epoch": 2.7650882079851438,
+      "grad_norm": 1.8996993963458386,
+      "learning_rate": 1.7887238428763553e-07,
+      "loss": 0.086,
+      "step": 1490
+    },
+    {
+      "epoch": 2.7836583101207055,
+      "grad_norm": 2.3753024288893223,
+      "learning_rate": 1.5132591182978107e-07,
+      "loss": 0.0844,
+      "step": 1500
+    },
+    {
+      "epoch": 2.7836583101207055,
+      "eval_loss": 0.4944659173488617,
+      "eval_runtime": 19.3894,
+      "eval_samples_per_second": 18.154,
+      "eval_steps_per_second": 2.269,
+      "step": 1500
+    },
+    {
+      "epoch": 2.8022284122562673,
+      "grad_norm": 2.4868387472806917,
+      "learning_rate": 1.2604916083075236e-07,
+      "loss": 0.0936,
+      "step": 1510
+    },
+    {
+      "epoch": 2.820798514391829,
+      "grad_norm": 2.5429472050035447,
+      "learning_rate": 1.0305396363545717e-07,
+      "loss": 0.1114,
+      "step": 1520
+    },
+    {
+      "epoch": 2.839368616527391,
+      "grad_norm": 2.6782347948140037,
+      "learning_rate": 8.235108456658814e-08,
+      "loss": 0.0933,
+      "step": 1530
+    },
+    {
+      "epoch": 2.8579387186629526,
+      "grad_norm": 3.3595802114049533,
+      "learning_rate": 6.395021488572128e-08,
+      "loss": 0.1059,
+      "step": 1540
+    },
+    {
+      "epoch": 2.8765088207985143,
+      "grad_norm": 2.5500224216604344,
+      "learning_rate": 4.7859968256719344e-08,
+      "loss": 0.0959,
+      "step": 1550
+    },
+    {
+      "epoch": 2.8765088207985143,
+      "eval_loss": 0.4942573308944702,
+      "eval_runtime": 19.3998,
+      "eval_samples_per_second": 18.144,
+      "eval_steps_per_second": 2.268,
+      "step": 1550
+    },
+    {
+      "epoch": 2.895078922934076,
+      "grad_norm": 2.472877504615022,
+      "learning_rate": 3.408787671357494e-08,
+      "loss": 0.0945,
+      "step": 1560
+    },
+    {
+      "epoch": 2.913649025069638,
+      "grad_norm": 2.6027015654240286,
+      "learning_rate": 2.264038713457706e-08,
+      "loss": 0.088,
+      "step": 1570
+    },
+    {
+      "epoch": 2.9322191272051996,
+      "grad_norm": 2.9295049029652995,
+      "learning_rate": 1.3522858224450652e-08,
+      "loss": 0.0992,
+      "step": 1580
+    },
+    {
+      "epoch": 2.9507892293407614,
+      "grad_norm": 2.7591280720199776,
+      "learning_rate": 6.739558005884883e-09,
+      "loss": 0.0805,
+      "step": 1590
+    },
+    {
+      "epoch": 2.969359331476323,
+      "grad_norm": 2.9108217727851398,
+      "learning_rate": 2.2936618216201635e-09,
+      "loss": 0.094,
+      "step": 1600
+    },
+    {
+      "epoch": 2.969359331476323,
+      "eval_loss": 0.4940944015979767,
+      "eval_runtime": 19.4091,
+      "eval_samples_per_second": 18.136,
+      "eval_steps_per_second": 2.267,
+      "step": 1600
+    },
+    {
+      "epoch": 2.987929433611885,
+      "grad_norm": 3.2721186890864007,
+      "learning_rate": 1.872508480332824e-10,
+      "loss": 0.0803,
+      "step": 1610
+    },
+    {
+      "epoch": 2.9953574744661093,
+      "step": 1614,
+      "total_flos": 292826854195200.0,
+      "train_loss": 0.2790517607955389,
+      "train_runtime": 12257.2359,
+      "train_samples_per_second": 4.217,
+      "train_steps_per_second": 0.132
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1614,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 5000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 292826854195200.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed