Model save

Browse files

Files changed (6) hide show

README.md +24 -23
all_results.json +8 -8
eval_results.json +4 -4
runs/Nov18_06-38-13_7a59b30c842e/events.out.tfevents.1700291694.7a59b30c842e.64531.1 +3 -0
train_results.json +4 -4
trainer_state.json +288 -288

README.md CHANGED Viewed

@@ -1,5 +1,6 @@
 ---
-base_model: hllj/zephyr-7b-beta-vi-math
 tags:
 - generated_from_trainer
 model-index:
@@ -12,9 +13,9 @@ should probably proofread and complete it, then remove this comment. -->
 # sft-zephyr-7b-beta-v1
-This model is a fine-tuned version of [hllj/zephyr-7b-beta-vi-math](https://huggingface.co/hllj/zephyr-7b-beta-vi-math) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3935
 ## Model description
@@ -48,26 +49,26 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.6583        | 0.19  | 50   | 0.5998          |
-| 0.4808        | 0.37  | 100  | 0.4464          |
-| 0.4476        | 0.56  | 150  | 0.4201          |
-| 0.4158        | 0.74  | 200  | 0.4091          |
-| 0.4028        | 0.93  | 250  | 0.4018          |
-| 0.4074        | 1.12  | 300  | 0.3965          |
-| 0.388         | 1.3   | 350  | 0.3942          |
-| 0.3699        | 1.49  | 400  | 0.3921          |
-| 0.3699        | 1.67  | 450  | 0.3932          |
-| 0.336         | 1.86  | 500  | 0.3955          |
-| 0.3512        | 2.04  | 550  | 0.3911          |
-| 0.3413        | 2.23  | 600  | 0.3900          |
-| 0.3402        | 2.42  | 650  | 0.3932          |
-| 0.3255        | 2.6   | 700  | 0.3948          |
-| 0.3252        | 2.79  | 750  | 0.3930          |
-| 0.316         | 2.97  | 800  | 0.3946          |
-| 0.305         | 3.16  | 850  | 0.3931          |
-| 0.3248        | 3.35  | 900  | 0.3935          |
-| 0.3363        | 3.53  | 950  | 0.3934          |
-| 0.3032        | 3.72  | 1000 | 0.3935          |
 ### Framework versions

 ---
+license: mit
+base_model: HuggingFaceH4/zephyr-7b-beta
 tags:
 - generated_from_trainer
 model-index:
 # sft-zephyr-7b-beta-v1
+This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4927
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.0538        | 0.19  | 50   | 1.1364          |
+| 0.7744        | 0.37  | 100  | 0.7777          |
+| 0.5936        | 0.56  | 150  | 0.6507          |
+| 0.5449        | 0.74  | 200  | 0.6087          |
+| 0.501         | 0.93  | 250  | 0.5840          |
+| 0.5752        | 1.12  | 300  | 0.5552          |
+| 0.4542        | 1.3   | 350  | 0.5419          |
+| 0.5115        | 1.49  | 400  | 0.5243          |
+| 0.4224        | 1.67  | 450  | 0.5188          |
+| 0.4486        | 1.86  | 500  | 0.5055          |
+| 0.3865        | 2.04  | 550  | 0.5038          |
+| 0.4193        | 2.23  | 600  | 0.5048          |
+| 0.4294        | 2.42  | 650  | 0.4995          |
+| 0.4077        | 2.6   | 700  | 0.5014          |
+| 0.4667        | 2.79  | 750  | 0.4985          |
+| 0.4226        | 2.97  | 800  | 0.4937          |
+| 0.4195        | 3.16  | 850  | 0.4920          |
+| 0.338         | 3.35  | 900  | 0.4923          |
+| 0.3943        | 3.53  | 950  | 0.4926          |
+| 0.3953        | 3.72  | 1000 | 0.4927          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 3.72,
-    "eval_loss": 0.3934732675552368,
-    "eval_runtime": 10.335,
     "eval_samples": 120,
-    "eval_samples_per_second": 11.611,
-    "eval_steps_per_second": 2.903,
-    "train_loss": 0.3842643254995346,
-    "train_runtime": 3643.6441,
     "train_samples": 1076,
-    "train_samples_per_second": 1.098,
-    "train_steps_per_second": 0.274
 }

 {
     "epoch": 3.72,
+    "eval_loss": 0.4926711618900299,
+    "eval_runtime": 13.9963,
     "eval_samples": 120,
+    "eval_samples_per_second": 8.574,
+    "eval_steps_per_second": 2.143,
+    "train_loss": 0.509855135679245,
+    "train_runtime": 2165.2959,
     "train_samples": 1076,
+    "train_samples_per_second": 1.847,
+    "train_steps_per_second": 0.462
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.72,
-    "eval_loss": 0.3934732675552368,
-    "eval_runtime": 10.335,
     "eval_samples": 120,
-    "eval_samples_per_second": 11.611,
-    "eval_steps_per_second": 2.903
 }

 {
     "epoch": 3.72,
+    "eval_loss": 0.4926711618900299,
+    "eval_runtime": 13.9963,
     "eval_samples": 120,
+    "eval_samples_per_second": 8.574,
+    "eval_steps_per_second": 2.143
 }

runs/Nov18_06-38-13_7a59b30c842e/events.out.tfevents.1700291694.7a59b30c842e.64531.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0ef7657a7271fef814fe0325e4e921f63b674ca61359fb264fb380f2c2278e5a
+size 359

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.72,
-    "train_loss": 0.3842643254995346,
-    "train_runtime": 3643.6441,
     "train_samples": 1076,
-    "train_samples_per_second": 1.098,
-    "train_steps_per_second": 0.274
 }

 {
     "epoch": 3.72,
+    "train_loss": 0.509855135679245,
+    "train_runtime": 2165.2959,
     "train_samples": 1076,
+    "train_samples_per_second": 1.847,
+    "train_steps_per_second": 0.462
 }

trainer_state.json CHANGED Viewed

@@ -10,785 +10,785 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 6.000000000000001e-07,
-      "loss": 0.9756,
       "step": 1
     },
     {
       "epoch": 0.04,
-      "learning_rate": 6e-06,
-      "loss": 0.892,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "learning_rate": 1.2e-05,
-      "loss": 0.852,
       "step": 20
     },
     {
       "epoch": 0.11,
-      "learning_rate": 1.8e-05,
-      "loss": 0.8052,
       "step": 30
     },
     {
       "epoch": 0.15,
-      "learning_rate": 2.4e-05,
-      "loss": 0.762,
       "step": 40
     },
     {
       "epoch": 0.19,
-      "learning_rate": 3e-05,
-      "loss": 0.6583,
       "step": 50
     },
     {
       "epoch": 0.19,
-      "eval_loss": 0.5997987389564514,
-      "eval_runtime": 10.374,
-      "eval_samples_per_second": 11.567,
-      "eval_steps_per_second": 2.892,
       "step": 50
     },
     {
       "epoch": 0.22,
-      "learning_rate": 2.999179886011389e-05,
-      "loss": 0.5995,
       "step": 60
     },
     {
       "epoch": 0.26,
-      "learning_rate": 2.9967204408281618e-05,
-      "loss": 0.5319,
       "step": 70
     },
     {
       "epoch": 0.3,
-      "learning_rate": 2.9926243538175172e-05,
-      "loss": 0.4955,
       "step": 80
     },
     {
       "epoch": 0.33,
-      "learning_rate": 2.9868961039904628e-05,
-      "loss": 0.5063,
       "step": 90
     },
     {
       "epoch": 0.37,
-      "learning_rate": 2.9795419551040836e-05,
-      "loss": 0.4808,
       "step": 100
     },
     {
       "epoch": 0.37,
-      "eval_loss": 0.44642969965934753,
-      "eval_runtime": 10.3848,
-      "eval_samples_per_second": 11.555,
-      "eval_steps_per_second": 2.889,
       "step": 100
     },
     {
       "epoch": 0.41,
-      "learning_rate": 2.970569948812214e-05,
-      "loss": 0.4638,
       "step": 110
     },
     {
       "epoch": 0.45,
-      "learning_rate": 2.9599898958720088e-05,
-      "loss": 0.4424,
       "step": 120
     },
     {
       "epoch": 0.48,
-      "learning_rate": 2.947813365416023e-05,
-      "loss": 0.4506,
       "step": 130
     },
     {
       "epoch": 0.52,
-      "learning_rate": 2.9340536723015367e-05,
-      "loss": 0.4449,
       "step": 140
     },
     {
       "epoch": 0.56,
-      "learning_rate": 2.9187258625509518e-05,
-      "loss": 0.4476,
       "step": 150
     },
     {
       "epoch": 0.56,
-      "eval_loss": 0.4200552701950073,
-      "eval_runtime": 10.3829,
-      "eval_samples_per_second": 11.557,
-      "eval_steps_per_second": 2.889,
       "step": 150
     },
     {
       "epoch": 0.59,
-      "learning_rate": 2.9036039116586097e-05,
-      "loss": 0.4266,
       "step": 160
     },
     {
       "epoch": 0.63,
-      "learning_rate": 2.885344258594923e-05,
-      "loss": 0.4162,
       "step": 170
     },
     {
       "epoch": 0.67,
-      "learning_rate": 2.865569751923882e-05,
-      "loss": 0.4106,
       "step": 180
     },
     {
       "epoch": 0.71,
-      "learning_rate": 2.8443020147782055e-05,
-      "loss": 0.4255,
       "step": 190
     },
     {
       "epoch": 0.74,
-      "learning_rate": 2.821564303116212e-05,
-      "loss": 0.4158,
       "step": 200
     },
     {
       "epoch": 0.74,
-      "eval_loss": 0.4091338515281677,
-      "eval_runtime": 10.3877,
-      "eval_samples_per_second": 11.552,
-      "eval_steps_per_second": 2.888,
       "step": 200
     },
     {
       "epoch": 0.78,
-      "learning_rate": 2.797381480291773e-05,
-      "loss": 0.4362,
       "step": 210
     },
     {
       "epoch": 0.82,
-      "learning_rate": 2.7717799898665977e-05,
-      "loss": 0.4048,
       "step": 220
     },
     {
       "epoch": 0.86,
-      "learning_rate": 2.744787826694589e-05,
-      "loss": 0.4074,
       "step": 230
     },
     {
       "epoch": 0.89,
-      "learning_rate": 2.71643450630988e-05,
-      "loss": 0.4273,
       "step": 240
     },
     {
       "epoch": 0.93,
-      "learning_rate": 2.686751032652033e-05,
-      "loss": 0.4028,
       "step": 250
     },
     {
       "epoch": 0.93,
-      "eval_loss": 0.4017806947231293,
-      "eval_runtime": 10.3868,
-      "eval_samples_per_second": 11.553,
-      "eval_steps_per_second": 2.888,
       "step": 250
     },
     {
       "epoch": 0.97,
-      "learning_rate": 2.655769864163684e-05,
-      "loss": 0.409,
       "step": 260
     },
     {
       "epoch": 1.0,
-      "learning_rate": 2.623524878297714e-05,
-      "loss": 0.4021,
       "step": 270
     },
     {
       "epoch": 1.04,
-      "learning_rate": 2.590051334472751e-05,
-      "loss": 0.3942,
       "step": 280
     },
     {
       "epoch": 1.08,
-      "learning_rate": 2.5553858355175156e-05,
-      "loss": 0.3821,
       "step": 290
     },
     {
       "epoch": 1.12,
-      "learning_rate": 2.51956628764616e-05,
-      "loss": 0.4074,
       "step": 300
     },
     {
       "epoch": 1.12,
-      "eval_loss": 0.3964887857437134,
-      "eval_runtime": 10.3909,
-      "eval_samples_per_second": 11.549,
-      "eval_steps_per_second": 2.887,
       "step": 300
     },
     {
       "epoch": 1.15,
-      "learning_rate": 2.482631859008384e-05,
-      "loss": 0.3937,
       "step": 310
     },
     {
       "epoch": 1.19,
-      "learning_rate": 2.4446229368596388e-05,
-      "loss": 0.3503,
       "step": 320
     },
     {
       "epoch": 1.23,
-      "learning_rate": 2.4055810833982512e-05,
-      "loss": 0.3724,
       "step": 330
     },
     {
       "epoch": 1.26,
-      "learning_rate": 2.365548990317775e-05,
-      "loss": 0.3733,
       "step": 340
     },
     {
       "epoch": 1.3,
-      "learning_rate": 2.3245704321242494e-05,
-      "loss": 0.388,
       "step": 350
     },
     {
       "epoch": 1.3,
-      "eval_loss": 0.3942064344882965,
-      "eval_runtime": 10.3843,
-      "eval_samples_per_second": 11.556,
-      "eval_steps_per_second": 2.889,
       "step": 350
     },
     {
       "epoch": 1.34,
-      "learning_rate": 2.282690218269416e-05,
-      "loss": 0.3713,
       "step": 360
     },
     {
       "epoch": 1.38,
-      "learning_rate": 2.2442649405387632e-05,
-      "loss": 0.3792,
       "step": 370
     },
     {
       "epoch": 1.41,
-      "learning_rate": 2.2007985218000543e-05,
-      "loss": 0.3665,
       "step": 380
     },
     {
       "epoch": 1.45,
-      "learning_rate": 2.1565657901667777e-05,
-      "loss": 0.3529,
       "step": 390
     },
     {
       "epoch": 1.49,
-      "learning_rate": 2.1116151134815555e-05,
-      "loss": 0.3699,
       "step": 400
     },
     {
       "epoch": 1.49,
-      "eval_loss": 0.39205998182296753,
-      "eval_runtime": 10.3869,
-      "eval_samples_per_second": 11.553,
-      "eval_steps_per_second": 2.888,
       "step": 400
     },
     {
       "epoch": 1.52,
-      "learning_rate": 2.065995644649384e-05,
-      "loss": 0.3441,
       "step": 410
     },
     {
       "epoch": 1.56,
-      "learning_rate": 2.0197572678896522e-05,
-      "loss": 0.3399,
       "step": 420
     },
     {
       "epoch": 1.6,
-      "learning_rate": 1.9729505441884825e-05,
-      "loss": 0.3617,
       "step": 430
     },
     {
       "epoch": 1.64,
-      "learning_rate": 1.9256266560110322e-05,
-      "loss": 0.3596,
       "step": 440
     },
     {
       "epoch": 1.67,
-      "learning_rate": 1.8778373513342223e-05,
-      "loss": 0.3699,
       "step": 450
     },
     {
       "epoch": 1.67,
-      "eval_loss": 0.3931977450847626,
-      "eval_runtime": 10.3775,
-      "eval_samples_per_second": 11.564,
-      "eval_steps_per_second": 2.891,
       "step": 450
     },
     {
       "epoch": 1.71,
-      "learning_rate": 1.8296348870610798e-05,
-      "loss": 0.3654,
       "step": 460
     },
     {
       "epoch": 1.75,
-      "learning_rate": 1.781071971878587e-05,
-      "loss": 0.3588,
       "step": 470
     },
     {
       "epoch": 1.78,
-      "learning_rate": 1.7322017086215023e-05,
-      "loss": 0.352,
       "step": 480
     },
     {
       "epoch": 1.82,
-      "learning_rate": 1.6830775362051904e-05,
-      "loss": 0.3639,
       "step": 490
     },
     {
       "epoch": 1.86,
-      "learning_rate": 1.633753171190956e-05,
-      "loss": 0.336,
       "step": 500
     },
     {
       "epoch": 1.86,
-      "eval_loss": 0.3954925537109375,
-      "eval_runtime": 10.3812,
-      "eval_samples_per_second": 11.559,
-      "eval_steps_per_second": 2.89,
       "step": 500
     },
     {
       "epoch": 1.9,
-      "learning_rate": 1.5842825490477683e-05,
-      "loss": 0.3421,
       "step": 510
     },
     {
       "epoch": 1.93,
-      "learning_rate": 1.5347197651746207e-05,
-      "loss": 0.3421,
       "step": 520
     },
     {
       "epoch": 1.97,
-      "learning_rate": 1.4851190157480054e-05,
-      "loss": 0.3547,
       "step": 530
     },
     {
       "epoch": 2.01,
-      "learning_rate": 1.4355345384591894e-05,
-      "loss": 0.3355,
       "step": 540
     },
     {
       "epoch": 2.04,
-      "learning_rate": 1.3860205532060953e-05,
-      "loss": 0.3512,
       "step": 550
     },
     {
       "epoch": 2.04,
-      "eval_loss": 0.3910907804965973,
-      "eval_runtime": 10.3795,
-      "eval_samples_per_second": 11.561,
-      "eval_steps_per_second": 2.89,
       "step": 550
     },
     {
       "epoch": 2.08,
-      "learning_rate": 1.3366312028046412e-05,
-      "loss": 0.3426,
       "step": 560
     },
     {
       "epoch": 2.12,
-      "learning_rate": 1.2874204937843636e-05,
-      "loss": 0.3577,
       "step": 570
     },
     {
       "epoch": 2.16,
-      "learning_rate": 1.2384422373330728e-05,
-      "loss": 0.3308,
       "step": 580
     },
     {
       "epoch": 2.19,
-      "learning_rate": 1.189749990455105e-05,
-      "loss": 0.3464,
       "step": 590
     },
     {
       "epoch": 2.23,
-      "learning_rate": 1.1413969974075299e-05,
-      "loss": 0.3413,
       "step": 600
     },
     {
       "epoch": 2.23,
-      "eval_loss": 0.39001432061195374,
-      "eval_runtime": 10.3775,
-      "eval_samples_per_second": 11.563,
-      "eval_steps_per_second": 2.891,
       "step": 600
     },
     {
       "epoch": 2.27,
-      "learning_rate": 1.0934361314783339e-05,
-      "loss": 0.3535,
       "step": 610
     },
     {
       "epoch": 2.3,
-      "learning_rate": 1.0459198371702553e-05,
-      "loss": 0.3322,
       "step": 620
     },
     {
       "epoch": 2.34,
-      "learning_rate": 9.989000728534936e-06,
-      "loss": 0.347,
       "step": 630
     },
     {
       "epoch": 2.38,
-      "learning_rate": 9.524282539499916e-06,
-      "loss": 0.3088,
       "step": 640
     },
     {
       "epoch": 2.42,
-      "learning_rate": 9.06555196711428e-06,
-      "loss": 0.3402,
       "step": 650
     },
     {
       "epoch": 2.42,
-      "eval_loss": 0.39315077662467957,
-      "eval_runtime": 10.3839,
-      "eval_samples_per_second": 11.556,
-      "eval_steps_per_second": 2.889,
       "step": 650
     },
     {
       "epoch": 2.45,
-      "learning_rate": 8.61331062652391e-06,
-      "loss": 0.3123,
       "step": 660
     },
     {
       "epoch": 2.49,
-      "learning_rate": 8.168053036995011e-06,
-      "loss": 0.322,
       "step": 670
     },
     {
       "epoch": 2.53,
-      "learning_rate": 7.73026608116453e-06,
-      "loss": 0.3335,
       "step": 680
     },
     {
       "epoch": 2.57,
-      "learning_rate": 7.3004284726411315e-06,
-      "loss": 0.318,
       "step": 690
     },
     {
       "epoch": 2.6,
-      "learning_rate": 6.87901023253893e-06,
-      "loss": 0.3255,
       "step": 700
     },
     {
       "epoch": 2.6,
-      "eval_loss": 0.3948245942592621,
-      "eval_runtime": 10.39,
-      "eval_samples_per_second": 11.55,
-      "eval_steps_per_second": 2.887,
       "step": 700
     },
     {
       "epoch": 2.64,
-      "learning_rate": 6.466472175516284e-06,
-      "loss": 0.3275,
       "step": 710
     },
     {
       "epoch": 2.68,
-      "learning_rate": 6.06326540588171e-06,
-      "loss": 0.3226,
       "step": 720
     },
     {
       "epoch": 2.71,
-      "learning_rate": 5.669830824317992e-06,
-      "loss": 0.3154,
       "step": 730
     },
     {
       "epoch": 2.75,
-      "learning_rate": 5.286598645763718e-06,
-      "loss": 0.3194,
       "step": 740
     },
     {
       "epoch": 2.79,
-      "learning_rate": 4.91398792897958e-06,
-      "loss": 0.3252,
       "step": 750
     },
     {
       "epoch": 2.79,
-      "eval_loss": 0.39301279187202454,
-      "eval_runtime": 10.3855,
-      "eval_samples_per_second": 11.555,
-      "eval_steps_per_second": 2.889,
       "step": 750
     },
     {
       "epoch": 2.83,
-      "learning_rate": 4.552406118313767e-06,
-      "loss": 0.3198,
       "step": 760
     },
     {
       "epoch": 2.86,
-      "learning_rate": 4.202248598167549e-06,
-      "loss": 0.3136,
       "step": 770
     },
     {
       "epoch": 2.9,
-      "learning_rate": 3.8638982606482525e-06,
-      "loss": 0.3179,
       "step": 780
     },
     {
       "epoch": 2.94,
-      "learning_rate": 3.537725086882333e-06,
-      "loss": 0.3196,
       "step": 790
     },
     {
       "epoch": 2.97,
-      "learning_rate": 3.224085742446484e-06,
-      "loss": 0.316,
       "step": 800
     },
     {
       "epoch": 2.97,
-      "eval_loss": 0.3946268558502197,
-      "eval_runtime": 10.3837,
-      "eval_samples_per_second": 11.557,
-      "eval_steps_per_second": 2.889,
       "step": 800
     },
     {
       "epoch": 3.01,
-      "learning_rate": 2.9233231873590445e-06,
-      "loss": 0.3046,
       "step": 810
     },
     {
       "epoch": 3.05,
-      "learning_rate": 2.635766301058241e-06,
-      "loss": 0.3013,
       "step": 820
     },
     {
       "epoch": 3.09,
-      "learning_rate": 2.3617295227773805e-06,
-      "loss": 0.3181,
       "step": 830
     },
     {
       "epoch": 3.12,
-      "learning_rate": 2.101512507710146e-06,
-      "loss": 0.326,
       "step": 840
     },
     {
       "epoch": 3.16,
-      "learning_rate": 1.8553997993420495e-06,
-      "loss": 0.305,
       "step": 850
     },
     {
       "epoch": 3.16,
-      "eval_loss": 0.3930993974208832,
-      "eval_runtime": 10.3853,
-      "eval_samples_per_second": 11.555,
-      "eval_steps_per_second": 2.889,
       "step": 850
     },
     {
       "epoch": 3.2,
-      "learning_rate": 1.623660518306293e-06,
-      "loss": 0.2808,
       "step": 860
     },
     {
       "epoch": 3.23,
-      "learning_rate": 1.4065480681043319e-06,
-      "loss": 0.3079,
       "step": 870
     },
     {
       "epoch": 3.27,
-      "learning_rate": 1.2042998580128488e-06,
-      "loss": 0.3259,
       "step": 880
     },
     {
       "epoch": 3.31,
-      "learning_rate": 1.0171370434802018e-06,
-      "loss": 0.3016,
       "step": 890
     },
     {
       "epoch": 3.35,
-      "learning_rate": 8.452642842961845e-07,
-      "loss": 0.3248,
       "step": 900
     },
     {
       "epoch": 3.35,
-      "eval_loss": 0.393511027097702,
-      "eval_runtime": 10.3784,
-      "eval_samples_per_second": 11.562,
-      "eval_steps_per_second": 2.891,
       "step": 900
     },
     {
       "epoch": 3.38,
-      "learning_rate": 6.888695207995532e-07,
-      "loss": 0.3202,
       "step": 910
     },
     {
       "epoch": 3.42,
-      "learning_rate": 5.481237683680291e-07,
-      "loss": 0.3202,
       "step": 920
     },
     {
       "epoch": 3.46,
-      "learning_rate": 4.231809304154849e-07,
-      "loss": 0.2963,
       "step": 930
     },
     {
       "epoch": 3.49,
-      "learning_rate": 3.1417763010083033e-07,
-      "loss": 0.298,
       "step": 940
     },
     {
       "epoch": 3.53,
-      "learning_rate": 2.2123306093259022e-07,
-      "loss": 0.3363,
       "step": 950
     },
     {
       "epoch": 3.53,
-      "eval_loss": 0.3934156000614166,
-      "eval_runtime": 10.3847,
-      "eval_samples_per_second": 11.556,
-      "eval_steps_per_second": 2.889,
       "step": 950
     },
     {
       "epoch": 3.57,
-      "learning_rate": 1.4444885643255136e-07,
-      "loss": 0.3097,
       "step": 960
     },
     {
       "epoch": 3.61,
-      "learning_rate": 8.390897900099781e-08,
-      "loss": 0.2979,
       "step": 970
     },
     {
       "epoch": 3.64,
-      "learning_rate": 3.9679628105067643e-08,
-      "loss": 0.305,
       "step": 980
     },
     {
       "epoch": 3.68,
-      "learning_rate": 1.1809167890592388e-08,
-      "loss": 0.3314,
       "step": 990
     },
     {
       "epoch": 3.72,
-      "learning_rate": 3.280742966310646e-10,
-      "loss": 0.3032,
       "step": 1000
     },
     {
       "epoch": 3.72,
-      "eval_loss": 0.39346638321876526,
-      "eval_runtime": 10.3788,
-      "eval_samples_per_second": 11.562,
-      "eval_steps_per_second": 2.891,
       "step": 1000
     },
     {
       "epoch": 3.72,
       "step": 1000,
-      "total_flos": 1.7609161899297997e+17,
-      "train_loss": 0.3842643254995346,
-      "train_runtime": 3643.6441,
-      "train_samples_per_second": 1.098,
-      "train_steps_per_second": 0.274
     }
   ],
   "logging_steps": 10,
   "max_steps": 1000,
   "num_train_epochs": 4,
   "save_steps": 500,
-  "total_flos": 1.7609161899297997e+17,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 0.0,
+      "loss": 1.3449,
       "step": 1
     },
     {
       "epoch": 0.04,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 1.2712,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 1.1556,
       "step": 20
     },
     {
       "epoch": 0.11,
+      "learning_rate": 1.56e-05,
+      "loss": 1.0713,
       "step": 30
     },
     {
       "epoch": 0.15,
+      "learning_rate": 2.16e-05,
+      "loss": 0.9959,
       "step": 40
     },
     {
       "epoch": 0.19,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.0538,
       "step": 50
     },
     {
       "epoch": 0.19,
+      "eval_loss": 1.1364344358444214,
+      "eval_runtime": 14.0151,
+      "eval_samples_per_second": 8.562,
+      "eval_steps_per_second": 2.141,
       "step": 50
     },
     {
       "epoch": 0.22,
+      "learning_rate": 2.9997949574887035e-05,
+      "loss": 0.7802,
       "step": 60
     },
     {
       "epoch": 0.26,
+      "learning_rate": 2.9981549537224573e-05,
+      "loss": 0.7425,
       "step": 70
     },
     {
       "epoch": 0.3,
+      "learning_rate": 2.994876739510005e-05,
+      "loss": 0.8096,
       "step": 80
     },
     {
       "epoch": 0.33,
+      "learning_rate": 2.9899638995304575e-05,
+      "loss": 0.71,
       "step": 90
     },
     {
       "epoch": 0.37,
+      "learning_rate": 2.9834218059022027e-05,
+      "loss": 0.7744,
       "step": 100
     },
     {
       "epoch": 0.37,
+      "eval_loss": 0.7776542901992798,
+      "eval_runtime": 14.0597,
+      "eval_samples_per_second": 8.535,
+      "eval_steps_per_second": 2.134,
       "step": 100
     },
     {
       "epoch": 0.41,
+      "learning_rate": 2.9752576123085737e-05,
+      "loss": 0.6735,
       "step": 110
     },
     {
       "epoch": 0.45,
+      "learning_rate": 2.9654802461753992e-05,
+      "loss": 0.6107,
       "step": 120
     },
     {
       "epoch": 0.48,
+      "learning_rate": 2.9541003989089956e-05,
+      "loss": 0.6387,
       "step": 130
     },
     {
       "epoch": 0.52,
+      "learning_rate": 2.9411305142052725e-05,
+      "loss": 0.5779,
       "step": 140
     },
     {
       "epoch": 0.56,
+      "learning_rate": 2.9265847744427305e-05,
+      "loss": 0.5936,
       "step": 150
     },
     {
       "epoch": 0.56,
+      "eval_loss": 0.6507006287574768,
+      "eval_runtime": 14.0635,
+      "eval_samples_per_second": 8.533,
+      "eval_steps_per_second": 2.133,
       "step": 150
     },
     {
       "epoch": 0.59,
+      "learning_rate": 2.910479085174242e-05,
+      "loss": 0.5965,
       "step": 160
     },
     {
       "epoch": 0.63,
+      "learning_rate": 2.8928310577345608e-05,
+      "loss": 0.5969,
       "step": 170
     },
     {
       "epoch": 0.67,
+      "learning_rate": 2.873659989982586e-05,
+      "loss": 0.5735,
       "step": 180
     },
     {
       "epoch": 0.71,
+      "learning_rate": 2.8529868451994387e-05,
+      "loss": 0.5535,
       "step": 190
     },
     {
       "epoch": 0.74,
+      "learning_rate": 2.830834229165418e-05,
+      "loss": 0.5449,
       "step": 200
     },
     {
       "epoch": 0.74,
+      "eval_loss": 0.608721137046814,
+      "eval_runtime": 14.0592,
+      "eval_samples_per_second": 8.535,
+      "eval_steps_per_second": 2.134,
       "step": 200
     },
     {
       "epoch": 0.78,
+      "learning_rate": 2.807226365440916e-05,
+      "loss": 0.5445,
       "step": 210
     },
     {
       "epoch": 0.82,
+      "learning_rate": 2.7821890688783088e-05,
+      "loss": 0.6112,
       "step": 220
     },
     {
       "epoch": 0.86,
+      "learning_rate": 2.7557497173937928e-05,
+      "loss": 0.5294,
       "step": 230
     },
     {
       "epoch": 0.89,
+      "learning_rate": 2.727937222030039e-05,
+      "loss": 0.4957,
       "step": 240
     },
     {
       "epoch": 0.93,
+      "learning_rate": 2.698781995342387e-05,
+      "loss": 0.501,
       "step": 250
     },
     {
       "epoch": 0.93,
+      "eval_loss": 0.5840339660644531,
+      "eval_runtime": 14.0673,
+      "eval_samples_per_second": 8.53,
+      "eval_steps_per_second": 2.133,
       "step": 250
     },
     {
       "epoch": 0.97,
+      "learning_rate": 2.668315918143169e-05,
+      "loss": 0.5568,
       "step": 260
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.6365723046405022e-05,
+      "loss": 0.5425,
       "step": 270
     },
     {
       "epoch": 1.04,
+      "learning_rate": 2.6035858660096975e-05,
+      "loss": 0.5089,
       "step": 280
     },
     {
       "epoch": 1.08,
+      "learning_rate": 2.5693926724370958e-05,
+      "loss": 0.5014,
       "step": 290
     },
     {
       "epoch": 1.12,
+      "learning_rate": 2.534030113677849e-05,
+      "loss": 0.5752,
       "step": 300
     },
     {
       "epoch": 1.12,
+      "eval_loss": 0.555169939994812,
+      "eval_runtime": 14.0736,
+      "eval_samples_per_second": 8.527,
+      "eval_steps_per_second": 2.132,
       "step": 300
     },
     {
       "epoch": 1.15,
+      "learning_rate": 2.4975368581707724e-05,
+      "loss": 0.4937,
       "step": 310
     },
     {
       "epoch": 1.19,
+      "learning_rate": 2.459952810754975e-05,
+      "loss": 0.446,
       "step": 320
     },
     {
       "epoch": 1.23,
+      "learning_rate": 2.4213190690345018e-05,
+      "loss": 0.4632,
       "step": 330
     },
     {
       "epoch": 1.26,
+      "learning_rate": 2.3816778784387097e-05,
+      "loss": 0.4789,
       "step": 340
     },
     {
       "epoch": 1.3,
+      "learning_rate": 2.3410725860275092e-05,
+      "loss": 0.4542,
       "step": 350
     },
     {
       "epoch": 1.3,
+      "eval_loss": 0.5419090390205383,
+      "eval_runtime": 14.073,
+      "eval_samples_per_second": 8.527,
+      "eval_steps_per_second": 2.132,
       "step": 350
     },
     {
       "epoch": 1.34,
+      "learning_rate": 2.2995475930919907e-05,
+      "loss": 0.4636,
       "step": 360
     },
     {
       "epoch": 1.38,
+      "learning_rate": 2.257148306602266e-05,
+      "loss": 0.5061,
       "step": 370
     },
     {
       "epoch": 1.41,
+      "learning_rate": 2.2139210895556104e-05,
+      "loss": 0.4431,
       "step": 380
     },
     {
       "epoch": 1.45,
+      "learning_rate": 2.16991321027921e-05,
+      "loss": 0.4565,
       "step": 390
     },
     {
       "epoch": 1.49,
+      "learning_rate": 2.1251727907429357e-05,
+      "loss": 0.5115,
       "step": 400
     },
     {
       "epoch": 1.49,
+      "eval_loss": 0.5242533087730408,
+      "eval_runtime": 14.071,
+      "eval_samples_per_second": 8.528,
+      "eval_steps_per_second": 2.132,
       "step": 400
     },
     {
       "epoch": 1.52,
+      "learning_rate": 2.0797487539386782e-05,
+      "loss": 0.4748,
       "step": 410
     },
     {
       "epoch": 1.56,
+      "learning_rate": 2.033690770383775e-05,
+      "loss": 0.4308,
       "step": 420
     },
     {
       "epoch": 1.6,
+      "learning_rate": 1.9870492038070255e-05,
+      "loss": 0.4808,
       "step": 430
     },
     {
       "epoch": 1.64,
+      "learning_rate": 1.9398750560766973e-05,
+      "loss": 0.5061,
       "step": 440
     },
     {
       "epoch": 1.67,
+      "learning_rate": 1.8922199114307297e-05,
+      "loss": 0.4224,
       "step": 450
     },
     {
       "epoch": 1.67,
+      "eval_loss": 0.518813967704773,
+      "eval_runtime": 14.0743,
+      "eval_samples_per_second": 8.526,
+      "eval_steps_per_second": 2.132,
       "step": 450
     },
     {
       "epoch": 1.71,
+      "learning_rate": 1.8441358800701276e-05,
+      "loss": 0.4525,
       "step": 460
     },
     {
       "epoch": 1.75,
+      "learning_rate": 1.7956755411772203e-05,
+      "loss": 0.4854,
       "step": 470
     },
     {
       "epoch": 1.78,
+      "learning_rate": 1.746891885421101e-05,
+      "loss": 0.4529,
       "step": 480
     },
     {
       "epoch": 1.82,
+      "learning_rate": 1.6978382570131037e-05,
+      "loss": 0.4786,
       "step": 490
     },
     {
       "epoch": 1.86,
+      "learning_rate": 1.6485682953756945e-05,
+      "loss": 0.4486,
       "step": 500
     },
     {
       "epoch": 1.86,
+      "eval_loss": 0.5055068731307983,
+      "eval_runtime": 14.0709,
+      "eval_samples_per_second": 8.528,
+      "eval_steps_per_second": 2.132,
       "step": 500
     },
     {
       "epoch": 1.9,
+      "learning_rate": 1.5991358764885492e-05,
+      "loss": 0.4303,
       "step": 510
     },
     {
       "epoch": 1.93,
+      "learning_rate": 1.549595053975962e-05,
+      "loss": 0.4589,
       "step": 520
     },
     {
       "epoch": 1.97,
+      "learning_rate": 1.5e-05,
+      "loss": 0.4715,
       "step": 530
     },
     {
       "epoch": 2.01,
+      "learning_rate": 1.4504049460240376e-05,
+      "loss": 0.4354,
       "step": 540
     },
     {
       "epoch": 2.04,
+      "learning_rate": 1.400864123511451e-05,
+      "loss": 0.3865,
       "step": 550
     },
     {
       "epoch": 2.04,
+      "eval_loss": 0.5038172006607056,
+      "eval_runtime": 14.0798,
+      "eval_samples_per_second": 8.523,
+      "eval_steps_per_second": 2.131,
       "step": 550
     },
     {
       "epoch": 2.08,
+      "learning_rate": 1.351431704624306e-05,
+      "loss": 0.4119,
       "step": 560
     },
     {
       "epoch": 2.12,
+      "learning_rate": 1.3021617429868966e-05,
+      "loss": 0.4405,
       "step": 570
     },
     {
       "epoch": 2.16,
+      "learning_rate": 1.2531081145788989e-05,
+      "loss": 0.4435,
       "step": 580
     },
     {
       "epoch": 2.19,
+      "learning_rate": 1.2043244588227797e-05,
+      "loss": 0.4083,
       "step": 590
     },
     {
       "epoch": 2.23,
+      "learning_rate": 1.1558641199298728e-05,
+      "loss": 0.4193,
       "step": 600
     },
     {
       "epoch": 2.23,
+      "eval_loss": 0.5048139691352844,
+      "eval_runtime": 14.07,
+      "eval_samples_per_second": 8.529,
+      "eval_steps_per_second": 2.132,
       "step": 600
     },
     {
       "epoch": 2.27,
+      "learning_rate": 1.1077800885692704e-05,
+      "loss": 0.4138,
       "step": 610
     },
     {
       "epoch": 2.3,
+      "learning_rate": 1.0601249439233031e-05,
+      "loss": 0.4357,
       "step": 620
     },
     {
       "epoch": 2.34,
+      "learning_rate": 1.0129507961929749e-05,
+      "loss": 0.475,
       "step": 630
     },
     {
       "epoch": 2.38,
+      "learning_rate": 9.663092296162252e-06,
+      "loss": 0.4294,
       "step": 640
     },
     {
       "epoch": 2.42,
+      "learning_rate": 9.20251246061322e-06,
+      "loss": 0.4294,
       "step": 650
     },
     {
       "epoch": 2.42,
+      "eval_loss": 0.49953868985176086,
+      "eval_runtime": 14.0784,
+      "eval_samples_per_second": 8.524,
+      "eval_steps_per_second": 2.131,
       "step": 650
     },
     {
       "epoch": 2.45,
+      "learning_rate": 8.748272092570648e-06,
+      "loss": 0.4213,
       "step": 660
     },
     {
       "epoch": 2.49,
+      "learning_rate": 8.300867897207903e-06,
+      "loss": 0.4353,
       "step": 670
     },
     {
       "epoch": 2.53,
+      "learning_rate": 7.860789104443897e-06,
+      "loss": 0.413,
       "step": 680
     },
     {
       "epoch": 2.57,
+      "learning_rate": 7.4285169339773486e-06,
+      "loss": 0.4153,
       "step": 690
     },
     {
       "epoch": 2.6,
+      "learning_rate": 7.0045240690800975e-06,
+      "loss": 0.4077,
       "step": 700
     },
     {
       "epoch": 2.6,
+      "eval_loss": 0.5014118552207947,
+      "eval_runtime": 14.0698,
+      "eval_samples_per_second": 8.529,
+      "eval_steps_per_second": 2.132,
       "step": 700
     },
     {
       "epoch": 2.64,
+      "learning_rate": 6.589274139724911e-06,
+      "loss": 0.4025,
       "step": 710
     },
     {
       "epoch": 2.68,
+      "learning_rate": 6.1832212156129045e-06,
+      "loss": 0.4911,
       "step": 720
     },
     {
       "epoch": 2.71,
+      "learning_rate": 5.786809309654983e-06,
+      "loss": 0.4088,
       "step": 730
     },
     {
       "epoch": 2.75,
+      "learning_rate": 5.400471892450251e-06,
+      "loss": 0.4276,
       "step": 740
     },
     {
       "epoch": 2.79,
+      "learning_rate": 5.024631418292275e-06,
+      "loss": 0.4667,
       "step": 750
     },
     {
       "epoch": 2.79,
+      "eval_loss": 0.49848347902297974,
+      "eval_runtime": 14.0784,
+      "eval_samples_per_second": 8.524,
+      "eval_steps_per_second": 2.131,
       "step": 750
     },
     {
       "epoch": 2.83,
+      "learning_rate": 4.659698863221513e-06,
+      "loss": 0.4215,
       "step": 760
     },
     {
       "epoch": 2.86,
+      "learning_rate": 4.306073275629045e-06,
+      "loss": 0.4274,
       "step": 770
     },
     {
       "epoch": 2.9,
+      "learning_rate": 3.964141339903026e-06,
+      "loss": 0.3821,
       "step": 780
     },
     {
       "epoch": 2.94,
+      "learning_rate": 3.634276953594982e-06,
+      "loss": 0.4385,
       "step": 790
     },
     {
       "epoch": 2.97,
+      "learning_rate": 3.3168408185683153e-06,
+      "loss": 0.4226,
       "step": 800
     },
     {
       "epoch": 2.97,
+      "eval_loss": 0.4937375485897064,
+      "eval_runtime": 14.0647,
+      "eval_samples_per_second": 8.532,
+      "eval_steps_per_second": 2.133,
       "step": 800
     },
     {
       "epoch": 3.01,
+      "learning_rate": 3.0121800465761298e-06,
+      "loss": 0.4213,
       "step": 810
     },
     {
       "epoch": 3.05,
+      "learning_rate": 2.720627779699615e-06,
+      "loss": 0.4184,
       "step": 820
     },
     {
       "epoch": 3.09,
+      "learning_rate": 2.442502826062072e-06,
+      "loss": 0.4083,
       "step": 830
     },
     {
       "epoch": 3.12,
+      "learning_rate": 2.1781093112169132e-06,
+      "loss": 0.4407,
       "step": 840
     },
     {
       "epoch": 3.16,
+      "learning_rate": 1.927736345590839e-06,
+      "loss": 0.4195,
       "step": 850
     },
     {
       "epoch": 3.16,
+      "eval_loss": 0.49196699261665344,
+      "eval_runtime": 14.0663,
+      "eval_samples_per_second": 8.531,
+      "eval_steps_per_second": 2.133,
       "step": 850
     },
     {
       "epoch": 3.2,
+      "learning_rate": 1.691657708345823e-06,
+      "loss": 0.3772,
       "step": 860
     },
     {
       "epoch": 3.23,
+      "learning_rate": 1.4701315480056165e-06,
+      "loss": 0.4214,
       "step": 870
     },
     {
       "epoch": 3.27,
+      "learning_rate": 1.2634001001741375e-06,
+      "loss": 0.4077,
       "step": 880
     },
     {
       "epoch": 3.31,
+      "learning_rate": 1.0716894226543954e-06,
+      "loss": 0.373,
       "step": 890
     },
     {
       "epoch": 3.35,
+      "learning_rate": 8.952091482575825e-07,
+      "loss": 0.338,
       "step": 900
     },
     {
       "epoch": 3.35,
+      "eval_loss": 0.4922858476638794,
+      "eval_runtime": 14.0689,
+      "eval_samples_per_second": 8.529,
+      "eval_steps_per_second": 2.132,
       "step": 900
     },
     {
       "epoch": 3.38,
+      "learning_rate": 7.341522555726971e-07,
+      "loss": 0.4324,
       "step": 910
     },
     {
       "epoch": 3.42,
+      "learning_rate": 5.886948579472779e-07,
+      "loss": 0.4012,
       "step": 920
     },
     {
       "epoch": 3.46,
+      "learning_rate": 4.589960109100444e-07,
+      "loss": 0.4066,
       "step": 930
     },
     {
       "epoch": 3.49,
+      "learning_rate": 3.45197538246011e-07,
+      "loss": 0.3547,
       "step": 940
     },
     {
       "epoch": 3.53,
+      "learning_rate": 2.474238769142645e-07,
+      "loss": 0.3943,
       "step": 950
     },
     {
       "epoch": 3.53,
+      "eval_loss": 0.4926001727581024,
+      "eval_runtime": 14.07,
+      "eval_samples_per_second": 8.529,
+      "eval_steps_per_second": 2.132,
       "step": 950
     },
     {
       "epoch": 3.57,
+      "learning_rate": 1.657819409779726e-07,
+      "loss": 0.4137,
       "step": 960
     },
     {
       "epoch": 3.61,
+      "learning_rate": 1.0036100469542786e-07,
+      "loss": 0.4237,
       "step": 970
     },
     {
       "epoch": 3.64,
+      "learning_rate": 5.1232604899952296e-08,
+      "loss": 0.3914,
       "step": 980
     },
     {
       "epoch": 3.68,
+      "learning_rate": 1.8450462775428946e-08,
+      "loss": 0.4274,
       "step": 990
     },
     {
       "epoch": 3.72,
+      "learning_rate": 2.0504251129649378e-09,
+      "loss": 0.3953,
       "step": 1000
     },
     {
       "epoch": 3.72,
+      "eval_loss": 0.4926711618900299,
+      "eval_runtime": 14.0668,
+      "eval_samples_per_second": 8.531,
+      "eval_steps_per_second": 2.133,
       "step": 1000
     },
     {
       "epoch": 3.72,
       "step": 1000,
+      "total_flos": 1.0108845062671565e+17,
+      "train_loss": 0.509855135679245,
+      "train_runtime": 2165.2959,
+      "train_samples_per_second": 1.847,
+      "train_steps_per_second": 0.462
     }
   ],
   "logging_steps": 10,
   "max_steps": 1000,
   "num_train_epochs": 4,
   "save_steps": 500,
+  "total_flos": 1.0108845062671565e+17,
   "trial_name": null,
   "trial_params": null
 }