{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 0,
  "global_step": 504,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.001984126984126984,
      "grad_norm": 0.412109375,
      "learning_rate": 9.980158730158731e-06,
      "loss": 1.679,
      "step": 1
    },
    {
      "epoch": 0.003968253968253968,
      "grad_norm": 0.40625,
      "learning_rate": 9.960317460317462e-06,
      "loss": 1.7696,
      "step": 2
    },
    {
      "epoch": 0.005952380952380952,
      "grad_norm": 0.3828125,
      "learning_rate": 9.940476190476192e-06,
      "loss": 1.7656,
      "step": 3
    },
    {
      "epoch": 0.007936507936507936,
      "grad_norm": 0.37890625,
      "learning_rate": 9.920634920634922e-06,
      "loss": 1.6665,
      "step": 4
    },
    {
      "epoch": 0.00992063492063492,
      "grad_norm": 0.359375,
      "learning_rate": 9.900793650793653e-06,
      "loss": 1.6667,
      "step": 5
    },
    {
      "epoch": 0.011904761904761904,
      "grad_norm": 0.365234375,
      "learning_rate": 9.880952380952381e-06,
      "loss": 1.7157,
      "step": 6
    },
    {
      "epoch": 0.013888888888888888,
      "grad_norm": 0.34375,
      "learning_rate": 9.861111111111112e-06,
      "loss": 1.7601,
      "step": 7
    },
    {
      "epoch": 0.015873015873015872,
      "grad_norm": 0.3203125,
      "learning_rate": 9.841269841269842e-06,
      "loss": 1.6809,
      "step": 8
    },
    {
      "epoch": 0.017857142857142856,
      "grad_norm": 0.326171875,
      "learning_rate": 9.821428571428573e-06,
      "loss": 1.6995,
      "step": 9
    },
    {
      "epoch": 0.01984126984126984,
      "grad_norm": 0.302734375,
      "learning_rate": 9.801587301587301e-06,
      "loss": 1.6851,
      "step": 10
    },
    {
      "epoch": 0.021825396825396824,
      "grad_norm": 0.2890625,
      "learning_rate": 9.781746031746032e-06,
      "loss": 1.6754,
      "step": 11
    },
    {
      "epoch": 0.023809523809523808,
      "grad_norm": 0.314453125,
      "learning_rate": 9.761904761904762e-06,
      "loss": 1.7207,
      "step": 12
    },
    {
      "epoch": 0.025793650793650792,
      "grad_norm": 0.28515625,
      "learning_rate": 9.742063492063492e-06,
      "loss": 1.6566,
      "step": 13
    },
    {
      "epoch": 0.027777777777777776,
      "grad_norm": 0.2734375,
      "learning_rate": 9.722222222222223e-06,
      "loss": 1.6222,
      "step": 14
    },
    {
      "epoch": 0.02976190476190476,
      "grad_norm": 0.267578125,
      "learning_rate": 9.702380952380953e-06,
      "loss": 1.555,
      "step": 15
    },
    {
      "epoch": 0.031746031746031744,
      "grad_norm": 0.263671875,
      "learning_rate": 9.682539682539683e-06,
      "loss": 1.6174,
      "step": 16
    },
    {
      "epoch": 0.03373015873015873,
      "grad_norm": 0.263671875,
      "learning_rate": 9.662698412698414e-06,
      "loss": 1.5707,
      "step": 17
    },
    {
      "epoch": 0.03571428571428571,
      "grad_norm": 0.271484375,
      "learning_rate": 9.642857142857144e-06,
      "loss": 1.558,
      "step": 18
    },
    {
      "epoch": 0.037698412698412696,
      "grad_norm": 0.2451171875,
      "learning_rate": 9.623015873015875e-06,
      "loss": 1.4956,
      "step": 19
    },
    {
      "epoch": 0.03968253968253968,
      "grad_norm": 0.25,
      "learning_rate": 9.603174603174605e-06,
      "loss": 1.6123,
      "step": 20
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 0.2197265625,
      "learning_rate": 9.583333333333335e-06,
      "loss": 1.5055,
      "step": 21
    },
    {
      "epoch": 0.04365079365079365,
      "grad_norm": 0.275390625,
      "learning_rate": 9.563492063492064e-06,
      "loss": 1.5983,
      "step": 22
    },
    {
      "epoch": 0.04563492063492063,
      "grad_norm": 0.2177734375,
      "learning_rate": 9.543650793650794e-06,
      "loss": 1.5053,
      "step": 23
    },
    {
      "epoch": 0.047619047619047616,
      "grad_norm": 0.220703125,
      "learning_rate": 9.523809523809525e-06,
      "loss": 1.4835,
      "step": 24
    },
    {
      "epoch": 0.0496031746031746,
      "grad_norm": 0.2060546875,
      "learning_rate": 9.503968253968255e-06,
      "loss": 1.5073,
      "step": 25
    },
    {
      "epoch": 0.051587301587301584,
      "grad_norm": 0.22265625,
      "learning_rate": 9.484126984126984e-06,
      "loss": 1.4105,
      "step": 26
    },
    {
      "epoch": 0.05357142857142857,
      "grad_norm": 0.205078125,
      "learning_rate": 9.464285714285714e-06,
      "loss": 1.4628,
      "step": 27
    },
    {
      "epoch": 0.05555555555555555,
      "grad_norm": 0.203125,
      "learning_rate": 9.444444444444445e-06,
      "loss": 1.4324,
      "step": 28
    },
    {
      "epoch": 0.057539682539682536,
      "grad_norm": 0.201171875,
      "learning_rate": 9.424603174603175e-06,
      "loss": 1.4254,
      "step": 29
    },
    {
      "epoch": 0.05952380952380952,
      "grad_norm": 0.1953125,
      "learning_rate": 9.404761904761905e-06,
      "loss": 1.4613,
      "step": 30
    },
    {
      "epoch": 0.061507936507936505,
      "grad_norm": 0.1982421875,
      "learning_rate": 9.384920634920636e-06,
      "loss": 1.4205,
      "step": 31
    },
    {
      "epoch": 0.06349206349206349,
      "grad_norm": 0.1962890625,
      "learning_rate": 9.365079365079366e-06,
      "loss": 1.488,
      "step": 32
    },
    {
      "epoch": 0.06547619047619048,
      "grad_norm": 0.2099609375,
      "learning_rate": 9.345238095238096e-06,
      "loss": 1.4694,
      "step": 33
    },
    {
      "epoch": 0.06746031746031746,
      "grad_norm": 0.19140625,
      "learning_rate": 9.325396825396827e-06,
      "loss": 1.4028,
      "step": 34
    },
    {
      "epoch": 0.06944444444444445,
      "grad_norm": 0.1953125,
      "learning_rate": 9.305555555555557e-06,
      "loss": 1.4664,
      "step": 35
    },
    {
      "epoch": 0.07142857142857142,
      "grad_norm": 0.2138671875,
      "learning_rate": 9.285714285714288e-06,
      "loss": 1.4234,
      "step": 36
    },
    {
      "epoch": 0.07341269841269842,
      "grad_norm": 0.1923828125,
      "learning_rate": 9.265873015873016e-06,
      "loss": 1.4388,
      "step": 37
    },
    {
      "epoch": 0.07539682539682539,
      "grad_norm": 0.1884765625,
      "learning_rate": 9.246031746031747e-06,
      "loss": 1.3252,
      "step": 38
    },
    {
      "epoch": 0.07738095238095238,
      "grad_norm": 0.185546875,
      "learning_rate": 9.226190476190477e-06,
      "loss": 1.4119,
      "step": 39
    },
    {
      "epoch": 0.07936507936507936,
      "grad_norm": 0.1845703125,
      "learning_rate": 9.206349206349207e-06,
      "loss": 1.4001,
      "step": 40
    },
    {
      "epoch": 0.08134920634920635,
      "grad_norm": 0.2080078125,
      "learning_rate": 9.186507936507936e-06,
      "loss": 1.3429,
      "step": 41
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 0.17578125,
      "learning_rate": 9.166666666666666e-06,
      "loss": 1.3689,
      "step": 42
    },
    {
      "epoch": 0.08531746031746032,
      "grad_norm": 0.216796875,
      "learning_rate": 9.146825396825397e-06,
      "loss": 1.4262,
      "step": 43
    },
    {
      "epoch": 0.0873015873015873,
      "grad_norm": 0.19140625,
      "learning_rate": 9.126984126984127e-06,
      "loss": 1.4133,
      "step": 44
    },
    {
      "epoch": 0.08928571428571429,
      "grad_norm": 0.1748046875,
      "learning_rate": 9.107142857142858e-06,
      "loss": 1.343,
      "step": 45
    },
    {
      "epoch": 0.09126984126984126,
      "grad_norm": 0.1923828125,
      "learning_rate": 9.087301587301588e-06,
      "loss": 1.3822,
      "step": 46
    },
    {
      "epoch": 0.09325396825396826,
      "grad_norm": 0.1904296875,
      "learning_rate": 9.067460317460318e-06,
      "loss": 1.3474,
      "step": 47
    },
    {
      "epoch": 0.09523809523809523,
      "grad_norm": 0.1669921875,
      "learning_rate": 9.047619047619049e-06,
      "loss": 1.3048,
      "step": 48
    },
    {
      "epoch": 0.09722222222222222,
      "grad_norm": 0.1650390625,
      "learning_rate": 9.027777777777779e-06,
      "loss": 1.3108,
      "step": 49
    },
    {
      "epoch": 0.0992063492063492,
      "grad_norm": 0.1796875,
      "learning_rate": 9.00793650793651e-06,
      "loss": 1.3607,
      "step": 50
    },
    {
      "epoch": 0.10119047619047619,
      "grad_norm": 0.166015625,
      "learning_rate": 8.98809523809524e-06,
      "loss": 1.3511,
      "step": 51
    },
    {
      "epoch": 0.10317460317460317,
      "grad_norm": 0.166015625,
      "learning_rate": 8.968253968253968e-06,
      "loss": 1.2498,
      "step": 52
    },
    {
      "epoch": 0.10515873015873016,
      "grad_norm": 0.1708984375,
      "learning_rate": 8.948412698412699e-06,
      "loss": 1.2993,
      "step": 53
    },
    {
      "epoch": 0.10714285714285714,
      "grad_norm": 0.169921875,
      "learning_rate": 8.92857142857143e-06,
      "loss": 1.2641,
      "step": 54
    },
    {
      "epoch": 0.10912698412698413,
      "grad_norm": 0.2294921875,
      "learning_rate": 8.90873015873016e-06,
      "loss": 1.3527,
      "step": 55
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 0.166015625,
      "learning_rate": 8.888888888888888e-06,
      "loss": 1.2825,
      "step": 56
    },
    {
      "epoch": 0.1130952380952381,
      "grad_norm": 0.1865234375,
      "learning_rate": 8.869047619047619e-06,
      "loss": 1.3624,
      "step": 57
    },
    {
      "epoch": 0.11507936507936507,
      "grad_norm": 0.85546875,
      "learning_rate": 8.849206349206349e-06,
      "loss": 1.277,
      "step": 58
    },
    {
      "epoch": 0.11706349206349206,
      "grad_norm": 0.1748046875,
      "learning_rate": 8.82936507936508e-06,
      "loss": 1.3733,
      "step": 59
    },
    {
      "epoch": 0.11904761904761904,
      "grad_norm": 0.1748046875,
      "learning_rate": 8.80952380952381e-06,
      "loss": 1.3076,
      "step": 60
    },
    {
      "epoch": 0.12103174603174603,
      "grad_norm": 0.181640625,
      "learning_rate": 8.78968253968254e-06,
      "loss": 1.275,
      "step": 61
    },
    {
      "epoch": 0.12301587301587301,
      "grad_norm": 0.1552734375,
      "learning_rate": 8.76984126984127e-06,
      "loss": 1.2388,
      "step": 62
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.1640625,
      "learning_rate": 8.750000000000001e-06,
      "loss": 1.3264,
      "step": 63
    },
    {
      "epoch": 0.12698412698412698,
      "grad_norm": 0.1640625,
      "learning_rate": 8.730158730158731e-06,
      "loss": 1.2621,
      "step": 64
    },
    {
      "epoch": 0.12896825396825398,
      "grad_norm": 0.2060546875,
      "learning_rate": 8.710317460317462e-06,
      "loss": 1.2784,
      "step": 65
    },
    {
      "epoch": 0.13095238095238096,
      "grad_norm": 0.1953125,
      "learning_rate": 8.690476190476192e-06,
      "loss": 1.3395,
      "step": 66
    },
    {
      "epoch": 0.13293650793650794,
      "grad_norm": 0.169921875,
      "learning_rate": 8.670634920634922e-06,
      "loss": 1.2701,
      "step": 67
    },
    {
      "epoch": 0.1349206349206349,
      "grad_norm": 0.1767578125,
      "learning_rate": 8.650793650793651e-06,
      "loss": 1.2878,
      "step": 68
    },
    {
      "epoch": 0.13690476190476192,
      "grad_norm": 0.1650390625,
      "learning_rate": 8.630952380952381e-06,
      "loss": 1.175,
      "step": 69
    },
    {
      "epoch": 0.1388888888888889,
      "grad_norm": 0.1650390625,
      "learning_rate": 8.611111111111112e-06,
      "loss": 1.2498,
      "step": 70
    },
    {
      "epoch": 0.14087301587301587,
      "grad_norm": 0.16015625,
      "learning_rate": 8.591269841269842e-06,
      "loss": 1.3099,
      "step": 71
    },
    {
      "epoch": 0.14285714285714285,
      "grad_norm": 0.1767578125,
      "learning_rate": 8.571428571428571e-06,
      "loss": 1.2056,
      "step": 72
    },
    {
      "epoch": 0.14484126984126985,
      "grad_norm": 0.154296875,
      "learning_rate": 8.551587301587301e-06,
      "loss": 1.237,
      "step": 73
    },
    {
      "epoch": 0.14682539682539683,
      "grad_norm": 0.1552734375,
      "learning_rate": 8.531746031746032e-06,
      "loss": 1.1935,
      "step": 74
    },
    {
      "epoch": 0.1488095238095238,
      "grad_norm": 0.1669921875,
      "learning_rate": 8.511904761904762e-06,
      "loss": 1.2379,
      "step": 75
    },
    {
      "epoch": 0.15079365079365079,
      "grad_norm": 0.29296875,
      "learning_rate": 8.492063492063492e-06,
      "loss": 1.2392,
      "step": 76
    },
    {
      "epoch": 0.1527777777777778,
      "grad_norm": 0.271484375,
      "learning_rate": 8.472222222222223e-06,
      "loss": 1.2702,
      "step": 77
    },
    {
      "epoch": 0.15476190476190477,
      "grad_norm": 0.16015625,
      "learning_rate": 8.452380952380953e-06,
      "loss": 1.2606,
      "step": 78
    },
    {
      "epoch": 0.15674603174603174,
      "grad_norm": 0.1630859375,
      "learning_rate": 8.432539682539684e-06,
      "loss": 1.2661,
      "step": 79
    },
    {
      "epoch": 0.15873015873015872,
      "grad_norm": 0.23828125,
      "learning_rate": 8.412698412698414e-06,
      "loss": 1.2545,
      "step": 80
    },
    {
      "epoch": 0.16071428571428573,
      "grad_norm": 0.166015625,
      "learning_rate": 8.392857142857144e-06,
      "loss": 1.2314,
      "step": 81
    },
    {
      "epoch": 0.1626984126984127,
      "grad_norm": 0.1708984375,
      "learning_rate": 8.373015873015875e-06,
      "loss": 1.2848,
      "step": 82
    },
    {
      "epoch": 0.16468253968253968,
      "grad_norm": 0.1572265625,
      "learning_rate": 8.353174603174603e-06,
      "loss": 1.2258,
      "step": 83
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 8.333333333333334e-06,
      "loss": 1.2531,
      "step": 84
    },
    {
      "epoch": 0.16865079365079366,
      "grad_norm": 0.2080078125,
      "learning_rate": 8.313492063492064e-06,
      "loss": 1.1899,
      "step": 85
    },
    {
      "epoch": 0.17063492063492064,
      "grad_norm": 0.1787109375,
      "learning_rate": 8.293650793650794e-06,
      "loss": 1.2006,
      "step": 86
    },
    {
      "epoch": 0.17261904761904762,
      "grad_norm": 0.1669921875,
      "learning_rate": 8.273809523809523e-06,
      "loss": 1.2448,
      "step": 87
    },
    {
      "epoch": 0.1746031746031746,
      "grad_norm": 0.1748046875,
      "learning_rate": 8.253968253968254e-06,
      "loss": 1.2886,
      "step": 88
    },
    {
      "epoch": 0.1765873015873016,
      "grad_norm": 0.1865234375,
      "learning_rate": 8.234126984126984e-06,
      "loss": 1.2365,
      "step": 89
    },
    {
      "epoch": 0.17857142857142858,
      "grad_norm": 0.205078125,
      "learning_rate": 8.214285714285714e-06,
      "loss": 1.1823,
      "step": 90
    },
    {
      "epoch": 0.18055555555555555,
      "grad_norm": 0.193359375,
      "learning_rate": 8.194444444444445e-06,
      "loss": 1.1991,
      "step": 91
    },
    {
      "epoch": 0.18253968253968253,
      "grad_norm": 0.1591796875,
      "learning_rate": 8.174603174603175e-06,
      "loss": 1.161,
      "step": 92
    },
    {
      "epoch": 0.18452380952380953,
      "grad_norm": 0.1630859375,
      "learning_rate": 8.154761904761905e-06,
      "loss": 1.1847,
      "step": 93
    },
    {
      "epoch": 0.1865079365079365,
      "grad_norm": 0.2021484375,
      "learning_rate": 8.134920634920636e-06,
      "loss": 1.2672,
      "step": 94
    },
    {
      "epoch": 0.1884920634920635,
      "grad_norm": 0.1572265625,
      "learning_rate": 8.115079365079366e-06,
      "loss": 1.1037,
      "step": 95
    },
    {
      "epoch": 0.19047619047619047,
      "grad_norm": 0.1591796875,
      "learning_rate": 8.095238095238097e-06,
      "loss": 1.1496,
      "step": 96
    },
    {
      "epoch": 0.19246031746031747,
      "grad_norm": 0.1865234375,
      "learning_rate": 8.075396825396827e-06,
      "loss": 1.2499,
      "step": 97
    },
    {
      "epoch": 0.19444444444444445,
      "grad_norm": 0.166015625,
      "learning_rate": 8.055555555555557e-06,
      "loss": 1.2004,
      "step": 98
    },
    {
      "epoch": 0.19642857142857142,
      "grad_norm": 0.1494140625,
      "learning_rate": 8.035714285714286e-06,
      "loss": 1.1456,
      "step": 99
    },
    {
      "epoch": 0.1984126984126984,
      "grad_norm": 0.2041015625,
      "learning_rate": 8.015873015873016e-06,
      "loss": 1.1879,
      "step": 100
    },
    {
      "epoch": 0.2003968253968254,
      "grad_norm": 0.1650390625,
      "learning_rate": 7.996031746031747e-06,
      "loss": 1.2193,
      "step": 101
    },
    {
      "epoch": 0.20238095238095238,
      "grad_norm": 0.1728515625,
      "learning_rate": 7.976190476190477e-06,
      "loss": 1.2159,
      "step": 102
    },
    {
      "epoch": 0.20436507936507936,
      "grad_norm": 0.162109375,
      "learning_rate": 7.956349206349206e-06,
      "loss": 1.1867,
      "step": 103
    },
    {
      "epoch": 0.20634920634920634,
      "grad_norm": 0.185546875,
      "learning_rate": 7.936507936507936e-06,
      "loss": 1.1647,
      "step": 104
    },
    {
      "epoch": 0.20833333333333334,
      "grad_norm": 0.1767578125,
      "learning_rate": 7.916666666666667e-06,
      "loss": 1.1551,
      "step": 105
    },
    {
      "epoch": 0.21031746031746032,
      "grad_norm": 0.6875,
      "learning_rate": 7.896825396825397e-06,
      "loss": 1.1824,
      "step": 106
    },
    {
      "epoch": 0.2123015873015873,
      "grad_norm": 0.498046875,
      "learning_rate": 7.876984126984127e-06,
      "loss": 1.145,
      "step": 107
    },
    {
      "epoch": 0.21428571428571427,
      "grad_norm": 0.181640625,
      "learning_rate": 7.857142857142858e-06,
      "loss": 1.2245,
      "step": 108
    },
    {
      "epoch": 0.21626984126984128,
      "grad_norm": 0.1787109375,
      "learning_rate": 7.837301587301588e-06,
      "loss": 1.1911,
      "step": 109
    },
    {
      "epoch": 0.21825396825396826,
      "grad_norm": 0.169921875,
      "learning_rate": 7.817460317460318e-06,
      "loss": 1.2748,
      "step": 110
    },
    {
      "epoch": 0.22023809523809523,
      "grad_norm": 0.1708984375,
      "learning_rate": 7.797619047619049e-06,
      "loss": 1.1783,
      "step": 111
    },
    {
      "epoch": 0.2222222222222222,
      "grad_norm": 0.158203125,
      "learning_rate": 7.77777777777778e-06,
      "loss": 1.1464,
      "step": 112
    },
    {
      "epoch": 0.22420634920634921,
      "grad_norm": 0.1865234375,
      "learning_rate": 7.75793650793651e-06,
      "loss": 1.1486,
      "step": 113
    },
    {
      "epoch": 0.2261904761904762,
      "grad_norm": 0.1806640625,
      "learning_rate": 7.738095238095238e-06,
      "loss": 1.1995,
      "step": 114
    },
    {
      "epoch": 0.22817460317460317,
      "grad_norm": 0.173828125,
      "learning_rate": 7.718253968253969e-06,
      "loss": 1.2137,
      "step": 115
    },
    {
      "epoch": 0.23015873015873015,
      "grad_norm": 0.1708984375,
      "learning_rate": 7.698412698412699e-06,
      "loss": 1.1913,
      "step": 116
    },
    {
      "epoch": 0.23214285714285715,
      "grad_norm": 0.2421875,
      "learning_rate": 7.67857142857143e-06,
      "loss": 1.1628,
      "step": 117
    },
    {
      "epoch": 0.23412698412698413,
      "grad_norm": 0.43359375,
      "learning_rate": 7.65873015873016e-06,
      "loss": 1.0437,
      "step": 118
    },
    {
      "epoch": 0.2361111111111111,
      "grad_norm": 0.169921875,
      "learning_rate": 7.638888888888888e-06,
      "loss": 1.1443,
      "step": 119
    },
    {
      "epoch": 0.23809523809523808,
      "grad_norm": 0.158203125,
      "learning_rate": 7.61904761904762e-06,
      "loss": 1.1697,
      "step": 120
    },
    {
      "epoch": 0.2400793650793651,
      "grad_norm": 0.1748046875,
      "learning_rate": 7.599206349206349e-06,
      "loss": 1.1371,
      "step": 121
    },
    {
      "epoch": 0.24206349206349206,
      "grad_norm": 0.1728515625,
      "learning_rate": 7.5793650793650795e-06,
      "loss": 1.1819,
      "step": 122
    },
    {
      "epoch": 0.24404761904761904,
      "grad_norm": 0.1748046875,
      "learning_rate": 7.55952380952381e-06,
      "loss": 1.2154,
      "step": 123
    },
    {
      "epoch": 0.24603174603174602,
      "grad_norm": 0.1875,
      "learning_rate": 7.53968253968254e-06,
      "loss": 1.1132,
      "step": 124
    },
    {
      "epoch": 0.24801587301587302,
      "grad_norm": 0.17578125,
      "learning_rate": 7.519841269841271e-06,
      "loss": 1.1578,
      "step": 125
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.173828125,
      "learning_rate": 7.500000000000001e-06,
      "loss": 1.1528,
      "step": 126
    },
    {
      "epoch": 0.251984126984127,
      "grad_norm": 0.1875,
      "learning_rate": 7.4801587301587306e-06,
      "loss": 1.1936,
      "step": 127
    },
    {
      "epoch": 0.25396825396825395,
      "grad_norm": 0.189453125,
      "learning_rate": 7.460317460317461e-06,
      "loss": 1.2149,
      "step": 128
    },
    {
      "epoch": 0.25595238095238093,
      "grad_norm": 0.177734375,
      "learning_rate": 7.440476190476191e-06,
      "loss": 1.0772,
      "step": 129
    },
    {
      "epoch": 0.25793650793650796,
      "grad_norm": 0.177734375,
      "learning_rate": 7.420634920634922e-06,
      "loss": 1.2252,
      "step": 130
    },
    {
      "epoch": 0.25992063492063494,
      "grad_norm": 0.212890625,
      "learning_rate": 7.400793650793652e-06,
      "loss": 1.1519,
      "step": 131
    },
    {
      "epoch": 0.2619047619047619,
      "grad_norm": 0.158203125,
      "learning_rate": 7.380952380952382e-06,
      "loss": 1.1527,
      "step": 132
    },
    {
      "epoch": 0.2638888888888889,
      "grad_norm": 0.19921875,
      "learning_rate": 7.361111111111112e-06,
      "loss": 1.2424,
      "step": 133
    },
    {
      "epoch": 0.26587301587301587,
      "grad_norm": 0.1796875,
      "learning_rate": 7.3412698412698415e-06,
      "loss": 1.1504,
      "step": 134
    },
    {
      "epoch": 0.26785714285714285,
      "grad_norm": 0.25,
      "learning_rate": 7.321428571428572e-06,
      "loss": 1.2256,
      "step": 135
    },
    {
      "epoch": 0.2698412698412698,
      "grad_norm": 0.17578125,
      "learning_rate": 7.301587301587301e-06,
      "loss": 1.0189,
      "step": 136
    },
    {
      "epoch": 0.2718253968253968,
      "grad_norm": 0.1650390625,
      "learning_rate": 7.281746031746032e-06,
      "loss": 1.1478,
      "step": 137
    },
    {
      "epoch": 0.27380952380952384,
      "grad_norm": 0.236328125,
      "learning_rate": 7.261904761904762e-06,
      "loss": 1.2107,
      "step": 138
    },
    {
      "epoch": 0.2757936507936508,
      "grad_norm": 0.185546875,
      "learning_rate": 7.2420634920634925e-06,
      "loss": 1.1041,
      "step": 139
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 0.1796875,
      "learning_rate": 7.222222222222223e-06,
      "loss": 1.1659,
      "step": 140
    },
    {
      "epoch": 0.27976190476190477,
      "grad_norm": 0.1669921875,
      "learning_rate": 7.202380952380953e-06,
      "loss": 1.1528,
      "step": 141
    },
    {
      "epoch": 0.28174603174603174,
      "grad_norm": 0.212890625,
      "learning_rate": 7.182539682539683e-06,
      "loss": 1.1904,
      "step": 142
    },
    {
      "epoch": 0.2837301587301587,
      "grad_norm": 0.1767578125,
      "learning_rate": 7.162698412698413e-06,
      "loss": 1.1645,
      "step": 143
    },
    {
      "epoch": 0.2857142857142857,
      "grad_norm": 0.173828125,
      "learning_rate": 7.1428571428571436e-06,
      "loss": 1.1636,
      "step": 144
    },
    {
      "epoch": 0.2876984126984127,
      "grad_norm": 0.1728515625,
      "learning_rate": 7.123015873015874e-06,
      "loss": 1.1991,
      "step": 145
    },
    {
      "epoch": 0.2896825396825397,
      "grad_norm": 0.16796875,
      "learning_rate": 7.103174603174604e-06,
      "loss": 1.139,
      "step": 146
    },
    {
      "epoch": 0.2916666666666667,
      "grad_norm": 0.1796875,
      "learning_rate": 7.083333333333335e-06,
      "loss": 1.1557,
      "step": 147
    },
    {
      "epoch": 0.29365079365079366,
      "grad_norm": 0.224609375,
      "learning_rate": 7.063492063492064e-06,
      "loss": 1.0993,
      "step": 148
    },
    {
      "epoch": 0.29563492063492064,
      "grad_norm": 0.177734375,
      "learning_rate": 7.043650793650795e-06,
      "loss": 1.1684,
      "step": 149
    },
    {
      "epoch": 0.2976190476190476,
      "grad_norm": 0.181640625,
      "learning_rate": 7.023809523809524e-06,
      "loss": 1.0608,
      "step": 150
    },
    {
      "epoch": 0.2996031746031746,
      "grad_norm": 0.478515625,
      "learning_rate": 7.0039682539682545e-06,
      "loss": 1.1846,
      "step": 151
    },
    {
      "epoch": 0.30158730158730157,
      "grad_norm": 0.2080078125,
      "learning_rate": 6.984126984126984e-06,
      "loss": 1.1391,
      "step": 152
    },
    {
      "epoch": 0.30357142857142855,
      "grad_norm": 0.203125,
      "learning_rate": 6.964285714285714e-06,
      "loss": 1.1275,
      "step": 153
    },
    {
      "epoch": 0.3055555555555556,
      "grad_norm": 0.201171875,
      "learning_rate": 6.944444444444445e-06,
      "loss": 1.1139,
      "step": 154
    },
    {
      "epoch": 0.30753968253968256,
      "grad_norm": 0.181640625,
      "learning_rate": 6.924603174603175e-06,
      "loss": 1.2221,
      "step": 155
    },
    {
      "epoch": 0.30952380952380953,
      "grad_norm": 0.171875,
      "learning_rate": 6.9047619047619055e-06,
      "loss": 1.0733,
      "step": 156
    },
    {
      "epoch": 0.3115079365079365,
      "grad_norm": 0.1728515625,
      "learning_rate": 6.884920634920635e-06,
      "loss": 1.0532,
      "step": 157
    },
    {
      "epoch": 0.3134920634920635,
      "grad_norm": 0.16015625,
      "learning_rate": 6.8650793650793654e-06,
      "loss": 1.0619,
      "step": 158
    },
    {
      "epoch": 0.31547619047619047,
      "grad_norm": 0.169921875,
      "learning_rate": 6.845238095238096e-06,
      "loss": 1.1757,
      "step": 159
    },
    {
      "epoch": 0.31746031746031744,
      "grad_norm": 0.1806640625,
      "learning_rate": 6.825396825396826e-06,
      "loss": 1.1347,
      "step": 160
    },
    {
      "epoch": 0.3194444444444444,
      "grad_norm": 0.2353515625,
      "learning_rate": 6.8055555555555566e-06,
      "loss": 1.1257,
      "step": 161
    },
    {
      "epoch": 0.32142857142857145,
      "grad_norm": 0.181640625,
      "learning_rate": 6.785714285714287e-06,
      "loss": 1.1075,
      "step": 162
    },
    {
      "epoch": 0.32341269841269843,
      "grad_norm": 0.1689453125,
      "learning_rate": 6.7658730158730165e-06,
      "loss": 1.1259,
      "step": 163
    },
    {
      "epoch": 0.3253968253968254,
      "grad_norm": 0.2255859375,
      "learning_rate": 6.746031746031747e-06,
      "loss": 1.0858,
      "step": 164
    },
    {
      "epoch": 0.3273809523809524,
      "grad_norm": 0.1728515625,
      "learning_rate": 6.726190476190477e-06,
      "loss": 1.0994,
      "step": 165
    },
    {
      "epoch": 0.32936507936507936,
      "grad_norm": 0.1884765625,
      "learning_rate": 6.706349206349207e-06,
      "loss": 1.1153,
      "step": 166
    },
    {
      "epoch": 0.33134920634920634,
      "grad_norm": 0.1728515625,
      "learning_rate": 6.686507936507936e-06,
      "loss": 1.1021,
      "step": 167
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 0.26953125,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.1516,
      "step": 168
    },
    {
      "epoch": 0.3353174603174603,
      "grad_norm": 0.17578125,
      "learning_rate": 6.646825396825397e-06,
      "loss": 1.1645,
      "step": 169
    },
    {
      "epoch": 0.3373015873015873,
      "grad_norm": 0.1884765625,
      "learning_rate": 6.626984126984127e-06,
      "loss": 1.1631,
      "step": 170
    },
    {
      "epoch": 0.3392857142857143,
      "grad_norm": 0.17578125,
      "learning_rate": 6.607142857142858e-06,
      "loss": 1.0827,
      "step": 171
    },
    {
      "epoch": 0.3412698412698413,
      "grad_norm": 0.2138671875,
      "learning_rate": 6.587301587301588e-06,
      "loss": 1.1156,
      "step": 172
    },
    {
      "epoch": 0.34325396825396826,
      "grad_norm": 0.1669921875,
      "learning_rate": 6.567460317460318e-06,
      "loss": 1.1017,
      "step": 173
    },
    {
      "epoch": 0.34523809523809523,
      "grad_norm": 0.181640625,
      "learning_rate": 6.547619047619048e-06,
      "loss": 1.0691,
      "step": 174
    },
    {
      "epoch": 0.3472222222222222,
      "grad_norm": 0.1689453125,
      "learning_rate": 6.5277777777777784e-06,
      "loss": 1.0514,
      "step": 175
    },
    {
      "epoch": 0.3492063492063492,
      "grad_norm": 0.1787109375,
      "learning_rate": 6.507936507936509e-06,
      "loss": 1.0834,
      "step": 176
    },
    {
      "epoch": 0.35119047619047616,
      "grad_norm": 0.1904296875,
      "learning_rate": 6.488095238095239e-06,
      "loss": 1.126,
      "step": 177
    },
    {
      "epoch": 0.3531746031746032,
      "grad_norm": 0.1806640625,
      "learning_rate": 6.468253968253969e-06,
      "loss": 1.1013,
      "step": 178
    },
    {
      "epoch": 0.3551587301587302,
      "grad_norm": 0.17578125,
      "learning_rate": 6.448412698412699e-06,
      "loss": 1.1611,
      "step": 179
    },
    {
      "epoch": 0.35714285714285715,
      "grad_norm": 0.1796875,
      "learning_rate": 6.4285714285714295e-06,
      "loss": 1.0756,
      "step": 180
    },
    {
      "epoch": 0.35912698412698413,
      "grad_norm": 0.185546875,
      "learning_rate": 6.40873015873016e-06,
      "loss": 1.1207,
      "step": 181
    },
    {
      "epoch": 0.3611111111111111,
      "grad_norm": 0.1787109375,
      "learning_rate": 6.3888888888888885e-06,
      "loss": 1.0467,
      "step": 182
    },
    {
      "epoch": 0.3630952380952381,
      "grad_norm": 0.19140625,
      "learning_rate": 6.369047619047619e-06,
      "loss": 1.1068,
      "step": 183
    },
    {
      "epoch": 0.36507936507936506,
      "grad_norm": 0.1962890625,
      "learning_rate": 6.349206349206349e-06,
      "loss": 1.1222,
      "step": 184
    },
    {
      "epoch": 0.36706349206349204,
      "grad_norm": 0.166015625,
      "learning_rate": 6.32936507936508e-06,
      "loss": 1.0361,
      "step": 185
    },
    {
      "epoch": 0.36904761904761907,
      "grad_norm": 0.173828125,
      "learning_rate": 6.30952380952381e-06,
      "loss": 1.1175,
      "step": 186
    },
    {
      "epoch": 0.37103174603174605,
      "grad_norm": 0.1884765625,
      "learning_rate": 6.28968253968254e-06,
      "loss": 1.046,
      "step": 187
    },
    {
      "epoch": 0.373015873015873,
      "grad_norm": 0.2119140625,
      "learning_rate": 6.26984126984127e-06,
      "loss": 1.0716,
      "step": 188
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.1884765625,
      "learning_rate": 6.25e-06,
      "loss": 1.0859,
      "step": 189
    },
    {
      "epoch": 0.376984126984127,
      "grad_norm": 0.267578125,
      "learning_rate": 6.230158730158731e-06,
      "loss": 1.1002,
      "step": 190
    },
    {
      "epoch": 0.37896825396825395,
      "grad_norm": 0.1728515625,
      "learning_rate": 6.210317460317461e-06,
      "loss": 1.0693,
      "step": 191
    },
    {
      "epoch": 0.38095238095238093,
      "grad_norm": 0.17578125,
      "learning_rate": 6.1904761904761914e-06,
      "loss": 1.1119,
      "step": 192
    },
    {
      "epoch": 0.38293650793650796,
      "grad_norm": 0.177734375,
      "learning_rate": 6.170634920634922e-06,
      "loss": 1.0946,
      "step": 193
    },
    {
      "epoch": 0.38492063492063494,
      "grad_norm": 0.1923828125,
      "learning_rate": 6.150793650793651e-06,
      "loss": 1.1475,
      "step": 194
    },
    {
      "epoch": 0.3869047619047619,
      "grad_norm": 0.1796875,
      "learning_rate": 6.130952380952382e-06,
      "loss": 1.1278,
      "step": 195
    },
    {
      "epoch": 0.3888888888888889,
      "grad_norm": 0.46875,
      "learning_rate": 6.111111111111112e-06,
      "loss": 1.0921,
      "step": 196
    },
    {
      "epoch": 0.39087301587301587,
      "grad_norm": 0.177734375,
      "learning_rate": 6.091269841269842e-06,
      "loss": 1.0595,
      "step": 197
    },
    {
      "epoch": 0.39285714285714285,
      "grad_norm": 0.208984375,
      "learning_rate": 6.071428571428571e-06,
      "loss": 1.0929,
      "step": 198
    },
    {
      "epoch": 0.3948412698412698,
      "grad_norm": 0.1845703125,
      "learning_rate": 6.0515873015873015e-06,
      "loss": 1.0711,
      "step": 199
    },
    {
      "epoch": 0.3968253968253968,
      "grad_norm": 0.1787109375,
      "learning_rate": 6.031746031746032e-06,
      "loss": 1.1302,
      "step": 200
    },
    {
      "epoch": 0.39880952380952384,
      "grad_norm": 0.189453125,
      "learning_rate": 6.011904761904762e-06,
      "loss": 1.1034,
      "step": 201
    },
    {
      "epoch": 0.4007936507936508,
      "grad_norm": 0.1787109375,
      "learning_rate": 5.992063492063493e-06,
      "loss": 1.1235,
      "step": 202
    },
    {
      "epoch": 0.4027777777777778,
      "grad_norm": 0.259765625,
      "learning_rate": 5.972222222222222e-06,
      "loss": 1.118,
      "step": 203
    },
    {
      "epoch": 0.40476190476190477,
      "grad_norm": 0.1982421875,
      "learning_rate": 5.9523809523809525e-06,
      "loss": 1.1164,
      "step": 204
    },
    {
      "epoch": 0.40674603174603174,
      "grad_norm": 0.17578125,
      "learning_rate": 5.932539682539683e-06,
      "loss": 1.0965,
      "step": 205
    },
    {
      "epoch": 0.4087301587301587,
      "grad_norm": 0.212890625,
      "learning_rate": 5.912698412698413e-06,
      "loss": 1.0243,
      "step": 206
    },
    {
      "epoch": 0.4107142857142857,
      "grad_norm": 0.1826171875,
      "learning_rate": 5.892857142857144e-06,
      "loss": 1.0559,
      "step": 207
    },
    {
      "epoch": 0.4126984126984127,
      "grad_norm": 0.1787109375,
      "learning_rate": 5.873015873015874e-06,
      "loss": 1.0893,
      "step": 208
    },
    {
      "epoch": 0.4146825396825397,
      "grad_norm": 0.18359375,
      "learning_rate": 5.8531746031746036e-06,
      "loss": 1.1549,
      "step": 209
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.177734375,
      "learning_rate": 5.833333333333334e-06,
      "loss": 1.0592,
      "step": 210
    },
    {
      "epoch": 0.41865079365079366,
      "grad_norm": 0.1728515625,
      "learning_rate": 5.813492063492064e-06,
      "loss": 1.0913,
      "step": 211
    },
    {
      "epoch": 0.42063492063492064,
      "grad_norm": 0.1806640625,
      "learning_rate": 5.793650793650795e-06,
      "loss": 1.0651,
      "step": 212
    },
    {
      "epoch": 0.4226190476190476,
      "grad_norm": 0.1767578125,
      "learning_rate": 5.773809523809523e-06,
      "loss": 1.0603,
      "step": 213
    },
    {
      "epoch": 0.4246031746031746,
      "grad_norm": 0.189453125,
      "learning_rate": 5.753968253968254e-06,
      "loss": 1.1088,
      "step": 214
    },
    {
      "epoch": 0.42658730158730157,
      "grad_norm": 0.189453125,
      "learning_rate": 5.734126984126984e-06,
      "loss": 1.0956,
      "step": 215
    },
    {
      "epoch": 0.42857142857142855,
      "grad_norm": 0.2177734375,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 1.0896,
      "step": 216
    },
    {
      "epoch": 0.4305555555555556,
      "grad_norm": 0.1953125,
      "learning_rate": 5.694444444444445e-06,
      "loss": 1.0911,
      "step": 217
    },
    {
      "epoch": 0.43253968253968256,
      "grad_norm": 0.18359375,
      "learning_rate": 5.674603174603175e-06,
      "loss": 1.1137,
      "step": 218
    },
    {
      "epoch": 0.43452380952380953,
      "grad_norm": 0.1806640625,
      "learning_rate": 5.654761904761905e-06,
      "loss": 1.0579,
      "step": 219
    },
    {
      "epoch": 0.4365079365079365,
      "grad_norm": 0.171875,
      "learning_rate": 5.634920634920635e-06,
      "loss": 1.0523,
      "step": 220
    },
    {
      "epoch": 0.4384920634920635,
      "grad_norm": 0.193359375,
      "learning_rate": 5.6150793650793655e-06,
      "loss": 1.0787,
      "step": 221
    },
    {
      "epoch": 0.44047619047619047,
      "grad_norm": 0.1845703125,
      "learning_rate": 5.595238095238096e-06,
      "loss": 1.1118,
      "step": 222
    },
    {
      "epoch": 0.44246031746031744,
      "grad_norm": 0.1796875,
      "learning_rate": 5.575396825396826e-06,
      "loss": 1.0464,
      "step": 223
    },
    {
      "epoch": 0.4444444444444444,
      "grad_norm": 0.1943359375,
      "learning_rate": 5.555555555555557e-06,
      "loss": 1.0687,
      "step": 224
    },
    {
      "epoch": 0.44642857142857145,
      "grad_norm": 0.2099609375,
      "learning_rate": 5.535714285714286e-06,
      "loss": 1.0646,
      "step": 225
    },
    {
      "epoch": 0.44841269841269843,
      "grad_norm": 0.55859375,
      "learning_rate": 5.5158730158730166e-06,
      "loss": 1.0837,
      "step": 226
    },
    {
      "epoch": 0.4503968253968254,
      "grad_norm": 0.1884765625,
      "learning_rate": 5.496031746031747e-06,
      "loss": 1.098,
      "step": 227
    },
    {
      "epoch": 0.4523809523809524,
      "grad_norm": 0.2060546875,
      "learning_rate": 5.476190476190477e-06,
      "loss": 1.043,
      "step": 228
    },
    {
      "epoch": 0.45436507936507936,
      "grad_norm": 0.1796875,
      "learning_rate": 5.456349206349206e-06,
      "loss": 1.0955,
      "step": 229
    },
    {
      "epoch": 0.45634920634920634,
      "grad_norm": 0.1826171875,
      "learning_rate": 5.436507936507936e-06,
      "loss": 1.0629,
      "step": 230
    },
    {
      "epoch": 0.4583333333333333,
      "grad_norm": 0.1904296875,
      "learning_rate": 5.416666666666667e-06,
      "loss": 1.1059,
      "step": 231
    },
    {
      "epoch": 0.4603174603174603,
      "grad_norm": 0.173828125,
      "learning_rate": 5.396825396825397e-06,
      "loss": 1.0853,
      "step": 232
    },
    {
      "epoch": 0.4623015873015873,
      "grad_norm": 0.208984375,
      "learning_rate": 5.3769841269841275e-06,
      "loss": 1.0669,
      "step": 233
    },
    {
      "epoch": 0.4642857142857143,
      "grad_norm": 0.189453125,
      "learning_rate": 5.357142857142857e-06,
      "loss": 1.0897,
      "step": 234
    },
    {
      "epoch": 0.4662698412698413,
      "grad_norm": 0.201171875,
      "learning_rate": 5.337301587301587e-06,
      "loss": 1.0739,
      "step": 235
    },
    {
      "epoch": 0.46825396825396826,
      "grad_norm": 0.2421875,
      "learning_rate": 5.317460317460318e-06,
      "loss": 1.0829,
      "step": 236
    },
    {
      "epoch": 0.47023809523809523,
      "grad_norm": 0.189453125,
      "learning_rate": 5.297619047619048e-06,
      "loss": 1.1463,
      "step": 237
    },
    {
      "epoch": 0.4722222222222222,
      "grad_norm": 0.1787109375,
      "learning_rate": 5.2777777777777785e-06,
      "loss": 1.0753,
      "step": 238
    },
    {
      "epoch": 0.4742063492063492,
      "grad_norm": 0.1845703125,
      "learning_rate": 5.257936507936509e-06,
      "loss": 1.0492,
      "step": 239
    },
    {
      "epoch": 0.47619047619047616,
      "grad_norm": 0.18359375,
      "learning_rate": 5.2380952380952384e-06,
      "loss": 1.0522,
      "step": 240
    },
    {
      "epoch": 0.4781746031746032,
      "grad_norm": 0.1904296875,
      "learning_rate": 5.218253968253969e-06,
      "loss": 1.127,
      "step": 241
    },
    {
      "epoch": 0.4801587301587302,
      "grad_norm": 0.205078125,
      "learning_rate": 5.198412698412699e-06,
      "loss": 1.0335,
      "step": 242
    },
    {
      "epoch": 0.48214285714285715,
      "grad_norm": 0.177734375,
      "learning_rate": 5.1785714285714296e-06,
      "loss": 1.0067,
      "step": 243
    },
    {
      "epoch": 0.48412698412698413,
      "grad_norm": 0.271484375,
      "learning_rate": 5.15873015873016e-06,
      "loss": 1.0865,
      "step": 244
    },
    {
      "epoch": 0.4861111111111111,
      "grad_norm": 0.177734375,
      "learning_rate": 5.138888888888889e-06,
      "loss": 1.0485,
      "step": 245
    },
    {
      "epoch": 0.4880952380952381,
      "grad_norm": 0.263671875,
      "learning_rate": 5.119047619047619e-06,
      "loss": 1.0101,
      "step": 246
    },
    {
      "epoch": 0.49007936507936506,
      "grad_norm": 0.1904296875,
      "learning_rate": 5.099206349206349e-06,
      "loss": 1.0895,
      "step": 247
    },
    {
      "epoch": 0.49206349206349204,
      "grad_norm": 0.1787109375,
      "learning_rate": 5.07936507936508e-06,
      "loss": 1.0292,
      "step": 248
    },
    {
      "epoch": 0.49404761904761907,
      "grad_norm": 0.189453125,
      "learning_rate": 5.05952380952381e-06,
      "loss": 1.0933,
      "step": 249
    },
    {
      "epoch": 0.49603174603174605,
      "grad_norm": 0.20703125,
      "learning_rate": 5.03968253968254e-06,
      "loss": 1.1216,
      "step": 250
    },
    {
      "epoch": 0.498015873015873,
      "grad_norm": 0.197265625,
      "learning_rate": 5.01984126984127e-06,
      "loss": 1.1177,
      "step": 251
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.20703125,
      "learning_rate": 5e-06,
      "loss": 1.0665,
      "step": 252
    },
    {
      "epoch": 0.501984126984127,
      "grad_norm": 0.2041015625,
      "learning_rate": 4.980158730158731e-06,
      "loss": 1.0324,
      "step": 253
    },
    {
      "epoch": 0.503968253968254,
      "grad_norm": 0.1767578125,
      "learning_rate": 4.960317460317461e-06,
      "loss": 1.0684,
      "step": 254
    },
    {
      "epoch": 0.5059523809523809,
      "grad_norm": 0.26953125,
      "learning_rate": 4.940476190476191e-06,
      "loss": 0.9946,
      "step": 255
    },
    {
      "epoch": 0.5079365079365079,
      "grad_norm": 0.2041015625,
      "learning_rate": 4.920634920634921e-06,
      "loss": 1.0883,
      "step": 256
    },
    {
      "epoch": 0.5099206349206349,
      "grad_norm": 0.177734375,
      "learning_rate": 4.900793650793651e-06,
      "loss": 1.0046,
      "step": 257
    },
    {
      "epoch": 0.5119047619047619,
      "grad_norm": 0.197265625,
      "learning_rate": 4.880952380952381e-06,
      "loss": 1.0312,
      "step": 258
    },
    {
      "epoch": 0.5138888888888888,
      "grad_norm": 0.18359375,
      "learning_rate": 4.861111111111111e-06,
      "loss": 1.0669,
      "step": 259
    },
    {
      "epoch": 0.5158730158730159,
      "grad_norm": 0.2099609375,
      "learning_rate": 4.841269841269842e-06,
      "loss": 1.0626,
      "step": 260
    },
    {
      "epoch": 0.5178571428571429,
      "grad_norm": 0.197265625,
      "learning_rate": 4.821428571428572e-06,
      "loss": 1.0959,
      "step": 261
    },
    {
      "epoch": 0.5198412698412699,
      "grad_norm": 0.2138671875,
      "learning_rate": 4.8015873015873025e-06,
      "loss": 1.0619,
      "step": 262
    },
    {
      "epoch": 0.5218253968253969,
      "grad_norm": 0.201171875,
      "learning_rate": 4.781746031746032e-06,
      "loss": 1.0846,
      "step": 263
    },
    {
      "epoch": 0.5238095238095238,
      "grad_norm": 0.2578125,
      "learning_rate": 4.761904761904762e-06,
      "loss": 1.1273,
      "step": 264
    },
    {
      "epoch": 0.5257936507936508,
      "grad_norm": 0.177734375,
      "learning_rate": 4.742063492063492e-06,
      "loss": 1.1137,
      "step": 265
    },
    {
      "epoch": 0.5277777777777778,
      "grad_norm": 0.189453125,
      "learning_rate": 4.722222222222222e-06,
      "loss": 1.119,
      "step": 266
    },
    {
      "epoch": 0.5297619047619048,
      "grad_norm": 0.177734375,
      "learning_rate": 4.702380952380953e-06,
      "loss": 1.0377,
      "step": 267
    },
    {
      "epoch": 0.5317460317460317,
      "grad_norm": 0.2021484375,
      "learning_rate": 4.682539682539683e-06,
      "loss": 1.1034,
      "step": 268
    },
    {
      "epoch": 0.5337301587301587,
      "grad_norm": 0.1923828125,
      "learning_rate": 4.662698412698413e-06,
      "loss": 1.0983,
      "step": 269
    },
    {
      "epoch": 0.5357142857142857,
      "grad_norm": 0.2119140625,
      "learning_rate": 4.642857142857144e-06,
      "loss": 1.0401,
      "step": 270
    },
    {
      "epoch": 0.5376984126984127,
      "grad_norm": 0.236328125,
      "learning_rate": 4.623015873015873e-06,
      "loss": 1.0207,
      "step": 271
    },
    {
      "epoch": 0.5396825396825397,
      "grad_norm": 0.1953125,
      "learning_rate": 4.603174603174604e-06,
      "loss": 1.1666,
      "step": 272
    },
    {
      "epoch": 0.5416666666666666,
      "grad_norm": 0.1796875,
      "learning_rate": 4.583333333333333e-06,
      "loss": 1.1112,
      "step": 273
    },
    {
      "epoch": 0.5436507936507936,
      "grad_norm": 0.2060546875,
      "learning_rate": 4.563492063492064e-06,
      "loss": 1.1118,
      "step": 274
    },
    {
      "epoch": 0.5456349206349206,
      "grad_norm": 0.1962890625,
      "learning_rate": 4.543650793650794e-06,
      "loss": 1.0361,
      "step": 275
    },
    {
      "epoch": 0.5476190476190477,
      "grad_norm": 0.1796875,
      "learning_rate": 4.523809523809524e-06,
      "loss": 1.0836,
      "step": 276
    },
    {
      "epoch": 0.5496031746031746,
      "grad_norm": 0.2431640625,
      "learning_rate": 4.503968253968255e-06,
      "loss": 1.1136,
      "step": 277
    },
    {
      "epoch": 0.5515873015873016,
      "grad_norm": 0.224609375,
      "learning_rate": 4.484126984126984e-06,
      "loss": 1.1012,
      "step": 278
    },
    {
      "epoch": 0.5535714285714286,
      "grad_norm": 0.2109375,
      "learning_rate": 4.464285714285715e-06,
      "loss": 1.0926,
      "step": 279
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.177734375,
      "learning_rate": 4.444444444444444e-06,
      "loss": 1.0203,
      "step": 280
    },
    {
      "epoch": 0.5575396825396826,
      "grad_norm": 0.181640625,
      "learning_rate": 4.4246031746031745e-06,
      "loss": 1.0544,
      "step": 281
    },
    {
      "epoch": 0.5595238095238095,
      "grad_norm": 0.2236328125,
      "learning_rate": 4.404761904761905e-06,
      "loss": 1.0987,
      "step": 282
    },
    {
      "epoch": 0.5615079365079365,
      "grad_norm": 0.2255859375,
      "learning_rate": 4.384920634920635e-06,
      "loss": 1.1094,
      "step": 283
    },
    {
      "epoch": 0.5634920634920635,
      "grad_norm": 0.19921875,
      "learning_rate": 4.365079365079366e-06,
      "loss": 1.074,
      "step": 284
    },
    {
      "epoch": 0.5654761904761905,
      "grad_norm": 0.189453125,
      "learning_rate": 4.345238095238096e-06,
      "loss": 1.1379,
      "step": 285
    },
    {
      "epoch": 0.5674603174603174,
      "grad_norm": 0.1865234375,
      "learning_rate": 4.3253968253968256e-06,
      "loss": 1.103,
      "step": 286
    },
    {
      "epoch": 0.5694444444444444,
      "grad_norm": 0.1875,
      "learning_rate": 4.305555555555556e-06,
      "loss": 1.0471,
      "step": 287
    },
    {
      "epoch": 0.5714285714285714,
      "grad_norm": 0.201171875,
      "learning_rate": 4.2857142857142855e-06,
      "loss": 1.0389,
      "step": 288
    },
    {
      "epoch": 0.5734126984126984,
      "grad_norm": 0.1865234375,
      "learning_rate": 4.265873015873016e-06,
      "loss": 1.0503,
      "step": 289
    },
    {
      "epoch": 0.5753968253968254,
      "grad_norm": 0.18359375,
      "learning_rate": 4.246031746031746e-06,
      "loss": 1.068,
      "step": 290
    },
    {
      "epoch": 0.5773809523809523,
      "grad_norm": 0.244140625,
      "learning_rate": 4.226190476190477e-06,
      "loss": 1.0802,
      "step": 291
    },
    {
      "epoch": 0.5793650793650794,
      "grad_norm": 0.20703125,
      "learning_rate": 4.206349206349207e-06,
      "loss": 0.9886,
      "step": 292
    },
    {
      "epoch": 0.5813492063492064,
      "grad_norm": 0.203125,
      "learning_rate": 4.186507936507937e-06,
      "loss": 1.1536,
      "step": 293
    },
    {
      "epoch": 0.5833333333333334,
      "grad_norm": 0.1884765625,
      "learning_rate": 4.166666666666667e-06,
      "loss": 1.0102,
      "step": 294
    },
    {
      "epoch": 0.5853174603174603,
      "grad_norm": 0.2099609375,
      "learning_rate": 4.146825396825397e-06,
      "loss": 1.1086,
      "step": 295
    },
    {
      "epoch": 0.5873015873015873,
      "grad_norm": 0.185546875,
      "learning_rate": 4.126984126984127e-06,
      "loss": 1.1022,
      "step": 296
    },
    {
      "epoch": 0.5892857142857143,
      "grad_norm": 0.1796875,
      "learning_rate": 4.107142857142857e-06,
      "loss": 1.0532,
      "step": 297
    },
    {
      "epoch": 0.5912698412698413,
      "grad_norm": 0.22265625,
      "learning_rate": 4.0873015873015875e-06,
      "loss": 1.1097,
      "step": 298
    },
    {
      "epoch": 0.5932539682539683,
      "grad_norm": 0.279296875,
      "learning_rate": 4.067460317460318e-06,
      "loss": 1.0351,
      "step": 299
    },
    {
      "epoch": 0.5952380952380952,
      "grad_norm": 0.2021484375,
      "learning_rate": 4.047619047619048e-06,
      "loss": 1.0397,
      "step": 300
    },
    {
      "epoch": 0.5972222222222222,
      "grad_norm": 0.2216796875,
      "learning_rate": 4.027777777777779e-06,
      "loss": 1.0482,
      "step": 301
    },
    {
      "epoch": 0.5992063492063492,
      "grad_norm": 0.1904296875,
      "learning_rate": 4.007936507936508e-06,
      "loss": 1.1126,
      "step": 302
    },
    {
      "epoch": 0.6011904761904762,
      "grad_norm": 0.2001953125,
      "learning_rate": 3.9880952380952386e-06,
      "loss": 1.0226,
      "step": 303
    },
    {
      "epoch": 0.6031746031746031,
      "grad_norm": 0.1884765625,
      "learning_rate": 3.968253968253968e-06,
      "loss": 1.0587,
      "step": 304
    },
    {
      "epoch": 0.6051587301587301,
      "grad_norm": 0.201171875,
      "learning_rate": 3.9484126984126985e-06,
      "loss": 1.06,
      "step": 305
    },
    {
      "epoch": 0.6071428571428571,
      "grad_norm": 0.1962890625,
      "learning_rate": 3.928571428571429e-06,
      "loss": 1.049,
      "step": 306
    },
    {
      "epoch": 0.6091269841269841,
      "grad_norm": 0.18359375,
      "learning_rate": 3.908730158730159e-06,
      "loss": 1.08,
      "step": 307
    },
    {
      "epoch": 0.6111111111111112,
      "grad_norm": 0.220703125,
      "learning_rate": 3.88888888888889e-06,
      "loss": 1.0975,
      "step": 308
    },
    {
      "epoch": 0.6130952380952381,
      "grad_norm": 0.2138671875,
      "learning_rate": 3.869047619047619e-06,
      "loss": 1.0814,
      "step": 309
    },
    {
      "epoch": 0.6150793650793651,
      "grad_norm": 0.2314453125,
      "learning_rate": 3.8492063492063495e-06,
      "loss": 1.0633,
      "step": 310
    },
    {
      "epoch": 0.6170634920634921,
      "grad_norm": 0.1748046875,
      "learning_rate": 3.82936507936508e-06,
      "loss": 1.0574,
      "step": 311
    },
    {
      "epoch": 0.6190476190476191,
      "grad_norm": 0.1962890625,
      "learning_rate": 3.80952380952381e-06,
      "loss": 1.139,
      "step": 312
    },
    {
      "epoch": 0.621031746031746,
      "grad_norm": 0.1875,
      "learning_rate": 3.7896825396825398e-06,
      "loss": 1.0445,
      "step": 313
    },
    {
      "epoch": 0.623015873015873,
      "grad_norm": 0.1796875,
      "learning_rate": 3.76984126984127e-06,
      "loss": 1.0789,
      "step": 314
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.1845703125,
      "learning_rate": 3.7500000000000005e-06,
      "loss": 1.0576,
      "step": 315
    },
    {
      "epoch": 0.626984126984127,
      "grad_norm": 0.20703125,
      "learning_rate": 3.7301587301587305e-06,
      "loss": 1.0403,
      "step": 316
    },
    {
      "epoch": 0.628968253968254,
      "grad_norm": 0.1845703125,
      "learning_rate": 3.710317460317461e-06,
      "loss": 1.078,
      "step": 317
    },
    {
      "epoch": 0.6309523809523809,
      "grad_norm": 0.201171875,
      "learning_rate": 3.690476190476191e-06,
      "loss": 1.0781,
      "step": 318
    },
    {
      "epoch": 0.6329365079365079,
      "grad_norm": 0.1845703125,
      "learning_rate": 3.6706349206349208e-06,
      "loss": 1.085,
      "step": 319
    },
    {
      "epoch": 0.6349206349206349,
      "grad_norm": 0.1943359375,
      "learning_rate": 3.6507936507936507e-06,
      "loss": 1.0951,
      "step": 320
    },
    {
      "epoch": 0.6369047619047619,
      "grad_norm": 0.185546875,
      "learning_rate": 3.630952380952381e-06,
      "loss": 1.0577,
      "step": 321
    },
    {
      "epoch": 0.6388888888888888,
      "grad_norm": 0.1826171875,
      "learning_rate": 3.6111111111111115e-06,
      "loss": 1.0695,
      "step": 322
    },
    {
      "epoch": 0.6408730158730159,
      "grad_norm": 0.193359375,
      "learning_rate": 3.5912698412698414e-06,
      "loss": 1.1291,
      "step": 323
    },
    {
      "epoch": 0.6428571428571429,
      "grad_norm": 0.1943359375,
      "learning_rate": 3.5714285714285718e-06,
      "loss": 1.0173,
      "step": 324
    },
    {
      "epoch": 0.6448412698412699,
      "grad_norm": 0.1748046875,
      "learning_rate": 3.551587301587302e-06,
      "loss": 1.061,
      "step": 325
    },
    {
      "epoch": 0.6468253968253969,
      "grad_norm": 0.1826171875,
      "learning_rate": 3.531746031746032e-06,
      "loss": 1.0188,
      "step": 326
    },
    {
      "epoch": 0.6488095238095238,
      "grad_norm": 0.20703125,
      "learning_rate": 3.511904761904762e-06,
      "loss": 1.0898,
      "step": 327
    },
    {
      "epoch": 0.6507936507936508,
      "grad_norm": 0.18359375,
      "learning_rate": 3.492063492063492e-06,
      "loss": 1.0458,
      "step": 328
    },
    {
      "epoch": 0.6527777777777778,
      "grad_norm": 0.181640625,
      "learning_rate": 3.4722222222222224e-06,
      "loss": 1.0307,
      "step": 329
    },
    {
      "epoch": 0.6547619047619048,
      "grad_norm": 0.203125,
      "learning_rate": 3.4523809523809528e-06,
      "loss": 1.1013,
      "step": 330
    },
    {
      "epoch": 0.6567460317460317,
      "grad_norm": 0.185546875,
      "learning_rate": 3.4325396825396827e-06,
      "loss": 1.1067,
      "step": 331
    },
    {
      "epoch": 0.6587301587301587,
      "grad_norm": 0.2021484375,
      "learning_rate": 3.412698412698413e-06,
      "loss": 0.9715,
      "step": 332
    },
    {
      "epoch": 0.6607142857142857,
      "grad_norm": 0.212890625,
      "learning_rate": 3.3928571428571435e-06,
      "loss": 1.1062,
      "step": 333
    },
    {
      "epoch": 0.6626984126984127,
      "grad_norm": 0.18359375,
      "learning_rate": 3.3730158730158734e-06,
      "loss": 1.047,
      "step": 334
    },
    {
      "epoch": 0.6646825396825397,
      "grad_norm": 0.1884765625,
      "learning_rate": 3.3531746031746034e-06,
      "loss": 1.052,
      "step": 335
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.2216796875,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.0698,
      "step": 336
    },
    {
      "epoch": 0.6686507936507936,
      "grad_norm": 2.0625,
      "learning_rate": 3.3134920634920637e-06,
      "loss": 1.0531,
      "step": 337
    },
    {
      "epoch": 0.6706349206349206,
      "grad_norm": 0.2109375,
      "learning_rate": 3.293650793650794e-06,
      "loss": 1.0583,
      "step": 338
    },
    {
      "epoch": 0.6726190476190477,
      "grad_norm": 0.193359375,
      "learning_rate": 3.273809523809524e-06,
      "loss": 1.0405,
      "step": 339
    },
    {
      "epoch": 0.6746031746031746,
      "grad_norm": 0.1826171875,
      "learning_rate": 3.2539682539682544e-06,
      "loss": 1.0472,
      "step": 340
    },
    {
      "epoch": 0.6765873015873016,
      "grad_norm": 0.291015625,
      "learning_rate": 3.2341269841269844e-06,
      "loss": 1.0446,
      "step": 341
    },
    {
      "epoch": 0.6785714285714286,
      "grad_norm": 0.2158203125,
      "learning_rate": 3.2142857142857147e-06,
      "loss": 1.056,
      "step": 342
    },
    {
      "epoch": 0.6805555555555556,
      "grad_norm": 0.1865234375,
      "learning_rate": 3.1944444444444443e-06,
      "loss": 1.0552,
      "step": 343
    },
    {
      "epoch": 0.6825396825396826,
      "grad_norm": 0.2275390625,
      "learning_rate": 3.1746031746031746e-06,
      "loss": 1.1215,
      "step": 344
    },
    {
      "epoch": 0.6845238095238095,
      "grad_norm": 0.2041015625,
      "learning_rate": 3.154761904761905e-06,
      "loss": 1.09,
      "step": 345
    },
    {
      "epoch": 0.6865079365079365,
      "grad_norm": 0.2294921875,
      "learning_rate": 3.134920634920635e-06,
      "loss": 1.1377,
      "step": 346
    },
    {
      "epoch": 0.6884920634920635,
      "grad_norm": 0.2236328125,
      "learning_rate": 3.1150793650793653e-06,
      "loss": 1.0487,
      "step": 347
    },
    {
      "epoch": 0.6904761904761905,
      "grad_norm": 0.271484375,
      "learning_rate": 3.0952380952380957e-06,
      "loss": 1.01,
      "step": 348
    },
    {
      "epoch": 0.6924603174603174,
      "grad_norm": 0.1923828125,
      "learning_rate": 3.0753968253968257e-06,
      "loss": 1.0619,
      "step": 349
    },
    {
      "epoch": 0.6944444444444444,
      "grad_norm": 0.189453125,
      "learning_rate": 3.055555555555556e-06,
      "loss": 1.0288,
      "step": 350
    },
    {
      "epoch": 0.6964285714285714,
      "grad_norm": 0.228515625,
      "learning_rate": 3.0357142857142856e-06,
      "loss": 1.0287,
      "step": 351
    },
    {
      "epoch": 0.6984126984126984,
      "grad_norm": 0.181640625,
      "learning_rate": 3.015873015873016e-06,
      "loss": 1.0687,
      "step": 352
    },
    {
      "epoch": 0.7003968253968254,
      "grad_norm": 0.1953125,
      "learning_rate": 2.9960317460317463e-06,
      "loss": 1.0429,
      "step": 353
    },
    {
      "epoch": 0.7023809523809523,
      "grad_norm": 0.1923828125,
      "learning_rate": 2.9761904761904763e-06,
      "loss": 1.0504,
      "step": 354
    },
    {
      "epoch": 0.7043650793650794,
      "grad_norm": 0.2060546875,
      "learning_rate": 2.9563492063492066e-06,
      "loss": 1.0399,
      "step": 355
    },
    {
      "epoch": 0.7063492063492064,
      "grad_norm": 0.203125,
      "learning_rate": 2.936507936507937e-06,
      "loss": 1.0297,
      "step": 356
    },
    {
      "epoch": 0.7083333333333334,
      "grad_norm": 0.1982421875,
      "learning_rate": 2.916666666666667e-06,
      "loss": 1.0551,
      "step": 357
    },
    {
      "epoch": 0.7103174603174603,
      "grad_norm": 0.19921875,
      "learning_rate": 2.8968253968253974e-06,
      "loss": 1.0906,
      "step": 358
    },
    {
      "epoch": 0.7123015873015873,
      "grad_norm": 0.2158203125,
      "learning_rate": 2.876984126984127e-06,
      "loss": 1.0767,
      "step": 359
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 0.1826171875,
      "learning_rate": 2.8571428571428573e-06,
      "loss": 1.0796,
      "step": 360
    },
    {
      "epoch": 0.7162698412698413,
      "grad_norm": 0.205078125,
      "learning_rate": 2.8373015873015876e-06,
      "loss": 1.0548,
      "step": 361
    },
    {
      "epoch": 0.7182539682539683,
      "grad_norm": 0.1904296875,
      "learning_rate": 2.8174603174603176e-06,
      "loss": 1.0959,
      "step": 362
    },
    {
      "epoch": 0.7202380952380952,
      "grad_norm": 0.19921875,
      "learning_rate": 2.797619047619048e-06,
      "loss": 1.0645,
      "step": 363
    },
    {
      "epoch": 0.7222222222222222,
      "grad_norm": 0.1875,
      "learning_rate": 2.7777777777777783e-06,
      "loss": 1.0381,
      "step": 364
    },
    {
      "epoch": 0.7242063492063492,
      "grad_norm": 0.30859375,
      "learning_rate": 2.7579365079365083e-06,
      "loss": 1.0158,
      "step": 365
    },
    {
      "epoch": 0.7261904761904762,
      "grad_norm": 0.193359375,
      "learning_rate": 2.7380952380952387e-06,
      "loss": 1.0622,
      "step": 366
    },
    {
      "epoch": 0.7281746031746031,
      "grad_norm": 0.1962890625,
      "learning_rate": 2.718253968253968e-06,
      "loss": 1.0872,
      "step": 367
    },
    {
      "epoch": 0.7301587301587301,
      "grad_norm": 0.189453125,
      "learning_rate": 2.6984126984126986e-06,
      "loss": 0.9593,
      "step": 368
    },
    {
      "epoch": 0.7321428571428571,
      "grad_norm": 0.177734375,
      "learning_rate": 2.6785714285714285e-06,
      "loss": 1.0281,
      "step": 369
    },
    {
      "epoch": 0.7341269841269841,
      "grad_norm": 0.189453125,
      "learning_rate": 2.658730158730159e-06,
      "loss": 1.0329,
      "step": 370
    },
    {
      "epoch": 0.7361111111111112,
      "grad_norm": 0.2255859375,
      "learning_rate": 2.6388888888888893e-06,
      "loss": 1.009,
      "step": 371
    },
    {
      "epoch": 0.7380952380952381,
      "grad_norm": 0.2216796875,
      "learning_rate": 2.6190476190476192e-06,
      "loss": 1.0864,
      "step": 372
    },
    {
      "epoch": 0.7400793650793651,
      "grad_norm": 0.1943359375,
      "learning_rate": 2.5992063492063496e-06,
      "loss": 1.0195,
      "step": 373
    },
    {
      "epoch": 0.7420634920634921,
      "grad_norm": 0.1884765625,
      "learning_rate": 2.57936507936508e-06,
      "loss": 1.0771,
      "step": 374
    },
    {
      "epoch": 0.7440476190476191,
      "grad_norm": 0.25,
      "learning_rate": 2.5595238095238095e-06,
      "loss": 1.0754,
      "step": 375
    },
    {
      "epoch": 0.746031746031746,
      "grad_norm": 0.19921875,
      "learning_rate": 2.53968253968254e-06,
      "loss": 1.0938,
      "step": 376
    },
    {
      "epoch": 0.748015873015873,
      "grad_norm": 0.2119140625,
      "learning_rate": 2.51984126984127e-06,
      "loss": 1.0738,
      "step": 377
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.185546875,
      "learning_rate": 2.5e-06,
      "loss": 0.9903,
      "step": 378
    },
    {
      "epoch": 0.751984126984127,
      "grad_norm": 0.1953125,
      "learning_rate": 2.4801587301587306e-06,
      "loss": 1.0623,
      "step": 379
    },
    {
      "epoch": 0.753968253968254,
      "grad_norm": 0.1904296875,
      "learning_rate": 2.4603174603174605e-06,
      "loss": 1.1202,
      "step": 380
    },
    {
      "epoch": 0.7559523809523809,
      "grad_norm": 0.1845703125,
      "learning_rate": 2.4404761904761905e-06,
      "loss": 1.0173,
      "step": 381
    },
    {
      "epoch": 0.7579365079365079,
      "grad_norm": 0.1923828125,
      "learning_rate": 2.420634920634921e-06,
      "loss": 1.0142,
      "step": 382
    },
    {
      "epoch": 0.7599206349206349,
      "grad_norm": 0.1845703125,
      "learning_rate": 2.4007936507936512e-06,
      "loss": 0.9709,
      "step": 383
    },
    {
      "epoch": 0.7619047619047619,
      "grad_norm": 0.2275390625,
      "learning_rate": 2.380952380952381e-06,
      "loss": 1.0611,
      "step": 384
    },
    {
      "epoch": 0.7638888888888888,
      "grad_norm": 0.2099609375,
      "learning_rate": 2.361111111111111e-06,
      "loss": 1.1081,
      "step": 385
    },
    {
      "epoch": 0.7658730158730159,
      "grad_norm": 0.18359375,
      "learning_rate": 2.3412698412698415e-06,
      "loss": 1.0652,
      "step": 386
    },
    {
      "epoch": 0.7678571428571429,
      "grad_norm": 0.1953125,
      "learning_rate": 2.321428571428572e-06,
      "loss": 1.068,
      "step": 387
    },
    {
      "epoch": 0.7698412698412699,
      "grad_norm": 0.197265625,
      "learning_rate": 2.301587301587302e-06,
      "loss": 1.0733,
      "step": 388
    },
    {
      "epoch": 0.7718253968253969,
      "grad_norm": 0.1826171875,
      "learning_rate": 2.281746031746032e-06,
      "loss": 1.0382,
      "step": 389
    },
    {
      "epoch": 0.7738095238095238,
      "grad_norm": 0.1806640625,
      "learning_rate": 2.261904761904762e-06,
      "loss": 1.0138,
      "step": 390
    },
    {
      "epoch": 0.7757936507936508,
      "grad_norm": 0.1845703125,
      "learning_rate": 2.242063492063492e-06,
      "loss": 1.0259,
      "step": 391
    },
    {
      "epoch": 0.7777777777777778,
      "grad_norm": 0.255859375,
      "learning_rate": 2.222222222222222e-06,
      "loss": 1.0086,
      "step": 392
    },
    {
      "epoch": 0.7797619047619048,
      "grad_norm": 0.1982421875,
      "learning_rate": 2.2023809523809525e-06,
      "loss": 1.1099,
      "step": 393
    },
    {
      "epoch": 0.7817460317460317,
      "grad_norm": 0.1962890625,
      "learning_rate": 2.182539682539683e-06,
      "loss": 1.0577,
      "step": 394
    },
    {
      "epoch": 0.7837301587301587,
      "grad_norm": 0.19140625,
      "learning_rate": 2.1626984126984128e-06,
      "loss": 1.0413,
      "step": 395
    },
    {
      "epoch": 0.7857142857142857,
      "grad_norm": 0.1826171875,
      "learning_rate": 2.1428571428571427e-06,
      "loss": 1.0293,
      "step": 396
    },
    {
      "epoch": 0.7876984126984127,
      "grad_norm": 0.1943359375,
      "learning_rate": 2.123015873015873e-06,
      "loss": 1.0343,
      "step": 397
    },
    {
      "epoch": 0.7896825396825397,
      "grad_norm": 0.275390625,
      "learning_rate": 2.1031746031746035e-06,
      "loss": 1.0666,
      "step": 398
    },
    {
      "epoch": 0.7916666666666666,
      "grad_norm": 0.1845703125,
      "learning_rate": 2.0833333333333334e-06,
      "loss": 1.0211,
      "step": 399
    },
    {
      "epoch": 0.7936507936507936,
      "grad_norm": 0.189453125,
      "learning_rate": 2.0634920634920634e-06,
      "loss": 1.0614,
      "step": 400
    },
    {
      "epoch": 0.7956349206349206,
      "grad_norm": 0.19140625,
      "learning_rate": 2.0436507936507938e-06,
      "loss": 1.0564,
      "step": 401
    },
    {
      "epoch": 0.7976190476190477,
      "grad_norm": 0.2041015625,
      "learning_rate": 2.023809523809524e-06,
      "loss": 1.0179,
      "step": 402
    },
    {
      "epoch": 0.7996031746031746,
      "grad_norm": 0.1962890625,
      "learning_rate": 2.003968253968254e-06,
      "loss": 1.0327,
      "step": 403
    },
    {
      "epoch": 0.8015873015873016,
      "grad_norm": 0.2041015625,
      "learning_rate": 1.984126984126984e-06,
      "loss": 1.0325,
      "step": 404
    },
    {
      "epoch": 0.8035714285714286,
      "grad_norm": 0.224609375,
      "learning_rate": 1.9642857142857144e-06,
      "loss": 1.0581,
      "step": 405
    },
    {
      "epoch": 0.8055555555555556,
      "grad_norm": 0.212890625,
      "learning_rate": 1.944444444444445e-06,
      "loss": 1.0239,
      "step": 406
    },
    {
      "epoch": 0.8075396825396826,
      "grad_norm": 0.1923828125,
      "learning_rate": 1.9246031746031747e-06,
      "loss": 1.003,
      "step": 407
    },
    {
      "epoch": 0.8095238095238095,
      "grad_norm": 0.2119140625,
      "learning_rate": 1.904761904761905e-06,
      "loss": 1.082,
      "step": 408
    },
    {
      "epoch": 0.8115079365079365,
      "grad_norm": 0.2353515625,
      "learning_rate": 1.884920634920635e-06,
      "loss": 1.061,
      "step": 409
    },
    {
      "epoch": 0.8134920634920635,
      "grad_norm": 0.197265625,
      "learning_rate": 1.8650793650793652e-06,
      "loss": 1.1133,
      "step": 410
    },
    {
      "epoch": 0.8154761904761905,
      "grad_norm": 0.2060546875,
      "learning_rate": 1.8452380952380954e-06,
      "loss": 1.0565,
      "step": 411
    },
    {
      "epoch": 0.8174603174603174,
      "grad_norm": 0.19140625,
      "learning_rate": 1.8253968253968254e-06,
      "loss": 1.0854,
      "step": 412
    },
    {
      "epoch": 0.8194444444444444,
      "grad_norm": 0.205078125,
      "learning_rate": 1.8055555555555557e-06,
      "loss": 1.063,
      "step": 413
    },
    {
      "epoch": 0.8214285714285714,
      "grad_norm": 0.189453125,
      "learning_rate": 1.7857142857142859e-06,
      "loss": 1.1107,
      "step": 414
    },
    {
      "epoch": 0.8234126984126984,
      "grad_norm": 0.21875,
      "learning_rate": 1.765873015873016e-06,
      "loss": 0.9864,
      "step": 415
    },
    {
      "epoch": 0.8253968253968254,
      "grad_norm": 0.1943359375,
      "learning_rate": 1.746031746031746e-06,
      "loss": 0.9958,
      "step": 416
    },
    {
      "epoch": 0.8273809523809523,
      "grad_norm": 0.2119140625,
      "learning_rate": 1.7261904761904764e-06,
      "loss": 1.1206,
      "step": 417
    },
    {
      "epoch": 0.8293650793650794,
      "grad_norm": 0.2021484375,
      "learning_rate": 1.7063492063492065e-06,
      "loss": 1.092,
      "step": 418
    },
    {
      "epoch": 0.8313492063492064,
      "grad_norm": 0.2216796875,
      "learning_rate": 1.6865079365079367e-06,
      "loss": 1.0561,
      "step": 419
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.2177734375,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 1.012,
      "step": 420
    },
    {
      "epoch": 0.8353174603174603,
      "grad_norm": 0.22265625,
      "learning_rate": 1.646825396825397e-06,
      "loss": 1.01,
      "step": 421
    },
    {
      "epoch": 0.8373015873015873,
      "grad_norm": 0.212890625,
      "learning_rate": 1.6269841269841272e-06,
      "loss": 1.0722,
      "step": 422
    },
    {
      "epoch": 0.8392857142857143,
      "grad_norm": 0.1953125,
      "learning_rate": 1.6071428571428574e-06,
      "loss": 0.9999,
      "step": 423
    },
    {
      "epoch": 0.8412698412698413,
      "grad_norm": 0.2177734375,
      "learning_rate": 1.5873015873015873e-06,
      "loss": 1.0351,
      "step": 424
    },
    {
      "epoch": 0.8432539682539683,
      "grad_norm": 0.1875,
      "learning_rate": 1.5674603174603175e-06,
      "loss": 1.0286,
      "step": 425
    },
    {
      "epoch": 0.8452380952380952,
      "grad_norm": 0.189453125,
      "learning_rate": 1.5476190476190479e-06,
      "loss": 1.0458,
      "step": 426
    },
    {
      "epoch": 0.8472222222222222,
      "grad_norm": 0.2041015625,
      "learning_rate": 1.527777777777778e-06,
      "loss": 1.065,
      "step": 427
    },
    {
      "epoch": 0.8492063492063492,
      "grad_norm": 0.21875,
      "learning_rate": 1.507936507936508e-06,
      "loss": 1.0634,
      "step": 428
    },
    {
      "epoch": 0.8511904761904762,
      "grad_norm": 0.1884765625,
      "learning_rate": 1.4880952380952381e-06,
      "loss": 1.0401,
      "step": 429
    },
    {
      "epoch": 0.8531746031746031,
      "grad_norm": 0.203125,
      "learning_rate": 1.4682539682539685e-06,
      "loss": 1.0324,
      "step": 430
    },
    {
      "epoch": 0.8551587301587301,
      "grad_norm": 0.20703125,
      "learning_rate": 1.4484126984126987e-06,
      "loss": 1.0556,
      "step": 431
    },
    {
      "epoch": 0.8571428571428571,
      "grad_norm": 0.1884765625,
      "learning_rate": 1.4285714285714286e-06,
      "loss": 1.0108,
      "step": 432
    },
    {
      "epoch": 0.8591269841269841,
      "grad_norm": 0.205078125,
      "learning_rate": 1.4087301587301588e-06,
      "loss": 1.095,
      "step": 433
    },
    {
      "epoch": 0.8611111111111112,
      "grad_norm": 0.19921875,
      "learning_rate": 1.3888888888888892e-06,
      "loss": 1.1151,
      "step": 434
    },
    {
      "epoch": 0.8630952380952381,
      "grad_norm": 0.21875,
      "learning_rate": 1.3690476190476193e-06,
      "loss": 1.1415,
      "step": 435
    },
    {
      "epoch": 0.8650793650793651,
      "grad_norm": 0.1943359375,
      "learning_rate": 1.3492063492063493e-06,
      "loss": 1.0875,
      "step": 436
    },
    {
      "epoch": 0.8670634920634921,
      "grad_norm": 0.1982421875,
      "learning_rate": 1.3293650793650794e-06,
      "loss": 1.1079,
      "step": 437
    },
    {
      "epoch": 0.8690476190476191,
      "grad_norm": 0.201171875,
      "learning_rate": 1.3095238095238096e-06,
      "loss": 1.0726,
      "step": 438
    },
    {
      "epoch": 0.871031746031746,
      "grad_norm": 0.1923828125,
      "learning_rate": 1.28968253968254e-06,
      "loss": 1.1261,
      "step": 439
    },
    {
      "epoch": 0.873015873015873,
      "grad_norm": 0.1982421875,
      "learning_rate": 1.26984126984127e-06,
      "loss": 1.019,
      "step": 440
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.197265625,
      "learning_rate": 1.25e-06,
      "loss": 1.0491,
      "step": 441
    },
    {
      "epoch": 0.876984126984127,
      "grad_norm": 0.265625,
      "learning_rate": 1.2301587301587303e-06,
      "loss": 1.0448,
      "step": 442
    },
    {
      "epoch": 0.878968253968254,
      "grad_norm": 0.203125,
      "learning_rate": 1.2103174603174604e-06,
      "loss": 1.0808,
      "step": 443
    },
    {
      "epoch": 0.8809523809523809,
      "grad_norm": 0.193359375,
      "learning_rate": 1.1904761904761906e-06,
      "loss": 1.0224,
      "step": 444
    },
    {
      "epoch": 0.8829365079365079,
      "grad_norm": 0.1904296875,
      "learning_rate": 1.1706349206349208e-06,
      "loss": 1.0711,
      "step": 445
    },
    {
      "epoch": 0.8849206349206349,
      "grad_norm": 0.185546875,
      "learning_rate": 1.150793650793651e-06,
      "loss": 1.0013,
      "step": 446
    },
    {
      "epoch": 0.8869047619047619,
      "grad_norm": 0.189453125,
      "learning_rate": 1.130952380952381e-06,
      "loss": 1.0764,
      "step": 447
    },
    {
      "epoch": 0.8888888888888888,
      "grad_norm": 0.1787109375,
      "learning_rate": 1.111111111111111e-06,
      "loss": 1.0312,
      "step": 448
    },
    {
      "epoch": 0.8908730158730159,
      "grad_norm": 0.26171875,
      "learning_rate": 1.0912698412698414e-06,
      "loss": 1.0801,
      "step": 449
    },
    {
      "epoch": 0.8928571428571429,
      "grad_norm": 0.1953125,
      "learning_rate": 1.0714285714285714e-06,
      "loss": 1.1025,
      "step": 450
    },
    {
      "epoch": 0.8948412698412699,
      "grad_norm": 0.1826171875,
      "learning_rate": 1.0515873015873017e-06,
      "loss": 1.0243,
      "step": 451
    },
    {
      "epoch": 0.8968253968253969,
      "grad_norm": 0.2294921875,
      "learning_rate": 1.0317460317460317e-06,
      "loss": 1.0562,
      "step": 452
    },
    {
      "epoch": 0.8988095238095238,
      "grad_norm": 0.205078125,
      "learning_rate": 1.011904761904762e-06,
      "loss": 1.1007,
      "step": 453
    },
    {
      "epoch": 0.9007936507936508,
      "grad_norm": 0.24609375,
      "learning_rate": 9.92063492063492e-07,
      "loss": 1.0305,
      "step": 454
    },
    {
      "epoch": 0.9027777777777778,
      "grad_norm": 0.1875,
      "learning_rate": 9.722222222222224e-07,
      "loss": 1.0947,
      "step": 455
    },
    {
      "epoch": 0.9047619047619048,
      "grad_norm": 0.1884765625,
      "learning_rate": 9.523809523809525e-07,
      "loss": 1.0808,
      "step": 456
    },
    {
      "epoch": 0.9067460317460317,
      "grad_norm": 0.224609375,
      "learning_rate": 9.325396825396826e-07,
      "loss": 1.0513,
      "step": 457
    },
    {
      "epoch": 0.9087301587301587,
      "grad_norm": 0.1884765625,
      "learning_rate": 9.126984126984127e-07,
      "loss": 1.0347,
      "step": 458
    },
    {
      "epoch": 0.9107142857142857,
      "grad_norm": 0.1943359375,
      "learning_rate": 8.928571428571429e-07,
      "loss": 1.0122,
      "step": 459
    },
    {
      "epoch": 0.9126984126984127,
      "grad_norm": 0.185546875,
      "learning_rate": 8.73015873015873e-07,
      "loss": 1.0933,
      "step": 460
    },
    {
      "epoch": 0.9146825396825397,
      "grad_norm": 0.216796875,
      "learning_rate": 8.531746031746033e-07,
      "loss": 1.0148,
      "step": 461
    },
    {
      "epoch": 0.9166666666666666,
      "grad_norm": 0.18359375,
      "learning_rate": 8.333333333333333e-07,
      "loss": 1.0498,
      "step": 462
    },
    {
      "epoch": 0.9186507936507936,
      "grad_norm": 0.1845703125,
      "learning_rate": 8.134920634920636e-07,
      "loss": 1.0264,
      "step": 463
    },
    {
      "epoch": 0.9206349206349206,
      "grad_norm": 0.2216796875,
      "learning_rate": 7.936507936507937e-07,
      "loss": 1.0597,
      "step": 464
    },
    {
      "epoch": 0.9226190476190477,
      "grad_norm": 0.1865234375,
      "learning_rate": 7.738095238095239e-07,
      "loss": 1.0295,
      "step": 465
    },
    {
      "epoch": 0.9246031746031746,
      "grad_norm": 0.185546875,
      "learning_rate": 7.53968253968254e-07,
      "loss": 1.0571,
      "step": 466
    },
    {
      "epoch": 0.9265873015873016,
      "grad_norm": 0.21484375,
      "learning_rate": 7.341269841269843e-07,
      "loss": 1.1128,
      "step": 467
    },
    {
      "epoch": 0.9285714285714286,
      "grad_norm": 0.2021484375,
      "learning_rate": 7.142857142857143e-07,
      "loss": 1.0031,
      "step": 468
    },
    {
      "epoch": 0.9305555555555556,
      "grad_norm": 0.1865234375,
      "learning_rate": 6.944444444444446e-07,
      "loss": 1.0107,
      "step": 469
    },
    {
      "epoch": 0.9325396825396826,
      "grad_norm": 0.201171875,
      "learning_rate": 6.746031746031746e-07,
      "loss": 1.0857,
      "step": 470
    },
    {
      "epoch": 0.9345238095238095,
      "grad_norm": 0.189453125,
      "learning_rate": 6.547619047619048e-07,
      "loss": 1.0531,
      "step": 471
    },
    {
      "epoch": 0.9365079365079365,
      "grad_norm": 0.193359375,
      "learning_rate": 6.34920634920635e-07,
      "loss": 1.0334,
      "step": 472
    },
    {
      "epoch": 0.9384920634920635,
      "grad_norm": 0.193359375,
      "learning_rate": 6.150793650793651e-07,
      "loss": 1.053,
      "step": 473
    },
    {
      "epoch": 0.9404761904761905,
      "grad_norm": 0.2041015625,
      "learning_rate": 5.952380952380953e-07,
      "loss": 1.0439,
      "step": 474
    },
    {
      "epoch": 0.9424603174603174,
      "grad_norm": 0.2021484375,
      "learning_rate": 5.753968253968255e-07,
      "loss": 1.0933,
      "step": 475
    },
    {
      "epoch": 0.9444444444444444,
      "grad_norm": 0.1826171875,
      "learning_rate": 5.555555555555555e-07,
      "loss": 1.0148,
      "step": 476
    },
    {
      "epoch": 0.9464285714285714,
      "grad_norm": 0.19140625,
      "learning_rate": 5.357142857142857e-07,
      "loss": 1.0208,
      "step": 477
    },
    {
      "epoch": 0.9484126984126984,
      "grad_norm": 0.1826171875,
      "learning_rate": 5.158730158730158e-07,
      "loss": 1.0259,
      "step": 478
    },
    {
      "epoch": 0.9503968253968254,
      "grad_norm": 0.185546875,
      "learning_rate": 4.96031746031746e-07,
      "loss": 1.052,
      "step": 479
    },
    {
      "epoch": 0.9523809523809523,
      "grad_norm": 0.234375,
      "learning_rate": 4.7619047619047623e-07,
      "loss": 1.0099,
      "step": 480
    },
    {
      "epoch": 0.9543650793650794,
      "grad_norm": 0.181640625,
      "learning_rate": 4.5634920634920634e-07,
      "loss": 1.0346,
      "step": 481
    },
    {
      "epoch": 0.9563492063492064,
      "grad_norm": 0.23046875,
      "learning_rate": 4.365079365079365e-07,
      "loss": 1.0966,
      "step": 482
    },
    {
      "epoch": 0.9583333333333334,
      "grad_norm": 0.1943359375,
      "learning_rate": 4.1666666666666667e-07,
      "loss": 1.0775,
      "step": 483
    },
    {
      "epoch": 0.9603174603174603,
      "grad_norm": 0.1767578125,
      "learning_rate": 3.9682539682539683e-07,
      "loss": 1.0188,
      "step": 484
    },
    {
      "epoch": 0.9623015873015873,
      "grad_norm": 0.18359375,
      "learning_rate": 3.76984126984127e-07,
      "loss": 1.0002,
      "step": 485
    },
    {
      "epoch": 0.9642857142857143,
      "grad_norm": 0.2236328125,
      "learning_rate": 3.5714285714285716e-07,
      "loss": 1.1847,
      "step": 486
    },
    {
      "epoch": 0.9662698412698413,
      "grad_norm": 0.197265625,
      "learning_rate": 3.373015873015873e-07,
      "loss": 1.0742,
      "step": 487
    },
    {
      "epoch": 0.9682539682539683,
      "grad_norm": 0.1884765625,
      "learning_rate": 3.174603174603175e-07,
      "loss": 1.0819,
      "step": 488
    },
    {
      "epoch": 0.9702380952380952,
      "grad_norm": 0.1904296875,
      "learning_rate": 2.9761904761904765e-07,
      "loss": 1.0705,
      "step": 489
    },
    {
      "epoch": 0.9722222222222222,
      "grad_norm": 0.21875,
      "learning_rate": 2.7777777777777776e-07,
      "loss": 1.0407,
      "step": 490
    },
    {
      "epoch": 0.9742063492063492,
      "grad_norm": 0.19921875,
      "learning_rate": 2.579365079365079e-07,
      "loss": 1.0732,
      "step": 491
    },
    {
      "epoch": 0.9761904761904762,
      "grad_norm": 0.1962890625,
      "learning_rate": 2.3809523809523811e-07,
      "loss": 1.0392,
      "step": 492
    },
    {
      "epoch": 0.9781746031746031,
      "grad_norm": 0.1875,
      "learning_rate": 2.1825396825396825e-07,
      "loss": 1.0032,
      "step": 493
    },
    {
      "epoch": 0.9801587301587301,
      "grad_norm": 0.189453125,
      "learning_rate": 1.9841269841269841e-07,
      "loss": 1.065,
      "step": 494
    },
    {
      "epoch": 0.9821428571428571,
      "grad_norm": 0.21875,
      "learning_rate": 1.7857142857142858e-07,
      "loss": 1.0535,
      "step": 495
    },
    {
      "epoch": 0.9841269841269841,
      "grad_norm": 0.201171875,
      "learning_rate": 1.5873015873015874e-07,
      "loss": 1.0866,
      "step": 496
    },
    {
      "epoch": 0.9861111111111112,
      "grad_norm": 0.20703125,
      "learning_rate": 1.3888888888888888e-07,
      "loss": 1.0346,
      "step": 497
    },
    {
      "epoch": 0.9880952380952381,
      "grad_norm": 0.19921875,
      "learning_rate": 1.1904761904761906e-07,
      "loss": 1.0466,
      "step": 498
    },
    {
      "epoch": 0.9900793650793651,
      "grad_norm": 0.1845703125,
      "learning_rate": 9.920634920634921e-08,
      "loss": 1.0437,
      "step": 499
    },
    {
      "epoch": 0.9920634920634921,
      "grad_norm": 0.2080078125,
      "learning_rate": 7.936507936507937e-08,
      "loss": 1.0085,
      "step": 500
    },
    {
      "epoch": 0.9940476190476191,
      "grad_norm": 0.181640625,
      "learning_rate": 5.952380952380953e-08,
      "loss": 1.037,
      "step": 501
    },
    {
      "epoch": 0.996031746031746,
      "grad_norm": 0.1953125,
      "learning_rate": 3.9682539682539686e-08,
      "loss": 1.0406,
      "step": 502
    },
    {
      "epoch": 0.998015873015873,
      "grad_norm": 0.3046875,
      "learning_rate": 1.9841269841269843e-08,
      "loss": 1.0676,
      "step": 503
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.36328125,
      "learning_rate": 0.0,
      "loss": 0.9553,
      "step": 504
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 504,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.6202447413271593e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}