{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 0, "global_step": 240, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.004166666666666667, "grad_norm": 0.0810546875, "learning_rate": 9.958333333333334e-06, "loss": 1.8225, "step": 1 }, { "epoch": 0.008333333333333333, "grad_norm": 0.080078125, "learning_rate": 9.916666666666668e-06, "loss": 1.7501, "step": 2 }, { "epoch": 0.0125, "grad_norm": 0.07763671875, "learning_rate": 9.875000000000001e-06, "loss": 1.7474, "step": 3 }, { "epoch": 0.016666666666666666, "grad_norm": 0.08203125, "learning_rate": 9.833333333333333e-06, "loss": 1.8255, "step": 4 }, { "epoch": 0.020833333333333332, "grad_norm": 0.08544921875, "learning_rate": 9.791666666666666e-06, "loss": 1.809, "step": 5 }, { "epoch": 0.025, "grad_norm": 0.087890625, "learning_rate": 9.75e-06, "loss": 1.8794, "step": 6 }, { "epoch": 0.029166666666666667, "grad_norm": 0.09619140625, "learning_rate": 9.708333333333333e-06, "loss": 1.9053, "step": 7 }, { "epoch": 0.03333333333333333, "grad_norm": 0.09912109375, "learning_rate": 9.666666666666667e-06, "loss": 1.824, "step": 8 }, { "epoch": 0.0375, "grad_norm": 0.09375, "learning_rate": 9.625e-06, "loss": 1.8051, "step": 9 }, { "epoch": 0.041666666666666664, "grad_norm": 0.0986328125, "learning_rate": 9.583333333333335e-06, "loss": 1.7789, "step": 10 }, { "epoch": 0.04583333333333333, "grad_norm": 0.107421875, "learning_rate": 9.541666666666669e-06, "loss": 1.8226, "step": 11 }, { "epoch": 0.05, "grad_norm": 0.10546875, "learning_rate": 9.5e-06, "loss": 1.8282, "step": 12 }, { "epoch": 0.05416666666666667, "grad_norm": 0.1064453125, "learning_rate": 9.458333333333334e-06, "loss": 1.8244, "step": 13 }, { "epoch": 0.058333333333333334, "grad_norm": 0.115234375, "learning_rate": 9.416666666666667e-06, "loss": 1.8254, "step": 14 }, { "epoch": 0.0625, "grad_norm": 0.11572265625, "learning_rate": 9.375000000000001e-06, "loss": 1.7628, "step": 15 }, { "epoch": 0.06666666666666667, "grad_norm": 0.12158203125, "learning_rate": 9.333333333333334e-06, "loss": 1.8432, "step": 16 }, { "epoch": 0.07083333333333333, "grad_norm": 0.11767578125, "learning_rate": 9.291666666666668e-06, "loss": 1.7466, "step": 17 }, { "epoch": 0.075, "grad_norm": 0.1279296875, "learning_rate": 9.250000000000001e-06, "loss": 1.7677, "step": 18 }, { "epoch": 0.07916666666666666, "grad_norm": 0.1357421875, "learning_rate": 9.208333333333333e-06, "loss": 1.8224, "step": 19 }, { "epoch": 0.08333333333333333, "grad_norm": 0.12890625, "learning_rate": 9.166666666666666e-06, "loss": 1.7112, "step": 20 }, { "epoch": 0.0875, "grad_norm": 0.1435546875, "learning_rate": 9.125e-06, "loss": 1.8548, "step": 21 }, { "epoch": 0.09166666666666666, "grad_norm": 0.146484375, "learning_rate": 9.083333333333333e-06, "loss": 1.7838, "step": 22 }, { "epoch": 0.09583333333333334, "grad_norm": 0.1552734375, "learning_rate": 9.041666666666667e-06, "loss": 1.8601, "step": 23 }, { "epoch": 0.1, "grad_norm": 0.15234375, "learning_rate": 9e-06, "loss": 1.8107, "step": 24 }, { "epoch": 0.10416666666666667, "grad_norm": 0.158203125, "learning_rate": 8.958333333333334e-06, "loss": 1.8736, "step": 25 }, { "epoch": 0.10833333333333334, "grad_norm": 0.1650390625, "learning_rate": 8.916666666666667e-06, "loss": 1.8847, "step": 26 }, { "epoch": 0.1125, "grad_norm": 0.154296875, "learning_rate": 8.875e-06, "loss": 1.7122, "step": 27 }, { "epoch": 0.11666666666666667, "grad_norm": 0.17578125, "learning_rate": 8.833333333333334e-06, "loss": 1.8305, "step": 28 }, { "epoch": 0.12083333333333333, "grad_norm": 0.16796875, "learning_rate": 8.791666666666667e-06, "loss": 1.8039, "step": 29 }, { "epoch": 0.125, "grad_norm": 0.185546875, "learning_rate": 8.750000000000001e-06, "loss": 1.9022, "step": 30 }, { "epoch": 0.12916666666666668, "grad_norm": 0.177734375, "learning_rate": 8.708333333333334e-06, "loss": 1.8319, "step": 31 }, { "epoch": 0.13333333333333333, "grad_norm": 0.1904296875, "learning_rate": 8.666666666666668e-06, "loss": 1.8155, "step": 32 }, { "epoch": 0.1375, "grad_norm": 0.1904296875, "learning_rate": 8.625000000000001e-06, "loss": 1.9053, "step": 33 }, { "epoch": 0.14166666666666666, "grad_norm": 0.189453125, "learning_rate": 8.583333333333333e-06, "loss": 1.7392, "step": 34 }, { "epoch": 0.14583333333333334, "grad_norm": 0.1875, "learning_rate": 8.541666666666666e-06, "loss": 1.7205, "step": 35 }, { "epoch": 0.15, "grad_norm": 0.1904296875, "learning_rate": 8.5e-06, "loss": 1.8291, "step": 36 }, { "epoch": 0.15416666666666667, "grad_norm": 0.2060546875, "learning_rate": 8.458333333333333e-06, "loss": 1.9202, "step": 37 }, { "epoch": 0.15833333333333333, "grad_norm": 0.1943359375, "learning_rate": 8.416666666666667e-06, "loss": 1.7182, "step": 38 }, { "epoch": 0.1625, "grad_norm": 0.1943359375, "learning_rate": 8.375e-06, "loss": 1.6669, "step": 39 }, { "epoch": 0.16666666666666666, "grad_norm": 0.1982421875, "learning_rate": 8.333333333333334e-06, "loss": 1.7404, "step": 40 }, { "epoch": 0.17083333333333334, "grad_norm": 0.19921875, "learning_rate": 8.291666666666667e-06, "loss": 1.7288, "step": 41 }, { "epoch": 0.175, "grad_norm": 0.203125, "learning_rate": 8.25e-06, "loss": 1.7685, "step": 42 }, { "epoch": 0.17916666666666667, "grad_norm": 0.20703125, "learning_rate": 8.208333333333334e-06, "loss": 1.7245, "step": 43 }, { "epoch": 0.18333333333333332, "grad_norm": 0.2255859375, "learning_rate": 8.166666666666668e-06, "loss": 1.8366, "step": 44 }, { "epoch": 0.1875, "grad_norm": 0.19921875, "learning_rate": 8.125000000000001e-06, "loss": 1.6804, "step": 45 }, { "epoch": 0.19166666666666668, "grad_norm": 0.212890625, "learning_rate": 8.083333333333334e-06, "loss": 1.7792, "step": 46 }, { "epoch": 0.19583333333333333, "grad_norm": 0.20703125, "learning_rate": 8.041666666666668e-06, "loss": 1.6088, "step": 47 }, { "epoch": 0.2, "grad_norm": 0.2099609375, "learning_rate": 8.000000000000001e-06, "loss": 1.7978, "step": 48 }, { "epoch": 0.20416666666666666, "grad_norm": 0.201171875, "learning_rate": 7.958333333333333e-06, "loss": 1.7433, "step": 49 }, { "epoch": 0.20833333333333334, "grad_norm": 0.2177734375, "learning_rate": 7.916666666666667e-06, "loss": 1.7625, "step": 50 }, { "epoch": 0.2125, "grad_norm": 0.20703125, "learning_rate": 7.875e-06, "loss": 1.7366, "step": 51 }, { "epoch": 0.21666666666666667, "grad_norm": 0.2099609375, "learning_rate": 7.833333333333333e-06, "loss": 1.7219, "step": 52 }, { "epoch": 0.22083333333333333, "grad_norm": 0.21875, "learning_rate": 7.791666666666667e-06, "loss": 1.6785, "step": 53 }, { "epoch": 0.225, "grad_norm": 0.22265625, "learning_rate": 7.75e-06, "loss": 1.8373, "step": 54 }, { "epoch": 0.22916666666666666, "grad_norm": 0.2060546875, "learning_rate": 7.708333333333334e-06, "loss": 1.7004, "step": 55 }, { "epoch": 0.23333333333333334, "grad_norm": 0.216796875, "learning_rate": 7.666666666666667e-06, "loss": 1.8072, "step": 56 }, { "epoch": 0.2375, "grad_norm": 0.20703125, "learning_rate": 7.625e-06, "loss": 1.674, "step": 57 }, { "epoch": 0.24166666666666667, "grad_norm": 0.201171875, "learning_rate": 7.583333333333333e-06, "loss": 1.7009, "step": 58 }, { "epoch": 0.24583333333333332, "grad_norm": 0.216796875, "learning_rate": 7.541666666666667e-06, "loss": 1.7347, "step": 59 }, { "epoch": 0.25, "grad_norm": 0.2001953125, "learning_rate": 7.500000000000001e-06, "loss": 1.6663, "step": 60 }, { "epoch": 0.25416666666666665, "grad_norm": 0.2197265625, "learning_rate": 7.4583333333333345e-06, "loss": 1.7317, "step": 61 }, { "epoch": 0.25833333333333336, "grad_norm": 0.2080078125, "learning_rate": 7.416666666666668e-06, "loss": 1.7029, "step": 62 }, { "epoch": 0.2625, "grad_norm": 0.2158203125, "learning_rate": 7.375000000000001e-06, "loss": 1.74, "step": 63 }, { "epoch": 0.26666666666666666, "grad_norm": 0.20703125, "learning_rate": 7.333333333333333e-06, "loss": 1.6429, "step": 64 }, { "epoch": 0.2708333333333333, "grad_norm": 0.21484375, "learning_rate": 7.291666666666667e-06, "loss": 1.5618, "step": 65 }, { "epoch": 0.275, "grad_norm": 0.216796875, "learning_rate": 7.25e-06, "loss": 1.7581, "step": 66 }, { "epoch": 0.2791666666666667, "grad_norm": 0.22265625, "learning_rate": 7.2083333333333335e-06, "loss": 1.7229, "step": 67 }, { "epoch": 0.2833333333333333, "grad_norm": 0.20703125, "learning_rate": 7.166666666666667e-06, "loss": 1.6223, "step": 68 }, { "epoch": 0.2875, "grad_norm": 0.216796875, "learning_rate": 7.125e-06, "loss": 1.6298, "step": 69 }, { "epoch": 0.2916666666666667, "grad_norm": 0.2109375, "learning_rate": 7.083333333333335e-06, "loss": 1.6772, "step": 70 }, { "epoch": 0.29583333333333334, "grad_norm": 0.2236328125, "learning_rate": 7.041666666666668e-06, "loss": 1.7603, "step": 71 }, { "epoch": 0.3, "grad_norm": 0.20703125, "learning_rate": 7e-06, "loss": 1.7084, "step": 72 }, { "epoch": 0.30416666666666664, "grad_norm": 0.21484375, "learning_rate": 6.958333333333333e-06, "loss": 1.7541, "step": 73 }, { "epoch": 0.30833333333333335, "grad_norm": 0.212890625, "learning_rate": 6.916666666666667e-06, "loss": 1.7278, "step": 74 }, { "epoch": 0.3125, "grad_norm": 0.205078125, "learning_rate": 6.875e-06, "loss": 1.5406, "step": 75 }, { "epoch": 0.31666666666666665, "grad_norm": 0.1982421875, "learning_rate": 6.833333333333334e-06, "loss": 1.6959, "step": 76 }, { "epoch": 0.32083333333333336, "grad_norm": 0.2099609375, "learning_rate": 6.791666666666667e-06, "loss": 1.6069, "step": 77 }, { "epoch": 0.325, "grad_norm": 0.197265625, "learning_rate": 6.750000000000001e-06, "loss": 1.5912, "step": 78 }, { "epoch": 0.32916666666666666, "grad_norm": 0.2216796875, "learning_rate": 6.708333333333333e-06, "loss": 1.756, "step": 79 }, { "epoch": 0.3333333333333333, "grad_norm": 0.203125, "learning_rate": 6.666666666666667e-06, "loss": 1.5706, "step": 80 }, { "epoch": 0.3375, "grad_norm": 0.2060546875, "learning_rate": 6.625e-06, "loss": 1.6126, "step": 81 }, { "epoch": 0.3416666666666667, "grad_norm": 0.2119140625, "learning_rate": 6.5833333333333335e-06, "loss": 1.6933, "step": 82 }, { "epoch": 0.3458333333333333, "grad_norm": 0.2021484375, "learning_rate": 6.541666666666667e-06, "loss": 1.6899, "step": 83 }, { "epoch": 0.35, "grad_norm": 0.1884765625, "learning_rate": 6.5000000000000004e-06, "loss": 1.7091, "step": 84 }, { "epoch": 0.3541666666666667, "grad_norm": 0.203125, "learning_rate": 6.458333333333334e-06, "loss": 1.6455, "step": 85 }, { "epoch": 0.35833333333333334, "grad_norm": 0.197265625, "learning_rate": 6.416666666666667e-06, "loss": 1.6138, "step": 86 }, { "epoch": 0.3625, "grad_norm": 0.2001953125, "learning_rate": 6.375e-06, "loss": 1.6739, "step": 87 }, { "epoch": 0.36666666666666664, "grad_norm": 0.1884765625, "learning_rate": 6.333333333333333e-06, "loss": 1.6392, "step": 88 }, { "epoch": 0.37083333333333335, "grad_norm": 0.1875, "learning_rate": 6.291666666666667e-06, "loss": 1.5993, "step": 89 }, { "epoch": 0.375, "grad_norm": 0.1875, "learning_rate": 6.25e-06, "loss": 1.6435, "step": 90 }, { "epoch": 0.37916666666666665, "grad_norm": 0.177734375, "learning_rate": 6.208333333333334e-06, "loss": 1.6186, "step": 91 }, { "epoch": 0.38333333333333336, "grad_norm": 0.1826171875, "learning_rate": 6.166666666666667e-06, "loss": 1.6222, "step": 92 }, { "epoch": 0.3875, "grad_norm": 0.1826171875, "learning_rate": 6.125000000000001e-06, "loss": 1.6585, "step": 93 }, { "epoch": 0.39166666666666666, "grad_norm": 0.181640625, "learning_rate": 6.083333333333333e-06, "loss": 1.6468, "step": 94 }, { "epoch": 0.3958333333333333, "grad_norm": 0.1689453125, "learning_rate": 6.041666666666667e-06, "loss": 1.5735, "step": 95 }, { "epoch": 0.4, "grad_norm": 0.18359375, "learning_rate": 6e-06, "loss": 1.6269, "step": 96 }, { "epoch": 0.4041666666666667, "grad_norm": 0.1650390625, "learning_rate": 5.958333333333334e-06, "loss": 1.5639, "step": 97 }, { "epoch": 0.4083333333333333, "grad_norm": 0.162109375, "learning_rate": 5.916666666666667e-06, "loss": 1.5403, "step": 98 }, { "epoch": 0.4125, "grad_norm": 0.1728515625, "learning_rate": 5.8750000000000005e-06, "loss": 1.6163, "step": 99 }, { "epoch": 0.4166666666666667, "grad_norm": 0.1953125, "learning_rate": 5.833333333333334e-06, "loss": 1.6144, "step": 100 }, { "epoch": 0.42083333333333334, "grad_norm": 0.1953125, "learning_rate": 5.791666666666667e-06, "loss": 1.6235, "step": 101 }, { "epoch": 0.425, "grad_norm": 0.15625, "learning_rate": 5.75e-06, "loss": 1.6294, "step": 102 }, { "epoch": 0.42916666666666664, "grad_norm": 0.18359375, "learning_rate": 5.7083333333333335e-06, "loss": 1.6213, "step": 103 }, { "epoch": 0.43333333333333335, "grad_norm": 0.181640625, "learning_rate": 5.666666666666667e-06, "loss": 1.6473, "step": 104 }, { "epoch": 0.4375, "grad_norm": 0.169921875, "learning_rate": 5.625e-06, "loss": 1.6277, "step": 105 }, { "epoch": 0.44166666666666665, "grad_norm": 0.1748046875, "learning_rate": 5.583333333333334e-06, "loss": 1.6694, "step": 106 }, { "epoch": 0.44583333333333336, "grad_norm": 0.1748046875, "learning_rate": 5.541666666666667e-06, "loss": 1.641, "step": 107 }, { "epoch": 0.45, "grad_norm": 0.1669921875, "learning_rate": 5.500000000000001e-06, "loss": 1.5473, "step": 108 }, { "epoch": 0.45416666666666666, "grad_norm": 0.173828125, "learning_rate": 5.458333333333333e-06, "loss": 1.6376, "step": 109 }, { "epoch": 0.4583333333333333, "grad_norm": 0.171875, "learning_rate": 5.416666666666667e-06, "loss": 1.6757, "step": 110 }, { "epoch": 0.4625, "grad_norm": 0.1806640625, "learning_rate": 5.375e-06, "loss": 1.6694, "step": 111 }, { "epoch": 0.4666666666666667, "grad_norm": 0.1689453125, "learning_rate": 5.333333333333334e-06, "loss": 1.7052, "step": 112 }, { "epoch": 0.4708333333333333, "grad_norm": 0.169921875, "learning_rate": 5.291666666666667e-06, "loss": 1.6402, "step": 113 }, { "epoch": 0.475, "grad_norm": 0.17578125, "learning_rate": 5.2500000000000006e-06, "loss": 1.5645, "step": 114 }, { "epoch": 0.4791666666666667, "grad_norm": 0.1767578125, "learning_rate": 5.208333333333334e-06, "loss": 1.5647, "step": 115 }, { "epoch": 0.48333333333333334, "grad_norm": 0.1708984375, "learning_rate": 5.1666666666666675e-06, "loss": 1.5426, "step": 116 }, { "epoch": 0.4875, "grad_norm": 0.158203125, "learning_rate": 5.125e-06, "loss": 1.541, "step": 117 }, { "epoch": 0.49166666666666664, "grad_norm": 0.166015625, "learning_rate": 5.0833333333333335e-06, "loss": 1.5706, "step": 118 }, { "epoch": 0.49583333333333335, "grad_norm": 0.16796875, "learning_rate": 5.041666666666667e-06, "loss": 1.6043, "step": 119 }, { "epoch": 0.5, "grad_norm": 0.1669921875, "learning_rate": 5e-06, "loss": 1.6266, "step": 120 }, { "epoch": 0.5041666666666667, "grad_norm": 0.1826171875, "learning_rate": 4.958333333333334e-06, "loss": 1.625, "step": 121 }, { "epoch": 0.5083333333333333, "grad_norm": 0.181640625, "learning_rate": 4.9166666666666665e-06, "loss": 1.6646, "step": 122 }, { "epoch": 0.5125, "grad_norm": 0.1787109375, "learning_rate": 4.875e-06, "loss": 1.5717, "step": 123 }, { "epoch": 0.5166666666666667, "grad_norm": 0.1708984375, "learning_rate": 4.833333333333333e-06, "loss": 1.6039, "step": 124 }, { "epoch": 0.5208333333333334, "grad_norm": 0.1787109375, "learning_rate": 4.791666666666668e-06, "loss": 1.6058, "step": 125 }, { "epoch": 0.525, "grad_norm": 0.166015625, "learning_rate": 4.75e-06, "loss": 1.5795, "step": 126 }, { "epoch": 0.5291666666666667, "grad_norm": 0.1962890625, "learning_rate": 4.708333333333334e-06, "loss": 1.6041, "step": 127 }, { "epoch": 0.5333333333333333, "grad_norm": 0.1767578125, "learning_rate": 4.666666666666667e-06, "loss": 1.589, "step": 128 }, { "epoch": 0.5375, "grad_norm": 0.1669921875, "learning_rate": 4.625000000000001e-06, "loss": 1.6457, "step": 129 }, { "epoch": 0.5416666666666666, "grad_norm": 0.1455078125, "learning_rate": 4.583333333333333e-06, "loss": 1.5313, "step": 130 }, { "epoch": 0.5458333333333333, "grad_norm": 0.1748046875, "learning_rate": 4.541666666666667e-06, "loss": 1.6204, "step": 131 }, { "epoch": 0.55, "grad_norm": 0.1787109375, "learning_rate": 4.5e-06, "loss": 1.5545, "step": 132 }, { "epoch": 0.5541666666666667, "grad_norm": 0.173828125, "learning_rate": 4.4583333333333336e-06, "loss": 1.5405, "step": 133 }, { "epoch": 0.5583333333333333, "grad_norm": 0.17578125, "learning_rate": 4.416666666666667e-06, "loss": 1.6191, "step": 134 }, { "epoch": 0.5625, "grad_norm": 0.1845703125, "learning_rate": 4.3750000000000005e-06, "loss": 1.6164, "step": 135 }, { "epoch": 0.5666666666666667, "grad_norm": 0.1611328125, "learning_rate": 4.333333333333334e-06, "loss": 1.5086, "step": 136 }, { "epoch": 0.5708333333333333, "grad_norm": 0.1943359375, "learning_rate": 4.2916666666666665e-06, "loss": 1.6954, "step": 137 }, { "epoch": 0.575, "grad_norm": 0.1669921875, "learning_rate": 4.25e-06, "loss": 1.5325, "step": 138 }, { "epoch": 0.5791666666666667, "grad_norm": 0.1630859375, "learning_rate": 4.208333333333333e-06, "loss": 1.4837, "step": 139 }, { "epoch": 0.5833333333333334, "grad_norm": 0.1650390625, "learning_rate": 4.166666666666667e-06, "loss": 1.4687, "step": 140 }, { "epoch": 0.5875, "grad_norm": 0.1484375, "learning_rate": 4.125e-06, "loss": 1.5306, "step": 141 }, { "epoch": 0.5916666666666667, "grad_norm": 0.1689453125, "learning_rate": 4.083333333333334e-06, "loss": 1.5744, "step": 142 }, { "epoch": 0.5958333333333333, "grad_norm": 0.1806640625, "learning_rate": 4.041666666666667e-06, "loss": 1.6036, "step": 143 }, { "epoch": 0.6, "grad_norm": 0.162109375, "learning_rate": 4.000000000000001e-06, "loss": 1.5626, "step": 144 }, { "epoch": 0.6041666666666666, "grad_norm": 0.1708984375, "learning_rate": 3.958333333333333e-06, "loss": 1.5668, "step": 145 }, { "epoch": 0.6083333333333333, "grad_norm": 0.177734375, "learning_rate": 3.916666666666667e-06, "loss": 1.6311, "step": 146 }, { "epoch": 0.6125, "grad_norm": 0.16015625, "learning_rate": 3.875e-06, "loss": 1.5842, "step": 147 }, { "epoch": 0.6166666666666667, "grad_norm": 0.1611328125, "learning_rate": 3.833333333333334e-06, "loss": 1.5253, "step": 148 }, { "epoch": 0.6208333333333333, "grad_norm": 0.169921875, "learning_rate": 3.7916666666666666e-06, "loss": 1.5071, "step": 149 }, { "epoch": 0.625, "grad_norm": 0.1728515625, "learning_rate": 3.7500000000000005e-06, "loss": 1.5554, "step": 150 }, { "epoch": 0.6291666666666667, "grad_norm": 0.1728515625, "learning_rate": 3.708333333333334e-06, "loss": 1.5731, "step": 151 }, { "epoch": 0.6333333333333333, "grad_norm": 0.1826171875, "learning_rate": 3.6666666666666666e-06, "loss": 1.5702, "step": 152 }, { "epoch": 0.6375, "grad_norm": 0.166015625, "learning_rate": 3.625e-06, "loss": 1.557, "step": 153 }, { "epoch": 0.6416666666666667, "grad_norm": 0.1826171875, "learning_rate": 3.5833333333333335e-06, "loss": 1.5613, "step": 154 }, { "epoch": 0.6458333333333334, "grad_norm": 0.380859375, "learning_rate": 3.5416666666666673e-06, "loss": 1.4548, "step": 155 }, { "epoch": 0.65, "grad_norm": 0.1875, "learning_rate": 3.5e-06, "loss": 1.6208, "step": 156 }, { "epoch": 0.6541666666666667, "grad_norm": 0.181640625, "learning_rate": 3.4583333333333334e-06, "loss": 1.5561, "step": 157 }, { "epoch": 0.6583333333333333, "grad_norm": 0.1865234375, "learning_rate": 3.416666666666667e-06, "loss": 1.5744, "step": 158 }, { "epoch": 0.6625, "grad_norm": 0.189453125, "learning_rate": 3.3750000000000003e-06, "loss": 1.6337, "step": 159 }, { "epoch": 0.6666666666666666, "grad_norm": 0.1748046875, "learning_rate": 3.3333333333333333e-06, "loss": 1.5903, "step": 160 }, { "epoch": 0.6708333333333333, "grad_norm": 0.1787109375, "learning_rate": 3.2916666666666668e-06, "loss": 1.5902, "step": 161 }, { "epoch": 0.675, "grad_norm": 0.1689453125, "learning_rate": 3.2500000000000002e-06, "loss": 1.4456, "step": 162 }, { "epoch": 0.6791666666666667, "grad_norm": 0.1708984375, "learning_rate": 3.2083333333333337e-06, "loss": 1.5743, "step": 163 }, { "epoch": 0.6833333333333333, "grad_norm": 0.1767578125, "learning_rate": 3.1666666666666667e-06, "loss": 1.6385, "step": 164 }, { "epoch": 0.6875, "grad_norm": 0.181640625, "learning_rate": 3.125e-06, "loss": 1.5635, "step": 165 }, { "epoch": 0.6916666666666667, "grad_norm": 0.181640625, "learning_rate": 3.0833333333333336e-06, "loss": 1.5925, "step": 166 }, { "epoch": 0.6958333333333333, "grad_norm": 0.1728515625, "learning_rate": 3.0416666666666666e-06, "loss": 1.46, "step": 167 }, { "epoch": 0.7, "grad_norm": 0.1728515625, "learning_rate": 3e-06, "loss": 1.6166, "step": 168 }, { "epoch": 0.7041666666666667, "grad_norm": 0.18359375, "learning_rate": 2.9583333333333335e-06, "loss": 1.5004, "step": 169 }, { "epoch": 0.7083333333333334, "grad_norm": 0.1650390625, "learning_rate": 2.916666666666667e-06, "loss": 1.5079, "step": 170 }, { "epoch": 0.7125, "grad_norm": 0.1748046875, "learning_rate": 2.875e-06, "loss": 1.4635, "step": 171 }, { "epoch": 0.7166666666666667, "grad_norm": 0.1728515625, "learning_rate": 2.8333333333333335e-06, "loss": 1.4983, "step": 172 }, { "epoch": 0.7208333333333333, "grad_norm": 0.1728515625, "learning_rate": 2.791666666666667e-06, "loss": 1.5627, "step": 173 }, { "epoch": 0.725, "grad_norm": 0.255859375, "learning_rate": 2.7500000000000004e-06, "loss": 1.8097, "step": 174 }, { "epoch": 0.7291666666666666, "grad_norm": 0.1748046875, "learning_rate": 2.7083333333333334e-06, "loss": 1.6103, "step": 175 }, { "epoch": 0.7333333333333333, "grad_norm": 0.169921875, "learning_rate": 2.666666666666667e-06, "loss": 1.5194, "step": 176 }, { "epoch": 0.7375, "grad_norm": 0.1806640625, "learning_rate": 2.6250000000000003e-06, "loss": 1.5314, "step": 177 }, { "epoch": 0.7416666666666667, "grad_norm": 0.1923828125, "learning_rate": 2.5833333333333337e-06, "loss": 1.6014, "step": 178 }, { "epoch": 0.7458333333333333, "grad_norm": 0.173828125, "learning_rate": 2.5416666666666668e-06, "loss": 1.513, "step": 179 }, { "epoch": 0.75, "grad_norm": 0.166015625, "learning_rate": 2.5e-06, "loss": 1.4847, "step": 180 }, { "epoch": 0.7541666666666667, "grad_norm": 0.162109375, "learning_rate": 2.4583333333333332e-06, "loss": 1.4203, "step": 181 }, { "epoch": 0.7583333333333333, "grad_norm": 0.1728515625, "learning_rate": 2.4166666666666667e-06, "loss": 1.5352, "step": 182 }, { "epoch": 0.7625, "grad_norm": 0.1875, "learning_rate": 2.375e-06, "loss": 1.5893, "step": 183 }, { "epoch": 0.7666666666666667, "grad_norm": 0.18359375, "learning_rate": 2.3333333333333336e-06, "loss": 1.6093, "step": 184 }, { "epoch": 0.7708333333333334, "grad_norm": 0.208984375, "learning_rate": 2.2916666666666666e-06, "loss": 1.585, "step": 185 }, { "epoch": 0.775, "grad_norm": 0.19140625, "learning_rate": 2.25e-06, "loss": 1.5585, "step": 186 }, { "epoch": 0.7791666666666667, "grad_norm": 0.2021484375, "learning_rate": 2.2083333333333335e-06, "loss": 1.5973, "step": 187 }, { "epoch": 0.7833333333333333, "grad_norm": 0.1689453125, "learning_rate": 2.166666666666667e-06, "loss": 1.5461, "step": 188 }, { "epoch": 0.7875, "grad_norm": 0.1796875, "learning_rate": 2.125e-06, "loss": 1.4979, "step": 189 }, { "epoch": 0.7916666666666666, "grad_norm": 0.1787109375, "learning_rate": 2.0833333333333334e-06, "loss": 1.5274, "step": 190 }, { "epoch": 0.7958333333333333, "grad_norm": 0.181640625, "learning_rate": 2.041666666666667e-06, "loss": 1.5204, "step": 191 }, { "epoch": 0.8, "grad_norm": 0.177734375, "learning_rate": 2.0000000000000003e-06, "loss": 1.5856, "step": 192 }, { "epoch": 0.8041666666666667, "grad_norm": 0.19140625, "learning_rate": 1.9583333333333334e-06, "loss": 1.5527, "step": 193 }, { "epoch": 0.8083333333333333, "grad_norm": 0.1767578125, "learning_rate": 1.916666666666667e-06, "loss": 1.5081, "step": 194 }, { "epoch": 0.8125, "grad_norm": 0.169921875, "learning_rate": 1.8750000000000003e-06, "loss": 1.535, "step": 195 }, { "epoch": 0.8166666666666667, "grad_norm": 0.1953125, "learning_rate": 1.8333333333333333e-06, "loss": 1.6183, "step": 196 }, { "epoch": 0.8208333333333333, "grad_norm": 0.1923828125, "learning_rate": 1.7916666666666667e-06, "loss": 1.5314, "step": 197 }, { "epoch": 0.825, "grad_norm": 0.177734375, "learning_rate": 1.75e-06, "loss": 1.5538, "step": 198 }, { "epoch": 0.8291666666666667, "grad_norm": 0.185546875, "learning_rate": 1.7083333333333334e-06, "loss": 1.5997, "step": 199 }, { "epoch": 0.8333333333333334, "grad_norm": 0.16796875, "learning_rate": 1.6666666666666667e-06, "loss": 1.5586, "step": 200 }, { "epoch": 0.8375, "grad_norm": 0.2001953125, "learning_rate": 1.6250000000000001e-06, "loss": 1.5757, "step": 201 }, { "epoch": 0.8416666666666667, "grad_norm": 0.1962890625, "learning_rate": 1.5833333333333333e-06, "loss": 1.5227, "step": 202 }, { "epoch": 0.8458333333333333, "grad_norm": 0.1728515625, "learning_rate": 1.5416666666666668e-06, "loss": 1.4703, "step": 203 }, { "epoch": 0.85, "grad_norm": 0.169921875, "learning_rate": 1.5e-06, "loss": 1.4734, "step": 204 }, { "epoch": 0.8541666666666666, "grad_norm": 0.177734375, "learning_rate": 1.4583333333333335e-06, "loss": 1.5338, "step": 205 }, { "epoch": 0.8583333333333333, "grad_norm": 0.232421875, "learning_rate": 1.4166666666666667e-06, "loss": 1.6195, "step": 206 }, { "epoch": 0.8625, "grad_norm": 0.162109375, "learning_rate": 1.3750000000000002e-06, "loss": 1.5016, "step": 207 }, { "epoch": 0.8666666666666667, "grad_norm": 0.158203125, "learning_rate": 1.3333333333333334e-06, "loss": 1.4991, "step": 208 }, { "epoch": 0.8708333333333333, "grad_norm": 0.1767578125, "learning_rate": 1.2916666666666669e-06, "loss": 1.5097, "step": 209 }, { "epoch": 0.875, "grad_norm": 0.18359375, "learning_rate": 1.25e-06, "loss": 1.5577, "step": 210 }, { "epoch": 0.8791666666666667, "grad_norm": 0.1845703125, "learning_rate": 1.2083333333333333e-06, "loss": 1.5857, "step": 211 }, { "epoch": 0.8833333333333333, "grad_norm": 0.1865234375, "learning_rate": 1.1666666666666668e-06, "loss": 1.6273, "step": 212 }, { "epoch": 0.8875, "grad_norm": 0.1669921875, "learning_rate": 1.125e-06, "loss": 1.5253, "step": 213 }, { "epoch": 0.8916666666666667, "grad_norm": 0.185546875, "learning_rate": 1.0833333333333335e-06, "loss": 1.6428, "step": 214 }, { "epoch": 0.8958333333333334, "grad_norm": 0.1767578125, "learning_rate": 1.0416666666666667e-06, "loss": 1.4987, "step": 215 }, { "epoch": 0.9, "grad_norm": 0.1865234375, "learning_rate": 1.0000000000000002e-06, "loss": 1.6335, "step": 216 }, { "epoch": 0.9041666666666667, "grad_norm": 0.162109375, "learning_rate": 9.583333333333334e-07, "loss": 1.5747, "step": 217 }, { "epoch": 0.9083333333333333, "grad_norm": 0.1796875, "learning_rate": 9.166666666666666e-07, "loss": 1.5138, "step": 218 }, { "epoch": 0.9125, "grad_norm": 0.1845703125, "learning_rate": 8.75e-07, "loss": 1.6155, "step": 219 }, { "epoch": 0.9166666666666666, "grad_norm": 0.1923828125, "learning_rate": 8.333333333333333e-07, "loss": 1.6407, "step": 220 }, { "epoch": 0.9208333333333333, "grad_norm": 0.1728515625, "learning_rate": 7.916666666666667e-07, "loss": 1.5713, "step": 221 }, { "epoch": 0.925, "grad_norm": 0.189453125, "learning_rate": 7.5e-07, "loss": 1.5764, "step": 222 }, { "epoch": 0.9291666666666667, "grad_norm": 0.1748046875, "learning_rate": 7.083333333333334e-07, "loss": 1.4859, "step": 223 }, { "epoch": 0.9333333333333333, "grad_norm": 0.21484375, "learning_rate": 6.666666666666667e-07, "loss": 1.6655, "step": 224 }, { "epoch": 0.9375, "grad_norm": 0.173828125, "learning_rate": 6.25e-07, "loss": 1.563, "step": 225 }, { "epoch": 0.9416666666666667, "grad_norm": 0.1845703125, "learning_rate": 5.833333333333334e-07, "loss": 1.6299, "step": 226 }, { "epoch": 0.9458333333333333, "grad_norm": 0.18359375, "learning_rate": 5.416666666666667e-07, "loss": 1.5316, "step": 227 }, { "epoch": 0.95, "grad_norm": 0.17578125, "learning_rate": 5.000000000000001e-07, "loss": 1.5593, "step": 228 }, { "epoch": 0.9541666666666667, "grad_norm": 0.19140625, "learning_rate": 4.583333333333333e-07, "loss": 1.5955, "step": 229 }, { "epoch": 0.9583333333333334, "grad_norm": 0.18359375, "learning_rate": 4.1666666666666667e-07, "loss": 1.5528, "step": 230 }, { "epoch": 0.9625, "grad_norm": 0.1806640625, "learning_rate": 3.75e-07, "loss": 1.5151, "step": 231 }, { "epoch": 0.9666666666666667, "grad_norm": 0.1796875, "learning_rate": 3.3333333333333335e-07, "loss": 1.591, "step": 232 }, { "epoch": 0.9708333333333333, "grad_norm": 0.1689453125, "learning_rate": 2.916666666666667e-07, "loss": 1.5771, "step": 233 }, { "epoch": 0.975, "grad_norm": 0.185546875, "learning_rate": 2.5000000000000004e-07, "loss": 1.5384, "step": 234 }, { "epoch": 0.9791666666666666, "grad_norm": 0.1787109375, "learning_rate": 2.0833333333333333e-07, "loss": 1.48, "step": 235 }, { "epoch": 0.9833333333333333, "grad_norm": 0.1728515625, "learning_rate": 1.6666666666666668e-07, "loss": 1.5748, "step": 236 }, { "epoch": 0.9875, "grad_norm": 0.1728515625, "learning_rate": 1.2500000000000002e-07, "loss": 1.5357, "step": 237 }, { "epoch": 0.9916666666666667, "grad_norm": 0.1640625, "learning_rate": 8.333333333333334e-08, "loss": 1.5273, "step": 238 }, { "epoch": 0.9958333333333333, "grad_norm": 0.1787109375, "learning_rate": 4.166666666666667e-08, "loss": 1.5952, "step": 239 }, { "epoch": 1.0, "grad_norm": 0.1806640625, "learning_rate": 0.0, "loss": 1.5733, "step": 240 } ], "logging_steps": 1.0, "max_steps": 240, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 0, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 7.316762986566124e+17, "train_batch_size": 1, "trial_name": null, "trial_params": null }