Training in progress, step 1280, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +451 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6fdfd04882e54d8c85e4fd1121c9b495bdc478d046c30727f9191fb9a7b6ffd
 size 891644712

 version https://git-lfs.github.com/spec/v1
+oid sha256:c19f4b8400a3385551bd98cf95b6e3f1d64dcf7f82712e395c277f316efdb089
 size 891644712

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba9d4b5e87bde4baa1fbc823936a6569f330e0bb67a3c91ff29b3ed40dbaee5c
 size 1783444794

 version https://git-lfs.github.com/spec/v1
+oid sha256:84230522d2dcedf2de4d8922e543f648e253a14cc0db4e635e673f12800b1231
 size 1783444794

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5124869157a4455cd00862d9aaae81127fd59ae804ab56be5a3fc4646cbf1edb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e862bee55033739b9ae895cccb1fea0613d44a4ebc98463c3105553aed127ff
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1620b49b414a5d168f9b30e31d438f72d39f8987ab280bb69dc2bb863354e75d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9822aef898957bd458dc9360bb1e3058b7e31c090ed4f3ed492670e2394dfa96
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6389351081530782,
   "eval_steps": 500,
-  "global_step": 1152,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4039,6 +4039,454 @@
       "learning_rate": 0.00015922098532995083,
       "loss": 0.5526,
       "step": 1152
     }
   ],
   "logging_steps": 2,
@@ -4058,7 +4506,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2806077959700480.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7099278979478647,
   "eval_steps": 500,
+  "global_step": 1280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00015922098532995083,
       "loss": 0.5526,
       "step": 1152
+    },
+    {
+      "epoch": 0.6400443704936217,
+      "grad_norm": 0.2813306152820587,
+      "learning_rate": 0.00015907611175727443,
+      "loss": 0.4691,
+      "step": 1154
+    },
+    {
+      "epoch": 0.6411536328341653,
+      "grad_norm": 0.27971866726875305,
+      "learning_rate": 0.00015893104747161525,
+      "loss": 0.4229,
+      "step": 1156
+    },
+    {
+      "epoch": 0.6422628951747088,
+      "grad_norm": 0.2833665907382965,
+      "learning_rate": 0.00015878579294127833,
+      "loss": 0.3703,
+      "step": 1158
+    },
+    {
+      "epoch": 0.6433721575152523,
+      "grad_norm": 0.2487824559211731,
+      "learning_rate": 0.00015864034863518294,
+      "loss": 0.4713,
+      "step": 1160
+    },
+    {
+      "epoch": 0.6444814198557959,
+      "grad_norm": 0.2890799641609192,
+      "learning_rate": 0.0001584947150228609,
+      "loss": 0.4088,
+      "step": 1162
+    },
+    {
+      "epoch": 0.6455906821963394,
+      "grad_norm": 0.38614341616630554,
+      "learning_rate": 0.00015834889257445526,
+      "loss": 0.6233,
+      "step": 1164
+    },
+    {
+      "epoch": 0.646699944536883,
+      "grad_norm": 0.32349148392677307,
+      "learning_rate": 0.00015820288176071861,
+      "loss": 0.4304,
+      "step": 1166
+    },
+    {
+      "epoch": 0.6478092068774265,
+      "grad_norm": 0.3689476549625397,
+      "learning_rate": 0.0001580566830530117,
+      "loss": 0.4791,
+      "step": 1168
+    },
+    {
+      "epoch": 0.64891846921797,
+      "grad_norm": 0.33342450857162476,
+      "learning_rate": 0.00015791029692330174,
+      "loss": 0.5544,
+      "step": 1170
+    },
+    {
+      "epoch": 0.6500277315585136,
+      "grad_norm": 0.27900078892707825,
+      "learning_rate": 0.00015776372384416107,
+      "loss": 0.3984,
+      "step": 1172
+    },
+    {
+      "epoch": 0.6511369938990571,
+      "grad_norm": 0.2558038532733917,
+      "learning_rate": 0.00015761696428876558,
+      "loss": 0.3949,
+      "step": 1174
+    },
+    {
+      "epoch": 0.6522462562396006,
+      "grad_norm": 0.3070181906223297,
+      "learning_rate": 0.00015747001873089305,
+      "loss": 0.4118,
+      "step": 1176
+    },
+    {
+      "epoch": 0.6533555185801442,
+      "grad_norm": 0.3025922477245331,
+      "learning_rate": 0.00015732288764492184,
+      "loss": 0.4185,
+      "step": 1178
+    },
+    {
+      "epoch": 0.6544647809206877,
+      "grad_norm": 0.2864340543746948,
+      "learning_rate": 0.0001571755715058292,
+      "loss": 0.4129,
+      "step": 1180
+    },
+    {
+      "epoch": 0.6555740432612313,
+      "grad_norm": 0.30463624000549316,
+      "learning_rate": 0.00015702807078918967,
+      "loss": 0.3837,
+      "step": 1182
+    },
+    {
+      "epoch": 0.6566833056017748,
+      "grad_norm": 0.36540600657463074,
+      "learning_rate": 0.0001568803859711738,
+      "loss": 0.4379,
+      "step": 1184
+    },
+    {
+      "epoch": 0.6577925679423183,
+      "grad_norm": 0.30166247487068176,
+      "learning_rate": 0.00015673251752854644,
+      "loss": 0.4748,
+      "step": 1186
+    },
+    {
+      "epoch": 0.6589018302828619,
+      "grad_norm": 0.2592626214027405,
+      "learning_rate": 0.00015658446593866518,
+      "loss": 0.4211,
+      "step": 1188
+    },
+    {
+      "epoch": 0.6600110926234054,
+      "grad_norm": 0.3025457262992859,
+      "learning_rate": 0.0001564362316794789,
+      "loss": 0.4014,
+      "step": 1190
+    },
+    {
+      "epoch": 0.6611203549639489,
+      "grad_norm": 0.3164603114128113,
+      "learning_rate": 0.00015628781522952613,
+      "loss": 0.3479,
+      "step": 1192
+    },
+    {
+      "epoch": 0.6622296173044925,
+      "grad_norm": 0.3951297700405121,
+      "learning_rate": 0.00015613921706793363,
+      "loss": 0.5119,
+      "step": 1194
+    },
+    {
+      "epoch": 0.663338879645036,
+      "grad_norm": 0.3717001974582672,
+      "learning_rate": 0.00015599043767441473,
+      "loss": 0.6534,
+      "step": 1196
+    },
+    {
+      "epoch": 0.6644481419855796,
+      "grad_norm": 0.3157028555870056,
+      "learning_rate": 0.0001558414775292678,
+      "loss": 0.4616,
+      "step": 1198
+    },
+    {
+      "epoch": 0.6655574043261231,
+      "grad_norm": 0.3201621472835541,
+      "learning_rate": 0.00015569233711337476,
+      "loss": 0.5525,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.2802707254886627,
+      "learning_rate": 0.00015554301690819952,
+      "loss": 0.371,
+      "step": 1202
+    },
+    {
+      "epoch": 0.6677759290072102,
+      "grad_norm": 0.2569611668586731,
+      "learning_rate": 0.00015539351739578632,
+      "loss": 0.4024,
+      "step": 1204
+    },
+    {
+      "epoch": 0.6688851913477537,
+      "grad_norm": 0.20614203810691833,
+      "learning_rate": 0.0001552438390587583,
+      "loss": 0.4023,
+      "step": 1206
+    },
+    {
+      "epoch": 0.6699944536882972,
+      "grad_norm": 0.28919216990470886,
+      "learning_rate": 0.00015509398238031588,
+      "loss": 0.5277,
+      "step": 1208
+    },
+    {
+      "epoch": 0.6711037160288408,
+      "grad_norm": 0.3089144825935364,
+      "learning_rate": 0.00015494394784423525,
+      "loss": 0.4952,
+      "step": 1210
+    },
+    {
+      "epoch": 0.6722129783693843,
+      "grad_norm": 0.3368174433708191,
+      "learning_rate": 0.00015479373593486667,
+      "loss": 0.5854,
+      "step": 1212
+    },
+    {
+      "epoch": 0.6733222407099279,
+      "grad_norm": 0.45089298486709595,
+      "learning_rate": 0.0001546433471371331,
+      "loss": 0.4141,
+      "step": 1214
+    },
+    {
+      "epoch": 0.6744315030504714,
+      "grad_norm": 0.3095158040523529,
+      "learning_rate": 0.00015449278193652854,
+      "loss": 0.4969,
+      "step": 1216
+    },
+    {
+      "epoch": 0.6755407653910149,
+      "grad_norm": 0.36336401104927063,
+      "learning_rate": 0.00015434204081911642,
+      "loss": 0.4679,
+      "step": 1218
+    },
+    {
+      "epoch": 0.6766500277315585,
+      "grad_norm": 0.3150896430015564,
+      "learning_rate": 0.00015419112427152807,
+      "loss": 0.5038,
+      "step": 1220
+    },
+    {
+      "epoch": 0.677759290072102,
+      "grad_norm": 0.29561394453048706,
+      "learning_rate": 0.0001540400327809612,
+      "loss": 0.4697,
+      "step": 1222
+    },
+    {
+      "epoch": 0.6788685524126455,
+      "grad_norm": 0.2975095212459564,
+      "learning_rate": 0.00015388876683517826,
+      "loss": 0.5544,
+      "step": 1224
+    },
+    {
+      "epoch": 0.6799778147531891,
+      "grad_norm": 0.2124488651752472,
+      "learning_rate": 0.00015373732692250486,
+      "loss": 0.3321,
+      "step": 1226
+    },
+    {
+      "epoch": 0.6810870770937326,
+      "grad_norm": 0.37978988885879517,
+      "learning_rate": 0.00015358571353182824,
+      "loss": 0.5268,
+      "step": 1228
+    },
+    {
+      "epoch": 0.6821963394342762,
+      "grad_norm": 0.32258403301239014,
+      "learning_rate": 0.0001534339271525957,
+      "loss": 0.4983,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6833056017748197,
+      "grad_norm": 0.3182342052459717,
+      "learning_rate": 0.00015328196827481302,
+      "loss": 0.4742,
+      "step": 1232
+    },
+    {
+      "epoch": 0.6844148641153632,
+      "grad_norm": 0.26553046703338623,
+      "learning_rate": 0.0001531298373890427,
+      "loss": 0.4627,
+      "step": 1234
+    },
+    {
+      "epoch": 0.6855241264559068,
+      "grad_norm": 0.3853413164615631,
+      "learning_rate": 0.0001529775349864026,
+      "loss": 0.5493,
+      "step": 1236
+    },
+    {
+      "epoch": 0.6866333887964503,
+      "grad_norm": 0.26181191205978394,
+      "learning_rate": 0.0001528250615585644,
+      "loss": 0.4308,
+      "step": 1238
+    },
+    {
+      "epoch": 0.687742651136994,
+      "grad_norm": 0.29632505774497986,
+      "learning_rate": 0.0001526724175977518,
+      "loss": 0.3972,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6888519134775375,
+      "grad_norm": 0.21180076897144318,
+      "learning_rate": 0.000152519603596739,
+      "loss": 0.2871,
+      "step": 1242
+    },
+    {
+      "epoch": 0.689961175818081,
+      "grad_norm": 0.3028866946697235,
+      "learning_rate": 0.00015236662004884912,
+      "loss": 0.5045,
+      "step": 1244
+    },
+    {
+      "epoch": 0.6910704381586246,
+      "grad_norm": 0.22230632603168488,
+      "learning_rate": 0.0001522134674479527,
+      "loss": 0.3913,
+      "step": 1246
+    },
+    {
+      "epoch": 0.6921797004991681,
+      "grad_norm": 0.3115563690662384,
+      "learning_rate": 0.00015206014628846594,
+      "loss": 0.4612,
+      "step": 1248
+    },
+    {
+      "epoch": 0.6932889628397116,
+      "grad_norm": 0.30068281292915344,
+      "learning_rate": 0.00015190665706534925,
+      "loss": 0.4224,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6943982251802552,
+      "grad_norm": 0.3180410861968994,
+      "learning_rate": 0.00015175300027410566,
+      "loss": 0.4094,
+      "step": 1252
+    },
+    {
+      "epoch": 0.6955074875207987,
+      "grad_norm": 0.3450130224227905,
+      "learning_rate": 0.00015159917641077895,
+      "loss": 0.5635,
+      "step": 1254
+    },
+    {
+      "epoch": 0.6966167498613423,
+      "grad_norm": 0.27590128779411316,
+      "learning_rate": 0.00015144518597195243,
+      "loss": 0.4893,
+      "step": 1256
+    },
+    {
+      "epoch": 0.6977260122018858,
+      "grad_norm": 0.25257548689842224,
+      "learning_rate": 0.0001512910294547471,
+      "loss": 0.4252,
+      "step": 1258
+    },
+    {
+      "epoch": 0.6988352745424293,
+      "grad_norm": 0.3455219864845276,
+      "learning_rate": 0.00015113670735682013,
+      "loss": 0.5274,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6999445368829729,
+      "grad_norm": 0.3079371750354767,
+      "learning_rate": 0.0001509822201763632,
+      "loss": 0.3667,
+      "step": 1262
+    },
+    {
+      "epoch": 0.7010537992235164,
+      "grad_norm": 0.27760395407676697,
+      "learning_rate": 0.00015082756841210086,
+      "loss": 0.4693,
+      "step": 1264
+    },
+    {
+      "epoch": 0.7021630615640599,
+      "grad_norm": 0.3691544830799103,
+      "learning_rate": 0.0001506727525632891,
+      "loss": 0.4975,
+      "step": 1266
+    },
+    {
+      "epoch": 0.7032723239046035,
+      "grad_norm": 0.30312782526016235,
+      "learning_rate": 0.00015051777312971357,
+      "loss": 0.4377,
+      "step": 1268
+    },
+    {
+      "epoch": 0.704381586245147,
+      "grad_norm": 0.31264883279800415,
+      "learning_rate": 0.00015036263061168797,
+      "loss": 0.3841,
+      "step": 1270
+    },
+    {
+      "epoch": 0.7054908485856906,
+      "grad_norm": 0.27693864703178406,
+      "learning_rate": 0.0001502073255100525,
+      "loss": 0.4347,
+      "step": 1272
+    },
+    {
+      "epoch": 0.7066001109262341,
+      "grad_norm": 0.3322737514972687,
+      "learning_rate": 0.0001500518583261723,
+      "loss": 0.4424,
+      "step": 1274
+    },
+    {
+      "epoch": 0.7077093732667776,
+      "grad_norm": 0.2735716998577118,
+      "learning_rate": 0.0001498962295619356,
+      "loss": 0.3577,
+      "step": 1276
+    },
+    {
+      "epoch": 0.7088186356073212,
+      "grad_norm": 0.2565724849700928,
+      "learning_rate": 0.00014974043971975243,
+      "loss": 0.4086,
+      "step": 1278
+    },
+    {
+      "epoch": 0.7099278979478647,
+      "grad_norm": 0.4010816216468811,
+      "learning_rate": 0.00014958448930255265,
+      "loss": 0.5353,
+      "step": 1280
     }
   ],
   "logging_steps": 2,
       "attributes": {}
     }
   },
+  "total_flos": 3117864399667200.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null