li-muyang
/

zephyr-7b-dpo-full

@@ -3,7 +3,6 @@ library_name: transformers
 tags:
 - trl
 - dpo
-- alignment-handbook
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-dpo-full
@@ -17,15 +16,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Logits/chosen: -0.5950
-- Logits/rejected: -0.4472
-- Logps/chosen: -426.8990
-- Logps/rejected: -545.3427
-- Loss: 0.5225
-- Rewards/accuracies: 0.7734
-- Rewards/chosen: -1.5476
-- Rewards/margins: 1.1972
-- Rewards/rejected: -2.7448
 ## Model description
@@ -60,10 +59,9 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch  | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:------:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.501         | 0.9984 | 477  | -1.2732       | -1.1615         | -346.5501    | -435.7064      | 0.5185          | 0.7773             | -0.7441        | 0.9044          | -1.6484          |
-| 0.3187        | 1.9969 | 954  | -0.5950       | -0.4472         | -426.8990    | -545.3427      | 0.5225          | 0.7734             | -1.5476        | 1.1972          | -2.7448          |
 ### Framework versions

 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: zephyr-7b-dpo-full
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5997
+- Rewards/chosen: -0.2062
+- Rewards/rejected: -0.5288
+- Rewards/accuracies: 0.7070
+- Rewards/margins: 0.3226
+- Logps/rejected: -332.8396
+- Logps/chosen: -301.5587
+- Logits/rejected: -1.1529
+- Logits/chosen: -1.2491
 ## Model description
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5873        | 0.9984 | 477  | 0.5997          | -0.2062        | -0.5288          | 0.7070             | 0.3226          | -332.8396      | -301.5587    | -1.1529         | -1.2491       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,22 +1,9 @@
 {
-    "epoch": 1.9968602825745683,
-    "eval_logits/chosen": -0.5949550271034241,
-    "eval_logits/rejected": -0.44720327854156494,
-    "eval_logps/chosen": -426.89898681640625,
-    "eval_logps/rejected": -545.3427124023438,
-    "eval_loss": 1.1966235637664795,
-    "eval_rewards/accuracies": 0.7734375,
-    "eval_rewards/chosen": -7.737778663635254,
-    "eval_rewards/margins": 5.986159324645996,
-    "eval_rewards/rejected": -13.723937034606934,
-    "eval_runtime": 182.4829,
-    "eval_samples": 2000,
-    "eval_samples_per_second": 10.96,
-    "eval_steps_per_second": 0.175,
     "total_flos": 0.0,
-    "train_loss": 0.0,
-    "train_runtime": 3.4239,
     "train_samples": 61134,
-    "train_samples_per_second": 17855.176,
-    "train_steps_per_second": 139.316
 }

 {
+    "epoch": 0.9984301412872841,
     "total_flos": 0.0,
+    "train_loss": 0.6286907725863986,
+    "train_runtime": 7498.289,
     "train_samples": 61134,
+    "train_samples_per_second": 8.153,
+    "train_steps_per_second": 0.064
 }

generation_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "_from_model_config": true,
-  "bos_token_id": 1,
-  "eos_token_id": 2,
   "transformers_version": "4.45.2"
 }

 {
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
   "transformers_version": "4.45.2"
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.9968602825745683,
     "total_flos": 0.0,
-    "train_loss": 0.0,
-    "train_runtime": 3.4239,
     "train_samples": 61134,
-    "train_samples_per_second": 17855.176,
-    "train_steps_per_second": 139.316
 }

 {
+    "epoch": 0.9984301412872841,
     "total_flos": 0.0,
+    "train_loss": 0.6286907725863986,
+    "train_runtime": 7498.289,
     "train_samples": 61134,
+    "train_samples_per_second": 8.153,
+    "train_steps_per_second": 0.064
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9968602825745683,
   "eval_steps": 500,
-  "global_step": 954,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0020931449502878076,
-      "grad_norm": 14.88607346284462,
-      "learning_rate": 5.208333333333333e-09,
-      "logits/chosen": -2.925722122192383,
-      "logits/rejected": -2.8885936737060547,
-      "logps/chosen": -321.0921630859375,
-      "logps/rejected": -365.8306884765625,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -25,1469 +25,733 @@
     },
     {
       "epoch": 0.020931449502878074,
-      "grad_norm": 10.30635291782621,
-      "learning_rate": 5.208333333333333e-08,
-      "logits/chosen": -2.7202770709991455,
-      "logits/rejected": -2.695319175720215,
-      "logps/chosen": -321.58056640625,
-      "logps/rejected": -289.4584045410156,
-      "loss": 0.6931,
-      "rewards/accuracies": 0.4513888955116272,
-      "rewards/chosen": 0.00041189632611349225,
-      "rewards/margins": -6.186102837091312e-05,
-      "rewards/rejected": 0.00047375739086419344,
       "step": 10
     },
     {
       "epoch": 0.04186289900575615,
-      "grad_norm": 11.851618937043359,
-      "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.7979576587677,
-      "logits/rejected": -2.743467092514038,
-      "logps/chosen": -317.7387390136719,
-      "logps/rejected": -289.9251708984375,
       "loss": 0.6931,
-      "rewards/accuracies": 0.53125,
-      "rewards/chosen": 0.0007057279581204057,
-      "rewards/margins": 0.00038364241481758654,
-      "rewards/rejected": 0.0003220855724066496,
       "step": 20
     },
     {
       "epoch": 0.06279434850863422,
-      "grad_norm": 7.845409123408187,
-      "learning_rate": 1.5624999999999999e-07,
-      "logits/chosen": -2.7853832244873047,
-      "logits/rejected": -2.7237634658813477,
-      "logps/chosen": -300.7030029296875,
-      "logps/rejected": -254.2164306640625,
-      "loss": 0.6924,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": 0.004664666019380093,
-      "rewards/margins": 0.002464447868987918,
-      "rewards/rejected": 0.002200217917561531,
       "step": 30
     },
     {
       "epoch": 0.0837257980115123,
-      "grad_norm": 7.717127331852517,
-      "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.707097291946411,
-      "logits/rejected": -2.6731085777282715,
-      "logps/chosen": -278.5015869140625,
-      "logps/rejected": -266.61273193359375,
-      "loss": 0.6904,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.012720887549221516,
-      "rewards/margins": 0.005492700729519129,
-      "rewards/rejected": 0.007228186819702387,
       "step": 40
     },
     {
       "epoch": 0.10465724751439037,
-      "grad_norm": 15.224224641480427,
-      "learning_rate": 2.604166666666667e-07,
-      "logits/chosen": -2.734222888946533,
-      "logits/rejected": -2.6672184467315674,
-      "logps/chosen": -284.1479187011719,
-      "logps/rejected": -280.54168701171875,
-      "loss": 0.6873,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.023878615349531174,
-      "rewards/margins": 0.010178199037909508,
-      "rewards/rejected": 0.013700416311621666,
       "step": 50
     },
     {
       "epoch": 0.12558869701726844,
-      "grad_norm": 9.724530192766299,
-      "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.7641100883483887,
-      "logits/rejected": -2.710592746734619,
-      "logps/chosen": -257.2303161621094,
-      "logps/rejected": -249.379638671875,
-      "loss": 0.6824,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.041937388479709625,
-      "rewards/margins": 0.02456718310713768,
-      "rewards/rejected": 0.017370199784636497,
       "step": 60
     },
     {
       "epoch": 0.14652014652014653,
-      "grad_norm": 7.609142075748871,
-      "learning_rate": 3.645833333333333e-07,
-      "logits/chosen": -2.7005503177642822,
-      "logits/rejected": -2.670154094696045,
-      "logps/chosen": -302.48907470703125,
-      "logps/rejected": -288.536865234375,
-      "loss": 0.6728,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.037350092083215714,
-      "rewards/margins": 0.03656148537993431,
-      "rewards/rejected": 0.0007886036182753742,
       "step": 70
     },
     {
       "epoch": 0.1674515960230246,
-      "grad_norm": 11.507263661586103,
-      "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.795855760574341,
-      "logits/rejected": -2.709174156188965,
-      "logps/chosen": -344.7085876464844,
-      "logps/rejected": -274.75372314453125,
-      "loss": 0.6558,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": 0.013917540200054646,
-      "rewards/margins": 0.09853295236825943,
-      "rewards/rejected": -0.08461540192365646,
       "step": 80
     },
     {
       "epoch": 0.18838304552590268,
-      "grad_norm": 12.522918295649193,
-      "learning_rate": 4.6874999999999996e-07,
-      "logits/chosen": -2.7532315254211426,
-      "logits/rejected": -2.712498188018799,
-      "logps/chosen": -264.0057678222656,
-      "logps/rejected": -278.46209716796875,
-      "loss": 0.6358,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.041521135717630386,
-      "rewards/margins": 0.12843890488147736,
-      "rewards/rejected": -0.16996005177497864,
       "step": 90
     },
     {
       "epoch": 0.20931449502878074,
-      "grad_norm": 16.714062222107753,
-      "learning_rate": 4.999731868769026e-07,
-      "logits/chosen": -2.7503976821899414,
-      "logits/rejected": -2.7277534008026123,
-      "logps/chosen": -317.9760437011719,
-      "logps/rejected": -314.3436584472656,
-      "loss": 0.6267,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.06901533901691437,
-      "rewards/margins": 0.24417515099048615,
-      "rewards/rejected": -0.3131905198097229,
       "step": 100
     },
     {
       "epoch": 0.2302459445316588,
-      "grad_norm": 11.040271216087397,
-      "learning_rate": 4.996716052911017e-07,
-      "logits/chosen": -2.790177583694458,
-      "logits/rejected": -2.747727394104004,
-      "logps/chosen": -327.3770751953125,
-      "logps/rejected": -331.28594970703125,
-      "loss": 0.6264,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.28078389167785645,
-      "rewards/margins": 0.21150124073028564,
-      "rewards/rejected": -0.4922851622104645,
       "step": 110
     },
     {
       "epoch": 0.25117739403453687,
-      "grad_norm": 12.319376619341371,
-      "learning_rate": 4.990353313429303e-07,
-      "logits/chosen": -2.7004141807556152,
-      "logits/rejected": -2.7081363201141357,
-      "logps/chosen": -292.29193115234375,
-      "logps/rejected": -308.19244384765625,
-      "loss": 0.6059,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.08327662199735641,
-      "rewards/margins": 0.2638171315193176,
-      "rewards/rejected": -0.34709376096725464,
       "step": 120
     },
     {
       "epoch": 0.272108843537415,
-      "grad_norm": 24.07326364555429,
-      "learning_rate": 4.980652179769217e-07,
-      "logits/chosen": -2.7517778873443604,
-      "logits/rejected": -2.735368013381958,
-      "logps/chosen": -326.88323974609375,
-      "logps/rejected": -333.8082275390625,
-      "loss": 0.5854,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.27743759751319885,
-      "rewards/margins": 0.24996426701545715,
-      "rewards/rejected": -0.5274018049240112,
       "step": 130
     },
     {
       "epoch": 0.29304029304029305,
-      "grad_norm": 23.35517515247709,
-      "learning_rate": 4.967625656594781e-07,
-      "logits/chosen": -2.771867275238037,
-      "logits/rejected": -2.7476229667663574,
-      "logps/chosen": -339.9781799316406,
-      "logps/rejected": -328.70538330078125,
-      "loss": 0.5878,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.13580283522605896,
-      "rewards/margins": 0.391187846660614,
-      "rewards/rejected": -0.5269905924797058,
       "step": 140
     },
     {
       "epoch": 0.3139717425431711,
-      "grad_norm": 20.972969810387227,
-      "learning_rate": 4.951291206355559e-07,
-      "logits/chosen": -2.748628616333008,
-      "logits/rejected": -2.7197518348693848,
-      "logps/chosen": -327.03125,
-      "logps/rejected": -318.48638916015625,
-      "loss": 0.5967,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.3390689790248871,
-      "rewards/margins": 0.2791776657104492,
-      "rewards/rejected": -0.6182466745376587,
       "step": 150
     },
     {
       "epoch": 0.3349031920460492,
-      "grad_norm": 13.425598261254686,
-      "learning_rate": 4.93167072587771e-07,
-      "logits/chosen": -2.788029193878174,
-      "logits/rejected": -2.746370553970337,
-      "logps/chosen": -324.72052001953125,
-      "logps/rejected": -337.3094787597656,
-      "loss": 0.5846,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.3970801830291748,
-      "rewards/margins": 0.40131622552871704,
-      "rewards/rejected": -0.7983964681625366,
       "step": 160
     },
     {
       "epoch": 0.35583464154892724,
-      "grad_norm": 17.272372981195964,
-      "learning_rate": 4.908790517010636e-07,
-      "logits/chosen": -2.6719164848327637,
-      "logits/rejected": -2.6612837314605713,
-      "logps/chosen": -315.0084228515625,
-      "logps/rejected": -320.8651428222656,
-      "loss": 0.5888,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.4511398375034332,
-      "rewards/margins": 0.3194407820701599,
-      "rewards/rejected": -0.7705805897712708,
       "step": 170
     },
     {
       "epoch": 0.37676609105180536,
-      "grad_norm": 14.426317833201416,
-      "learning_rate": 4.882681251368548e-07,
-      "logits/chosen": -2.7663211822509766,
-      "logits/rejected": -2.7407591342926025,
-      "logps/chosen": -322.9417419433594,
-      "logps/rejected": -330.96038818359375,
-      "loss": 0.5596,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.4329908490180969,
-      "rewards/margins": 0.358435720205307,
-      "rewards/rejected": -0.7914265394210815,
       "step": 180
     },
     {
       "epoch": 0.3976975405546834,
-      "grad_norm": 16.424447211666443,
-      "learning_rate": 4.853377929214243e-07,
-      "logits/chosen": -2.7122840881347656,
-      "logits/rejected": -2.6895980834960938,
-      "logps/chosen": -305.7542419433594,
-      "logps/rejected": -333.2830810546875,
-      "loss": 0.5689,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.4040308892726898,
-      "rewards/margins": 0.32926663756370544,
-      "rewards/rejected": -0.7332974672317505,
       "step": 190
     },
     {
       "epoch": 0.4186289900575615,
-      "grad_norm": 18.075431248646595,
-      "learning_rate": 4.820919832540181e-07,
-      "logits/chosen": -2.670199155807495,
-      "logits/rejected": -2.6688408851623535,
-      "logps/chosen": -299.871826171875,
-      "logps/rejected": -358.0787048339844,
-      "loss": 0.5766,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.37743473052978516,
-      "rewards/margins": 0.4126531183719635,
-      "rewards/rejected": -0.7900878190994263,
       "step": 200
     },
     {
       "epoch": 0.43956043956043955,
-      "grad_norm": 16.199236277149858,
-      "learning_rate": 4.785350472409791e-07,
-      "logits/chosen": -2.718061685562134,
-      "logits/rejected": -2.6642110347747803,
-      "logps/chosen": -362.8133544921875,
-      "logps/rejected": -342.171875,
-      "loss": 0.5765,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.42062854766845703,
-      "rewards/margins": 0.43933743238449097,
-      "rewards/rejected": -0.859965980052948,
       "step": 210
     },
     {
       "epoch": 0.4604918890633176,
-      "grad_norm": 17.93992307211224,
-      "learning_rate": 4.7467175306295647e-07,
-      "logits/chosen": -2.6234521865844727,
-      "logits/rejected": -2.640157699584961,
-      "logps/chosen": -310.472412109375,
-      "logps/rejected": -345.089111328125,
-      "loss": 0.5611,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.47760000824928284,
-      "rewards/margins": 0.43446213006973267,
-      "rewards/rejected": -0.9120620489120483,
       "step": 220
     },
     {
       "epoch": 0.48142333856619574,
-      "grad_norm": 20.29472356294206,
-      "learning_rate": 4.70507279583015e-07,
-      "logits/chosen": -2.7133331298828125,
-      "logits/rejected": -2.6721091270446777,
-      "logps/chosen": -318.923095703125,
-      "logps/rejected": -366.59710693359375,
-      "loss": 0.5624,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -0.4767213761806488,
-      "rewards/margins": 0.6975632905960083,
-      "rewards/rejected": -1.1742846965789795,
       "step": 230
     },
     {
       "epoch": 0.5023547880690737,
-      "grad_norm": 35.1028217518017,
-      "learning_rate": 4.6604720940421207e-07,
-      "logits/chosen": -2.640972137451172,
-      "logits/rejected": -2.5848052501678467,
-      "logps/chosen": -344.928955078125,
-      "logps/rejected": -369.1497497558594,
-      "loss": 0.5347,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.47312647104263306,
-      "rewards/margins": 0.495448499917984,
-      "rewards/rejected": -0.9685748815536499,
       "step": 240
     },
     {
       "epoch": 0.5232862375719518,
-      "grad_norm": 19.843272670557887,
-      "learning_rate": 4.612975213859487e-07,
-      "logits/chosen": -2.5373644828796387,
-      "logits/rejected": -2.4579813480377197,
-      "logps/chosen": -347.16748046875,
-      "logps/rejected": -379.2513732910156,
-      "loss": 0.5437,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.566421389579773,
-      "rewards/margins": 0.6545469164848328,
-      "rewards/rejected": -1.220968246459961,
       "step": 250
     },
     {
       "epoch": 0.54421768707483,
-      "grad_norm": 23.320833527504977,
-      "learning_rate": 4.5626458262912735e-07,
-      "logits/chosen": -2.3933730125427246,
-      "logits/rejected": -2.3900551795959473,
-      "logps/chosen": -352.5663146972656,
-      "logps/rejected": -384.38397216796875,
-      "loss": 0.5419,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.8031826019287109,
-      "rewards/margins": 0.5431042909622192,
-      "rewards/rejected": -1.3462870121002197,
       "step": 260
     },
     {
       "epoch": 0.565149136577708,
-      "grad_norm": 19.483357541000405,
-      "learning_rate": 4.5095513994085974e-07,
-      "logits/chosen": -2.200190305709839,
-      "logits/rejected": -2.142879009246826,
-      "logps/chosen": -368.5080871582031,
-      "logps/rejected": -412.9193420410156,
-      "loss": 0.5489,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.6709359884262085,
-      "rewards/margins": 0.7138775587081909,
-      "rewards/rejected": -1.3848135471343994,
       "step": 270
     },
     {
       "epoch": 0.5860805860805861,
-      "grad_norm": 23.630987101691453,
-      "learning_rate": 4.453763107901675e-07,
-      "logits/chosen": -2.013388156890869,
-      "logits/rejected": -1.9315751791000366,
-      "logps/chosen": -335.5148620605469,
-      "logps/rejected": -353.8980712890625,
-      "loss": 0.5513,
       "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.537543773651123,
-      "rewards/margins": 0.6034060716629028,
-      "rewards/rejected": -1.1409497261047363,
       "step": 280
     },
     {
       "epoch": 0.6070120355834642,
-      "grad_norm": 21.50926745793373,
-      "learning_rate": 4.395355737667985e-07,
-      "logits/chosen": -2.042461395263672,
-      "logits/rejected": -1.9405343532562256,
-      "logps/chosen": -329.45513916015625,
-      "logps/rejected": -386.4042663574219,
-      "loss": 0.546,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.737878680229187,
-      "rewards/margins": 0.6161252856254578,
-      "rewards/rejected": -1.3540040254592896,
       "step": 290
     },
     {
       "epoch": 0.6279434850863422,
-      "grad_norm": 21.13385612640552,
-      "learning_rate": 4.3344075855595097e-07,
-      "logits/chosen": -2.0211853981018066,
-      "logits/rejected": -1.9133087396621704,
-      "logps/chosen": -419.280029296875,
-      "logps/rejected": -442.6297912597656,
-      "loss": 0.5279,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.8050423860549927,
-      "rewards/margins": 0.6596104502677917,
-      "rewards/rejected": -1.4646527767181396,
       "step": 300
     },
     {
       "epoch": 0.6488749345892203,
-      "grad_norm": 19.779873187639623,
-      "learning_rate": 4.271000354423425e-07,
-      "logits/chosen": -2.02839994430542,
-      "logits/rejected": -1.9323558807373047,
-      "logps/chosen": -383.2649841308594,
-      "logps/rejected": -405.40740966796875,
-      "loss": 0.5219,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.7099379897117615,
-      "rewards/margins": 0.7654498815536499,
-      "rewards/rejected": -1.4753879308700562,
       "step": 310
     },
     {
       "epoch": 0.6698063840920984,
-      "grad_norm": 21.08095676735262,
-      "learning_rate": 4.2052190435769554e-07,
-      "logits/chosen": -1.9793522357940674,
-      "logits/rejected": -1.860769271850586,
-      "logps/chosen": -344.1609191894531,
-      "logps/rejected": -391.5399475097656,
-      "loss": 0.5066,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -0.7778881192207336,
-      "rewards/margins": 0.8001760244369507,
-      "rewards/rejected": -1.5780640840530396,
       "step": 320
     },
     {
       "epoch": 0.6907378335949764,
-      "grad_norm": 27.57188250299686,
-      "learning_rate": 4.137151834863213e-07,
-      "logits/chosen": -2.071329116821289,
-      "logits/rejected": -2.0509676933288574,
-      "logps/chosen": -345.35186767578125,
-      "logps/rejected": -415.62261962890625,
-      "loss": 0.5115,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.6397430300712585,
-      "rewards/margins": 0.7728389501571655,
-      "rewards/rejected": -1.4125821590423584,
       "step": 330
     },
     {
       "epoch": 0.7116692830978545,
-      "grad_norm": 30.579996976984805,
-      "learning_rate": 4.0668899744407567e-07,
-      "logits/chosen": -1.8872754573822021,
-      "logits/rejected": -1.8190815448760986,
-      "logps/chosen": -379.37225341796875,
-      "logps/rejected": -436.101318359375,
-      "loss": 0.52,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.7692102789878845,
-      "rewards/margins": 0.7424911260604858,
-      "rewards/rejected": -1.5117013454437256,
       "step": 340
     },
     {
       "epoch": 0.7326007326007326,
-      "grad_norm": 23.99831270999009,
-      "learning_rate": 3.994527650465352e-07,
-      "logits/chosen": -1.8584909439086914,
-      "logits/rejected": -1.7157665491104126,
-      "logps/chosen": -362.5115661621094,
-      "logps/rejected": -413.8670349121094,
-      "loss": 0.5019,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.8885606527328491,
-      "rewards/margins": 0.7002802491188049,
-      "rewards/rejected": -1.5888408422470093,
       "step": 350
     },
     {
       "epoch": 0.7535321821036107,
-      "grad_norm": 20.569792166483495,
-      "learning_rate": 3.920161866827889e-07,
-      "logits/chosen": -1.8123042583465576,
-      "logits/rejected": -1.6628021001815796,
-      "logps/chosen": -398.8226623535156,
-      "logps/rejected": -431.47088623046875,
-      "loss": 0.542,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.8019789457321167,
-      "rewards/margins": 0.7802454233169556,
-      "rewards/rejected": -1.5822242498397827,
       "step": 360
     },
     {
       "epoch": 0.7744636316064888,
-      "grad_norm": 21.1660600636486,
-      "learning_rate": 3.8438923131177237e-07,
-      "logits/chosen": -1.702923059463501,
-      "logits/rejected": -1.573188066482544,
-      "logps/chosen": -352.84765625,
-      "logps/rejected": -393.1349182128906,
-      "loss": 0.5227,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.7422314882278442,
-      "rewards/margins": 0.7614965438842773,
-      "rewards/rejected": -1.5037281513214111,
       "step": 370
     },
     {
       "epoch": 0.7953950811093669,
-      "grad_norm": 17.183773141452058,
-      "learning_rate": 3.765821230985757e-07,
-      "logits/chosen": -1.6204278469085693,
-      "logits/rejected": -1.5805397033691406,
-      "logps/chosen": -352.36553955078125,
-      "logps/rejected": -456.62127685546875,
-      "loss": 0.5167,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.8929269909858704,
-      "rewards/margins": 0.8663182258605957,
-      "rewards/rejected": -1.7592451572418213,
       "step": 380
     },
     {
       "epoch": 0.8163265306122449,
-      "grad_norm": 23.349904894629407,
-      "learning_rate": 3.6860532770864005e-07,
-      "logits/chosen": -1.9042911529541016,
-      "logits/rejected": -1.7993557453155518,
-      "logps/chosen": -437.3020935058594,
-      "logps/rejected": -478.8271484375,
-      "loss": 0.5087,
       "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.8284949064254761,
-      "rewards/margins": 0.7516407370567322,
-      "rewards/rejected": -1.580135703086853,
       "step": 390
     },
     {
       "epoch": 0.837257980115123,
-      "grad_norm": 23.752316920168525,
-      "learning_rate": 3.604695382782159e-07,
-      "logits/chosen": -1.7125256061553955,
-      "logits/rejected": -1.591506838798523,
-      "logps/chosen": -373.38818359375,
-      "logps/rejected": -433.75799560546875,
-      "loss": 0.5247,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.0498483180999756,
-      "rewards/margins": 0.8007469177246094,
-      "rewards/rejected": -1.850595235824585,
       "step": 400
     },
     {
       "epoch": 0.858189429618001,
-      "grad_norm": 19.666172854109288,
-      "learning_rate": 3.5218566107988867e-07,
-      "logits/chosen": -2.0926361083984375,
-      "logits/rejected": -2.002737283706665,
-      "logps/chosen": -392.9161682128906,
-      "logps/rejected": -434.8521423339844,
-      "loss": 0.5204,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.8088946342468262,
-      "rewards/margins": 0.8107136487960815,
-      "rewards/rejected": -1.6196085214614868,
       "step": 410
     },
     {
       "epoch": 0.8791208791208791,
-      "grad_norm": 21.227558543972002,
-      "learning_rate": 3.4376480090239047e-07,
-      "logits/chosen": -2.0091476440429688,
-      "logits/rejected": -1.9699198007583618,
-      "logps/chosen": -343.46112060546875,
-      "logps/rejected": -425.591796875,
-      "loss": 0.5084,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.7525590658187866,
-      "rewards/margins": 0.8109620213508606,
-      "rewards/rejected": -1.563521146774292,
       "step": 420
     },
     {
       "epoch": 0.9000523286237572,
-      "grad_norm": 28.76341659471802,
-      "learning_rate": 3.3521824616429284e-07,
-      "logits/chosen": -1.5924561023712158,
-      "logits/rejected": -1.4453504085540771,
-      "logps/chosen": -398.48284912109375,
-      "logps/rejected": -460.5140686035156,
-      "loss": 0.4912,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.9409183263778687,
-      "rewards/margins": 0.8444429636001587,
-      "rewards/rejected": -1.7853610515594482,
       "step": 430
     },
     {
       "epoch": 0.9209837781266352,
-      "grad_norm": 24.356244505358386,
-      "learning_rate": 3.265574537815398e-07,
-      "logits/chosen": -1.3780838251113892,
-      "logits/rejected": -1.1997829675674438,
-      "logps/chosen": -373.2276916503906,
-      "logps/rejected": -418.62335205078125,
-      "loss": 0.5069,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.034752607345581,
-      "rewards/margins": 0.7990537881851196,
-      "rewards/rejected": -1.8338062763214111,
       "step": 440
     },
     {
       "epoch": 0.9419152276295133,
-      "grad_norm": 21.508083750235922,
-      "learning_rate": 3.1779403380910425e-07,
-      "logits/chosen": -1.2375565767288208,
-      "logits/rejected": -1.1287505626678467,
-      "logps/chosen": -379.8437194824219,
-      "logps/rejected": -447.7130432128906,
-      "loss": 0.5131,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.929580807685852,
-      "rewards/margins": 0.8013578653335571,
-      "rewards/rejected": -1.7309386730194092,
       "step": 450
     },
     {
       "epoch": 0.9628466771323915,
-      "grad_norm": 29.86693166076459,
-      "learning_rate": 3.0893973387735683e-07,
-      "logits/chosen": -1.4521411657333374,
-      "logits/rejected": -1.2153605222702026,
-      "logps/chosen": -377.4960021972656,
-      "logps/rejected": -401.8866882324219,
-      "loss": 0.5157,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.9293259382247925,
-      "rewards/margins": 0.7097651362419128,
-      "rewards/rejected": -1.63909113407135,
       "step": 460
     },
     {
       "epoch": 0.9837781266352695,
-      "grad_norm": 18.514726211898278,
-      "learning_rate": 3.000064234440111e-07,
-      "logits/chosen": -1.4076189994812012,
-      "logits/rejected": -1.2628891468048096,
-      "logps/chosen": -399.5198059082031,
-      "logps/rejected": -439.87969970703125,
-      "loss": 0.501,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.7778880000114441,
-      "rewards/margins": 0.7691278457641602,
-      "rewards/rejected": -1.5470157861709595,
       "step": 470
     },
     {
       "epoch": 0.9984301412872841,
-      "eval_logits/chosen": -1.273218035697937,
-      "eval_logits/rejected": -1.1614912748336792,
-      "eval_logps/chosen": -346.5500793457031,
-      "eval_logps/rejected": -435.70635986328125,
-      "eval_loss": 0.5185136795043945,
-      "eval_rewards/accuracies": 0.77734375,
-      "eval_rewards/chosen": -0.7440664172172546,
-      "eval_rewards/margins": 0.9043572545051575,
-      "eval_rewards/rejected": -1.6484237909317017,
-      "eval_runtime": 171.5848,
-      "eval_samples_per_second": 11.656,
-      "eval_steps_per_second": 0.186,
       "step": 477
     },
     {
-      "epoch": 1.0047095761381475,
-      "grad_norm": 21.17560575026596,
-      "learning_rate": 2.910060778827554e-07,
-      "logits/chosen": -1.3738365173339844,
-      "logits/rejected": -1.2765980958938599,
-      "logps/chosen": -379.2554931640625,
-      "logps/rejected": -449.7948303222656,
-      "loss": 0.4798,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.723404586315155,
-      "rewards/margins": 0.8685447573661804,
-      "rewards/rejected": -1.591949224472046,
-      "step": 480
-    },
-    {
-      "epoch": 1.0256410256410255,
-      "grad_norm": 16.51017448411662,
-      "learning_rate": 2.8195076242990116e-07,
-      "logits/chosen": -1.2624908685684204,
-      "logits/rejected": -1.0200715065002441,
-      "logps/chosen": -391.1546325683594,
-      "logps/rejected": -462.6971130371094,
-      "loss": 0.3721,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.8392894864082336,
-      "rewards/margins": 1.1826223134994507,
-      "rewards/rejected": -2.021911859512329,
-      "step": 490
-    },
-    {
-      "epoch": 1.0465724751439036,
-      "grad_norm": 28.692357308634083,
-      "learning_rate": 2.7285261601056697e-07,
-      "logits/chosen": -1.04556405544281,
-      "logits/rejected": -0.8983597755432129,
-      "logps/chosen": -385.15594482421875,
-      "logps/rejected": -492.3553771972656,
-      "loss": 0.3623,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.0549384355545044,
-      "rewards/margins": 1.216042399406433,
-      "rewards/rejected": -2.2709805965423584,
-      "step": 500
-    },
-    {
-      "epoch": 1.0675039246467817,
-      "grad_norm": 21.922390152982405,
-      "learning_rate": 2.6372383496608186e-07,
-      "logits/chosen": -0.9019845128059387,
-      "logits/rejected": -0.6276781558990479,
-      "logps/chosen": -385.09625244140625,
-      "logps/rejected": -487.7792053222656,
-      "loss": 0.36,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -0.9738361239433289,
-      "rewards/margins": 1.5190062522888184,
-      "rewards/rejected": -2.492842197418213,
-      "step": 510
-    },
-    {
-      "epoch": 1.08843537414966,
-      "grad_norm": 23.056390516413284,
-      "learning_rate": 2.5457665670441937e-07,
-      "logits/chosen": -0.8516889810562134,
-      "logits/rejected": -0.5428006052970886,
-      "logps/chosen": -382.0596923828125,
-      "logps/rejected": -487.93701171875,
-      "loss": 0.3563,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -0.9770641326904297,
-      "rewards/margins": 1.3976478576660156,
-      "rewards/rejected": -2.3747119903564453,
-      "step": 520
-    },
-    {
-      "epoch": 1.109366823652538,
-      "grad_norm": 24.839002506991555,
-      "learning_rate": 2.454233432955807e-07,
-      "logits/chosen": -0.893288254737854,
-      "logits/rejected": -0.55360347032547,
-      "logps/chosen": -373.3586120605469,
-      "logps/rejected": -470.93048095703125,
-      "loss": 0.3595,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.079138159751892,
-      "rewards/margins": 1.3878281116485596,
-      "rewards/rejected": -2.466966152191162,
-      "step": 530
-    },
-    {
-      "epoch": 1.130298273155416,
-      "grad_norm": 24.9976173018764,
-      "learning_rate": 2.3627616503391812e-07,
-      "logits/chosen": -0.6603145003318787,
-      "logits/rejected": -0.45139390230178833,
-      "logps/chosen": -381.8931884765625,
-      "logps/rejected": -511.0888671875,
-      "loss": 0.3615,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.2078765630722046,
-      "rewards/margins": 1.415185809135437,
-      "rewards/rejected": -2.6230626106262207,
-      "step": 540
-    },
-    {
-      "epoch": 1.1512297226582942,
-      "grad_norm": 23.70399953245455,
-      "learning_rate": 2.2714738398943308e-07,
-      "logits/chosen": -0.7952468395233154,
-      "logits/rejected": -0.5057519674301147,
-      "logps/chosen": -405.1830139160156,
-      "logps/rejected": -512.9744873046875,
-      "loss": 0.3432,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.1684848070144653,
-      "rewards/margins": 1.4340193271636963,
-      "rewards/rejected": -2.6025044918060303,
-      "step": 550
-    },
-    {
-      "epoch": 1.1721611721611722,
-      "grad_norm": 26.9881287231271,
-      "learning_rate": 2.1804923757009882e-07,
-      "logits/chosen": -0.7067749500274658,
-      "logits/rejected": -0.4858238697052002,
-      "logps/chosen": -358.0526428222656,
-      "logps/rejected": -488.3414001464844,
-      "loss": 0.3631,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -0.9131903648376465,
-      "rewards/margins": 1.4550573825836182,
-      "rewards/rejected": -2.3682477474212646,
-      "step": 560
-    },
-    {
-      "epoch": 1.1930926216640503,
-      "grad_norm": 26.437360887515176,
-      "learning_rate": 2.089939221172446e-07,
-      "logits/chosen": -0.6216100454330444,
-      "logits/rejected": -0.4619014263153076,
-      "logps/chosen": -427.541015625,
-      "logps/rejected": -578.9843139648438,
-      "loss": 0.3526,
-      "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": -1.259556770324707,
-      "rewards/margins": 1.5523223876953125,
-      "rewards/rejected": -2.8118791580200195,
-      "step": 570
-    },
-    {
-      "epoch": 1.2140240711669283,
-      "grad_norm": 24.08017206287918,
-      "learning_rate": 1.9999357655598891e-07,
-      "logits/chosen": -0.596352219581604,
-      "logits/rejected": -0.3721233308315277,
-      "logps/chosen": -412.52301025390625,
-      "logps/rejected": -562.3777465820312,
-      "loss": 0.3344,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.310210943222046,
-      "rewards/margins": 1.5689070224761963,
-      "rewards/rejected": -2.879117965698242,
-      "step": 580
-    },
-    {
-      "epoch": 1.2349555206698064,
-      "grad_norm": 19.74419678906988,
-      "learning_rate": 1.9106026612264315e-07,
-      "logits/chosen": -0.8253545761108398,
-      "logits/rejected": -0.6318912506103516,
-      "logps/chosen": -399.89910888671875,
-      "logps/rejected": -515.3082275390625,
-      "loss": 0.3424,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -1.0740442276000977,
-      "rewards/margins": 1.4926326274871826,
-      "rewards/rejected": -2.5666770935058594,
-      "step": 590
-    },
-    {
-      "epoch": 1.2558869701726845,
-      "grad_norm": 30.297500591228765,
-      "learning_rate": 1.8220596619089573e-07,
-      "logits/chosen": -0.7947873473167419,
-      "logits/rejected": -0.5936676859855652,
-      "logps/chosen": -452.333740234375,
-      "logps/rejected": -589.5086059570312,
-      "loss": 0.3349,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.3032448291778564,
-      "rewards/margins": 1.449398398399353,
-      "rewards/rejected": -2.752643346786499,
-      "step": 600
-    },
-    {
-      "epoch": 1.2768184196755625,
-      "grad_norm": 25.095514098513064,
-      "learning_rate": 1.7344254621846017e-07,
-      "logits/chosen": -0.5728591680526733,
-      "logits/rejected": -0.2157384604215622,
-      "logps/chosen": -446.3045959472656,
-      "logps/rejected": -558.5189819335938,
-      "loss": 0.3583,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.3666396141052246,
-      "rewards/margins": 1.6065607070922852,
-      "rewards/rejected": -2.9732003211975098,
-      "step": 610
-    },
-    {
-      "epoch": 1.2977498691784406,
-      "grad_norm": 26.711706547263283,
-      "learning_rate": 1.647817538357072e-07,
-      "logits/chosen": -0.6483644247055054,
-      "logits/rejected": -0.436624675989151,
-      "logps/chosen": -375.31463623046875,
-      "logps/rejected": -502.0403747558594,
-      "loss": 0.3359,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.1623198986053467,
-      "rewards/margins": 1.4659651517868042,
-      "rewards/rejected": -2.6282851696014404,
-      "step": 620
-    },
-    {
-      "epoch": 1.3186813186813187,
-      "grad_norm": 29.34167044151856,
-      "learning_rate": 1.562351990976095e-07,
-      "logits/chosen": -0.5509764552116394,
-      "logits/rejected": -0.2896868884563446,
-      "logps/chosen": -404.48773193359375,
-      "logps/rejected": -547.499267578125,
-      "loss": 0.3416,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.2804601192474365,
-      "rewards/margins": 1.6254936456680298,
-      "rewards/rejected": -2.905953884124756,
-      "step": 630
-    },
-    {
-      "epoch": 1.3396127681841967,
-      "grad_norm": 23.153596326850824,
-      "learning_rate": 1.478143389201113e-07,
-      "logits/chosen": -0.5090593099594116,
-      "logits/rejected": -0.1941351443529129,
-      "logps/chosen": -416.89141845703125,
-      "logps/rejected": -544.4210815429688,
-      "loss": 0.3508,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.4043817520141602,
-      "rewards/margins": 1.578391194343567,
-      "rewards/rejected": -2.9827733039855957,
-      "step": 640
-    },
-    {
-      "epoch": 1.3605442176870748,
-      "grad_norm": 37.7718208645946,
-      "learning_rate": 1.3953046172178413e-07,
-      "logits/chosen": -0.4676644206047058,
-      "logits/rejected": -0.29953527450561523,
-      "logps/chosen": -402.21417236328125,
-      "logps/rejected": -548.4046020507812,
-      "loss": 0.3546,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -1.1596171855926514,
-      "rewards/margins": 1.624544382095337,
-      "rewards/rejected": -2.7841618061065674,
-      "step": 650
-    },
-    {
-      "epoch": 1.3814756671899528,
-      "grad_norm": 32.318559995180884,
-      "learning_rate": 1.3139467229135998e-07,
-      "logits/chosen": -0.625167191028595,
-      "logits/rejected": -0.40474313497543335,
-      "logps/chosen": -410.2447204589844,
-      "logps/rejected": -531.7794799804688,
-      "loss": 0.3438,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.2046838998794556,
-      "rewards/margins": 1.518923044204712,
-      "rewards/rejected": -2.723607063293457,
-      "step": 660
-    },
-    {
-      "epoch": 1.402407116692831,
-      "grad_norm": 26.63444910378978,
-      "learning_rate": 1.2341787690142435e-07,
-      "logits/chosen": -0.5080076456069946,
-      "logits/rejected": -0.39028996229171753,
-      "logps/chosen": -417.2349548339844,
-      "logps/rejected": -571.6380615234375,
-      "loss": 0.3373,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.290380597114563,
-      "rewards/margins": 1.4690136909484863,
-      "rewards/rejected": -2.7593941688537598,
-      "step": 670
-    },
-    {
-      "epoch": 1.423338566195709,
-      "grad_norm": 20.19948420893599,
-      "learning_rate": 1.1561076868822755e-07,
-      "logits/chosen": -0.6434948444366455,
-      "logits/rejected": -0.3340326249599457,
-      "logps/chosen": -425.06585693359375,
-      "logps/rejected": -558.2105712890625,
-      "loss": 0.3408,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.3932050466537476,
-      "rewards/margins": 1.6028707027435303,
-      "rewards/rejected": -2.9960758686065674,
-      "step": 680
-    },
-    {
-      "epoch": 1.4442700156985873,
-      "grad_norm": 23.405895905191862,
-      "learning_rate": 1.0798381331721107e-07,
-      "logits/chosen": -0.45825833082199097,
-      "logits/rejected": -0.26569095253944397,
-      "logps/chosen": -413.29705810546875,
-      "logps/rejected": -516.1429443359375,
-      "loss": 0.3387,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.2925164699554443,
-      "rewards/margins": 1.4324119091033936,
-      "rewards/rejected": -2.724928379058838,
-      "step": 690
-    },
-    {
-      "epoch": 1.4652014652014653,
-      "grad_norm": 26.00052056036154,
-      "learning_rate": 1.0054723495346482e-07,
-      "logits/chosen": -0.5345702767372131,
-      "logits/rejected": -0.28709763288497925,
-      "logps/chosen": -439.5155334472656,
-      "logps/rejected": -595.0430908203125,
-      "loss": 0.3385,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -1.335257649421692,
-      "rewards/margins": 1.8328659534454346,
-      "rewards/rejected": -3.168123483657837,
-      "step": 700
-    },
-    {
-      "epoch": 1.4861329147043434,
-      "grad_norm": 29.88922989167434,
-      "learning_rate": 9.331100255592436e-08,
-      "logits/chosen": -0.44970911741256714,
-      "logits/rejected": -0.3438431918621063,
-      "logps/chosen": -440.60009765625,
-      "logps/rejected": -598.9261474609375,
-      "loss": 0.3343,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.5944675207138062,
-      "rewards/margins": 1.555371642112732,
-      "rewards/rejected": -3.149839401245117,
-      "step": 710
-    },
-    {
-      "epoch": 1.5070643642072215,
-      "grad_norm": 35.80679957440786,
-      "learning_rate": 8.628481651367875e-08,
-      "logits/chosen": -0.6270388960838318,
-      "logits/rejected": -0.3709457218647003,
-      "logps/chosen": -430.08734130859375,
-      "logps/rejected": -598.91357421875,
-      "loss": 0.324,
-      "rewards/accuracies": 0.918749988079071,
-      "rewards/chosen": -1.4218626022338867,
-      "rewards/margins": 1.803938865661621,
-      "rewards/rejected": -3.2258009910583496,
-      "step": 720
-    },
-    {
-      "epoch": 1.5279958137100995,
-      "grad_norm": 35.40691778150228,
-      "learning_rate": 7.947809564230445e-08,
-      "logits/chosen": -0.7805054187774658,
-      "logits/rejected": -0.5504633188247681,
-      "logps/chosen": -417.5584411621094,
-      "logps/rejected": -570.6063232421875,
-      "loss": 0.3251,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.2576138973236084,
-      "rewards/margins": 1.5007960796356201,
-      "rewards/rejected": -2.7584102153778076,
-      "step": 730
-    },
-    {
-      "epoch": 1.5489272632129776,
-      "grad_norm": 22.542061727173216,
-      "learning_rate": 7.289996455765748e-08,
-      "logits/chosen": -0.7156350612640381,
-      "logits/rejected": -0.5093780755996704,
-      "logps/chosen": -440.34375,
-      "logps/rejected": -552.8305053710938,
-      "loss": 0.3487,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.445813536643982,
-      "rewards/margins": 1.539942741394043,
-      "rewards/rejected": -2.9857563972473145,
-      "step": 740
-    },
-    {
-      "epoch": 1.5698587127158556,
-      "grad_norm": 22.391994910590135,
-      "learning_rate": 6.655924144404906e-08,
-      "logits/chosen": -0.5188966393470764,
-      "logits/rejected": -0.31423279643058777,
-      "logps/chosen": -427.5140686035156,
-      "logps/rejected": -574.3653564453125,
-      "loss": 0.3262,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.3562893867492676,
-      "rewards/margins": 1.616431474685669,
-      "rewards/rejected": -2.9727206230163574,
-      "step": 750
-    },
-    {
-      "epoch": 1.5907901622187337,
-      "grad_norm": 27.067458253461155,
-      "learning_rate": 6.046442623320145e-08,
-      "logits/chosen": -0.7770091891288757,
-      "logits/rejected": -0.4757114350795746,
-      "logps/chosen": -492.76416015625,
-      "logps/rejected": -625.2634887695312,
-      "loss": 0.3424,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.4647096395492554,
-      "rewards/margins": 1.647743821144104,
-      "rewards/rejected": -3.1124536991119385,
-      "step": 760
-    },
-    {
-      "epoch": 1.6117216117216118,
-      "grad_norm": 27.917693830137047,
-      "learning_rate": 5.4623689209832484e-08,
-      "logits/chosen": -0.8214691281318665,
-      "logits/rejected": -0.43942517042160034,
-      "logps/chosen": -453.11199951171875,
-      "logps/rejected": -539.7423706054688,
-      "loss": 0.3324,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.3807549476623535,
-      "rewards/margins": 1.52043879032135,
-      "rewards/rejected": -2.901193618774414,
-      "step": 770
-    },
-    {
-      "epoch": 1.6326530612244898,
-      "grad_norm": 35.7523647379527,
-      "learning_rate": 4.904486005914027e-08,
-      "logits/chosen": -0.7380484342575073,
-      "logits/rejected": -0.5423134565353394,
-      "logps/chosen": -448.4818420410156,
-      "logps/rejected": -601.2604370117188,
-      "loss": 0.3395,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.1892478466033936,
-      "rewards/margins": 1.734458565711975,
-      "rewards/rejected": -2.923706293106079,
-      "step": 780
-    },
-    {
-      "epoch": 1.653584510727368,
-      "grad_norm": 31.011854985332448,
-      "learning_rate": 4.373541737087263e-08,
-      "logits/chosen": -0.7779333591461182,
-      "logits/rejected": -0.49003076553344727,
-      "logps/chosen": -406.6073303222656,
-      "logps/rejected": -552.443359375,
-      "loss": 0.3239,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.2308647632598877,
-      "rewards/margins": 1.5439412593841553,
-      "rewards/rejected": -2.774806261062622,
-      "step": 790
-    },
-    {
-      "epoch": 1.674515960230246,
-      "grad_norm": 25.052300316679634,
-      "learning_rate": 3.8702478614051345e-08,
-      "logits/chosen": -0.7519603371620178,
-      "logits/rejected": -0.4932466447353363,
-      "logps/chosen": -459.8077087402344,
-      "logps/rejected": -562.577392578125,
-      "loss": 0.3121,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -1.291195273399353,
-      "rewards/margins": 1.5607550144195557,
-      "rewards/rejected": -2.851950168609619,
-      "step": 800
-    },
-    {
-      "epoch": 1.695447409733124,
-      "grad_norm": 28.051358555998323,
-      "learning_rate": 3.3952790595787986e-08,
-      "logits/chosen": -0.7064075469970703,
-      "logits/rejected": -0.5052956938743591,
-      "logps/chosen": -427.84832763671875,
-      "logps/rejected": -587.9678955078125,
-      "loss": 0.3363,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.3051536083221436,
-      "rewards/margins": 1.7959152460098267,
-      "rewards/rejected": -3.1010687351226807,
-      "step": 810
-    },
-    {
-      "epoch": 1.716378859236002,
-      "grad_norm": 31.67321567378694,
-      "learning_rate": 2.9492720416985e-08,
-      "logits/chosen": -0.8305649757385254,
-      "logits/rejected": -0.7014783620834351,
-      "logps/chosen": -413.65576171875,
-      "logps/rejected": -569.78759765625,
-      "loss": 0.3315,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.4015345573425293,
-      "rewards/margins": 1.6014522314071655,
-      "rewards/rejected": -3.002986431121826,
-      "step": 820
-    },
-    {
-      "epoch": 1.7373103087388801,
-      "grad_norm": 21.644645673450903,
-      "learning_rate": 2.5328246937043525e-08,
-      "logits/chosen": -0.8004710078239441,
-      "logits/rejected": -0.6543309092521667,
-      "logps/chosen": -454.3511657714844,
-      "logps/rejected": -579.9097900390625,
-      "loss": 0.3224,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.3592346906661987,
-      "rewards/margins": 1.5871307849884033,
-      "rewards/rejected": -2.9463653564453125,
-      "step": 830
-    },
-    {
-      "epoch": 1.7582417582417582,
-      "grad_norm": 29.695508251939298,
-      "learning_rate": 2.1464952759020856e-08,
-      "logits/chosen": -0.5647540092468262,
-      "logits/rejected": -0.4591120779514313,
-      "logps/chosen": -411.2245178222656,
-      "logps/rejected": -579.0653076171875,
-      "loss": 0.3265,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.4194848537445068,
-      "rewards/margins": 1.6787960529327393,
-      "rewards/rejected": -3.098280906677246,
-      "step": 840
-    },
-    {
-      "epoch": 1.7791732077446363,
-      "grad_norm": 30.24532074338387,
-      "learning_rate": 1.7908016745981856e-08,
-      "logits/chosen": -0.631384551525116,
-      "logits/rejected": -0.5165312886238098,
-      "logps/chosen": -408.71173095703125,
-      "logps/rejected": -562.2457275390625,
-      "loss": 0.3275,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.459183931350708,
-      "rewards/margins": 1.5402036905288696,
-      "rewards/rejected": -2.999387264251709,
-      "step": 850
-    },
-    {
-      "epoch": 1.8001046572475143,
-      "grad_norm": 28.810585688980133,
-      "learning_rate": 1.4662207078575684e-08,
-      "logits/chosen": -0.8192375302314758,
-      "logits/rejected": -0.6066277623176575,
-      "logps/chosen": -447.3929748535156,
-      "logps/rejected": -533.9404296875,
-      "loss": 0.3479,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.381157636642456,
-      "rewards/margins": 1.4070510864257812,
-      "rewards/rejected": -2.788208484649658,
-      "step": 860
-    },
-    {
-      "epoch": 1.8210361067503924,
-      "grad_norm": 24.013363968760547,
-      "learning_rate": 1.1731874863145142e-08,
-      "logits/chosen": -0.7617680430412292,
-      "logits/rejected": -0.47873860597610474,
-      "logps/chosen": -454.9310607910156,
-      "logps/rejected": -573.6890869140625,
-      "loss": 0.331,
-      "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": -1.3413336277008057,
-      "rewards/margins": 1.7013572454452515,
-      "rewards/rejected": -3.0426909923553467,
-      "step": 870
-    },
-    {
-      "epoch": 1.8419675562532705,
-      "grad_norm": 32.07599972860766,
-      "learning_rate": 9.12094829893642e-09,
-      "logits/chosen": -0.7640255689620972,
-      "logits/rejected": -0.4442223012447357,
-      "logps/chosen": -438.59490966796875,
-      "logps/rejected": -557.7069091796875,
-      "loss": 0.3402,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.409976840019226,
-      "rewards/margins": 1.640062928199768,
-      "rewards/rejected": -3.050039529800415,
-      "step": 880
-    },
-    {
-      "epoch": 1.8628990057561485,
-      "grad_norm": 24.432518139204586,
-      "learning_rate": 6.832927412229017e-09,
-      "logits/chosen": -0.8613092303276062,
-      "logits/rejected": -0.6306430101394653,
-      "logps/chosen": -456.99072265625,
-      "logps/rejected": -594.9552001953125,
-      "loss": 0.3223,
-      "rewards/accuracies": 0.9125000238418579,
-      "rewards/chosen": -1.3222033977508545,
-      "rewards/margins": 1.7843767404556274,
-      "rewards/rejected": -3.1065802574157715,
-      "step": 890
-    },
-    {
-      "epoch": 1.8838304552590266,
-      "grad_norm": 27.645379277195858,
-      "learning_rate": 4.8708793644441086e-09,
-      "logits/chosen": -0.7418426275253296,
-      "logits/rejected": -0.4674626886844635,
-      "logps/chosen": -423.3577575683594,
-      "logps/rejected": -554.7745361328125,
-      "loss": 0.3093,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -1.3512873649597168,
-      "rewards/margins": 1.6987825632095337,
-      "rewards/rejected": -3.050069808959961,
-      "step": 900
-    },
-    {
-      "epoch": 1.9047619047619047,
-      "grad_norm": 28.923783797405456,
-      "learning_rate": 3.2374343405217884e-09,
-      "logits/chosen": -0.6597197651863098,
-      "logits/rejected": -0.4865621030330658,
-      "logps/chosen": -408.0905456542969,
-      "logps/rejected": -535.84521484375,
-      "loss": 0.3367,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.4176795482635498,
-      "rewards/margins": 1.6123201847076416,
-      "rewards/rejected": -3.0299999713897705,
-      "step": 910
-    },
-    {
-      "epoch": 1.9256933542647827,
-      "grad_norm": 28.331424470243782,
-      "learning_rate": 1.9347820230782295e-09,
-      "logits/chosen": -0.8034309148788452,
-      "logits/rejected": -0.6734964847564697,
-      "logps/chosen": -424.65673828125,
-      "logps/rejected": -592.0272216796875,
-      "loss": 0.3345,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.302234172821045,
-      "rewards/margins": 1.7047960758209229,
-      "rewards/rejected": -3.0070300102233887,
-      "step": 920
-    },
-    {
-      "epoch": 1.9466248037676608,
-      "grad_norm": 31.096436385559773,
-      "learning_rate": 9.64668657069706e-10,
-      "logits/chosen": -0.8711435198783875,
-      "logits/rejected": -0.6492515206336975,
-      "logps/chosen": -412.20159912109375,
-      "logps/rejected": -539.3062744140625,
-      "loss": 0.3326,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.3435027599334717,
-      "rewards/margins": 1.5116230249404907,
-      "rewards/rejected": -2.855125904083252,
-      "step": 930
-    },
-    {
-      "epoch": 1.9675562532705388,
-      "grad_norm": 39.27145853425959,
-      "learning_rate": 3.2839470889836627e-10,
-      "logits/chosen": -0.8457353711128235,
-      "logits/rejected": -0.46064504981040955,
-      "logps/chosen": -439.29815673828125,
-      "logps/rejected": -539.5534057617188,
-      "loss": 0.3418,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.3375287055969238,
-      "rewards/margins": 1.5794165134429932,
-      "rewards/rejected": -2.916945457458496,
-      "step": 940
-    },
-    {
-      "epoch": 1.988487702773417,
-      "grad_norm": 30.98924464228554,
-      "learning_rate": 2.6813123097352287e-11,
-      "logits/chosen": -0.7241233587265015,
-      "logits/rejected": -0.4993128180503845,
-      "logps/chosen": -443.7752380371094,
-      "logps/rejected": -581.8499755859375,
-      "loss": 0.3187,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -1.385292649269104,
-      "rewards/margins": 1.7712970972061157,
-      "rewards/rejected": -3.1565897464752197,
-      "step": 950
-    },
-    {
-      "epoch": 1.9968602825745683,
-      "eval_logits/chosen": -0.5949550271034241,
-      "eval_logits/rejected": -0.44720327854156494,
-      "eval_logps/chosen": -426.89898681640625,
-      "eval_logps/rejected": -545.3427124023438,
-      "eval_loss": 0.5225037932395935,
-      "eval_rewards/accuracies": 0.7734375,
-      "eval_rewards/chosen": -1.547555685043335,
-      "eval_rewards/margins": 1.1972318887710571,
-      "eval_rewards/rejected": -2.7447874546051025,
-      "eval_runtime": 170.0564,
-      "eval_samples_per_second": 11.761,
-      "eval_steps_per_second": 0.188,
-      "step": 954
-    },
-    {
-      "epoch": 1.9968602825745683,
-      "step": 954,
       "total_flos": 0.0,
-      "train_loss": 0.0,
-      "train_runtime": 3.4239,
-      "train_samples_per_second": 17855.176,
-      "train_steps_per_second": 139.316
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9984301412872841,
   "eval_steps": 500,
+  "global_step": 477,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0020931449502878076,
+      "grad_norm": 2.2216637005002386,
+      "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": -1.6314841508865356,
+      "logits/rejected": -1.353194236755371,
+      "logps/chosen": -368.29144287109375,
+      "logps/rejected": -370.7230224609375,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
     },
     {
       "epoch": 0.020931449502878074,
+      "grad_norm": 2.1524494849038778,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -1.2345138788223267,
+      "logits/rejected": -1.203288197517395,
+      "logps/chosen": -314.1005554199219,
+      "logps/rejected": -286.3752136230469,
+      "loss": 0.693,
+      "rewards/accuracies": 0.4930555522441864,
+      "rewards/chosen": -2.686006700969301e-05,
+      "rewards/margins": 0.0007661848794668913,
+      "rewards/rejected": -0.0007930449792183936,
       "step": 10
     },
     {
       "epoch": 0.04186289900575615,
+      "grad_norm": 2.0655596511164083,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -1.304213523864746,
+      "logits/rejected": -1.1859759092330933,
+      "logps/chosen": -320.55169677734375,
+      "logps/rejected": -283.34149169921875,
       "loss": 0.6931,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.00017411960288882256,
+      "rewards/margins": 5.0039543566526845e-05,
+      "rewards/rejected": -0.0002241591428173706,
       "step": 20
     },
     {
       "epoch": 0.06279434850863422,
+      "grad_norm": 2.12111028976462,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -1.3263781070709229,
+      "logits/rejected": -1.2141128778457642,
+      "logps/chosen": -294.7076110839844,
+      "logps/rejected": -251.52481079101562,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": 0.0012247291160747409,
+      "rewards/margins": -0.0003233866882510483,
+      "rewards/rejected": 0.0015481156297028065,
       "step": 30
     },
     {
       "epoch": 0.0837257980115123,
+      "grad_norm": 1.9880970924710342,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -1.2525466680526733,
+      "logits/rejected": -1.1410564184188843,
+      "logps/chosen": -270.8800354003906,
+      "logps/rejected": -266.47222900390625,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.005721802823245525,
+      "rewards/margins": 0.0018067390192300081,
+      "rewards/rejected": 0.003915064036846161,
       "step": 40
     },
     {
       "epoch": 0.10465724751439037,
+      "grad_norm": 2.1837707951870677,
+      "learning_rate": 4.999731868769026e-07,
+      "logits/chosen": -1.2781437635421753,
+      "logits/rejected": -1.1634522676467896,
+      "logps/chosen": -299.9478454589844,
+      "logps/rejected": -279.74188232421875,
+      "loss": 0.6902,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.014337332919239998,
+      "rewards/margins": 0.005479713901877403,
+      "rewards/rejected": 0.00885761994868517,
       "step": 50
     },
     {
       "epoch": 0.12558869701726844,
+      "grad_norm": 2.3039683597630227,
+      "learning_rate": 4.990353313429303e-07,
+      "logits/chosen": -1.3196525573730469,
+      "logits/rejected": -1.2014460563659668,
+      "logps/chosen": -259.46942138671875,
+      "logps/rejected": -252.1083984375,
+      "loss": 0.6885,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": 0.027976389974355698,
+      "rewards/margins": 0.010958237573504448,
+      "rewards/rejected": 0.0170181542634964,
       "step": 60
     },
     {
       "epoch": 0.14652014652014653,
+      "grad_norm": 2.025942457662755,
+      "learning_rate": 4.967625656594781e-07,
+      "logits/chosen": -1.246511697769165,
+      "logits/rejected": -1.1918096542358398,
+      "logps/chosen": -304.3538513183594,
+      "logps/rejected": -286.70849609375,
+      "loss": 0.6857,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.034880757331848145,
+      "rewards/margins": 0.013793361373245716,
+      "rewards/rejected": 0.021087396889925003,
       "step": 70
     },
     {
       "epoch": 0.1674515960230246,
+      "grad_norm": 2.139816541586556,
+      "learning_rate": 4.93167072587771e-07,
+      "logits/chosen": -1.3581794500350952,
+      "logits/rejected": -1.1709249019622803,
+      "logps/chosen": -337.73638916015625,
+      "logps/rejected": -256.8132629394531,
+      "loss": 0.6816,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.04202472046017647,
+      "rewards/margins": 0.029817480593919754,
+      "rewards/rejected": 0.01220723893493414,
       "step": 80
     },
     {
       "epoch": 0.18838304552590268,
+      "grad_norm": 2.184463703029387,
+      "learning_rate": 4.882681251368548e-07,
+      "logits/chosen": -1.2384573221206665,
+      "logits/rejected": -1.1635406017303467,
+      "logps/chosen": -260.00115966796875,
+      "logps/rejected": -258.2013244628906,
+      "loss": 0.6781,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.025884713977575302,
+      "rewards/margins": 0.02733892761170864,
+      "rewards/rejected": -0.0014542154967784882,
       "step": 90
     },
     {
       "epoch": 0.20931449502878074,
+      "grad_norm": 2.302037128469088,
+      "learning_rate": 4.820919832540181e-07,
+      "logits/chosen": -1.304317831993103,
+      "logits/rejected": -1.1416256427764893,
+      "logps/chosen": -312.20867919921875,
+      "logps/rejected": -292.9761962890625,
+      "loss": 0.6731,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 0.016404878348112106,
+      "rewards/margins": 0.0562920868396759,
+      "rewards/rejected": -0.0398872084915638,
       "step": 100
     },
     {
       "epoch": 0.2302459445316588,
+      "grad_norm": 2.476640494327824,
+      "learning_rate": 4.7467175306295647e-07,
+      "logits/chosen": -1.3065650463104248,
+      "logits/rejected": -1.2025437355041504,
+      "logps/chosen": -299.5341796875,
+      "logps/rejected": -286.65081787109375,
+      "loss": 0.6719,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.019125858321785927,
+      "rewards/margins": 0.05537647008895874,
+      "rewards/rejected": -0.07450231909751892,
       "step": 110
     },
     {
       "epoch": 0.25117739403453687,
+      "grad_norm": 2.42503756687085,
+      "learning_rate": 4.6604720940421207e-07,
+      "logits/chosen": -1.3212846517562866,
+      "logits/rejected": -1.3139406442642212,
+      "logps/chosen": -273.289306640625,
+      "logps/rejected": -277.60711669921875,
+      "loss": 0.6601,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.03048776648938656,
+      "rewards/margins": 0.06633703410625458,
+      "rewards/rejected": -0.09682480990886688,
       "step": 120
     },
     {
       "epoch": 0.272108843537415,
+      "grad_norm": 2.7217854249308493,
+      "learning_rate": 4.5626458262912735e-07,
+      "logits/chosen": -1.3054877519607544,
+      "logits/rejected": -1.209935188293457,
+      "logps/chosen": -295.87884521484375,
+      "logps/rejected": -290.7591247558594,
+      "loss": 0.652,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.06190527230501175,
+      "rewards/margins": 0.07534609735012054,
+      "rewards/rejected": -0.1372513771057129,
       "step": 130
     },
     {
       "epoch": 0.29304029304029305,
+      "grad_norm": 2.884195278457084,
+      "learning_rate": 4.453763107901675e-07,
+      "logits/chosen": -1.3432964086532593,
+      "logits/rejected": -1.202289342880249,
+      "logps/chosen": -339.2923278808594,
+      "logps/rejected": -292.0403137207031,
+      "loss": 0.6479,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.05155748128890991,
+      "rewards/margins": 0.12817394733428955,
+      "rewards/rejected": -0.17973145842552185,
       "step": 140
     },
     {
       "epoch": 0.3139717425431711,
+      "grad_norm": 3.293629728295891,
+      "learning_rate": 4.3344075855595097e-07,
+      "logits/chosen": -1.3512450456619263,
+      "logits/rejected": -1.267796516418457,
+      "logps/chosen": -301.23553466796875,
+      "logps/rejected": -276.87689208984375,
+      "loss": 0.6454,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.09927480667829514,
+      "rewards/margins": 0.12617069482803345,
+      "rewards/rejected": -0.22544550895690918,
       "step": 150
     },
     {
       "epoch": 0.3349031920460492,
+      "grad_norm": 5.329039698823607,
+      "learning_rate": 4.2052190435769554e-07,
+      "logits/chosen": -1.3824660778045654,
+      "logits/rejected": -1.1998783349990845,
+      "logps/chosen": -293.38714599609375,
+      "logps/rejected": -284.198486328125,
+      "loss": 0.6335,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.07924506813287735,
+      "rewards/margins": 0.18151573836803436,
+      "rewards/rejected": -0.2607608139514923,
       "step": 160
     },
     {
       "epoch": 0.35583464154892724,
+      "grad_norm": 4.73498829155891,
+      "learning_rate": 4.0668899744407567e-07,
+      "logits/chosen": -1.3166488409042358,
+      "logits/rejected": -1.225121021270752,
+      "logps/chosen": -283.9803161621094,
+      "logps/rejected": -269.71551513671875,
+      "loss": 0.6341,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.157345250248909,
+      "rewards/margins": 0.14062240719795227,
+      "rewards/rejected": -0.2979676425457001,
       "step": 170
     },
     {
       "epoch": 0.37676609105180536,
+      "grad_norm": 4.148844444439802,
+      "learning_rate": 3.920161866827889e-07,
+      "logits/chosen": -1.2676044702529907,
+      "logits/rejected": -1.2061588764190674,
+      "logps/chosen": -293.41998291015625,
+      "logps/rejected": -282.3377380371094,
+      "loss": 0.6255,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.14930489659309387,
+      "rewards/margins": 0.13889411091804504,
+      "rewards/rejected": -0.2881990075111389,
       "step": 180
     },
     {
       "epoch": 0.3976975405546834,
+      "grad_norm": 4.210268144972537,
+      "learning_rate": 3.765821230985757e-07,
+      "logits/chosen": -1.270572543144226,
+      "logits/rejected": -1.255990982055664,
+      "logps/chosen": -278.5187683105469,
+      "logps/rejected": -289.1994934082031,
+      "loss": 0.6236,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.05700838565826416,
+      "rewards/margins": 0.1534106433391571,
+      "rewards/rejected": -0.21041902899742126,
       "step": 190
     },
     {
       "epoch": 0.4186289900575615,
+      "grad_norm": 4.513968949295029,
+      "learning_rate": 3.604695382782159e-07,
+      "logits/chosen": -1.2794849872589111,
+      "logits/rejected": -1.2373203039169312,
+      "logps/chosen": -275.9900817871094,
+      "logps/rejected": -305.5406188964844,
+      "loss": 0.6285,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.1595189869403839,
+      "rewards/margins": 0.13092303276062012,
+      "rewards/rejected": -0.29044201970100403,
       "step": 200
     },
     {
       "epoch": 0.43956043956043955,
+      "grad_norm": 4.130260296784633,
+      "learning_rate": 3.4376480090239047e-07,
+      "logits/chosen": -1.3395261764526367,
+      "logits/rejected": -1.160781741142273,
+      "logps/chosen": -336.36309814453125,
+      "logps/rejected": -299.7681884765625,
+      "loss": 0.6274,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.1335216909646988,
+      "rewards/margins": 0.22881793975830078,
+      "rewards/rejected": -0.36233964562416077,
       "step": 210
     },
     {
       "epoch": 0.4604918890633176,
+      "grad_norm": 4.2020468567803135,
+      "learning_rate": 3.265574537815398e-07,
+      "logits/chosen": -1.2917451858520508,
+      "logits/rejected": -1.2045356035232544,
+      "logps/chosen": -264.0050354003906,
+      "logps/rejected": -286.49566650390625,
+      "loss": 0.6234,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.21042123436927795,
+      "rewards/margins": 0.1836375892162323,
+      "rewards/rejected": -0.39405879378318787,
       "step": 220
     },
     {
       "epoch": 0.48142333856619574,
+      "grad_norm": 5.462895375975161,
+      "learning_rate": 3.0893973387735683e-07,
+      "logits/chosen": -1.33823561668396,
+      "logits/rejected": -1.204892873764038,
+      "logps/chosen": -285.23309326171875,
+      "logps/rejected": -287.7167663574219,
+      "loss": 0.6225,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.1863180696964264,
+      "rewards/margins": 0.2673104703426361,
+      "rewards/rejected": -0.4536285400390625,
       "step": 230
     },
     {
       "epoch": 0.5023547880690737,
+      "grad_norm": 4.249954784852311,
+      "learning_rate": 2.910060778827554e-07,
+      "logits/chosen": -1.311199426651001,
+      "logits/rejected": -1.22099769115448,
+      "logps/chosen": -313.4962463378906,
+      "logps/rejected": -319.8878479003906,
+      "loss": 0.606,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.2013070285320282,
+      "rewards/margins": 0.27799052000045776,
+      "rewards/rejected": -0.47929757833480835,
       "step": 240
     },
     {
       "epoch": 0.5232862375719518,
+      "grad_norm": 6.044167355639739,
+      "learning_rate": 2.7285261601056697e-07,
+      "logits/chosen": -1.3467825651168823,
+      "logits/rejected": -1.194777011871338,
+      "logps/chosen": -313.8829040527344,
+      "logps/rejected": -296.2748107910156,
+      "loss": 0.612,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.2433101385831833,
+      "rewards/margins": 0.253059446811676,
+      "rewards/rejected": -0.49636954069137573,
       "step": 250
     },
     {
       "epoch": 0.54421768707483,
+      "grad_norm": 4.939384686255436,
+      "learning_rate": 2.5457665670441937e-07,
+      "logits/chosen": -1.2902387380599976,
+      "logits/rejected": -1.2375991344451904,
+      "logps/chosen": -289.4366455078125,
+      "logps/rejected": -296.7834167480469,
+      "loss": 0.608,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.23678669333457947,
+      "rewards/margins": 0.2222580909729004,
+      "rewards/rejected": -0.45904478430747986,
       "step": 260
     },
     {
       "epoch": 0.565149136577708,
+      "grad_norm": 3.639946353207058,
+      "learning_rate": 2.3627616503391812e-07,
+      "logits/chosen": -1.321746826171875,
+      "logits/rejected": -1.22855806350708,
+      "logps/chosen": -322.65325927734375,
+      "logps/rejected": -311.2021179199219,
+      "loss": 0.6071,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.13227801024913788,
+      "rewards/margins": 0.22432568669319153,
+      "rewards/rejected": -0.3566036820411682,
       "step": 270
     },
     {
       "epoch": 0.5860805860805861,
+      "grad_norm": 4.275254606059205,
+      "learning_rate": 2.1804923757009882e-07,
+      "logits/chosen": -1.275221347808838,
+      "logits/rejected": -1.1522352695465088,
+      "logps/chosen": -280.47003173828125,
+      "logps/rejected": -272.01348876953125,
+      "loss": 0.6143,
       "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.12610167264938354,
+      "rewards/margins": 0.22788269817829132,
+      "rewards/rejected": -0.35398435592651367,
       "step": 280
     },
     {
       "epoch": 0.6070120355834642,
+      "grad_norm": 5.423999562212257,
+      "learning_rate": 1.9999357655598891e-07,
+      "logits/chosen": -1.2647807598114014,
+      "logits/rejected": -1.2297732830047607,
+      "logps/chosen": -280.0606384277344,
+      "logps/rejected": -303.05706787109375,
+      "loss": 0.606,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.24480751156806946,
+      "rewards/margins": 0.22092871367931366,
+      "rewards/rejected": -0.4657362103462219,
       "step": 290
     },
     {
       "epoch": 0.6279434850863422,
+      "grad_norm": 4.555810704174,
+      "learning_rate": 1.8220596619089573e-07,
+      "logits/chosen": -1.3479591608047485,
+      "logits/rejected": -1.2260494232177734,
+      "logps/chosen": -363.6427307128906,
+      "logps/rejected": -332.61077880859375,
+      "loss": 0.6015,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.21298007667064667,
+      "rewards/margins": 0.23558974266052246,
+      "rewards/rejected": -0.4485698342323303,
       "step": 300
     },
     {
       "epoch": 0.6488749345892203,
+      "grad_norm": 4.921819098251592,
+      "learning_rate": 1.647817538357072e-07,
+      "logits/chosen": -1.3201913833618164,
+      "logits/rejected": -1.2364635467529297,
+      "logps/chosen": -336.68865966796875,
+      "logps/rejected": -303.8711242675781,
+      "loss": 0.5976,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.18723243474960327,
+      "rewards/margins": 0.2934957444667816,
+      "rewards/rejected": -0.4807282090187073,
       "step": 310
     },
     {
       "epoch": 0.6698063840920984,
+      "grad_norm": 5.4800197473848025,
+      "learning_rate": 1.478143389201113e-07,
+      "logits/chosen": -1.2567358016967773,
+      "logits/rejected": -1.1461724042892456,
+      "logps/chosen": -284.4916076660156,
+      "logps/rejected": -278.87237548828125,
+      "loss": 0.5938,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.20529761910438538,
+      "rewards/margins": 0.2834058701992035,
+      "rewards/rejected": -0.48870348930358887,
       "step": 320
     },
     {
       "epoch": 0.6907378335949764,
+      "grad_norm": 5.489304392569405,
+      "learning_rate": 1.3139467229135998e-07,
+      "logits/chosen": -1.3123420476913452,
+      "logits/rejected": -1.279762625694275,
+      "logps/chosen": -300.2234802246094,
+      "logps/rejected": -313.7867126464844,
+      "loss": 0.6092,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.14779067039489746,
+      "rewards/margins": 0.2438393384218216,
+      "rewards/rejected": -0.39162999391555786,
       "step": 330
     },
     {
       "epoch": 0.7116692830978545,
+      "grad_norm": 7.6710695980682,
+      "learning_rate": 1.1561076868822755e-07,
+      "logits/chosen": -1.3397032022476196,
+      "logits/rejected": -1.2899221181869507,
+      "logps/chosen": -317.85455322265625,
+      "logps/rejected": -308.87054443359375,
+      "loss": 0.5991,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.12762676179409027,
+      "rewards/margins": 0.22320690751075745,
+      "rewards/rejected": -0.3508336842060089,
       "step": 340
     },
     {
       "epoch": 0.7326007326007326,
+      "grad_norm": 4.866645044943069,
+      "learning_rate": 1.0054723495346482e-07,
+      "logits/chosen": -1.2954719066619873,
+      "logits/rejected": -1.1627123355865479,
+      "logps/chosen": -287.058837890625,
+      "logps/rejected": -284.2725524902344,
+      "loss": 0.5907,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.17578962445259094,
+      "rewards/margins": 0.2943018078804016,
+      "rewards/rejected": -0.47009140253067017,
       "step": 350
     },
     {
       "epoch": 0.7535321821036107,
+      "grad_norm": 4.349425498711494,
+      "learning_rate": 8.628481651367875e-08,
+      "logits/chosen": -1.2945648431777954,
+      "logits/rejected": -1.2246530055999756,
+      "logps/chosen": -341.4446716308594,
+      "logps/rejected": -321.95196533203125,
+      "loss": 0.6128,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.1850513368844986,
+      "rewards/margins": 0.2748066782951355,
+      "rewards/rejected": -0.4598580300807953,
       "step": 360
     },
     {
       "epoch": 0.7744636316064888,
+      "grad_norm": 4.798940209140212,
+      "learning_rate": 7.289996455765748e-08,
+      "logits/chosen": -1.2601999044418335,
+      "logits/rejected": -1.1612764596939087,
+      "logps/chosen": -292.4561767578125,
+      "logps/rejected": -281.00152587890625,
+      "loss": 0.5979,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.17593416571617126,
+      "rewards/margins": 0.2297048270702362,
+      "rewards/rejected": -0.40563899278640747,
       "step": 370
     },
     {
       "epoch": 0.7953950811093669,
+      "grad_norm": 6.704056490224638,
+      "learning_rate": 6.046442623320145e-08,
+      "logits/chosen": -1.3166625499725342,
+      "logits/rejected": -1.2426071166992188,
+      "logps/chosen": -280.49658203125,
+      "logps/rejected": -327.62945556640625,
+      "loss": 0.5965,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.27102166414260864,
+      "rewards/margins": 0.3087245225906372,
+      "rewards/rejected": -0.5797461271286011,
       "step": 380
     },
     {
       "epoch": 0.8163265306122449,
+      "grad_norm": 4.8192929971991605,
+      "learning_rate": 4.904486005914027e-08,
+      "logits/chosen": -1.4123605489730835,
+      "logits/rejected": -1.334108591079712,
+      "logps/chosen": -365.5756530761719,
+      "logps/rejected": -360.2679443359375,
+      "loss": 0.5969,
       "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.1903412640094757,
+      "rewards/margins": 0.3084810674190521,
+      "rewards/rejected": -0.4988223612308502,
       "step": 390
     },
     {
       "epoch": 0.837257980115123,
+      "grad_norm": 5.625190550048412,
+      "learning_rate": 3.8702478614051345e-08,
+      "logits/chosen": -1.3394266366958618,
+      "logits/rejected": -1.2082809209823608,
+      "logps/chosen": -290.7579040527344,
+      "logps/rejected": -297.6111145019531,
+      "loss": 0.6015,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.20424337685108185,
+      "rewards/margins": 0.30908313393592834,
+      "rewards/rejected": -0.5133264660835266,
       "step": 400
     },
     {
       "epoch": 0.858189429618001,
+      "grad_norm": 6.001911832374207,
+      "learning_rate": 2.9492720416985e-08,
+      "logits/chosen": -1.3413333892822266,
+      "logits/rejected": -1.1819798946380615,
+      "logps/chosen": -345.768798828125,
+      "logps/rejected": -324.0213317871094,
+      "loss": 0.6113,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.2449842393398285,
+      "rewards/margins": 0.26237279176712036,
+      "rewards/rejected": -0.5073570013046265,
       "step": 410
     },
     {
       "epoch": 0.8791208791208791,
+      "grad_norm": 7.098479038891308,
+      "learning_rate": 2.1464952759020856e-08,
+      "logits/chosen": -1.3054345846176147,
+      "logits/rejected": -1.212334394454956,
+      "logps/chosen": -300.0458984375,
+      "logps/rejected": -334.25799560546875,
+      "loss": 0.5909,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.3056102991104126,
+      "rewards/margins": 0.30079561471939087,
+      "rewards/rejected": -0.6064059138298035,
       "step": 420
     },
     {
       "epoch": 0.9000523286237572,
+      "grad_norm": 5.986649846414336,
+      "learning_rate": 1.4662207078575684e-08,
+      "logits/chosen": -1.2815589904785156,
+      "logits/rejected": -1.230791449546814,
+      "logps/chosen": -327.59326171875,
+      "logps/rejected": -328.6330261230469,
+      "loss": 0.5866,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.2670283317565918,
+      "rewards/margins": 0.29276418685913086,
+      "rewards/rejected": -0.5597925186157227,
       "step": 430
     },
     {
       "epoch": 0.9209837781266352,
+      "grad_norm": 6.667255378058642,
+      "learning_rate": 9.12094829893642e-09,
+      "logits/chosen": -1.3328527212142944,
+      "logits/rejected": -1.2644946575164795,
+      "logps/chosen": -298.36688232421875,
+      "logps/rejected": -278.701416015625,
+      "loss": 0.5928,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.23760783672332764,
+      "rewards/margins": 0.25196802616119385,
+      "rewards/rejected": -0.4895758628845215,
       "step": 440
     },
     {
       "epoch": 0.9419152276295133,
+      "grad_norm": 6.876184304010807,
+      "learning_rate": 4.8708793644441086e-09,
+      "logits/chosen": -1.387279748916626,
+      "logits/rejected": -1.2943140268325806,
+      "logps/chosen": -305.9947509765625,
+      "logps/rejected": -321.4436340332031,
+      "loss": 0.5988,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.2561241090297699,
+      "rewards/margins": 0.28780630230903625,
+      "rewards/rejected": -0.5439304113388062,
       "step": 450
     },
     {
       "epoch": 0.9628466771323915,
+      "grad_norm": 5.120319319432807,
+      "learning_rate": 1.9347820230782295e-09,
+      "logits/chosen": -1.3500282764434814,
+      "logits/rejected": -1.2091432809829712,
+      "logps/chosen": -310.1429443359375,
+      "logps/rejected": -289.270263671875,
+      "loss": 0.6001,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.25589779019355774,
+      "rewards/margins": 0.28265419602394104,
+      "rewards/rejected": -0.5385519862174988,
       "step": 460
     },
     {
       "epoch": 0.9837781266352695,
+      "grad_norm": 4.959973504548126,
+      "learning_rate": 3.2839470889836627e-10,
+      "logits/chosen": -1.307715892791748,
+      "logits/rejected": -1.2506450414657593,
+      "logps/chosen": -334.43817138671875,
+      "logps/rejected": -338.33966064453125,
+      "loss": 0.5873,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.23161163926124573,
+      "rewards/margins": 0.2939731180667877,
+      "rewards/rejected": -0.5255848169326782,
       "step": 470
     },
     {
       "epoch": 0.9984301412872841,
+      "eval_logits/chosen": -1.2491042613983154,
+      "eval_logits/rejected": -1.1529250144958496,
+      "eval_logps/chosen": -301.5587463378906,
+      "eval_logps/rejected": -332.839599609375,
+      "eval_loss": 0.5996649861335754,
+      "eval_rewards/accuracies": 0.70703125,
+      "eval_rewards/chosen": -0.20619867742061615,
+      "eval_rewards/margins": 0.3225747346878052,
+      "eval_rewards/rejected": -0.5287734866142273,
+      "eval_runtime": 144.7492,
+      "eval_samples_per_second": 13.817,
+      "eval_steps_per_second": 0.221,
       "step": 477
     },
     {
+      "epoch": 0.9984301412872841,
+      "step": 477,
       "total_flos": 0.0,
+      "train_loss": 0.6286907725863986,
+      "train_runtime": 7498.289,
+      "train_samples_per_second": 8.153,
+      "train_steps_per_second": 0.064
     }
   ],
   "logging_steps": 10,