Model save

Browse files

Files changed (10) hide show

README.md +11 -11
all_results.json +15 -15
config.json +2 -2
eval_results.json +12 -12
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +3 -3
trainer_state.json +961 -961
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,15 +17,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Logits/chosen: -1.8431
-- Logits/rejected: -1.7970
-- Logps/chosen: -488.8500
-- Logps/rejected: -619.1251
-- Loss: 0.5119
-- Rewards/accuracies: 0.7461
-- Rewards/chosen: -2.1151
-- Rewards/margins: 1.3443
-- Rewards/rejected: -3.4594
 ## Model description
@@ -62,8 +62,8 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
 |:-------------:|:------:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.4926        | 0.9984 | 477  | -2.1760       | -2.1455         | -412.9510    | -506.2944      | 0.5082          | 0.7578             | -1.3561        | 0.9750          | -2.3311          |
-| 0.3138        | 1.9969 | 954  | -1.8431       | -1.7970         | -488.8500    | -619.1251      | 0.5119          | 0.7461             | -2.1151        | 1.3443          | -3.4594          |
 ### Framework versions

 This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Logits/chosen: -0.5950
+- Logits/rejected: -0.4472
+- Logps/chosen: -426.8990
+- Logps/rejected: -545.3427
+- Loss: 0.5225
+- Rewards/accuracies: 0.7734
+- Rewards/chosen: -1.5476
+- Rewards/margins: 1.1972
+- Rewards/rejected: -2.7448
 ## Model description
 | Training Loss | Epoch  | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
 |:-------------:|:------:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
+| 0.501         | 0.9984 | 477  | -1.2732       | -1.1615         | -346.5501    | -435.7064      | 0.5185          | 0.7773             | -0.7441        | 0.9044          | -1.6484          |
+| 0.3187        | 1.9969 | 954  | -0.5950       | -0.4472         | -426.8990    | -545.3427      | 0.5225          | 0.7734             | -1.5476        | 1.1972          | -2.7448          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
     "epoch": 1.9968602825745683,
-    "eval_logits/chosen": -1.843076467514038,
-    "eval_logits/rejected": -1.7970439195632935,
-    "eval_logps/chosen": -488.8499755859375,
-    "eval_logps/rejected": -619.1251220703125,
-    "eval_loss": 1.217253565788269,
-    "eval_rewards/accuracies": 0.74609375,
-    "eval_rewards/chosen": -10.575380325317383,
-    "eval_rewards/margins": 6.721622467041016,
-    "eval_rewards/rejected": -17.2970027923584,
-    "eval_runtime": 180.4143,
     "eval_samples": 2000,
-    "eval_samples_per_second": 11.086,
-    "eval_steps_per_second": 0.177,
     "total_flos": 0.0,
     "train_loss": 0.0,
-    "train_runtime": 3.478,
     "train_samples": 61134,
-    "train_samples_per_second": 17577.112,
-    "train_steps_per_second": 137.146
 }

 {
     "epoch": 1.9968602825745683,
+    "eval_logits/chosen": -0.5949550271034241,
+    "eval_logits/rejected": -0.44720327854156494,
+    "eval_logps/chosen": -426.89898681640625,
+    "eval_logps/rejected": -545.3427124023438,
+    "eval_loss": 1.1966235637664795,
+    "eval_rewards/accuracies": 0.7734375,
+    "eval_rewards/chosen": -7.737778663635254,
+    "eval_rewards/margins": 5.986159324645996,
+    "eval_rewards/rejected": -13.723937034606934,
+    "eval_runtime": 182.4829,
     "eval_samples": 2000,
+    "eval_samples_per_second": 10.96,
+    "eval_steps_per_second": 0.175,
     "total_flos": 0.0,
     "train_loss": 0.0,
+    "train_runtime": 3.4239,
     "train_samples": 61134,
+    "train_samples_per_second": 17855.176,
+    "train_steps_per_second": 139.316
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "data/sft/zephyr-7b-sft-1e-every25/checkpoint-200",
   "architectures": [
     "MistralForCausalLM"
   ],
@@ -22,6 +22,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.2",
-  "use_cache": false,
   "vocab_size": 32000
 }

 {
+  "_name_or_path": "data/sft/zephyr-7b-sft-1e-every25/checkpoint-700",
   "architectures": [
     "MistralForCausalLM"
   ],
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.2",
+  "use_cache": true,
   "vocab_size": 32000
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 1.9968602825745683,
-    "eval_logits/chosen": -1.843076467514038,
-    "eval_logits/rejected": -1.7970439195632935,
-    "eval_logps/chosen": -488.8499755859375,
-    "eval_logps/rejected": -619.1251220703125,
-    "eval_loss": 1.217253565788269,
-    "eval_rewards/accuracies": 0.74609375,
-    "eval_rewards/chosen": -10.575380325317383,
-    "eval_rewards/margins": 6.721622467041016,
-    "eval_rewards/rejected": -17.2970027923584,
-    "eval_runtime": 180.4143,
     "eval_samples": 2000,
-    "eval_samples_per_second": 11.086,
-    "eval_steps_per_second": 0.177
 }

 {
     "epoch": 1.9968602825745683,
+    "eval_logits/chosen": -0.5949550271034241,
+    "eval_logits/rejected": -0.44720327854156494,
+    "eval_logps/chosen": -426.89898681640625,
+    "eval_logps/rejected": -545.3427124023438,
+    "eval_loss": 1.1966235637664795,
+    "eval_rewards/accuracies": 0.7734375,
+    "eval_rewards/chosen": -7.737778663635254,
+    "eval_rewards/margins": 5.986159324645996,
+    "eval_rewards/rejected": -13.723937034606934,
+    "eval_runtime": 182.4829,
     "eval_samples": 2000,
+    "eval_samples_per_second": 10.96,
+    "eval_steps_per_second": 0.175
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d409451aee7e67f7af769c603992848bb56686f2128725dc784dd7116cf33841
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:4972678ffd391d087c4bac63c1b36a29f720341b4209786c908dd86d831d6743
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8587b5070be5d2d68540351a78d713ee93922409df181e41978f6c67a7753634
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d64a5b766f7d7253c75c391e10b48930d0ae1069fdf00413a63935fe368678d
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21db7468292c3c37b9fa7faed58f9e587e4299595d99e8b7b0c2873fc4b5238a
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:8980262882ff0e180af996a8e4e6254086d7ec8b69eab295bc7820f8b92788a9
 size 4540516344

train_results.json CHANGED Viewed

@@ -2,8 +2,8 @@
     "epoch": 1.9968602825745683,
     "total_flos": 0.0,
     "train_loss": 0.0,
-    "train_runtime": 3.478,
     "train_samples": 61134,
-    "train_samples_per_second": 17577.112,
-    "train_steps_per_second": 137.146
 }

     "epoch": 1.9968602825745683,
     "total_flos": 0.0,
     "train_loss": 0.0,
+    "train_runtime": 3.4239,
     "train_samples": 61134,
+    "train_samples_per_second": 17855.176,
+    "train_steps_per_second": 139.316
 }

trainer_state.json CHANGED Viewed

@@ -10,12 +10,12 @@
   "log_history": [
     {
       "epoch": 0.0020931449502878076,
-      "grad_norm": 8.648654168519636,
       "learning_rate": 5.208333333333333e-09,
-      "logits/chosen": -2.911508798599243,
-      "logits/rejected": -2.8825056552886963,
-      "logps/chosen": -328.824462890625,
-      "logps/rejected": -375.2520751953125,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -25,1459 +25,1459 @@
     },
     {
       "epoch": 0.020931449502878074,
-      "grad_norm": 8.529629402090206,
       "learning_rate": 5.208333333333333e-08,
-      "logits/chosen": -2.738391876220703,
-      "logits/rejected": -2.715987205505371,
-      "logps/chosen": -320.3747863769531,
-      "logps/rejected": -286.63323974609375,
-      "loss": 0.6932,
-      "rewards/accuracies": 0.4375,
-      "rewards/chosen": -1.6565963960601948e-05,
-      "rewards/margins": -6.0656500863842666e-05,
-      "rewards/rejected": 4.4090484152548015e-05,
       "step": 10
     },
     {
       "epoch": 0.04186289900575615,
-      "grad_norm": 8.121160296339491,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.812523365020752,
-      "logits/rejected": -2.765321731567383,
-      "logps/chosen": -326.799072265625,
-      "logps/rejected": -291.5594177246094,
-      "loss": 0.693,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": 0.0013127574929967523,
-      "rewards/margins": 0.0006053571123629808,
-      "rewards/rejected": 0.0007074003806337714,
       "step": 20
     },
     {
       "epoch": 0.06279434850863422,
-      "grad_norm": 7.841014680458238,
       "learning_rate": 1.5624999999999999e-07,
-      "logits/chosen": -2.791351318359375,
-      "logits/rejected": -2.737368583679199,
-      "logps/chosen": -304.5863952636719,
-      "logps/rejected": -255.7802734375,
-      "loss": 0.6923,
       "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": 0.005904044955968857,
-      "rewards/margins": 0.0021464950405061245,
-      "rewards/rejected": 0.003757549449801445,
       "step": 30
     },
     {
       "epoch": 0.0837257980115123,
-      "grad_norm": 7.780689883117447,
       "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.7076315879821777,
-      "logits/rejected": -2.685647487640381,
-      "logps/chosen": -276.40045166015625,
-      "logps/rejected": -266.44720458984375,
-      "loss": 0.69,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.015561707317829132,
-      "rewards/margins": 0.00809282623231411,
-      "rewards/rejected": 0.007468880619853735,
       "step": 40
     },
     {
       "epoch": 0.10465724751439037,
-      "grad_norm": 7.837366185969384,
       "learning_rate": 2.604166666666667e-07,
-      "logits/chosen": -2.7266910076141357,
-      "logits/rejected": -2.665973424911499,
-      "logps/chosen": -287.90960693359375,
-      "logps/rejected": -280.13787841796875,
-      "loss": 0.6871,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.026710817590355873,
-      "rewards/margins": 0.01235121302306652,
-      "rewards/rejected": 0.014359605498611927,
       "step": 50
     },
     {
       "epoch": 0.12558869701726844,
-      "grad_norm": 8.68562739775634,
       "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.738069534301758,
-      "logits/rejected": -2.694655656814575,
-      "logps/chosen": -261.654296875,
-      "logps/rejected": -249.44241333007812,
-      "loss": 0.6811,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": 0.039315465837717056,
-      "rewards/margins": 0.02459501288831234,
-      "rewards/rejected": 0.014720454812049866,
       "step": 60
     },
     {
       "epoch": 0.14652014652014653,
-      "grad_norm": 8.17805459442737,
       "learning_rate": 3.645833333333333e-07,
-      "logits/chosen": -2.6594691276550293,
-      "logits/rejected": -2.6348719596862793,
-      "logps/chosen": -304.16754150390625,
-      "logps/rejected": -292.7433166503906,
-      "loss": 0.6713,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.03804076835513115,
-      "rewards/margins": 0.0464973971247673,
-      "rewards/rejected": -0.008456626906991005,
       "step": 70
     },
     {
       "epoch": 0.1674515960230246,
-      "grad_norm": 9.10750617456122,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.713014602661133,
-      "logits/rejected": -2.63926362991333,
-      "logps/chosen": -343.3531494140625,
-      "logps/rejected": -272.9491271972656,
-      "loss": 0.6603,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.01621154509484768,
-      "rewards/margins": 0.09821438044309616,
-      "rewards/rejected": -0.08200283348560333,
       "step": 80
     },
     {
       "epoch": 0.18838304552590268,
-      "grad_norm": 10.344063716824344,
       "learning_rate": 4.6874999999999996e-07,
-      "logits/chosen": -2.6566672325134277,
-      "logits/rejected": -2.616140127182007,
-      "logps/chosen": -273.27459716796875,
-      "logps/rejected": -285.70361328125,
-      "loss": 0.6362,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.09348011016845703,
-      "rewards/margins": 0.12727037072181702,
-      "rewards/rejected": -0.22075048089027405,
       "step": 90
     },
     {
       "epoch": 0.20931449502878074,
-      "grad_norm": 18.46434787727296,
       "learning_rate": 4.999731868769026e-07,
-      "logits/chosen": -2.62548828125,
-      "logits/rejected": -2.604613780975342,
-      "logps/chosen": -326.0329895019531,
-      "logps/rejected": -328.9161071777344,
-      "loss": 0.6209,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.15337222814559937,
-      "rewards/margins": 0.27119967341423035,
-      "rewards/rejected": -0.4245719313621521,
       "step": 100
     },
     {
       "epoch": 0.2302459445316588,
-      "grad_norm": 12.853014931259976,
       "learning_rate": 4.996716052911017e-07,
-      "logits/chosen": -2.6524977684020996,
-      "logits/rejected": -2.613800287246704,
-      "logps/chosen": -333.86810302734375,
-      "logps/rejected": -339.0367431640625,
-      "loss": 0.6155,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.2943059504032135,
-      "rewards/margins": 0.2476470172405243,
-      "rewards/rejected": -0.5419529676437378,
       "step": 110
     },
     {
       "epoch": 0.25117739403453687,
-      "grad_norm": 13.434978559765035,
       "learning_rate": 4.990353313429303e-07,
-      "logits/chosen": -2.5527138710021973,
-      "logits/rejected": -2.5590224266052246,
-      "logps/chosen": -309.571044921875,
-      "logps/rejected": -332.9461364746094,
-      "loss": 0.598,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.2963547110557556,
-      "rewards/margins": 0.33014291524887085,
-      "rewards/rejected": -0.6264976263046265,
       "step": 120
     },
     {
       "epoch": 0.272108843537415,
-      "grad_norm": 13.77722186805988,
       "learning_rate": 4.980652179769217e-07,
-      "logits/chosen": -2.5915229320526123,
-      "logits/rejected": -2.5797364711761475,
-      "logps/chosen": -358.6594543457031,
-      "logps/rejected": -371.49652099609375,
-      "loss": 0.588,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.6360726356506348,
-      "rewards/margins": 0.286227822303772,
-      "rewards/rejected": -0.9223003387451172,
       "step": 130
     },
     {
       "epoch": 0.29304029304029305,
-      "grad_norm": 19.98956871690929,
       "learning_rate": 4.967625656594781e-07,
-      "logits/chosen": -2.6256630420684814,
-      "logits/rejected": -2.6000983715057373,
-      "logps/chosen": -368.37274169921875,
-      "logps/rejected": -357.54522705078125,
-      "loss": 0.5846,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.3657643496990204,
-      "rewards/margins": 0.411146879196167,
-      "rewards/rejected": -0.776911199092865,
       "step": 140
     },
     {
       "epoch": 0.3139717425431711,
-      "grad_norm": 18.241862609597362,
       "learning_rate": 4.951291206355559e-07,
-      "logits/chosen": -2.5957682132720947,
-      "logits/rejected": -2.570385456085205,
-      "logps/chosen": -348.45361328125,
-      "logps/rejected": -350.3853759765625,
-      "loss": 0.5898,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.5664342641830444,
-      "rewards/margins": 0.37359124422073364,
-      "rewards/rejected": -0.9400255084037781,
       "step": 150
     },
     {
       "epoch": 0.3349031920460492,
-      "grad_norm": 16.695399210826476,
       "learning_rate": 4.93167072587771e-07,
-      "logits/chosen": -2.6461105346679688,
-      "logits/rejected": -2.6081748008728027,
-      "logps/chosen": -334.31024169921875,
-      "logps/rejected": -353.1805419921875,
-      "loss": 0.5763,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.45854535698890686,
-      "rewards/margins": 0.46823421120643616,
-      "rewards/rejected": -0.926779568195343,
       "step": 160
     },
     {
       "epoch": 0.35583464154892724,
-      "grad_norm": 20.770623175746024,
       "learning_rate": 4.908790517010636e-07,
-      "logits/chosen": -2.5199551582336426,
-      "logits/rejected": -2.5082385540008545,
-      "logps/chosen": -325.3274230957031,
-      "logps/rejected": -337.1798400878906,
-      "loss": 0.5817,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.5404187440872192,
-      "rewards/margins": 0.3684747815132141,
-      "rewards/rejected": -0.9088934659957886,
       "step": 170
     },
     {
       "epoch": 0.37676609105180536,
-      "grad_norm": 17.458454310533863,
       "learning_rate": 4.882681251368548e-07,
-      "logits/chosen": -2.5944693088531494,
-      "logits/rejected": -2.57043719291687,
-      "logps/chosen": -339.6058044433594,
-      "logps/rejected": -346.19708251953125,
-      "loss": 0.5499,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.5662221312522888,
-      "rewards/margins": 0.3738660216331482,
-      "rewards/rejected": -0.9400882720947266,
       "step": 180
     },
     {
       "epoch": 0.3976975405546834,
-      "grad_norm": 21.162626385312407,
       "learning_rate": 4.853377929214243e-07,
-      "logits/chosen": -2.5164248943328857,
-      "logits/rejected": -2.490086793899536,
-      "logps/chosen": -326.11981201171875,
-      "logps/rejected": -356.9112548828125,
-      "loss": 0.567,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.5691932439804077,
-      "rewards/margins": 0.3675684630870819,
-      "rewards/rejected": -0.9367616772651672,
       "step": 190
     },
     {
       "epoch": 0.4186289900575615,
-      "grad_norm": 81.07404869193526,
       "learning_rate": 4.820919832540181e-07,
-      "logits/chosen": -2.495347499847412,
-      "logits/rejected": -2.5034618377685547,
-      "logps/chosen": -325.27166748046875,
-      "logps/rejected": -383.38934326171875,
-      "loss": 0.5841,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.6413096189498901,
-      "rewards/margins": 0.3838884234428406,
-      "rewards/rejected": -1.0251981019973755,
       "step": 200
     },
     {
       "epoch": 0.43956043956043955,
-      "grad_norm": 20.383161365084906,
       "learning_rate": 4.785350472409791e-07,
-      "logits/chosen": -2.5574824810028076,
-      "logits/rejected": -2.5132758617401123,
-      "logps/chosen": -382.79547119140625,
-      "logps/rejected": -362.0451354980469,
-      "loss": 0.5673,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.5895588397979736,
-      "rewards/margins": 0.43525028228759766,
-      "rewards/rejected": -1.0248091220855713,
       "step": 210
     },
     {
       "epoch": 0.4604918890633176,
-      "grad_norm": 19.259994881877645,
       "learning_rate": 4.7467175306295647e-07,
-      "logits/chosen": -2.493474245071411,
-      "logits/rejected": -2.5184781551361084,
-      "logps/chosen": -318.1018981933594,
-      "logps/rejected": -364.78167724609375,
-      "loss": 0.561,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -0.6697767376899719,
-      "rewards/margins": 0.4676804542541504,
-      "rewards/rejected": -1.137457251548767,
       "step": 220
     },
     {
       "epoch": 0.48142333856619574,
-      "grad_norm": 19.775692922777765,
       "learning_rate": 4.70507279583015e-07,
-      "logits/chosen": -2.6063382625579834,
-      "logits/rejected": -2.5750064849853516,
-      "logps/chosen": -334.16009521484375,
-      "logps/rejected": -381.5287780761719,
-      "loss": 0.5634,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.6287840008735657,
-      "rewards/margins": 0.7023510932922363,
-      "rewards/rejected": -1.3311350345611572,
       "step": 230
     },
     {
       "epoch": 0.5023547880690737,
-      "grad_norm": 26.289584097515366,
       "learning_rate": 4.6604720940421207e-07,
-      "logits/chosen": -2.5913660526275635,
-      "logits/rejected": -2.5510830879211426,
-      "logps/chosen": -363.0348205566406,
-      "logps/rejected": -385.59173583984375,
-      "loss": 0.5304,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.599415123462677,
-      "rewards/margins": 0.555901050567627,
-      "rewards/rejected": -1.1553161144256592,
       "step": 240
     },
     {
       "epoch": 0.5232862375719518,
-      "grad_norm": 20.96954894885707,
       "learning_rate": 4.612975213859487e-07,
-      "logits/chosen": -2.5373878479003906,
-      "logits/rejected": -2.4917821884155273,
-      "logps/chosen": -379.81591796875,
-      "logps/rejected": -413.7845764160156,
-      "loss": 0.5326,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -0.8831035494804382,
-      "rewards/margins": 0.783009946346283,
-      "rewards/rejected": -1.6661134958267212,
       "step": 250
     },
     {
       "epoch": 0.54421768707483,
-      "grad_norm": 20.35055226575624,
       "learning_rate": 4.5626458262912735e-07,
-      "logits/chosen": -2.5308146476745605,
-      "logits/rejected": -2.5432188510894775,
-      "logps/chosen": -362.18731689453125,
-      "logps/rejected": -401.601318359375,
-      "loss": 0.527,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.8506525754928589,
-      "rewards/margins": 0.6240705847740173,
-      "rewards/rejected": -1.474723219871521,
       "step": 260
     },
     {
       "epoch": 0.565149136577708,
-      "grad_norm": 21.42532206002976,
       "learning_rate": 4.5095513994085974e-07,
-      "logits/chosen": -2.396043300628662,
-      "logits/rejected": -2.3887431621551514,
-      "logps/chosen": -395.9293212890625,
-      "logps/rejected": -445.9908142089844,
-      "loss": 0.5364,
       "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.8952659368515015,
-      "rewards/margins": 0.8105502128601074,
-      "rewards/rejected": -1.7058160305023193,
       "step": 270
     },
     {
       "epoch": 0.5860805860805861,
-      "grad_norm": 24.442795762265213,
       "learning_rate": 4.453763107901675e-07,
-      "logits/chosen": -2.251249074935913,
-      "logits/rejected": -2.2444510459899902,
-      "logps/chosen": -361.8575744628906,
-      "logps/rejected": -387.69476318359375,
-      "loss": 0.5385,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.8830081820487976,
-      "rewards/margins": 0.6050563454627991,
-      "rewards/rejected": -1.4880646467208862,
       "step": 280
     },
     {
       "epoch": 0.6070120355834642,
-      "grad_norm": 21.25843011088378,
       "learning_rate": 4.395355737667985e-07,
-      "logits/chosen": -2.3289453983306885,
-      "logits/rejected": -2.2574009895324707,
-      "logps/chosen": -364.3363342285156,
-      "logps/rejected": -418.8705139160156,
-      "loss": 0.5286,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.0685086250305176,
-      "rewards/margins": 0.6174401044845581,
-      "rewards/rejected": -1.6859489679336548,
       "step": 290
     },
     {
       "epoch": 0.6279434850863422,
-      "grad_norm": 21.179507487381557,
       "learning_rate": 4.3344075855595097e-07,
-      "logits/chosen": -2.2611992359161377,
-      "logits/rejected": -2.218019962310791,
-      "logps/chosen": -428.0699768066406,
-      "logps/rejected": -442.8394470214844,
-      "loss": 0.5118,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.9603120684623718,
-      "rewards/margins": 0.6408740878105164,
-      "rewards/rejected": -1.6011863946914673,
       "step": 300
     },
     {
       "epoch": 0.6488749345892203,
-      "grad_norm": 26.830608117395943,
       "learning_rate": 4.271000354423425e-07,
-      "logits/chosen": -2.3035359382629395,
-      "logits/rejected": -2.2721774578094482,
-      "logps/chosen": -399.39703369140625,
-      "logps/rejected": -419.53594970703125,
-      "loss": 0.5142,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.8477271199226379,
-      "rewards/margins": 0.7570197582244873,
-      "rewards/rejected": -1.6047470569610596,
       "step": 310
     },
     {
       "epoch": 0.6698063840920984,
-      "grad_norm": 25.48809105017836,
       "learning_rate": 4.2052190435769554e-07,
-      "logits/chosen": -2.2605085372924805,
-      "logits/rejected": -2.199134349822998,
-      "logps/chosen": -384.046142578125,
-      "logps/rejected": -435.5370178222656,
-      "loss": 0.5029,
       "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.1322637796401978,
-      "rewards/margins": 0.8748885989189148,
-      "rewards/rejected": -2.007152557373047,
       "step": 320
     },
     {
       "epoch": 0.6907378335949764,
-      "grad_norm": 25.806873877392455,
       "learning_rate": 4.137151834863213e-07,
-      "logits/chosen": -2.2592532634735107,
-      "logits/rejected": -2.2413222789764404,
-      "logps/chosen": -370.25860595703125,
-      "logps/rejected": -438.299072265625,
-      "loss": 0.5145,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.8921791911125183,
-      "rewards/margins": 0.7555935382843018,
-      "rewards/rejected": -1.6477725505828857,
       "step": 330
     },
     {
       "epoch": 0.7116692830978545,
-      "grad_norm": 31.495534978222874,
       "learning_rate": 4.0668899744407567e-07,
-      "logits/chosen": -2.151144504547119,
-      "logits/rejected": -2.1227824687957764,
-      "logps/chosen": -416.178955078125,
-      "logps/rejected": -469.052490234375,
-      "loss": 0.5129,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.136067271232605,
-      "rewards/margins": 0.7855342626571655,
-      "rewards/rejected": -1.9216015338897705,
       "step": 340
     },
     {
       "epoch": 0.7326007326007326,
-      "grad_norm": 22.383341966309303,
       "learning_rate": 3.994527650465352e-07,
-      "logits/chosen": -2.245666027069092,
-      "logits/rejected": -2.1971018314361572,
-      "logps/chosen": -376.11187744140625,
-      "logps/rejected": -433.7845764160156,
-      "loss": 0.4804,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.0256567001342773,
-      "rewards/margins": 0.8312705159187317,
-      "rewards/rejected": -1.856927514076233,
       "step": 350
     },
     {
       "epoch": 0.7535321821036107,
-      "grad_norm": 22.50493532567032,
       "learning_rate": 3.920161866827889e-07,
-      "logits/chosen": -2.2463080883026123,
-      "logits/rejected": -2.190325975418091,
-      "logps/chosen": -426.4788513183594,
-      "logps/rejected": -468.1583557128906,
-      "loss": 0.5312,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.0429120063781738,
-      "rewards/margins": 0.8944908976554871,
-      "rewards/rejected": -1.9374029636383057,
       "step": 360
     },
     {
       "epoch": 0.7744636316064888,
-      "grad_norm": 31.530089384956717,
       "learning_rate": 3.8438923131177237e-07,
-      "logits/chosen": -2.1957874298095703,
-      "logits/rejected": -2.1412596702575684,
-      "logps/chosen": -406.10504150390625,
-      "logps/rejected": -453.65252685546875,
-      "loss": 0.5133,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.265554666519165,
-      "rewards/margins": 0.8195264935493469,
-      "rewards/rejected": -2.085081100463867,
       "step": 370
     },
     {
       "epoch": 0.7953950811093669,
-      "grad_norm": 22.98180976919898,
       "learning_rate": 3.765821230985757e-07,
-      "logits/chosen": -2.0363900661468506,
-      "logits/rejected": -2.024770736694336,
-      "logps/chosen": -385.59698486328125,
-      "logps/rejected": -494.7015075683594,
-      "loss": 0.5061,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.2817010879516602,
-      "rewards/margins": 0.9372233152389526,
-      "rewards/rejected": -2.2189245223999023,
       "step": 380
     },
     {
       "epoch": 0.8163265306122449,
-      "grad_norm": 25.12613071409362,
       "learning_rate": 3.6860532770864005e-07,
-      "logits/chosen": -2.099245548248291,
-      "logits/rejected": -2.04612135887146,
-      "logps/chosen": -457.05682373046875,
-      "logps/rejected": -488.36944580078125,
-      "loss": 0.5015,
       "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.019736647605896,
-      "rewards/margins": 0.7141124606132507,
-      "rewards/rejected": -1.7338489294052124,
       "step": 390
     },
     {
       "epoch": 0.837257980115123,
-      "grad_norm": 23.959018744941538,
       "learning_rate": 3.604695382782159e-07,
-      "logits/chosen": -1.991755485534668,
-      "logits/rejected": -1.9470754861831665,
-      "logps/chosen": -408.3104248046875,
-      "logps/rejected": -473.34637451171875,
-      "loss": 0.5099,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.4101927280426025,
-      "rewards/margins": 0.8306114077568054,
-      "rewards/rejected": -2.2408041954040527,
       "step": 400
     },
     {
       "epoch": 0.858189429618001,
-      "grad_norm": 21.1631977830508,
       "learning_rate": 3.5218566107988867e-07,
-      "logits/chosen": -2.091287136077881,
-      "logits/rejected": -2.0397820472717285,
-      "logps/chosen": -457.28131103515625,
-      "logps/rejected": -507.02667236328125,
-      "loss": 0.5122,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.4175649881362915,
-      "rewards/margins": 0.8866469264030457,
-      "rewards/rejected": -2.3042116165161133,
       "step": 410
     },
     {
       "epoch": 0.8791208791208791,
-      "grad_norm": 27.242164262823913,
       "learning_rate": 3.4376480090239047e-07,
-      "logits/chosen": -2.0190649032592773,
-      "logits/rejected": -2.000903844833374,
-      "logps/chosen": -379.5609436035156,
-      "logps/rejected": -469.435302734375,
-      "loss": 0.5039,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.0910499095916748,
-      "rewards/margins": 0.9324447512626648,
-      "rewards/rejected": -2.0234947204589844,
       "step": 420
     },
     {
       "epoch": 0.9000523286237572,
-      "grad_norm": 30.81437560389435,
       "learning_rate": 3.3521824616429284e-07,
-      "logits/chosen": -2.035524606704712,
-      "logits/rejected": -1.9534003734588623,
-      "logps/chosen": -431.333740234375,
-      "logps/rejected": -497.05035400390625,
-      "loss": 0.4921,
       "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.2844098806381226,
-      "rewards/margins": 0.9379785656929016,
-      "rewards/rejected": -2.222388505935669,
       "step": 430
     },
     {
       "epoch": 0.9209837781266352,
-      "grad_norm": 27.873966573342,
       "learning_rate": 3.265574537815398e-07,
-      "logits/chosen": -2.1473166942596436,
-      "logits/rejected": -2.0772416591644287,
-      "logps/chosen": -405.3023986816406,
-      "logps/rejected": -452.0018615722656,
-      "loss": 0.4995,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.3173587322235107,
-      "rewards/margins": 0.8507854342460632,
-      "rewards/rejected": -2.1681439876556396,
       "step": 440
     },
     {
       "epoch": 0.9419152276295133,
-      "grad_norm": 27.057353974975,
       "learning_rate": 3.1779403380910425e-07,
-      "logits/chosen": -1.9614715576171875,
-      "logits/rejected": -1.947115182876587,
-      "logps/chosen": -397.4813232421875,
-      "logps/rejected": -475.9383850097656,
-      "loss": 0.5059,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.1171411275863647,
-      "rewards/margins": 0.9366900324821472,
-      "rewards/rejected": -2.053831100463867,
       "step": 450
     },
     {
       "epoch": 0.9628466771323915,
-      "grad_norm": 23.906392544335443,
       "learning_rate": 3.0893973387735683e-07,
-      "logits/chosen": -2.1360177993774414,
-      "logits/rejected": -2.067448139190674,
-      "logps/chosen": -395.38140869140625,
-      "logps/rejected": -425.06060791015625,
-      "loss": 0.5181,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.0835450887680054,
-      "rewards/margins": 0.7977073192596436,
-      "rewards/rejected": -1.8812522888183594,
       "step": 460
     },
     {
       "epoch": 0.9837781266352695,
-      "grad_norm": 23.415439117206944,
       "learning_rate": 3.000064234440111e-07,
-      "logits/chosen": -2.1340832710266113,
-      "logits/rejected": -2.099747657775879,
-      "logps/chosen": -433.472900390625,
-      "logps/rejected": -478.5433654785156,
-      "loss": 0.4926,
       "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.1599546670913696,
-      "rewards/margins": 0.8136328458786011,
-      "rewards/rejected": -1.9735876321792603,
       "step": 470
     },
     {
       "epoch": 0.9984301412872841,
-      "eval_logits/chosen": -2.1760072708129883,
-      "eval_logits/rejected": -2.14554762840271,
-      "eval_logps/chosen": -412.9510192871094,
-      "eval_logps/rejected": -506.2944030761719,
-      "eval_loss": 0.5081629753112793,
-      "eval_rewards/accuracies": 0.7578125,
-      "eval_rewards/chosen": -1.3560869693756104,
-      "eval_rewards/margins": 0.9750058054924011,
-      "eval_rewards/rejected": -2.331092596054077,
-      "eval_runtime": 169.9844,
-      "eval_samples_per_second": 11.766,
-      "eval_steps_per_second": 0.188,
       "step": 477
     },
     {
       "epoch": 1.0047095761381475,
-      "grad_norm": 23.808566042067955,
       "learning_rate": 2.910060778827554e-07,
-      "logits/chosen": -2.1567416191101074,
-      "logits/rejected": -2.1457903385162354,
-      "logps/chosen": -434.89910888671875,
-      "logps/rejected": -504.3150329589844,
-      "loss": 0.4859,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.2960957288742065,
-      "rewards/margins": 0.8546605110168457,
-      "rewards/rejected": -2.1507561206817627,
       "step": 480
     },
     {
       "epoch": 1.0256410256410255,
-      "grad_norm": 21.238305952154406,
       "learning_rate": 2.8195076242990116e-07,
-      "logits/chosen": -2.1224186420440674,
-      "logits/rejected": -2.067232131958008,
-      "logps/chosen": -452.2091369628906,
-      "logps/rejected": -532.13623046875,
-      "loss": 0.3595,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.5007661581039429,
-      "rewards/margins": 1.2642806768417358,
-      "rewards/rejected": -2.7650468349456787,
       "step": 490
     },
     {
       "epoch": 1.0465724751439036,
-      "grad_norm": 29.689018536225188,
       "learning_rate": 2.7285261601056697e-07,
-      "logits/chosen": -2.0156354904174805,
-      "logits/rejected": -1.971776008605957,
-      "logps/chosen": -468.71783447265625,
-      "logps/rejected": -602.7720947265625,
-      "loss": 0.339,
       "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.8369992971420288,
-      "rewards/margins": 1.511438012123108,
-      "rewards/rejected": -3.348437547683716,
       "step": 500
     },
     {
       "epoch": 1.0675039246467817,
-      "grad_norm": 29.243062750459888,
       "learning_rate": 2.6372383496608186e-07,
-      "logits/chosen": -1.928108811378479,
-      "logits/rejected": -1.8696941137313843,
-      "logps/chosen": -471.1832580566406,
-      "logps/rejected": -599.2332763671875,
-      "loss": 0.3513,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.8683710098266602,
-      "rewards/margins": 1.7321943044662476,
-      "rewards/rejected": -3.6005654335021973,
       "step": 510
     },
     {
       "epoch": 1.08843537414966,
-      "grad_norm": 25.479631786694963,
       "learning_rate": 2.5457665670441937e-07,
-      "logits/chosen": -1.9516363143920898,
-      "logits/rejected": -1.8393253087997437,
-      "logps/chosen": -469.7832946777344,
-      "logps/rejected": -591.2280883789062,
-      "loss": 0.3432,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.8596889972686768,
-      "rewards/margins": 1.560598373413086,
-      "rewards/rejected": -3.4202873706817627,
       "step": 520
     },
     {
       "epoch": 1.109366823652538,
-      "grad_norm": 41.52483663106515,
       "learning_rate": 2.454233432955807e-07,
-      "logits/chosen": -1.983980417251587,
-      "logits/rejected": -1.8693246841430664,
-      "logps/chosen": -452.64208984375,
-      "logps/rejected": -564.1638793945312,
-      "loss": 0.3472,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.847670316696167,
-      "rewards/margins": 1.559227705001831,
-      "rewards/rejected": -3.406898021697998,
       "step": 530
     },
     {
       "epoch": 1.130298273155416,
-      "grad_norm": 26.257090591710913,
       "learning_rate": 2.3627616503391812e-07,
-      "logits/chosen": -1.9792553186416626,
-      "logits/rejected": -1.9432990550994873,
-      "logps/chosen": -432.3143615722656,
-      "logps/rejected": -584.3980102539062,
-      "loss": 0.3457,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.673628568649292,
-      "rewards/margins": 1.6501662731170654,
-      "rewards/rejected": -3.3237948417663574,
       "step": 540
     },
     {
       "epoch": 1.1512297226582942,
-      "grad_norm": 25.747556328035525,
       "learning_rate": 2.2714738398943308e-07,
-      "logits/chosen": -1.9460952281951904,
-      "logits/rejected": -1.875335693359375,
-      "logps/chosen": -468.60198974609375,
-      "logps/rejected": -596.0556640625,
-      "loss": 0.3378,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.7640159130096436,
-      "rewards/margins": 1.6453392505645752,
-      "rewards/rejected": -3.409355640411377,
       "step": 550
     },
     {
       "epoch": 1.1721611721611722,
-      "grad_norm": 41.43400202902694,
       "learning_rate": 2.1804923757009882e-07,
-      "logits/chosen": -1.9045295715332031,
-      "logits/rejected": -1.8370736837387085,
-      "logps/chosen": -432.0585021972656,
-      "logps/rejected": -571.2145385742188,
-      "loss": 0.3533,
       "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -1.6177046298980713,
-      "rewards/margins": 1.5667366981506348,
-      "rewards/rejected": -3.184441328048706,
       "step": 560
     },
     {
       "epoch": 1.1930926216640503,
-      "grad_norm": 34.75832087075438,
       "learning_rate": 2.089939221172446e-07,
-      "logits/chosen": -1.939172387123108,
-      "logits/rejected": -1.8915830850601196,
-      "logps/chosen": -472.9189453125,
-      "logps/rejected": -638.5263061523438,
-      "loss": 0.3399,
-      "rewards/accuracies": 0.918749988079071,
-      "rewards/chosen": -1.6979265213012695,
-      "rewards/margins": 1.673963189125061,
-      "rewards/rejected": -3.371889591217041,
       "step": 570
     },
     {
       "epoch": 1.2140240711669283,
-      "grad_norm": 30.420080915117918,
       "learning_rate": 1.9999357655598891e-07,
-      "logits/chosen": -1.8901792764663696,
-      "logits/rejected": -1.8162235021591187,
-      "logps/chosen": -475.49859619140625,
-      "logps/rejected": -622.9483032226562,
-      "loss": 0.3291,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.903842568397522,
-      "rewards/margins": 1.5753123760223389,
-      "rewards/rejected": -3.4791553020477295,
       "step": 580
     },
     {
       "epoch": 1.2349555206698064,
-      "grad_norm": 22.335542729275428,
       "learning_rate": 1.9106026612264315e-07,
-      "logits/chosen": -1.867323637008667,
-      "logits/rejected": -1.8158063888549805,
-      "logps/chosen": -455.6680603027344,
-      "logps/rejected": -624.3533935546875,
-      "loss": 0.3306,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.6538959741592407,
-      "rewards/margins": 1.7916101217269897,
-      "rewards/rejected": -3.4455063343048096,
       "step": 590
     },
     {
       "epoch": 1.2558869701726845,
-      "grad_norm": 36.90747690001929,
       "learning_rate": 1.8220596619089573e-07,
-      "logits/chosen": -1.8775126934051514,
-      "logits/rejected": -1.8093585968017578,
-      "logps/chosen": -513.2244873046875,
-      "logps/rejected": -664.3628540039062,
-      "loss": 0.3203,
       "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.8860762119293213,
-      "rewards/margins": 1.6223599910736084,
-      "rewards/rejected": -3.5084362030029297,
       "step": 600
     },
     {
       "epoch": 1.2768184196755625,
-      "grad_norm": 33.78718364461237,
       "learning_rate": 1.7344254621846017e-07,
-      "logits/chosen": -1.8397912979125977,
-      "logits/rejected": -1.718785047531128,
-      "logps/chosen": -515.6451416015625,
-      "logps/rejected": -648.025390625,
-      "loss": 0.3529,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -2.0395894050598145,
-      "rewards/margins": 1.8018648624420166,
-      "rewards/rejected": -3.841454267501831,
       "step": 610
     },
     {
       "epoch": 1.2977498691784406,
-      "grad_norm": 31.52253218044683,
       "learning_rate": 1.647817538357072e-07,
-      "logits/chosen": -1.8304967880249023,
-      "logits/rejected": -1.7391868829727173,
-      "logps/chosen": -446.7728576660156,
-      "logps/rejected": -589.5924682617188,
-      "loss": 0.3282,
       "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.8400465250015259,
-      "rewards/margins": 1.6443830728530884,
-      "rewards/rejected": -3.4844298362731934,
       "step": 620
     },
     {
       "epoch": 1.3186813186813187,
-      "grad_norm": 27.590908392591455,
       "learning_rate": 1.562351990976095e-07,
-      "logits/chosen": -1.8083171844482422,
-      "logits/rejected": -1.7326056957244873,
-      "logps/chosen": -467.4588928222656,
-      "logps/rejected": -620.0399169921875,
-      "loss": 0.3287,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -1.8651363849639893,
-      "rewards/margins": 1.7772023677825928,
-      "rewards/rejected": -3.642338514328003,
       "step": 630
     },
     {
       "epoch": 1.3396127681841967,
-      "grad_norm": 32.562595361242664,
       "learning_rate": 1.478143389201113e-07,
-      "logits/chosen": -1.8179775476455688,
-      "logits/rejected": -1.7229331731796265,
-      "logps/chosen": -464.788818359375,
-      "logps/rejected": -596.3846435546875,
-      "loss": 0.3404,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.8788200616836548,
-      "rewards/margins": 1.667773962020874,
-      "rewards/rejected": -3.5465941429138184,
       "step": 640
     },
     {
       "epoch": 1.3605442176870748,
-      "grad_norm": 25.048068766086473,
       "learning_rate": 1.3953046172178413e-07,
-      "logits/chosen": -1.831610083580017,
-      "logits/rejected": -1.7702150344848633,
-      "logps/chosen": -464.4568786621094,
-      "logps/rejected": -618.4747924804688,
-      "loss": 0.3413,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -1.7352968454360962,
-      "rewards/margins": 1.7301437854766846,
-      "rewards/rejected": -3.4654407501220703,
       "step": 650
     },
     {
       "epoch": 1.3814756671899528,
-      "grad_norm": 34.73968044504535,
       "learning_rate": 1.3139467229135998e-07,
-      "logits/chosen": -1.850510835647583,
-      "logits/rejected": -1.768938660621643,
-      "logps/chosen": -475.8479919433594,
-      "logps/rejected": -614.0346069335938,
-      "loss": 0.3299,
       "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.8521826267242432,
-      "rewards/margins": 1.6953092813491821,
-      "rewards/rejected": -3.5474917888641357,
       "step": 660
     },
     {
       "epoch": 1.402407116692831,
-      "grad_norm": 32.80513573876802,
       "learning_rate": 1.2341787690142435e-07,
-      "logits/chosen": -1.828988790512085,
-      "logits/rejected": -1.7655560970306396,
-      "logps/chosen": -496.58599853515625,
-      "logps/rejected": -668.3373413085938,
-      "loss": 0.3336,
       "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -2.0432398319244385,
-      "rewards/margins": 1.6564356088638306,
-      "rewards/rejected": -3.6996757984161377,
       "step": 670
     },
     {
       "epoch": 1.423338566195709,
-      "grad_norm": 23.481598085104388,
       "learning_rate": 1.1561076868822755e-07,
-      "logits/chosen": -1.82489812374115,
-      "logits/rejected": -1.736617088317871,
-      "logps/chosen": -481.0087890625,
-      "logps/rejected": -625.2978515625,
-      "loss": 0.3322,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.9523290395736694,
-      "rewards/margins": 1.745566725730896,
-      "rewards/rejected": -3.6978955268859863,
       "step": 680
     },
     {
       "epoch": 1.4442700156985873,
-      "grad_norm": 25.58609752457987,
       "learning_rate": 1.0798381331721107e-07,
-      "logits/chosen": -1.7810049057006836,
-      "logits/rejected": -1.7480462789535522,
-      "logps/chosen": -467.09161376953125,
-      "logps/rejected": -561.844482421875,
-      "loss": 0.3345,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.8833472728729248,
-      "rewards/margins": 1.3580461740493774,
-      "rewards/rejected": -3.241393566131592,
       "step": 690
     },
     {
       "epoch": 1.4652014652014653,
-      "grad_norm": 24.893301883943476,
       "learning_rate": 1.0054723495346482e-07,
-      "logits/chosen": -1.8719736337661743,
-      "logits/rejected": -1.7901394367218018,
-      "logps/chosen": -495.5224609375,
-      "logps/rejected": -657.6851806640625,
-      "loss": 0.325,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.8440284729003906,
-      "rewards/margins": 1.9203050136566162,
-      "rewards/rejected": -3.7643332481384277,
       "step": 700
     },
     {
       "epoch": 1.4861329147043434,
-      "grad_norm": 31.496542283071072,
       "learning_rate": 9.331100255592436e-08,
-      "logits/chosen": -1.8443610668182373,
-      "logits/rejected": -1.8108571767807007,
-      "logps/chosen": -477.08660888671875,
-      "logps/rejected": -641.9728393554688,
-      "loss": 0.3221,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.9340569972991943,
-      "rewards/margins": 1.6980880498886108,
-      "rewards/rejected": -3.6321449279785156,
       "step": 710
     },
     {
       "epoch": 1.5070643642072215,
-      "grad_norm": 32.42007210036511,
       "learning_rate": 8.628481651367875e-08,
-      "logits/chosen": -1.8817088603973389,
-      "logits/rejected": -1.7917859554290771,
-      "logps/chosen": -490.68963623046875,
-      "logps/rejected": -666.5413818359375,
-      "loss": 0.3147,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -2.0003697872161865,
-      "rewards/margins": 1.905077338218689,
-      "rewards/rejected": -3.905447483062744,
       "step": 720
     },
     {
       "epoch": 1.5279958137100995,
-      "grad_norm": 31.861142046155326,
       "learning_rate": 7.947809564230445e-08,
-      "logits/chosen": -1.943153738975525,
-      "logits/rejected": -1.8634049892425537,
-      "logps/chosen": -467.35162353515625,
-      "logps/rejected": -635.6701049804688,
-      "loss": 0.311,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.7533117532730103,
-      "rewards/margins": 1.6374591588974,
-      "rewards/rejected": -3.3907711505889893,
       "step": 730
     },
     {
       "epoch": 1.5489272632129776,
-      "grad_norm": 31.38323843580912,
       "learning_rate": 7.289996455765748e-08,
-      "logits/chosen": -1.9120324850082397,
-      "logits/rejected": -1.8584543466567993,
-      "logps/chosen": -483.58868408203125,
-      "logps/rejected": -613.0440673828125,
-      "loss": 0.3397,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -1.846814513206482,
-      "rewards/margins": 1.7059099674224854,
-      "rewards/rejected": -3.5527243614196777,
       "step": 740
     },
     {
       "epoch": 1.5698587127158556,
-      "grad_norm": 23.167192529713482,
       "learning_rate": 6.655924144404906e-08,
-      "logits/chosen": -1.7680591344833374,
-      "logits/rejected": -1.7400696277618408,
-      "logps/chosen": -473.86248779296875,
-      "logps/rejected": -644.2675170898438,
-      "loss": 0.313,
-      "rewards/accuracies": 0.9125000238418579,
-      "rewards/chosen": -1.8474416732788086,
-      "rewards/margins": 1.7949087619781494,
-      "rewards/rejected": -3.642350673675537,
       "step": 750
     },
     {
       "epoch": 1.5907901622187337,
-      "grad_norm": 33.669973383827035,
       "learning_rate": 6.046442623320145e-08,
-      "logits/chosen": -1.8686587810516357,
-      "logits/rejected": -1.7762336730957031,
-      "logps/chosen": -554.06591796875,
-      "logps/rejected": -700.1908569335938,
-      "loss": 0.3261,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -2.0161635875701904,
-      "rewards/margins": 1.855608582496643,
-      "rewards/rejected": -3.871772050857544,
       "step": 760
     },
     {
       "epoch": 1.6117216117216118,
-      "grad_norm": 30.7976860953366,
       "learning_rate": 5.4623689209832484e-08,
-      "logits/chosen": -1.9193071126937866,
-      "logits/rejected": -1.7936471700668335,
-      "logps/chosen": -525.6559448242188,
-      "logps/rejected": -623.5465087890625,
-      "loss": 0.3316,
       "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.0721254348754883,
-      "rewards/margins": 1.649618148803711,
-      "rewards/rejected": -3.72174334526062,
       "step": 770
     },
     {
       "epoch": 1.6326530612244898,
-      "grad_norm": 25.816934052591822,
       "learning_rate": 4.904486005914027e-08,
-      "logits/chosen": -1.8367938995361328,
-      "logits/rejected": -1.7610937356948853,
-      "logps/chosen": -509.4143981933594,
-      "logps/rejected": -686.8128662109375,
-      "loss": 0.3352,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.8448041677474976,
-      "rewards/margins": 1.9604244232177734,
-      "rewards/rejected": -3.8052284717559814,
       "step": 780
     },
     {
       "epoch": 1.653584510727368,
-      "grad_norm": 22.36666573974123,
       "learning_rate": 4.373541737087263e-08,
-      "logits/chosen": -1.8902270793914795,
-      "logits/rejected": -1.7814185619354248,
-      "logps/chosen": -464.0545959472656,
-      "logps/rejected": -618.5113525390625,
-      "loss": 0.2998,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.7587671279907227,
-      "rewards/margins": 1.7177417278289795,
-      "rewards/rejected": -3.4765090942382812,
       "step": 790
     },
     {
       "epoch": 1.674515960230246,
-      "grad_norm": 40.0165337984474,
       "learning_rate": 3.8702478614051345e-08,
-      "logits/chosen": -1.8753862380981445,
-      "logits/rejected": -1.803836464881897,
-      "logps/chosen": -516.0680541992188,
-      "logps/rejected": -638.5137329101562,
-      "loss": 0.3013,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -1.8721412420272827,
-      "rewards/margins": 1.763323187828064,
-      "rewards/rejected": -3.635464906692505,
       "step": 800
     },
     {
       "epoch": 1.695447409733124,
-      "grad_norm": 27.862986136186375,
       "learning_rate": 3.3952790595787986e-08,
-      "logits/chosen": -1.8482224941253662,
-      "logits/rejected": -1.7838103771209717,
-      "logps/chosen": -477.73760986328125,
-      "logps/rejected": -661.8113403320312,
-      "loss": 0.3248,
       "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.789380431175232,
-      "rewards/margins": 2.0652589797973633,
-      "rewards/rejected": -3.8546395301818848,
       "step": 810
     },
     {
       "epoch": 1.716378859236002,
-      "grad_norm": 34.28604882984395,
       "learning_rate": 2.9492720416985e-08,
-      "logits/chosen": -1.898856520652771,
-      "logits/rejected": -1.8373451232910156,
-      "logps/chosen": -471.712890625,
-      "logps/rejected": -652.3070068359375,
-      "loss": 0.322,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.9994008541107178,
-      "rewards/margins": 1.8078997135162354,
-      "rewards/rejected": -3.807300567626953,
       "step": 820
     },
     {
       "epoch": 1.7373103087388801,
-      "grad_norm": 25.18301550597887,
       "learning_rate": 2.5328246937043525e-08,
-      "logits/chosen": -1.8851368427276611,
-      "logits/rejected": -1.8264014720916748,
-      "logps/chosen": -510.86798095703125,
-      "logps/rejected": -643.9739379882812,
-      "loss": 0.3037,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.9238808155059814,
-      "rewards/margins": 1.7123737335205078,
-      "rewards/rejected": -3.636254072189331,
       "step": 830
     },
     {
       "epoch": 1.7582417582417582,
-      "grad_norm": 39.715305232221894,
       "learning_rate": 2.1464952759020856e-08,
-      "logits/chosen": -1.7454639673233032,
-      "logits/rejected": -1.719659447669983,
-      "logps/chosen": -476.7300720214844,
-      "logps/rejected": -662.8555908203125,
-      "loss": 0.3174,
       "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -2.1026253700256348,
-      "rewards/margins": 1.8342987298965454,
-      "rewards/rejected": -3.9369239807128906,
       "step": 840
     },
     {
       "epoch": 1.7791732077446363,
-      "grad_norm": 26.712746983305596,
       "learning_rate": 1.7908016745981856e-08,
-      "logits/chosen": -1.8332322835922241,
-      "logits/rejected": -1.7802534103393555,
-      "logps/chosen": -459.216064453125,
-      "logps/rejected": -635.7386474609375,
-      "loss": 0.3118,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.981248140335083,
-      "rewards/margins": 1.7714271545410156,
-      "rewards/rejected": -3.7526748180389404,
       "step": 850
     },
     {
       "epoch": 1.8001046572475143,
-      "grad_norm": 37.61857911792585,
       "learning_rate": 1.4662207078575684e-08,
-      "logits/chosen": -1.8996174335479736,
-      "logits/rejected": -1.843186616897583,
-      "logps/chosen": -505.267822265625,
-      "logps/rejected": -616.5883178710938,
-      "loss": 0.3276,
       "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.9595191478729248,
-      "rewards/margins": 1.6286653280258179,
-      "rewards/rejected": -3.588184356689453,
       "step": 860
     },
     {
       "epoch": 1.8210361067503924,
-      "grad_norm": 36.465175683499524,
       "learning_rate": 1.1731874863145142e-08,
-      "logits/chosen": -1.8656623363494873,
-      "logits/rejected": -1.7836997509002686,
-      "logps/chosen": -524.4869995117188,
-      "logps/rejected": -655.26025390625,
-      "loss": 0.3114,
       "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": -1.984437346458435,
-      "rewards/margins": 1.840402603149414,
-      "rewards/rejected": -3.8248400688171387,
       "step": 870
     },
     {
       "epoch": 1.8419675562532705,
-      "grad_norm": 31.317239416373415,
       "learning_rate": 9.12094829893642e-09,
-      "logits/chosen": -1.8914934396743774,
-      "logits/rejected": -1.8087772130966187,
-      "logps/chosen": -499.74639892578125,
-      "logps/rejected": -632.9876708984375,
-      "loss": 0.3185,
       "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -2.0976243019104004,
-      "rewards/margins": 1.6914640665054321,
-      "rewards/rejected": -3.789088010787964,
       "step": 880
     },
     {
       "epoch": 1.8628990057561485,
-      "grad_norm": 25.15346806696213,
       "learning_rate": 6.832927412229017e-09,
-      "logits/chosen": -1.954000473022461,
-      "logits/rejected": -1.8538668155670166,
-      "logps/chosen": -519.0631713867188,
-      "logps/rejected": -677.8694458007812,
-      "loss": 0.2969,
       "rewards/accuracies": 0.9125000238418579,
-      "rewards/chosen": -1.8931020498275757,
-      "rewards/margins": 2.0227460861206055,
-      "rewards/rejected": -3.9158482551574707,
       "step": 890
     },
     {
       "epoch": 1.8838304552590266,
-      "grad_norm": 47.22034878743445,
       "learning_rate": 4.8708793644441086e-09,
-      "logits/chosen": -1.7922518253326416,
-      "logits/rejected": -1.7178666591644287,
-      "logps/chosen": -470.116455078125,
-      "logps/rejected": -621.2272338867188,
-      "loss": 0.3031,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -1.822932481765747,
-      "rewards/margins": 1.9056673049926758,
-      "rewards/rejected": -3.7285995483398438,
       "step": 900
     },
     {
       "epoch": 1.9047619047619047,
-      "grad_norm": 33.30456524388558,
       "learning_rate": 3.2374343405217884e-09,
-      "logits/chosen": -1.8453195095062256,
-      "logits/rejected": -1.783247947692871,
-      "logps/chosen": -464.78131103515625,
-      "logps/rejected": -612.1450805664062,
-      "loss": 0.3202,
       "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.9610507488250732,
-      "rewards/margins": 1.8240289688110352,
-      "rewards/rejected": -3.7850799560546875,
       "step": 910
     },
     {
       "epoch": 1.9256933542647827,
-      "grad_norm": 34.393381899703904,
       "learning_rate": 1.9347820230782295e-09,
-      "logits/chosen": -1.8662745952606201,
-      "logits/rejected": -1.8287159204483032,
-      "logps/chosen": -490.3973083496094,
-      "logps/rejected": -676.7599487304688,
-      "loss": 0.3221,
-      "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": -1.9537601470947266,
-      "rewards/margins": 1.8785762786865234,
-      "rewards/rejected": -3.832336902618408,
       "step": 920
     },
     {
       "epoch": 1.9466248037676608,
-      "grad_norm": 48.439087658815986,
       "learning_rate": 9.64668657069706e-10,
-      "logits/chosen": -1.8716627359390259,
-      "logits/rejected": -1.8195035457611084,
-      "logps/chosen": -469.0355529785156,
-      "logps/rejected": -609.7899780273438,
-      "loss": 0.3118,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.8933093547821045,
-      "rewards/margins": 1.6561877727508545,
-      "rewards/rejected": -3.549497127532959,
       "step": 930
     },
     {
       "epoch": 1.9675562532705388,
-      "grad_norm": 33.514570074363135,
       "learning_rate": 3.2839470889836627e-10,
-      "logits/chosen": -1.8711134195327759,
-      "logits/rejected": -1.7610361576080322,
-      "logps/chosen": -504.5443420410156,
-      "logps/rejected": -611.5713500976562,
-      "loss": 0.3216,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.9376933574676514,
-      "rewards/margins": 1.6980724334716797,
-      "rewards/rejected": -3.635765790939331,
       "step": 940
     },
     {
       "epoch": 1.988487702773417,
-      "grad_norm": 33.13760490600229,
       "learning_rate": 2.6813123097352287e-11,
-      "logits/chosen": -1.8425813913345337,
-      "logits/rejected": -1.7561390399932861,
-      "logps/chosen": -512.4994506835938,
-      "logps/rejected": -666.7471313476562,
-      "loss": 0.3138,
-      "rewards/accuracies": 0.9125000238418579,
-      "rewards/chosen": -2.029484748840332,
-      "rewards/margins": 1.9451849460601807,
-      "rewards/rejected": -3.9746696949005127,
       "step": 950
     },
     {
       "epoch": 1.9968602825745683,
-      "eval_logits/chosen": -1.843076467514038,
-      "eval_logits/rejected": -1.7970439195632935,
-      "eval_logps/chosen": -488.8499755859375,
-      "eval_logps/rejected": -619.1251220703125,
-      "eval_loss": 0.5119243860244751,
-      "eval_rewards/accuracies": 0.74609375,
-      "eval_rewards/chosen": -2.1150760650634766,
-      "eval_rewards/margins": 1.3443243503570557,
-      "eval_rewards/rejected": -3.4594006538391113,
-      "eval_runtime": 169.1222,
-      "eval_samples_per_second": 11.826,
-      "eval_steps_per_second": 0.189,
       "step": 954
     },
     {
@@ -1485,9 +1485,9 @@
       "step": 954,
       "total_flos": 0.0,
       "train_loss": 0.0,
-      "train_runtime": 3.478,
-      "train_samples_per_second": 17577.112,
-      "train_steps_per_second": 137.146
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.0020931449502878076,
+      "grad_norm": 14.88607346284462,
       "learning_rate": 5.208333333333333e-09,
+      "logits/chosen": -2.925722122192383,
+      "logits/rejected": -2.8885936737060547,
+      "logps/chosen": -321.0921630859375,
+      "logps/rejected": -365.8306884765625,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
     },
     {
       "epoch": 0.020931449502878074,
+      "grad_norm": 10.30635291782621,
       "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -2.7202770709991455,
+      "logits/rejected": -2.695319175720215,
+      "logps/chosen": -321.58056640625,
+      "logps/rejected": -289.4584045410156,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4513888955116272,
+      "rewards/chosen": 0.00041189632611349225,
+      "rewards/margins": -6.186102837091312e-05,
+      "rewards/rejected": 0.00047375739086419344,
       "step": 10
     },
     {
       "epoch": 0.04186289900575615,
+      "grad_norm": 11.851618937043359,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.7979576587677,
+      "logits/rejected": -2.743467092514038,
+      "logps/chosen": -317.7387390136719,
+      "logps/rejected": -289.9251708984375,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.0007057279581204057,
+      "rewards/margins": 0.00038364241481758654,
+      "rewards/rejected": 0.0003220855724066496,
       "step": 20
     },
     {
       "epoch": 0.06279434850863422,
+      "grad_norm": 7.845409123408187,
       "learning_rate": 1.5624999999999999e-07,
+      "logits/chosen": -2.7853832244873047,
+      "logits/rejected": -2.7237634658813477,
+      "logps/chosen": -300.7030029296875,
+      "logps/rejected": -254.2164306640625,
+      "loss": 0.6924,
       "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.004664666019380093,
+      "rewards/margins": 0.002464447868987918,
+      "rewards/rejected": 0.002200217917561531,
       "step": 30
     },
     {
       "epoch": 0.0837257980115123,
+      "grad_norm": 7.717127331852517,
       "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.707097291946411,
+      "logits/rejected": -2.6731085777282715,
+      "logps/chosen": -278.5015869140625,
+      "logps/rejected": -266.61273193359375,
+      "loss": 0.6904,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.012720887549221516,
+      "rewards/margins": 0.005492700729519129,
+      "rewards/rejected": 0.007228186819702387,
       "step": 40
     },
     {
       "epoch": 0.10465724751439037,
+      "grad_norm": 15.224224641480427,
       "learning_rate": 2.604166666666667e-07,
+      "logits/chosen": -2.734222888946533,
+      "logits/rejected": -2.6672184467315674,
+      "logps/chosen": -284.1479187011719,
+      "logps/rejected": -280.54168701171875,
+      "loss": 0.6873,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.023878615349531174,
+      "rewards/margins": 0.010178199037909508,
+      "rewards/rejected": 0.013700416311621666,
       "step": 50
     },
     {
       "epoch": 0.12558869701726844,
+      "grad_norm": 9.724530192766299,
       "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -2.7641100883483887,
+      "logits/rejected": -2.710592746734619,
+      "logps/chosen": -257.2303161621094,
+      "logps/rejected": -249.379638671875,
+      "loss": 0.6824,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.041937388479709625,
+      "rewards/margins": 0.02456718310713768,
+      "rewards/rejected": 0.017370199784636497,
       "step": 60
     },
     {
       "epoch": 0.14652014652014653,
+      "grad_norm": 7.609142075748871,
       "learning_rate": 3.645833333333333e-07,
+      "logits/chosen": -2.7005503177642822,
+      "logits/rejected": -2.670154094696045,
+      "logps/chosen": -302.48907470703125,
+      "logps/rejected": -288.536865234375,
+      "loss": 0.6728,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.037350092083215714,
+      "rewards/margins": 0.03656148537993431,
+      "rewards/rejected": 0.0007886036182753742,
       "step": 70
     },
     {
       "epoch": 0.1674515960230246,
+      "grad_norm": 11.507263661586103,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.795855760574341,
+      "logits/rejected": -2.709174156188965,
+      "logps/chosen": -344.7085876464844,
+      "logps/rejected": -274.75372314453125,
+      "loss": 0.6558,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 0.013917540200054646,
+      "rewards/margins": 0.09853295236825943,
+      "rewards/rejected": -0.08461540192365646,
       "step": 80
     },
     {
       "epoch": 0.18838304552590268,
+      "grad_norm": 12.522918295649193,
       "learning_rate": 4.6874999999999996e-07,
+      "logits/chosen": -2.7532315254211426,
+      "logits/rejected": -2.712498188018799,
+      "logps/chosen": -264.0057678222656,
+      "logps/rejected": -278.46209716796875,
+      "loss": 0.6358,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.041521135717630386,
+      "rewards/margins": 0.12843890488147736,
+      "rewards/rejected": -0.16996005177497864,
       "step": 90
     },
     {
       "epoch": 0.20931449502878074,
+      "grad_norm": 16.714062222107753,
       "learning_rate": 4.999731868769026e-07,
+      "logits/chosen": -2.7503976821899414,
+      "logits/rejected": -2.7277534008026123,
+      "logps/chosen": -317.9760437011719,
+      "logps/rejected": -314.3436584472656,
+      "loss": 0.6267,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.06901533901691437,
+      "rewards/margins": 0.24417515099048615,
+      "rewards/rejected": -0.3131905198097229,
       "step": 100
     },
     {
       "epoch": 0.2302459445316588,
+      "grad_norm": 11.040271216087397,
       "learning_rate": 4.996716052911017e-07,
+      "logits/chosen": -2.790177583694458,
+      "logits/rejected": -2.747727394104004,
+      "logps/chosen": -327.3770751953125,
+      "logps/rejected": -331.28594970703125,
+      "loss": 0.6264,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.28078389167785645,
+      "rewards/margins": 0.21150124073028564,
+      "rewards/rejected": -0.4922851622104645,
       "step": 110
     },
     {
       "epoch": 0.25117739403453687,
+      "grad_norm": 12.319376619341371,
       "learning_rate": 4.990353313429303e-07,
+      "logits/chosen": -2.7004141807556152,
+      "logits/rejected": -2.7081363201141357,
+      "logps/chosen": -292.29193115234375,
+      "logps/rejected": -308.19244384765625,
+      "loss": 0.6059,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.08327662199735641,
+      "rewards/margins": 0.2638171315193176,
+      "rewards/rejected": -0.34709376096725464,
       "step": 120
     },
     {
       "epoch": 0.272108843537415,
+      "grad_norm": 24.07326364555429,
       "learning_rate": 4.980652179769217e-07,
+      "logits/chosen": -2.7517778873443604,
+      "logits/rejected": -2.735368013381958,
+      "logps/chosen": -326.88323974609375,
+      "logps/rejected": -333.8082275390625,
+      "loss": 0.5854,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.27743759751319885,
+      "rewards/margins": 0.24996426701545715,
+      "rewards/rejected": -0.5274018049240112,
       "step": 130
     },
     {
       "epoch": 0.29304029304029305,
+      "grad_norm": 23.35517515247709,
       "learning_rate": 4.967625656594781e-07,
+      "logits/chosen": -2.771867275238037,
+      "logits/rejected": -2.7476229667663574,
+      "logps/chosen": -339.9781799316406,
+      "logps/rejected": -328.70538330078125,
+      "loss": 0.5878,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.13580283522605896,
+      "rewards/margins": 0.391187846660614,
+      "rewards/rejected": -0.5269905924797058,
       "step": 140
     },
     {
       "epoch": 0.3139717425431711,
+      "grad_norm": 20.972969810387227,
       "learning_rate": 4.951291206355559e-07,
+      "logits/chosen": -2.748628616333008,
+      "logits/rejected": -2.7197518348693848,
+      "logps/chosen": -327.03125,
+      "logps/rejected": -318.48638916015625,
+      "loss": 0.5967,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.3390689790248871,
+      "rewards/margins": 0.2791776657104492,
+      "rewards/rejected": -0.6182466745376587,
       "step": 150
     },
     {
       "epoch": 0.3349031920460492,
+      "grad_norm": 13.425598261254686,
       "learning_rate": 4.93167072587771e-07,
+      "logits/chosen": -2.788029193878174,
+      "logits/rejected": -2.746370553970337,
+      "logps/chosen": -324.72052001953125,
+      "logps/rejected": -337.3094787597656,
+      "loss": 0.5846,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.3970801830291748,
+      "rewards/margins": 0.40131622552871704,
+      "rewards/rejected": -0.7983964681625366,
       "step": 160
     },
     {
       "epoch": 0.35583464154892724,
+      "grad_norm": 17.272372981195964,
       "learning_rate": 4.908790517010636e-07,
+      "logits/chosen": -2.6719164848327637,
+      "logits/rejected": -2.6612837314605713,
+      "logps/chosen": -315.0084228515625,
+      "logps/rejected": -320.8651428222656,
+      "loss": 0.5888,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.4511398375034332,
+      "rewards/margins": 0.3194407820701599,
+      "rewards/rejected": -0.7705805897712708,
       "step": 170
     },
     {
       "epoch": 0.37676609105180536,
+      "grad_norm": 14.426317833201416,
       "learning_rate": 4.882681251368548e-07,
+      "logits/chosen": -2.7663211822509766,
+      "logits/rejected": -2.7407591342926025,
+      "logps/chosen": -322.9417419433594,
+      "logps/rejected": -330.96038818359375,
+      "loss": 0.5596,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.4329908490180969,
+      "rewards/margins": 0.358435720205307,
+      "rewards/rejected": -0.7914265394210815,
       "step": 180
     },
     {
       "epoch": 0.3976975405546834,
+      "grad_norm": 16.424447211666443,
       "learning_rate": 4.853377929214243e-07,
+      "logits/chosen": -2.7122840881347656,
+      "logits/rejected": -2.6895980834960938,
+      "logps/chosen": -305.7542419433594,
+      "logps/rejected": -333.2830810546875,
+      "loss": 0.5689,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.4040308892726898,
+      "rewards/margins": 0.32926663756370544,
+      "rewards/rejected": -0.7332974672317505,
       "step": 190
     },
     {
       "epoch": 0.4186289900575615,
+      "grad_norm": 18.075431248646595,
       "learning_rate": 4.820919832540181e-07,
+      "logits/chosen": -2.670199155807495,
+      "logits/rejected": -2.6688408851623535,
+      "logps/chosen": -299.871826171875,
+      "logps/rejected": -358.0787048339844,
+      "loss": 0.5766,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.37743473052978516,
+      "rewards/margins": 0.4126531183719635,
+      "rewards/rejected": -0.7900878190994263,
       "step": 200
     },
     {
       "epoch": 0.43956043956043955,
+      "grad_norm": 16.199236277149858,
       "learning_rate": 4.785350472409791e-07,
+      "logits/chosen": -2.718061685562134,
+      "logits/rejected": -2.6642110347747803,
+      "logps/chosen": -362.8133544921875,
+      "logps/rejected": -342.171875,
+      "loss": 0.5765,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.42062854766845703,
+      "rewards/margins": 0.43933743238449097,
+      "rewards/rejected": -0.859965980052948,
       "step": 210
     },
     {
       "epoch": 0.4604918890633176,
+      "grad_norm": 17.93992307211224,
       "learning_rate": 4.7467175306295647e-07,
+      "logits/chosen": -2.6234521865844727,
+      "logits/rejected": -2.640157699584961,
+      "logps/chosen": -310.472412109375,
+      "logps/rejected": -345.089111328125,
+      "loss": 0.5611,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.47760000824928284,
+      "rewards/margins": 0.43446213006973267,
+      "rewards/rejected": -0.9120620489120483,
       "step": 220
     },
     {
       "epoch": 0.48142333856619574,
+      "grad_norm": 20.29472356294206,
       "learning_rate": 4.70507279583015e-07,
+      "logits/chosen": -2.7133331298828125,
+      "logits/rejected": -2.6721091270446777,
+      "logps/chosen": -318.923095703125,
+      "logps/rejected": -366.59710693359375,
+      "loss": 0.5624,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.4767213761806488,
+      "rewards/margins": 0.6975632905960083,
+      "rewards/rejected": -1.1742846965789795,
       "step": 230
     },
     {
       "epoch": 0.5023547880690737,
+      "grad_norm": 35.1028217518017,
       "learning_rate": 4.6604720940421207e-07,
+      "logits/chosen": -2.640972137451172,
+      "logits/rejected": -2.5848052501678467,
+      "logps/chosen": -344.928955078125,
+      "logps/rejected": -369.1497497558594,
+      "loss": 0.5347,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.47312647104263306,
+      "rewards/margins": 0.495448499917984,
+      "rewards/rejected": -0.9685748815536499,
       "step": 240
     },
     {
       "epoch": 0.5232862375719518,
+      "grad_norm": 19.843272670557887,
       "learning_rate": 4.612975213859487e-07,
+      "logits/chosen": -2.5373644828796387,
+      "logits/rejected": -2.4579813480377197,
+      "logps/chosen": -347.16748046875,
+      "logps/rejected": -379.2513732910156,
+      "loss": 0.5437,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.566421389579773,
+      "rewards/margins": 0.6545469164848328,
+      "rewards/rejected": -1.220968246459961,
       "step": 250
     },
     {
       "epoch": 0.54421768707483,
+      "grad_norm": 23.320833527504977,
       "learning_rate": 4.5626458262912735e-07,
+      "logits/chosen": -2.3933730125427246,
+      "logits/rejected": -2.3900551795959473,
+      "logps/chosen": -352.5663146972656,
+      "logps/rejected": -384.38397216796875,
+      "loss": 0.5419,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.8031826019287109,
+      "rewards/margins": 0.5431042909622192,
+      "rewards/rejected": -1.3462870121002197,
       "step": 260
     },
     {
       "epoch": 0.565149136577708,
+      "grad_norm": 19.483357541000405,
       "learning_rate": 4.5095513994085974e-07,
+      "logits/chosen": -2.200190305709839,
+      "logits/rejected": -2.142879009246826,
+      "logps/chosen": -368.5080871582031,
+      "logps/rejected": -412.9193420410156,
+      "loss": 0.5489,
       "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.6709359884262085,
+      "rewards/margins": 0.7138775587081909,
+      "rewards/rejected": -1.3848135471343994,
       "step": 270
     },
     {
       "epoch": 0.5860805860805861,
+      "grad_norm": 23.630987101691453,
       "learning_rate": 4.453763107901675e-07,
+      "logits/chosen": -2.013388156890869,
+      "logits/rejected": -1.9315751791000366,
+      "logps/chosen": -335.5148620605469,
+      "logps/rejected": -353.8980712890625,
+      "loss": 0.5513,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.537543773651123,
+      "rewards/margins": 0.6034060716629028,
+      "rewards/rejected": -1.1409497261047363,
       "step": 280
     },
     {
       "epoch": 0.6070120355834642,
+      "grad_norm": 21.50926745793373,
       "learning_rate": 4.395355737667985e-07,
+      "logits/chosen": -2.042461395263672,
+      "logits/rejected": -1.9405343532562256,
+      "logps/chosen": -329.45513916015625,
+      "logps/rejected": -386.4042663574219,
+      "loss": 0.546,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.737878680229187,
+      "rewards/margins": 0.6161252856254578,
+      "rewards/rejected": -1.3540040254592896,
       "step": 290
     },
     {
       "epoch": 0.6279434850863422,
+      "grad_norm": 21.13385612640552,
       "learning_rate": 4.3344075855595097e-07,
+      "logits/chosen": -2.0211853981018066,
+      "logits/rejected": -1.9133087396621704,
+      "logps/chosen": -419.280029296875,
+      "logps/rejected": -442.6297912597656,
+      "loss": 0.5279,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.8050423860549927,
+      "rewards/margins": 0.6596104502677917,
+      "rewards/rejected": -1.4646527767181396,
       "step": 300
     },
     {
       "epoch": 0.6488749345892203,
+      "grad_norm": 19.779873187639623,
       "learning_rate": 4.271000354423425e-07,
+      "logits/chosen": -2.02839994430542,
+      "logits/rejected": -1.9323558807373047,
+      "logps/chosen": -383.2649841308594,
+      "logps/rejected": -405.40740966796875,
+      "loss": 0.5219,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.7099379897117615,
+      "rewards/margins": 0.7654498815536499,
+      "rewards/rejected": -1.4753879308700562,
       "step": 310
     },
     {
       "epoch": 0.6698063840920984,
+      "grad_norm": 21.08095676735262,
       "learning_rate": 4.2052190435769554e-07,
+      "logits/chosen": -1.9793522357940674,
+      "logits/rejected": -1.860769271850586,
+      "logps/chosen": -344.1609191894531,
+      "logps/rejected": -391.5399475097656,
+      "loss": 0.5066,
       "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.7778881192207336,
+      "rewards/margins": 0.8001760244369507,
+      "rewards/rejected": -1.5780640840530396,
       "step": 320
     },
     {
       "epoch": 0.6907378335949764,
+      "grad_norm": 27.57188250299686,
       "learning_rate": 4.137151834863213e-07,
+      "logits/chosen": -2.071329116821289,
+      "logits/rejected": -2.0509676933288574,
+      "logps/chosen": -345.35186767578125,
+      "logps/rejected": -415.62261962890625,
+      "loss": 0.5115,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.6397430300712585,
+      "rewards/margins": 0.7728389501571655,
+      "rewards/rejected": -1.4125821590423584,
       "step": 330
     },
     {
       "epoch": 0.7116692830978545,
+      "grad_norm": 30.579996976984805,
       "learning_rate": 4.0668899744407567e-07,
+      "logits/chosen": -1.8872754573822021,
+      "logits/rejected": -1.8190815448760986,
+      "logps/chosen": -379.37225341796875,
+      "logps/rejected": -436.101318359375,
+      "loss": 0.52,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.7692102789878845,
+      "rewards/margins": 0.7424911260604858,
+      "rewards/rejected": -1.5117013454437256,
       "step": 340
     },
     {
       "epoch": 0.7326007326007326,
+      "grad_norm": 23.99831270999009,
       "learning_rate": 3.994527650465352e-07,
+      "logits/chosen": -1.8584909439086914,
+      "logits/rejected": -1.7157665491104126,
+      "logps/chosen": -362.5115661621094,
+      "logps/rejected": -413.8670349121094,
+      "loss": 0.5019,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8885606527328491,
+      "rewards/margins": 0.7002802491188049,
+      "rewards/rejected": -1.5888408422470093,
       "step": 350
     },
     {
       "epoch": 0.7535321821036107,
+      "grad_norm": 20.569792166483495,
       "learning_rate": 3.920161866827889e-07,
+      "logits/chosen": -1.8123042583465576,
+      "logits/rejected": -1.6628021001815796,
+      "logps/chosen": -398.8226623535156,
+      "logps/rejected": -431.47088623046875,
+      "loss": 0.542,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.8019789457321167,
+      "rewards/margins": 0.7802454233169556,
+      "rewards/rejected": -1.5822242498397827,
       "step": 360
     },
     {
       "epoch": 0.7744636316064888,
+      "grad_norm": 21.1660600636486,
       "learning_rate": 3.8438923131177237e-07,
+      "logits/chosen": -1.702923059463501,
+      "logits/rejected": -1.573188066482544,
+      "logps/chosen": -352.84765625,
+      "logps/rejected": -393.1349182128906,
+      "loss": 0.5227,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.7422314882278442,
+      "rewards/margins": 0.7614965438842773,
+      "rewards/rejected": -1.5037281513214111,
       "step": 370
     },
     {
       "epoch": 0.7953950811093669,
+      "grad_norm": 17.183773141452058,
       "learning_rate": 3.765821230985757e-07,
+      "logits/chosen": -1.6204278469085693,
+      "logits/rejected": -1.5805397033691406,
+      "logps/chosen": -352.36553955078125,
+      "logps/rejected": -456.62127685546875,
+      "loss": 0.5167,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.8929269909858704,
+      "rewards/margins": 0.8663182258605957,
+      "rewards/rejected": -1.7592451572418213,
       "step": 380
     },
     {
       "epoch": 0.8163265306122449,
+      "grad_norm": 23.349904894629407,
       "learning_rate": 3.6860532770864005e-07,
+      "logits/chosen": -1.9042911529541016,
+      "logits/rejected": -1.7993557453155518,
+      "logps/chosen": -437.3020935058594,
+      "logps/rejected": -478.8271484375,
+      "loss": 0.5087,
       "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.8284949064254761,
+      "rewards/margins": 0.7516407370567322,
+      "rewards/rejected": -1.580135703086853,
       "step": 390
     },
     {
       "epoch": 0.837257980115123,
+      "grad_norm": 23.752316920168525,
       "learning_rate": 3.604695382782159e-07,
+      "logits/chosen": -1.7125256061553955,
+      "logits/rejected": -1.591506838798523,
+      "logps/chosen": -373.38818359375,
+      "logps/rejected": -433.75799560546875,
+      "loss": 0.5247,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.0498483180999756,
+      "rewards/margins": 0.8007469177246094,
+      "rewards/rejected": -1.850595235824585,
       "step": 400
     },
     {
       "epoch": 0.858189429618001,
+      "grad_norm": 19.666172854109288,
       "learning_rate": 3.5218566107988867e-07,
+      "logits/chosen": -2.0926361083984375,
+      "logits/rejected": -2.002737283706665,
+      "logps/chosen": -392.9161682128906,
+      "logps/rejected": -434.8521423339844,
+      "loss": 0.5204,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.8088946342468262,
+      "rewards/margins": 0.8107136487960815,
+      "rewards/rejected": -1.6196085214614868,
       "step": 410
     },
     {
       "epoch": 0.8791208791208791,
+      "grad_norm": 21.227558543972002,
       "learning_rate": 3.4376480090239047e-07,
+      "logits/chosen": -2.0091476440429688,
+      "logits/rejected": -1.9699198007583618,
+      "logps/chosen": -343.46112060546875,
+      "logps/rejected": -425.591796875,
+      "loss": 0.5084,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.7525590658187866,
+      "rewards/margins": 0.8109620213508606,
+      "rewards/rejected": -1.563521146774292,
       "step": 420
     },
     {
       "epoch": 0.9000523286237572,
+      "grad_norm": 28.76341659471802,
       "learning_rate": 3.3521824616429284e-07,
+      "logits/chosen": -1.5924561023712158,
+      "logits/rejected": -1.4453504085540771,
+      "logps/chosen": -398.48284912109375,
+      "logps/rejected": -460.5140686035156,
+      "loss": 0.4912,
       "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.9409183263778687,
+      "rewards/margins": 0.8444429636001587,
+      "rewards/rejected": -1.7853610515594482,
       "step": 430
     },
     {
       "epoch": 0.9209837781266352,
+      "grad_norm": 24.356244505358386,
       "learning_rate": 3.265574537815398e-07,
+      "logits/chosen": -1.3780838251113892,
+      "logits/rejected": -1.1997829675674438,
+      "logps/chosen": -373.2276916503906,
+      "logps/rejected": -418.62335205078125,
+      "loss": 0.5069,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.034752607345581,
+      "rewards/margins": 0.7990537881851196,
+      "rewards/rejected": -1.8338062763214111,
       "step": 440
     },
     {
       "epoch": 0.9419152276295133,
+      "grad_norm": 21.508083750235922,
       "learning_rate": 3.1779403380910425e-07,
+      "logits/chosen": -1.2375565767288208,
+      "logits/rejected": -1.1287505626678467,
+      "logps/chosen": -379.8437194824219,
+      "logps/rejected": -447.7130432128906,
+      "loss": 0.5131,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.929580807685852,
+      "rewards/margins": 0.8013578653335571,
+      "rewards/rejected": -1.7309386730194092,
       "step": 450
     },
     {
       "epoch": 0.9628466771323915,
+      "grad_norm": 29.86693166076459,
       "learning_rate": 3.0893973387735683e-07,
+      "logits/chosen": -1.4521411657333374,
+      "logits/rejected": -1.2153605222702026,
+      "logps/chosen": -377.4960021972656,
+      "logps/rejected": -401.8866882324219,
+      "loss": 0.5157,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.9293259382247925,
+      "rewards/margins": 0.7097651362419128,
+      "rewards/rejected": -1.63909113407135,
       "step": 460
     },
     {
       "epoch": 0.9837781266352695,
+      "grad_norm": 18.514726211898278,
       "learning_rate": 3.000064234440111e-07,
+      "logits/chosen": -1.4076189994812012,
+      "logits/rejected": -1.2628891468048096,
+      "logps/chosen": -399.5198059082031,
+      "logps/rejected": -439.87969970703125,
+      "loss": 0.501,
       "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.7778880000114441,
+      "rewards/margins": 0.7691278457641602,
+      "rewards/rejected": -1.5470157861709595,
       "step": 470
     },
     {
       "epoch": 0.9984301412872841,
+      "eval_logits/chosen": -1.273218035697937,
+      "eval_logits/rejected": -1.1614912748336792,
+      "eval_logps/chosen": -346.5500793457031,
+      "eval_logps/rejected": -435.70635986328125,
+      "eval_loss": 0.5185136795043945,
+      "eval_rewards/accuracies": 0.77734375,
+      "eval_rewards/chosen": -0.7440664172172546,
+      "eval_rewards/margins": 0.9043572545051575,
+      "eval_rewards/rejected": -1.6484237909317017,
+      "eval_runtime": 171.5848,
+      "eval_samples_per_second": 11.656,
+      "eval_steps_per_second": 0.186,
       "step": 477
     },
     {
       "epoch": 1.0047095761381475,
+      "grad_norm": 21.17560575026596,
       "learning_rate": 2.910060778827554e-07,
+      "logits/chosen": -1.3738365173339844,
+      "logits/rejected": -1.2765980958938599,
+      "logps/chosen": -379.2554931640625,
+      "logps/rejected": -449.7948303222656,
+      "loss": 0.4798,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.723404586315155,
+      "rewards/margins": 0.8685447573661804,
+      "rewards/rejected": -1.591949224472046,
       "step": 480
     },
     {
       "epoch": 1.0256410256410255,
+      "grad_norm": 16.51017448411662,
       "learning_rate": 2.8195076242990116e-07,
+      "logits/chosen": -1.2624908685684204,
+      "logits/rejected": -1.0200715065002441,
+      "logps/chosen": -391.1546325683594,
+      "logps/rejected": -462.6971130371094,
+      "loss": 0.3721,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.8392894864082336,
+      "rewards/margins": 1.1826223134994507,
+      "rewards/rejected": -2.021911859512329,
       "step": 490
     },
     {
       "epoch": 1.0465724751439036,
+      "grad_norm": 28.692357308634083,
       "learning_rate": 2.7285261601056697e-07,
+      "logits/chosen": -1.04556405544281,
+      "logits/rejected": -0.8983597755432129,
+      "logps/chosen": -385.15594482421875,
+      "logps/rejected": -492.3553771972656,
+      "loss": 0.3623,
       "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.0549384355545044,
+      "rewards/margins": 1.216042399406433,
+      "rewards/rejected": -2.2709805965423584,
       "step": 500
     },
     {
       "epoch": 1.0675039246467817,
+      "grad_norm": 21.922390152982405,
       "learning_rate": 2.6372383496608186e-07,
+      "logits/chosen": -0.9019845128059387,
+      "logits/rejected": -0.6276781558990479,
+      "logps/chosen": -385.09625244140625,
+      "logps/rejected": -487.7792053222656,
+      "loss": 0.36,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -0.9738361239433289,
+      "rewards/margins": 1.5190062522888184,
+      "rewards/rejected": -2.492842197418213,
       "step": 510
     },
     {
       "epoch": 1.08843537414966,
+      "grad_norm": 23.056390516413284,
       "learning_rate": 2.5457665670441937e-07,
+      "logits/chosen": -0.8516889810562134,
+      "logits/rejected": -0.5428006052970886,
+      "logps/chosen": -382.0596923828125,
+      "logps/rejected": -487.93701171875,
+      "loss": 0.3563,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.9770641326904297,
+      "rewards/margins": 1.3976478576660156,
+      "rewards/rejected": -2.3747119903564453,
       "step": 520
     },
     {
       "epoch": 1.109366823652538,
+      "grad_norm": 24.839002506991555,
       "learning_rate": 2.454233432955807e-07,
+      "logits/chosen": -0.893288254737854,
+      "logits/rejected": -0.55360347032547,
+      "logps/chosen": -373.3586120605469,
+      "logps/rejected": -470.93048095703125,
+      "loss": 0.3595,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -1.079138159751892,
+      "rewards/margins": 1.3878281116485596,
+      "rewards/rejected": -2.466966152191162,
       "step": 530
     },
     {
       "epoch": 1.130298273155416,
+      "grad_norm": 24.9976173018764,
       "learning_rate": 2.3627616503391812e-07,
+      "logits/chosen": -0.6603145003318787,
+      "logits/rejected": -0.45139390230178833,
+      "logps/chosen": -381.8931884765625,
+      "logps/rejected": -511.0888671875,
+      "loss": 0.3615,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.2078765630722046,
+      "rewards/margins": 1.415185809135437,
+      "rewards/rejected": -2.6230626106262207,
       "step": 540
     },
     {
       "epoch": 1.1512297226582942,
+      "grad_norm": 23.70399953245455,
       "learning_rate": 2.2714738398943308e-07,
+      "logits/chosen": -0.7952468395233154,
+      "logits/rejected": -0.5057519674301147,
+      "logps/chosen": -405.1830139160156,
+      "logps/rejected": -512.9744873046875,
+      "loss": 0.3432,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.1684848070144653,
+      "rewards/margins": 1.4340193271636963,
+      "rewards/rejected": -2.6025044918060303,
       "step": 550
     },
     {
       "epoch": 1.1721611721611722,
+      "grad_norm": 26.9881287231271,
       "learning_rate": 2.1804923757009882e-07,
+      "logits/chosen": -0.7067749500274658,
+      "logits/rejected": -0.4858238697052002,
+      "logps/chosen": -358.0526428222656,
+      "logps/rejected": -488.3414001464844,
+      "loss": 0.3631,
       "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.9131903648376465,
+      "rewards/margins": 1.4550573825836182,
+      "rewards/rejected": -2.3682477474212646,
       "step": 560
     },
     {
       "epoch": 1.1930926216640503,
+      "grad_norm": 26.437360887515176,
       "learning_rate": 2.089939221172446e-07,
+      "logits/chosen": -0.6216100454330444,
+      "logits/rejected": -0.4619014263153076,
+      "logps/chosen": -427.541015625,
+      "logps/rejected": -578.9843139648438,
+      "loss": 0.3526,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.259556770324707,
+      "rewards/margins": 1.5523223876953125,
+      "rewards/rejected": -2.8118791580200195,
       "step": 570
     },
     {
       "epoch": 1.2140240711669283,
+      "grad_norm": 24.08017206287918,
       "learning_rate": 1.9999357655598891e-07,
+      "logits/chosen": -0.596352219581604,
+      "logits/rejected": -0.3721233308315277,
+      "logps/chosen": -412.52301025390625,
+      "logps/rejected": -562.3777465820312,
+      "loss": 0.3344,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.310210943222046,
+      "rewards/margins": 1.5689070224761963,
+      "rewards/rejected": -2.879117965698242,
       "step": 580
     },
     {
       "epoch": 1.2349555206698064,
+      "grad_norm": 19.74419678906988,
       "learning_rate": 1.9106026612264315e-07,
+      "logits/chosen": -0.8253545761108398,
+      "logits/rejected": -0.6318912506103516,
+      "logps/chosen": -399.89910888671875,
+      "logps/rejected": -515.3082275390625,
+      "loss": 0.3424,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.0740442276000977,
+      "rewards/margins": 1.4926326274871826,
+      "rewards/rejected": -2.5666770935058594,
       "step": 590
     },
     {
       "epoch": 1.2558869701726845,
+      "grad_norm": 30.297500591228765,
       "learning_rate": 1.8220596619089573e-07,
+      "logits/chosen": -0.7947873473167419,
+      "logits/rejected": -0.5936676859855652,
+      "logps/chosen": -452.333740234375,
+      "logps/rejected": -589.5086059570312,
+      "loss": 0.3349,
       "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.3032448291778564,
+      "rewards/margins": 1.449398398399353,
+      "rewards/rejected": -2.752643346786499,
       "step": 600
     },
     {
       "epoch": 1.2768184196755625,
+      "grad_norm": 25.095514098513064,
       "learning_rate": 1.7344254621846017e-07,
+      "logits/chosen": -0.5728591680526733,
+      "logits/rejected": -0.2157384604215622,
+      "logps/chosen": -446.3045959472656,
+      "logps/rejected": -558.5189819335938,
+      "loss": 0.3583,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -1.3666396141052246,
+      "rewards/margins": 1.6065607070922852,
+      "rewards/rejected": -2.9732003211975098,
       "step": 610
     },
     {
       "epoch": 1.2977498691784406,
+      "grad_norm": 26.711706547263283,
       "learning_rate": 1.647817538357072e-07,
+      "logits/chosen": -0.6483644247055054,
+      "logits/rejected": -0.436624675989151,
+      "logps/chosen": -375.31463623046875,
+      "logps/rejected": -502.0403747558594,
+      "loss": 0.3359,
       "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.1623198986053467,
+      "rewards/margins": 1.4659651517868042,
+      "rewards/rejected": -2.6282851696014404,
       "step": 620
     },
     {
       "epoch": 1.3186813186813187,
+      "grad_norm": 29.34167044151856,
       "learning_rate": 1.562351990976095e-07,
+      "logits/chosen": -0.5509764552116394,
+      "logits/rejected": -0.2896868884563446,
+      "logps/chosen": -404.48773193359375,
+      "logps/rejected": -547.499267578125,
+      "loss": 0.3416,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.2804601192474365,
+      "rewards/margins": 1.6254936456680298,
+      "rewards/rejected": -2.905953884124756,
       "step": 630
     },
     {
       "epoch": 1.3396127681841967,
+      "grad_norm": 23.153596326850824,
       "learning_rate": 1.478143389201113e-07,
+      "logits/chosen": -0.5090593099594116,
+      "logits/rejected": -0.1941351443529129,
+      "logps/chosen": -416.89141845703125,
+      "logps/rejected": -544.4210815429688,
+      "loss": 0.3508,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.4043817520141602,
+      "rewards/margins": 1.578391194343567,
+      "rewards/rejected": -2.9827733039855957,
       "step": 640
     },
     {
       "epoch": 1.3605442176870748,
+      "grad_norm": 37.7718208645946,
       "learning_rate": 1.3953046172178413e-07,
+      "logits/chosen": -0.4676644206047058,
+      "logits/rejected": -0.29953527450561523,
+      "logps/chosen": -402.21417236328125,
+      "logps/rejected": -548.4046020507812,
+      "loss": 0.3546,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.1596171855926514,
+      "rewards/margins": 1.624544382095337,
+      "rewards/rejected": -2.7841618061065674,
       "step": 650
     },
     {
       "epoch": 1.3814756671899528,
+      "grad_norm": 32.318559995180884,
       "learning_rate": 1.3139467229135998e-07,
+      "logits/chosen": -0.625167191028595,
+      "logits/rejected": -0.40474313497543335,
+      "logps/chosen": -410.2447204589844,
+      "logps/rejected": -531.7794799804688,
+      "loss": 0.3438,
       "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.2046838998794556,
+      "rewards/margins": 1.518923044204712,
+      "rewards/rejected": -2.723607063293457,
       "step": 660
     },
     {
       "epoch": 1.402407116692831,
+      "grad_norm": 26.63444910378978,
       "learning_rate": 1.2341787690142435e-07,
+      "logits/chosen": -0.5080076456069946,
+      "logits/rejected": -0.39028996229171753,
+      "logps/chosen": -417.2349548339844,
+      "logps/rejected": -571.6380615234375,
+      "loss": 0.3373,
       "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.290380597114563,
+      "rewards/margins": 1.4690136909484863,
+      "rewards/rejected": -2.7593941688537598,
       "step": 670
     },
     {
       "epoch": 1.423338566195709,
+      "grad_norm": 20.19948420893599,
       "learning_rate": 1.1561076868822755e-07,
+      "logits/chosen": -0.6434948444366455,
+      "logits/rejected": -0.3340326249599457,
+      "logps/chosen": -425.06585693359375,
+      "logps/rejected": -558.2105712890625,
+      "loss": 0.3408,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.3932050466537476,
+      "rewards/margins": 1.6028707027435303,
+      "rewards/rejected": -2.9960758686065674,
       "step": 680
     },
     {
       "epoch": 1.4442700156985873,
+      "grad_norm": 23.405895905191862,
       "learning_rate": 1.0798381331721107e-07,
+      "logits/chosen": -0.45825833082199097,
+      "logits/rejected": -0.26569095253944397,
+      "logps/chosen": -413.29705810546875,
+      "logps/rejected": -516.1429443359375,
+      "loss": 0.3387,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.2925164699554443,
+      "rewards/margins": 1.4324119091033936,
+      "rewards/rejected": -2.724928379058838,
       "step": 690
     },
     {
       "epoch": 1.4652014652014653,
+      "grad_norm": 26.00052056036154,
       "learning_rate": 1.0054723495346482e-07,
+      "logits/chosen": -0.5345702767372131,
+      "logits/rejected": -0.28709763288497925,
+      "logps/chosen": -439.5155334472656,
+      "logps/rejected": -595.0430908203125,
+      "loss": 0.3385,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.335257649421692,
+      "rewards/margins": 1.8328659534454346,
+      "rewards/rejected": -3.168123483657837,
       "step": 700
     },
     {
       "epoch": 1.4861329147043434,
+      "grad_norm": 29.88922989167434,
       "learning_rate": 9.331100255592436e-08,
+      "logits/chosen": -0.44970911741256714,
+      "logits/rejected": -0.3438431918621063,
+      "logps/chosen": -440.60009765625,
+      "logps/rejected": -598.9261474609375,
+      "loss": 0.3343,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.5944675207138062,
+      "rewards/margins": 1.555371642112732,
+      "rewards/rejected": -3.149839401245117,
       "step": 710
     },
     {
       "epoch": 1.5070643642072215,
+      "grad_norm": 35.80679957440786,
       "learning_rate": 8.628481651367875e-08,
+      "logits/chosen": -0.6270388960838318,
+      "logits/rejected": -0.3709457218647003,
+      "logps/chosen": -430.08734130859375,
+      "logps/rejected": -598.91357421875,
+      "loss": 0.324,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -1.4218626022338867,
+      "rewards/margins": 1.803938865661621,
+      "rewards/rejected": -3.2258009910583496,
       "step": 720
     },
     {
       "epoch": 1.5279958137100995,
+      "grad_norm": 35.40691778150228,
       "learning_rate": 7.947809564230445e-08,
+      "logits/chosen": -0.7805054187774658,
+      "logits/rejected": -0.5504633188247681,
+      "logps/chosen": -417.5584411621094,
+      "logps/rejected": -570.6063232421875,
+      "loss": 0.3251,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.2576138973236084,
+      "rewards/margins": 1.5007960796356201,
+      "rewards/rejected": -2.7584102153778076,
       "step": 730
     },
     {
       "epoch": 1.5489272632129776,
+      "grad_norm": 22.542061727173216,
       "learning_rate": 7.289996455765748e-08,
+      "logits/chosen": -0.7156350612640381,
+      "logits/rejected": -0.5093780755996704,
+      "logps/chosen": -440.34375,
+      "logps/rejected": -552.8305053710938,
+      "loss": 0.3487,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.445813536643982,
+      "rewards/margins": 1.539942741394043,
+      "rewards/rejected": -2.9857563972473145,
       "step": 740
     },
     {
       "epoch": 1.5698587127158556,
+      "grad_norm": 22.391994910590135,
       "learning_rate": 6.655924144404906e-08,
+      "logits/chosen": -0.5188966393470764,
+      "logits/rejected": -0.31423279643058777,
+      "logps/chosen": -427.5140686035156,
+      "logps/rejected": -574.3653564453125,
+      "loss": 0.3262,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -1.3562893867492676,
+      "rewards/margins": 1.616431474685669,
+      "rewards/rejected": -2.9727206230163574,
       "step": 750
     },
     {
       "epoch": 1.5907901622187337,
+      "grad_norm": 27.067458253461155,
       "learning_rate": 6.046442623320145e-08,
+      "logits/chosen": -0.7770091891288757,
+      "logits/rejected": -0.4757114350795746,
+      "logps/chosen": -492.76416015625,
+      "logps/rejected": -625.2634887695312,
+      "loss": 0.3424,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.4647096395492554,
+      "rewards/margins": 1.647743821144104,
+      "rewards/rejected": -3.1124536991119385,
       "step": 760
     },
     {
       "epoch": 1.6117216117216118,
+      "grad_norm": 27.917693830137047,
       "learning_rate": 5.4623689209832484e-08,
+      "logits/chosen": -0.8214691281318665,
+      "logits/rejected": -0.43942517042160034,
+      "logps/chosen": -453.11199951171875,
+      "logps/rejected": -539.7423706054688,
+      "loss": 0.3324,
       "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.3807549476623535,
+      "rewards/margins": 1.52043879032135,
+      "rewards/rejected": -2.901193618774414,
       "step": 770
     },
     {
       "epoch": 1.6326530612244898,
+      "grad_norm": 35.7523647379527,
       "learning_rate": 4.904486005914027e-08,
+      "logits/chosen": -0.7380484342575073,
+      "logits/rejected": -0.5423134565353394,
+      "logps/chosen": -448.4818420410156,
+      "logps/rejected": -601.2604370117188,
+      "loss": 0.3395,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.1892478466033936,
+      "rewards/margins": 1.734458565711975,
+      "rewards/rejected": -2.923706293106079,
       "step": 780
     },
     {
       "epoch": 1.653584510727368,
+      "grad_norm": 31.011854985332448,
       "learning_rate": 4.373541737087263e-08,
+      "logits/chosen": -0.7779333591461182,
+      "logits/rejected": -0.49003076553344727,
+      "logps/chosen": -406.6073303222656,
+      "logps/rejected": -552.443359375,
+      "loss": 0.3239,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.2308647632598877,
+      "rewards/margins": 1.5439412593841553,
+      "rewards/rejected": -2.774806261062622,
       "step": 790
     },
     {
       "epoch": 1.674515960230246,
+      "grad_norm": 25.052300316679634,
       "learning_rate": 3.8702478614051345e-08,
+      "logits/chosen": -0.7519603371620178,
+      "logits/rejected": -0.4932466447353363,
+      "logps/chosen": -459.8077087402344,
+      "logps/rejected": -562.577392578125,
+      "loss": 0.3121,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.291195273399353,
+      "rewards/margins": 1.5607550144195557,
+      "rewards/rejected": -2.851950168609619,
       "step": 800
     },
     {
       "epoch": 1.695447409733124,
+      "grad_norm": 28.051358555998323,
       "learning_rate": 3.3952790595787986e-08,
+      "logits/chosen": -0.7064075469970703,
+      "logits/rejected": -0.5052956938743591,
+      "logps/chosen": -427.84832763671875,
+      "logps/rejected": -587.9678955078125,
+      "loss": 0.3363,
       "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.3051536083221436,
+      "rewards/margins": 1.7959152460098267,
+      "rewards/rejected": -3.1010687351226807,
       "step": 810
     },
     {
       "epoch": 1.716378859236002,
+      "grad_norm": 31.67321567378694,
       "learning_rate": 2.9492720416985e-08,
+      "logits/chosen": -0.8305649757385254,
+      "logits/rejected": -0.7014783620834351,
+      "logps/chosen": -413.65576171875,
+      "logps/rejected": -569.78759765625,
+      "loss": 0.3315,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.4015345573425293,
+      "rewards/margins": 1.6014522314071655,
+      "rewards/rejected": -3.002986431121826,
       "step": 820
     },
     {
       "epoch": 1.7373103087388801,
+      "grad_norm": 21.644645673450903,
       "learning_rate": 2.5328246937043525e-08,
+      "logits/chosen": -0.8004710078239441,
+      "logits/rejected": -0.6543309092521667,
+      "logps/chosen": -454.3511657714844,
+      "logps/rejected": -579.9097900390625,
+      "loss": 0.3224,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.3592346906661987,
+      "rewards/margins": 1.5871307849884033,
+      "rewards/rejected": -2.9463653564453125,
       "step": 830
     },
     {
       "epoch": 1.7582417582417582,
+      "grad_norm": 29.695508251939298,
       "learning_rate": 2.1464952759020856e-08,
+      "logits/chosen": -0.5647540092468262,
+      "logits/rejected": -0.4591120779514313,
+      "logps/chosen": -411.2245178222656,
+      "logps/rejected": -579.0653076171875,
+      "loss": 0.3265,
       "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.4194848537445068,
+      "rewards/margins": 1.6787960529327393,
+      "rewards/rejected": -3.098280906677246,
       "step": 840
     },
     {
       "epoch": 1.7791732077446363,
+      "grad_norm": 30.24532074338387,
       "learning_rate": 1.7908016745981856e-08,
+      "logits/chosen": -0.631384551525116,
+      "logits/rejected": -0.5165312886238098,
+      "logps/chosen": -408.71173095703125,
+      "logps/rejected": -562.2457275390625,
+      "loss": 0.3275,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.459183931350708,
+      "rewards/margins": 1.5402036905288696,
+      "rewards/rejected": -2.999387264251709,
       "step": 850
     },
     {
       "epoch": 1.8001046572475143,
+      "grad_norm": 28.810585688980133,
       "learning_rate": 1.4662207078575684e-08,
+      "logits/chosen": -0.8192375302314758,
+      "logits/rejected": -0.6066277623176575,
+      "logps/chosen": -447.3929748535156,
+      "logps/rejected": -533.9404296875,
+      "loss": 0.3479,
       "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.381157636642456,
+      "rewards/margins": 1.4070510864257812,
+      "rewards/rejected": -2.788208484649658,
       "step": 860
     },
     {
       "epoch": 1.8210361067503924,
+      "grad_norm": 24.013363968760547,
       "learning_rate": 1.1731874863145142e-08,
+      "logits/chosen": -0.7617680430412292,
+      "logits/rejected": -0.47873860597610474,
+      "logps/chosen": -454.9310607910156,
+      "logps/rejected": -573.6890869140625,
+      "loss": 0.331,
       "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.3413336277008057,
+      "rewards/margins": 1.7013572454452515,
+      "rewards/rejected": -3.0426909923553467,
       "step": 870
     },
     {
       "epoch": 1.8419675562532705,
+      "grad_norm": 32.07599972860766,
       "learning_rate": 9.12094829893642e-09,
+      "logits/chosen": -0.7640255689620972,
+      "logits/rejected": -0.4442223012447357,
+      "logps/chosen": -438.59490966796875,
+      "logps/rejected": -557.7069091796875,
+      "loss": 0.3402,
       "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -1.409976840019226,
+      "rewards/margins": 1.640062928199768,
+      "rewards/rejected": -3.050039529800415,
       "step": 880
     },
     {
       "epoch": 1.8628990057561485,
+      "grad_norm": 24.432518139204586,
       "learning_rate": 6.832927412229017e-09,
+      "logits/chosen": -0.8613092303276062,
+      "logits/rejected": -0.6306430101394653,
+      "logps/chosen": -456.99072265625,
+      "logps/rejected": -594.9552001953125,
+      "loss": 0.3223,
       "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.3222033977508545,
+      "rewards/margins": 1.7843767404556274,
+      "rewards/rejected": -3.1065802574157715,
       "step": 890
     },
     {
       "epoch": 1.8838304552590266,
+      "grad_norm": 27.645379277195858,
       "learning_rate": 4.8708793644441086e-09,
+      "logits/chosen": -0.7418426275253296,
+      "logits/rejected": -0.4674626886844635,
+      "logps/chosen": -423.3577575683594,
+      "logps/rejected": -554.7745361328125,
+      "loss": 0.3093,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.3512873649597168,
+      "rewards/margins": 1.6987825632095337,
+      "rewards/rejected": -3.050069808959961,
       "step": 900
     },
     {
       "epoch": 1.9047619047619047,
+      "grad_norm": 28.923783797405456,
       "learning_rate": 3.2374343405217884e-09,
+      "logits/chosen": -0.6597197651863098,
+      "logits/rejected": -0.4865621030330658,
+      "logps/chosen": -408.0905456542969,
+      "logps/rejected": -535.84521484375,
+      "loss": 0.3367,
       "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.4176795482635498,
+      "rewards/margins": 1.6123201847076416,
+      "rewards/rejected": -3.0299999713897705,
       "step": 910
     },
     {
       "epoch": 1.9256933542647827,
+      "grad_norm": 28.331424470243782,
       "learning_rate": 1.9347820230782295e-09,
+      "logits/chosen": -0.8034309148788452,
+      "logits/rejected": -0.6734964847564697,
+      "logps/chosen": -424.65673828125,
+      "logps/rejected": -592.0272216796875,
+      "loss": 0.3345,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -1.302234172821045,
+      "rewards/margins": 1.7047960758209229,
+      "rewards/rejected": -3.0070300102233887,
       "step": 920
     },
     {
       "epoch": 1.9466248037676608,
+      "grad_norm": 31.096436385559773,
       "learning_rate": 9.64668657069706e-10,
+      "logits/chosen": -0.8711435198783875,
+      "logits/rejected": -0.6492515206336975,
+      "logps/chosen": -412.20159912109375,
+      "logps/rejected": -539.3062744140625,
+      "loss": 0.3326,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -1.3435027599334717,
+      "rewards/margins": 1.5116230249404907,
+      "rewards/rejected": -2.855125904083252,
       "step": 930
     },
     {
       "epoch": 1.9675562532705388,
+      "grad_norm": 39.27145853425959,
       "learning_rate": 3.2839470889836627e-10,
+      "logits/chosen": -0.8457353711128235,
+      "logits/rejected": -0.46064504981040955,
+      "logps/chosen": -439.29815673828125,
+      "logps/rejected": -539.5534057617188,
+      "loss": 0.3418,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -1.3375287055969238,
+      "rewards/margins": 1.5794165134429932,
+      "rewards/rejected": -2.916945457458496,
       "step": 940
     },
     {
       "epoch": 1.988487702773417,
+      "grad_norm": 30.98924464228554,
       "learning_rate": 2.6813123097352287e-11,
+      "logits/chosen": -0.7241233587265015,
+      "logits/rejected": -0.4993128180503845,
+      "logps/chosen": -443.7752380371094,
+      "logps/rejected": -581.8499755859375,
+      "loss": 0.3187,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.385292649269104,
+      "rewards/margins": 1.7712970972061157,
+      "rewards/rejected": -3.1565897464752197,
       "step": 950
     },
     {
       "epoch": 1.9968602825745683,
+      "eval_logits/chosen": -0.5949550271034241,
+      "eval_logits/rejected": -0.44720327854156494,
+      "eval_logps/chosen": -426.89898681640625,
+      "eval_logps/rejected": -545.3427124023438,
+      "eval_loss": 0.5225037932395935,
+      "eval_rewards/accuracies": 0.7734375,
+      "eval_rewards/chosen": -1.547555685043335,
+      "eval_rewards/margins": 1.1972318887710571,
+      "eval_rewards/rejected": -2.7447874546051025,
+      "eval_runtime": 170.0564,
+      "eval_samples_per_second": 11.761,
+      "eval_steps_per_second": 0.188,
       "step": 954
     },
     {
       "step": 954,
       "total_flos": 0.0,
       "train_loss": 0.0,
+      "train_runtime": 3.4239,
+      "train_samples_per_second": 17855.176,
+      "train_steps_per_second": 139.316
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c6d2d89a16be19cf14d1d8c8ab9be0c7839e54c975f498671e2e6605832100e
 size 7672

 version https://git-lfs.github.com/spec/v1
+oid sha256:b011e9731aa70abf6ae9d2221721c467a75e1cd362b37eee4df8b0758ba30727
 size 7672