Model save

Browse files

Files changed (5) hide show

README.md +80 -0
all_results.json +9 -0
generation_config.json +6 -0
train_results.json +9 -0
trainer_state.json +815 -0

README.md ADDED Viewed

	@@ -0,0 +1,80 @@

+---
+license: apache-2.0
+base_model: alignment-handbook/zephyr-7b-sft-full
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: zephyr-7b-dpo-full-prometheus_consistent-high-curriculum
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-dpo-full-prometheus_consistent-high-curriculum
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5204
+- Rewards/chosen: -0.8599
+- Rewards/rejected: -1.8698
+- Rewards/accuracies: 0.7716
+- Rewards/margins: 1.0099
+- Logps/rejected: -406.0525
+- Logps/chosen: -361.5919
+- Logits/rejected: 1.8489
+- Logits/chosen: 0.5727
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 55
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 128
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6604        | 0.1143 | 50   | 0.6510          | -0.0701        | -0.2214          | 0.7026             | 0.1513          | -241.2204      | -282.6137    | -2.3977         | -2.4995       |
+| 0.6061        | 0.2286 | 100  | 0.5910          | -0.1695        | -0.5958          | 0.7629             | 0.4263          | -278.6604      | -292.5544    | -2.1026         | -2.2566       |
+| 0.5667        | 0.3429 | 150  | 0.5483          | -0.6705        | -1.4559          | 0.7543             | 0.7854          | -364.6649      | -342.6550    | 0.2660          | -0.5061       |
+| 0.5462        | 0.4571 | 200  | 0.5362          | -0.8961        | -1.7783          | 0.7759             | 0.8822          | -396.9079      | -365.2170    | 1.8660          | 0.8687        |
+| 0.5166        | 0.5714 | 250  | 0.5322          | -0.7659        | -1.7273          | 0.7543             | 0.9613          | -391.8038      | -352.1977    | 1.6137          | 0.4218        |
+| 0.52          | 0.6857 | 300  | 0.5290          | -0.8312        | -1.8309          | 0.7672             | 0.9996          | -402.1612      | -358.7278    | 1.5709          | 0.3575        |
+| 0.5242        | 0.8    | 350  | 0.5237          | -0.9809        | -1.9725          | 0.7759             | 0.9916          | -416.3300      | -373.6958    | 2.1920          | 0.9155        |
+| 0.5207        | 0.9143 | 400  | 0.5204          | -0.8599        | -1.8698          | 0.7716             | 1.0099          | -406.0525      | -361.5919    | 1.8489          | 0.5727        |
+### Framework versions
+- Transformers 4.44.0.dev0
+- Pytorch 2.1.2
+- Datasets 2.20.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9988571428571429,
+    "total_flos": 0.0,
+    "train_loss": 0.5601670529258606,
+    "train_runtime": 11363.2534,
+    "train_samples": 55999,
+    "train_samples_per_second": 4.928,
+    "train_steps_per_second": 0.038
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.44.0.dev0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9988571428571429,
+    "total_flos": 0.0,
+    "train_loss": 0.5601670529258606,
+    "train_runtime": 11363.2534,
+    "train_samples": 55999,
+    "train_samples_per_second": 4.928,
+    "train_steps_per_second": 0.038
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,815 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9988571428571429,
+  "eval_steps": 50,
+  "global_step": 437,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.022857142857142857,
+      "grad_norm": 7.972490696774519,
+      "learning_rate": 1.1363636363636363e-07,
+      "logits/chosen": -2.6948084831237793,
+      "logits/rejected": -2.647209405899048,
+      "logps/chosen": -302.53485107421875,
+      "logps/rejected": -291.70001220703125,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.42500001192092896,
+      "rewards/chosen": 0.00010526743426453322,
+      "rewards/margins": 0.00048500439152121544,
+      "rewards/rejected": -0.0003797370009124279,
+      "step": 10
+    },
+    {
+      "epoch": 0.045714285714285714,
+      "grad_norm": 7.853520968040958,
+      "learning_rate": 2.2727272727272726e-07,
+      "logits/chosen": -2.6835687160491943,
+      "logits/rejected": -2.6186060905456543,
+      "logps/chosen": -289.909912109375,
+      "logps/rejected": -251.9034881591797,
+      "loss": 0.6925,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.00011107837781310081,
+      "rewards/margins": 0.001589515246450901,
+      "rewards/rejected": -0.0014784367522224784,
+      "step": 20
+    },
+    {
+      "epoch": 0.06857142857142857,
+      "grad_norm": 13.072730042036099,
+      "learning_rate": 3.4090909090909085e-07,
+      "logits/chosen": -2.643810272216797,
+      "logits/rejected": -2.581580638885498,
+      "logps/chosen": -293.62652587890625,
+      "logps/rejected": -246.8993377685547,
+      "loss": 0.6879,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": 0.00874017458409071,
+      "rewards/margins": 0.013179494068026543,
+      "rewards/rejected": -0.004439320415258408,
+      "step": 30
+    },
+    {
+      "epoch": 0.09142857142857143,
+      "grad_norm": 8.816267790782506,
+      "learning_rate": 4.545454545454545e-07,
+      "logits/chosen": -2.569484233856201,
+      "logits/rejected": -2.48750638961792,
+      "logps/chosen": -258.9664611816406,
+      "logps/rejected": -232.96670532226562,
+      "loss": 0.6773,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.032418955117464066,
+      "rewards/margins": 0.03510286286473274,
+      "rewards/rejected": -0.0026839044876396656,
+      "step": 40
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 8.526359525770381,
+      "learning_rate": 4.997124959943201e-07,
+      "logits/chosen": -2.4977941513061523,
+      "logits/rejected": -2.4374022483825684,
+      "logps/chosen": -270.9308166503906,
+      "logps/rejected": -256.2071838378906,
+      "loss": 0.6604,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.015730079263448715,
+      "rewards/margins": 0.07472670823335648,
+      "rewards/rejected": -0.09045679867267609,
+      "step": 50
+    },
+    {
+      "epoch": 0.11428571428571428,
+      "eval_logits/chosen": -2.4995484352111816,
+      "eval_logits/rejected": -2.397691488265991,
+      "eval_logps/chosen": -282.6136779785156,
+      "eval_logps/rejected": -241.22042846679688,
+      "eval_loss": 0.6509631276130676,
+      "eval_rewards/accuracies": 0.7025862336158752,
+      "eval_rewards/chosen": -0.07009723782539368,
+      "eval_rewards/margins": 0.15134572982788086,
+      "eval_rewards/rejected": -0.22144296765327454,
+      "eval_runtime": 92.1389,
+      "eval_samples_per_second": 19.872,
+      "eval_steps_per_second": 0.315,
+      "step": 50
+    },
+    {
+      "epoch": 0.13714285714285715,
+      "grad_norm": 10.81653462365135,
+      "learning_rate": 4.979579212164186e-07,
+      "logits/chosen": -2.5448544025421143,
+      "logits/rejected": -2.496579885482788,
+      "logps/chosen": -304.4873962402344,
+      "logps/rejected": -281.6524353027344,
+      "loss": 0.6418,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.07611249387264252,
+      "rewards/margins": 0.13186688721179962,
+      "rewards/rejected": -0.20797939598560333,
+      "step": 60
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 14.155169380492403,
+      "learning_rate": 4.946196886175515e-07,
+      "logits/chosen": -2.5274157524108887,
+      "logits/rejected": -2.4085445404052734,
+      "logps/chosen": -319.63531494140625,
+      "logps/rejected": -284.4542541503906,
+      "loss": 0.6272,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.15418021380901337,
+      "rewards/margins": 0.24344077706336975,
+      "rewards/rejected": -0.3976209759712219,
+      "step": 70
+    },
+    {
+      "epoch": 0.18285714285714286,
+      "grad_norm": 15.57036737948181,
+      "learning_rate": 4.897191188239667e-07,
+      "logits/chosen": -2.545555591583252,
+      "logits/rejected": -2.4691755771636963,
+      "logps/chosen": -302.2283935546875,
+      "logps/rejected": -310.9991149902344,
+      "loss": 0.6112,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.242721289396286,
+      "rewards/margins": 0.20558595657348633,
+      "rewards/rejected": -0.44830721616744995,
+      "step": 80
+    },
+    {
+      "epoch": 0.2057142857142857,
+      "grad_norm": 13.759558667047212,
+      "learning_rate": 4.832875107981763e-07,
+      "logits/chosen": -2.473137378692627,
+      "logits/rejected": -2.3435842990875244,
+      "logps/chosen": -291.57080078125,
+      "logps/rejected": -301.2342224121094,
+      "loss": 0.5962,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.22334305942058563,
+      "rewards/margins": 0.335345596075058,
+      "rewards/rejected": -0.5586886405944824,
+      "step": 90
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "grad_norm": 14.187129482186872,
+      "learning_rate": 4.753659419387223e-07,
+      "logits/chosen": -2.387033224105835,
+      "logits/rejected": -2.342754602432251,
+      "logps/chosen": -305.41363525390625,
+      "logps/rejected": -324.42626953125,
+      "loss": 0.6061,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.39434295892715454,
+      "rewards/margins": 0.3070516288280487,
+      "rewards/rejected": -0.7013946175575256,
+      "step": 100
+    },
+    {
+      "epoch": 0.22857142857142856,
+      "eval_logits/chosen": -2.2565627098083496,
+      "eval_logits/rejected": -2.1026110649108887,
+      "eval_logps/chosen": -292.554443359375,
+      "eval_logps/rejected": -278.6604309082031,
+      "eval_loss": 0.5910175442695618,
+      "eval_rewards/accuracies": 0.7629310488700867,
+      "eval_rewards/chosen": -0.16950508952140808,
+      "eval_rewards/margins": 0.4263380169868469,
+      "eval_rewards/rejected": -0.5958431363105774,
+      "eval_runtime": 90.8579,
+      "eval_samples_per_second": 20.152,
+      "eval_steps_per_second": 0.319,
+      "step": 100
+    },
+    {
+      "epoch": 0.25142857142857145,
+      "grad_norm": 18.43194931012707,
+      "learning_rate": 4.660050057270191e-07,
+      "logits/chosen": -1.704791784286499,
+      "logits/rejected": -1.5881969928741455,
+      "logps/chosen": -346.3254699707031,
+      "logps/rejected": -369.74151611328125,
+      "loss": 0.5948,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.3935784697532654,
+      "rewards/margins": 0.3640627861022949,
+      "rewards/rejected": -0.7576413154602051,
+      "step": 110
+    },
+    {
+      "epoch": 0.2742857142857143,
+      "grad_norm": 27.602915778458193,
+      "learning_rate": 4.5526448859687144e-07,
+      "logits/chosen": -0.836137592792511,
+      "logits/rejected": -0.3214734196662903,
+      "logps/chosen": -368.4119873046875,
+      "logps/rejected": -379.9471435546875,
+      "loss": 0.5674,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.751334011554718,
+      "rewards/margins": 0.5190311670303345,
+      "rewards/rejected": -1.2703649997711182,
+      "step": 120
+    },
+    {
+      "epoch": 0.29714285714285715,
+      "grad_norm": 34.95862509810705,
+      "learning_rate": 4.432129880904388e-07,
+      "logits/chosen": -0.9399459958076477,
+      "logits/rejected": -0.630912184715271,
+      "logps/chosen": -333.36175537109375,
+      "logps/rejected": -364.6360778808594,
+      "loss": 0.5493,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.7244097590446472,
+      "rewards/margins": 0.5231384038925171,
+      "rewards/rejected": -1.24754798412323,
+      "step": 130
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 24.79721344090085,
+      "learning_rate": 4.299274747394055e-07,
+      "logits/chosen": -0.3657013773918152,
+      "logits/rejected": 0.007754585240036249,
+      "logps/chosen": -404.93963623046875,
+      "logps/rejected": -424.1830139160156,
+      "loss": 0.5551,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -1.0948762893676758,
+      "rewards/margins": 0.4250301420688629,
+      "rewards/rejected": -1.5199064016342163,
+      "step": 140
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "grad_norm": 23.423480181820228,
+      "learning_rate": 4.1549280046953653e-07,
+      "logits/chosen": -0.3730842173099518,
+      "logits/rejected": -0.07465118169784546,
+      "logps/chosen": -375.44451904296875,
+      "logps/rejected": -412.56964111328125,
+      "loss": 0.5667,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.7702018022537231,
+      "rewards/margins": 0.5271822214126587,
+      "rewards/rejected": -1.2973840236663818,
+      "step": 150
+    },
+    {
+      "epoch": 0.34285714285714286,
+      "eval_logits/chosen": -0.5060973167419434,
+      "eval_logits/rejected": 0.26600033044815063,
+      "eval_logps/chosen": -342.6549987792969,
+      "eval_logps/rejected": -364.66485595703125,
+      "eval_loss": 0.5483084321022034,
+      "eval_rewards/accuracies": 0.7543103694915771,
+      "eval_rewards/chosen": -0.6705105304718018,
+      "eval_rewards/margins": 0.7853766083717346,
+      "eval_rewards/rejected": -1.4558870792388916,
+      "eval_runtime": 91.3845,
+      "eval_samples_per_second": 20.036,
+      "eval_steps_per_second": 0.317,
+      "step": 150
+    },
+    {
+      "epoch": 0.3657142857142857,
+      "grad_norm": 27.18613053303789,
+      "learning_rate": 4.000011566683401e-07,
+      "logits/chosen": -0.1914953887462616,
+      "logits/rejected": 0.2764665484428406,
+      "logps/chosen": -377.5716247558594,
+      "logps/rejected": -388.8448486328125,
+      "loss": 0.526,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.9134766459465027,
+      "rewards/margins": 0.5826240181922913,
+      "rewards/rejected": -1.496100664138794,
+      "step": 160
+    },
+    {
+      "epoch": 0.38857142857142857,
+      "grad_norm": 21.65805367669265,
+      "learning_rate": 3.8355148537705047e-07,
+      "logits/chosen": -0.4353760778903961,
+      "logits/rejected": 0.20893268287181854,
+      "logps/chosen": -373.71319580078125,
+      "logps/rejected": -383.9519958496094,
+      "loss": 0.5395,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.7510371208190918,
+      "rewards/margins": 0.6987054347991943,
+      "rewards/rejected": -1.4497425556182861,
+      "step": 170
+    },
+    {
+      "epoch": 0.4114285714285714,
+      "grad_norm": 22.20737720981617,
+      "learning_rate": 3.662488473675315e-07,
+      "logits/chosen": -0.09447278827428818,
+      "logits/rejected": 0.7217932939529419,
+      "logps/chosen": -409.1649169921875,
+      "logps/rejected": -408.90557861328125,
+      "loss": 0.5495,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.959947943687439,
+      "rewards/margins": 0.5610560774803162,
+      "rewards/rejected": -1.5210039615631104,
+      "step": 180
+    },
+    {
+      "epoch": 0.4342857142857143,
+      "grad_norm": 30.321606839159987,
+      "learning_rate": 3.48203751140067e-07,
+      "logits/chosen": 0.33530089259147644,
+      "logits/rejected": 0.8107538223266602,
+      "logps/chosen": -362.1139221191406,
+      "logps/rejected": -387.8373107910156,
+      "loss": 0.5503,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.8776267766952515,
+      "rewards/margins": 0.4715437889099121,
+      "rewards/rejected": -1.3491705656051636,
+      "step": 190
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "grad_norm": 25.0679630404246,
+      "learning_rate": 3.2953144712759537e-07,
+      "logits/chosen": 0.8955745697021484,
+      "logits/rejected": 1.5546410083770752,
+      "logps/chosen": -390.03497314453125,
+      "logps/rejected": -439.87127685546875,
+      "loss": 0.5462,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.9517244100570679,
+      "rewards/margins": 0.6701112985610962,
+      "rewards/rejected": -1.621835708618164,
+      "step": 200
+    },
+    {
+      "epoch": 0.45714285714285713,
+      "eval_logits/chosen": 0.8686795234680176,
+      "eval_logits/rejected": 1.8659789562225342,
+      "eval_logps/chosen": -365.217041015625,
+      "eval_logps/rejected": -396.9079284667969,
+      "eval_loss": 0.5362085103988647,
+      "eval_rewards/accuracies": 0.7758620977401733,
+      "eval_rewards/chosen": -0.8961309194564819,
+      "eval_rewards/margins": 0.8821869492530823,
+      "eval_rewards/rejected": -1.7783178091049194,
+      "eval_runtime": 92.8978,
+      "eval_samples_per_second": 19.71,
+      "eval_steps_per_second": 0.312,
+      "step": 200
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 23.925735012710426,
+      "learning_rate": 3.103511916141658e-07,
+      "logits/chosen": 1.040865182876587,
+      "logits/rejected": 1.5942493677139282,
+      "logps/chosen": -361.822509765625,
+      "logps/rejected": -391.01483154296875,
+      "loss": 0.5463,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.948311984539032,
+      "rewards/margins": 0.5272454619407654,
+      "rewards/rejected": -1.475557565689087,
+      "step": 210
+    },
+    {
+      "epoch": 0.5028571428571429,
+      "grad_norm": 27.94400965826576,
+      "learning_rate": 2.9078548506882117e-07,
+      "logits/chosen": 0.28927069902420044,
+      "logits/rejected": 1.0230720043182373,
+      "logps/chosen": -370.9271545410156,
+      "logps/rejected": -401.31414794921875,
+      "loss": 0.5362,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.8033777475357056,
+      "rewards/margins": 0.7804895639419556,
+      "rewards/rejected": -1.5838673114776611,
+      "step": 220
+    },
+    {
+      "epoch": 0.5257142857142857,
+      "grad_norm": 21.142419258207983,
+      "learning_rate": 2.709592897595191e-07,
+      "logits/chosen": 0.07398202270269394,
+      "logits/rejected": 0.4865712523460388,
+      "logps/chosen": -304.87457275390625,
+      "logps/rejected": -344.7480163574219,
+      "loss": 0.5399,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.6992014050483704,
+      "rewards/margins": 0.4801247715950012,
+      "rewards/rejected": -1.1793261766433716,
+      "step": 230
+    },
+    {
+      "epoch": 0.5485714285714286,
+      "grad_norm": 19.343230158857015,
+      "learning_rate": 2.509992316440332e-07,
+      "logits/chosen": 0.2862880229949951,
+      "logits/rejected": 0.9607356190681458,
+      "logps/chosen": -330.4361877441406,
+      "logps/rejected": -371.2057189941406,
+      "loss": 0.5228,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.8042975664138794,
+      "rewards/margins": 0.6706650853157043,
+      "rewards/rejected": -1.4749624729156494,
+      "step": 240
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 35.596035717324796,
+      "learning_rate": 2.3103279163519918e-07,
+      "logits/chosen": 0.43575239181518555,
+      "logits/rejected": 1.2122005224227905,
+      "logps/chosen": -406.7032775878906,
+      "logps/rejected": -422.3251037597656,
+      "loss": 0.5166,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.8864845037460327,
+      "rewards/margins": 0.6702730059623718,
+      "rewards/rejected": -1.5567573308944702,
+      "step": 250
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "eval_logits/chosen": 0.42181965708732605,
+      "eval_logits/rejected": 1.6137125492095947,
+      "eval_logps/chosen": -352.1977233886719,
+      "eval_logps/rejected": -391.8038330078125,
+      "eval_loss": 0.5322425961494446,
+      "eval_rewards/accuracies": 0.7543103694915771,
+      "eval_rewards/chosen": -0.7659374475479126,
+      "eval_rewards/margins": 0.9613397121429443,
+      "eval_rewards/rejected": -1.7272770404815674,
+      "eval_runtime": 92.7968,
+      "eval_samples_per_second": 19.731,
+      "eval_steps_per_second": 0.313,
+      "step": 250
+    },
+    {
+      "epoch": 0.5942857142857143,
+      "grad_norm": 23.35941549954683,
+      "learning_rate": 2.1118749140573358e-07,
+      "logits/chosen": 0.34059277176856995,
+      "logits/rejected": 1.041529893875122,
+      "logps/chosen": -385.17755126953125,
+      "logps/rejected": -448.1366271972656,
+      "loss": 0.5247,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.8077054023742676,
+      "rewards/margins": 0.8099581599235535,
+      "rewards/rejected": -1.6176636219024658,
+      "step": 260
+    },
+    {
+      "epoch": 0.6171428571428571,
+      "grad_norm": 20.969034525593848,
+      "learning_rate": 1.9159007893272703e-07,
+      "logits/chosen": 0.7277138829231262,
+      "logits/rejected": 1.7486486434936523,
+      "logps/chosen": -373.39337158203125,
+      "logps/rejected": -425.66802978515625,
+      "loss": 0.5179,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.9260489344596863,
+      "rewards/margins": 0.8373041152954102,
+      "rewards/rejected": -1.7633531093597412,
+      "step": 270
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 23.247855138801246,
+      "learning_rate": 1.7236571898357766e-07,
+      "logits/chosen": 1.1543443202972412,
+      "logits/rejected": 1.953770637512207,
+      "logps/chosen": -383.1849365234375,
+      "logps/rejected": -455.0911560058594,
+      "loss": 0.5114,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.180774450302124,
+      "rewards/margins": 0.7801226377487183,
+      "rewards/rejected": -1.9608970880508423,
+      "step": 280
+    },
+    {
+      "epoch": 0.6628571428571428,
+      "grad_norm": 24.724486484729947,
+      "learning_rate": 1.5363719371356882e-07,
+      "logits/chosen": 0.6572316884994507,
+      "logits/rejected": 1.695812463760376,
+      "logps/chosen": -416.1396484375,
+      "logps/rejected": -455.5172424316406,
+      "loss": 0.5263,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0608103275299072,
+      "rewards/margins": 0.8319962620735168,
+      "rewards/rejected": -1.8928064107894897,
+      "step": 290
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 29.971468773313187,
+      "learning_rate": 1.3552411848071565e-07,
+      "logits/chosen": 0.6122870445251465,
+      "logits/rejected": 1.7082029581069946,
+      "logps/chosen": -430.2732849121094,
+      "logps/rejected": -462.9169006347656,
+      "loss": 0.52,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.9619089961051941,
+      "rewards/margins": 0.8669039607048035,
+      "rewards/rejected": -1.8288129568099976,
+      "step": 300
+    },
+    {
+      "epoch": 0.6857142857142857,
+      "eval_logits/chosen": 0.35753339529037476,
+      "eval_logits/rejected": 1.570934534072876,
+      "eval_logps/chosen": -358.7277526855469,
+      "eval_logps/rejected": -402.1611633300781,
+      "eval_loss": 0.5289955139160156,
+      "eval_rewards/accuracies": 0.767241358757019,
+      "eval_rewards/chosen": -0.8312381505966187,
+      "eval_rewards/margins": 0.9996121525764465,
+      "eval_rewards/rejected": -1.8308502435684204,
+      "eval_runtime": 91.4265,
+      "eval_samples_per_second": 20.027,
+      "eval_steps_per_second": 0.317,
+      "step": 300
+    },
+    {
+      "epoch": 0.7085714285714285,
+      "grad_norm": 24.12999361369321,
+      "learning_rate": 1.1814217788631473e-07,
+      "logits/chosen": -0.16139774024486542,
+      "logits/rejected": 0.688940167427063,
+      "logps/chosen": -382.5923767089844,
+      "logps/rejected": -401.3270568847656,
+      "loss": 0.5354,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.7693190574645996,
+      "rewards/margins": 0.7588919997215271,
+      "rewards/rejected": -1.528210997581482,
+      "step": 310
+    },
+    {
+      "epoch": 0.7314285714285714,
+      "grad_norm": 26.54925451004345,
+      "learning_rate": 1.0160238692045331e-07,
+      "logits/chosen": -0.06717093288898468,
+      "logits/rejected": 0.6305860280990601,
+      "logps/chosen": -369.2928161621094,
+      "logps/rejected": -412.58697509765625,
+      "loss": 0.5477,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.7303933501243591,
+      "rewards/margins": 0.7106696367263794,
+      "rewards/rejected": -1.4410629272460938,
+      "step": 320
+    },
+    {
+      "epoch": 0.7542857142857143,
+      "grad_norm": 24.915758947808765,
+      "learning_rate": 8.601038193139438e-08,
+      "logits/chosen": 0.2589293122291565,
+      "logits/rejected": 1.0479013919830322,
+      "logps/chosen": -345.1177673339844,
+      "logps/rejected": -404.4964294433594,
+      "loss": 0.5268,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8461502194404602,
+      "rewards/margins": 0.694037914276123,
+      "rewards/rejected": -1.540188193321228,
+      "step": 330
+    },
+    {
+      "epoch": 0.7771428571428571,
+      "grad_norm": 25.634054231200437,
+      "learning_rate": 7.146574594727572e-08,
+      "logits/chosen": 0.4899168908596039,
+      "logits/rejected": 1.3734686374664307,
+      "logps/chosen": -405.3310546875,
+      "logps/rejected": -441.66229248046875,
+      "loss": 0.5244,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.8923100233078003,
+      "rewards/margins": 0.7486563920974731,
+      "rewards/rejected": -1.6409664154052734,
+      "step": 340
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 22.913432536942167,
+      "learning_rate": 5.8061372659157306e-08,
+      "logits/chosen": 0.6021924614906311,
+      "logits/rejected": 1.459370732307434,
+      "logps/chosen": -393.2467041015625,
+      "logps/rejected": -454.7303161621094,
+      "loss": 0.5242,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.0371372699737549,
+      "rewards/margins": 0.7981128096580505,
+      "rewards/rejected": -1.8352502584457397,
+      "step": 350
+    },
+    {
+      "epoch": 0.8,
+      "eval_logits/chosen": 0.9154686331748962,
+      "eval_logits/rejected": 2.1920182704925537,
+      "eval_logps/chosen": -373.6957702636719,
+      "eval_logps/rejected": -416.3299560546875,
+      "eval_loss": 0.5237171053886414,
+      "eval_rewards/accuracies": 0.7758620977401733,
+      "eval_rewards/chosen": -0.9809183478355408,
+      "eval_rewards/margins": 0.9916198253631592,
+      "eval_rewards/rejected": -1.9725382328033447,
+      "eval_runtime": 90.3705,
+      "eval_samples_per_second": 20.261,
+      "eval_steps_per_second": 0.321,
+      "step": 350
+    },
+    {
+      "epoch": 0.8228571428571428,
+      "grad_norm": 21.470834511474877,
+      "learning_rate": 4.5882873127531614e-08,
+      "logits/chosen": 1.230400562286377,
+      "logits/rejected": 1.8857431411743164,
+      "logps/chosen": -349.6596984863281,
+      "logps/rejected": -409.2167663574219,
+      "loss": 0.5193,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.1211602687835693,
+      "rewards/margins": 0.669862687587738,
+      "rewards/rejected": -1.7910230159759521,
+      "step": 360
+    },
+    {
+      "epoch": 0.8457142857142858,
+      "grad_norm": 29.520887318743274,
+      "learning_rate": 3.500802900154412e-08,
+      "logits/chosen": 0.82422935962677,
+      "logits/rejected": 1.839655876159668,
+      "logps/chosen": -406.80926513671875,
+      "logps/rejected": -428.79949951171875,
+      "loss": 0.5243,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.1053653955459595,
+      "rewards/margins": 0.7291324734687805,
+      "rewards/rejected": -1.8344980478286743,
+      "step": 370
+    },
+    {
+      "epoch": 0.8685714285714285,
+      "grad_norm": 24.74940690379961,
+      "learning_rate": 2.550629574310309e-08,
+      "logits/chosen": 0.5695315599441528,
+      "logits/rejected": 1.3380911350250244,
+      "logps/chosen": -394.51263427734375,
+      "logps/rejected": -444.4217224121094,
+      "loss": 0.5117,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0350737571716309,
+      "rewards/margins": 0.7248605489730835,
+      "rewards/rejected": -1.759934425354004,
+      "step": 380
+    },
+    {
+      "epoch": 0.8914285714285715,
+      "grad_norm": 22.68029569887221,
+      "learning_rate": 1.7438359028687983e-08,
+      "logits/chosen": 0.7584401965141296,
+      "logits/rejected": 1.7040205001831055,
+      "logps/chosen": -372.4088439941406,
+      "logps/rejected": -406.352783203125,
+      "loss": 0.513,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.0060627460479736,
+      "rewards/margins": 0.7981821298599243,
+      "rewards/rejected": -1.8042447566986084,
+      "step": 390
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 28.690684821171704,
+      "learning_rate": 1.0855747162029361e-08,
+      "logits/chosen": 0.6766539812088013,
+      "logits/rejected": 1.2123651504516602,
+      "logps/chosen": -355.7047119140625,
+      "logps/rejected": -403.9508361816406,
+      "loss": 0.5207,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8698047399520874,
+      "rewards/margins": 0.698576807975769,
+      "rewards/rejected": -1.568381428718567,
+      "step": 400
+    },
+    {
+      "epoch": 0.9142857142857143,
+      "eval_logits/chosen": 0.5726661682128906,
+      "eval_logits/rejected": 1.8489381074905396,
+      "eval_logps/chosen": -361.5919189453125,
+      "eval_logps/rejected": -406.0525207519531,
+      "eval_loss": 0.5204084515571594,
+      "eval_rewards/accuracies": 0.7715517282485962,
+      "eval_rewards/chosen": -0.8598796129226685,
+      "eval_rewards/margins": 1.0098847150802612,
+      "eval_rewards/rejected": -1.8697644472122192,
+      "eval_runtime": 90.7052,
+      "eval_samples_per_second": 20.186,
+      "eval_steps_per_second": 0.32,
+      "step": 400
+    },
+    {
+      "epoch": 0.9371428571428572,
+      "grad_norm": 22.4897885356645,
+      "learning_rate": 5.8005019731033615e-09,
+      "logits/chosen": 0.5689116716384888,
+      "logits/rejected": 1.7866685390472412,
+      "logps/chosen": -360.1455383300781,
+      "logps/rejected": -413.405029296875,
+      "loss": 0.4922,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8828630447387695,
+      "rewards/margins": 0.9393178820610046,
+      "rewards/rejected": -1.8221811056137085,
+      "step": 410
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 24.590466446146614,
+      "learning_rate": 2.3049103053431886e-09,
+      "logits/chosen": 0.4758734107017517,
+      "logits/rejected": 1.4166442155838013,
+      "logps/chosen": -368.29669189453125,
+      "logps/rejected": -418.43438720703125,
+      "loss": 0.5034,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.8787800669670105,
+      "rewards/margins": 0.8519768714904785,
+      "rewards/rejected": -1.7307569980621338,
+      "step": 420
+    },
+    {
+      "epoch": 0.9828571428571429,
+      "grad_norm": 29.700043608251338,
+      "learning_rate": 3.9129780600541397e-10,
+      "logits/chosen": 0.4247834086418152,
+      "logits/rejected": 1.170922040939331,
+      "logps/chosen": -397.17230224609375,
+      "logps/rejected": -453.1036682128906,
+      "loss": 0.5236,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.9241801500320435,
+      "rewards/margins": 0.7625172138214111,
+      "rewards/rejected": -1.6866973638534546,
+      "step": 430
+    },
+    {
+      "epoch": 0.9988571428571429,
+      "step": 437,
+      "total_flos": 0.0,
+      "train_loss": 0.5601670529258606,
+      "train_runtime": 11363.2534,
+      "train_samples_per_second": 4.928,
+      "train_steps_per_second": 0.038
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 437,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}