Model save

Browse files

Files changed (8) hide show

README.md +68 -0
all_results.json +9 -0
generation_config.json +6 -0
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +9 -0
trainer_state.json +2546 -0

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: alignment-handbook/zephyr-7b-sft-full
+library_name: transformers
+model_name: ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr5e-07_1
+tags:
+- generated_from_trainer
+- trl
+- dpo
+licence: license
+---
+# Model Card for ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr5e-07_1
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="YuchenLi01/ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr5e-07_1", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yuchenl4/lmpref/runs/ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr5e-07_1try1S4eJmGXVUhdSrsIAqeWu49ao5UELq4jSJBSvoOVdLYLRFy)
+This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
+### Framework versions
+- TRL: 0.12.0
+- Transformers: 4.46.3
+- Pytorch: 2.3.0
+- Datasets: 3.1.0
+- Tokenizers: 0.20.3
+## Citations
+Cite DPO as:
+```bibtex
+@inproceedings{rafailov2023direct,
+    title        = {{Direct Preference Optimization: Your Language Model is Secretly a Reward Model}},
+    author       = {Rafael Rafailov and Archit Sharma and Eric Mitchell and Christopher D. Manning and Stefano Ermon and Chelsea Finn},
+    year         = 2023,
+    booktitle    = {Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023},
+    url          = {http://papers.nips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html},
+    editor       = {Alice Oh and Tristan Naumann and Amir Globerson and Kate Saenko and Moritz Hardt and Sergey Levine},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4091535410406212,
+    "train_runtime": 30868.5922,
+    "train_samples": 45608,
+    "train_samples_per_second": 1.477,
+    "train_steps_per_second": 0.023
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.46.3"
+}

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a934bf1cab1daa9c509357ab7c28f132f8deeaf27d98dfd47b66f71f40ea95dc
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cc3c1b33def2af680389b5ce6915b6a7adf0179e5a76ab7bc3936de6b99d9dd
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddffc17bd8e3cee92a27ab3a17c7fbc72b98f7dcf3e5e72a290f6eb01d9ce7aa
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:3bfa92f6339d97133e57d049aa167be3745a90b323fb7f5ef9cef720c12a8f10
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee01b5ec17faeb33e77f8bea9bd2595a28496b8ee7754de27635dd860bba1390
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:947c2594c61ea8af6f42287d3775e3006a40a61d533e8347c22a20ec6863992a
 size 4540516344

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4091535410406212,
+    "train_runtime": 30868.5922,
+    "train_samples": 45608,
+    "train_samples_per_second": 1.477,
+    "train_steps_per_second": 0.023
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2546 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 8,
+  "global_step": 713,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.001402524544179523,
+      "grad_norm": 51.46674233848396,
+      "learning_rate": 6.9444444444444435e-09,
+      "logits/chosen": -3.328125,
+      "logits/rejected": -3.46875,
+      "logps/chosen": -468.0,
+      "logps/rejected": -300.0,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.011220196353436185,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6924511194229126,
+      "eval_rewards/accuracies": 0.21808511018753052,
+      "eval_rewards/chosen": 0.001068115234375,
+      "eval_rewards/margins": -0.0003376007080078125,
+      "eval_rewards/rejected": 0.00139617919921875,
+      "eval_runtime": 64.5741,
+      "eval_samples_per_second": 23.028,
+      "eval_steps_per_second": 0.728,
+      "step": 8
+    },
+    {
+      "epoch": 0.014025245441795231,
+      "grad_norm": 53.200557685453425,
+      "learning_rate": 6.944444444444444e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -306.0,
+      "logps/rejected": -264.0,
+      "loss": 0.694,
+      "rewards/accuracies": 0.1666666716337204,
+      "rewards/chosen": -0.004241943359375,
+      "rewards/margins": -0.00970458984375,
+      "rewards/rejected": 0.0054931640625,
+      "step": 10
+    },
+    {
+      "epoch": 0.02244039270687237,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6895634531974792,
+      "eval_rewards/accuracies": 0.2606382966041565,
+      "eval_rewards/chosen": -0.01318359375,
+      "eval_rewards/margins": -0.004058837890625,
+      "eval_rewards/rejected": -0.0091552734375,
+      "eval_runtime": 65.8066,
+      "eval_samples_per_second": 22.597,
+      "eval_steps_per_second": 0.714,
+      "step": 16
+    },
+    {
+      "epoch": 0.028050490883590462,
+      "grad_norm": 61.01600920733608,
+      "learning_rate": 1.3888888888888888e-07,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -314.0,
+      "logps/rejected": -294.0,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.006256103515625,
+      "rewards/margins": 0.0089111328125,
+      "rewards/rejected": -0.01513671875,
+      "step": 20
+    },
+    {
+      "epoch": 0.033660589060308554,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6792454719543457,
+      "eval_rewards/accuracies": 0.48404255509376526,
+      "eval_rewards/chosen": -0.04248046875,
+      "eval_rewards/margins": 0.027587890625,
+      "eval_rewards/rejected": -0.0703125,
+      "eval_runtime": 65.5822,
+      "eval_samples_per_second": 22.674,
+      "eval_steps_per_second": 0.717,
+      "step": 24
+    },
+    {
+      "epoch": 0.04207573632538569,
+      "grad_norm": 48.23881467629644,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.25,
+      "logps/chosen": -352.0,
+      "logps/rejected": -280.0,
+      "loss": 0.6754,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.038330078125,
+      "rewards/margins": 0.051513671875,
+      "rewards/rejected": -0.08984375,
+      "step": 30
+    },
+    {
+      "epoch": 0.04488078541374474,
+      "eval_logits/chosen": -3.21875,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -280.0,
+      "eval_loss": 0.6562117338180542,
+      "eval_rewards/accuracies": 0.6117021441459656,
+      "eval_rewards/chosen": -0.111328125,
+      "eval_rewards/margins": 0.08544921875,
+      "eval_rewards/rejected": -0.197265625,
+      "eval_runtime": 65.2452,
+      "eval_samples_per_second": 22.791,
+      "eval_steps_per_second": 0.72,
+      "step": 32
+    },
+    {
+      "epoch": 0.056100981767180924,
+      "grad_norm": 47.782407457061694,
+      "learning_rate": 2.7777777777777776e-07,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.25,
+      "logps/chosen": -346.0,
+      "logps/rejected": -276.0,
+      "loss": 0.6441,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.1259765625,
+      "rewards/margins": 0.1298828125,
+      "rewards/rejected": -0.255859375,
+      "step": 40
+    },
+    {
+      "epoch": 0.056100981767180924,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -284.0,
+      "eval_loss": 0.6230681538581848,
+      "eval_rewards/accuracies": 0.664893627166748,
+      "eval_rewards/chosen": -0.212890625,
+      "eval_rewards/margins": 0.1767578125,
+      "eval_rewards/rejected": -0.390625,
+      "eval_runtime": 65.4966,
+      "eval_samples_per_second": 22.703,
+      "eval_steps_per_second": 0.718,
+      "step": 40
+    },
+    {
+      "epoch": 0.06732117812061711,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -328.0,
+      "eval_logps/rejected": -288.0,
+      "eval_loss": 0.5846173167228699,
+      "eval_rewards/accuracies": 0.6914893388748169,
+      "eval_rewards/chosen": -0.328125,
+      "eval_rewards/margins": 0.328125,
+      "eval_rewards/rejected": -0.65625,
+      "eval_runtime": 65.9802,
+      "eval_samples_per_second": 22.537,
+      "eval_steps_per_second": 0.712,
+      "step": 48
+    },
+    {
+      "epoch": 0.07012622720897616,
+      "grad_norm": 39.07068999911395,
+      "learning_rate": 3.472222222222222e-07,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -344.0,
+      "logps/rejected": -316.0,
+      "loss": 0.5952,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.33203125,
+      "rewards/margins": 0.2578125,
+      "rewards/rejected": -0.58984375,
+      "step": 50
+    },
+    {
+      "epoch": 0.0785413744740533,
+      "eval_logits/chosen": -3.15625,
+      "eval_logits/rejected": -3.1875,
+      "eval_logps/chosen": -328.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.5460087060928345,
+      "eval_rewards/accuracies": 0.728723406791687,
+      "eval_rewards/chosen": -0.326171875,
+      "eval_rewards/margins": 0.498046875,
+      "eval_rewards/rejected": -0.82421875,
+      "eval_runtime": 65.6815,
+      "eval_samples_per_second": 22.64,
+      "eval_steps_per_second": 0.716,
+      "step": 56
+    },
+    {
+      "epoch": 0.08415147265077139,
+      "grad_norm": 35.960821270018556,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -346.0,
+      "logps/rejected": -292.0,
+      "loss": 0.5601,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.337890625,
+      "rewards/margins": 0.48828125,
+      "rewards/rejected": -0.828125,
+      "step": 60
+    },
+    {
+      "epoch": 0.08976157082748948,
+      "eval_logits/chosen": -3.140625,
+      "eval_logits/rejected": -3.171875,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.5130031704902649,
+      "eval_rewards/accuracies": 0.7553191781044006,
+      "eval_rewards/chosen": -0.10791015625,
+      "eval_rewards/margins": 0.68359375,
+      "eval_rewards/rejected": -0.7890625,
+      "eval_runtime": 65.377,
+      "eval_samples_per_second": 22.745,
+      "eval_steps_per_second": 0.719,
+      "step": 64
+    },
+    {
+      "epoch": 0.09817671809256662,
+      "grad_norm": 45.987879679409986,
+      "learning_rate": 4.861111111111111e-07,
+      "logits/chosen": -2.921875,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -340.0,
+      "logps/rejected": -318.0,
+      "loss": 0.5168,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.384765625,
+      "rewards/margins": 0.515625,
+      "rewards/rejected": -0.8984375,
+      "step": 70
+    },
+    {
+      "epoch": 0.10098176718092566,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -330.0,
+      "eval_logps/rejected": -302.0,
+      "eval_loss": 0.48529163002967834,
+      "eval_rewards/accuracies": 0.7553191781044006,
+      "eval_rewards/chosen": -0.3671875,
+      "eval_rewards/margins": 0.9375,
+      "eval_rewards/rejected": -1.3046875,
+      "eval_runtime": 65.3763,
+      "eval_samples_per_second": 22.745,
+      "eval_steps_per_second": 0.719,
+      "step": 72
+    },
+    {
+      "epoch": 0.11220196353436185,
+      "grad_norm": 50.85101203918117,
+      "learning_rate": 4.998078598898921e-07,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -322.0,
+      "logps/rejected": -316.0,
+      "loss": 0.4973,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.5703125,
+      "rewards/margins": 1.1015625,
+      "rewards/rejected": -1.671875,
+      "step": 80
+    },
+    {
+      "epoch": 0.11220196353436185,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -298.0,
+      "eval_loss": 0.4733535349369049,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -0.11181640625,
+      "eval_rewards/margins": 1.0703125,
+      "eval_rewards/rejected": -1.1796875,
+      "eval_runtime": 65.986,
+      "eval_samples_per_second": 22.535,
+      "eval_steps_per_second": 0.712,
+      "step": 80
+    },
+    {
+      "epoch": 0.12342215988779803,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -300.0,
+      "eval_loss": 0.46471452713012695,
+      "eval_rewards/accuracies": 0.8031914830207825,
+      "eval_rewards/chosen": -0.1474609375,
+      "eval_rewards/margins": 1.1015625,
+      "eval_rewards/rejected": -1.25,
+      "eval_runtime": 65.8761,
+      "eval_samples_per_second": 22.573,
+      "eval_steps_per_second": 0.713,
+      "step": 88
+    },
+    {
+      "epoch": 0.12622720897615708,
+      "grad_norm": 43.69982337922237,
+      "learning_rate": 4.990277968429684e-07,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -2.953125,
+      "logps/chosen": -354.0,
+      "logps/rejected": -312.0,
+      "loss": 0.4756,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.11376953125,
+      "rewards/margins": 1.1484375,
+      "rewards/rejected": -1.2578125,
+      "step": 90
+    },
+    {
+      "epoch": 0.13464235624123422,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -326.0,
+      "eval_loss": 0.4726095497608185,
+      "eval_rewards/accuracies": 0.7659574747085571,
+      "eval_rewards/chosen": -1.2109375,
+      "eval_rewards/margins": 1.28125,
+      "eval_rewards/rejected": -2.5,
+      "eval_runtime": 66.1434,
+      "eval_samples_per_second": 22.481,
+      "eval_steps_per_second": 0.711,
+      "step": 96
+    },
+    {
+      "epoch": 0.1402524544179523,
+      "grad_norm": 65.26391444387855,
+      "learning_rate": 4.976496740424417e-07,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -330.0,
+      "logps/rejected": -302.0,
+      "loss": 0.4548,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.98828125,
+      "rewards/margins": 1.3515625,
+      "rewards/rejected": -2.34375,
+      "step": 100
+    },
+    {
+      "epoch": 0.1458625525946704,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -316.0,
+      "eval_loss": 0.44555220007896423,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.6328125,
+      "eval_rewards/margins": 1.3828125,
+      "eval_rewards/rejected": -2.015625,
+      "eval_runtime": 65.9643,
+      "eval_samples_per_second": 22.542,
+      "eval_steps_per_second": 0.713,
+      "step": 104
+    },
+    {
+      "epoch": 0.15427769985974754,
+      "grad_norm": 43.09963797811936,
+      "learning_rate": 4.956768011581281e-07,
+      "logits/chosen": -2.984375,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -356.0,
+      "logps/rejected": -326.0,
+      "loss": 0.451,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.53515625,
+      "rewards/margins": 1.71875,
+      "rewards/rejected": -2.25,
+      "step": 110
+    },
+    {
+      "epoch": 0.1570827489481066,
+      "eval_logits/chosen": -3.046875,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -306.0,
+      "eval_loss": 0.4476098418235779,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.25390625,
+      "eval_rewards/margins": 1.2734375,
+      "eval_rewards/rejected": -1.53125,
+      "eval_runtime": 65.5408,
+      "eval_samples_per_second": 22.688,
+      "eval_steps_per_second": 0.717,
+      "step": 112
+    },
+    {
+      "epoch": 0.16830294530154277,
+      "grad_norm": 35.62825840397104,
+      "learning_rate": 4.931139161987398e-07,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -2.9375,
+      "logps/chosen": -366.0,
+      "logps/rejected": -360.0,
+      "loss": 0.4475,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.5625,
+      "rewards/margins": 1.4453125,
+      "rewards/rejected": -2.015625,
+      "step": 120
+    },
+    {
+      "epoch": 0.16830294530154277,
+      "eval_logits/chosen": -3.03125,
+      "eval_logits/rejected": -3.0625,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -330.0,
+      "eval_loss": 0.4360468089580536,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -1.15625,
+      "eval_rewards/margins": 1.546875,
+      "eval_rewards/rejected": -2.703125,
+      "eval_runtime": 67.0228,
+      "eval_samples_per_second": 22.186,
+      "eval_steps_per_second": 0.701,
+      "step": 120
+    },
+    {
+      "epoch": 0.17952314165497896,
+      "eval_logits/chosen": -3.03125,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -322.0,
+      "eval_loss": 0.4318736791610718,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -0.77734375,
+      "eval_rewards/margins": 1.578125,
+      "eval_rewards/rejected": -2.359375,
+      "eval_runtime": 65.8922,
+      "eval_samples_per_second": 22.567,
+      "eval_steps_per_second": 0.713,
+      "step": 128
+    },
+    {
+      "epoch": 0.182328190743338,
+      "grad_norm": 53.386726765592485,
+      "learning_rate": 4.89967174133187e-07,
+      "logits/chosen": -2.859375,
+      "logits/rejected": -2.984375,
+      "logps/chosen": -392.0,
+      "logps/rejected": -338.0,
+      "loss": 0.46,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.2421875,
+      "rewards/margins": 1.609375,
+      "rewards/rejected": -2.859375,
+      "step": 130
+    },
+    {
+      "epoch": 0.19074333800841514,
+      "eval_logits/chosen": -3.046875,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -318.0,
+      "eval_loss": 0.427120566368103,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.58203125,
+      "eval_rewards/margins": 1.53125,
+      "eval_rewards/rejected": -2.109375,
+      "eval_runtime": 65.8368,
+      "eval_samples_per_second": 22.586,
+      "eval_steps_per_second": 0.714,
+      "step": 136
+    },
+    {
+      "epoch": 0.19635343618513323,
+      "grad_norm": 75.83519043403058,
+      "learning_rate": 4.862441321089378e-07,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -372.0,
+      "logps/rejected": -322.0,
+      "loss": 0.4198,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5859375,
+      "rewards/margins": 1.5546875,
+      "rewards/rejected": -2.140625,
+      "step": 140
+    },
+    {
+      "epoch": 0.20196353436185133,
+      "eval_logits/chosen": -3.046875,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -322.0,
+      "eval_loss": 0.4199545085430145,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.67578125,
+      "eval_rewards/margins": 1.6953125,
+      "eval_rewards/rejected": -2.375,
+      "eval_runtime": 65.5367,
+      "eval_samples_per_second": 22.69,
+      "eval_steps_per_second": 0.717,
+      "step": 144
+    },
+    {
+      "epoch": 0.21037868162692847,
+      "grad_norm": 53.861403761625574,
+      "learning_rate": 4.819537313029364e-07,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -314.0,
+      "logps/rejected": -322.0,
+      "loss": 0.3987,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.7890625,
+      "rewards/margins": 1.78125,
+      "rewards/rejected": -2.5625,
+      "step": 150
+    },
+    {
+      "epoch": 0.2131837307152875,
+      "eval_logits/chosen": -3.03125,
+      "eval_logits/rejected": -3.0625,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -326.0,
+      "eval_loss": 0.417427122592926,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -0.79296875,
+      "eval_rewards/margins": 1.75,
+      "eval_rewards/rejected": -2.546875,
+      "eval_runtime": 65.4524,
+      "eval_samples_per_second": 22.719,
+      "eval_steps_per_second": 0.718,
+      "step": 152
+    },
+    {
+      "epoch": 0.2244039270687237,
+      "grad_norm": 76.00085050984279,
+      "learning_rate": 4.771062754486677e-07,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -350.0,
+      "logps/rejected": -316.0,
+      "loss": 0.4084,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.69921875,
+      "rewards/margins": 1.921875,
+      "rewards/rejected": -2.625,
+      "step": 160
+    },
+    {
+      "epoch": 0.2244039270687237,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -330.0,
+      "eval_logps/rejected": -320.0,
+      "eval_loss": 0.4198690950870514,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -0.451171875,
+      "eval_rewards/margins": 1.828125,
+      "eval_rewards/rejected": -2.28125,
+      "eval_runtime": 65.9805,
+      "eval_samples_per_second": 22.537,
+      "eval_steps_per_second": 0.712,
+      "step": 160
+    },
+    {
+      "epoch": 0.23562412342215988,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -332.0,
+      "eval_loss": 0.41553688049316406,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.9296875,
+      "eval_rewards/margins": 1.9296875,
+      "eval_rewards/rejected": -2.859375,
+      "eval_runtime": 66.758,
+      "eval_samples_per_second": 22.274,
+      "eval_steps_per_second": 0.704,
+      "step": 168
+    },
+    {
+      "epoch": 0.23842917251051893,
+      "grad_norm": 81.43616859600893,
+      "learning_rate": 4.717134060909331e-07,
+      "logits/chosen": -2.9375,
+      "logits/rejected": -2.75,
+      "logps/chosen": -300.0,
+      "logps/rejected": -308.0,
+      "loss": 0.4194,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.0,
+      "rewards/margins": 2.296875,
+      "rewards/rejected": -3.296875,
+      "step": 170
+    },
+    {
+      "epoch": 0.24684431977559607,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -312.0,
+      "eval_loss": 0.4193520247936249,
+      "eval_rewards/accuracies": 0.813829779624939,
+      "eval_rewards/chosen": -0.2197265625,
+      "eval_rewards/margins": 1.6484375,
+      "eval_rewards/rejected": -1.8671875,
+      "eval_runtime": 67.0437,
+      "eval_samples_per_second": 22.18,
+      "eval_steps_per_second": 0.701,
+      "step": 176
+    },
+    {
+      "epoch": 0.25245441795231416,
+      "grad_norm": 41.336420518994295,
+      "learning_rate": 4.6578807462777004e-07,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -298.0,
+      "logps/rejected": -352.0,
+      "loss": 0.4338,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.6015625,
+      "rewards/margins": 1.5234375,
+      "rewards/rejected": -2.125,
+      "step": 180
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -306.0,
+      "eval_loss": 0.4271917939186096,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.0283203125,
+      "eval_rewards/margins": 1.5234375,
+      "eval_rewards/rejected": -1.546875,
+      "eval_runtime": 65.8831,
+      "eval_samples_per_second": 22.57,
+      "eval_steps_per_second": 0.713,
+      "step": 184
+    },
+    {
+      "epoch": 0.2664796633941094,
+      "grad_norm": 32.121143393496304,
+      "learning_rate": 4.593445112066553e-07,
+      "logits/chosen": -3.015625,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -394.0,
+      "logps/rejected": -354.0,
+      "loss": 0.415,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0849609375,
+      "rewards/margins": 1.84375,
+      "rewards/rejected": -1.7578125,
+      "step": 190
+    },
+    {
+      "epoch": 0.26928471248246844,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -326.0,
+      "eval_loss": 0.4112021028995514,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.84765625,
+      "eval_rewards/margins": 1.7265625,
+      "eval_rewards/rejected": -2.578125,
+      "eval_runtime": 65.4321,
+      "eval_samples_per_second": 22.726,
+      "eval_steps_per_second": 0.718,
+      "step": 192
+    },
+    {
+      "epoch": 0.2805049088359046,
+      "grad_norm": 128.88104657311357,
+      "learning_rate": 4.523981905496914e-07,
+      "logits/chosen": -2.859375,
+      "logits/rejected": -2.9375,
+      "logps/chosen": -332.0,
+      "logps/rejected": -342.0,
+      "loss": 0.4038,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.8203125,
+      "rewards/margins": 2.15625,
+      "rewards/rejected": -2.984375,
+      "step": 200
+    },
+    {
+      "epoch": 0.2805049088359046,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.4111826717853546,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -1.109375,
+      "eval_rewards/margins": 1.8125,
+      "eval_rewards/rejected": -2.921875,
+      "eval_runtime": 65.5119,
+      "eval_samples_per_second": 22.698,
+      "eval_steps_per_second": 0.717,
+      "step": 200
+    },
+    {
+      "epoch": 0.2917251051893408,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -314.0,
+      "eval_loss": 0.41739681363105774,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.173828125,
+      "eval_rewards/margins": 1.7421875,
+      "eval_rewards/rejected": -1.9140625,
+      "eval_runtime": 65.6569,
+      "eval_samples_per_second": 22.648,
+      "eval_steps_per_second": 0.716,
+      "step": 208
+    },
+    {
+      "epoch": 0.29453015427769985,
+      "grad_norm": 33.6284095972861,
+      "learning_rate": 4.4496579478984995e-07,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -308.0,
+      "logps/rejected": -296.0,
+      "loss": 0.4119,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.91015625,
+      "rewards/margins": 1.84375,
+      "rewards/rejected": -2.75,
+      "step": 210
+    },
+    {
+      "epoch": 0.302945301542777,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -330.0,
+      "eval_logps/rejected": -320.0,
+      "eval_loss": 0.4090508818626404,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.45703125,
+      "eval_rewards/margins": 1.796875,
+      "eval_rewards/rejected": -2.25,
+      "eval_runtime": 65.408,
+      "eval_samples_per_second": 22.734,
+      "eval_steps_per_second": 0.719,
+      "step": 216
+    },
+    {
+      "epoch": 0.3085553997194951,
+      "grad_norm": 50.722207221810784,
+      "learning_rate": 4.370651734075229e-07,
+      "logits/chosen": -2.890625,
+      "logits/rejected": -2.859375,
+      "logps/chosen": -352.0,
+      "logps/rejected": -356.0,
+      "loss": 0.3826,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.62109375,
+      "rewards/margins": 1.953125,
+      "rewards/rejected": -2.578125,
+      "step": 220
+    },
+    {
+      "epoch": 0.3141654978962132,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -352.0,
+      "eval_logps/rejected": -342.0,
+      "eval_loss": 0.41070857644081116,
+      "eval_rewards/accuracies": 0.8031914830207825,
+      "eval_rewards/chosen": -1.5,
+      "eval_rewards/margins": 1.8125,
+      "eval_rewards/rejected": -3.3125,
+      "eval_runtime": 65.3108,
+      "eval_samples_per_second": 22.768,
+      "eval_steps_per_second": 0.72,
+      "step": 224
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 30.84942010137543,
+      "learning_rate": 4.2871530036359783e-07,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -348.0,
+      "logps/rejected": -336.0,
+      "loss": 0.3878,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.671875,
+      "rewards/margins": 2.125,
+      "rewards/rejected": -3.796875,
+      "step": 230
+    },
+    {
+      "epoch": 0.32538569424964936,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.409851610660553,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -1.2265625,
+      "eval_rewards/margins": 1.8984375,
+      "eval_rewards/rejected": -3.125,
+      "eval_runtime": 65.7782,
+      "eval_samples_per_second": 22.606,
+      "eval_steps_per_second": 0.715,
+      "step": 232
+    },
+    {
+      "epoch": 0.33660589060308554,
+      "grad_norm": 69.24941711385972,
+      "learning_rate": 4.1993622853200526e-07,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -316.0,
+      "logps/rejected": -336.0,
+      "loss": 0.3852,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.3203125,
+      "rewards/margins": 1.953125,
+      "rewards/rejected": -3.265625,
+      "step": 240
+    },
+    {
+      "epoch": 0.33660589060308554,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -328.0,
+      "eval_loss": 0.40991342067718506,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.69140625,
+      "eval_rewards/margins": 1.9453125,
+      "eval_rewards/rejected": -2.640625,
+      "eval_runtime": 65.801,
+      "eval_samples_per_second": 22.598,
+      "eval_steps_per_second": 0.714,
+      "step": 240
+    },
+    {
+      "epoch": 0.34782608695652173,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -330.0,
+      "eval_loss": 0.4066612720489502,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.87890625,
+      "eval_rewards/margins": 1.8828125,
+      "eval_rewards/rejected": -2.765625,
+      "eval_runtime": 65.3251,
+      "eval_samples_per_second": 22.763,
+      "eval_steps_per_second": 0.719,
+      "step": 248
+    },
+    {
+      "epoch": 0.3506311360448808,
+      "grad_norm": 47.10180307111659,
+      "learning_rate": 4.107490415411714e-07,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -422.0,
+      "logps/rejected": -310.0,
+      "loss": 0.4338,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.09375,
+      "rewards/margins": 1.515625,
+      "rewards/rejected": -2.609375,
+      "step": 250
+    },
+    {
+      "epoch": 0.3590462833099579,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.4039236903190613,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -1.0390625,
+      "eval_rewards/margins": 1.9296875,
+      "eval_rewards/rejected": -2.96875,
+      "eval_runtime": 65.7057,
+      "eval_samples_per_second": 22.631,
+      "eval_steps_per_second": 0.715,
+      "step": 256
+    },
+    {
+      "epoch": 0.364656381486676,
+      "grad_norm": 37.27672395240747,
+      "learning_rate": 4.01175803140034e-07,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -370.0,
+      "logps/rejected": -332.0,
+      "loss": 0.3974,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.328125,
+      "rewards/margins": 2.265625,
+      "rewards/rejected": -3.59375,
+      "step": 260
+    },
+    {
+      "epoch": 0.3702664796633941,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -328.0,
+      "eval_loss": 0.40224307775497437,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.72265625,
+      "eval_rewards/margins": 1.875,
+      "eval_rewards/rejected": -2.59375,
+      "eval_runtime": 65.6767,
+      "eval_samples_per_second": 22.641,
+      "eval_steps_per_second": 0.716,
+      "step": 264
+    },
+    {
+      "epoch": 0.37868162692847124,
+      "grad_norm": 32.86123128156331,
+      "learning_rate": 3.9123950421022135e-07,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -326.0,
+      "logps/rejected": -328.0,
+      "loss": 0.4019,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.921875,
+      "rewards/margins": 1.90625,
+      "rewards/rejected": -2.828125,
+      "step": 270
+    },
+    {
+      "epoch": 0.3814866760168303,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -332.0,
+      "eval_logps/rejected": -320.0,
+      "eval_loss": 0.40509188175201416,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -0.5546875,
+      "eval_rewards/margins": 1.7109375,
+      "eval_rewards/rejected": -2.265625,
+      "eval_runtime": 65.6219,
+      "eval_samples_per_second": 22.66,
+      "eval_steps_per_second": 0.716,
+      "step": 272
+    },
+    {
+      "epoch": 0.39270687237026647,
+      "grad_norm": 34.91842459517312,
+      "learning_rate": 3.8096400755164976e-07,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -340.0,
+      "logps/rejected": -328.0,
+      "loss": 0.3903,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.984375,
+      "rewards/margins": 1.7265625,
+      "rewards/rejected": -2.703125,
+      "step": 280
+    },
+    {
+      "epoch": 0.39270687237026647,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -330.0,
+      "eval_loss": 0.4004907011985779,
+      "eval_rewards/accuracies": 0.8617021441459656,
+      "eval_rewards/chosen": -0.84765625,
+      "eval_rewards/margins": 1.875,
+      "eval_rewards/rejected": -2.71875,
+      "eval_runtime": 66.0203,
+      "eval_samples_per_second": 22.523,
+      "eval_steps_per_second": 0.712,
+      "step": 280
+    },
+    {
+      "epoch": 0.40392706872370265,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -348.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.3978319466114044,
+      "eval_rewards/accuracies": 0.8563829660415649,
+      "eval_rewards/chosen": -1.265625,
+      "eval_rewards/margins": 2.0,
+      "eval_rewards/rejected": -3.265625,
+      "eval_runtime": 65.7904,
+      "eval_samples_per_second": 22.602,
+      "eval_steps_per_second": 0.714,
+      "step": 288
+    },
+    {
+      "epoch": 0.4067321178120617,
+      "grad_norm": 48.315535907518516,
+      "learning_rate": 3.7037399057414135e-07,
+      "logits/chosen": -2.890625,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -314.0,
+      "logps/rejected": -332.0,
+      "loss": 0.3948,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.2421875,
+      "rewards/margins": 2.15625,
+      "rewards/rejected": -3.40625,
+      "step": 290
+    },
+    {
+      "epoch": 0.41514726507713884,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -326.0,
+      "eval_loss": 0.39696547389030457,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.65234375,
+      "eval_rewards/margins": 1.90625,
+      "eval_rewards/rejected": -2.5625,
+      "eval_runtime": 65.6246,
+      "eval_samples_per_second": 22.659,
+      "eval_steps_per_second": 0.716,
+      "step": 296
+    },
+    {
+      "epoch": 0.42075736325385693,
+      "grad_norm": 31.56207798451172,
+      "learning_rate": 3.594948860326918e-07,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -304.0,
+      "logps/rejected": -314.0,
+      "loss": 0.3894,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.8203125,
+      "rewards/margins": 1.9453125,
+      "rewards/rejected": -2.765625,
+      "step": 300
+    },
+    {
+      "epoch": 0.426367461430575,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.39327114820480347,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -1.109375,
+      "eval_rewards/margins": 1.8671875,
+      "eval_rewards/rejected": -2.984375,
+      "eval_runtime": 66.1549,
+      "eval_samples_per_second": 22.478,
+      "eval_steps_per_second": 0.71,
+      "step": 304
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 33.392648021583874,
+      "learning_rate": 3.4835282094871775e-07,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -380.0,
+      "logps/rejected": -360.0,
+      "loss": 0.3824,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.2421875,
+      "rewards/margins": 2.0,
+      "rewards/rejected": -3.25,
+      "step": 310
+    },
+    {
+      "epoch": 0.4375876577840112,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -342.0,
+      "eval_loss": 0.39230719208717346,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.4140625,
+      "eval_rewards/margins": 1.9296875,
+      "eval_rewards/rejected": -3.34375,
+      "eval_runtime": 65.8562,
+      "eval_samples_per_second": 22.58,
+      "eval_steps_per_second": 0.714,
+      "step": 312
+    },
+    {
+      "epoch": 0.4488078541374474,
+      "grad_norm": 92.67447234773125,
+      "learning_rate": 3.369745538639694e-07,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -378.0,
+      "logps/rejected": -316.0,
+      "loss": 0.422,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.3046875,
+      "rewards/margins": 2.1875,
+      "rewards/rejected": -3.484375,
+      "step": 320
+    },
+    {
+      "epoch": 0.4488078541374474,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -332.0,
+      "eval_loss": 0.38914069533348083,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.74609375,
+      "eval_rewards/margins": 2.046875,
+      "eval_rewards/rejected": -2.796875,
+      "eval_runtime": 65.8877,
+      "eval_samples_per_second": 22.569,
+      "eval_steps_per_second": 0.713,
+      "step": 320
+    },
+    {
+      "epoch": 0.4600280504908836,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.3886280059814453,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.9296875,
+      "eval_rewards/margins": 2.078125,
+      "eval_rewards/rejected": -3.0,
+      "eval_runtime": 65.7911,
+      "eval_samples_per_second": 22.602,
+      "eval_steps_per_second": 0.714,
+      "step": 328
+    },
+    {
+      "epoch": 0.4628330995792426,
+      "grad_norm": 44.34559171874966,
+      "learning_rate": 3.2538741057779675e-07,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -2.84375,
+      "logps/chosen": -376.0,
+      "logps/rejected": -360.0,
+      "loss": 0.3761,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.87890625,
+      "rewards/margins": 2.46875,
+      "rewards/rejected": -3.34375,
+      "step": 330
+    },
+    {
+      "epoch": 0.47124824684431976,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -330.0,
+      "eval_loss": 0.38978397846221924,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.6796875,
+      "eval_rewards/margins": 2.0625,
+      "eval_rewards/rejected": -2.75,
+      "eval_runtime": 66.1797,
+      "eval_samples_per_second": 22.469,
+      "eval_steps_per_second": 0.71,
+      "step": 336
+    },
+    {
+      "epoch": 0.47685834502103785,
+      "grad_norm": 35.10773780257282,
+      "learning_rate": 3.136192185221032e-07,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -350.0,
+      "logps/rejected": -366.0,
+      "loss": 0.3534,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.9609375,
+      "rewards/margins": 2.28125,
+      "rewards/rejected": -3.25,
+      "step": 340
+    },
+    {
+      "epoch": 0.48246844319775595,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.3868924677371979,
+      "eval_rewards/accuracies": 0.8563829660415649,
+      "eval_rewards/chosen": -0.953125,
+      "eval_rewards/margins": 2.078125,
+      "eval_rewards/rejected": -3.03125,
+      "eval_runtime": 66.0426,
+      "eval_samples_per_second": 22.516,
+      "eval_steps_per_second": 0.712,
+      "step": 344
+    },
+    {
+      "epoch": 0.4908835904628331,
+      "grad_norm": 31.140190663491566,
+      "learning_rate": 3.016982399315888e-07,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -374.0,
+      "logps/rejected": -332.0,
+      "loss": 0.3601,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.234375,
+      "rewards/margins": 2.421875,
+      "rewards/rejected": -3.65625,
+      "step": 350
+    },
+    {
+      "epoch": 0.49368863955119213,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.38676464557647705,
+      "eval_rewards/accuracies": 0.8510638475418091,
+      "eval_rewards/chosen": -1.0078125,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.15625,
+      "eval_runtime": 65.739,
+      "eval_samples_per_second": 22.62,
+      "eval_steps_per_second": 0.715,
+      "step": 352
+    },
+    {
+      "epoch": 0.5049088359046283,
+      "grad_norm": 47.07813704000649,
+      "learning_rate": 2.896531039697801e-07,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -334.0,
+      "logps/rejected": -330.0,
+      "loss": 0.3996,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.40625,
+      "rewards/margins": 2.265625,
+      "rewards/rejected": -3.671875,
+      "step": 360
+    },
+    {
+      "epoch": 0.5049088359046283,
+      "eval_logits/chosen": -3.03125,
+      "eval_logits/rejected": -3.0625,
+      "eval_logps/chosen": -348.0,
+      "eval_logps/rejected": -344.0,
+      "eval_loss": 0.3909456133842468,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -1.2734375,
+      "eval_rewards/margins": 2.171875,
+      "eval_rewards/rejected": -3.4375,
+      "eval_runtime": 66.2809,
+      "eval_samples_per_second": 22.435,
+      "eval_steps_per_second": 0.709,
+      "step": 360
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "eval_logits/chosen": -3.03125,
+      "eval_logits/rejected": -3.046875,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -344.0,
+      "eval_loss": 0.3894420564174652,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -1.375,
+      "eval_rewards/margins": 2.109375,
+      "eval_rewards/rejected": -3.484375,
+      "eval_runtime": 65.5848,
+      "eval_samples_per_second": 22.673,
+      "eval_steps_per_second": 0.717,
+      "step": 368
+    },
+    {
+      "epoch": 0.5189340813464236,
+      "grad_norm": 33.796854317256766,
+      "learning_rate": 2.7751273797385324e-07,
+      "logits/chosen": -2.921875,
+      "logits/rejected": -2.796875,
+      "logps/chosen": -364.0,
+      "logps/rejected": -338.0,
+      "loss": 0.3591,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.4921875,
+      "rewards/margins": 2.390625,
+      "rewards/rejected": -3.890625,
+      "step": 370
+    },
+    {
+      "epoch": 0.5273492286115007,
+      "eval_logits/chosen": -3.046875,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.38463667035102844,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -0.8203125,
+      "eval_rewards/margins": 2.15625,
+      "eval_rewards/rejected": -2.984375,
+      "eval_runtime": 65.7596,
+      "eval_samples_per_second": 22.613,
+      "eval_steps_per_second": 0.715,
+      "step": 376
+    },
+    {
+      "epoch": 0.5329593267882188,
+      "grad_norm": 40.02993475158031,
+      "learning_rate": 2.6530629798336756e-07,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -364.0,
+      "logps/rejected": -372.0,
+      "loss": 0.3726,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.90625,
+      "rewards/margins": 2.34375,
+      "rewards/rejected": -3.25,
+      "step": 380
+    },
+    {
+      "epoch": 0.5385694249649369,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.3832222521305084,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -0.87109375,
+      "eval_rewards/margins": 2.078125,
+      "eval_rewards/rejected": -2.953125,
+      "eval_runtime": 65.913,
+      "eval_samples_per_second": 22.56,
+      "eval_steps_per_second": 0.713,
+      "step": 384
+    },
+    {
+      "epoch": 0.5469845722300141,
+      "grad_norm": 24.220998890998306,
+      "learning_rate": 2.5306309871975437e-07,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -358.0,
+      "logps/rejected": -366.0,
+      "loss": 0.371,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.953125,
+      "rewards/margins": 2.265625,
+      "rewards/rejected": -3.21875,
+      "step": 390
+    },
+    {
+      "epoch": 0.5497896213183731,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.38178983330726624,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.8984375,
+      "eval_rewards/margins": 2.046875,
+      "eval_rewards/rejected": -2.953125,
+      "eval_runtime": 65.9539,
+      "eval_samples_per_second": 22.546,
+      "eval_steps_per_second": 0.713,
+      "step": 392
+    },
+    {
+      "epoch": 0.5610098176718092,
+      "grad_norm": 40.61458230374078,
+      "learning_rate": 2.408125431847175e-07,
+      "logits/chosen": -2.828125,
+      "logits/rejected": -2.984375,
+      "logps/chosen": -326.0,
+      "logps/rejected": -360.0,
+      "loss": 0.3546,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.0390625,
+      "rewards/margins": 2.3125,
+      "rewards/rejected": -3.34375,
+      "step": 400
+    },
+    {
+      "epoch": 0.5610098176718092,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3821606934070587,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.1328125,
+      "eval_rewards/margins": 2.03125,
+      "eval_rewards/rejected": -3.171875,
+      "eval_runtime": 65.6255,
+      "eval_samples_per_second": 22.659,
+      "eval_steps_per_second": 0.716,
+      "step": 400
+    },
+    {
+      "epoch": 0.5722300140252454,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -332.0,
+      "eval_loss": 0.3827318847179413,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.72265625,
+      "eval_rewards/margins": 2.09375,
+      "eval_rewards/rejected": -2.8125,
+      "eval_runtime": 66.6876,
+      "eval_samples_per_second": 22.298,
+      "eval_steps_per_second": 0.705,
+      "step": 408
+    },
+    {
+      "epoch": 0.5750350631136045,
+      "grad_norm": 37.20301916256947,
+      "learning_rate": 2.2858405204662287e-07,
+      "logits/chosen": -3.0,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -336.0,
+      "logps/rejected": -318.0,
+      "loss": 0.3815,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.2421875,
+      "rewards/margins": 2.515625,
+      "rewards/rejected": -3.765625,
+      "step": 410
+    },
+    {
+      "epoch": 0.5834502103786816,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.38075175881385803,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.1171875,
+      "eval_rewards/margins": 2.015625,
+      "eval_rewards/rejected": -3.125,
+      "eval_runtime": 66.0902,
+      "eval_samples_per_second": 22.5,
+      "eval_steps_per_second": 0.711,
+      "step": 416
+    },
+    {
+      "epoch": 0.5890603085553997,
+      "grad_norm": 27.9879490973163,
+      "learning_rate": 2.164069929844592e-07,
+      "logits/chosen": -2.9375,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -350.0,
+      "logps/rejected": -324.0,
+      "loss": 0.36,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.97265625,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -3.015625,
+      "step": 420
+    },
+    {
+      "epoch": 0.5946704067321178,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.37844687700271606,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -0.84375,
+      "eval_rewards/margins": 2.078125,
+      "eval_rewards/rejected": -2.921875,
+      "eval_runtime": 66.0062,
+      "eval_samples_per_second": 22.528,
+      "eval_steps_per_second": 0.712,
+      "step": 424
+    },
+    {
+      "epoch": 0.603085553997195,
+      "grad_norm": 41.322997758051834,
+      "learning_rate": 2.0431061015905793e-07,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -318.0,
+      "logps/rejected": -360.0,
+      "loss": 0.3522,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.046875,
+      "rewards/margins": 2.6875,
+      "rewards/rejected": -3.734375,
+      "step": 430
+    },
+    {
+      "epoch": 0.605890603085554,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.37742072343826294,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.03125,
+      "eval_rewards/margins": 2.109375,
+      "eval_rewards/rejected": -3.140625,
+      "eval_runtime": 65.9149,
+      "eval_samples_per_second": 22.559,
+      "eval_steps_per_second": 0.713,
+      "step": 432
+    },
+    {
+      "epoch": 0.6171107994389902,
+      "grad_norm": 31.204018506373746,
+      "learning_rate": 1.923239539809505e-07,
+      "logits/chosen": -3.0,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -338.0,
+      "logps/rejected": -334.0,
+      "loss": 0.3323,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.1953125,
+      "rewards/margins": 2.15625,
+      "rewards/rejected": -3.359375,
+      "step": 440
+    },
+    {
+      "epoch": 0.6171107994389902,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -342.0,
+      "eval_loss": 0.37543419003486633,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -1.125,
+      "eval_rewards/margins": 2.171875,
+      "eval_rewards/rejected": -3.296875,
+      "eval_runtime": 66.2693,
+      "eval_samples_per_second": 22.439,
+      "eval_steps_per_second": 0.709,
+      "step": 440
+    },
+    {
+      "epoch": 0.6283309957924264,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -342.0,
+      "eval_loss": 0.3757575452327728,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -1.1953125,
+      "eval_rewards/margins": 2.171875,
+      "eval_rewards/rejected": -3.375,
+      "eval_runtime": 66.0335,
+      "eval_samples_per_second": 22.519,
+      "eval_steps_per_second": 0.712,
+      "step": 448
+    },
+    {
+      "epoch": 0.6311360448807855,
+      "grad_norm": 29.323680763100512,
+      "learning_rate": 1.8047581134353296e-07,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -2.984375,
+      "logps/chosen": -394.0,
+      "logps/rejected": -380.0,
+      "loss": 0.3768,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.4375,
+      "rewards/margins": 2.234375,
+      "rewards/rejected": -3.671875,
+      "step": 450
+    },
+    {
+      "epoch": 0.6395511921458625,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.3760261535644531,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -1.078125,
+      "eval_rewards/margins": 2.1875,
+      "eval_rewards/rejected": -3.265625,
+      "eval_runtime": 66.2078,
+      "eval_samples_per_second": 22.46,
+      "eval_steps_per_second": 0.71,
+      "step": 456
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 36.95205536065495,
+      "learning_rate": 1.687946364890877e-07,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -338.0,
+      "logps/rejected": -332.0,
+      "loss": 0.3637,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.2734375,
+      "rewards/margins": 2.40625,
+      "rewards/rejected": -3.6875,
+      "step": 460
+    },
+    {
+      "epoch": 0.6507713884992987,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.3759002089500427,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.0625,
+      "eval_rewards/margins": 2.21875,
+      "eval_rewards/rejected": -3.28125,
+      "eval_runtime": 65.6388,
+      "eval_samples_per_second": 22.654,
+      "eval_steps_per_second": 0.716,
+      "step": 464
+    },
+    {
+      "epoch": 0.6591865357643759,
+      "grad_norm": 50.750866736233036,
+      "learning_rate": 1.573084826736921e-07,
+      "logits/chosen": -2.984375,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -332.0,
+      "logps/rejected": -340.0,
+      "loss": 0.3901,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.484375,
+      "rewards/margins": 2.21875,
+      "rewards/rejected": -3.703125,
+      "step": 470
+    },
+    {
+      "epoch": 0.6619915848527349,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -346.0,
+      "eval_loss": 0.3759775161743164,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -1.4375,
+      "eval_rewards/margins": 2.109375,
+      "eval_rewards/rejected": -3.546875,
+      "eval_runtime": 66.2324,
+      "eval_samples_per_second": 22.451,
+      "eval_steps_per_second": 0.71,
+      "step": 472
+    },
+    {
+      "epoch": 0.6732117812061711,
+      "grad_norm": 46.86048650983821,
+      "learning_rate": 1.460449347951278e-07,
+      "logits/chosen": -2.875,
+      "logits/rejected": -3.0,
+      "logps/chosen": -328.0,
+      "logps/rejected": -324.0,
+      "loss": 0.3555,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.390625,
+      "rewards/margins": 2.453125,
+      "rewards/rejected": -3.84375,
+      "step": 480
+    },
+    {
+      "epoch": 0.6732117812061711,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -346.0,
+      "eval_loss": 0.3772374987602234,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -1.3671875,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.5,
+      "eval_runtime": 66.1888,
+      "eval_samples_per_second": 22.466,
+      "eval_steps_per_second": 0.71,
+      "step": 480
+    },
+    {
+      "epoch": 0.6844319775596073,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.37612324953079224,
+      "eval_rewards/accuracies": 0.8563829660415649,
+      "eval_rewards/chosen": -1.0859375,
+      "eval_rewards/margins": 2.171875,
+      "eval_rewards/rejected": -3.25,
+      "eval_runtime": 66.0573,
+      "eval_samples_per_second": 22.511,
+      "eval_steps_per_second": 0.712,
+      "step": 488
+    },
+    {
+      "epoch": 0.6872370266479664,
+      "grad_norm": 38.26875632825401,
+      "learning_rate": 1.3503104314558838e-07,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -382.0,
+      "logps/rejected": -350.0,
+      "loss": 0.373,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.40625,
+      "rewards/margins": 2.15625,
+      "rewards/rejected": -3.5625,
+      "step": 490
+    },
+    {
+      "epoch": 0.6956521739130435,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.37762168049812317,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -0.90625,
+      "eval_rewards/margins": 2.046875,
+      "eval_rewards/rejected": -2.953125,
+      "eval_runtime": 65.9608,
+      "eval_samples_per_second": 22.544,
+      "eval_steps_per_second": 0.713,
+      "step": 496
+    },
+    {
+      "epoch": 0.7012622720897616,
+      "grad_norm": 37.30046756155309,
+      "learning_rate": 1.2429325844828475e-07,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -336.0,
+      "logps/rejected": -328.0,
+      "loss": 0.3617,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.9296875,
+      "rewards/margins": 2.59375,
+      "rewards/rejected": -3.53125,
+      "step": 500
+    },
+    {
+      "epoch": 0.7068723702664796,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.3774646520614624,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -0.94921875,
+      "eval_rewards/margins": 2.0,
+      "eval_rewards/rejected": -2.953125,
+      "eval_runtime": 65.763,
+      "eval_samples_per_second": 22.612,
+      "eval_steps_per_second": 0.715,
+      "step": 504
+    },
+    {
+      "epoch": 0.7152875175315568,
+      "grad_norm": 28.616464108884514,
+      "learning_rate": 1.1385736833396248e-07,
+      "logits/chosen": -2.984375,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -392.0,
+      "logps/rejected": -338.0,
+      "loss": 0.3665,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.2578125,
+      "rewards/margins": 1.90625,
+      "rewards/rejected": -3.15625,
+      "step": 510
+    },
+    {
+      "epoch": 0.7180925666199158,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.3764929175376892,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -0.8359375,
+      "eval_rewards/margins": 2.0625,
+      "eval_rewards/rejected": -2.90625,
+      "eval_runtime": 65.6772,
+      "eval_samples_per_second": 22.641,
+      "eval_steps_per_second": 0.716,
+      "step": 512
+    },
+    {
+      "epoch": 0.729312762973352,
+      "grad_norm": 26.70960973383744,
+      "learning_rate": 1.0374843540988668e-07,
+      "logits/chosen": -2.984375,
+      "logits/rejected": -2.9375,
+      "logps/chosen": -314.0,
+      "logps/rejected": -318.0,
+      "loss": 0.3612,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.0546875,
+      "rewards/margins": 2.390625,
+      "rewards/rejected": -3.4375,
+      "step": 520
+    },
+    {
+      "epoch": 0.729312762973352,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.3756672441959381,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.9296875,
+      "eval_rewards/margins": 2.125,
+      "eval_rewards/rejected": -3.0625,
+      "eval_runtime": 66.0986,
+      "eval_samples_per_second": 22.497,
+      "eval_steps_per_second": 0.711,
+      "step": 520
+    },
+    {
+      "epoch": 0.7405329593267882,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3768278658390045,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.9375,
+      "eval_rewards/margins": 2.1875,
+      "eval_rewards/rejected": -3.109375,
+      "eval_runtime": 66.3604,
+      "eval_samples_per_second": 22.408,
+      "eval_steps_per_second": 0.708,
+      "step": 528
+    },
+    {
+      "epoch": 0.7433380084151473,
+      "grad_norm": 44.52616987508156,
+      "learning_rate": 9.39907370700287e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -328.0,
+      "logps/rejected": -320.0,
+      "loss": 0.3761,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.109375,
+      "rewards/margins": 2.1875,
+      "rewards/rejected": -3.28125,
+      "step": 530
+    },
+    {
+      "epoch": 0.7517531556802244,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.3774166703224182,
+      "eval_rewards/accuracies": 0.8457446694374084,
+      "eval_rewards/chosen": -0.9453125,
+      "eval_rewards/margins": 2.125,
+      "eval_rewards/rejected": -3.0625,
+      "eval_runtime": 66.0445,
+      "eval_samples_per_second": 22.515,
+      "eval_steps_per_second": 0.712,
+      "step": 536
+    },
+    {
+      "epoch": 0.7573632538569425,
+      "grad_norm": 31.39879813498721,
+      "learning_rate": 8.460770719100316e-08,
+      "logits/chosen": -3.0,
+      "logits/rejected": -3.0,
+      "logps/chosen": -326.0,
+      "logps/rejected": -346.0,
+      "loss": 0.3852,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.015625,
+      "rewards/margins": 2.046875,
+      "rewards/rejected": -3.0625,
+      "step": 540
+    },
+    {
+      "epoch": 0.7629733520336606,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.37610381841659546,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.94140625,
+      "eval_rewards/margins": 2.0625,
+      "eval_rewards/rejected": -3.0,
+      "eval_runtime": 66.8835,
+      "eval_samples_per_second": 22.233,
+      "eval_steps_per_second": 0.703,
+      "step": 544
+    },
+    {
+      "epoch": 0.7713884992987378,
+      "grad_norm": 33.163388614762034,
+      "learning_rate": 7.562187985377877e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -302.0,
+      "logps/rejected": -336.0,
+      "loss": 0.3887,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.0,
+      "rewards/margins": 2.234375,
+      "rewards/rejected": -3.234375,
+      "step": 550
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.3767978847026825,
+      "eval_rewards/accuracies": 0.8191489577293396,
+      "eval_rewards/chosen": -0.8828125,
+      "eval_rewards/margins": 2.03125,
+      "eval_rewards/rejected": -2.921875,
+      "eval_runtime": 66.2121,
+      "eval_samples_per_second": 22.458,
+      "eval_steps_per_second": 0.71,
+      "step": 552
+    },
+    {
+      "epoch": 0.7854137447405329,
+      "grad_norm": 33.17915364920084,
+      "learning_rate": 6.705483522631811e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -284.0,
+      "logps/rejected": -296.0,
+      "loss": 0.3653,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.2578125,
+      "rewards/margins": 1.953125,
+      "rewards/rejected": -3.21875,
+      "step": 560
+    },
+    {
+      "epoch": 0.7854137447405329,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.37570077180862427,
+      "eval_rewards/accuracies": 0.8244680762290955,
+      "eval_rewards/chosen": -0.84765625,
+      "eval_rewards/margins": 2.078125,
+      "eval_rewards/rejected": -2.921875,
+      "eval_runtime": 66.2859,
+      "eval_samples_per_second": 22.433,
+      "eval_steps_per_second": 0.709,
+      "step": 560
+    },
+    {
+      "epoch": 0.7966339410939691,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -332.0,
+      "eval_loss": 0.37514832615852356,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.76171875,
+      "eval_rewards/margins": 2.109375,
+      "eval_rewards/rejected": -2.875,
+      "eval_runtime": 66.2321,
+      "eval_samples_per_second": 22.451,
+      "eval_steps_per_second": 0.71,
+      "step": 568
+    },
+    {
+      "epoch": 0.7994389901823282,
+      "grad_norm": 39.45560582368654,
+      "learning_rate": 5.8927147737114546e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -322.0,
+      "logps/rejected": -306.0,
+      "loss": 0.3595,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.171875,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -3.34375,
+      "step": 570
+    },
+    {
+      "epoch": 0.8078541374474053,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -334.0,
+      "eval_loss": 0.3752020299434662,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.78125,
+      "eval_rewards/margins": 2.109375,
+      "eval_rewards/rejected": -2.890625,
+      "eval_runtime": 66.0782,
+      "eval_samples_per_second": 22.504,
+      "eval_steps_per_second": 0.711,
+      "step": 576
+    },
+    {
+      "epoch": 0.8134642356241234,
+      "grad_norm": 56.20015949598879,
+      "learning_rate": 5.125833666409107e-08,
+      "logits/chosen": -2.9375,
+      "logits/rejected": -3.0,
+      "logps/chosen": -316.0,
+      "logps/rejected": -304.0,
+      "loss": 0.3618,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.0078125,
+      "rewards/margins": 2.21875,
+      "rewards/rejected": -3.234375,
+      "step": 580
+    },
+    {
+      "epoch": 0.8190743338008415,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.3744948208332062,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -0.91015625,
+      "eval_rewards/margins": 2.09375,
+      "eval_rewards/rejected": -3.0,
+      "eval_runtime": 66.6042,
+      "eval_samples_per_second": 22.326,
+      "eval_steps_per_second": 0.706,
+      "step": 584
+    },
+    {
+      "epoch": 0.8274894810659187,
+      "grad_norm": 46.520579632902326,
+      "learning_rate": 4.4066819257526423e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -326.0,
+      "logps/rejected": -402.0,
+      "loss": 0.3668,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.953125,
+      "rewards/margins": 2.40625,
+      "rewards/rejected": -3.375,
+      "step": 590
+    },
+    {
+      "epoch": 0.8302945301542777,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.3740004003047943,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -0.921875,
+      "eval_rewards/margins": 2.09375,
+      "eval_rewards/rejected": -3.015625,
+      "eval_runtime": 66.3956,
+      "eval_samples_per_second": 22.396,
+      "eval_steps_per_second": 0.708,
+      "step": 592
+    },
+    {
+      "epoch": 0.8415147265077139,
+      "grad_norm": 47.468270807569716,
+      "learning_rate": 3.736986650958562e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -408.0,
+      "logps/rejected": -378.0,
+      "loss": 0.3709,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.72265625,
+      "rewards/margins": 2.921875,
+      "rewards/rejected": -3.640625,
+      "step": 600
+    },
+    {
+      "epoch": 0.8415147265077139,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.374103307723999,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -0.97265625,
+      "eval_rewards/margins": 2.0625,
+      "eval_rewards/rejected": -3.046875,
+      "eval_runtime": 66.1384,
+      "eval_samples_per_second": 22.483,
+      "eval_steps_per_second": 0.711,
+      "step": 600
+    },
+    {
+      "epoch": 0.85273492286115,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3734557628631592,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.015625,
+      "eval_rewards/margins": 2.078125,
+      "eval_rewards/rejected": -3.09375,
+      "eval_runtime": 66.2586,
+      "eval_samples_per_second": 22.442,
+      "eval_steps_per_second": 0.709,
+      "step": 608
+    },
+    {
+      "epoch": 0.8555399719495091,
+      "grad_norm": 56.20453228147611,
+      "learning_rate": 3.118356167668065e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -320.0,
+      "logps/rejected": -330.0,
+      "loss": 0.3574,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.015625,
+      "rewards/margins": 2.671875,
+      "rewards/rejected": -3.6875,
+      "step": 610
+    },
+    {
+      "epoch": 0.8639551192145862,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3729269802570343,
+      "eval_rewards/accuracies": 0.8297872543334961,
+      "eval_rewards/chosen": -1.0390625,
+      "eval_rewards/margins": 2.09375,
+      "eval_rewards/rejected": -3.125,
+      "eval_runtime": 66.4655,
+      "eval_samples_per_second": 22.372,
+      "eval_steps_per_second": 0.707,
+      "step": 616
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 40.32752366240338,
+      "learning_rate": 2.552276165427056e-08,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -368.0,
+      "logps/rejected": -394.0,
+      "loss": 0.3611,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.2421875,
+      "rewards/margins": 2.5,
+      "rewards/rejected": -3.734375,
+      "step": 620
+    },
+    {
+      "epoch": 0.8751753155680224,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3727641999721527,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.0625,
+      "eval_rewards/margins": 2.09375,
+      "eval_rewards/rejected": -3.15625,
+      "eval_runtime": 66.0542,
+      "eval_samples_per_second": 22.512,
+      "eval_steps_per_second": 0.712,
+      "step": 624
+    },
+    {
+      "epoch": 0.8835904628330996,
+      "grad_norm": 39.39615195808181,
+      "learning_rate": 2.040106129686356e-08,
+      "logits/chosen": -3.0,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -374.0,
+      "logps/rejected": -348.0,
+      "loss": 0.3413,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.953125,
+      "rewards/margins": 2.53125,
+      "rewards/rejected": -3.484375,
+      "step": 630
+    },
+    {
+      "epoch": 0.8863955119214586,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.3731161057949066,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.1015625,
+      "eval_rewards/margins": 2.09375,
+      "eval_rewards/rejected": -3.203125,
+      "eval_runtime": 66.117,
+      "eval_samples_per_second": 22.49,
+      "eval_steps_per_second": 0.711,
+      "step": 632
+    },
+    {
+      "epoch": 0.8976157082748948,
+      "grad_norm": 31.05579865660738,
+      "learning_rate": 1.583076076890963e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -360.0,
+      "logps/rejected": -328.0,
+      "loss": 0.3556,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.171875,
+      "rewards/margins": 2.21875,
+      "rewards/rejected": -3.390625,
+      "step": 640
+    },
+    {
+      "epoch": 0.8976157082748948,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.372738242149353,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.1015625,
+      "eval_rewards/margins": 2.109375,
+      "eval_rewards/rejected": -3.21875,
+      "eval_runtime": 66.4596,
+      "eval_samples_per_second": 22.374,
+      "eval_steps_per_second": 0.707,
+      "step": 640
+    },
+    {
+      "epoch": 0.908835904628331,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.37327107787132263,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.0625,
+      "eval_rewards/margins": 2.125,
+      "eval_rewards/rejected": -3.1875,
+      "eval_runtime": 67.9699,
+      "eval_samples_per_second": 21.877,
+      "eval_steps_per_second": 0.691,
+      "step": 648
+    },
+    {
+      "epoch": 0.9116409537166901,
+      "grad_norm": 42.559333930514235,
+      "learning_rate": 1.1822836004992343e-08,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -296.0,
+      "logps/rejected": -324.0,
+      "loss": 0.3569,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.4375,
+      "rewards/margins": 2.3125,
+      "rewards/rejected": -3.75,
+      "step": 650
+    },
+    {
+      "epoch": 0.9200561009817672,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3728487491607666,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.03125,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.171875,
+      "eval_runtime": 66.1242,
+      "eval_samples_per_second": 22.488,
+      "eval_steps_per_second": 0.711,
+      "step": 656
+    },
+    {
+      "epoch": 0.9256661991584852,
+      "grad_norm": 33.71718914979295,
+      "learning_rate": 8.386912350262566e-09,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -3.0,
+      "logps/chosen": -352.0,
+      "logps/rejected": -362.0,
+      "loss": 0.3563,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.2265625,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -3.265625,
+      "step": 660
+    },
+    {
+      "epoch": 0.9312762973352033,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.37276628613471985,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.015625,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.15625,
+      "eval_runtime": 66.0656,
+      "eval_samples_per_second": 22.508,
+      "eval_steps_per_second": 0.711,
+      "step": 664
+    },
+    {
+      "epoch": 0.9396914446002805,
+      "grad_norm": 52.307264892507675,
+      "learning_rate": 5.5312414444183276e-09,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -2.859375,
+      "logps/chosen": -354.0,
+      "logps/rejected": -370.0,
+      "loss": 0.3694,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.109375,
+      "rewards/margins": 2.3125,
+      "rewards/rejected": -3.421875,
+      "step": 670
+    },
+    {
+      "epoch": 0.9424964936886395,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3723788857460022,
+      "eval_rewards/accuracies": 0.8404255509376526,
+      "eval_rewards/chosen": -1.0078125,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.15625,
+      "eval_runtime": 65.8691,
+      "eval_samples_per_second": 22.575,
+      "eval_steps_per_second": 0.714,
+      "step": 672
+    },
+    {
+      "epoch": 0.9537166900420757,
+      "grad_norm": 39.5471805424214,
+      "learning_rate": 3.262681404746004e-09,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -368.0,
+      "logps/rejected": -368.0,
+      "loss": 0.3447,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.0546875,
+      "rewards/margins": 2.671875,
+      "rewards/rejected": -3.71875,
+      "step": 680
+    },
+    {
+      "epoch": 0.9537166900420757,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.37281739711761475,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.015625,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.15625,
+      "eval_runtime": 66.1705,
+      "eval_samples_per_second": 22.472,
+      "eval_steps_per_second": 0.71,
+      "step": 680
+    },
+    {
+      "epoch": 0.9649368863955119,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3726153075695038,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.0078125,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.15625,
+      "eval_runtime": 66.3119,
+      "eval_samples_per_second": 22.424,
+      "eval_steps_per_second": 0.709,
+      "step": 688
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 40.36229007754571,
+      "learning_rate": 1.5866803558146624e-09,
+      "logits/chosen": -2.984375,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -322.0,
+      "logps/rejected": -372.0,
+      "loss": 0.3766,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.359375,
+      "rewards/margins": 2.046875,
+      "rewards/rejected": -3.40625,
+      "step": 690
+    },
+    {
+      "epoch": 0.9761570827489481,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.3727646470069885,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.0078125,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.140625,
+      "eval_runtime": 65.8839,
+      "eval_samples_per_second": 22.57,
+      "eval_steps_per_second": 0.713,
+      "step": 696
+    },
+    {
+      "epoch": 0.9817671809256662,
+      "grad_norm": 41.008248288595254,
+      "learning_rate": 5.07263345378317e-10,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -346.0,
+      "logps/rejected": -358.0,
+      "loss": 0.3699,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.8984375,
+      "rewards/margins": 2.578125,
+      "rewards/rejected": -3.484375,
+      "step": 700
+    },
+    {
+      "epoch": 0.9873772791023843,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.372467964887619,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.015625,
+      "eval_rewards/margins": 2.125,
+      "eval_rewards/rejected": -3.140625,
+      "eval_runtime": 65.8027,
+      "eval_samples_per_second": 22.598,
+      "eval_steps_per_second": 0.714,
+      "step": 704
+    },
+    {
+      "epoch": 0.9957924263674615,
+      "grad_norm": 50.076560093112214,
+      "learning_rate": 2.7022677908467016e-11,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -394.0,
+      "logps/rejected": -354.0,
+      "loss": 0.3758,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.1015625,
+      "rewards/margins": 1.9296875,
+      "rewards/rejected": -3.03125,
+      "step": 710
+    },
+    {
+      "epoch": 0.9985974754558204,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -338.0,
+      "eval_loss": 0.37290096282958984,
+      "eval_rewards/accuracies": 0.835106372833252,
+      "eval_rewards/chosen": -1.0078125,
+      "eval_rewards/margins": 2.140625,
+      "eval_rewards/rejected": -3.140625,
+      "eval_runtime": 66.4035,
+      "eval_samples_per_second": 22.393,
+      "eval_steps_per_second": 0.708,
+      "step": 712
+    },
+    {
+      "epoch": 1.0,
+      "step": 713,
+      "total_flos": 0.0,
+      "train_loss": 0.4091535410406212,
+      "train_runtime": 30868.5922,
+      "train_samples_per_second": 1.477,
+      "train_steps_per_second": 0.023
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 713,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 8,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}