silviasapora
/

gemma-7b-silvia_cpo-basic_capibara-5e-5-025-v151

+---
+base_model: google/gemma-7b
+library_name: transformers
+model_name: gemma-7b-silvia_cpo-basic_capibara-5e-5-025-v151
+tags:
+- generated_from_trainer
+- trl
+- orpo
+licence: license
+---
+# Model Card for gemma-7b-silvia_cpo-basic_capibara-5e-5-025-v151
+This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="silviasapora/gemma-7b-silvia_cpo-basic_capibara-5e-5-025-v151", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/silvias/huggingface/runs/mw5gj0gs)
+This model was trained with ORPO, a method introduced in [ORPO: Monolithic Preference Optimization without Reference Model](https://huggingface.co/papers/2403.07691).
+### Framework versions
+- TRL: 0.16.0
+- Transformers: 4.50.3
+- Pytorch: 2.5.1
+- Datasets: 3.3.2
+- Tokenizers: 0.21.0
+## Citations
+Cite ORPO as:
+```bibtex
+@article{hong2024orpo,
+    title        = {{ORPO: Monolithic Preference Optimization without Reference Model}},
+    author       = {Jiwoo Hong and Noah Lee and James Thorne},
+    year         = 2024,
+    eprint       = {arXiv:2403.07691}
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.9814696485623005,
+    "total_flos": 0.0,
+    "train_loss": 62.26987236738205,
+    "train_runtime": 5592.1515,
+    "train_samples": 3130,
+    "train_samples_per_second": 2.239,
+    "train_steps_per_second": 0.034
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.9814696485623005,
+    "total_flos": 0.0,
+    "train_loss": 62.26987236738205,
+    "train_runtime": 5592.1515,
+    "train_samples": 3130,
+    "train_samples_per_second": 2.239,
+    "train_steps_per_second": 0.034
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,651 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.9814696485623005,
+  "eval_steps": 500,
+  "global_step": 192,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.10223642172523961,
+      "grad_norm": 827.7908935546875,
+      "learning_rate": 1.25e-05,
+      "log_odds_chosen": -4.91914176940918,
+      "log_odds_ratio": -7.912337303161621,
+      "logps/chosen": -17.909399032592773,
+      "logps/rejected": -12.991429328918457,
+      "loss": 404.4927,
+      "nll_loss": 10.663026809692383,
+      "rewards/accuracies": 0.40312498807907104,
+      "rewards/chosen": -4.477349758148193,
+      "rewards/margins": -1.2294929027557373,
+      "rewards/rejected": -3.2478573322296143,
+      "step": 5
+    },
+    {
+      "epoch": 0.20447284345047922,
+      "grad_norm": 538.9002685546875,
+      "learning_rate": 2.5e-05,
+      "log_odds_chosen": -1.99321711063385,
+      "log_odds_ratio": -5.780060291290283,
+      "logps/chosen": -15.17625617980957,
+      "logps/rejected": -13.184392929077148,
+      "loss": 342.9983,
+      "nll_loss": 9.274579048156738,
+      "rewards/accuracies": 0.4156250059604645,
+      "rewards/chosen": -3.7940640449523926,
+      "rewards/margins": -0.4979652762413025,
+      "rewards/rejected": -3.296098232269287,
+      "step": 10
+    },
+    {
+      "epoch": 0.30670926517571884,
+      "grad_norm": 1268.311279296875,
+      "learning_rate": 3.7500000000000003e-05,
+      "log_odds_chosen": -1.9389375448226929,
+      "log_odds_ratio": -5.051381587982178,
+      "logps/chosen": -12.37875747680664,
+      "logps/rejected": -10.439730644226074,
+      "loss": 271.8747,
+      "nll_loss": 7.234231472015381,
+      "rewards/accuracies": 0.484375,
+      "rewards/chosen": -3.09468936920166,
+      "rewards/margins": -0.4847566485404968,
+      "rewards/rejected": -2.6099326610565186,
+      "step": 15
+    },
+    {
+      "epoch": 0.40894568690095845,
+      "grad_norm": 500.36431884765625,
+      "learning_rate": 5e-05,
+      "log_odds_chosen": -0.3404741883277893,
+      "log_odds_ratio": -1.416075348854065,
+      "logps/chosen": -3.7283692359924316,
+      "logps/rejected": -3.374943494796753,
+      "loss": 108.1039,
+      "nll_loss": 3.0280256271362305,
+      "rewards/accuracies": 0.528124988079071,
+      "rewards/chosen": -0.9320923089981079,
+      "rewards/margins": -0.08835643529891968,
+      "rewards/rejected": -0.8437358736991882,
+      "step": 20
+    },
+    {
+      "epoch": 0.5111821086261981,
+      "grad_norm": 416.5755615234375,
+      "learning_rate": 4.989581840408562e-05,
+      "log_odds_chosen": 0.25642240047454834,
+      "log_odds_ratio": -0.655372142791748,
+      "logps/chosen": -1.5129865407943726,
+      "logps/rejected": -1.724565863609314,
+      "loss": 61.4784,
+      "nll_loss": 1.7581512928009033,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.37824663519859314,
+      "rewards/margins": 0.052894867956638336,
+      "rewards/rejected": -0.4311414659023285,
+      "step": 25
+    },
+    {
+      "epoch": 0.6134185303514377,
+      "grad_norm": 166.52938842773438,
+      "learning_rate": 4.9584141920736656e-05,
+      "log_odds_chosen": 0.1395658254623413,
+      "log_odds_ratio": -0.7378019094467163,
+      "logps/chosen": -1.480513334274292,
+      "logps/rejected": -1.599832534790039,
+      "loss": 59.0905,
+      "nll_loss": 1.6694732904434204,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.370128333568573,
+      "rewards/margins": 0.02982982061803341,
+      "rewards/rejected": -0.39995813369750977,
+      "step": 30
+    },
+    {
+      "epoch": 0.7156549520766773,
+      "grad_norm": 81.22210693359375,
+      "learning_rate": 4.9067568226228646e-05,
+      "log_odds_chosen": 0.23929011821746826,
+      "log_odds_ratio": -0.6636127233505249,
+      "logps/chosen": -1.3320153951644897,
+      "logps/rejected": -1.5101702213287354,
+      "loss": 52.0935,
+      "nll_loss": 1.4632833003997803,
+      "rewards/accuracies": 0.6343749761581421,
+      "rewards/chosen": -0.33300384879112244,
+      "rewards/margins": 0.04453865438699722,
+      "rewards/rejected": -0.37754255533218384,
+      "step": 35
+    },
+    {
+      "epoch": 0.8178913738019169,
+      "grad_norm": 102.73954010009766,
+      "learning_rate": 4.83504027183137e-05,
+      "log_odds_chosen": 0.3248418867588043,
+      "log_odds_ratio": -0.6250384449958801,
+      "logps/chosen": -1.249929666519165,
+      "logps/rejected": -1.4835537672042847,
+      "loss": 50.6161,
+      "nll_loss": 1.4245882034301758,
+      "rewards/accuracies": 0.684374988079071,
+      "rewards/chosen": -0.31248241662979126,
+      "rewards/margins": 0.05840602517127991,
+      "rewards/rejected": -0.37088844180107117,
+      "step": 40
+    },
+    {
+      "epoch": 0.9201277955271565,
+      "grad_norm": 103.2927474975586,
+      "learning_rate": 4.743862263276376e-05,
+      "log_odds_chosen": 0.30287498235702515,
+      "log_odds_ratio": -0.6419548988342285,
+      "logps/chosen": -1.2506297826766968,
+      "logps/rejected": -1.4725720882415771,
+      "loss": 49.8597,
+      "nll_loss": 1.3988924026489258,
+      "rewards/accuracies": 0.6781250238418579,
+      "rewards/chosen": -0.3126574456691742,
+      "rewards/margins": 0.0554855652153492,
+      "rewards/rejected": -0.3681430220603943,
+      "step": 45
+    },
+    {
+      "epoch": 1.040894568690096,
+      "grad_norm": 152.4938201904297,
+      "learning_rate": 4.6339827225933665e-05,
+      "log_odds_chosen": 0.39640626311302185,
+      "log_odds_ratio": -0.6115574836730957,
+      "logps/chosen": -1.1695352792739868,
+      "logps/rejected": -1.471874713897705,
+      "loss": 54.7336,
+      "nll_loss": 1.3199635744094849,
+      "rewards/accuracies": 0.6935483813285828,
+      "rewards/chosen": -0.2923838198184967,
+      "rewards/margins": 0.07558488100767136,
+      "rewards/rejected": -0.36796867847442627,
+      "step": 50
+    },
+    {
+      "epoch": 1.1431309904153355,
+      "grad_norm": 89.43785858154297,
+      "learning_rate": 4.506317443854877e-05,
+      "log_odds_chosen": 0.5089691877365112,
+      "log_odds_ratio": -0.5568146705627441,
+      "logps/chosen": -1.0600959062576294,
+      "logps/rejected": -1.4196648597717285,
+      "loss": 43.6744,
+      "nll_loss": 1.2228777408599854,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.26502397656440735,
+      "rewards/margins": 0.08989225327968597,
+      "rewards/rejected": -0.35491621494293213,
+      "step": 55
+    },
+    {
+      "epoch": 1.2453674121405751,
+      "grad_norm": 87.75115203857422,
+      "learning_rate": 4.361930456859455e-05,
+      "log_odds_chosen": 0.7825835943222046,
+      "log_odds_ratio": -0.47958317399024963,
+      "logps/chosen": -0.9152556657791138,
+      "logps/rejected": -1.431404948234558,
+      "loss": 38.5085,
+      "nll_loss": 1.072222352027893,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -0.22881391644477844,
+      "rewards/margins": 0.12903733551502228,
+      "rewards/rejected": -0.3578512370586395,
+      "step": 60
+    },
+    {
+      "epoch": 1.3476038338658147,
+      "grad_norm": 184.32460021972656,
+      "learning_rate": 4.202025158945856e-05,
+      "log_odds_chosen": 0.6628133654594421,
+      "log_odds_ratio": -0.5079701542854309,
+      "logps/chosen": -0.9785585403442383,
+      "logps/rejected": -1.419032335281372,
+      "loss": 40.1897,
+      "nll_loss": 1.1202460527420044,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.24463963508605957,
+      "rewards/margins": 0.11011841148138046,
+      "rewards/rejected": -0.354758083820343,
+      "step": 65
+    },
+    {
+      "epoch": 1.4498402555910543,
+      "grad_norm": 270.92669677734375,
+      "learning_rate": 4.0279342852446234e-05,
+      "log_odds_chosen": 0.6627331972122192,
+      "log_odds_ratio": -0.529289722442627,
+      "logps/chosen": -0.9792484045028687,
+      "logps/rejected": -1.4207617044448853,
+      "loss": 39.7387,
+      "nll_loss": 1.1052920818328857,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.24481210112571716,
+      "rewards/margins": 0.11037830263376236,
+      "rewards/rejected": -0.3551904261112213,
+      "step": 70
+    },
+    {
+      "epoch": 1.552076677316294,
+      "grad_norm": 75.13140869140625,
+      "learning_rate": 3.8411088009602646e-05,
+      "log_odds_chosen": 0.7180580496788025,
+      "log_odds_ratio": -0.49540311098098755,
+      "logps/chosen": -0.9218428730964661,
+      "logps/rejected": -1.3873802423477173,
+      "loss": 38.359,
+      "nll_loss": 1.0657460689544678,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.23046071827411652,
+      "rewards/margins": 0.11638432741165161,
+      "rewards/rejected": -0.3468450605869293,
+      "step": 75
+    },
+    {
+      "epoch": 1.6543130990415336,
+      "grad_norm": 76.11426544189453,
+      "learning_rate": 3.6431058082615964e-05,
+      "log_odds_chosen": 0.6318256258964539,
+      "log_odds_ratio": -0.5325360298156738,
+      "logps/chosen": -0.922771155834198,
+      "logps/rejected": -1.320297360420227,
+      "loss": 38.8799,
+      "nll_loss": 1.0614503622055054,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.2306927889585495,
+      "rewards/margins": 0.09938153624534607,
+      "rewards/rejected": -0.33007434010505676,
+      "step": 80
+    },
+    {
+      "epoch": 1.7565495207667732,
+      "grad_norm": 87.10155487060547,
+      "learning_rate": 3.435575568570633e-05,
+      "log_odds_chosen": 0.7393198013305664,
+      "log_odds_ratio": -0.5058027505874634,
+      "logps/chosen": -0.8932069540023804,
+      "logps/rejected": -1.3613816499710083,
+      "loss": 38.9466,
+      "nll_loss": 1.0541436672210693,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -0.2233017385005951,
+      "rewards/margins": 0.117043636739254,
+      "rewards/rejected": -0.3403454124927521,
+      "step": 85
+    },
+    {
+      "epoch": 1.8587859424920128,
+      "grad_norm": 116.91316223144531,
+      "learning_rate": 3.220247748413094e-05,
+      "log_odds_chosen": 0.7619136571884155,
+      "log_odds_ratio": -0.5002596974372864,
+      "logps/chosen": -0.9479422569274902,
+      "logps/rejected": -1.4273831844329834,
+      "loss": 38.4031,
+      "nll_loss": 1.0556285381317139,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -0.23698556423187256,
+      "rewards/margins": 0.1198602169752121,
+      "rewards/rejected": -0.35684579610824585,
+      "step": 90
+    },
+    {
+      "epoch": 1.9610223642172524,
+      "grad_norm": 103.88111877441406,
+      "learning_rate": 2.9989170034648823e-05,
+      "log_odds_chosen": 0.6734960079193115,
+      "log_odds_ratio": -0.5330161452293396,
+      "logps/chosen": -0.8996769189834595,
+      "logps/rejected": -1.3381158113479614,
+      "loss": 38.0074,
+      "nll_loss": 1.03584623336792,
+      "rewards/accuracies": 0.7718750238418579,
+      "rewards/chosen": -0.22491922974586487,
+      "rewards/margins": 0.1096097081899643,
+      "rewards/rejected": -0.33452895283699036,
+      "step": 95
+    },
+    {
+      "epoch": 2.081789137380192,
+      "grad_norm": 93.64875030517578,
+      "learning_rate": 2.7734280209446865e-05,
+      "log_odds_chosen": 1.0058292150497437,
+      "log_odds_ratio": -0.42482826113700867,
+      "logps/chosen": -0.7912481427192688,
+      "logps/rejected": -1.4134339094161987,
+      "loss": 39.7125,
+      "nll_loss": 0.9234015345573425,
+      "rewards/accuracies": 0.8602150678634644,
+      "rewards/chosen": -0.1978120356798172,
+      "rewards/margins": 0.15554644167423248,
+      "rewards/rejected": -0.3533584773540497,
+      "step": 100
+    },
+    {
+      "epoch": 2.1840255591054314,
+      "grad_norm": 54.99567794799805,
+      "learning_rate": 2.5456601450173125e-05,
+      "log_odds_chosen": 1.354565978050232,
+      "log_odds_ratio": -0.32823148369789124,
+      "logps/chosen": -0.7432836890220642,
+      "logps/rejected": -1.5525643825531006,
+      "loss": 31.9032,
+      "nll_loss": 0.8803617358207703,
+      "rewards/accuracies": 0.903124988079071,
+      "rewards/chosen": -0.18582092225551605,
+      "rewards/margins": 0.2023201882839203,
+      "rewards/rejected": -0.38814109563827515,
+      "step": 105
+    },
+    {
+      "epoch": 2.286261980830671,
+      "grad_norm": 79.57364654541016,
+      "learning_rate": 2.3175117133477313e-05,
+      "log_odds_chosen": 1.357545018196106,
+      "log_odds_ratio": -0.339216947555542,
+      "logps/chosen": -0.7088838815689087,
+      "logps/rejected": -1.5366592407226562,
+      "loss": 31.0042,
+      "nll_loss": 0.8524471521377563,
+      "rewards/accuracies": 0.909375011920929,
+      "rewards/chosen": -0.17722097039222717,
+      "rewards/margins": 0.2069438397884369,
+      "rewards/rejected": -0.38416481018066406,
+      "step": 110
+    },
+    {
+      "epoch": 2.3884984025559106,
+      "grad_norm": 69.78687286376953,
+      "learning_rate": 2.0908842353532803e-05,
+      "log_odds_chosen": 1.4747217893600464,
+      "log_odds_ratio": -0.3158169388771057,
+      "logps/chosen": -0.6909688711166382,
+      "logps/rejected": -1.5954649448394775,
+      "loss": 30.9753,
+      "nll_loss": 0.8266602754592896,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.17274221777915955,
+      "rewards/margins": 0.22612404823303223,
+      "rewards/rejected": -0.3988662362098694,
+      "step": 115
+    },
+    {
+      "epoch": 2.4907348242811502,
+      "grad_norm": 42.07189178466797,
+      "learning_rate": 1.867666544020798e-05,
+      "log_odds_chosen": 1.5207545757293701,
+      "log_odds_ratio": -0.30957141518592834,
+      "logps/chosen": -0.7246582508087158,
+      "logps/rejected": -1.694667100906372,
+      "loss": 31.3816,
+      "nll_loss": 0.8578312993049622,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.18116456270217896,
+      "rewards/margins": 0.24250221252441406,
+      "rewards/rejected": -0.423666775226593,
+      "step": 120
+    },
+    {
+      "epoch": 2.59297124600639,
+      "grad_norm": 79.26730346679688,
+      "learning_rate": 1.6497190533758348e-05,
+      "log_odds_chosen": 1.571445107460022,
+      "log_odds_ratio": -0.2881600260734558,
+      "logps/chosen": -0.7087723016738892,
+      "logps/rejected": -1.6907808780670166,
+      "loss": 32.1674,
+      "nll_loss": 0.8415018320083618,
+      "rewards/accuracies": 0.9281250238418579,
+      "rewards/chosen": -0.1771930754184723,
+      "rewards/margins": 0.24550211429595947,
+      "rewards/rejected": -0.42269521951675415,
+      "step": 125
+    },
+    {
+      "epoch": 2.6952076677316295,
+      "grad_norm": 48.99087142944336,
+      "learning_rate": 1.4388582528104628e-05,
+      "log_odds_chosen": 1.4256895780563354,
+      "log_odds_ratio": -0.3456164300441742,
+      "logps/chosen": -0.6957945823669434,
+      "logps/rejected": -1.5854990482330322,
+      "loss": 30.7822,
+      "nll_loss": 0.8388240933418274,
+      "rewards/accuracies": 0.878125011920929,
+      "rewards/chosen": -0.17394864559173584,
+      "rewards/margins": 0.22242608666419983,
+      "rewards/rejected": -0.39637476205825806,
+      "step": 130
+    },
+    {
+      "epoch": 2.797444089456869,
+      "grad_norm": 45.743141174316406,
+      "learning_rate": 1.2368415675021768e-05,
+      "log_odds_chosen": 1.6803510189056396,
+      "log_odds_ratio": -0.29377657175064087,
+      "logps/chosen": -0.6751910448074341,
+      "logps/rejected": -1.7030166387557983,
+      "loss": 29.4657,
+      "nll_loss": 0.8158040046691895,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.16879776120185852,
+      "rewards/margins": 0.2569563686847687,
+      "rewards/rejected": -0.4257541596889496,
+      "step": 135
+    },
+    {
+      "epoch": 2.8996805111821087,
+      "grad_norm": 45.214969635009766,
+      "learning_rate": 1.0453527111051184e-05,
+      "log_odds_chosen": 1.5122963190078735,
+      "log_odds_ratio": -0.2940905690193176,
+      "logps/chosen": -0.6969622373580933,
+      "logps/rejected": -1.6159965991973877,
+      "loss": 31.0349,
+      "nll_loss": 0.8314476013183594,
+      "rewards/accuracies": 0.934374988079071,
+      "rewards/chosen": -0.17424055933952332,
+      "rewards/margins": 0.22975853085517883,
+      "rewards/rejected": -0.4039991497993469,
+      "step": 140
+    },
+    {
+      "epoch": 3.020447284345048,
+      "grad_norm": 74.37804412841797,
+      "learning_rate": 8.659876527920277e-06,
+      "log_odds_chosen": 1.7624249458312988,
+      "log_odds_ratio": -0.2721032202243805,
+      "logps/chosen": -0.6561669707298279,
+      "logps/rejected": -1.740464687347412,
+      "loss": 34.4684,
+      "nll_loss": 0.7908505797386169,
+      "rewards/accuracies": 0.9408602118492126,
+      "rewards/chosen": -0.16404174268245697,
+      "rewards/margins": 0.27107441425323486,
+      "rewards/rejected": -0.435116171836853,
+      "step": 145
+    },
+    {
+      "epoch": 3.1226837060702874,
+      "grad_norm": 45.229400634765625,
+      "learning_rate": 7.002413156050108e-06,
+      "log_odds_chosen": 2.416283130645752,
+      "log_odds_ratio": -0.1788024604320526,
+      "logps/chosen": -0.5219112634658813,
+      "logps/rejected": -1.9957574605941772,
+      "loss": 27.9227,
+      "nll_loss": 0.6778407692909241,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -0.13047781586647034,
+      "rewards/margins": 0.3684615194797516,
+      "rewards/rejected": -0.4989393651485443,
+      "step": 150
+    },
+    {
+      "epoch": 3.224920127795527,
+      "grad_norm": 57.19989776611328,
+      "learning_rate": 5.4949511697807765e-06,
+      "log_odds_chosen": 2.6506989002227783,
+      "log_odds_ratio": -0.15020069479942322,
+      "logps/chosen": -0.5697158575057983,
+      "logps/rejected": -2.3274993896484375,
+      "loss": 27.0184,
+      "nll_loss": 0.6888783574104309,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -0.14242896437644958,
+      "rewards/margins": 0.439445823431015,
+      "rewards/rejected": -0.5818748474121094,
+      "step": 155
+    },
+    {
+      "epoch": 3.3271565495207667,
+      "grad_norm": 59.800697326660156,
+      "learning_rate": 4.150054552753055e-06,
+      "log_odds_chosen": 2.5286622047424316,
+      "log_odds_ratio": -0.19968460500240326,
+      "logps/chosen": -0.5568191409111023,
+      "logps/rejected": -2.1876730918884277,
+      "loss": 27.8054,
+      "nll_loss": 0.6883557438850403,
+      "rewards/accuracies": 0.9468749761581421,
+      "rewards/chosen": -0.13920478522777557,
+      "rewards/margins": 0.40771350264549255,
+      "rewards/rejected": -0.5469182729721069,
+      "step": 160
+    },
+    {
+      "epoch": 3.4293929712460063,
+      "grad_norm": 54.28583908081055,
+      "learning_rate": 2.978932383039093e-06,
+      "log_odds_chosen": 2.5673203468322754,
+      "log_odds_ratio": -0.18180711567401886,
+      "logps/chosen": -0.5963090062141418,
+      "logps/rejected": -2.295097589492798,
+      "loss": 26.8584,
+      "nll_loss": 0.737380862236023,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.14907725155353546,
+      "rewards/margins": 0.4246971607208252,
+      "rewards/rejected": -0.5737743973731995,
+      "step": 165
+    },
+    {
+      "epoch": 3.531629392971246,
+      "grad_norm": 55.28144836425781,
+      "learning_rate": 1.9913454107710173e-06,
+      "log_odds_chosen": 2.435741901397705,
+      "log_odds_ratio": -0.20390479266643524,
+      "logps/chosen": -0.5668953061103821,
+      "logps/rejected": -2.1278016567230225,
+      "loss": 27.9555,
+      "nll_loss": 0.6951500177383423,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.14172382652759552,
+      "rewards/margins": 0.3902266025543213,
+      "rewards/rejected": -0.5319504141807556,
+      "step": 170
+    },
+    {
+      "epoch": 3.6338658146964855,
+      "grad_norm": 46.94998550415039,
+      "learning_rate": 1.1955247068988261e-06,
+      "log_odds_chosen": 2.725480556488037,
+      "log_odds_ratio": -0.15135148167610168,
+      "logps/chosen": -0.5273882150650024,
+      "logps/rejected": -2.2832539081573486,
+      "loss": 28.734,
+      "nll_loss": 0.6737874746322632,
+      "rewards/accuracies": 0.965624988079071,
+      "rewards/chosen": -0.1318470537662506,
+      "rewards/margins": 0.43896645307540894,
+      "rewards/rejected": -0.5708134770393372,
+      "step": 175
+    },
+    {
+      "epoch": 3.736102236421725,
+      "grad_norm": 66.62850189208984,
+      "learning_rate": 5.981030611018234e-07,
+      "log_odds_chosen": 2.5903310775756836,
+      "log_odds_ratio": -0.15854457020759583,
+      "logps/chosen": -0.5564672946929932,
+      "logps/rejected": -2.2155492305755615,
+      "loss": 25.0194,
+      "nll_loss": 0.684872031211853,
+      "rewards/accuracies": 0.9781249761581421,
+      "rewards/chosen": -0.1391168236732483,
+      "rewards/margins": 0.4147705137729645,
+      "rewards/rejected": -0.5538873076438904,
+      "step": 180
+    },
+    {
+      "epoch": 3.8383386581469647,
+      "grad_norm": 50.985652923583984,
+      "learning_rate": 2.0405970061943002e-07,
+      "log_odds_chosen": 2.7051525115966797,
+      "log_odds_ratio": -0.16894596815109253,
+      "logps/chosen": -0.543402910232544,
+      "logps/rejected": -2.2726523876190186,
+      "loss": 30.0762,
+      "nll_loss": 0.6836854219436646,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.135850727558136,
+      "rewards/margins": 0.43231239914894104,
+      "rewards/rejected": -0.5681630969047546,
+      "step": 185
+    },
+    {
+      "epoch": 3.9405750798722043,
+      "grad_norm": 50.59651565551758,
+      "learning_rate": 1.6678790744015238e-08,
+      "log_odds_chosen": 2.563751697540283,
+      "log_odds_ratio": -0.16612394154071808,
+      "logps/chosen": -0.5317026972770691,
+      "logps/rejected": -2.1680614948272705,
+      "loss": 25.6433,
+      "nll_loss": 0.6562982797622681,
+      "rewards/accuracies": 0.965624988079071,
+      "rewards/chosen": -0.13292567431926727,
+      "rewards/margins": 0.4090896546840668,
+      "rewards/rejected": -0.5420153737068176,
+      "step": 190
+    },
+    {
+      "epoch": 3.9814696485623005,
+      "step": 192,
+      "total_flos": 0.0,
+      "train_loss": 62.26987236738205,
+      "train_runtime": 5592.1515,
+      "train_samples_per_second": 2.239,
+      "train_steps_per_second": 0.034
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 192,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}