Model save

Browse files

Files changed (11) hide show

README.md +67 -67
all_results.json +15 -15
eval_results.json +12 -12
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jan06_09-35-07_babel-5-3/events.out.tfevents.1704551863.babel-5-3.1782546.0 +3 -0
runs/Jan06_09-35-07_babel-5-3/events.out.tfevents.1704626180.babel-5-3.1782546.1 +3 -0
train_results.json +3 -3
trainer_state.json +0 -0
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6013
-- Rewards/chosen: -1.9595
-- Rewards/rejected: -8.0100
-- Rewards/accuracies: 0.8120
-- Rewards/margins: 6.0505
-- Logps/rejected: -356.2374
-- Logps/chosen: -267.2756
-- Logits/rejected: -2.8085
-- Logits/chosen: -2.7462
 ## Model description
@@ -59,64 +59,64 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5613        | 0.05  | 100  | 0.5542          | 0.4616         | 0.0165           | 0.7380             | 0.4451          | -275.9723      | -243.0639    | -2.9495         | -2.9048       |
-| 0.4215        | 0.1   | 200  | 0.4627          | 0.4975         | -0.6989          | 0.7840             | 1.1965          | -283.1268      | -242.7047    | -2.9388         | -2.8915       |
-| 0.4508        | 0.15  | 300  | 0.4707          | 0.4510         | -1.1860          | 0.7840             | 1.6370          | -287.9977      | -243.1706    | -2.9512         | -2.9006       |
-| 0.5348        | 0.21  | 400  | 0.4709          | 0.3351         | -1.7399          | 0.8040             | 2.0750          | -293.5365      | -244.3292    | -3.0053         | -2.9561       |
-| 0.4742        | 0.26  | 500  | 0.5065          | 0.3952         | -1.7944          | 0.8220             | 2.1896          | -294.0814      | -243.7279    | -3.1011         | -3.0500       |
-| 0.6062        | 0.31  | 600  | 0.4503          | 0.4052         | -1.9035          | 0.7980             | 2.3087          | -295.1721      | -243.6278    | -3.0394         | -2.9736       |
-| 0.4228        | 0.36  | 700  | 0.5026          | -0.0483        | -2.6359          | 0.8200             | 2.5877          | -302.4969      | -248.1629    | -3.0659         | -2.9973       |
-| 0.5396        | 0.41  | 800  | 0.4615          | 0.5120         | -2.0322          | 0.8060             | 2.5442          | -296.4592      | -242.5603    | -2.9105         | -2.8560       |
-| 0.5377        | 0.46  | 900  | 0.4913          | 0.5025         | -1.9568          | 0.7960             | 2.4593          | -295.7052      | -242.6552    | -2.9651         | -2.9045       |
-| 0.4886        | 0.52  | 1000 | 0.4495          | 0.0867         | -2.7909          | 0.8060             | 2.8776          | -304.0464      | -246.8128    | -2.9735         | -2.8935       |
-| 0.4447        | 0.57  | 1100 | 0.4398          | 0.3296         | -2.4020          | 0.8100             | 2.7316          | -300.1573      | -244.3844    | -2.8707         | -2.7943       |
-| 0.4971        | 0.62  | 1200 | 0.4412          | 0.5074         | -2.2162          | 0.7940             | 2.7236          | -298.2993      | -242.6058    | -2.8602         | -2.7825       |
-| 0.5218        | 0.67  | 1300 | 0.4986          | 0.4726         | -2.3083          | 0.7960             | 2.7809          | -299.2201      | -242.9541    | -2.9537         | -2.8866       |
-| 0.6129        | 0.72  | 1400 | 0.4818          | 0.5578         | -2.2246          | 0.8080             | 2.7824          | -298.3839      | -242.1022    | -3.0072         | -2.9438       |
-| 0.3862        | 0.77  | 1500 | 0.4689          | 0.3254         | -2.6525          | 0.8140             | 2.9779          | -302.6622      | -244.4263    | -2.8976         | -2.8354       |
-| 0.4186        | 0.83  | 1600 | 0.4497          | 0.3061         | -2.9514          | 0.8040             | 3.2575          | -305.6511      | -244.6188    | -2.9207         | -2.8589       |
-| 0.4765        | 0.88  | 1700 | 0.4296          | 0.3788         | -2.6225          | 0.8060             | 3.0012          | -302.3619      | -243.8926    | -2.9836         | -2.9241       |
-| 0.4783        | 0.93  | 1800 | 0.4422          | 0.0944         | -2.9868          | 0.8040             | 3.0812          | -306.0055      | -246.7358    | -2.9534         | -2.8865       |
-| 0.465         | 0.98  | 1900 | 0.4434          | 0.5028         | -2.3326          | 0.7960             | 2.8354          | -299.4631      | -242.6521    | -2.9355         | -2.8713       |
-| 0.0921        | 1.03  | 2000 | 0.4447          | 0.1567         | -3.4476          | 0.8120             | 3.6043          | -310.6131      | -246.1128    | -2.8519         | -2.7858       |
-| 0.0776        | 1.08  | 2100 | 0.4776          | 0.0909         | -3.9422          | 0.8140             | 4.0330          | -315.5593      | -246.7717    | -2.8412         | -2.7763       |
-| 0.0679        | 1.14  | 2200 | 0.4770          | -0.6731        | -4.8208          | 0.8240             | 4.1477          | -324.3449      | -254.4110    | -2.8085         | -2.7446       |
-| 0.0696        | 1.19  | 2300 | 0.4886          | -0.0248        | -4.1796          | 0.8160             | 4.1548          | -317.9334      | -247.9280    | -2.8622         | -2.8014       |
-| 0.1026        | 1.24  | 2400 | 0.4862          | 0.1088         | -3.8957          | 0.8160             | 4.0044          | -315.0940      | -246.5922    | -2.8702         | -2.8103       |
-| 0.104         | 1.29  | 2500 | 0.5141          | -0.6043        | -5.0727          | 0.8080             | 4.4684          | -326.8640      | -253.7228    | -2.8105         | -2.7535       |
-| 0.0728        | 1.34  | 2600 | 0.5166          | -0.5809        | -4.9937          | 0.8080             | 4.4128          | -326.0744      | -253.4896    | -2.8659         | -2.8016       |
-| 0.0844        | 1.39  | 2700 | 0.4835          | -0.6211        | -4.6437          | 0.8160             | 4.0226          | -322.5744      | -253.8915    | -2.8901         | -2.8305       |
-| 0.0733        | 1.45  | 2800 | 0.4738          | -0.1863        | -4.1760          | 0.8120             | 3.9897          | -317.8976      | -249.5429    | -2.9311         | -2.8814       |
-| 0.1837        | 1.5   | 2900 | 0.4764          | -0.0201        | -4.2761          | 0.8060             | 4.2560          | -318.8984      | -247.8809    | -2.9295         | -2.8720       |
-| 0.2113        | 1.55  | 3000 | 0.4709          | -0.0570        | -3.9772          | 0.8080             | 3.9202          | -315.9093      | -248.2498    | -2.8978         | -2.8435       |
-| 0.1858        | 1.6   | 3100 | 0.4769          | -0.1959        | -4.2238          | 0.7960             | 4.0278          | -318.3751      | -249.6395    | -2.9043         | -2.8498       |
-| 0.095         | 1.65  | 3200 | 0.4939          | -0.3083        | -4.3033          | 0.8120             | 3.9950          | -319.1705      | -250.7627    | -2.9288         | -2.8688       |
-| 0.1147        | 1.7   | 3300 | 0.4897          | -0.4599        | -4.7081          | 0.8080             | 4.2482          | -323.2183      | -252.2793    | -2.9112         | -2.8484       |
-| 0.1677        | 1.76  | 3400 | 0.4930          | -0.7465        | -5.1191          | 0.8200             | 4.3726          | -327.3288      | -255.1453    | -2.8408         | -2.7809       |
-| 0.0581        | 1.81  | 3500 | 0.4859          | -0.2916        | -4.5176          | 0.8180             | 4.2259          | -321.3130      | -250.5966    | -2.8749         | -2.8191       |
-| 0.053         | 1.86  | 3600 | 0.4978          | -0.6092        | -5.0514          | 0.8220             | 4.4422          | -326.6519      | -253.7722    | -2.8885         | -2.8300       |
-| 0.0603        | 1.91  | 3700 | 0.4830          | -0.7539        | -5.0723          | 0.8060             | 4.3184          | -326.8602      | -255.2187    | -2.8710         | -2.8075       |
-| 0.1269        | 1.96  | 3800 | 0.4793          | -0.4331        | -4.5194          | 0.8160             | 4.0863          | -321.3315      | -252.0114    | -2.9121         | -2.8554       |
-| 0.0191        | 2.01  | 3900 | 0.4803          | -0.4886        | -4.9886          | 0.8160             | 4.5000          | -326.0231      | -252.5659    | -2.8857         | -2.8246       |
-| 0.0168        | 2.07  | 4000 | 0.5259          | -1.0235        | -6.1251          | 0.8060             | 5.1016          | -337.3882      | -257.9146    | -2.8419         | -2.7775       |
-| 0.0114        | 2.12  | 4100 | 0.5714          | -1.5737        | -7.0255          | 0.8140             | 5.4519          | -346.3929      | -263.4171    | -2.8249         | -2.7582       |
-| 0.0114        | 2.17  | 4200 | 0.5547          | -1.8288        | -7.2840          | 0.8020             | 5.4552          | -348.9774      | -265.9677    | -2.8102         | -2.7409       |
-| 0.0482        | 2.22  | 4300 | 0.5437          | -1.1582        | -6.4741          | 0.8140             | 5.3159          | -340.8786      | -259.2626    | -2.8513         | -2.7874       |
-| 0.0172        | 2.27  | 4400 | 0.5489          | -1.5961        | -7.1623          | 0.8100             | 5.5662          | -347.7602      | -263.6409    | -2.8474         | -2.7836       |
-| 0.1044        | 2.32  | 4500 | 0.5818          | -1.8548        | -7.7495          | 0.8140             | 5.8947          | -353.6325      | -266.2277    | -2.8482         | -2.7839       |
-| 0.012         | 2.37  | 4600 | 0.5813          | -1.6912        | -7.5587          | 0.8160             | 5.8675          | -351.7242      | -264.5919    | -2.8512         | -2.7866       |
-| 0.0122        | 2.43  | 4700 | 0.6052          | -2.2384        | -8.3688          | 0.8060             | 6.1304          | -359.8252      | -270.0639    | -2.8210         | -2.7558       |
-| 0.0636        | 2.48  | 4800 | 0.5867          | -1.8483        | -7.7813          | 0.8140             | 5.9330          | -353.9502      | -266.1630    | -2.8455         | -2.7797       |
-| 0.0125        | 2.53  | 4900 | 0.5878          | -1.9082        | -7.7997          | 0.8140             | 5.8915          | -354.1346      | -266.7619    | -2.8342         | -2.7687       |
-| 0.0105        | 2.58  | 5000 | 0.5969          | -2.1624        | -8.2116          | 0.8120             | 6.0492          | -358.2536      | -269.3045    | -2.8144         | -2.7498       |
-| 0.0207        | 2.63  | 5100 | 0.6008          | -2.1674        | -8.2218          | 0.8120             | 6.0544          | -358.3557      | -269.3546    | -2.8197         | -2.7557       |
-| 0.0103        | 2.68  | 5200 | 0.6214          | -2.3910        | -8.6148          | 0.8060             | 6.2238          | -362.2856      | -271.5901    | -2.8181         | -2.7546       |
-| 0.0035        | 2.74  | 5300 | 0.6090          | -2.3006        | -8.4330          | 0.8120             | 6.1324          | -360.4677      | -270.6860    | -2.8048         | -2.7436       |
-| 0.0145        | 2.79  | 5400 | 0.6056          | -2.1076        | -8.1956          | 0.8120             | 6.0880          | -358.0930      | -268.7557    | -2.8059         | -2.7451       |
-| 0.0115        | 2.84  | 5500 | 0.5965          | -2.0098        | -7.9907          | 0.8160             | 5.9809          | -356.0446      | -267.7783    | -2.8139         | -2.7522       |
-| 0.0321        | 2.89  | 5600 | 0.6051          | -2.0432        | -8.1034          | 0.8080             | 6.0602          | -357.1714      | -268.1118    | -2.8136         | -2.7510       |
-| 0.0087        | 2.94  | 5700 | 0.6041          | -2.0226        | -8.0892          | 0.8140             | 6.0666          | -357.0298      | -267.9061    | -2.8100         | -2.7475       |
-| 0.0057        | 2.99  | 5800 | 0.6031          | -1.9575        | -8.0080          | 0.8140             | 6.0505          | -356.2176      | -267.2556    | -2.8082         | -2.7457       |
 ### Framework versions

 This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4134
+- Rewards/chosen: -1.1629
+- Rewards/rejected: -10.3565
+- Rewards/accuracies: 0.8680
+- Rewards/margins: 9.1936
+- Logps/rejected: -329.2987
+- Logps/chosen: -259.4434
+- Logits/rejected: -2.7296
+- Logits/chosen: -2.6963
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5849        | 0.05  | 100  | 0.5763          | 0.4134         | 0.0482           | 0.7320             | 0.3652          | -225.2518      | -243.6803    | -2.9389         | -2.9064       |
+| 0.3703        | 0.1   | 200  | 0.4118          | 0.2900         | -1.1319          | 0.7900             | 1.4219          | -237.0526      | -244.9145    | -2.9372         | -2.8993       |
+| 0.4041        | 0.15  | 300  | 0.4334          | 0.1380         | -1.8819          | 0.8180             | 2.0199          | -244.5529      | -246.4347    | -2.9551         | -2.9179       |
+| 0.3508        | 0.21  | 400  | 0.3957          | 0.2646         | -2.6072          | 0.8440             | 2.8718          | -251.8057      | -245.1687    | -2.9765         | -2.9422       |
+| 0.3785        | 0.26  | 500  | 0.3717          | 0.4445         | -2.6346          | 0.8420             | 3.0792          | -252.0801      | -243.3692    | -3.0745         | -3.0376       |
+| 0.4096        | 0.31  | 600  | 0.3610          | 0.5559         | -2.6855          | 0.8380             | 3.2414          | -252.5888      | -242.2559    | -3.0165         | -2.9719       |
+| 0.3551        | 0.36  | 700  | 0.3508          | 0.4284         | -3.0859          | 0.8520             | 3.5143          | -256.5924      | -243.5300    | -3.0461         | -3.0172       |
+| 0.3751        | 0.41  | 800  | 0.3683          | 0.4576         | -3.3895          | 0.8480             | 3.8472          | -259.6292      | -243.2381    | -2.9170         | -2.8920       |
+| 0.4334        | 0.46  | 900  | 0.3622          | 0.3515         | -3.5622          | 0.8420             | 3.9137          | -261.3556      | -244.2990    | -2.9299         | -2.8964       |
+| 0.4673        | 0.52  | 1000 | 0.3595          | 0.3676         | -4.0125          | 0.8720             | 4.3800          | -265.8586      | -244.1389    | -2.9297         | -2.8947       |
+| 0.363         | 0.57  | 1100 | 0.3266          | 0.5186         | -3.6224          | 0.8420             | 4.1410          | -261.9582      | -242.6288    | -2.8564         | -2.8256       |
+| 0.3675        | 0.62  | 1200 | 0.3256          | 0.5935         | -3.9886          | 0.8320             | 4.5821          | -265.6197      | -241.8796    | -2.8294         | -2.7960       |
+| 0.3265        | 0.67  | 1300 | 0.3339          | 0.7248         | -4.0507          | 0.8500             | 4.7755          | -266.2408      | -240.5668    | -2.9186         | -2.8869       |
+| 0.4276        | 0.72  | 1400 | 0.3391          | 0.5884         | -4.2450          | 0.8440             | 4.8334          | -268.1834      | -241.9301    | -2.9354         | -2.9044       |
+| 0.3512        | 0.77  | 1500 | 0.3597          | 0.8748         | -4.2015          | 0.8360             | 5.0763          | -267.7492      | -239.0665    | -2.9078         | -2.8697       |
+| 0.3429        | 0.83  | 1600 | 0.3304          | 0.5707         | -4.4323          | 0.8360             | 5.0030          | -270.0566      | -242.1075    | -2.9041         | -2.8661       |
+| 0.4142        | 0.88  | 1700 | 0.3241          | 0.6941         | -4.0424          | 0.8500             | 4.7365          | -266.1581      | -240.8735    | -2.8839         | -2.8458       |
+| 0.3281        | 0.93  | 1800 | 0.3316          | 0.6987         | -4.3778          | 0.8320             | 5.0765          | -269.5117      | -240.8274    | -2.8548         | -2.8151       |
+| 0.3652        | 0.98  | 1900 | 0.3273          | 0.7334         | -4.1642          | 0.8260             | 4.8976          | -267.3762      | -240.4808    | -2.8455         | -2.8051       |
+| 0.0329        | 1.03  | 2000 | 0.3243          | 0.7401         | -4.8320          | 0.8360             | 5.5721          | -274.0543      | -240.4135    | -2.8127         | -2.7749       |
+| 0.0473        | 1.08  | 2100 | 0.3209          | 0.5992         | -5.3071          | 0.8440             | 5.9063          | -278.8052      | -241.8228    | -2.8128         | -2.7757       |
+| 0.0519        | 1.14  | 2200 | 0.3360          | 0.4729         | -6.0694          | 0.8540             | 6.5423          | -286.4280      | -243.0853    | -2.8572         | -2.8167       |
+| 0.0637        | 1.19  | 2300 | 0.3173          | 0.4218         | -6.1038          | 0.8500             | 6.5256          | -286.7715      | -243.5961    | -2.8084         | -2.7744       |
+| 0.1132        | 1.24  | 2400 | 0.3619          | 0.5158         | -6.3683          | 0.8620             | 6.8840          | -289.4164      | -242.6569    | -2.7845         | -2.7428       |
+| 0.0455        | 1.29  | 2500 | 0.3457          | 0.3782         | -6.9569          | 0.8680             | 7.3351          | -295.3029      | -244.0325    | -2.8466         | -2.8059       |
+| 0.0506        | 1.34  | 2600 | 0.3638          | 0.5356         | -6.6879          | 0.8740             | 7.2234          | -292.6124      | -242.4586    | -2.8550         | -2.8132       |
+| 0.0561        | 1.39  | 2700 | 0.3429          | 0.0200         | -6.8955          | 0.8540             | 6.9154          | -294.6885      | -247.6150    | -2.7937         | -2.7605       |
+| 0.0744        | 1.45  | 2800 | 0.3600          | 0.4107         | -5.9150          | 0.8580             | 6.3256          | -284.8834      | -243.7078    | -2.8861         | -2.8541       |
+| 0.0542        | 1.5   | 2900 | 0.3590          | 0.4739         | -6.5851          | 0.8620             | 7.0590          | -291.5851      | -243.0756    | -2.7995         | -2.7685       |
+| 0.0534        | 1.55  | 3000 | 0.3317          | 0.2732         | -6.5533          | 0.8640             | 6.8265          | -291.2669      | -245.0823    | -2.7514         | -2.7185       |
+| 0.0552        | 1.6   | 3100 | 0.3435          | 0.2221         | -6.8910          | 0.8680             | 7.1130          | -294.6435      | -245.5938    | -2.8895         | -2.8457       |
+| 0.0561        | 1.65  | 3200 | 0.3249          | 0.2894         | -6.7482          | 0.8620             | 7.0376          | -293.2156      | -244.9207    | -2.8713         | -2.8288       |
+| 0.0898        | 1.7   | 3300 | 0.3395          | 0.0255         | -7.2638          | 0.8600             | 7.2893          | -298.3713      | -247.5592    | -2.8631         | -2.8248       |
+| 0.038         | 1.76  | 3400 | 0.3603          | -0.1362        | -7.7326          | 0.8620             | 7.5964          | -303.0600      | -249.1768    | -2.8984         | -2.8586       |
+| 0.0369        | 1.81  | 3500 | 0.3380          | 0.1519         | -7.2043          | 0.8640             | 7.3562          | -297.7772      | -246.2957    | -2.7709         | -2.7392       |
+| 0.05          | 1.86  | 3600 | 0.3445          | 0.0541         | -7.4105          | 0.8660             | 7.4646          | -299.8390      | -247.2734    | -2.8671         | -2.8318       |
+| 0.0576        | 1.91  | 3700 | 0.3461          | 0.0272         | -7.3255          | 0.8720             | 7.3527          | -298.9885      | -247.5422    | -2.8397         | -2.8001       |
+| 0.0632        | 1.96  | 3800 | 0.3487          | -0.1259        | -7.5962          | 0.8660             | 7.4703          | -301.6957      | -249.0733    | -2.7688         | -2.7323       |
+| 0.016         | 2.01  | 3900 | 0.3600          | -0.0502        | -7.6061          | 0.8720             | 7.5559          | -301.7952      | -248.3167    | -2.7419         | -2.7075       |
+| 0.0272        | 2.07  | 4000 | 0.3654          | -0.7856        | -8.5882          | 0.8700             | 7.8026          | -311.6161      | -255.6703    | -2.7034         | -2.6760       |
+| 0.0062        | 2.12  | 4100 | 0.3840          | -0.8021        | -9.2416          | 0.8680             | 8.4395          | -318.1496      | -255.8355    | -2.6878         | -2.6539       |
+| 0.0132        | 2.17  | 4200 | 0.3860          | -0.6756        | -8.9420          | 0.8660             | 8.2663          | -315.1535      | -254.5710    | -2.6362         | -2.6286       |
+| 0.0073        | 2.22  | 4300 | 0.4065          | -0.6866        | -9.3464          | 0.8700             | 8.6599          | -319.1981      | -254.6802    | -2.6570         | -2.6447       |
+| 0.0061        | 2.27  | 4400 | 0.3912          | -0.3556        | -9.0298          | 0.8620             | 8.6742          | -316.0318      | -251.3709    | -2.6600         | -2.6548       |
+| 0.0159        | 2.32  | 4500 | 0.3864          | -0.3204        | -8.6909          | 0.8620             | 8.3705          | -312.6425      | -251.0182    | -2.6958         | -2.6766       |
+| 0.0065        | 2.37  | 4600 | 0.4118          | -0.8305        | -9.4630          | 0.8580             | 8.6325          | -320.3637      | -256.1196    | -2.6806         | -2.6636       |
+| 0.0095        | 2.43  | 4700 | 0.4205          | -1.0027        | -9.8306          | 0.8660             | 8.8279          | -324.0402      | -257.8415    | -2.6817         | -2.6589       |
+| 0.0345        | 2.48  | 4800 | 0.4206          | -1.0960        | -10.0555         | 0.8680             | 8.9595          | -326.2886      | -258.7745    | -2.7313         | -2.7052       |
+| 0.013         | 2.53  | 4900 | 0.4236          | -1.1580        | -10.1711         | 0.8680             | 9.0131          | -327.4450      | -259.3949    | -2.7044         | -2.6821       |
+| 0.0097        | 2.58  | 5000 | 0.4076          | -1.0887        | -9.9938          | 0.8700             | 8.9052          | -325.6721      | -258.7013    | -2.7533         | -2.7272       |
+| 0.0032        | 2.63  | 5100 | 0.4084          | -1.0632        | -10.0314         | 0.8700             | 8.9682          | -326.0481      | -258.4468    | -2.7277         | -2.7032       |
+| 0.0072        | 2.68  | 5200 | 0.4145          | -1.2339        | -10.3018         | 0.8700             | 9.0678          | -328.7514      | -260.1539    | -2.7199         | -2.6952       |
+| 0.0012        | 2.74  | 5300 | 0.4163          | -1.1418        | -10.3024         | 0.8680             | 9.1605          | -328.7574      | -259.2326    | -2.7094         | -2.6844       |
+| 0.0098        | 2.79  | 5400 | 0.4212          | -1.1635        | -10.3961         | 0.8640             | 9.2326          | -329.6949      | -259.4492    | -2.7279         | -2.6969       |
+| 0.0277        | 2.84  | 5500 | 0.4179          | -1.2864        | -10.4955         | 0.8720             | 9.2091          | -330.6889      | -260.6785    | -2.7285         | -2.6942       |
+| 0.0048        | 2.89  | 5600 | 0.4178          | -1.3095        | -10.5357         | 0.8680             | 9.2262          | -331.0909      | -260.9099    | -2.7274         | -2.6932       |
+| 0.0041        | 2.94  | 5700 | 0.4141          | -1.2063        | -10.4035         | 0.8680             | 9.1972          | -329.7684      | -259.8775    | -2.7293         | -2.6959       |
+| 0.0014        | 2.99  | 5800 | 0.4131          | -1.1597        | -10.3577         | 0.8700             | 9.1980          | -329.3108      | -259.4119    | -2.7301         | -2.6969       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.746201753616333,
-    "eval_logits/rejected": -2.8084917068481445,
-    "eval_logps/chosen": -267.275634765625,
-    "eval_logps/rejected": -356.2374267578125,
-    "eval_loss": 0.6013044714927673,
-    "eval_rewards/accuracies": 0.8119999766349792,
-    "eval_rewards/chosen": -1.9595460891723633,
-    "eval_rewards/margins": 6.0504584312438965,
-    "eval_rewards/rejected": -8.010004043579102,
-    "eval_runtime": 278.5463,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.18,
-    "eval_steps_per_second": 0.449,
-    "train_loss": 0.19806672207460788,
-    "train_runtime": 74526.9689,
     "train_samples": 61966,
-    "train_samples_per_second": 2.494,
     "train_steps_per_second": 0.078
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.6962802410125732,
+    "eval_logits/rejected": -2.729593276977539,
+    "eval_logps/chosen": -259.44342041015625,
+    "eval_logps/rejected": -329.2986755371094,
+    "eval_loss": 0.4134460389614105,
+    "eval_rewards/accuracies": 0.8679999709129333,
+    "eval_rewards/chosen": -1.16289222240448,
+    "eval_rewards/margins": 9.193593978881836,
+    "eval_rewards/rejected": -10.356484413146973,
+    "eval_runtime": 276.1856,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.242,
+    "eval_steps_per_second": 0.453,
+    "train_loss": 0.1539872911558545,
+    "train_runtime": 74041.8418,
     "train_samples": 61966,
+    "train_samples_per_second": 2.511,
     "train_steps_per_second": 0.078
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.746201753616333,
-    "eval_logits/rejected": -2.8084917068481445,
-    "eval_logps/chosen": -267.275634765625,
-    "eval_logps/rejected": -356.2374267578125,
-    "eval_loss": 0.6013044714927673,
-    "eval_rewards/accuracies": 0.8119999766349792,
-    "eval_rewards/chosen": -1.9595460891723633,
-    "eval_rewards/margins": 6.0504584312438965,
-    "eval_rewards/rejected": -8.010004043579102,
-    "eval_runtime": 278.5463,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.18,
-    "eval_steps_per_second": 0.449
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.6962802410125732,
+    "eval_logits/rejected": -2.729593276977539,
+    "eval_logps/chosen": -259.44342041015625,
+    "eval_logps/rejected": -329.2986755371094,
+    "eval_loss": 0.4134460389614105,
+    "eval_rewards/accuracies": 0.8679999709129333,
+    "eval_rewards/chosen": -1.16289222240448,
+    "eval_rewards/margins": 9.193593978881836,
+    "eval_rewards/rejected": -10.356484413146973,
+    "eval_runtime": 276.1856,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.242,
+    "eval_steps_per_second": 0.453
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30799b1c1ca3ea668f06802ba4955898fa0b5db1587e5631c64a1a254103153d
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4c0c36a8579acc76ed11154580253619f7df454e118be9d39594556b4079f21
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77e03a3d268216d271df0c9f332883fd3d0d0c00b86ae884cc9869ebbfaef0d1
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8db2646026ac033fb9309238d1cbdfd2cf5009cd414c9bce2ed282e7b390c387
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55bcaaaffe978c185af8fbb3177120a0e1b25d723c972a6f82d3b9c330f17e1c
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f3daf8bd91b85a9eac71b5aa0144774bf465860d858b2ead3b2488cf5fa7f52
 size 4540516344

runs/Jan06_09-35-07_babel-5-3/events.out.tfevents.1704551863.babel-5-3.1782546.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77eb3014617969ca52be867dfe95714b782b2a8c2cc6693763ee487b2bdeaa5e
+size 416481

runs/Jan06_09-35-07_babel-5-3/events.out.tfevents.1704626180.babel-5-3.1782546.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:319e183673a2e08b74e89c82d75c46a58f4264cf1285f04dedfdfa41d74c1421
+size 828

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.19806672207460788,
-    "train_runtime": 74526.9689,
     "train_samples": 61966,
-    "train_samples_per_second": 2.494,
     "train_steps_per_second": 0.078
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.1539872911558545,
+    "train_runtime": 74041.8418,
     "train_samples": 61966,
+    "train_samples_per_second": 2.511,
     "train_steps_per_second": 0.078
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49bac97a38d0e5fbdaa25a18765e70e6e313e87821bacfe0b97cc49ca8296f79
-size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d1c034b9307aebcdf4e489668a8dab5257c9a83cf3501117527ce02402cbfd6
+size 5752