genies-llm
/

text2sql-reasoning-sql-no-ex

@@ -1,16 +1,17 @@
 ---
 base_model: Qwen/Qwen2.5-Coder-7B
-datasets: Genies/Reasoning_SQL_BIRD
 library_name: transformers
 tags:
 - generated_from_trainer
-- open-r1
 licence: license
 ---
-# Model Card for None
-This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B](https://huggingface.co/Qwen/Qwen2.5-Coder-7B) on the [Genies/Reasoning_SQL_BIRD](https://huggingface.co/datasets/Genies/Reasoning_SQL_BIRD) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -26,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/genies-rnd/text2sql-rl/runs/v2nly9i2)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ---
 base_model: Qwen/Qwen2.5-Coder-7B
 library_name: transformers
+model_name: text2sql-reasoning-sql-no-ex
 tags:
 - generated_from_trainer
+- trl
+- grpo
 licence: license
 ---
+# Model Card for text2sql-reasoning-sql-no-ex
+This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B](https://huggingface.co/Qwen/Qwen2.5-Coder-7B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/genies-rnd/text2sql-rl/runs/vsoi38ya)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -6,9 +6,9 @@
     "eval_samples_per_second": 1.155,
     "eval_steps_per_second": 0.024,
     "total_flos": 0.0,
-    "train_loss": -3.7846087062426205e-06,
-    "train_runtime": 110.1977,
     "train_samples": 9428,
-    "train_samples_per_second": 256.666,
-    "train_steps_per_second": 8.031
 }

     "eval_samples_per_second": 1.155,
     "eval_steps_per_second": 0.024,
     "total_flos": 0.0,
+    "train_loss": -1.063280144317002e-05,
+    "train_runtime": 264.9551,
     "train_samples": 9428,
+    "train_samples_per_second": 106.75,
+    "train_steps_per_second": 3.34
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": -3.7846087062426205e-06,
-    "train_runtime": 110.1977,
     "train_samples": 9428,
-    "train_samples_per_second": 256.666,
-    "train_steps_per_second": 8.031
 }

 {
     "total_flos": 0.0,
+    "train_loss": -1.063280144317002e-05,
+    "train_runtime": 264.9551,
     "train_samples": 9428,
+    "train_samples_per_second": 106.75,
+    "train_steps_per_second": 3.34
 }

trainer_state.json CHANGED Viewed

@@ -31839,32 +31839,32 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": -1.1875,
       "completions/max_length": 256.0,
-      "completions/max_terminated_length": 254.0,
-      "completions/mean_length": 222.8072967529297,
-      "completions/mean_terminated_length": 164.95713806152344,
-      "completions/min_length": 50.0,
-      "completions/min_terminated_length": 50.0,
       "epoch": 2.003392705682782,
       "frac_reward_zero_std": 0.03125,
-      "grad_norm": 0.7709642648696899,
-      "kl": 0.05810546875,
       "learning_rate": 3.8941533949121694e-12,
-      "loss": -0.0033,
-      "num_tokens": 226847464.0,
-      "reward": 8.306476593017578,
-      "reward_std": 1.4022259712219238,
-      "rewards/accuracy_reward/mean": 1.171875,
-      "rewards/accuracy_reward/std": 1.4674979448318481,
       "rewards/format_reward/mean": 0.9479166865348816,
-      "rewards/format_reward/std": 0.22277598083019257,
-      "rewards/judge_reward/mean": 1.0458332300186157,
-      "rewards/judge_reward/std": 0.9318019151687622,
-      "rewards/ngrams_iou_reward/mean": 0.1845172643661499,
-      "rewards/ngrams_iou_reward/std": 0.1875908374786377,
-      "rewards/schema_keywords_iou_reward/mean": 0.7230003476142883,
-      "rewards/schema_keywords_iou_reward/std": 0.18600532412528992,
       "rewards/syntax_reward/mean": 0.84375,
       "rewards/syntax_reward/std": 0.36404144763946533,
       "step": 885
@@ -31873,15 +31873,15 @@
       "epoch": 2.003392705682782,
       "step": 885,
       "total_flos": 0.0,
-      "train_loss": -3.7846087062426205e-06,
-      "train_runtime": 110.1977,
-      "train_samples_per_second": 256.666,
-      "train_steps_per_second": 8.031
     }
   ],
   "logging_steps": 1,
   "max_steps": 885,
-  "num_input_tokens_seen": 226847464,
   "num_train_epochs": 3,
   "save_steps": 52,
   "stateful_callbacks": {

       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -1.21875,
       "completions/max_length": 256.0,
+      "completions/max_terminated_length": 252.0,
+      "completions/mean_length": 227.36459350585938,
+      "completions/mean_terminated_length": 178.56336975097656,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
       "epoch": 2.003392705682782,
       "frac_reward_zero_std": 0.03125,
+      "grad_norm": 0.781992495059967,
+      "kl": 0.0506591796875,
       "learning_rate": 3.8941533949121694e-12,
+      "loss": -0.0094,
+      "num_tokens": 226848339.0,
+      "reward": 8.37523078918457,
+      "reward_std": 1.1983823776245117,
+      "rewards/accuracy_reward/mean": 1.25,
+      "rewards/accuracy_reward/std": 1.482886552810669,
       "rewards/format_reward/mean": 0.9479166865348816,
+      "rewards/format_reward/std": 0.22277599573135376,
+      "rewards/judge_reward/mean": 0.9541666507720947,
+      "rewards/judge_reward/std": 0.920268177986145,
+      "rewards/ngrams_iou_reward/mean": 0.19519639015197754,
+      "rewards/ngrams_iou_reward/std": 0.1999417394399643,
+      "rewards/schema_keywords_iou_reward/mean": 0.730033814907074,
+      "rewards/schema_keywords_iou_reward/std": 0.16520489752292633,
       "rewards/syntax_reward/mean": 0.84375,
       "rewards/syntax_reward/std": 0.36404144763946533,
       "step": 885
       "epoch": 2.003392705682782,
       "step": 885,
       "total_flos": 0.0,
+      "train_loss": -1.063280144317002e-05,
+      "train_runtime": 264.9551,
+      "train_samples_per_second": 106.75,
+      "train_steps_per_second": 3.34
     }
   ],
   "logging_steps": 1,
   "max_steps": 885,
+  "num_input_tokens_seen": 226848339,
   "num_train_epochs": 3,
   "save_steps": 52,
   "stateful_callbacks": {