genies-llm
/

text2sql-reasoning-sql-no-ex

@@ -1,16 +1,17 @@
 ---
 base_model: Qwen/Qwen2.5-Coder-7B
-datasets: Genies/Reasoning_SQL_BIRD
 library_name: transformers
 tags:
 - generated_from_trainer
-- open-r1
 licence: license
 ---
-# Model Card for None
-This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B](https://huggingface.co/Qwen/Qwen2.5-Coder-7B) on the [Genies/Reasoning_SQL_BIRD](https://huggingface.co/datasets/Genies/Reasoning_SQL_BIRD) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -26,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/genies-rnd/text2sql-rl/runs/vsoi38ya)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ---
 base_model: Qwen/Qwen2.5-Coder-7B
 library_name: transformers
+model_name: text2sql-reasoning-sql-no-ex
 tags:
 - generated_from_trainer
+- trl
+- grpo
 licence: license
 ---
+# Model Card for text2sql-reasoning-sql-no-ex
+This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B](https://huggingface.co/Qwen/Qwen2.5-Coder-7B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/genies-rnd/text2sql-rl/runs/2t79o2wj)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -6,9 +6,9 @@
     "eval_samples_per_second": 1.155,
     "eval_steps_per_second": 0.024,
     "total_flos": 0.0,
-    "train_loss": -1.063280144317002e-05,
-    "train_runtime": 264.9551,
     "train_samples": 9428,
-    "train_samples_per_second": 106.75,
-    "train_steps_per_second": 3.34
 }

     "eval_samples_per_second": 1.155,
     "eval_steps_per_second": 0.024,
     "total_flos": 0.0,
+    "train_loss": 1.3305503601408275e-05,
+    "train_runtime": 263.5351,
     "train_samples": 9428,
+    "train_samples_per_second": 107.325,
+    "train_steps_per_second": 3.358
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": -1.063280144317002e-05,
-    "train_runtime": 264.9551,
     "train_samples": 9428,
-    "train_samples_per_second": 106.75,
-    "train_steps_per_second": 3.34
 }

 {
     "total_flos": 0.0,
+    "train_loss": 1.3305503601408275e-05,
+    "train_runtime": 263.5351,
     "train_samples": 9428,
+    "train_samples_per_second": 107.325,
+    "train_steps_per_second": 3.358
 }

trainer_state.json CHANGED Viewed

@@ -31839,49 +31839,49 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": -1.21875,
       "completions/max_length": 256.0,
-      "completions/max_terminated_length": 252.0,
-      "completions/mean_length": 227.36459350585938,
-      "completions/mean_terminated_length": 178.56336975097656,
-      "completions/min_length": 98.0,
-      "completions/min_terminated_length": 98.0,
       "epoch": 2.003392705682782,
       "frac_reward_zero_std": 0.03125,
-      "grad_norm": 0.781992495059967,
-      "kl": 0.0506591796875,
       "learning_rate": 3.8941533949121694e-12,
-      "loss": -0.0094,
-      "num_tokens": 226848339.0,
-      "reward": 8.37523078918457,
-      "reward_std": 1.1983823776245117,
-      "rewards/accuracy_reward/mean": 1.25,
-      "rewards/accuracy_reward/std": 1.482886552810669,
-      "rewards/format_reward/mean": 0.9479166865348816,
-      "rewards/format_reward/std": 0.22277599573135376,
-      "rewards/judge_reward/mean": 0.9541666507720947,
-      "rewards/judge_reward/std": 0.920268177986145,
-      "rewards/ngrams_iou_reward/mean": 0.19519639015197754,
-      "rewards/ngrams_iou_reward/std": 0.1999417394399643,
-      "rewards/schema_keywords_iou_reward/mean": 0.730033814907074,
-      "rewards/schema_keywords_iou_reward/std": 0.16520489752292633,
-      "rewards/syntax_reward/mean": 0.84375,
-      "rewards/syntax_reward/std": 0.36404144763946533,
       "step": 885
     },
     {
       "epoch": 2.003392705682782,
       "step": 885,
       "total_flos": 0.0,
-      "train_loss": -1.063280144317002e-05,
-      "train_runtime": 264.9551,
-      "train_samples_per_second": 106.75,
-      "train_steps_per_second": 3.34
     }
   ],
   "logging_steps": 1,
   "max_steps": 885,
-  "num_input_tokens_seen": 226848339,
   "num_train_epochs": 3,
   "save_steps": 52,
   "stateful_callbacks": {

       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": -1.0,
       "completions/max_length": 256.0,
+      "completions/max_terminated_length": 255.0,
+      "completions/mean_length": 228.609375,
+      "completions/mean_terminated_length": 173.828125,
+      "completions/min_length": 79.0,
+      "completions/min_terminated_length": 79.0,
       "epoch": 2.003392705682782,
       "frac_reward_zero_std": 0.03125,
+      "grad_norm": 0.9302852749824524,
+      "kl": 0.0499267578125,
       "learning_rate": 3.8941533949121694e-12,
+      "loss": 0.0118,
+      "num_tokens": 226848578.0,
+      "reward": 8.244189262390137,
+      "reward_std": 1.5018832683563232,
+      "rewards/accuracy_reward/mean": 1.1875,
+      "rewards/accuracy_reward/std": 1.4709222316741943,
+      "rewards/format_reward/mean": 0.953125,
+      "rewards/format_reward/std": 0.21192367374897003,
+      "rewards/judge_reward/mean": 0.9822916984558105,
+      "rewards/judge_reward/std": 0.9181696772575378,
+      "rewards/ngrams_iou_reward/mean": 0.1794198751449585,
+      "rewards/ngrams_iou_reward/std": 0.18398059904575348,
+      "rewards/schema_keywords_iou_reward/mean": 0.7147682309150696,
+      "rewards/schema_keywords_iou_reward/std": 0.1661030650138855,
+      "rewards/syntax_reward/mean": 0.8697916865348816,
+      "rewards/syntax_reward/std": 0.3374123275279999,
       "step": 885
     },
     {
       "epoch": 2.003392705682782,
       "step": 885,
       "total_flos": 0.0,
+      "train_loss": 1.3305503601408275e-05,
+      "train_runtime": 263.5351,
+      "train_samples_per_second": 107.325,
+      "train_steps_per_second": 3.358
     }
   ],
   "logging_steps": 1,
   "max_steps": 885,
+  "num_input_tokens_seen": 226848578,
   "num_train_epochs": 3,
   "save_steps": 52,
   "stateful_callbacks": {