Spaces:

atiwari751
/

Phi-2-fine-tuned-with-GRPO

Sleeping

Ubuntu commited on Apr 11

Commit

ace32a8

1 Parent(s): 68a2fd4

103

Files changed (1) hide show

GRPO.py CHANGED Viewed

@@ -95,20 +95,22 @@ tokenizer.padding_side = "left"
 training_args = GRPOConfig(
     output_dir="phi2-grpo-openassistant",
     num_train_epochs=3,
-    per_device_train_batch_size=8,
-    gradient_accumulation_steps=4,
     gradient_checkpointing=True,
     learning_rate=5e-6,
     logging_steps=10,
     save_steps=100,
     fp16=True,
     remove_unused_columns=False,
-    report_to="wandb",
     optim="adamw_torch",
     lr_scheduler_type="cosine",
     warmup_ratio=0.1,
 )
 # Initialize the GRPO trainer with preference dataset
 trainer = GRPOTrainer(
     model=model,

 training_args = GRPOConfig(
     output_dir="phi2-grpo-openassistant",
     num_train_epochs=3,
+    per_device_train_batch_size=2,
+    gradient_accumulation_steps=16,
     gradient_checkpointing=True,
     learning_rate=5e-6,
     logging_steps=10,
     save_steps=100,
     fp16=True,
     remove_unused_columns=False,
+    report_to="none",
     optim="adamw_torch",
     lr_scheduler_type="cosine",
     warmup_ratio=0.1,
+    num_generations=2,  # Set the desired number of generations per prompt
 )
 # Initialize the GRPO trainer with preference dataset
 trainer = GRPOTrainer(
     model=model,