Spaces:

darrenphodgson76
/

SmolLM2-1.7B-Instruct-Bussiness-Analysis

Paused

App Files Files Community

darrenphodgson76 commited on Apr 23

Commit

4d2faa4

verified ·

1 Parent(s): c62069a

Update train.py

Browse files

Files changed (1) hide show

train.py +74 -54

train.py CHANGED Viewed

@@ -1,29 +1,20 @@
-# ✅ Final train.py with JSONL input and EOS-as-pad (no stop_sequences)
-import unsloth  # must be first
-import pandas as pd
-import torch
-from datasets import Dataset
-from transformers import TrainingArguments
-from unsloth import FastLanguageModel
-from trl import SFTTrainer
-import os
-import zipfile
-# 1) Load Unsloth model + tokenizer
 model, tokenizer = FastLanguageModel.from_pretrained(
-    model_name="HuggingFaceTB/SmolLM2-1.7B",
-    max_seq_length=2048,
-    dtype=torch.float16,
-    load_in_4bit=True,
 )
-# 2) Reuse the existing eos_token as pad_token
-eos = tokenizer.eos_token  # should be "<|endoftext|>"
-tokenizer.pad_token = eos
 model.config.pad_token_id = tokenizer.eos_token_id
-# 3) Load & format your dataset from JSONL, always ending responses with EOS
-#    Read the JSONL we generated (one JSON object per line with "instruction" & "response")
 df = pd.read_json("data.jsonl", lines=True)
 df["text"] = df.apply(
     lambda row: (
@@ -31,68 +22,97 @@ df["text"] = df.apply(
         + row["instruction"].strip()
         + "\n\n### Response:\n"
         + row["response"].strip()
-        + eos
     ),
-    axis=1
 )
-dataset = Dataset.from_pandas(df[["text"]])
-# 4) Apply LoRA
 model = FastLanguageModel.get_peft_model(
     model,
     r=8,
     lora_alpha=32,
     lora_dropout=0.05,
     bias="none",
 )
-# 5) Tokenize
-def tokenize(example):
-    return tokenizer(
-        example["text"],
         truncation=True,
         padding="max_length",
-        max_length=512,
     )
-tokenized_dataset = dataset.map(tokenize, batched=True)
-# 6) Training arguments
 training_args = TrainingArguments(
     output_dir="./output_model",
-    per_device_train_batch_size=2,
     num_train_epochs=3,
     learning_rate=2e-4,
-    logging_steps=10,
-    save_steps=100,
-    fp16=True,
 )
-# 7) Initialize SFTTrainer (no stop_sequences here)
 trainer = SFTTrainer(
     model=model,
     tokenizer=tokenizer,
     args=training_args,
-    train_dataset=tokenized_dataset,
 )
-# 8) Train!
 trainer.train()
-# 9) Save the adapter
-output_dir = "./output_model"
-os.makedirs(output_dir, exist_ok=True)
-model.save_pretrained(output_dir)
-# 🔧 Zip for download
-zip_path = "/home/user/app/model.zip"
-try:
-    with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as z:
-        for root, _, files in os.walk(output_dir):
-            for fname in files:
-                full = os.path.join(root, fname)
-                rel = os.path.relpath(full, output_dir)
-                z.write(full, rel)
-    print(f"✅ Zipped model to {zip_path}")
-except Exception as e:
-    print(f"❌ Failed to zip model: {e}")

+import os import zipfile import pandas as pd import torch from datasets import Dataset from transformers import TrainingArguments from unsloth import FastLanguageModel from trl import SFTTrainer
+def main(): # 1) Load Unsloth 4-bit model + tokenizer model_name = "HuggingFaceTB/SmolLM2-1.7B" max_seq_length = 2048 dtype = torch.float16 load_in_4bit = True
 model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name=model_name,
+    max_seq_length=max_seq_length,
+    dtype=dtype,
+    load_in_4bit=load_in_4bit,
 )
+# 2) Set pad_token = eos_token if not already defined
+if tokenizer.pad_token is None:
+    tokenizer.pad_token = tokenizer.eos_token
 model.config.pad_token_id = tokenizer.eos_token_id
+# 3) Load and format dataset
 df = pd.read_json("data.jsonl", lines=True)
 df["text"] = df.apply(
     lambda row: (
         + row["instruction"].strip()
         + "\n\n### Response:\n"
         + row["response"].strip()
+        + tokenizer.eos_token
     ),
+    axis=1,
 )
+full_dataset = Dataset.from_pandas(df[["text"]])
+# Split into train and eval
+split = full_dataset.train_test_split(test_size=0.15, seed=42)
+train_dataset = split["train"]
+eval_dataset = split["test"]
+print(f"Training samples: {len(train_dataset)} | Eval samples: {len(eval_dataset)}")
+# 4) Apply LoRA adapters
 model = FastLanguageModel.get_peft_model(
     model,
     r=8,
     lora_alpha=32,
     lora_dropout=0.05,
     bias="none",
+    target_modules=[
+        "q_proj", "k_proj", "v_proj", "o_proj",
+        "gate_proj", "up_proj", "down_proj",
+    ],
+    use_gradient_checkpointing=True,
 )
+# 5) Tokenization with labels
+train_seq_length = 512
+def tokenize_fn(examples):
+    tokens = tokenizer(
+        examples["text"],
         truncation=True,
         padding="max_length",
+        max_length=train_seq_length,
     )
+    tokens["labels"] = tokens["input_ids"].copy()
+    return tokens
+tokenized_train = train_dataset.map(tokenize_fn, batched=True, remove_columns=["text"])
+tokenized_eval = eval_dataset.map(tokenize_fn, batched=True, remove_columns=["text"])
+# 6) Define training arguments
 training_args = TrainingArguments(
     output_dir="./output_model",
+    per_device_train_batch_size=8,
+    gradient_accumulation_steps=1,
+    fp16=True,
     num_train_epochs=3,
     learning_rate=2e-4,
+    logging_strategy="steps",
+    logging_steps=25,
+    save_strategy="epoch",
+    save_total_limit=2,
+    evaluation_strategy="epoch",
+    load_best_model_at_end=True,
+    metric_for_best_model="eval_loss",
+    greater_is_better=False,
+    dataloader_num_workers=2,
 )
+# 7) Initialize SFTTrainer
 trainer = SFTTrainer(
     model=model,
     tokenizer=tokenizer,
     args=training_args,
+    train_dataset=tokenized_train,
+    eval_dataset=tokenized_eval,
 )
+# 8) Train
+print("Starting training...")
 trainer.train()
+print("Training finished.")
+# 9) Save final adapter and tokenizer
+final_dir = "./output_model_final"
+os.makedirs(final_dir, exist_ok=True)
+model.save_pretrained(final_dir)
+tokenizer.save_pretrained(final_dir)
+print(f"Saved final adapter to {final_dir}")
+# 10) Zip the final model
+zip_path = "model_final.zip"
+print(f"Zipping model directory {final_dir} to {zip_path}...")
+with zipfile.ZipFile(zip_path, "w", zipfile.ZIP_DEFLATED) as z:
+    for root, _, files in os.walk(final_dir):
+        for fname in files:
+            full_path = os.path.join(root, fname)
+            rel_path = os.path.relpath(full_path, final_dir)
+            z.write(full_path, rel_path)
+print(f"Successfully zipped model to {zip_path}")
+if name == "main": main()