import streamlit as st
from transformers import AutoTokenizer, AutoModelForCausalLM
import os
from transformers import pipeline
import torch

hf_token = os.getenv('HF_API_TOKEN')


# Load the Llama 3.1 model and tokenizer
model_name = "meta-llama/Meta-Llama-3.1-8B"
tokenizer = AutoTokenizer.from_pretrained(model_name, token= hf_token)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto", token= hf_token)

# Streamlit app interface
st.title("Llama 3.1 Text Generator")
prompt = st.text_area("Enter a prompt:", "Once upon a time")

if st.button("Generate"):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(**inputs, max_length=512, top_p=0.9, temperature=0.8)
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    st.write(generated_text)