ibm-granite
/

granite-3.2-8b-lora-uncertainty

@@ -94,35 +94,37 @@ tokenizer = AutoTokenizer.from_pretrained(BASE_NAME,padding_side='left',trust_re
 model_base = AutoModelForCausalLM.from_pretrained(BASE_NAME,device_map="auto")
 model_UQ = PeftModel.from_pretrained(model_base, LORA_NAME)
-question = "What is IBM?"
 print("Question:" + question)
 question_chat = [
-    {
-		"role": "system",
-		"content": ""
-	},
 	{
 		"role": "user",
 		"content": question
 	},
 ]
-# Generate answer
 input_text = tokenizer.apply_chat_template(question_chat,tokenize=False,add_generation_prompt=True)
-# remove automatic system prompt
-string_to_remove = tokenizer.apply_chat_template(question_chat[0:1], tokenize=False,add_generation_prompt=False)
-input_text = input_text[len(string_to_remove):]
 #tokenize
 inputs = tokenizer(input_text, return_tensors="pt")
-output = model_UQ.generate(inputs["input_ids"].to(device), attention_mask=inputs["attention_mask"].to(device), max_new_tokens=80)
 output_text = tokenizer.decode(output[0])
 answer = output_text.split("assistant<|end_of_role|>")[1]
 print("Answer: " + answer)
 # Generate certainty score
 uq_generation_prompt = "<|start_of_role|>certainty<|end_of_role|>"
-uq_chat = question_chat + [
     {
         "role": "assistant",
         "content": answer
@@ -131,7 +133,11 @@ uq_chat = question_chat + [
 uq_text = tokenizer.apply_chat_template(uq_chat,tokenize=False) + uq_generation_prompt
 # remove automatic system prompt
 uq_text = uq_text[len(string_to_remove):]
 inputs = tokenizer(uq_text, return_tensors="pt")
 output = model_UQ.generate(inputs["input_ids"].to(device), attention_mask=inputs["attention_mask"].to(device), max_new_tokens=1)
 output_text = tokenizer.decode(output[0])

 model_base = AutoModelForCausalLM.from_pretrained(BASE_NAME,device_map="auto")
 model_UQ = PeftModel.from_pretrained(model_base, LORA_NAME)
+question = "What is IBM Research?"
 print("Question:" + question)
 question_chat = [
 	{
 		"role": "user",
 		"content": question
 	},
 ]
+# Generate answer with base model
 input_text = tokenizer.apply_chat_template(question_chat,tokenize=False,add_generation_prompt=True)
 #tokenize
 inputs = tokenizer(input_text, return_tensors="pt")
+output = model_base.generate(inputs["input_ids"].to(device), attention_mask=inputs["attention_mask"].to(device), max_new_tokens=600)
 output_text = tokenizer.decode(output[0])
 answer = output_text.split("assistant<|end_of_role|>")[1]
 print("Answer: " + answer)
 # Generate certainty score
 uq_generation_prompt = "<|start_of_role|>certainty<|end_of_role|>"
+uq_chat = [
+    {
+		"role": "system",
+		"content": ""
+	},
+	{
+		"role": "user",
+		"content": question
+	},
     {
         "role": "assistant",
         "content": answer
 uq_text = tokenizer.apply_chat_template(uq_chat,tokenize=False) + uq_generation_prompt
 # remove automatic system prompt
+string_to_remove = tokenizer.apply_chat_template(uq_chat[0:1], tokenize=False,add_generation_prompt=False)
+input_text = input_text[len(string_to_remove):]
 uq_text = uq_text[len(string_to_remove):]
+# tokenize and generate
 inputs = tokenizer(uq_text, return_tensors="pt")
 output = model_UQ.generate(inputs["input_ids"].to(device), attention_mask=inputs["attention_mask"].to(device), max_new_tokens=1)
 output_text = tokenizer.decode(output[0])