Spaces:

MaykaGR
/

proyectomod

Sleeping

App Files Files Community

MaykaGR commited on Nov 25, 2024

Commit

e60395e

verified ·

1 Parent(s): 46b6beb

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -7

app.py CHANGED Viewed

@@ -15,6 +15,10 @@ from torch.nn.utils.parametrizations import weight_norm
 login(token=os.environ["HF_TOKEN"])
 device = torch.device("cpu")
 #img_url = 'https://www.caracteristicass.de/wp-content/uploads/2023/02/imagenes-artisticas.jpg'
@@ -32,8 +36,6 @@ with gr.Blocks(theme=gr.themes.Ocean(primary_hue="pink", neutral_hue="indigo", f
     output2 = gr.Audio(label="Audio")
     def describir(url):
-      processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
-      model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to("cpu")
       raw_image = Image.open(requests.get(url, stream=True).raw).convert('RGB')
       inputs = processor(raw_image, return_tensors="pt").to("cpu")
       out = model.generate(**inputs)
@@ -41,8 +43,6 @@ with gr.Blocks(theme=gr.themes.Ocean(primary_hue="pink", neutral_hue="indigo", f
       return processor.decode(out[0], skip_special_tokens=True)
     def leer(texto):
-        pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0")
-        pipe = pipe.to("cpu")
         prompt = texto
         negative_prompt = "Low quality."
@@ -59,10 +59,11 @@ with gr.Blocks(theme=gr.themes.Ocean(primary_hue="pink", neutral_hue="indigo", f
             generator=generator,
         ).audios
-        #sf.write("demo.wav", salida, pipe.vae.sampling_rate)
-        return audio[0].T.float().cpu().numpy()
-    button.click(describir, [textbox], output)
 demo.launch(debug=True)

 login(token=os.environ["HF_TOKEN"])
 device = torch.device("cpu")
+processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to("cpu")
+pipe = StableAudioPipeline.from_pretrained("stabilityai/stable-audio-open-1.0")
+pipe = pipe.to("cpu")
 #img_url = 'https://www.caracteristicass.de/wp-content/uploads/2023/02/imagenes-artisticas.jpg'
     output2 = gr.Audio(label="Audio")
     def describir(url):
       raw_image = Image.open(requests.get(url, stream=True).raw).convert('RGB')
       inputs = processor(raw_image, return_tensors="pt").to("cpu")
       out = model.generate(**inputs)
       return processor.decode(out[0], skip_special_tokens=True)
     def leer(texto):
         prompt = texto
         negative_prompt = "Low quality."
             generator=generator,
         ).audios
+        salida = audio[0].T.float().cpu().numpy()
+        sf.write("demo.wav", salida, pipe.vae.sampling_rate)
+        return sf.read("demo.wav")
+    button.click(describir, [textbox], output, leer, [output], output2)
 demo.launch(debug=True)