File size: 1,366 Bytes
f21427e
 
 
 
 
 
 
 
 
 
 
 
880ab0b
5cf76a1
39a3b17
5cf76a1
 
 
50bec4f
abbbe53
 
5cf76a1
 
 
39a3b17
5cf76a1
 
 
 
a327120
04c36a7
5cf76a1
 
 
 
39a3b17
50bec4f
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
---
title: Proyectomod
emoji: 👁
colorFrom: red
colorTo: green
sdk: gradio
sdk_version: 5.6.0
app_file: app.py
pinned: false
short_description: Descripción de una imagen leída
---


Problemática a solucionar:

  Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual. 
  Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip 
  en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI.

  input - El input necesario es la url o ruta dónde se encuentre la imagen que se desea describir 
  
  output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control

  Puntos débiles:
  
  Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar.
  
Modelos usados:

facebook/fastspeech2-en-ljspeech -

 
Salesforce/blip-image-captioning-large

Descripción:

El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.