Spaces:
Sleeping
Sleeping
Update README.md
Browse files
README.md
CHANGED
@@ -12,6 +12,7 @@ short_description: Descripción de una imagen leída
|
|
12 |
|
13 |
|
14 |
Problemática a solucionar:
|
|
|
15 |
Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual.
|
16 |
Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip
|
17 |
en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI.
|
@@ -21,14 +22,16 @@ Problemática a solucionar:
|
|
21 |
output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control
|
22 |
|
23 |
Puntos débiles:
|
|
|
24 |
Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar.
|
25 |
|
26 |
Modelos usados:
|
27 |
|
28 |
-
stabilityai/stable-audio-open-1.0
|
29 |
El mayor problema encontrado ha sido conseguir enlazar el acceso al repositorio a la programación
|
30 |
|
31 |
Salesforce/blip-image-captioning-large
|
32 |
|
33 |
Descripción:
|
|
|
34 |
El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.
|
|
|
12 |
|
13 |
|
14 |
Problemática a solucionar:
|
15 |
+
|
16 |
Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual.
|
17 |
Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip
|
18 |
en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI.
|
|
|
22 |
output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control
|
23 |
|
24 |
Puntos débiles:
|
25 |
+
|
26 |
Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar.
|
27 |
|
28 |
Modelos usados:
|
29 |
|
30 |
+
stabilityai/stable-audio-open-1.0 -
|
31 |
El mayor problema encontrado ha sido conseguir enlazar el acceso al repositorio a la programación
|
32 |
|
33 |
Salesforce/blip-image-captioning-large
|
34 |
|
35 |
Descripción:
|
36 |
+
|
37 |
El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.
|