MaykaGR commited on
Commit
39a3b17
·
verified ·
1 Parent(s): abbbe53

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -1
README.md CHANGED
@@ -12,6 +12,7 @@ short_description: Descripción de una imagen leída
12
 
13
 
14
  Problemática a solucionar:
 
15
  Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual.
16
  Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip
17
  en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI.
@@ -21,14 +22,16 @@ Problemática a solucionar:
21
  output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control
22
 
23
  Puntos débiles:
 
24
  Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar.
25
 
26
  Modelos usados:
27
 
28
- stabilityai/stable-audio-open-1.0
29
  El mayor problema encontrado ha sido conseguir enlazar el acceso al repositorio a la programación
30
 
31
  Salesforce/blip-image-captioning-large
32
 
33
  Descripción:
 
34
  El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.
 
12
 
13
 
14
  Problemática a solucionar:
15
+
16
  Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual.
17
  Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip
18
  en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI.
 
22
  output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control
23
 
24
  Puntos débiles:
25
+
26
  Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar.
27
 
28
  Modelos usados:
29
 
30
+ stabilityai/stable-audio-open-1.0 -
31
  El mayor problema encontrado ha sido conseguir enlazar el acceso al repositorio a la programación
32
 
33
  Salesforce/blip-image-captioning-large
34
 
35
  Descripción:
36
+
37
  El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto.