Spaces:
Sleeping
Sleeping
title: Proyectomod | |
emoji: 👁 | |
colorFrom: red | |
colorTo: green | |
sdk: gradio | |
sdk_version: 5.6.0 | |
app_file: app.py | |
pinned: false | |
short_description: Descripción de una imagen leída | |
Problemática a solucionar: | |
Para las personas sin el sentido de la vista, resulta muy difícil poder usar los nuevos avances tecnológicos que se van logrando porque se usan de forma casi 100% visual. | |
Como un primer acercamiento a hacerlo menos visual, sería útil tener un sistema que describiera en audio las imágenes presentes. Así, usando el image captioning de Blip | |
en primer lugar, se crea la descripción, para pasar esta a audio con el modelo stable audio open 1.0 de Stability AI. | |
input - El input necesario es la url o ruta dónde se encuentre la imagen que se desea describir | |
output - La descripción de la imagen en audio, se recoge también la descripción en texto como una forma de control | |
Puntos débiles: | |
Actualmente la app sólo describe en inglés. Y la interfaz es visual, por lo que no sería aún la forma más ideal para la problemática que se pretende abordar. | |
Modelos usados: | |
facebook/fastspeech2-en-ljspeech - | |
Salesforce/blip-image-captioning-large | |
Descripción: | |
El fin de la app es que describa una imagen por audio para personas invidentes, aunque la interfaz actual no sería compatible con el fin del proyecto. | |