Spaces:

Pdro-ruiz
/

MLLM_Estado_del_Arte_Feb25

Running

App Files Files Community

Pdro-ruiz commited on Mar 3

Commit

52e2126

verified ·

1 Parent(s): 75f50ff

Update README.md

Browse files

Files changed (1) hide show

README.md +67 -56

README.md CHANGED Viewed

@@ -1,56 +1,67 @@
----
-license: cc-by-4.0
----
-# Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025)
-© 2025 Pedro Ismael Ruiz.
-Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
-<p align="center">
-  <img src="img/Readme.jpg" alt="Portada">
-</p>
-Este repositorio recopila **dos recursos fundamentales**, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la _multimodalidad aplicada a modelos de lenguaje grandes_. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos:
-- **[Multimodality in Large Language Models](./Multimodality%20in%20Large%20Language%20Models.md):**
-  Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan _avances, tendencias, desafíos, benchmarks_ y se incluyen referencias de gran rigor técnico. *([Con copia en Inglés para subirlo a arXiv](./Summary%20for%20arXiv.pdf))*
-- **[Benchmark MLLM](./Benchmark%20MLLM.ipynb):**
-  Notebook Jupyter que complementa la investigación con _análisis prácticos, código y visualizaciones_. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como _plataforma base para desarrollos futuros_.
-## Contenido
-### 1. Introducción y Contexto
-- Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales.
-### 2. Definición, Objetivos y Metodología
-- Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información.
-### 3. Estado del Arte y Benchmarks
-- Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench).
-### 4. Costes Computacionales y Desafíos
-- Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales.
-### 5. Implementaciones y Ecosistema Open-Source
-- Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo.
-### 6. Conclusiones y Perspectivas Futuras
-- Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas.
-## Aviso Importante
-Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje.
-## Licencia
-Este proyecto se distribuye bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
-## Autor
-Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025.
-## Contacto
-Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de [LinkedIn](https://www.linkedin.com/in/pdro-ruiz/) o envía un correo (si proporcionas una dirección).
-_Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025._

+---
+title: MLLM Benchmark
+emoji: 📊
+colorFrom: blue  # Color inicial del gradiente en la tarjeta
+colorTo: green   # Color final del gradiente en la tarjeta
+sdk: gradio      # SDK seleccionado (Gradio en este caso)
+sdk_version: "4.31.5"  # Versión específica de Gradio (ajusta según la más reciente o compatible)
+app_file: app.py  # Archivo principal de la aplicación
+pinned: false     # No fijar el Space en el perfil (puedes cambiar a true si lo deseas)
+---
+---
+license: cc-by-4.0
+---
+# Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025)
+© 2025 Pedro Ismael Ruiz.
+Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
+<p align="center">
+  <img src="img/Readme.jpg" alt="Portada">
+</p>
+Este repositorio recopila **dos recursos fundamentales**, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la _multimodalidad aplicada a modelos de lenguaje grandes_. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos:
+- **[Multimodality in Large Language Models](./Multimodality%20in%20Large%20Language%20Models.md):**
+  Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan _avances, tendencias, desafíos, benchmarks_ y se incluyen referencias de gran rigor técnico. *([Con copia en Inglés para subirlo a arXiv](./Summary%20for%20arXiv.pdf))*
+- **[Benchmark MLLM](./Benchmark%20MLLM.ipynb):**
+  Notebook Jupyter que complementa la investigación con _análisis prácticos, código y visualizaciones_. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como _plataforma base para desarrollos futuros_.
+## Contenido
+### 1. Introducción y Contexto
+- Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales.
+### 2. Definición, Objetivos y Metodología
+- Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información.
+### 3. Estado del Arte y Benchmarks
+- Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench).
+### 4. Costes Computacionales y Desafíos
+- Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales.
+### 5. Implementaciones y Ecosistema Open-Source
+- Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo.
+### 6. Conclusiones y Perspectivas Futuras
+- Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas.
+## Aviso Importante
+Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje.
+## Licencia
+Este proyecto se distribuye bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
+## Autor
+Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025.
+## Contacto
+Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de [LinkedIn](https://www.linkedin.com/in/pdro-ruiz/) o envía un correo (si proporcionas una dirección).
+_Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025._