Update README.md
Browse files
README.md
CHANGED
@@ -1,56 +1,67 @@
|
|
1 |
-
---
|
2 |
-
|
3 |
-
|
4 |
-
|
5 |
-
#
|
6 |
-
|
7 |
-
|
8 |
-
|
9 |
-
|
10 |
-
|
11 |
-
|
12 |
-
|
13 |
-
|
14 |
-
|
15 |
-
|
16 |
-
|
17 |
-
|
18 |
-
|
19 |
-
|
20 |
-
|
21 |
-
|
22 |
-
|
23 |
-
|
24 |
-
|
25 |
-
|
26 |
-
|
27 |
-
|
28 |
-
|
29 |
-
|
30 |
-
|
31 |
-
|
32 |
-
|
33 |
-
|
34 |
-
|
35 |
-
|
36 |
-
|
37 |
-
|
38 |
-
|
39 |
-
|
40 |
-
|
41 |
-
|
42 |
-
|
43 |
-
|
44 |
-
|
45 |
-
|
46 |
-
|
47 |
-
|
48 |
-
|
49 |
-
|
50 |
-
|
51 |
-
|
52 |
-
|
53 |
-
|
54 |
-
|
55 |
-
|
56 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
title: MLLM Benchmark
|
3 |
+
emoji: 📊
|
4 |
+
colorFrom: blue # Color inicial del gradiente en la tarjeta
|
5 |
+
colorTo: green # Color final del gradiente en la tarjeta
|
6 |
+
sdk: gradio # SDK seleccionado (Gradio en este caso)
|
7 |
+
sdk_version: "4.31.5" # Versión específica de Gradio (ajusta según la más reciente o compatible)
|
8 |
+
app_file: app.py # Archivo principal de la aplicación
|
9 |
+
pinned: false # No fijar el Space en el perfil (puedes cambiar a true si lo deseas)
|
10 |
+
---
|
11 |
+
|
12 |
+
---
|
13 |
+
license: cc-by-4.0
|
14 |
+
---
|
15 |
+
|
16 |
+
# Multimodalidad en Modelos de Lenguaje Grandes (Feb. 2025)
|
17 |
+
|
18 |
+
© 2025 Pedro Ismael Ruiz.
|
19 |
+
Este trabajo está licenciado bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puede copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
|
20 |
+
|
21 |
+
<p align="center">
|
22 |
+
<img src="img/Readme.jpg" alt="Portada">
|
23 |
+
</p>
|
24 |
+
|
25 |
+
Este repositorio recopila **dos recursos fundamentales**, desarrollados como parte de un ejercicio práctico y teórico, en el que se explora el estado del arte de la _multimodalidad aplicada a modelos de lenguaje grandes_. Estos recursos sientan las bases para su ampliación y desarrollo en futuras iteraciones, contando con más tiempo y mayores recursos:
|
26 |
+
|
27 |
+
- **[Multimodality in Large Language Models](./Multimodality%20in%20Large%20Language%20Models.md):**
|
28 |
+
Documento de investigación que presenta una revisión exhaustiva sobre la multimodalidad en MLLMs hasta febrero de 2025. Con un corpus de 50-75 documentos, en él se analizan _avances, tendencias, desafíos, benchmarks_ y se incluyen referencias de gran rigor técnico. *([Con copia en Inglés para subirlo a arXiv](./Summary%20for%20arXiv.pdf))*
|
29 |
+
|
30 |
+
- **[Benchmark MLLM](./Benchmark%20MLLM.ipynb):**
|
31 |
+
Notebook Jupyter que complementa la investigación con _análisis prácticos, código y visualizaciones_. Este ejercicio teórico permite experimentar y reproducir algunos de los conceptos expuestos, sirviendo como _plataforma base para desarrollos futuros_.
|
32 |
+
|
33 |
+
## Contenido
|
34 |
+
|
35 |
+
### 1. Introducción y Contexto
|
36 |
+
- Visión general sobre la evolución y relevancia de la multimodalidad en sistemas de lenguaje actuales.
|
37 |
+
|
38 |
+
### 2. Definición, Objetivos y Metodología
|
39 |
+
- Descripción de los objetivos específicos de la investigación y el enfoque utilizado para la recopilación y análisis de información.
|
40 |
+
|
41 |
+
### 3. Estado del Arte y Benchmarks
|
42 |
+
- Revisión de los principales modelos y técnicas, incluyendo análisis comparativos y evaluaciones basadas en benchmarks reconocidos (por ejemplo, MS COCO, VQAv2, VideoBench).
|
43 |
+
|
44 |
+
### 4. Costes Computacionales y Desafíos
|
45 |
+
- Discusión sobre las demandas de recursos, limitaciones y estrategias para mitigar los costes computacionales en modelos multimodales.
|
46 |
+
|
47 |
+
### 5. Implementaciones y Ecosistema Open-Source
|
48 |
+
- Exploración de las herramientas y recursos disponibles en la comunidad, destacando el auge del código abierto en este campo.
|
49 |
+
|
50 |
+
### 6. Conclusiones y Perspectivas Futuras
|
51 |
+
- Reflexiones sobre el ejercicio realizado y proyecciones hacia desarrollos futuros con mayor cantidad de recursos y mejoras continuas.
|
52 |
+
|
53 |
+
## Aviso Importante
|
54 |
+
Ambos archivos se tratan de ejercicios teóricos realizados como parte de una práctica. Este material sienta las bases para futuras iteraciones en las que se integrarán más recursos y se profundizará en el desarrollo de aplicaciones prácticas en el ámbito de la multimodalidad en modelos de lenguaje.
|
55 |
+
|
56 |
+
## Licencia
|
57 |
+
Este proyecto se distribuye bajo [Creative Commons Attribution 4.0 International (CC BY 4.0)](https://creativecommons.org/licenses/by/4.0/). Puedes copiar, distribuir y adaptar este contenido, siempre que se dé crédito al autor original.
|
58 |
+
|
59 |
+
## Autor
|
60 |
+
Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025.
|
61 |
+
|
62 |
+
## Contacto
|
63 |
+
Para preguntas o colaboraciones, contacta a Pedro Ismael Ruiz a través de [LinkedIn](https://www.linkedin.com/in/pdro-ruiz/) o envía un correo (si proporcionas una dirección).
|
64 |
+
|
65 |
+
_Elaborado por [Pedro Ismael Ruiz](https://www.linkedin.com/in/pdro-ruiz/) – 03/03/2025._
|
66 |
+
|
67 |
+
|