Isaac Isa铆as commited on
Commit
0d93e4f
1 Parent(s): 70c9d09

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +14 -4
app.py CHANGED
@@ -9,10 +9,13 @@ article = """
9
  ## Obtenci贸n de los datos
10
 
11
  ### Motivos y Objetivo de la Obtenci贸n de los Datos
12
- La creaci贸n de este dataset ha sido motivado por la participaci贸n en el Hackathon 2022 de PLN en Espa帽ol organizado por Somos NLP, con el objetivo de democratizar el NLP en espa帽ol y promover su aplicaci贸n a buenas causas y, debido a que no existe un dataset de tesis en espa帽ol.
 
13
 
14
  ### Proceso de Obtenci贸n
 
15
  Se opt贸 realizar un [scraper](https://github.com/IsaacIsaias/NLP-clasificador-tesis/blob/main/main.py) para conseguir la informaci贸n. Se decidi贸 usar la base de datos [TESIUNAM](https://tesiunam.dgb.unam.mx/F?func=find-b-0&local_base=TES01), la cual es un cat谩logo en donde se pueden visualizar las tesis de los sustentantes que obtuvieron un grado en la Universidad Nacional Aut贸noma de M茅xico (UNAM), as铆 como de las tesis de licenciatura de escuelas incorporadas a ella.
 
16
  Para ello, en primer lugar se consult贸 la [Oferta Acad茅mica](http://oferta.unam.mx/indice-alfabetico.html) de la Universidad, sitio de donde se extrajo cada una de las 131 licenciaturas en forma de lista. Despu茅s, se analiz贸 cada uno de los casos presente en la base de datos, debido a que existen carreras con m谩s de 10 tesis, otras con menos de 10, o con solo una o ninguna tesis disponible. Se us贸 Selenium para la interacci贸n con un navegador Web (Edge) y est谩 actualmente configurado para obtener las primeras 20 tesis, o menos, por carrera.
17
 
18
  Este scraper obtiene de esta base de datos:
@@ -23,15 +26,22 @@ article = """
23
  - Carrera de la Tesis
24
 
25
  A la vez, este scraper descarga cada una de las tesis en la carpeta *Downloads* del equipo local.
 
26
  En el csv formado por el scraper se a帽adi贸 el Resumen/Introduccion/Conclusion de la tesis, dependiendo cual primero estuviera disponible, ya que la complejidad recae en la diferencia de la estructura y formato de cada una de las tesis.
 
27
  Posteriormente, se le realiz贸 un procesado al dataset con las siguientes tareas:
28
  - Conversi贸n a min煤sculas
29
  - Tokenizaci贸n
30
  - Eliminaci贸n de palabras que no son alfanum茅ricas
31
  - Eliminaci贸n de palabras vac铆as
32
  - Stemming: eliminaci贸n de plurales
33
-
 
 
 
 
34
  ## Miembros del Equipo:
 
35
  - Isaac Isa铆as L贸pez L贸pez ([MajorIsaiah](https://huggingface.co/MajorIsaiah))
36
  - Dionis L贸pez Ramos ([inoid](https://huggingface.co/inoid))
37
  - Yisel Clavel Quintero ([clavel](https://huggingface.co/clavel))
@@ -119,14 +129,14 @@ def thesis_prediction(input):
119
  #pass
120
 
121
 
122
- examples = ["Introducci贸n al an谩lisis de riesgos competitivos bajo el enfoque de la funci贸n de incidencia acumulada (FIA) y su aplicaci贸n con R", "Los promedios de calificaciones y clasificar por grupo o asignatura se realizaron a trav茅s de tablas din谩micas en Excel"]
123
 
124
  if __name__ == "__main__":
125
  gr.Interface(
126
  fn=thesis_prediction,
127
  inputs=gr.inputs.Textbox(
128
  lines=2,
129
- placeholder="Ingrese de favor el t铆tulo de la tesis o un fragmento de esta.",
130
  ),
131
  outputs=["text"],
132
  title=title,
 
9
  ## Obtenci贸n de los datos
10
 
11
  ### Motivos y Objetivo de la Obtenci贸n de los Datos
12
+
13
+ La creaci贸n de este dataset ha sido motivado por la participaci贸n en el Hackathon 2022 de PLN en Espa帽ol organizado por Somos NLP, con el objetivo de democratizar el NLP en espa帽ol y promover su aplicaci贸n a buenas causas y, debido a que no existe un dataset de tesis en espa帽ol.
14
 
15
  ### Proceso de Obtenci贸n
16
+
17
  Se opt贸 realizar un [scraper](https://github.com/IsaacIsaias/NLP-clasificador-tesis/blob/main/main.py) para conseguir la informaci贸n. Se decidi贸 usar la base de datos [TESIUNAM](https://tesiunam.dgb.unam.mx/F?func=find-b-0&local_base=TES01), la cual es un cat谩logo en donde se pueden visualizar las tesis de los sustentantes que obtuvieron un grado en la Universidad Nacional Aut贸noma de M茅xico (UNAM), as铆 como de las tesis de licenciatura de escuelas incorporadas a ella.
18
+
19
  Para ello, en primer lugar se consult贸 la [Oferta Acad茅mica](http://oferta.unam.mx/indice-alfabetico.html) de la Universidad, sitio de donde se extrajo cada una de las 131 licenciaturas en forma de lista. Despu茅s, se analiz贸 cada uno de los casos presente en la base de datos, debido a que existen carreras con m谩s de 10 tesis, otras con menos de 10, o con solo una o ninguna tesis disponible. Se us贸 Selenium para la interacci贸n con un navegador Web (Edge) y est谩 actualmente configurado para obtener las primeras 20 tesis, o menos, por carrera.
20
 
21
  Este scraper obtiene de esta base de datos:
 
26
  - Carrera de la Tesis
27
 
28
  A la vez, este scraper descarga cada una de las tesis en la carpeta *Downloads* del equipo local.
29
+
30
  En el csv formado por el scraper se a帽adi贸 el Resumen/Introduccion/Conclusion de la tesis, dependiendo cual primero estuviera disponible, ya que la complejidad recae en la diferencia de la estructura y formato de cada una de las tesis.
31
+
32
  Posteriormente, se le realiz贸 un procesado al dataset con las siguientes tareas:
33
  - Conversi贸n a min煤sculas
34
  - Tokenizaci贸n
35
  - Eliminaci贸n de palabras que no son alfanum茅ricas
36
  - Eliminaci贸n de palabras vac铆as
37
  - Stemming: eliminaci贸n de plurales
38
+
39
+ ## Impacto Social
40
+
41
+ El presente conjunto de datos favorecer谩 la b煤squeda e investigaci贸n relacionada con tesis en espa帽ol, a partir de su categorizaci贸n autom谩tica por un modelo entrenado con este dataset. Esta tarea favorece el cumplimiento del Objetivo 4 de Desarrollo Sostenible de la ONU: Educaci贸n y Calidad (https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/).
42
+
43
  ## Miembros del Equipo:
44
+
45
  - Isaac Isa铆as L贸pez L贸pez ([MajorIsaiah](https://huggingface.co/MajorIsaiah))
46
  - Dionis L贸pez Ramos ([inoid](https://huggingface.co/inoid))
47
  - Yisel Clavel Quintero ([clavel](https://huggingface.co/clavel))
 
129
  #pass
130
 
131
 
132
+ examples = [["Introducci贸n al an谩lisis de riesgos competitivos bajo el enfoque de la funci贸n de incidencia acumulada (FIA) y su aplicaci贸n con R"], ["Los promedios de calificaciones y clasificar por grupo o asignatura se realizaron a trav茅s de tablas din谩micas en Excel"]]
133
 
134
  if __name__ == "__main__":
135
  gr.Interface(
136
  fn=thesis_prediction,
137
  inputs=gr.inputs.Textbox(
138
  lines=2,
139
+ placeholder="Ingrese de favor el t铆tulo de la tesis o un fragmento de esta."
140
  ),
141
  outputs=["text"],
142
  title=title,