Informe Proyecto Final Sistemas de Recuperación de Información

Informe Proyecto Final Sistemas de Recuperación de Información

Integrantes:

Javier A. Oramas López C312
Lia Zerquera Ferrer C312
Daniel A. Cárdenas Cabrera C311

Pasos para ejecutar:

Si ocurre un error a la hora de ejecutar lo comandos, sustituir pip por pip3 y python por python3
Este proyecto fue desarrollado con python 3.9.7, versiones anteriores no se garantiza compatibilidad

pip install -r requirements.txt

python webui.py

Abrir en navegador http://localhost:5000 Abrirá un navegador con una barra de búsqueda en la que se podrán introducir las querys.

Justo al lado se encuentra el botón buscar y un dropdown para seleccionar el modelo con que se desea ejecutar la query sobre el corpus

Los resultados serán mostrados en forma de tabla justo debajo de la barra de búsqueda

El software está desarrollado sobre Flask, utilizando la biblioteca InformationRetrievalSystem que fue desarrollada para unificar los tres modelos implementados y funcionar de interface para utilizarlos
Se implementó de forma tal que también puede ser utilizado como biblioteca separada y con total soporte a los corpus disponibles en ir_datasets, además de poder cargar corpus desde una dirección en el almacenamiento, solo se debe garantizar que se encuentre en archivos de texto plano.

Modelos Implementados

Los modelos se manejan desde la clase InformationRetrievalSystem en system.py, esta posee la funcionalidad de cargar los corpus de ir_dataset o desde una ruta especificada, la cual esta implementada en la clase CorpusLoader en corpus_loader.py. Al cargar un corpus se construye el diccionario vocabulary_dict que tiene como llaves todas las palabras del corpus y como valores diccionarios q tienen como llaves los id de los documentos donde aparece la palabra y como valor la frecuencia con que aparece en ese documento. Tambien se construye el diccionario documents que tiene como llaves los id de los documentos del corpus y como valor una Clase DocumentData que tiene información útil de cada documento como la cantidad de veces que esta la palabra que más se repite o el total de pabalabras.
Todos los modelos implementados utilizan estos diccionarios para realizar sus operaciones.
Cuenta además con la funcionalidad de testear todas las queries de un dataset de ir_datasets mostrando las medidas de evaluacion por cada query. Las medidas de evaluacion implementadas pueden encontrarse en evaluation_measures.py

Modelo Booleano

Este modelo fue seleccionado para filtrar un corpus de datasets de kaggle (particularmente datasets relacionados con el fútbol) y se utilizó como una herramienta que puede ayudar a determinar cuales datasets pueden contener información relevante (por ejemplo se desean encontrar los datasets que tienen información de Messi con la selección Argentina la consulta sería: Messi & Argentina). Está orientado a un usuario especializado que sabe exactamente qué busca, por esto se consideró que es el mejor modelo para esto.

Modelo Fuzzy

Este modelo tiene un funcionamiento simular al fuzzy en cuanto a la manera de leer la query y leer los documentos, difieren en primera instancia en cuanto a implementación en la manera de procesar la query ya que el fuzzy, necesita la misma en forma normal diyuntiva completa, una vez que tenemos de la manera correcta para este modelo, se debe analizar el conjunto de documentos para determinar que nivel de relevaancia. Para esta tarea se siguieron los siguientes pasos:

Se calculo el grado de pertenencia de cada documento del corpus al conjunto difuso de cada término de la consulta utilizando la siguiente fórmula:
$F (d, t) = t f \times i d f$ , donde tf = the number of occurrences of query term t in d/the number of all words in d e idf = log(the total number of documents in the retrieved set / the number of documents indexed by query term t+1)
La ecuación anterior es obtenida del siguiente paper Fuzzy Information Retrieval Based on Continuous Bag-of-Words Model, que se puede encontrar en este link https://www.mdpi.com/2073-8994/12/2/225/htm
Luego se calcula la relevancia del documento,utilizando la siguiente fórmula:
$r = 1 - \prod 1 - c c_{i j}$ , donde $c c_{i j}$ es la relevancia del documento i con respecto al término j
Esta fórmula fue obtenida del seminario Modelo de Recuperación de información Fuzzy de Andy Rosquet y Relando Sanchéz curso 2021-2022
El escenario para el cual fue diseñado este modelo fue el siguiente: Para investigadores, cuando van a iniciar un proyecto, necesitan hacer una búsqueda del estado del arte, donde necesitan tener coicidencias parciales para saber las diferentes ramas donde se esta usando la técnica, precedimiento o concépto que esta investigando.

Modelo Vectorial

Para el calculo del idf se utilizó la fórmula $i d f = l o g [(1 + N) / (1 + n)] + 1$ que es un poco diferente a la fórmula clasica, la explicación de por que se escogio esta forma se encuentra en la documentacion de sklearn.

Modelo de semántica latente

La clase SliModel donde se implementa el modelo de semántica latente hereda de VectorialModel para reutilizar las funciones de crear la matriz de términos y documentos, se utilizan las fórmulas presentadas en el seminario de Niley Gonzales y Arian Pazo 2022 pero como matriz A para descomponer se escoge la representacion de $t f * i d f$ en vez de simplemente la matriz de frecuencias

Errores y Recomendaciones

Probar otros datasets aparte de Cranfield para evaluar la efectivad y eficiencia de los modelos con consultas diferentes y muchos más documentos

Probar como se afectan las medidas de evaluación en los modelos al eliminar ciertos tipos de palabras de los documentos

Probar otros tipos de tokenizadores como el de spacy y ver cual da mejor resultado

Se recomienda añadir soporte a archivos que no estén en texto plano: PDF, Word entre otros.

Name	Name	Last commit message	Last commit date
Latest commit JavierOramas Merge branch 'main' of https://github.com/geeksLabTech/SRI_FINAL Dec 21, 2022 27a2ca4 · Dec 21, 2022 History 127 Commits
__pycache__	__pycache__	-	Dec 21, 2022
static	static	added favicon	Dec 15, 2022
templates	templates	fixed negation in boolean	Dec 21, 2022
.gitignore	.gitignore	verify .cache	Dec 19, 2022
boolean_model.py	boolean_model.py	-	Dec 21, 2022
corpus_loader.py	corpus_loader.py	-	Dec 21, 2022
document_data.py	document_data.py	Changes to be committed:	Dec 19, 2022
download_data.py	download_data.py	final state of boolean model 0 in all ratings	Dec 15, 2022
evaluation_measures.py	evaluation_measures.py	Update evaluation_measures.py	Dec 20, 2022
fuzzy_model.py	fuzzy_model.py	Clean fuzzy_model	Dec 21, 2022
main.py	main.py	webui improved	Dec 6, 2022
my_notebook.ipynb	my_notebook.ipynb	-	Dec 21, 2022
query_tools.py	query_tools.py	minor errors fixed	Dec 15, 2022
readme.md	readme.md	tildes en el readme	Dec 21, 2022
requirements.txt	requirements.txt	report	Dec 17, 2022
sli_model.py	sli_model.py	Reimplement sli model	Dec 21, 2022
system.py	system.py	-	Dec 21, 2022
test_models.ipynb	test_models.ipynb	-	Dec 21, 2022
tokenizer.py	tokenizer.py	-	Dec 21, 2022
tools.py	tools.py	working on boolean test	Dec 15, 2022
trie.py	trie.py	SLI model, but needs to get the words, now it just gests the ending n…	Dec 20, 2022
vectorial_model.py	vectorial_model.py	Speed up vectorial_model precalculating docs_vectors	Dec 21, 2022
vectorization_utils.py	vectorization_utils.py	Create vectorization_utils.py	Dec 21, 2022
webui.py	webui.py	fixed negation in boolean	Dec 21, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Informe Proyecto Final Sistemas de Recuperación de Información

Integrantes:

Pasos para ejecutar:

Modelos Implementados

Modelo Booleano

Modelo Fuzzy

Modelo Vectorial

Modelo de semántica latente

Errores y Recomendaciones

About

Releases

Packages

Contributors 3

Languages

geeksLabTech/SRI_FINAL

Folders and files

Latest commit

History

Repository files navigation

Informe Proyecto Final Sistemas de Recuperación de Información

Integrantes:

Pasos para ejecutar:

Modelos Implementados

Modelo Booleano

Modelo Fuzzy

Modelo Vectorial

Modelo de semántica latente

Errores y Recomendaciones

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages