Text-Based Dataset Search Engine

Welcome to the Text-Based Dataset Search Engine project! This search engine is designed to handle large-scale text-based datasets using positional inverted indexing and ranked retrievals. It offers powerful features to efficiently search and retrieve information from your dataset.

Key Features

1. Indexing Documents

User-Friendly: Our search engine is user-friendly and easy to use. It starts by asking the user for the name of the directory to index.
Document Loading: Once the directory is provided, the search engine loads all the documents in that directory.
Index Construction: It then constructs a positional inverted index with the contents of these documents. This index allows for fast and efficient searching.

2. Boolean Search Queries

Boolean Queries: Users can input Boolean search queries, allowing them to find documents that match specific criteria.
Powerful Filtering: This feature enables powerful filtering and retrieval of documents based on Boolean logic.

3. Ranked Retrieval Queries

Ranked Retrieval: The search engine also supports ranked retrieval queries.
Relevance Ranking: Users can search for documents based on relevance, and the engine will return results ranked by relevance.
Disk-Based Index: Ranked retrieval queries are processed on the disk-based inverted index, ensuring efficient performance even for large datasets.

Name		Name	Last commit message	Last commit date
Latest commit History 124 Commits
.idea		.idea
MobyDick10Chapters		MobyDick10Chapters
all-nps-sites-extracted		all-nps-sites-extracted
documents		documents
dummy-disputed-rocchio		dummy-disputed-rocchio
dummy-disputed		dummy-disputed
dummy-disputed2		dummy-disputed2
dummyjsonfiles		dummyjsonfiles
dummytextfiles		dummytextfiles
dummytextfiles_2		dummytextfiles_2
federalist-papers-disputed		federalist-papers-disputed
federalist-papers-rocchio		federalist-papers-rocchio
federalist-papers		federalist-papers
federalist-papers2		federalist-papers2
federalist_papers_nb		federalist_papers_nb
federalistvocab		federalistvocab
indexes		indexes
mlb-articles-4000		mlb-articles-4000
mlb-articles-small		mlb-articles-small
queries		queries
relevance_cranfield		relevance_cranfield
relevance_parks		relevance_parks
rocchio-disputed		rocchio-disputed
samplejsonfiles		samplejsonfiles
text		text
utf_corpus		utf_corpus
.DS_Store		.DS_Store
.gitattributes		.gitattributes
.gitignore		.gitignore
1.json		1.json
BiWordIndexer.py		BiWordIndexer.py
BooleanQueryIndexer.py		BooleanQueryIndexer.py
InvertedIndexer.py		InvertedIndexer.py
JsonFileInvertedIndexer.py		JsonFileInvertedIndexer.py
Neal_Project_1_Search_Results.pdf		Neal_Project_1_Search_Results.pdf
PositionalInvertedIndexer.py		PositionalInvertedIndexer.py
Precision-Recall-Curve-Default-Query1.png		Precision-Recall-Curve-Default-Query1.png
Precision-Recall-Curve-Okapi-Query1.png		Precision-Recall-Curve-Okapi-Query1.png
Precision-Recall-Curve-Traditional-Query1.png		Precision-Recall-Curve-Traditional-Query1.png
Precision-Recall-Curve-Wacky-Query1.png		Precision-Recall-Curve-Wacky-Query1.png
README.md		README.md
RankedRetrieval.py		RankedRetrieval.py
SoundexIndexer.py		SoundexIndexer.py
TermDocumentIndexer.py		TermDocumentIndexer.py
UnitTestingFramework.py		UnitTestingFramework.py
Vocabulary_Elimination_Analysis.pdf		Vocabulary_Elimination_Analysis.pdf
bayes_classification_data.rtf		bayes_classification_data.rtf
bplus_tree.py		bplus_tree.py
diskindexwriter.py		diskindexwriter.py
docWeights.bin		docWeights.bin
feature_selection.py		feature_selection.py
homework3 - Copy (1).pdf		homework3 - Copy (1).pdf
kNN_main.py		kNN_main.py
kNN_turn_in.txt		kNN_turn_in.txt
main.py		main.py
main_disk.py		main_disk.py
main_disk_variant_formulas.py		main_disk_variant_formulas.py
main_precision_recall_all_queries.py		main_precision_recall_all_queries.py
main_precision_recall_single_query_turnin_with_plot.py		main_precision_recall_single_query_turnin_with_plot.py
merge.py		merge.py
merge_posting.py		merge_posting.py
merge_test.py		merge_test.py
milestone1 .pdf		milestone1 .pdf
milestone2 .pdf		milestone2 .pdf
nb_classifier_main.py		nb_classifier_main.py
oldmain.py		oldmain.py
precision_recall_interactive_main_demo.py		precision_recall_interactive_main_demo.py
ranked_strategy.py		ranked_strategy.py
rocchio_main.py		rocchio_main.py
rocchio_turn_in.txt		rocchio_turn_in.txt
soundexcode.py		soundexcode.py
specialqueries.py		specialqueries.py
term_byteposition.db		term_byteposition.db
variant-ranking-formulas-precision-recall_turnin.txt		variant-ranking-formulas-precision-recall_turnin.txt
vocab_elimination_experiments.csv		vocab_elimination_experiments.csv
vocab_elimination_main_precision_demo.py		vocab_elimination_main_precision_demo.py
vocab_elimination_main_precision_recall_all_queries .py		vocab_elimination_main_precision_recall_all_queries .py
vocab_elimination_results.rtf		vocab_elimination_results.rtf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Text-Based Dataset Search Engine

Key Features

1. Indexing Documents

2. Boolean Search Queries

3. Ranked Retrieval Queries

About

Releases

Packages

Contributors 2

Languages

ShruthiRamu/SearchEngine

Folders and files

Latest commit

History

Repository files navigation

Text-Based Dataset Search Engine

Key Features

1. Indexing Documents

2. Boolean Search Queries

3. Ranked Retrieval Queries

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages