Question-Classification

Classifying questions from UIUC's CogComp QC Dataset

Classifying Questions into Coarse (6 classes) and Fine (50 classes) classes.

Text Exploration
Text Cleaning
Obtaing POS Tags, Identifying Named Entities, Lemmas, Syntactic Dependency Relations and Orthographic Features.
Using the obtained properties as Features.
Using a Linear SVM model on the engineered features.

Variations in Features Used	Coarse Set Accuracy	Coarse:Fine Set Accuracy	Fine Set Accuracy
Named Entity Recognition + Lemmas + POS Tags + Syntactic Dependency + Shape	87.8	80.4	80.8
Named Entity Recognition + Lemmas + POS Tags + Syntactic Dependency	87.2	80.6	81.4
Named Entity Recognition + Lemmas + POS Tags	88.2	81.4	81.2
Named Entity Recognition + Lemmas	86.4	80.6	81.6
Lemmas	86.2	80.4	81.6

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
LICENSE		LICENSE
Question Classifier.ipynb		Question Classifier.ipynb
README.md		README.md
question_classification_taxanomy (1) (1).txt		question_classification_taxanomy (1) (1).txt
traininig_dataset (1) (1).txt		traininig_dataset (1) (1).txt
validation_dataset (1) (1).txt		validation_dataset (1) (1).txt