OffenseEval2020

OffenseEval2020 Competetion

Usage of offensive language on social media is getting more common these days, and there is a need of a mechanism to detect it and control it. This paper deals with offensive language detection in five different languages; English, Arabic, Danish, Greek and Turkish. We presented an almost similar ensemble pipeline comprised of machine learning and deep learning models for all five languages. Three machine learning and four deep learning models were used in the ensemble. In the OffensEval-2020 competition our model achieved F1-score of 0.85, 0.74, 0.68, 0.81, and 0.9 for Arabic, Turkish, Danish, Greek and English language tasks respectively.

Results

Mean 5 fold cross validation result

Technique	Arabic	Turkish	Danish	Greek	English*
Count Vectorizer features	0.80	0.71	0.75	0.76	0.67
TF-IDF Word level features	0.79	0.69	0.71	0.75	0.68
TF-IDF Char level features	0.85	0.73	0.76	0.80	0.69
Bi LSTM followed by Bi GRU	0.84	0.72	0.72	0.78	0.72
Bi LSTM followed by Bi GRU with attention	0.84	0.71	0.73	0.77	0.72
Temporal Convolution Network	0.84	0.72	0.62	0.79	0.71
Convolution Neural Network	0.80	0.71	0.58	0.74	0.72

in english OLID dataset is used

Test Data result

Language	Arabic	Turkish	Danish	Greek	English
F1 Score	0.85191	0.74772	0.682	0.814	0.90925

Position in competetion

Citation

Please cite following paper

@inproceedings{anwar2020tac,
  title={TAC at SemEval-2020 Task 12: Ensembling Approach for Multilingual Offensive Language Identification in Social Media},
  author={Anwar, Talha and Baig, Omer},
  booktitle={Proceedings of the Fourteenth Workshop on Semantic Evaluation},
  pages={2177--2182},
  year={2020}
}

Name		Name	Last commit message	Last commit date
Latest commit History 71 Commits
English		English
discarded files		discarded files
submissions		submissions
README.md		README.md
result.png		result.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OffenseEval2020