Skip to content

Latest commit

 

History

History
71 lines (56 loc) · 3.55 KB

README.md

File metadata and controls

71 lines (56 loc) · 3.55 KB

Comparaison de méthodes pour la détection des incels sur Reddit

Description

Ce dépôt contient les scripts utilisés pour lire, nettoyer et échantillonner les données utilisées pour entraîner les modèles décrits dans l'article.

Il contient également les fichiers de résultats obtenus pour chacune des configurations testées en phase d'apprentissage et de test.

Installation

git clone https://github.com/CamilleDemers/incels-detection-reddit.git
pip install -r requirements.txt

Structure du répertoire

Pour exécuter les scripts correctement, le répertoire devrait arborer la structure suivante :

incels-detection-reddit/
├── data/                  # Données brutes et prétraitées 
│   │
│   ├── incels/            # Données prétraitées pour la classe "incels"
│   │   │
│   │   └── the-eye_pushshift/  # Données brutes pour la classe "incels"
│   │
│   ├── neutrals/          # Données prétraitées pour la classe "neutres"
│   │   │
│   │   └── the-eye_pushshift/  # Données brutes pour la classe "neutres"
│   │
│   └── training_datasets/  # Jeux de données pour entraîner les modèles
│
├── src/                   # Scripts pour le prétraitement des données et l'entraînement des modèles
│   │
│   ├── utils/             # Fichiers utilitaires utilisés lors de l'exécution des scripts
│
├── results/               # Fichiers de résultats générés lors de l'exécution des scripts
│
├── .gitignore             # Dossiers et fichiers à ignorer par git
├── README.md              # Description du projet
└── requirements.txt       # Dépendances nécessaires pour rouler les scripts

Utilisation des scripts

# Lire les fichiers de données provenant de The-Eye / PushShift 
python scripts/read_incels_zst_to_csv.py
python scripts/read_incels_zst_to_csv.py

# Constituer les corpus d'apprentissage et de test 
python scripts/build_train_test_datasets.py
 
# Entraîner les modèles et générer les résultats d'apprentissage
python scripts/incels_detection_training.py

# Extraire les traits prédictifs des classes "incels" et "neutres"
python scripts/get_most_predictive_features.py

Informations de contact

Camille Demers : [email protected]


Références des jeux de données utilisés pour entraîner les modèles