Skip to content

Commit

Permalink
Ajoute texte méthodo autour des scores.
Browse files Browse the repository at this point in the history
  • Loading branch information
raphaelventura committed May 28, 2024
1 parent 1b31d5b commit dc48045
Show file tree
Hide file tree
Showing 2 changed files with 24 additions and 5 deletions.
2 changes: 0 additions & 2 deletions algorithme-evaluation.md
Original file line number Diff line number Diff line change
Expand Up @@ -194,8 +194,6 @@ Afin que l'évaluation mesure le mieux possible la performance réelle du modèl

### Choix des métriques

Si l’on retire des jeux de test les cas des entreprises pour lesquelles une défaillance est déjà connue au moment où une prédiction pour les 18 mois à venir est prononcée (signaux « forts »), les échantillons positifs représentent un pourcentage extrêmement faibles de l'ensemble des échantillons traités ; on parle de cible très déséquilibrée.

Dans le contexte de Signaux Faibles, les faux positifs est beaucoup plus acceptable qu'un faux négatif. Ainsi, l’**exactitude rééquilibrée** ([balanced accuracy](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html)) et le **score AUCPR** ([average precision](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html)) se prêtent bien à l'évaluation de notre algorithme au global. On pourra regarder les $F_\beta$ associés à chacun des seuils :

- $F_{0.5}$ et la précision pour le niveau d’alerte « risque fort » ;
Expand Down
27 changes: 24 additions & 3 deletions evaluation-modele/mars2024.md
Original file line number Diff line number Diff line change
@@ -1,18 +1,39 @@
Risque élevé :
<!-- DOCTOC SKIP -->

# Evaluation du modèle Signaux Faibles - mars 2024

## Méthodologie

Cette évaluation porte sur un algorithme d’apprentissage supervisé effectuant un entraînement à partir de données s’étalant de janvier 2016 à février 2024.

La définition de la cible d’apprentissage nous contraint, pour une évaluation en «_conditions réelles_», c’est-à-dire une prédiction portant sur un ensemble de SIREN pour lesquels des données sont présentes dans le jeu d’apprentissage :

- à arrêter l’apprentissage 18 mois avant le début du jeu d’évaluation, afin d’éviter toute fuite de données depuis le jeu d’entraînement vers ce jeu d’évaluation ;
- à conserver une connaissance de l’état de procédure collective située 18 mois en aval du jeu de validation choisi.

Ces deux conditions cumulées ne permettent pour l’instant pas d’évaluer les modèles sur une période post-covid (après le début de l’année 2020) significative.

La méthode proposée ici permet d’évaluer la robustesse du modèle au cours du temps : l’évaluation porte sur des cas déterminés au hasard sur une période s’étendant de janvier 2016 à août 2022 et contient 5M d’échantillons, chacun associé à un couple (SIREN, mois) unique.

## Scores

Les scores associés aux deux catégories de risque définies dans le [document principal](../algorithme-evaluation.md) sont décrits ci-dessous.

### Seuil « Risque élevé »

- $F_{0.5}$ : 0.55
- Précision : 0.62
- Rappel : 0.37
- Exactitude pondérée : 0.68

Risque modéré :
### Seuil « Risque modéré »

- $F2$ : 0.58
- Précision : 0.36
- Rappel : 0.69
- Exactitude pondérée : 0.82

Métriques globales :
### Métriques globales

- Aire sous la courbe ROC : 0.93
- Précision moyenne : 0.51

0 comments on commit dc48045

Please sign in to comment.