diff --git a/algorithme-evaluation.md b/algorithme-evaluation.md index 2de1831..6d4dc59 100644 --- a/algorithme-evaluation.md +++ b/algorithme-evaluation.md @@ -194,8 +194,6 @@ Afin que l'évaluation mesure le mieux possible la performance réelle du modèl ### Choix des métriques -Si l’on retire des jeux de test les cas des entreprises pour lesquelles une défaillance est déjà connue au moment où une prédiction pour les 18 mois à venir est prononcée (signaux « forts »), les échantillons positifs représentent un pourcentage extrêmement faibles de l'ensemble des échantillons traités ; on parle de cible très déséquilibrée. - Dans le contexte de Signaux Faibles, les faux positifs est beaucoup plus acceptable qu'un faux négatif. Ainsi, l’**exactitude rééquilibrée** ([balanced accuracy](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html)) et le **score AUCPR** ([average precision](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html)) se prêtent bien à l'évaluation de notre algorithme au global. On pourra regarder les $F_\beta$ associés à chacun des seuils : - $F_{0.5}$ et la précision pour le niveau d’alerte « risque fort » ; diff --git a/evaluation-modele/mars2024.md b/evaluation-modele/mars2024.md index 31dc732..9d03252 100644 --- a/evaluation-modele/mars2024.md +++ b/evaluation-modele/mars2024.md @@ -1,18 +1,39 @@ -Risque élevé : + + +# Evaluation du modèle Signaux Faibles - mars 2024 + +## Méthodologie + +Cette évaluation porte sur un algorithme d’apprentissage supervisé effectuant un entraînement à partir de données s’étalant de janvier 2016 à février 2024. + +La définition de la cible d’apprentissage nous contraint, pour une évaluation en «_conditions réelles_», c’est-à-dire une prédiction portant sur un ensemble de SIREN pour lesquels des données sont présentes dans le jeu d’apprentissage : + +- à arrêter l’apprentissage 18 mois avant le début du jeu d’évaluation, afin d’éviter toute fuite de données depuis le jeu d’entraînement vers ce jeu d’évaluation ; +- à conserver une connaissance de l’état de procédure collective située 18 mois en aval du jeu de validation choisi. + +Ces deux conditions cumulées ne permettent pour l’instant pas d’évaluer les modèles sur une période post-covid (après le début de l’année 2020) significative. + +La méthode proposée ici permet d’évaluer la robustesse du modèle au cours du temps : l’évaluation porte sur des cas déterminés au hasard sur une période s’étendant de janvier 2016 à août 2022 et contient 5M d’échantillons, chacun associé à un couple (SIREN, mois) unique. + +## Scores + +Les scores associés aux deux catégories de risque définies dans le [document principal](../algorithme-evaluation.md) sont décrits ci-dessous. + +### Seuil « Risque élevé » - $F_{0.5}$ : 0.55 - Précision : 0.62 - Rappel : 0.37 - Exactitude pondérée : 0.68 -Risque modéré : +### Seuil « Risque modéré » - $F2$ : 0.58 - Précision : 0.36 - Rappel : 0.69 - Exactitude pondérée : 0.82 -Métriques globales : +### Métriques globales - Aire sous la courbe ROC : 0.93 - Précision moyenne : 0.51