From 580e7048928750364310b28950b00f6a3f3bad84 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Rapha=C3=ABl=20Ventura?= Date: Wed, 24 Apr 2024 17:43:22 +0200 Subject: [PATCH] Ajoute des scores. --- algorithme-evaluation.md | 2 +- evaluation-modele/mars2024.md | 18 ++++++++++++++++++ 2 files changed, 19 insertions(+), 1 deletion(-) create mode 100644 evaluation-modele/mars2024.md diff --git a/algorithme-evaluation.md b/algorithme-evaluation.md index 3503053..64ac028 100644 --- a/algorithme-evaluation.md +++ b/algorithme-evaluation.md @@ -77,7 +77,7 @@ On exclut du périmètre les entreprises : Le modèle employé est une forêt aléatoire (implémentation [pyspark](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.classification.RandomForestClassifier.html)) pour la classification, avec les paramètres spécifiques suivants : `{"maxDepth": 9, "numTrees": 100, "featureSubsetStrategy": "sqrt"}`. -L'entraînement (ou l’évaluation) a lieu sur un jeu de données localisées entre janvier 2016 et une date à laquelle le statut de défaillance à 18 mois est connu pour l’ensemble des entreprises considérées — ceci étant une condition nécessaire à la construction de la cible d’apprentissage en tout point du jeu. Un échantillon est défini comme un vecteur $X \in \mathbb(R)^n$ de n caractéristiques rassemblant un certain nombre d’informations concernant une entreprise à un instant donné. Formellement, chaque ligne du jeu est associée à un couple `(SIREN, période)` distinct, le pas de temps entre deux échantillons d’une même entreprise étant le mois. +L'entraînement (ou l’évaluation) a lieu sur un jeu de données localisées entre janvier 2016 et une date à laquelle le statut de défaillance à 18 mois est connu pour l’ensemble des entreprises considérées — ceci étant une condition nécessaire à la construction de la cible d’apprentissage en tout point du jeu. Un échantillon est défini comme un vecteur $X \in R^n$ de $n$ caractéristiques rassemblant un certain nombre d’informations concernant une entreprise à un instant donné. Formellement, chaque ligne du jeu est associée à un couple `(SIREN, période)` distinct, le pas de temps entre deux échantillons d’une même entreprise étant le mois. La prédiction produit, pour un échantillon associé à un couple `(SIREN, période)` une prédiction pour les 18 mois suivant la période choisie. diff --git a/evaluation-modele/mars2024.md b/evaluation-modele/mars2024.md new file mode 100644 index 0000000..31dc732 --- /dev/null +++ b/evaluation-modele/mars2024.md @@ -0,0 +1,18 @@ +Risque élevé : + +- $F_{0.5}$ : 0.55 +- Précision : 0.62 +- Rappel : 0.37 +- Exactitude pondérée : 0.68 + +Risque modéré : + +- $F2$ : 0.58 +- Précision : 0.36 +- Rappel : 0.69 +- Exactitude pondérée : 0.82 + +Métriques globales : + +- Aire sous la courbe ROC : 0.93 +- Précision moyenne : 0.51