Skip to content

Commit

Permalink
Ajoute des scores.
Browse files Browse the repository at this point in the history
  • Loading branch information
raphaelventura committed Apr 24, 2024
1 parent c393bda commit 580e704
Show file tree
Hide file tree
Showing 2 changed files with 19 additions and 1 deletion.
2 changes: 1 addition & 1 deletion algorithme-evaluation.md
Original file line number Diff line number Diff line change
Expand Up @@ -77,7 +77,7 @@ On exclut du périmètre les entreprises :

Le modèle employé est une forêt aléatoire (implémentation [pyspark](https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.classification.RandomForestClassifier.html)) pour la classification, avec les paramètres spécifiques suivants : `{"maxDepth": 9, "numTrees": 100, "featureSubsetStrategy": "sqrt"}`.

L'entraînement (ou l’évaluation) a lieu sur un jeu de données localisées entre janvier 2016 et une date à laquelle le statut de défaillance à 18 mois est connu pour l’ensemble des entreprises considérées — ceci étant une condition nécessaire à la construction de la cible d’apprentissage en tout point du jeu. Un échantillon est défini comme un vecteur $X \in \mathbb(R)^n$ de n caractéristiques rassemblant un certain nombre d’informations concernant une entreprise à un instant donné. Formellement, chaque ligne du jeu est associée à un couple `(SIREN, période)` distinct, le pas de temps entre deux échantillons d’une même entreprise étant le mois.
L'entraînement (ou l’évaluation) a lieu sur un jeu de données localisées entre janvier 2016 et une date à laquelle le statut de défaillance à 18 mois est connu pour l’ensemble des entreprises considérées — ceci étant une condition nécessaire à la construction de la cible d’apprentissage en tout point du jeu. Un échantillon est défini comme un vecteur $X \in R^n$ de $n$ caractéristiques rassemblant un certain nombre d’informations concernant une entreprise à un instant donné. Formellement, chaque ligne du jeu est associée à un couple `(SIREN, période)` distinct, le pas de temps entre deux échantillons d’une même entreprise étant le mois.

La prédiction produit, pour un échantillon associé à un couple `(SIREN, période)` une prédiction pour les 18 mois suivant la période choisie.

Expand Down
18 changes: 18 additions & 0 deletions evaluation-modele/mars2024.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,18 @@
Risque élevé :

- $F_{0.5}$ : 0.55
- Précision : 0.62
- Rappel : 0.37
- Exactitude pondérée : 0.68

Risque modéré :

- $F2$ : 0.58
- Précision : 0.36
- Rappel : 0.69
- Exactitude pondérée : 0.82

Métriques globales :

- Aire sous la courbe ROC : 0.93
- Précision moyenne : 0.51

0 comments on commit 580e704

Please sign in to comment.