Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

feature/data quality #17

Open
wants to merge 8 commits into
base: main
Choose a base branch
from
Open

feature/data quality #17

wants to merge 8 commits into from

Conversation

8huit
Copy link
Collaborator

@8huit 8huit commented Feb 13, 2025

Description

Nocodb : (https://noco.services.dataforgood.fr/dashboard/#/nc/p0dx3u4rkk0ymxl/m8e3rjp5dj2gf5m/Kanban?rowId=23)

Cette PR a pour objectif de proposer une démarche pour évaluer la qualité d'un dataset pour fournir des informations utiles sur le potentiel solaire d'établissement scolaires.
La démarche d'évaluation est structurée par un notebook dédié, qui liste les sources, puis propose une évaluation de la complétude et de la proximité d'une école présente sur plusieurs sources de données.

Comment tester ?

Lancer et exécuter les cellules du notebook data_quality_dataset.ipynb

Pour faciliter la validation de ma PR

  • Les pre-commit passent
  • [ X] Les test unitaires passent
  • [ X] Le code modifié fonctionne en local (bonus : il fonctionne avec docker)
  • J'ai demandé une peer-review à un autre bénévole du projet
  • J'ai ajouté / mis à jour de la documentation sur outline

@machbry
Copy link
Contributor

machbry commented Feb 15, 2025

Super boulot, peux-tu nettoyer les résultats du notebook et ne laisser que le code ?
Tu peux partager les visuels sur outline si besoin :)
Merci à toi

@8huit
Copy link
Collaborator Author

8huit commented Feb 15, 2025 via email

@machbry
Copy link
Contributor

machbry commented Feb 16, 2025

Pour info tu as une librairie vraiment pratique pour calculer des proximités entre valeurs textuelles : https://www.datacamp.com/tutorial/fuzzy-string-python
Je l'avais utilisé lors d'une mission sur une mission avec du NLP, c'était vraiment pratique :)

Sinon de mon côté j'ai noté qu'en l'état une même zone d'activité pouvait être affectée à plusieurs écoles, ce qui n'est pas possible et va conduire à doublonner & surestimer le calcul de potentiel solaire.

Une image qui l'illustre bien :
image

@kelu124 kelu124 added the enhancement New feature or request label Feb 19, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants