Skip to content

Commit

Permalink
test: add stop words (#269)
Browse files Browse the repository at this point in the history
* test: add stop words

* add more stop words
  • Loading branch information
polomarcus authored Oct 14, 2024
1 parent e48756e commit 3631235
Show file tree
Hide file tree
Showing 3 changed files with 28 additions and 2 deletions.
3 changes: 2 additions & 1 deletion quotaclimat/data_processing/mediatree/detect_keywords.py
Original file line number Diff line number Diff line change
Expand Up @@ -108,10 +108,11 @@ def filter_keyword_with_same_timestamp(keywords_with_timestamp: List[dict])-> Li
return keywords_with_timestamp

def remove_stopwords(plaintext: str) -> str:
logging.debug(f"Removing stopwords {plaintext}")
stopwords = STOP_WORDS
for word in stopwords:
plaintext = plaintext.replace(word, '')

return plaintext

@sentry_sdk.trace
Expand Down
12 changes: 11 additions & 1 deletion quotaclimat/data_processing/mediatree/keyword/stop_words.py
Original file line number Diff line number Diff line change
Expand Up @@ -46,6 +46,7 @@
,"installateur panneaux de photovoltaïques"
,"installateurs de panneaux photovoltaïques"
,"installateur de panneaux photovoltaïques"
,"panneaux photovoltaïques et même sur les vêtements"
,"installateur de panneaux solaires"
,"installateurs de panneaux solaires"
,"verlaine installation de panneaux solaires"
Expand Down Expand Up @@ -85,6 +86,9 @@
,"on installe des panneaux photovoltaïques borne de recharge"
,"on installe des panneaux photovoltaïques des bornes de recharge"
,"le leader du photovoltaïque"
,"leader photovoltaïque"
,"leader chez du les photovoltaïque"
,"chez les photovoltaïque particuliers"
,"en train d"
,"consigne de vote"
,"climat de confiance"
Expand Down Expand Up @@ -205,8 +209,10 @@
,"grâce à vous qui trier vos bouteilles"
,"nous les recycle pour en faire de nouvelles"
,"cristalline est capable de recycler"
,"cristallines est capable de recycler"
,"cristalline et capable de recycler"
,"vos bouteilles nous les recycler"
,"cristallines et capable de recycler"
,"trier vos bouteilles nous les recycler"
,"recycler des lunettes"
,"est capable de recycler recycler"
,"recycler des milliers de tonnes"
Expand All @@ -218,6 +224,7 @@
,"pour recycler votre épave"
,"la recycler la vieille"
,"ou les notices de panneaux photovoltaïques"
,'leader du photovoltaïque'
,"grâce aux dons à la réparation au recyclage"
,"renforcement de nos filières de recyclage"
,"est partout en france le recyclage de pare-brise"
Expand Down Expand Up @@ -276,6 +283,7 @@
,"pêche durable liddell"
,"pêche durable littell"
,"pêche durable l' idéal"
,"saumon ici issus de la pêche durable"
,"maprimerénov leroy"
,"maprimerénov et économiser jusqu' à"
,"maprimerénov une offre comme ça même chez lapeyre"
Expand Down Expand Up @@ -339,6 +347,7 @@
,"issu de l' agriculture biologique en boutique"
,"agriculture biologique pour les produits de beauté"
,"vous aimez les voitures électriques" # renault
,"renault fabrique et entretient des voitures électriques"
,"and roll des voitures électriques"
,"conduisiez une voiture électrique l' application"
,"engie pourquoi l' ordinaire devrait être la norme"
Expand All @@ -348,4 +357,5 @@
,"sans pesticides pour des recettes"
,"chez céréales bio"
,"agir pour la préserver découvrez comment" #gouv.fr
,"oasis de verdure au milieu"
]
15 changes: 15 additions & 0 deletions test/sitemap/test_keywords.py
Original file line number Diff line number Diff line change
@@ -0,0 +1,15 @@
import logging
import os
import pandas as pd
from quotaclimat.data_processing.mediatree.utils import *
from quotaclimat.data_processing.mediatree.detect_keywords import *

def test_get_remove_stopwords_recycler():
ad = "nous les recycler pour en faire de nouvelles en fabriquant nous-mêmes du plastique recyclé pour cela nous avons créé trois usines exclusivement dédié au recyclage dès cette année cristallines est capable de recycler autant de bouteilles"

assert remove_stopwords(ad) == " de nouvelles en fabriquant pour cela nous avons créé dès cette année autant de bouteilles"

def test_get_remove_stopwords_no_modification():
ad = "no keywords"

assert remove_stopwords(ad) == ad

1 comment on commit 3631235

@github-actions
Copy link

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Coverage

Coverage Report
FileStmtsMissCoverMissing
postgres
   insert_data.py43784%36–38, 56–58, 63
   insert_existing_data_example.py19384%25–27
postgres/schemas
   models.py1571193%126–133, 146, 148–149, 214–215, 229–230
quotaclimat/data_ingestion
   scrap_sitemap.py1341787%27–28, 33–34, 66–71, 95–97, 138–140, 202, 223–228
quotaclimat/data_ingestion/ingest_db
   ingest_sitemap_in_db.py553733%21–42, 45–58, 62–73
quotaclimat/data_ingestion/scrap_html
   scrap_description_article.py36392%19–20, 32
quotaclimat/data_processing/mediatree
   api_import.py21113337%44–48, 53–74, 78–81, 87, 90–132, 138–153, 158, 171–183, 187–193, 206–218, 221–225, 231, 266–267, 270–301, 304–306
   channel_program.py1625765%21–23, 34–36, 53–54, 57–59, 98–99, 108, 124, 175–216
   config.py15287%7, 16
   detect_keywords.py223996%222, 280–287, 323
   update_pg_keywords.py674927%15–108, 132, 135, 142–157, 180–206, 213
   utils.py792568%29–53, 56, 65, 86–87, 117–120
quotaclimat/utils
   healthcheck_config.py291452%22–24, 27–38
   logger.py241154%22–24, 28–37
   sentry.py11282%22–23
TOTAL129238071% 

Tests Skipped Failures Errors Time
97 0 💤 0 ❌ 0 🔥 7m 54s ⏱️

Please sign in to comment.