Skip to content

Latest commit

 

History

History
25 lines (18 loc) · 1.41 KB

README.md

File metadata and controls

25 lines (18 loc) · 1.41 KB

MyWiki

Ce dépôt contient divers fichiers permettant de valoriser les dumps de Wikipédia disponibles à ce lien.

Possibilités

Il y a des fonctions permettant

  • de récupérer tous les titres d'articles d'un fichier .xml
  • de transformer le .xml en une base Sqlite
  • d'afficher le tout avec un interface tkinter simple

Contenu

  • un notebook MyWiki.ipynb contenant un guide pour créer sa propre GUI affichant les contenus textes de wikipédia (utilisation du galicien dans notre cas mais cela peut-être changé)
  • un dossier src avec un script bash pour récupérer les dumps et les transformer en fichier texte
  • dossier docs contenant le rapport rendu en cours (format .pdf et .qmd), on y trouve des informations sur l'infrastructure Wikipédia et une présentation sur la mise en pratique.
  • les dossiers output_csv, dumps, DB et text qui sont vides mais sont nécessaires pour l'arborescence, ils doivent recevoir les dumps téléchargés depuis le site de Wikipédia, les outputs en csv et les textes (de WikiExtractor)
  • le dossier img avec des images de la GUI et des images utilisées dans le rapport de docs pour le rendu du .qmd
  • ce README.md présentant succintement le rapport

Requirements

  • Python 3.9+ avec pandas, tkinteret sqlite3installés
  • Bash (système Unix) avec curl installé
  • Wikipedia.Extractor (installable via pip)