TAC

Ce répertoire contient le matériel pour le cours de "Traitement automatique de corpus" (STIC-B545) donné à l'ULB pour l'année académique 2022-2023.

Installation

Créez un compte Github et générez un fork du répertoire tac. Votre version du répertoire se trouvera alors à l'adresse https://github.com/<YOUR-GITHUB-ID>/tac
Téléchargez et installez une version récente de Python (>= 3.9)
- !! Pour les utilisateurs Windows, au moment de l'installation, cochez la case "Add Python 3.XX to PATH" et préférez installer Python à la racine du disque (C:\Python310) via le custom install.
- !! Si votre ordinateur ne supporte pas les versions récentes de Python, vous pouvez utiliser une machine virtuelle Docker. Vous trouverez les instructions ici
Téléchargez et installez Visual Studio Code
Téléchargez et installez Git
Dans Visual Studio Code, ouvrez un terminal (Terminal > New Terminal) et déplacez-vous dans le dossier qui contiendra les documents du cours (utilisez la commande cd)
Exécutez dans l'ordre les commandes suivantes:

Windows:

Set-ExecutionPolicy -Scope CurrentUser RemoteSigned
git clone https://github.com/<YOUR-GITHUB-ID>/tac
cd tac
pip install virtualenv
virtualenv tac_venv --python=python3
.\tac_venv\Scripts\activate
pip install -r requirements.txt
python -m spacy download fr_core_news_md

Linux / MacOS:

git clone https://github.com/<YOUR-GITHUB-ID>/tac
cd tac
pip install virtualenv
virtualenv tac_venv --python=python3 (ou: python3 -m venv tac_venv)
source tac_venv/bin/activate
pip install --upgrade pip
pip install wheel
pip install -r requirements.txt
python -m spacy download fr_core_news_md

Vous pouvez maintenant utiliser et exécuter le code qui se trouve dans les notebooks (fichiers .ipynb) en choisissant l'environnement tac_venv (en haut à droite de votre écran)

Module 1

s1_sql: requêtes dans une base de données SQL

s2_sparql: requêtes sur l'endpoint SPARQL de Wikidata

s3_api: requêtes sur les APIs OpenStreetMap et EUcountries

s4_scrape: scraping d'articles dans les archives du journal Le Soir

Module 2

s1_convert: conversion de fichiers .pdf en fichier .txt, et aggrégation en un long fichier texte

s2_explore: statistiques de fréquences de fichiers

s3_freq: Analyse des fréquences, des hapax, recherche des mots les plus longs...

Module 3

Extraction de mots-cls

s1_keyword: utilisation de YAKE pour extraire des keywords au sein de chacun des fichiers

s2_wordcloud: génération d'un nuage de mots

Reconnaissance d'entités nommées

s3_ner: reconnaissance d'entités à l'aide d'un modèle SpaCy

Analyse de sentiments

s4_sentiment: analyse de sentiment à l'aide de Textblob

Module 4

s1_classification: classification supervisée de textes

s2_clustering: clustering non supervisé à l'aide de K-means

s3_sentence_tokenizer: séparation de textes en phrases

s4_word_embeddings: exploration du modèle Word2Vec sur un corpus

Module 5

s1_language_detection: identification de la langue d'un texte

s2_machine_translation: traduction automatique à l'aide de modèle transformers

s3_anonymization: anonymisation/pseudonymisation de données with Faker

Module 6

s1_extraction: extraction de texte à partir de formats variés

s2_fuzzy_matching: correction d'erreurs OCR à l'aide de distances d'édition

Name		Name	Last commit message	Last commit date
Latest commit History 325 Commits
TAC1		TAC1
TP2		TP2
TP3		TP3
TP4		TP4
module1		module1
module2		module2
module3		module3
module4		module4
module5		module5
module6		module6
pdf		pdf
.gitignore		.gitignore
.pylintrc		.pylintrc
1940_clean.txt		1940_clean.txt
1946_clean.txt		1946_clean.txt
1954_clean.txt		1954_clean.txt
1963_clean.txt		1963_clean.txt
Dockerfile		Dockerfile
Installation_Docker.md		Installation_Docker.md
LICENSE		LICENSE
README.md		README.md
TP1.ipynb		TP1.ipynb
clusters (N=3).png		clusters (N=3).png
clusters (N=4).png		clusters (N=4).png
docker-compose.yml		docker-compose.yml
newspapers.model		newspapers.model
nombre de clusters optimal.png		nombre de clusters optimal.png
nuage des mots- cluster 1.png		nuage des mots- cluster 1.png
nuage des mots- cluster 2.png		nuage des mots- cluster 2.png
nuage des mots- cluster 3.png		nuage des mots- cluster 3.png
nuages des mots-photo.png		nuages des mots-photo.png
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TAC

Installation

Module 1

Module 2

Module 3

Extraction de mots-cls

Reconnaissance d'entités nommées

Analyse de sentiments

Module 4

Module 5

Module 6

About

Releases

Packages

Languages

License

afkirm/tac

Folders and files

Latest commit

History

Repository files navigation

TAC

Installation

Module 1

Module 2

Module 3

Extraction de mots-cls

Reconnaissance d'entités nommées

Analyse de sentiments

Module 4

Module 5

Module 6

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages