-
Notifications
You must be signed in to change notification settings - Fork 0
stephane1109/ATA
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
# Analyse Textuelle Avancée (ATA) ## Version Version : 0.3.1-beta Date : 29 août 2024 # Auteur : Stéphane Meurisse # Contact : [email protected] # Site Web : https://www.codeandcortex.fr # LinkedIn : https://www.linkedin.com/in/st%C3%A9phane-meurisse-27339055/ # Licence : Ce programme est un logiciel libre : vous pouvez le redistribuer selon les termes de la Licence Publique Générale GNU v3 ## Présentation Mon objectif est de rendre les outils d'analyse textuelle accessibles et efficaces pour tous. Vous pouvez en savoir plus sur mon travail sur mon site web [Code & Cortex](http://www.codeandcortex.fr) ou consulter mon profil [LinkedIn](https://www.linkedin.com/in/st%C3%A9phane-meurisse-27339055/). ## Description L'application **Analyse Textuelle Avancée (ATA)** est un outil de traitement automatique du langage naturel (NLP) conçu pour faciliter l'analyse de textes volumineux. Elle intègre plusieurs algorithmes et techniques d'analyse textuelle, notamment le K-Means, la Classification Ascendante Hiérarchique (CAH), TF-IDF, LDA, ainsi que d'autres outils avancés pour la fouille de texte. ### Fonctionnalités principales - **K-Means** : Regroupe les documents en clusters en fonction de leur similarité textuelle. - **CAH (Classification Ascendante Hiérarchique)** : Crée des clusters de documents avec une approche hiérarchique. - **TF-IDF** : Évalue l'importance des termes dans un corpus. - **LDA (Latent Dirichlet Allocation)** : Identifie les sujets récurrents dans les documents. - **Cooccurrence** : à partir d'un mot clé - **Extraction de commentaires YouTube** : Récupère les commentaires des vidéos YouTube pour analyse. - **Europress html to text** : Convertit les fichiers HTML issus d'Europresse en texte brut. - **PDF to text** : Extrait le texte des fichiers PDF pour analyse. - **Recherche de doublons Europresse** : Identifie les doublons et les articles courts dans les fichiers Europresse. - **Voice to text** : Convertit les fichiers audio en texte (transcription vocale). - **Scraper les commentaires YouTube** : Récupère les commentaires des vidéos YouTube pour analyse. - **MP4 to MP3** : Convertit les fichiers vidéo MP4 en fichiers audio MP3. - **Scraper site web** : html to text** : Récupère le contenu HTML de pages web et le convertit en texte brut - cette finctionnalité est vraiment à l'état de test - **Scraper Radio France (France Inter - France Culture) : Récupère la piste audio - **MP3 to text : converti le mp3 en texte avec l'application whisper d'OpenAi ###A développer - **AFC** : Analyse Factorielle de Correspondance (En construction) - **Adaptation des scripts au modèle Camembert** (En construction) - **Analyse de graph** (En construction) ## Installation des librairies ### Installation de Spacy Spacy est l'une des librairies principales utilisées dans ce projet pour le traitement du langage naturel. Pour installer Spacy, suivez les étapes ci-dessous : 1. **Installer Spacy** : pip install spacy 2. **Installer le modèle de langue large** : Pour le français : python -m spacy download fr_core_news_lg ### Installation des autres librairies Outre Spacy, le projet ATA nécessite d'autres librairies pour fonctionner correctement. Vous pouvez installer toutes les librairies nécessaires en une seule commande : pip install streamlit youtube-transcript-api yt-dlp spacy scikit-learn numpy pandas matplotlib wordcloud google-api-python-client PyMuPDF gensim pyLDAvis sentence-transformers seaborn umap-learn plotly beautifulsoup4 nltk selenium webdriver-manager pydub ### Détails des bibliothèques utilisées streamlit : Utilisé pour créer l'interface utilisateur de l'application. youtube-transcript-api : Permet d'extraire les transcriptions des vidéos YouTube. yt-dlp : Utilisé pour télécharger des vidéos YouTube. os : Bibliothèque standard Python pour les opérations sur le système de fichiers. re : Utilisé pour les expressions régulières. spacy : Utilisé pour le traitement du langage naturel. scikit-learn : Fournit des outils pour l'extraction de caractéristiques, la classification, le clustering, etc. numpy : Bibliothèque pour les opérations mathématiques et la manipulation de tableaux. pandas : Utilisé pour la manipulation de données sous forme de DataFrame. matplotlib : Utilisé pour la création de graphiques. wordcloud : Utilisé pour générer des nuages de mots à partir de texte. google-api-python-client : Utilisé pour interagir avec les API de Google, comme l'API YouTube. datetime : Bibliothèque standard pour manipuler les dates et les heures. fitz (PyMuPDF) : Utilisé pour extraire du texte à partir de fichiers PDF. gensim : Fournit des outils pour la modélisation de sujets (LDA) et la construction de phrases. pyLDAvis : Utilisé pour visualiser les résultats de l'analyse LDA. sentence-transformers : Utilisé pour l'embedding de phrases et le calcul de similarités cosinus. umap-learn : Utilisé pour la réduction de dimensionnalité. plotly : Utilisé pour la création de graphiques interactifs. beautifulsoup4 : Utilisé pour le parsing de documents HTML. nltk : Utilisé pour diverses tâches de traitement du langage naturel comme le tokenization et la gestion des stopwords. scipy : Utilisé pour des calculs scientifiques, notamment pour le clustering hiérarchique. hashlib : Utilisé pour générer des hachages, par exemple pour identifier des doublons. pydub : selenium : webdriver-manager : ### Installation détaillée pip install streamlit pip install youtube-transcript-api pip install yt-dlp pip install spacy python -m spacy download fr_core_news_lg pip install scikit-learn pip install numpy pip install pandas pip install matplotlib pip install wordcloud pip install google-api-python-client pip install PyMuPDF pip install gensim pip install pyLDAvis pip install sentence-transformers pip install umap-learn pip install plotly pip install beautifulsoup4 pip install nltk pip install scipy pip install selenium pip install webdriver-manager pip install pydub pip install selenium pip install webdriver-manager ### Installation de ffmpeg L'installation FFmpeg est requis par yt-dlp pour le téléchargement et la manipulation des vidéos. L'installation peut être delicate surtout sous Mac. Installation sous macOS Ouvrez le terminal. Installez FFmpeg via Homebrew (si Homebrew n'est pas installé, suivez les instructions sur https://brew.sh/) : bash : brew install ffmpeg ### Installation de Whisper pip install git+https://github.com/openai/whisper.git ### Lancer l'Application Dans le terminal python : streamlit run main.py ### Arreter l'application : Si vous souhaitez arrêter l'application, retournez dans votre terminal et appuyez sur Ctrl + C.
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published