Ce repo est l'implémentation de Analyse sémantique AMR pour le français par transfert translingue (Kang et al., 2023).
Le code est testé en Python 3.9. Il est fortement recommandé d'utiliser conda pour gérer l'environment. Pour installer les packages nécessaires, exécutez la commande suivante :
pip install -r requirements.txt
Importez le package AMR pour le prétraitement + évaluation + post-traitement de graphes AMR avec la commande suivante sur le root du project:
git clone https://github.com/RikVN/AMR.git
Cela devrait créer French_AMR_Parser/AMR
dans ce projet.
-
AMR
-
UCCA
- Pour télécharger les données,
./download_ucca_corpus.sh
- Pour télécharger les données,
-
Corpus Parallèle
- Pour télécharger les données,
./download_parallel_corpus.sh
. Cela peut prendre plus que 30 minutes ⏳
- Pour télécharger les données,
-
Prétraitement d'AMR
- Pour faire prétraitement (linéarisation) d'AMR, nous utilisons le script de Van Noord. Voir le repo originel pour plus de détails.
- Après la linéarisation, les données doivent structurées comme suit :
- data - AMR - training - en - train.graph # Structured AMR graph, delimited with a blank line - train.txt.sent # Sentences corresponding to the AMR graphs - train.txt.tf # Linearized AMR graph - dev - en - test - en - fr - de ...
-
Prétraitement de UCCA
./preprocess_ucca_corpus.sh
- Ce processus va créer des graphes UCCA linéarisés dans le dossier
data/UCCA
-
Prétraitement du corpus parallèle
./preprocess_parallel_corpus.sh
- Ce processus va filtrer des paires de phrases parallèles selon leur longueur, ratio entre les caractères alignés.
./run_training.sh
- Pour voir plus sur les paramètres, consultez le script
scripts/train_amr_parser.py
/.run_test.sh
- Pour voir plus sur les paramètres, consultez le script
scripts/run_test.py
Kang J., Coavoux M., Lopez C., Scwhab D. (2023) Analyse sémantique AMR pour le français par transfert translingue : 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2023)