Analyse sémantique AMR pour le français par transfert translingue

Ce repo est l'implémentation de Analyse sémantique AMR pour le français par transfert translingue (Kang et al., 2023).

1. Installation

Le code est testé en Python 3.9. Il est fortement recommandé d'utiliser conda pour gérer l'environment. Pour installer les packages nécessaires, exécutez la commande suivante :

pip install -r requirements.txt

Importez le package AMR pour le prétraitement + évaluation + post-traitement de graphes AMR avec la commande suivante sur le root du project:

git clone https://github.com/RikVN/AMR.git

Cela devrait créer French_AMR_Parser/AMR dans ce projet.

2. Télécharger les données

AMR
- AMR est disponible sur LDC et il faut avoir une licence pour télécharger les données.
- Pour les données d'évaluation en français (FR_LPP_GOLD, FR_SILVER), veuillez voir le page data.
UCCA
- Pour télécharger les données, ./download_ucca_corpus.sh
Corpus Parallèle
- Pour télécharger les données, ./download_parallel_corpus.sh. Cela peut prendre plus que 30 minutes ⏳

3. Prétraitement

Prétraitement d'AMR

Pour faire prétraitement (linéarisation) d'AMR, nous utilisons le script de Van Noord. Voir le repo originel pour plus de détails.
Après la linéarisation, les données doivent structurées comme suit :

  - data
      - AMR
        - training
          - en
            - train.graph      # Structured AMR graph, delimited with a blank line
            - train.txt.sent   # Sentences corresponding to the AMR graphs 
            - train.txt.tf     # Linearized AMR graph 
        - dev
          - en
        - test
          - en
          - fr
          - de
          ...

Prétraitement de UCCA
- ./preprocess_ucca_corpus.sh
- Ce processus va créer des graphes UCCA linéarisés dans le dossier data/UCCA
Prétraitement du corpus parallèle
- ./preprocess_parallel_corpus.sh
- Ce processus va filtrer des paires de phrases parallèles selon leur longueur, ratio entre les caractères alignés.

4. Entraînement

./run_training.sh
Pour voir plus sur les paramètres, consultez le script scripts/train_amr_parser.py

5. Evaluation

/.run_test.sh
Pour voir plus sur les paramètres, consultez le script scripts/run_test.py

6. Référence

Kang J., Coavoux M., Lopez C., Scwhab D. (2023) Analyse sémantique AMR pour le français par transfert translingue : 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2023)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Analyse sémantique AMR pour le français par transfert translingue

1. Installation

2. Télécharger les données

3. Prétraitement

4. Entraînement

5. Evaluation

6. Référence

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
data		data
scripts		scripts
README.md		README.md
article_taln2023.pdf		article_taln2023.pdf
download_parallel_corpus.sh		download_parallel_corpus.sh
download_ucca_corpus.sh		download_ucca_corpus.sh
preprocess_mt_corpus.sh		preprocess_mt_corpus.sh
preprocess_ucca_corpus.sh		preprocess_ucca_corpus.sh
requirements.txt		requirements.txt
run_test.sh		run_test.sh
run_training.sh		run_training.sh

Emvista/French-Amr-Parser

Folders and files

Latest commit

History

Repository files navigation

Analyse sémantique AMR pour le français par transfert translingue

1. Installation

2. Télécharger les données

3. Prétraitement

4. Entraînement

5. Evaluation

6. Référence

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages