Skip to content

Analyse sémantique AMR pour le français par transfert translingue

Notifications You must be signed in to change notification settings

Emvista/French-Amr-Parser

Repository files navigation

Analyse sémantique AMR pour le français par transfert translingue

Ce repo est l'implémentation de Analyse sémantique AMR pour le français par transfert translingue (Kang et al., 2023).

1. Installation

Le code est testé en Python 3.9. Il est fortement recommandé d'utiliser conda pour gérer l'environment. Pour installer les packages nécessaires, exécutez la commande suivante :

pip install -r requirements.txt 

Importez le package AMR pour le prétraitement + évaluation + post-traitement de graphes AMR avec la commande suivante sur le root du project:

git clone https://github.com/RikVN/AMR.git

Cela devrait créer French_AMR_Parser/AMR dans ce projet.

2. Télécharger les données

  • AMR

    • AMR est disponible sur LDC et il faut avoir une licence pour télécharger les données.
    • Pour les données d'évaluation en français (FR_LPP_GOLD, FR_SILVER), veuillez voir le page data.
  • UCCA

    • Pour télécharger les données, ./download_ucca_corpus.sh
  • Corpus Parallèle

    • Pour télécharger les données, ./download_parallel_corpus.sh. Cela peut prendre plus que 30 minutes ⏳

3. Prétraitement

  • Prétraitement d'AMR

    • Pour faire prétraitement (linéarisation) d'AMR, nous utilisons le script de Van Noord. Voir le repo originel pour plus de détails.
    • Après la linéarisation, les données doivent structurées comme suit :
      - data
          - AMR
            - training
              - en
                - train.graph      # Structured AMR graph, delimited with a blank line
                - train.txt.sent   # Sentences corresponding to the AMR graphs 
                - train.txt.tf     # Linearized AMR graph 
            - dev
              - en
            - test
              - en
              - fr
              - de
              ...
    
  • Prétraitement de UCCA

    • ./preprocess_ucca_corpus.sh
    • Ce processus va créer des graphes UCCA linéarisés dans le dossier data/UCCA
  • Prétraitement du corpus parallèle

    • ./preprocess_parallel_corpus.sh
    • Ce processus va filtrer des paires de phrases parallèles selon leur longueur, ratio entre les caractères alignés.

4. Entraînement

  • ./run_training.sh
  • Pour voir plus sur les paramètres, consultez le script scripts/train_amr_parser.py

5. Evaluation

  • /.run_test.sh
  • Pour voir plus sur les paramètres, consultez le script scripts/run_test.py

6. Référence

Kang J., Coavoux M., Lopez C., Scwhab D. (2023) Analyse sémantique AMR pour le français par transfert translingue : 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2023)

About

Analyse sémantique AMR pour le français par transfert translingue

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published