Pronoms composés (celui-là...). Cliquer pour détails. #19

mariastefan · 2020-07-01T18:39:42Z

Trouver comment prendre en compte les pronoms composés. Spacy (la librairie d'étiquettage morphosyntaxique) sépare même les mots composés avec un - (celle-ci, celui-là). C'est assez compliqué de prendre en compte ces mots la du coup puisque c'est Spacy qui s'occupe d'étiquetter les mots, et je ne pense pas que ça soit possible de modifier Spacy en lui-même. Il faudrait peut-être utiliser un autre parseur que Spacy mais le problème c'est qu'il a l'air d'être le meilleur en français, CoreNLP par exemple n'a même pas la lemmatisation (en plus c'est en Java, il faudrait prendre 2 jours pour tout réecrire, voir plus puisque c'est pas une simple traduction vu qu'on change le parseur donc plein de choses changent, pas juste la syntaxe).

Après avoir résolu le pb des mots séparés par un - il faudra voir aussi les mots composés sans -

datakime · 2020-07-03T13:25:51Z

je ne pense pas que ça soit possible de modifier Spacy en lui-même.

Si, c'est possible d'en modifier chaque composant pour l'adapter si nécessaire à des besoins spécifiques.
Voir ici pour la tokenisation et là pour les exceptions de tokenisation appliquées en français.

Modification temporaire du tokenizer : utilisation de spacy.matcher et nlp.add_pipe() pour lier les mots séparés par un - ainsi que une liste de mots avec des espaces (pour l'instant seulement "intelligence artificielle") Il va falloir trouver comment sauvegarder ces modifications puisque nlp.to_disk('mon_modele') ne marche pas avec la méthode actuelle.

mariastefan · 2020-07-07T10:00:38Z

Merci beaucoup pour la piste, j'ai trouvé une solution en utilisant la classe Matcher, en espérant que ce n'est pas maladroit.

…ersion. A améliorer. Ref #19 Il faut encore ajouter plus de mots dans la liste de mots composés. Il faut aussi faire marcher le custom training pour le POS tagger, son problème c'est que l'apprentissage se passe avant le tokenizer customisé donc avant que les mots comme 'celui-là' par exemple deviennent un seul token.

Modification temporaire du tokenizer : utilisation de spacy.matcher et nlp.add_pipe() pour lier les mots séparés par un - ainsi que une liste de mots avec des espaces (pour l'instant seulement "intelligence artificielle") Il va falloir trouver comment sauvegarder ces modifications puisque nlp.to_disk('mon_modele') ne marche pas avec la méthode actuelle.

…ersion. A améliorer. Ref #19 Il faut encore ajouter plus de mots dans la liste de mots composés. Il faut aussi faire marcher le custom training pour le POS tagger, son problème c'est que l'apprentissage se passe avant le tokenizer customisé donc avant que les mots comme 'celui-là' par exemple deviennent un seul token.

Modification temporaire du tokenizer : utilisation de spacy.matcher et nlp.add_pipe() pour lier les mots séparés par un - ainsi que une liste de mots avec des espaces (pour l'instant seulement "intelligence artificielle") Il va falloir trouver comment sauvegarder ces modifications puisque nlp.to_disk('mon_modele') ne marche pas avec la méthode actuelle.

…ersion. A améliorer. Ref #19 Il faut encore ajouter plus de mots dans la liste de mots composés. Il faut aussi faire marcher le custom training pour le POS tagger, son problème c'est que l'apprentissage se passe avant le tokenizer customisé donc avant que les mots comme 'celui-là' par exemple deviennent un seul token.

mariastefan changed the title ~~Prendre en compte les pronoms composés (celui-là...). Cliquer pour détails.~~ Pronoms composés (celui-là...). Cliquer pour détails. Jul 1, 2020

mariastefan self-assigned this Jul 1, 2020

mariastefan added prioritaire question Further information is requested labels Jul 1, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pronoms composés (celui-là...). Cliquer pour détails. #19

Pronoms composés (celui-là...). Cliquer pour détails. #19

mariastefan commented Jul 1, 2020 •

edited

Loading

datakime commented Jul 3, 2020

mariastefan commented Jul 7, 2020

Pronoms composés (celui-là...). Cliquer pour détails. #19

Pronoms composés (celui-là...). Cliquer pour détails. #19

Comments

mariastefan commented Jul 1, 2020 • edited Loading

datakime commented Jul 3, 2020

mariastefan commented Jul 7, 2020

mariastefan commented Jul 1, 2020 •

edited

Loading