Skip to content

livyreal/freeling_pt

Repository files navigation

#
# FreeLing: Português Europeu
#
# Pablo Gamallo Otero <[email protected]>
# Marcos Garcia González <[email protected]>
# Grupo ProLNat
# Departamento de Língua Espanhola
# Universidade de Santiago de Compostela
# http://gramatica.usc.es/pln
#
# Isaac González López <[email protected]>
# Iria Gayo <[email protected]>
# Cilenis Language Technology
# http://www.cilenis.com
#

Adaptação e avaliação:
Garcia, Marcos and Pablo Gamallo, 2010. Análise Morfossintáctica para Português
Europeu e Galego: Problemas, Soluções e Avaliação. Linguamática, 2(2), p. 59-67.

http://linguamatica.com/index.php/linguamatica/article/download/56/87


Corpus de treino utilizado (PoS-tagger e NER bio):
-Bosque 8.0 da Linguateca (http://www.linguateca.pt/Floresta/corpus.html#bosque):
 parte da Floresta Sintá(c)tica etiquetada manualmente.
-Aprox. 9.300 frases e 138.000 tokens.
-Adaptado para o formato requerido pelo Freeling.
-Mudanças para adaptá-lo ao dicionário (lemas e categorias) e correcções.

Corpus de treino utilizado (NEC):
-Bosque 8.0 da Linguateca.
-Dois corpora (Wikipedia e Europarl) de 30.000 tokens cada um.


Dicionário utilizado:
-Label-Lex (SW) do Label (http://label.ist.utl.pt/pt/downloads_pt.php): léxico de palavras simples.
-Aprox. 900.000 tokens gerados a partir de 120000 lemas.
-Adaptado para o formato requerido pelo Freeling.
-Mudanças para adaptá-lo ao corpus e modificações de alguns lemas e/ou categorias.


Propriedades:
-Tagset: adaptação do Parole.
-Enquanto os verbos com pronomes mesoclíticos são lematizados com a forma normal do verbo:
 comê-lo-ão > comerão + o, com pronome clítico são lematizados pelo alomorfe: fazê-lo > fazê (VMN) + o.
-Locuções extraídas automaticamente do corpus.
-O dicionário não contém palavras compostas (com traço), nem expressões multipalavra (só as extraídas automaticamente em locucions.dat).

About

Portuguese data files for FreeLing

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages