-
Notifications
You must be signed in to change notification settings - Fork 0
/
README
48 lines (39 loc) · 1.88 KB
/
README
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
#
# FreeLing: Português Europeu
#
# Pablo Gamallo Otero <[email protected]>
# Marcos Garcia González <[email protected]>
# Grupo ProLNat
# Departamento de Língua Espanhola
# Universidade de Santiago de Compostela
# http://gramatica.usc.es/pln
#
# Isaac González López <[email protected]>
# Iria Gayo <[email protected]>
# Cilenis Language Technology
# http://www.cilenis.com
#
Adaptação e avaliação:
Garcia, Marcos and Pablo Gamallo, 2010. Análise Morfossintáctica para Português
Europeu e Galego: Problemas, Soluções e Avaliação. Linguamática, 2(2), p. 59-67.
http://linguamatica.com/index.php/linguamatica/article/download/56/87
Corpus de treino utilizado (PoS-tagger e NER bio):
-Bosque 8.0 da Linguateca (http://www.linguateca.pt/Floresta/corpus.html#bosque):
parte da Floresta Sintá(c)tica etiquetada manualmente.
-Aprox. 9.300 frases e 138.000 tokens.
-Adaptado para o formato requerido pelo Freeling.
-Mudanças para adaptá-lo ao dicionário (lemas e categorias) e correcções.
Corpus de treino utilizado (NEC):
-Bosque 8.0 da Linguateca.
-Dois corpora (Wikipedia e Europarl) de 30.000 tokens cada um.
Dicionário utilizado:
-Label-Lex (SW) do Label (http://label.ist.utl.pt/pt/downloads_pt.php): léxico de palavras simples.
-Aprox. 900.000 tokens gerados a partir de 120000 lemas.
-Adaptado para o formato requerido pelo Freeling.
-Mudanças para adaptá-lo ao corpus e modificações de alguns lemas e/ou categorias.
Propriedades:
-Tagset: adaptação do Parole.
-Enquanto os verbos com pronomes mesoclíticos são lematizados com a forma normal do verbo:
comê-lo-ão > comerão + o, com pronome clítico são lematizados pelo alomorfe: fazê-lo > fazê (VMN) + o.
-Locuções extraídas automaticamente do corpus.
-O dicionário não contém palavras compostas (com traço), nem expressões multipalavra (só as extraídas automaticamente em locucions.dat).