-
-
Notifications
You must be signed in to change notification settings - Fork 4.4k
/
tokenizer_exceptions.py
84 lines (77 loc) · 2.96 KB
/
tokenizer_exceptions.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
# coding: utf8
from __future__ import unicode_literals
from ...symbols import ORTH, LEMMA
_exc = {}
# Source https://www.cs.tut.fi/~jkorpela/kielenopas/5.5.html
for exc_data in [
{ORTH: "aik.", LEMMA: "aikaisempi"},
{ORTH: "alk.", LEMMA: "alkaen"},
{ORTH: "alv.", LEMMA: "arvonlisävero"},
{ORTH: "ark.", LEMMA: "arkisin"},
{ORTH: "as.", LEMMA: "asunto"},
{ORTH: "eaa.", LEMMA: "ennen ajanlaskun alkua"},
{ORTH: "ed.", LEMMA: "edellinen"},
{ORTH: "esim.", LEMMA: "esimerkki"},
{ORTH: "huom.", LEMMA: "huomautus"},
{ORTH: "jne.", LEMMA: "ja niin edelleen"},
{ORTH: "joht.", LEMMA: "johtaja"},
{ORTH: "k.", LEMMA: "kuollut"},
{ORTH: "ks.", LEMMA: "katso"},
{ORTH: "lk.", LEMMA: "luokka"},
{ORTH: "lkm.", LEMMA: "lukumäärä"},
{ORTH: "lyh.", LEMMA: "lyhenne"},
{ORTH: "läh.", LEMMA: "lähettäjä"},
{ORTH: "miel.", LEMMA: "mieluummin"},
{ORTH: "milj.", LEMMA: "miljoona"},
{ORTH: "Mm.", LEMMA: "muun muassa"},
{ORTH: "mm.", LEMMA: "muun muassa"},
{ORTH: "myöh.", LEMMA: "myöhempi"},
{ORTH: "n.", LEMMA: "noin"},
{ORTH: "nimim.", LEMMA: "nimimerkki"},
{ORTH: "n:o", LEMMA: "numero"},
{ORTH: "N:o", LEMMA: "numero"},
{ORTH: "nro", LEMMA: "numero"},
{ORTH: "ns.", LEMMA: "niin sanottu"},
{ORTH: "nyk.", LEMMA: "nykyinen"},
{ORTH: "oik.", LEMMA: "oikealla"},
{ORTH: "os.", LEMMA: "osoite"},
{ORTH: "p.", LEMMA: "päivä"},
{ORTH: "par.", LEMMA: "paremmin"},
{ORTH: "per.", LEMMA: "perustettu"},
{ORTH: "pj.", LEMMA: "puheenjohtaja"},
{ORTH: "puh.joht.", LEMMA: "puheenjohtaja"},
{ORTH: "prof.", LEMMA: "professori"},
{ORTH: "puh.", LEMMA: "puhelin"},
{ORTH: "pvm.", LEMMA: "päivämäärä"},
{ORTH: "rak.", LEMMA: "rakennettu"},
{ORTH: "ry.", LEMMA: "rekisteröity yhdistys"},
{ORTH: "s.", LEMMA: "sivu"},
{ORTH: "siht.", LEMMA: "sihteeri"},
{ORTH: "synt.", LEMMA: "syntynyt"},
{ORTH: "t.", LEMMA: "toivoo"},
{ORTH: "tark.", LEMMA: "tarkastanut"},
{ORTH: "til.", LEMMA: "tilattu"},
{ORTH: "tms.", LEMMA: "tai muuta sellaista"},
{ORTH: "toim.", LEMMA: "toimittanut"},
{ORTH: "v.", LEMMA: "vuosi"},
{ORTH: "vas.", LEMMA: "vasen"},
{ORTH: "vast.", LEMMA: "vastaus"},
{ORTH: "vrt.", LEMMA: "vertaa"},
{ORTH: "yht.", LEMMA: "yhteensä"},
{ORTH: "yl.", LEMMA: "yleinen"},
{ORTH: "ym.", LEMMA: "ynnä muuta"},
{ORTH: "yms.", LEMMA: "ynnä muuta sellaista"},
{ORTH: "yo.", LEMMA: "ylioppilas"},
{ORTH: "yliopp.", LEMMA: "ylioppilas"},
{ORTH: "ao.", LEMMA: "asianomainen"},
{ORTH: "em.", LEMMA: "edellä mainittu"},
{ORTH: "ko.", LEMMA: "kyseessä oleva"},
{ORTH: "ml.", LEMMA: "mukaan luettuna"},
{ORTH: "po.", LEMMA: "puheena oleva"},
{ORTH: "so.", LEMMA: "se on"},
{ORTH: "ts.", LEMMA: "toisin sanoen"},
{ORTH: "vm.", LEMMA: "viimeksi mainittu"},
{ORTH: "srk.", LEMMA: "seurakunta"},
]:
_exc[exc_data[ORTH]] = [exc_data]
TOKENIZER_EXCEPTIONS = _exc