-
Notifications
You must be signed in to change notification settings - Fork 0
/
de.lang
153 lines (145 loc) · 8.9 KB
/
de.lang
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
#------------------------------------------------------------------------------------------------------------------------------------
#
# database-Section - Definitionen für Wörterbücher
#
# In der database-Section können alle benötigten Wörterbücher angegeben werden.
# Dabei werden folgende Attribute interpretiert:
#
# Attribut Default Bedeutung
# -----------------------------------------------------------------------------
# id Über diese Kurzbezeichnung kann die Datenquelle an anderer Stelle referenziert werden, z.B. bei Attendees
# als source-Attribut.
#
# name Gibt den Ort der Quelldaten an.
#
# def-wc ? Gibt eine Wortklasse vor die verwendet wird, wenn die Datenquelle über keine adäquate Information zur
# Wortklasse eines Eintrags verfügt.
#
# txt-format KeyValue Gibt an, in welchem Format die Quelldaten je Zeile vorliegen. Dabei wird unterschieden zwischen
# SingleWord = Je Zeile ist nur ein Wort (ohne Projektion) angegeben, z.B.
# "Nasenbär\n"
# KeyValue = Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, z.B.
# "John Vorhauer*Vorhauer, John\n"
# WordClass = Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, die aus mehreren
# Lexikalisierungen bestehen kann, z.B.
# "Essen,essen #v Essen #s Esse #s\n"
# MultiValue = Je Zeile sind mehrere Worte angegeben, die als Äquivalenzklasse interpretiert werden, z.B.
# "Fax;Faxkopie;Telefax\n"
# MultiKey
#
# separator (s.Text) Gibt an, durch welches Zeichen eine Textzeile die Grundform von der Projektion trennt. Der Defaultwert ist
# abhängig vom Text-Format: KeyValue='*', WordClass=',' und MultiValue=';'.
#
# use-lex Gibt an, dass bei Mehrwort-Schlüsseln eine Vorab-Lexikalisierung vorgenommen wird durch Zuhilfenahme der
# Wörterbücher, die mit diesem Attribut angegeben werden, z.B. use-lex='sys-dic'.
# Die Vorab-Lexikalisierung von Mehrwortgruppen ermöglicht die leichte Erkennung von allen möglichen
# Dehnungsvarianten. Bei Mehrwort-Wörterbüchern, die ausschließlich Personennamen enthalten, kann dieser Wert
# entfallen, da er nur die Verarbeitungsgeschwindigkeit vermindert ohne die Erkennungsquote zu erhöhen.
#
# ACHTUNG: Wird mit dem Attribut use-lex ein anderes Wörterbuch referenziert, so sollte dieses VOR der ersten Referenzierung
# definiert sein, da es sonst noch nicht existiert!
#
# lingo language definition
---
language:
name: 'Deutsch'
dictionary:
databases:
# Systemwörterbücher
sys-dic: { name: de/lingo-dic.txt, txt-format: WordClass, separator: '=' }
sys-abk: { name: de/lingo-abk.txt, txt-format: WordClass, separator: '=' }
sys-syn: { name: de/lingo-syn.txt, txt-format: KeyValue, separator: '=', def-wc: y }
sys-mul: { name: de/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }
# Benutzerwörterbücher
usr-dic: { name: de/user-dic.txt, txt-format: WordClass, separator: '=' }
# Testwörterbücher
tst-dic: { name: de/test_dic.txt, txt-format: WordClass } # TEST: Lesen von zwei Quellen
tst-syn: { name: de/test_syn.txt, txt-format: MultiValue, def-wc: 'y' } # TEST: Mehrere Datenquellen
tst-syn2: { name: de/test_syn2.txt, txt-format: MultiValue, def-wc: 'y', use-lex: 'sys-dic' } # TEST: Mehrere Datenquellen
tst-mul: { name: de/test_mul.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwˆrterb¸cher
tst-mu2: { name: de/test_mul2.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwˆrterb¸cher
tst-sto: { name: de/test_store.txt, txt-format: WordClass } # TEST: korrespondierende Store-Datei nicht vorhanden
tst-cry: { name: de/test_cry.txt, txt-format: WordClass, crypt } # TEST: Verschl¸sselung
tst-sgw: { name: de/test_singleword.txt, txt-format: SingleWord } # TEST: SingleWord-Format
#
# ts_database (TxtFiles werden automatisch erzeugt!)
sys-lx1: { name: de/lingo-dic.txt, txt-format: WordClass } # TEST: wird automatisch erstellt
tst-sw1: { name: test/de/singleword.txt, txt-format: SingleWord } # TEST: wird automatisch erstellt
tst-sw2: { name: test/de/singleword.txt, txt-format: SingleWord, def-wc: '*' } # TEST: wird automatisch erstellt
tst-sw3: { name: test/de/singleword.txt, txt-format: SingleWord, use-lex: 'sys-lx1' } # TEST: wird automatisch erstellt
tst-sw4: { name: test/de/singleword.txt, txt-format: SingleWord, crypt } # TEST: wird automatisch erstellt
tst-kv1: { name: test/de/keyvalue.txt, txt-format: KeyValue } # TEST: wird automatisch erstellt
tst-kv2: { name: test/de/keyvalue.txt, txt-format: KeyValue, separator: '*' } # TEST: wird automatisch erstellt
tst-kv3: { name: test/de/keyvalue.txt, txt-format: KeyValue, separator: '*', def-wc: 's' } # TEST: wird automatisch erstellt
tst-wc1: { name: test/de/wordclass.txt, txt-format: WordClass, separator: '=' } # TEST: wird automatisch erstellt
tst-mv1: { name: test/de/multivalue.txt, txt-format: MultiValue, separator: ';' } # TEST: wird automatisch erstellt
tst-mk1: { name: test/de/multikey.txt, txt-format: MultiKey } # TEST: wird automatisch erstellt
compositum:
min-word-size: "7"
min-part-size: "3"
max-parts: "5"
min-avg-part-size: "4"
append-wordclass: "+"
skip-sequences: [ xx ]
suffix:
# Suffixliste, Stand: 30-06-2005
# Suffixklasse: s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
# Suffixe je Klasse: "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
- [s, "e en er ern es n s se sen ses"]
- [a, "este ste ster sten stes ester estes esten e em en er ere eren erer eres es"]
- [v, "e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s"]
- [e, "s"]
- [f, "s n e en es er ch/che"]
attendees:
tokenizer:
regulars:
# Define printable characters for tokenizer for utf-8 charsets
- _digit_: '[0-9]'
# Define Basic Latin printable characters for UTF-8 encoding from U+0000 to U+007f
- _baslat_: '[A-Za-z]'
# Define Latin-1 Supplement printable characters for UTF-8 encoding from U+0080 to U+00ff
#- _lat1sp_: '[\xc3\x80-\xc3\x96\xc3\x98-\xc3\xb6\xc3\xb8-\xc3\xbf]'
- _lat1sp_: '\xc3[\x80-\x96\x98-\xb6\xb8-\xbf]'
# Define Latin Extended-A printable characters for UTF-8 encoding from U+0100 to U+017f
#- _latexa_: '[\xc4\x80-\xc4\xbf\xc5\x80-\xc5\xbf]'
- _latexa_: '[\xc4-\xc5][\x80-\xbf]'
# Define Latin Extended-B printable characters for UTF-8 encoding from U+0180 to U+024f
#- _latexb_: '[\xc6\x80-\xc6\xbf\xc7\x80-\xc7\xbf\xc8\x80-\xc8\xbf\xc9\x80-\xc9\x8f]'
- _latexb_: '[\xc6-\xc8][\x80-\xbf]|\xc9[\x80-\x8f]'
# Define IPA Extension printable characters for UTF-8 encoding from U+024f to U+02af
#- _ipaext_: '[\xc9\xa0-\xc9\xbf\xca\xa0-\xca\xaf]'
- _ipaext_: '\xc9[\xa0-\xbf]|\xca[\xa0-\xaf]'
# collect all UTF-8 printable charachters in unicode range U+0000 to U+02af
- _utf8ch_: '_baslat_|_lat1sp_|_latexa_|_latexb_|_ipaext_'
- NUMS: '[+-]?(\d{4,}|\d{1,3}(\.\d{3,3})*)(\.|(,\d+)?%?)'
- URLS: '((mailto:|(news|http|https|ftp|ftps)://)\S+|^(www(\.\S+)+)|[^\s.]+([\._]\S+)+@\S+(\.\S+)+)'
- ABRV: '(((_utf8ch_)+\.)+)(_utf8ch_)+'
- WORD: '(_utf8ch_|_digit_|\-)+'
#- PUNC: '([!,\.:;?]|[\xc2\xa1\xc2\xbf])'
- PUNC: '([!,\.:;?]|\xc2[\xa1\xbf])'
#- OTHR: '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|[\xc2\xa2-\xc2\xac\xc2\xae-\xc2\xbe]|[\xc3\x97\xc2\xb7])'
- OTHR: '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|\xc2[\xa2-\xac\xae-\xbe]|\xc3[\x97\xb7])'
- HELP: '[^ ]*'
variator:
variations:
- [ ieh, sch ]
- [ fec, see ]
- [ it, st ]
- [ fch, sch ]
- [ fp, sp ]
- [ f, s ]
- [ c, e ]
- [ ffc, sse ]
- [ ff, ss ]
- [ e, c ]
- [ ni, m ]
- [ feh, sch ]
- [ lt, st ]
- [ il, st ]
- [ ftc, ste ]
- [ ft, st ]
- [ fl, st ]
- [ li, h ]
- [ i, s ]
sequencer:
sequences: [ [AS, "2, 1"], [AK, "2, 1"], [AAK, "3, 1 2"], [AAS, "3, 1 2"] ]