de.lang

#------------------------------------------------------------------------------------------------------------------------------------
#
#  database-Section - Definitionen für Wörterbücher
#
#  In der database-Section können alle benötigten Wörterbücher angegeben werden. 
#  Dabei werden folgende Attribute interpretiert:
#
#  Attribut    Default  Bedeutung
#  -----------------------------------------------------------------------------
#  id                   Über diese Kurzbezeichnung kann die Datenquelle an anderer Stelle referenziert werden, z.B. bei Attendees
#                       als source-Attribut.
#
#  name                 Gibt den Ort der Quelldaten an.
#
#  def-wc      ?        Gibt eine Wortklasse vor die verwendet wird, wenn die Datenquelle über keine adäquate Information zur 
#                       Wortklasse eines Eintrags verfügt.
#
#  txt-format  KeyValue Gibt an, in welchem Format die Quelldaten je Zeile vorliegen. Dabei wird unterschieden zwischen
#                          SingleWord  =  Je Zeile ist nur ein Wort (ohne Projektion) angegeben, z.B.
#                                         "Nasenbär\n"
#                          KeyValue    =  Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, z.B.
#                                         "John Vorhauer*Vorhauer, John\n"
#                          WordClass   =  Je Zeile ist ein Wort und die dazugehörige Projektion angegeben, die aus mehreren
#                                         Lexikalisierungen bestehen kann, z.B.
#                                         "Essen,essen #v Essen #s Esse #s\n"
#                          MultiValue  =  Je Zeile sind mehrere Worte angegeben, die als Äquivalenzklasse interpretiert werden, z.B.
#                                         "Fax;Faxkopie;Telefax\n"
#                          MultiKey
#
#  separator   (s.Text)  Gibt an, durch welches Zeichen eine Textzeile die Grundform von der Projektion trennt. Der Defaultwert ist 
#                       abhängig vom Text-Format: KeyValue='*', WordClass=',' und MultiValue=';'.
#
#  use-lex              Gibt an, dass bei Mehrwort-Schlüsseln eine Vorab-Lexikalisierung vorgenommen wird durch Zuhilfenahme der
#                       Wörterbücher, die mit diesem Attribut angegeben werden, z.B. use-lex='sys-dic'. 
#                       Die Vorab-Lexikalisierung von Mehrwortgruppen ermöglicht die leichte Erkennung von allen möglichen 
#                       Dehnungsvarianten. Bei Mehrwort-Wörterbüchern, die ausschließlich Personennamen enthalten, kann dieser Wert
#                       entfallen, da er nur die Verarbeitungsgeschwindigkeit vermindert ohne die Erkennungsquote zu erhöhen.
#
#  ACHTUNG: Wird mit dem Attribut use-lex ein anderes Wörterbuch referenziert, so sollte dieses VOR der ersten Referenzierung 
#           definiert sein, da es sonst noch nicht existiert!
#

#    lingo language definition
--- 
language:
  name: 'Deutsch'

  dictionary:
    databases:
      #    Systemwörterbücher
      sys-dic: { name: de/lingo-dic.txt, txt-format: WordClass, separator: '=' }
      sys-abk: { name: de/lingo-abk.txt, txt-format: WordClass, separator: '=' }
      sys-syn: { name: de/lingo-syn.txt, txt-format: KeyValue, separator: '=', def-wc: y }
      sys-mul: { name: de/lingo-mul.txt, txt-format: SingleWord, use-lex: 'sys-dic', def-wc: m }
      #    Benutzerwörterbücher
      usr-dic: { name: de/user-dic.txt, txt-format: WordClass, separator: '=' }

      #    Testwörterbücher
      tst-dic: { name: de/test_dic.txt, txt-format: WordClass }   #  TEST: Lesen von zwei Quellen
      tst-syn: { name: de/test_syn.txt, txt-format: MultiValue, def-wc: 'y' } # TEST: Mehrere Datenquellen
      tst-syn2: { name: de/test_syn2.txt, txt-format: MultiValue, def-wc: 'y', use-lex: 'sys-dic' } # TEST: Mehrere Datenquellen
      tst-mul: { name: de/test_mul.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwˆrterb¸cher
      tst-mu2: { name: de/test_mul2.txt, use-lex: 'sys-dic', def-wc: m } # TEST: Mehrere Multiwˆrterb¸cher
      tst-sto: { name: de/test_store.txt, txt-format: WordClass } #  TEST: korrespondierende Store-Datei nicht vorhanden
      tst-cry: { name: de/test_cry.txt, txt-format: WordClass, crypt } #  TEST: Verschl¸sselung
      tst-sgw: { name: de/test_singleword.txt, txt-format: SingleWord } #  TEST: SingleWord-Format
      #
      #    ts_database (TxtFiles werden automatisch erzeugt!)
      sys-lx1: { name: de/lingo-dic.txt, txt-format: WordClass }   #  TEST: wird automatisch erstellt
      tst-sw1: { name: test/de/singleword.txt, txt-format: SingleWord }   #  TEST: wird automatisch erstellt
      tst-sw2: { name: test/de/singleword.txt, txt-format: SingleWord, def-wc: '*' }   #  TEST: wird automatisch erstellt
      tst-sw3: { name: test/de/singleword.txt, txt-format: SingleWord, use-lex: 'sys-lx1' }   #  TEST: wird automatisch erstellt
      tst-sw4: { name: test/de/singleword.txt, txt-format: SingleWord, crypt }   #  TEST: wird automatisch erstellt
      tst-kv1: { name: test/de/keyvalue.txt, txt-format: KeyValue }   #  TEST: wird automatisch erstellt
      tst-kv2: { name: test/de/keyvalue.txt, txt-format: KeyValue, separator: '*' }   #  TEST: wird automatisch erstellt
      tst-kv3: { name: test/de/keyvalue.txt, txt-format: KeyValue, separator: '*', def-wc: 's' }   #  TEST: wird automatisch erstellt
      tst-wc1: { name: test/de/wordclass.txt, txt-format: WordClass, separator: '=' }   #  TEST: wird automatisch erstellt
      tst-mv1: { name: test/de/multivalue.txt, txt-format: MultiValue, separator: ';'  }   #  TEST: wird automatisch erstellt
      tst-mk1: { name: test/de/multikey.txt, txt-format: MultiKey }   #  TEST: wird automatisch erstellt

    compositum:
      min-word-size: "7"
      min-part-size: "3"
      max-parts: "5"
      min-avg-part-size: "4"
      append-wordclass: "+"
      skip-sequences: [ xx ]
      
    suffix:
      #    Suffixliste, Stand: 30-06-2005
      #    Suffixklasse:   s = Substantiv, a = Adjektiv, v = Verb, e = Eigenwort, f = Fugung
      #    Suffixe je Klasse:   "<suffix>['/'<ersetzung>][ <suffix>['/'<ersetzung>]]"
      - [s, "e en er ern es n s se sen ses"]
      - [a, "este ste ster sten stes ester estes esten e em en er ere eren erer eres es"]
      - [v, "e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s"]
      - [e, "s"]
      - [f, "s n e en es er ch/che"]

  attendees:
    tokenizer:
      regulars:
        #    Define printable characters for tokenizer for utf-8 charsets
        - _digit_: '[0-9]'
        #    Define Basic Latin printable characters for UTF-8 encoding from U+0000 to U+007f
        - _baslat_: '[A-Za-z]'
        #    Define Latin-1 Supplement printable characters for UTF-8 encoding from U+0080 to U+00ff
        #- _lat1sp_: '[\xc3\x80-\xc3\x96\xc3\x98-\xc3\xb6\xc3\xb8-\xc3\xbf]'
        - _lat1sp_: '\xc3[\x80-\x96\x98-\xb6\xb8-\xbf]'
        #    Define Latin Extended-A printable characters for UTF-8 encoding from U+0100 to U+017f
        #- _latexa_: '[\xc4\x80-\xc4\xbf\xc5\x80-\xc5\xbf]'
        - _latexa_: '[\xc4-\xc5][\x80-\xbf]'
        #    Define Latin Extended-B printable characters for UTF-8 encoding from U+0180 to U+024f
        #- _latexb_: '[\xc6\x80-\xc6\xbf\xc7\x80-\xc7\xbf\xc8\x80-\xc8\xbf\xc9\x80-\xc9\x8f]'
        - _latexb_: '[\xc6-\xc8][\x80-\xbf]|\xc9[\x80-\x8f]'
        #    Define IPA Extension printable characters for UTF-8 encoding from U+024f to U+02af
        #- _ipaext_: '[\xc9\xa0-\xc9\xbf\xca\xa0-\xca\xaf]'
        - _ipaext_: '\xc9[\xa0-\xbf]|\xca[\xa0-\xaf]'
        #    collect all UTF-8 printable charachters in unicode range U+0000 to U+02af
        - _utf8ch_: '_baslat_|_lat1sp_|_latexa_|_latexb_|_ipaext_'
        - NUMS:  '[+-]?(\d{4,}|\d{1,3}(\.\d{3,3})*)(\.|(,\d+)?%?)'
        - URLS:  '((mailto:|(news|http|https|ftp|ftps)://)\S+|^(www(\.\S+)+)|[^\s.]+([\._]\S+)+@\S+(\.\S+)+)'
        - ABRV:  '(((_utf8ch_)+\.)+)(_utf8ch_)+'
        - WORD:  '(_utf8ch_|_digit_|\-)+'
        #- PUNC:  '([!,\.:;?]|[\xc2\xa1\xc2\xbf])'
        - PUNC:  '([!,\.:;?]|\xc2[\xa1\xbf])'
        #- OTHR:  '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|[\xc2\xa2-\xc2\xac\xc2\xae-\xc2\xbe]|[\xc3\x97\xc2\xb7])'
        - OTHR:  '([\"#$%&\x27()*\+\-/<=>@\[\\\]^_{|}~]|\xc2[\xa2-\xac\xae-\xbe]|\xc3[\x97\xb7])'
        - HELP:  '[^ ]*'

    variator:
      variations:
        - [ ieh, sch ]
        - [ fec, see ]
        - [ it,  st  ]
        - [ fch, sch ]
        - [ fp,  sp  ]
        - [ f,   s   ]
        - [ c,   e   ]
        - [ ffc, sse ]
        - [ ff,  ss  ]
        - [ e,   c   ]
        - [ ni,  m   ]
        - [ feh, sch ]
        - [ lt,  st  ]
        - [ il,  st  ]
        - [ ftc, ste ]
        - [ ft,  st  ]
        - [ fl,  st  ]
        - [ li,  h   ]
        - [ i,   s   ]
        
    sequencer:
      sequences: [ [AS, "2, 1"], [AK, "2, 1"], [AAK, "3, 1 2"], [AAS, "3, 1 2"] ]