Skip to content

Commit

Permalink
Merge pull request #363 from empiriker/de
Browse files Browse the repository at this point in the history
Extract categories and subglosses, examples with references and pronunciation data from German Wiktionary
  • Loading branch information
xxyzz authored Oct 18, 2023
2 parents 734639a + 416e04c commit 2e936fa
Show file tree
Hide file tree
Showing 14 changed files with 1,289 additions and 226 deletions.
File renamed without changes.
202 changes: 202 additions & 0 deletions overrides/de.json
Original file line number Diff line number Diff line change
@@ -0,0 +1,202 @@
{
"Vorlage:Abkürzungen": {
"body": "==== Abkürzungen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Alternative Schreibweisen": {
"body": "==== Alternative Schreibweisen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Anmerkung": {
"body": "==== Anmerkung ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Aussprache": {
"body": "==== Aussprache ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Bedeutungen": {
"body": "==== Bedeutungen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Beispiele": {
"body": "==== Beispiele ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Bekannte Namensträger": {
"body": "==== Bekannte Namensträger ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Charakteristische Wortkombinationen": {
"body": "==== Charakteristische Wortkombinationen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Entlehnungen": {
"body": "==== Entlehnungen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Gegenwörter": {
"body": "==== Gegenwörter ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Grammatische Merkmale": {
"body": "==== Grammatische Merkmale ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Herkunft": {
"body": "==== Herkunft ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Holonyme": {
"body": "==== Holonyme ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Koseformen": {
"body": "==== Koseformen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Lesungen": {
"body": "==== Lesungen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Männliche Wortformen": {
"body": "==== Männliche Wortformen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Namensvarianten": {
"body": "==== Namensvarianten ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Nebenformen": {
"body": "==== Nebenformen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Nicht mehr gültige Schreibweisen": {
"body": "==== Nicht mehr gültige Schreibweisen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Oberbegriffe": {
"body": "==== Oberbegriffe ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Quellen": {
"body": "",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:erweitern": {
"body": "",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:QS Herkunft": {
"body": "",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:QS Bedeutungen": {
"body": "",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Redewendungen": {
"body": "==== Redewendungen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Referenzen": {
"body": "==== Referenzen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Sinnverwandte Wörter": {
"body": "==== Sinnverwandte Wörter ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Sprichwörter": {
"body": "==== Sprichwörter ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Symbole": {
"body": "==== Symbole ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Synonyme": {
"body": "==== Synonyme ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Umschrift": {
"body": "==== Umschrift ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Unterbegriffe": {
"body": "==== Unterbegriffe ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Verkleinerungsformen": {
"body": "==== Verkleinerungsformen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Vokalisierung": {
"body": "==== Vokalisierung ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Weibliche Wortformen": {
"body": "==== Weibliche Wortformen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Wortbildungen": {
"body": "==== Wortbildungen ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Wortfamilie": {
"body": "==== Wortfamilie ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Worttrennung": {
"body": "==== Worttrennung ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:in kyrillischer Schrift": {
"body": "==== in kyrillischer Schrift ====",
"namespace_id": 10,
"need_pre_expand": true
},
"Vorlage:Übersetzungen": {
"body": "Übersetzungen",
"namespace_id": 10,
"need_pre_expand": true
}
}
2 changes: 1 addition & 1 deletion src/wiktextract/config.py
Original file line number Diff line number Diff line change
Expand Up @@ -120,7 +120,7 @@ def __init__(
"FORM_OF_TEMPLATES", "form_of_templates.json"
)
if dump_file_lang_code == "de":
self.set_attr_from_json("DE_FORM_TABLES", "form_templates.json")
self.set_attr_from_json("DE_FORM_TABLES", "form_tables.json")
self.analyze_templates = True # find templates that need pre-expand
self.extract_thesaurus_pages = True
self.load_edition_settings()
Expand Down
8 changes: 7 additions & 1 deletion src/wiktextract/data/de/form_tables.json
Original file line number Diff line number Diff line change
Expand Up @@ -13,6 +13,7 @@
"Pronomina-Tabelle",
"Afrikaans Substantiv Übersicht",
"Albanisch Verb Übersicht",
"Altenglisch Substantiv Übersicht",
"Altgriechisch Adjektiv Übersicht",
"Altgriechisch Substantiv Übersicht",
"Altirisch Substantiv Übersicht",
Expand Down Expand Up @@ -40,6 +41,7 @@
"Französisch Substantiv Übersicht",
"Französisch Verb Übersicht",
"Galicisch Substantiv Übersicht",
"Georgisch Substantiv Übersicht",
"Hausa Adjektiv Übersicht",
"Hausa Possessiv Übersicht",
"Hausa Substantiv Übersicht",
Expand All @@ -48,11 +50,12 @@
"Irisch Adjektiv Übersicht",
"Irisch Substantiv Übersicht",
"Isländisch Name Übersicht",
"Isländisch Adjektiv Übersicht",
"Isländisch Substantiv Übersicht",
"Isländisch Verb Übersicht",
"Italienisch Adjektiv Übersicht",
"Italienisch Substantiv Übersicht",
"Italienisch Verb Übersicht",
"Italienisch Substantiv Übersicht",
"Katalanisch Adjektiv Übersicht",
"Katalanisch Substantiv Übersicht",
"Katalanisch Verb Übersicht",
Expand All @@ -64,12 +67,14 @@
"Latein Adjektiv Übersicht",
"Latein Adverb Übersicht",
"Latein Substantiv Übersicht",
"Lateinisch Substantiv Übersicht",
"Lettisch Substantiv Übersicht",
"Lettisch Verb Übersicht",
"Mazedonisch Substantiv Übersicht",
"Nahuatl Substantiv Übersicht",
"Neugriechisch Substantiv Übersicht",
"Niederdeutsch Adjektiv Übersicht",
"Niederdeutsch Substantiv Übersicht",
"Niederländisch Adjektiv Übersicht",
"Niederländisch Substantiv Übersicht",
"Niedersorbisch Substantiv Übersicht",
Expand All @@ -83,6 +88,7 @@
"Polnisch Grundzahl Übersicht",
"Polnisch Substantiv Übersicht",
"Portugiesisch Substantiv Übersicht",
"Prußisch Substantiv Übersicht",
"Rumänisch Numerale Übersicht",
"Rumänisch Personalpronomen Übersicht",
"Rumänisch Substantiv Übersicht",
Expand Down
Loading

0 comments on commit 2e936fa

Please sign in to comment.