Skip to content

Latest commit

 

History

History
19 lines (16 loc) · 2.72 KB

dynamic_tagging.md

File metadata and controls

19 lines (16 loc) · 2.72 KB

Динамічне тегування складних слів

Хоч яким би великим не був словник в нього неможливо вмістити всі можливі слова, що пишуться через дефіс. Кількість комбінацій на штиб: ірано-новозеландський, слюсар-сіяч або ROC-крива зробить будь-який словник непомірно великим і незастосовним. А наявність в текстах цифрово-абеткових прикметників, як напр. 133-тя, показує серйозну ваду в тегуванні, базованому виключно на словнику. Отже потрібна логіка тегування таких складних слів, які відсутні в словнику, але створюються зі слів, які вже мають теги. Наприклад, якщо ми можемо протегувати обидві частини у слові ракет-носіїв то ми можемо спробувати і протегувати все складне слово.

Динамічне тегування в LanguageTool

  • слова з частками -но, -то, -бо (стривай-бо, чекай-но, прийшов-таки, такий-от, такий-то тощо) тегуються, як основне слово
  • абетково-цифрові прикметники (101-й, 100-річному тощо) тегуються за закінченням, або за основним прикметником
  • по + д.в. прикм, по + *ськи (по-болгарськи, по-болгарському) тегуються, як adv
  • пів- + власна назва (пів-України тощо) отримує всі відмінки базового слова, крім кличного
  • якщо ліва частина незмінювана (майстер-класу, бета-тестування) беремо теги другого слова
  • іноземні назви вулиць, міст (Пенсильванія-авеню, Бейкер-стріт) отримують незмінювану форму другої частини
  • повторення вигуків (га-га, агов-агов) отримує теги базового слова
  • якщо теги лівої і правої частини збігаються (вгору-вниз, лікар-гомеопат, жило-було) беремо ці теги
  • прислівник+прикметник (яскраво-барвистий) отримує теги прикметника