groovy TagText.groovy -i <input_file> -o <output_file>
Аналізує текст і записує результат у виходовий файл:
- розбиває на речення
- розбиває на лексеми
- проставляє теги для лексем
- робить базове зняття омонімії (наразі алгоритм розомонімізації знімає лише близько тисячі найпростіших випадків омонімії)
Головні опції:
-l
- одна лексема на рядок (лише для виводу в txt)-x
- вивід у форматі xml-s
- створити файл статистики омонімії-u
- створити файл статистики невідомих слів-w
- створити файл частоти словоформ-z
- створити файл частоти лем-e
- додає семантичні теги; цей тип тегування базується на Українському семантичному лексиконі (УСЛ), дані якого лежать тут-f
- лишає тільки першу лему (цей режим не рекомендований, оскільки перша лема, фактично випадкова, в планах додати інформацію про частоти, щоб лишати тільки найчастотнішу)
Для тегування лексем використовується словник української мови з проекту ВЕСУМ
УВАГА: в онлайнових українських текстах дуже часто вживають латинські літери замість українських, різні символи апострофів тощо. Для якісного аналізу текстів дуже важливо очистити на «нормалізувати» тексти. Тому майже завжди перед аналізом текстів варто опрацювати їх утилітою CleanText.groovy
groovy TokenizeText.groovy -w -u -i <input_file> -o <output_file>
Аналізує текст і записує результат у виходовий файл:
- розбиває на речення (
-s
) - розбиває на токени (
-w
) (результати включають пунктуацію тому всі токени розділяються вертикальними рисками) - розбиває на слова (
-u
)
groovy LemmatizeText.groovy -i <input_file> -o <output_file>
Аналізує текст і записує результат у виходовий файл:
- розбиває на токени і видає на виході леми
- залишає омоніми
Опція -f
- лишає тільки одну лему (вибирається за частотою)
Проект LanguageTool API NLP UK розповсюджується за умов ліцензії GPL версії 3