LanguageTool API NLP UK

Утиліта аналізу тексту:

groovy TagText.groovy -i <input_file> -o <output_file>

Аналізує текст і записує результат у виходовий файл:

розбиває на речення
розбиває на лексеми
проставляє теги для лексем
робить базове зняття омонімії (наразі алгоритм розомонімізації знімає лише близько тисячі найпростіших випадків омонімії)

Головні опції:

-l - одна лексема на рядок (лише для виводу в txt)
-x - вивід у форматі xml
-s - створити файл статистики омонімії
-u - створити файл статистики невідомих слів
-w - створити файл частоти словоформ
-z - створити файл частоти лем
-e - додає семантичні теги; цей тип тегування базується на Українському семантичному лексиконі (УСЛ), дані якого лежать тут
-f - лишає тільки першу лему (цей режим не рекомендований, оскільки перша лема, фактично випадкова, в планах додати інформацію про частоти, щоб лишати тільки найчастотнішу)

Для тегування лексем використовується словник української мови з проекту ВЕСУМ

УВАГА: в онлайнових українських текстах дуже часто вживають латинські літери замість українських, різні символи апострофів тощо. Для якісного аналізу текстів дуже важливо очистити на «нормалізувати» тексти. Тому майже завжди перед аналізом текстів варто опрацювати їх утилітою CleanText.groovy

Утиліта розбиття тексту:

groovy TokenizeText.groovy -w -u -i <input_file> -o <output_file>

Аналізує текст і записує результат у виходовий файл:

розбиває на речення (-s)
розбиває на токени (-w) (результати включають пунктуацію тому всі токени розділяються вертикальними рисками)
розбиває на слова (-u)

Утиліта лематизації тексту:

groovy LemmatizeText.groovy -i <input_file> -o <output_file>

Аналізує текст і записує результат у виходовий файл:

розбиває на токени і видає на виході леми
залишає омоніми

Опція -f - лишає тільки одну лему (вибирається за частотою)

Ліцензія

Проект LanguageTool API NLP UK розповсюджується за умов ліцензії GPL версії 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_tools.md

README_tools.md

LanguageTool API NLP UK

Утиліта аналізу тексту:

Утиліта розбиття тексту:

Утиліта лематизації тексту:

Ліцензія

Files

README_tools.md

Latest commit

History

README_tools.md

File metadata and controls

LanguageTool API NLP UK

Утиліта аналізу тексту:

Утиліта розбиття тексту:

Утиліта лематизації тексту:

Ліцензія