Skip to content

Latest commit

 

History

History
35 lines (22 loc) · 2.34 KB

README.md

File metadata and controls

35 lines (22 loc) · 2.34 KB

text2dictionary

С помощью баша, питона и pymorphy2 и искреннего желания превращаем текстовичок в список использованных там слов в нормальной форме плюс ещё пара скриптов, позволяющих угорать над словарями потом.

usage:

git clone https://github.com/hordecore/text2dictionary
cd text2dictionary
cp $yourtextfile your.txt
bash text2dictionary.sh your.file
cat your.file.dict

Зачем вообще

Хочу сделать облавкрафтчиватель - кормим каким-либо образом ему текст, он каждое четвёртое прилагательное заменяет на характерное для произведений лавкрафта.

Сам список характерных для него прилагательных можно получить так:

  1. берём несколько его произведений, складываем в 1 файл
  2. берём несколько произведений других авторов, кладём в другой файл
  3. получаем с помощью text2dictionary из этих файлов словари
  4. с помощью uniq_from_dict1 достаём характерные для лавкрафта слова
  5. с помощью extract_eptitets отфильтровываем только прилагательные

Осталось сделать

Осталось только набрать побольше текстовичков Лавкрафта и других авторов и написать замену каждого 4го прилагательного в тексте на случайное из полученного ранее словаря. Ну и начать угорать и кормить ему книжки по программированию и маны по продуктам на русском языке.

Минусы

Кстати да, работает только с кириллицей.

Полезные ссылки

Описание граммем, используемых в качестве аргументов для morphfilter