Skip to content

sachertort/social_journalism

Repository files navigation

social_journalism_corpus

Данный проект представляет собой корпус публицистических текстов в жанре социальной журналистики изданий "Нож", "Батенька, да вы трансформер", "Холод" и "Такие дела". Общий объём корпуса: 259 текстов.
Программа состоит из 3 модулей:

  • NLP_project_data-scratching.ipynb — краулеры для сбора текстов с сайтов изданий
  • NLP_project_morphology.ipynb — сегментация по предложениям, токенизация, лемматизация и морфологический анализ
  • NLP_project_final_search.ipynb — поиск по корпусу (он может работать с подготовленной двумя предыдущими модулями базой данных project_nlp.db автономно)

Проект выполнили студенты группы БКЛ182 Катя Гриневская, Рома Казаков, Ксюша Петухова и Ника Смилга.

База данных доступна по ссылке: project_nlp.db.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published