Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Тематические модели предложений и сегментации #40

Open
ofrei opened this issue Sep 26, 2016 · 1 comment
Assignees
Labels

Comments

@ofrei
Copy link
Contributor

ofrei commented Sep 26, 2016

Это важно для коротких тектов (Twitter LDA), для сегментации документов, суммаризации и именования тем. Кажется, для этого всё готово: можно сохранять естественный порядок слов и границы предложений. Но на уровне ядра пока нет механизма, чтобы вычислить усреднённый p(t|d,s) предложения s и использовать его для обновления n_wt всех слов предложения.
Саша,насколько сложно на уровне ядра реализовать эту идею?
Как объединить несколько реализаций прохода документа?

Ведь кроме стандартной схемы пословного вычисления p(t|d,w) у нас теперь появляется вычисление аналогичных распределений над темами для пар слов, для скользящего окна, для фиксированного окна в виде отдельных предложений или даже абзацев.
Если в этом месте мы увеличим гибкость моделирования, то, несомненно, это будет важный шаг к более интересным и "более лингвистичным" приложениям.

@ofrei ofrei added the Strategy label Sep 26, 2016
@AnyaP
Copy link
Contributor

AnyaP commented Nov 11, 2016

Работа заключается в доработке позиционного регуляризатора для ptdw и экспериментах с различными сценариями регуляризации (сглаживание с помощью аггрегированного профиля, использование только аггрегированного профиля, фильтрация слов общей лексики (фона), фиксированные окна различной ширины, предложения вместо окон, и т.д.).

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants