Тематические модели предложений и сегментации #40

ofrei · 2016-09-26T08:18:58Z

Это важно для коротких тектов (Twitter LDA), для сегментации документов, суммаризации и именования тем. Кажется, для этого всё готово: можно сохранять естественный порядок слов и границы предложений. Но на уровне ядра пока нет механизма, чтобы вычислить усреднённый p(t|d,s) предложения s и использовать его для обновления n_wt всех слов предложения.
Саша,насколько сложно на уровне ядра реализовать эту идею?
Как объединить несколько реализаций прохода документа?

Ведь кроме стандартной схемы пословного вычисления p(t|d,w) у нас теперь появляется вычисление аналогичных распределений над темами для пар слов, для скользящего окна, для фиксированного окна в виде отдельных предложений или даже абзацев.
Если в этом месте мы увеличим гибкость моделирования, то, несомненно, это будет важный шаг к более интересным и "более лингвистичным" приложениям.

AnyaP · 2016-11-11T20:38:37Z

Работа заключается в доработке позиционного регуляризатора для ptdw и экспериментах с различными сценариями регуляризации (сглаживание с помощью аггрегированного профиля, использование только аггрегированного профиля, фильтрация слов общей лексики (фона), фиксированные окна различной ширины, предложения вместо окон, и т.д.).

ofrei added the Strategy label Sep 26, 2016

AnyaP assigned anastasiabayandina Nov 11, 2016

AnyaP mentioned this issue Nov 11, 2016

Онлайновая обработка пар соседних слов #39

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Тематические модели предложений и сегментации #40

Тематические модели предложений и сегментации #40

ofrei commented Sep 26, 2016 •

edited by AnyaP

Loading

AnyaP commented Nov 11, 2016 •

edited

Loading

Тематические модели предложений и сегментации #40

Тематические модели предложений и сегментации #40

Comments

ofrei commented Sep 26, 2016 • edited by AnyaP Loading

AnyaP commented Nov 11, 2016 • edited Loading

ofrei commented Sep 26, 2016 •

edited by AnyaP

Loading

AnyaP commented Nov 11, 2016 •

edited

Loading