You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Это важно для коротких тектов (Twitter LDA), для сегментации документов, суммаризации и именования тем. Кажется, для этого всё готово: можно сохранять естественный порядок слов и границы предложений. Но на уровне ядра пока нет механизма, чтобы вычислить усреднённый p(t|d,s) предложения s и использовать его для обновления n_wt всех слов предложения. Саша,насколько сложно на уровне ядра реализовать эту идею? Как объединить несколько реализаций прохода документа?
Ведь кроме стандартной схемы пословного вычисления p(t|d,w) у нас теперь появляется вычисление аналогичных распределений над темами для пар слов, для скользящего окна, для фиксированного окна в виде отдельных предложений или даже абзацев.
Если в этом месте мы увеличим гибкость моделирования, то, несомненно, это будет важный шаг к более интересным и "более лингвистичным" приложениям.
The text was updated successfully, but these errors were encountered:
Работа заключается в доработке позиционного регуляризатора для ptdw и экспериментах с различными сценариями регуляризации (сглаживание с помощью аггрегированного профиля, использование только аггрегированного профиля, фильтрация слов общей лексики (фона), фиксированные окна различной ширины, предложения вместо окон, и т.д.).
Это важно для коротких тектов (Twitter LDA), для сегментации документов, суммаризации и именования тем. Кажется, для этого всё готово: можно сохранять естественный порядок слов и границы предложений. Но на уровне ядра пока нет механизма, чтобы вычислить усреднённый p(t|d,s) предложения s и использовать его для обновления n_wt всех слов предложения.
Саша,насколько сложно на уровне ядра реализовать эту идею?
Как объединить несколько реализаций прохода документа?
Ведь кроме стандартной схемы пословного вычисления p(t|d,w) у нас теперь появляется вычисление аналогичных распределений над темами для пар слов, для скользящего окна, для фиксированного окна в виде отдельных предложений или даже абзацев.
Если в этом месте мы увеличим гибкость моделирования, то, несомненно, это будет важный шаг к более интересным и "более лингвистичным" приложениям.
The text was updated successfully, but these errors were encountered: