Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Динамическое создание тем #36

Open
ofrei opened this issue Sep 26, 2016 · 0 comments
Open

Динамическое создание тем #36

ofrei opened this issue Sep 26, 2016 · 0 comments
Assignees
Labels

Comments

@ofrei
Copy link
Contributor

ofrei commented Sep 26, 2016

Предположим, каждый день приходят тысячи новостей. Их надо тематизировать по старым темам, выделить то, что плохо тематизируется, создать для них новые событийные темы, оценить число новых тем и перестроить структуру матрицы Фи. У нас есть три уровня иерархии: верхний статичный, в среднем новые темы появлются редко, на нижнем идёт постоянное темообразование, по несколько десятков в день.
Как лучше это сделать? Готов ли BigARTM к такому режиму использования? Нужно ли нам будет дорабатывать ядро?

Тут возможно нетривиальное решение -- тематическую модель третьего уровня вообще никогда не строить целиком, а строить её налету по тербованию, по отдельному дню или по нескольким дням при фиксированной матрице Фи второго уровня. По сути, темы третьего уровня нужны для того, чтобы агрегировать дублирующие новости и парафразы. Может быть, строить такие "модельки третьего уровня" по требованию и кэшировать их в памяти. Предполагая, что пользователи детально работают только с новостями нескольких последних дней.
Реально ли такое использование BigARTM, или это будет тормозить?

Нам нужен критерий для обнаружения новых тем в новой порции данных. Прошерстить литературу, сравнить варианты, реализовать в BigARTM -- курсовая кому-то из новых студентов. Но можно и обойтись без критерия -- для тематизации нового батча выделяется заданное число новых тем, лишние отбрасываются энтропийным регуляризатором. Эта идея давным-давно обсуждается, теперь её пора реализовать.
Готов ли BigARTM к появлению новых тем в батче?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants