You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Предположим, каждый день приходят тысячи новостей. Их надо тематизировать по старым темам, выделить то, что плохо тематизируется, создать для них новые событийные темы, оценить число новых тем и перестроить структуру матрицы Фи. У нас есть три уровня иерархии: верхний статичный, в среднем новые темы появлются редко, на нижнем идёт постоянное темообразование, по несколько десятков в день. Как лучше это сделать? Готов ли BigARTM к такому режиму использования? Нужно ли нам будет дорабатывать ядро?
Тут возможно нетривиальное решение -- тематическую модель третьего уровня вообще никогда не строить целиком, а строить её налету по тербованию, по отдельному дню или по нескольким дням при фиксированной матрице Фи второго уровня. По сути, темы третьего уровня нужны для того, чтобы агрегировать дублирующие новости и парафразы. Может быть, строить такие "модельки третьего уровня" по требованию и кэшировать их в памяти. Предполагая, что пользователи детально работают только с новостями нескольких последних дней. Реально ли такое использование BigARTM, или это будет тормозить?
Нам нужен критерий для обнаружения новых тем в новой порции данных. Прошерстить литературу, сравнить варианты, реализовать в BigARTM -- курсовая кому-то из новых студентов. Но можно и обойтись без критерия -- для тематизации нового батча выделяется заданное число новых тем, лишние отбрасываются энтропийным регуляризатором. Эта идея давным-давно обсуждается, теперь её пора реализовать. Готов ли BigARTM к появлению новых тем в батче?
The text was updated successfully, but these errors were encountered:
Предположим, каждый день приходят тысячи новостей. Их надо тематизировать по старым темам, выделить то, что плохо тематизируется, создать для них новые событийные темы, оценить число новых тем и перестроить структуру матрицы Фи. У нас есть три уровня иерархии: верхний статичный, в среднем новые темы появлются редко, на нижнем идёт постоянное темообразование, по несколько десятков в день.
Как лучше это сделать? Готов ли BigARTM к такому режиму использования? Нужно ли нам будет дорабатывать ядро?
Тут возможно нетривиальное решение -- тематическую модель третьего уровня вообще никогда не строить целиком, а строить её налету по тербованию, по отдельному дню или по нескольким дням при фиксированной матрице Фи второго уровня. По сути, темы третьего уровня нужны для того, чтобы агрегировать дублирующие новости и парафразы. Может быть, строить такие "модельки третьего уровня" по требованию и кэшировать их в памяти. Предполагая, что пользователи детально работают только с новостями нескольких последних дней.
Реально ли такое использование BigARTM, или это будет тормозить?
Нам нужен критерий для обнаружения новых тем в новой порции данных. Прошерстить литературу, сравнить варианты, реализовать в BigARTM -- курсовая кому-то из новых студентов. Но можно и обойтись без критерия -- для тематизации нового батча выделяется заданное число новых тем, лишние отбрасываются энтропийным регуляризатором. Эта идея давным-давно обсуждается, теперь её пора реализовать.
Готов ли BigARTM к появлению новых тем в батче?
The text was updated successfully, but these errors were encountered: