You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Это нам может пригодиться для тематизации больших научных коллекций, в которых ожидаются десятки миллионов документов и десятки тысяч тем. Модели с очень большим числом тем потребуют не только динамического их создания, но и постепенного разреживания матрицы Фи.
По мере роста коллекции и накопления статистики n_wt мы будем всё точнее понимать, какие слова из каких тем можно совсем исключить. Матрица Фи будет сначала плотной, но в какой-то момент её станет выгодно перевести в разреженную форму. В этот момент алгоритм фактически станет другим, т.к. появится возможность для данного слова w пробегать только темы с ненулевыми p(w|t).
Интересно оценить, при каком числе тем Т и какой степени разреженности матрицы Фи это становится выгодно.
Саша, мы много раз обсуждали эти идеи, где оно сейчас?
The text was updated successfully, but these errors were encountered:
Задача состоит в том, чтобы уменьшить максимальное потребление памяти. Для этого недостаточно научить BigARTM хранить разрешенные матрицы, т.к. мы с самого начала инициализируем плотную матрицу размера |W| * |T|, где W - полное число слов в коллекции, |T| -- полное число тем. Для того, чтобы получить выгоду от разреженности, нужно сперва решить хотя бы одну из следующих задач:
Это нам может пригодиться для тематизации больших научных коллекций, в которых ожидаются десятки миллионов документов и десятки тысяч тем. Модели с очень большим числом тем потребуют не только динамического их создания, но и постепенного разреживания матрицы Фи.
По мере роста коллекции и накопления статистики n_wt мы будем всё точнее понимать, какие слова из каких тем можно совсем исключить. Матрица Фи будет сначала плотной, но в какой-то момент её станет выгодно перевести в разреженную форму. В этот момент алгоритм фактически станет другим, т.к. появится возможность для данного слова w пробегать только темы с ненулевыми p(w|t).
Интересно оценить, при каком числе тем Т и какой степени разреженности матрицы Фи это становится выгодно.
Саша, мы много раз обсуждали эти идеи, где оно сейчас?
The text was updated successfully, but these errors were encountered: