Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Переход от плотной Фи к разреженной #37

Open
ofrei opened this issue Sep 26, 2016 · 1 comment
Open

Переход от плотной Фи к разреженной #37

ofrei opened this issue Sep 26, 2016 · 1 comment
Assignees
Labels

Comments

@ofrei
Copy link
Contributor

ofrei commented Sep 26, 2016

Это нам может пригодиться для тематизации больших научных коллекций, в которых ожидаются десятки миллионов документов и десятки тысяч тем. Модели с очень большим числом тем потребуют не только динамического их создания, но и постепенного разреживания матрицы Фи.
По мере роста коллекции и накопления статистики n_wt мы будем всё точнее понимать, какие слова из каких тем можно совсем исключить. Матрица Фи будет сначала плотной, но в какой-то момент её станет выгодно перевести в разреженную форму. В этот момент алгоритм фактически станет другим, т.к. появится возможность для данного слова w пробегать только темы с ненулевыми p(w|t).
Интересно оценить, при каком числе тем Т и какой степени разреженности матрицы Фи это становится выгодно.

Саша, мы много раз обсуждали эти идеи, где оно сейчас?

@ofrei ofrei added the Strategy label Sep 26, 2016
@ofrei ofrei self-assigned this Sep 26, 2016
@ofrei
Copy link
Contributor Author

ofrei commented Sep 26, 2016

Задача состоит в том, чтобы уменьшить максимальное потребление памяти. Для этого недостаточно научить BigARTM хранить разрешенные матрицы, т.к. мы с самого начала инициализируем плотную матрицу размера |W| * |T|, где W - полное число слов в коллекции, |T| -- полное число тем. Для того, чтобы получить выгоду от разреженности, нужно сперва решить хотя бы одну из следующих задач:

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant