Skip to content
Ilya Gusev edited this page Aug 5, 2020 · 1 revision

Бюджет: 300$

План:

  1. Втащить фреймворк для DL - Илья - 15 мая
  2. HTTP-сервер. - Вадик - 20 мая Требования:
  • 17 RPS
  • запрос на добавление и на удаление
  • max-cache
  • хранить проиндексированные данные на диске в рабочей директории приложения
  • HTTP 1.1 с Keep-Alive
  • либа со статической линковкой или пакет для Debian
  • параллельно будет отправляться до 100 запросов.
  1. Выделить аннотирование одного документа - Вадик - 20 мая
  2. Задача определения языка: проверка качества, исправление в узбекских текстах - Ваня - 19 мая
  3. Новая инструкция для not news и категорий, запустить разметку 5.1) сделать доразметку по порогу - Илья - 17 мая
  4. Переобучить классификатор категорий, возможно XLMRoberta, mBART - Даня - 21 мая 6.1) Английская разметка кластеризации 6.2) Измерить метрики эмбеддеров по разметке пар и половинок: 6.2.1) Laser 6.2.2) CNN Summary 6.2.3) Old 6.3) Not-CNN Summary: 6.3.1) Laser pretraining 6.4) Summary embedder допилки: 6.4.1) Больше данных: Lenta, train данные контеста, английские датасеты 6.4.2) Multitask model 6.4.3) NER
  5. Кластеризация:
  • BIRCH - Даня - ?? мая
  • разметка на парах для кластеризации - Даня - 19 мая
  • кластеризация в фоне - Илья, Вадик - 21 мая
  1. Ранжирование хвоста - Ваня - 21 мая
  2. Улучшение выбора заголовков - Ваня - 21 мая
  3. Пересчитать PageRank - Ярик - 21 мая
  4. Разметка региональности (или глобальные счётчики), улучшение ранжирования сюжетов - Ярик - 21 мая
  5. Спереть идеи у других людей - Илья - 14 мая
  1. Дашборд с метриками - Илья
  2. Связанные
Clone this wiki locally