Название | Описание | Инструменты | Ключевые слова |
---|---|---|---|
Сравнение музыкальных предпочтений | Сравнение музыкальных предпочтений жителей Москвы и Санкт-Петербурга на основе данных Яндекс.Музыки. | numpy pandas |
EDA, analysis |
Исследование надёжности заёмщиков банка | Обработка и исследование данных для выявления зависимостей на влияющих на платёжеспособность клииента банка. | pandas numpy matplotlib |
EDA, analysis |
Исследование рынка недвижимости | Исследование данных и выявление факторов, оказывающих влияние на цену квартиры. | numpy pandas matplotlib |
EDA, analysis, feature engineering |
Определение выгодного тарифа для телеком компании | Определение выгодного тарифа на основании данных о использовании услуг клиентами. Проанализированы данные и проверены гипотезы. | numpy pandas matplotlib scipy |
EDA, analysis, hypotesys testing, ttest |
Анализ рынка компьютерных игр | Определение фактор, влияющих на успешность продажи игры. | pandas matplotlib scipy |
EDA, statistics, hypotesys testing, ttest |
Название | Описание | Инструменты | Ключевые слова |
---|---|---|---|
Рекомендация сотового тарифа | Создание модели для задачи классификации, которая выберет подходящий тариф сотового оператора. | pandas matplotlib sklearn statsmodels |
Time Series, regression, classification |
Прогнозирование оттока клиентов банка | Создание модели для предсказания оттока клиентов из банка на основании данных о поведении клиентов. Целью является снижение затрат на сохранение клиентов. | numpy pandas matplotlib sklearn StandardScaler |
EDA, analysis, feature engineering, ROC-AUC, upsampling, unbalanced classification |
Прогнозирование прибыли от нефтяных скважин | Создание модели для прогноза прибыли от нефтяных скважин. На основании прогноза определение лучшего региона для бурения | numpy pandas matplotlib sklearn |
EDA, analysis, regression, ROC-AUC |
Прогнозирование концентрации золота из золотосодержащей руды | Создание модели для прогноза коэффициента восстановления золота из золотосодержащей руды | pandas matplotlib sklearn CatBoost Optuna GridSearch |
EDA, regression, gradient boosting |
Защита персональных данных клиентов страховой компании | Необходимо защитить персональные данные клиентов страховой компании. Разработать метод преобразования данных, чтобы по ним было тяжело восстановить исходную информацию и при этом не менялось качество линейной регрессии. | pandas numpy Random numpy |
EDA, regression |
Построение модели определения стоимости автомобиля | Разработка системы рекомендации стоимости автомобиля на основе его описания | pandas matplotlib sklearn lightgbm |
EDA, regression, gradient boosting |
Прогнозирование количества заказов такси | Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Необходимо построить модель для такого предсказания. | pandas matplotlib CatBoost Prophet |
Time Series, regression, gradient boosting |
NLP. Классификация тональности текста | Предсказание позитивных и негативных комментариев пользователей интернет-магазина. | numpy sklearn spacy torch BERT |
NLP, TF-IDF, classification |
CV. Определение возраста покупателей | Создание neural network модели определения возраста человека по фото. | tensorflow keras ImageDataGenerator ResNet |
CV, neural network, classification |
Прогнозирование оттока клиентов телеком | Построить модель, которая предсказывает, уйдёт ли пользователь. | Pipeline phik Catboost XGBoost sklearn |
EDA, classification |