Данный репозиторий содержит учебные проекты, выполненные во время обучения специальности Специалист по Data Science
в Яндекс.Практикуме (Дек 2021 - Окт 2022).
The repository contains projects accomplished while studying Data Science in Yandex.Practicum (Dec 2021 - Oct 2022).
📜 Диплом
Проект / Project name | Изученные темы / Topics studied | Использованные библиотеки / Libraries used | Статус / Status |
---|---|---|---|
Музыка больших городов / Music of Big Cities | 1. Python - переменные / variables - типы данных / data types - списки / lists - циклы for и while / for/while loops - условные операторы / conditionals - функции / functions - словари / dictionaries 2. Как работать в Jupyter Notebook / How to work in Jupyter Notebook 3. Базовая предобработка данных / Basic data preprocessing |
pandas | Завершён / Ready |
Оценка надежности заемщиков / Lendee reliability assessment | 1. Работа с пропусками / Missing values treatment 2. Изменение типов данных / Data types change 3. Поиск и удаление дубликатов / Search and treatment of duplicates 4. Категоризация данных / Data categorization |
pandas seaborn pymystem3 numpy |
Завершён / Ready |
Исследование объявлений о продаже квартир / Analysis of flats' sales advertisments | 1. Построение графиков в Python / Plotting in python 2. Срезы и группировки данных / Data subsetting and grouping - срез по внешнему словарю / subsetting from external dictionary - объединение данных из нескольких таблиц / joining several tables 3. Взаимосвязь данных / Data relation |
seaborn numpy geopy matplotlib |
Завершён / Ready |
Определение перспективного тарифа для телеком-компании / Determination of a prospective tariff for a telecom company | 1. Описательная статистика / Descriptive statistics 2. Теория вероятностей / Probability theory 3. Проверка статистических гипотез / Statistical tests |
scipy numpy matplotlib pandas |
Завершён / Ready |
Рекомендация тарифов / Tariff recommendation | 1. Построение моделей машинного обучения / ML models creation 2. Оценка качества моделей / Model performance assesment 3. Улулчшение моделей / Model optimization |
pandas seaborn matplotlib sklearn |
Завершён / Ready |
Определение возраста по фотографии / Age determinantion from photo | 1. Аугментация изображений / Image augmentation 2. Задачи классификации, детекции, и сегментации изображений / Image classification, detection and segmentation 3. Полносвязные нейронные сети / Fully-connected neural networks 4. Сверточные нейронные сети / Convolutional networks |
pandas tensorflow seaborn |
Завершён / Ready |
Исследование технологического процесса очистки золота / Study of the technological process of gold refining | 1. Анализ данных / Data Analysis 2. Регрессия / Regression 3. Использование собственных метрик / Custom metrics usage |
pandas seaborn dtale sklearn yellowbrick numpy |
Завершён / Ready |
Определение токсичных комментариев / Toxic comments detection | 1. Векторизация текстов / Texts vectorization 2. Эмбединги / Embeddings 3. BERT, RuBERT |
nltk scikit-learn numpy pandas torch transformers |
Завершён / Ready |
Прогнозирование заказов такси / Taxi orders prediction | 1. Ресэмплирование / Resampling 2. Скользящее среднее, тренды, сезонность, разница временного ряда / Rolling mean, trends, seasonality, difference of time series 3. Генерация пизнаков для временного ряда / Feature generation for time series 3. Предсказание временных рядов / Time series prediction |
pandas numpy statsmodels seaborn scikit-learn |
Завершён / Ready |
Выбор локации для скважины / Choosing a location for an oil well | 1. Метрики бизнеса / Business metrics 2. A/B-тесты / A/B testing 3. Bootstrap 4. Утечка данных, кросс-валидация / Data leakage, cross-validation |
pandas seaborn scikit-learn |
Завершён / Ready |
Защита персональных данных клиентов / Protection of clients' personal data | 1. Векторы, матрицы и операции над ними / Vectors and matrices and their operations 2. Линейная алгебра линейной регрессии / Linear algebra of linear regression |
pandas numpy scikit-learn |
Завершён / Ready |
Предсказание оттока клиентов из банка / Predicting the churn of customers from the bank | 1. Подготовка признаков / Feature preparation 2. Метрики классификации / Metrics of classification 3. Метрики регрессии / Metrics of regression 4. Несбалансированные данные / Unbalanced data |
pandas seaborn scikit-learn |
Завершён / Ready |
Предсказание стоимости автомобилей / Cars' price prediction | 1. Градиентный спуск / Gradient descent 2. Градиентный бустинг / Gradient boosting |
lightgbm scikit-learn seaborn pandas hyperopt |
Завершён / Ready |