Skip to content

Latest commit

 

History

History

module-6

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

Модуль 6. «Проектная работа».

Описание:

Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.

Занятие 26. Вводное занятие по проектной работе.

Слушатели курса смогут определиться с темой проекта (выбрать из предложенного списка или привнести задачу из деятельности своей компании), получить понимание какие ресурсы им необходимо использовать для работы.

Занятие 27. Консультация по проектной работе.

Слушатели курса получат комментарии относительно прогресса проектной работы, ответы на вопросы, рекомендации по реализации.

Занятие 28. Защита проектной работы.

По окончании занятия слушатели курса получат разбор проектов, комментарии и оценку своей работы.

Список проектных работ студентов

DE-2020-11

Тема Автор Ссылка
Приложение для аналитики рынка ценных бумаг Александр Орловский https://github.com/moofik/stock-market-analytics
Serverless решение для сбора статистики эффективности рекламных кампаний на GCP Андрей Шейко
Визуализация геоданных проектов сервисного обслуживания Анастасия Шемет
Изучение набора данных в JupiterLab (PySpark), последующая загрузка и построение витрин в СУБД Vertica с помощью Data Build Tool, визуализация в Redash Андрей Радченко https://github.com/radchenkoam/OTUS-de-2020-11/blob/dev/homeworks/gw.md
Анализ химического состава лекарственных средств Анна Воронина https://github.com/PytUs/OTUS-2020-2021
Обработка данных из потокового API Семен Филькин https://github.com/Filkin-S/streaming-api-processing
Загрузка данных о полётах из API аэропорта Schiphol в БД Elasticsearch Айтуар Сабирзянов https://github.com/Aytuar/DEproject
Анализ тональности текста в режиме реального времени с помощью Spark Юлия
DWH for London transport system data Татьяна Линник

DE-2020-08

Тема Автор Ссылка
Сбор и анализ скорости отдачи статики различными CDN на web страницах Дмитрий Наседкин https://github.com/dimitriin/website-static-performance
Система хранения и автоматического тестирования CV нейросетей Fedor Pesyak https://github.com/Femmpitch/otus_project_cv_automatic_test
Веб-краулер Ruslan Ksalov https://github.com/polosatyi/webcrawler
Аналитика упоминаний в новостных и RSS-лентах Николаев Николай https://github.com/ninilich/Runus
Cбор и хранение логов в ELK/Loki (Принята) Михаил Кузнецов
Аналитическое решение для dirty.ru Дмитрий Гудаков

DE-2020-02

Тема Автор Ссылка
Разработка приложения Kafka Input Handler, загрузка данных в первичный слой платформы по работе с большими данными Дмитрий Габидуллин https://github.com/dgabidullin/kih
Реализация элементов Raw-слоя Data Lake на примере загрузки данных Wikipedia Stream с помощью Kafka & NiFi в S3 Object Storage Михаил Сеткин https://gitlab.com/msetkin/otus_thesis_project
Ретроспективные данные гонок класса Формула 1 Алексей Шевелев https://github.com/Shevelsm/f1-retrospective-data
Сервис для прогнозирования курсов валют и анализа валютных сделок Сергей Грибков https://github.com/gribkov-s/Currency_trading_service
Обработка и отслеживание данных о телепросмотре Бурнаева Ольга https://github.com/oliallburn/otus_diploma
Потоковая обработка данных о движении ИСЗ Морозова Мария https://github.com/MorozovaMariya/de_diplom
Анализ сезонных факторов, влияющих на рынок аренды велосипедов Евстафьев Андрей https://github.com/achicha/otus-de-2020-02/tree/master/final_project
Система анализа продаж с использованием машинного обучения Петухов Павел https://github.com/Paul4850/data-engineer/tree/master/ClickSales

DE-2019-11

Тема Автор Ссылка
Real-Time Sentiment Analysis of Twitter Streaming Ayan Kutkozhayev https://github.com/kutkozhayev/data-engineer-project
Автоматизация принятия решения по кредитным заявкам Дмитрий Андреев https://github.com/adm-8/andreev-ds-de-diploma
Airflow Data monitoring DAG Игорь Бричко https://github.com/mi7tix/data_validation_capstone
Разработка системы для анализа данных байкшеринга Алексей Кабаев https://github.com/awk6873/OTUS-DE-Graduation-project
Создание архитектуры по сбору, хранению и отслеживанию данных о погоде из открытого источника http://openweathermap.org Анатолий Клюса https://github.com/tol2000/dataengineerclub
Анализ биржевых фондов Александр Коженков https://github.com/wirtsleg/etf-analyzer
Загрузка и обработка медицинских случаев и их услуг Владимир Крокодилов
Система выполнения моделей машинного обучения на потоке событий Алексей Стариков https://github.com/axreldable/otus_data_engineer_2019_11_starikov/tree/master/final-project
Wikipedia event stream processing Артем Тарасюк
Загрузка и обработка лог файлов Enterptise APP Юрий Шилин