Репозиторий предназначен для сдачи проекта 7-го спринта
Даг запускается каждый день
- Stagging layer
- /user/master/data/geo/events - данные по событиям
- ODS layer
- /user/ilyasmolin/data/geo/events - обогащенные данные по событиям (гео метки, партиции)
- /user/ilyasmolin/data/geo/city_coordinates - данные по гео меткам городов + временные зоны
- CDM layer
- /user/ilyasmolin/data/datamart/recomendation_zone_report - витрина для рекомендаций друзей по заданию, отчет запускется на всех данных
- /user/ilyasmolin/data/datamart/week_zone_report - витрина в разрезе зон по заданию, отчет расчитывает данные только за последний месяц и перезаписывает витрину
- /user/ilyasmolin/data/datamart/user_zone_report - витрина в разрезе пользователей по заданию, отчет запускется на всех данных
- Analytics layer
- /user/ilyasmolin/data/analytics - среда для аналитиков по умолчанию
- Поместите содержимое директории репозитория dags в директорию dags в Airflow
- Запустите hadoop_dag
- Если нужно прогнать hadoop_dag за все предыдущие даты, то измените параметр catchup=False на catchup=True (на выделенной машине Яндекса при catchup=True происходит зависание, поэтому по умолчанию стоит False)