Skip to content

Аналитическое решение для Data-вакансий HH

Notifications You must be signed in to change notification settings

koop1214/hh-dwh

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data-вакансии HeadHunter'а

Глобальная цель всего проекта - создать витрину данных для анализа вакансий data-специальностей HeadHunter'а.

Архитектура Аналитического Решения

Source layer

В качестве источника данных в первую очередь выступает API HeadHunter'а.

Параметры поиска:

  • area – регион = Россия
  • date_from, date_to – даты, которые ограничивают диапазон дат публикации вакансий. По умолчанию ограничиваемся одним вчерашним днем
  • search_field – область поиска = только заголовок
  • text – текст поиска. Ищем по любому из синонимов специальностей, сохраненных в базе, используя язык поисковых запросов

Т.к. зарплаты некоторых специальностей указываются в валюте, отличной от рубля, необходимо знать курс валют на момент публикации вакансии. Для этого используется API Центрального Банка России.

Storage Layer

Для оркестрации процесса используется фреймворк Luigi. Задачи формируют граф зависимостей:

Staging

Данные с HeadHunter грузятся последовательно по всем специальностям постранично и сохраняются в csv-файлы.

Курсы валют Центробанка сохраняются как есть в виде xml-файлов.

DDS

Данные из файлов переносятся в PostgreSQL-базу, которая организована в виде звезды:

Подробное описание полей можно посмотреть здесь. Предполагается, что таблицы измерений не меняются (SCD-0).

Business Layer

Для построения дашборда используется Google Data Studio.

About

Аналитическое решение для Data-вакансий HH

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published