Skip to content

Latest commit

 

History

History

module-1

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

Модуль 1. «Инженер Данных: задачи, инструменты, платформы».

Занятие 1. Инженер Данных. Задачи, навыки, инструменты, потребности на рынке.


Цель занятия

  • Познакомиться
  • Узнать правила работы и общения
  • Понять, кто такой Инженер Данных и какие перед ним стоят задачи

Краткое содержание

  • Data Engineer: потребность и ценность
  • Задачи, навыки, инструменты, классификации данных
  • Создание ценности и вызовы

Результат

Домашнее задание: анализ рынка DE, постановка целей на курс

Занятие 2. Эволюция подходов работы с данными. Базовые принципы и понятия.


Цель занятия

  • Проследить эволюцию подходов работы с данными
  • Получить представление о технологиях и инструментах
  • Понять принципы построения архитектуры аналитического приложения

Краткое содержание

  • История и эволюция подходов работы с данными
  • Технологические основы аналитических решений
  • CAP theorem, Distributed Computing, MPP (Massive Parallel Processing)
  • SQL + Not Only SQL
  • Подходы к обработке данных: Batch & Stream
  • Архитектуры: Lambda, Kappa

Результат

Тест на знание подходов и принципов построения аналитических приложений

Занятие 3. Платформы для обработки данных


Цель занятия

  • Узнать, чем отличаются облака и on-premise
  • Выяснить, какие платформы есть для каждого из вариантов
  • Понять, чем определяется выбор конкретной платформы
  • Провести обзор инструментов для обработки данных: Cloudera, GCP, AWS

Краткое содержание

  • Облака vs On-premises: возможности, преимущества, особенности
  • Экосистема Hadoop и элементы Системы Обработки Данных
  • Обзор инструментов Cloudera, Hortonworks, GCP, AWS

Результат

Занятие 4. Форматы хранения данных и их особенности.


Цель занятия

  • Определить факторы выбора формата хранения данных
  • Понять разницу между Row-based и Column-based форматами
  • Провести обзор наиболее распространенных форматов

Краткое содержание

  • Обзор популярных форматов: CSV, JSON, Avro, Parquet, ORC
  • Анализ применения и производительности форматов
  • Бинарные и человеко-читаемые форматы хранения
  • Schema evolution, Compression, Bloom filters, Indexing

Результат

  • Понимание требований к форматам хранения данных
  • Знание особенностей и сценариев применения различных форматов хранения