- Познакомиться
- Узнать правила работы и общения
- Понять, кто такой Инженер Данных и какие перед ним стоят задачи
- Data Engineer: потребность и ценность
- Задачи, навыки, инструменты, классификации данных
- Создание ценности и вызовы
Домашнее задание: анализ рынка DE, постановка целей на курс
- Проследить эволюцию подходов работы с данными
- Получить представление о технологиях и инструментах
- Понять принципы построения архитектуры аналитического приложения
- История и эволюция подходов работы с данными
- Технологические основы аналитических решений
- CAP theorem, Distributed Computing, MPP (Massive Parallel Processing)
- SQL + Not Only SQL
- Подходы к обработке данных: Batch & Stream
- Архитектуры: Lambda, Kappa
Тест на знание подходов и принципов построения аналитических приложений
- Узнать, чем отличаются облака и on-premise
- Выяснить, какие платформы есть для каждого из вариантов
- Понять, чем определяется выбор конкретной платформы
- Провести обзор инструментов для обработки данных: Cloudera, GCP, AWS
- Облака vs On-premises: возможности, преимущества, особенности
- Экосистема Hadoop и элементы Системы Обработки Данных
- Обзор инструментов Cloudera, Hortonworks, GCP, AWS
- Определить факторы выбора формата хранения данных
- Понять разницу между Row-based и Column-based форматами
- Провести обзор наиболее распространенных форматов
- Обзор популярных форматов: CSV, JSON, Avro, Parquet, ORC
- Анализ применения и производительности форматов
- Бинарные и человеко-читаемые форматы хранения
- Schema evolution, Compression, Bloom filters, Indexing
- Понимание требований к форматам хранения данных
- Знание особенностей и сценариев применения различных форматов хранения