Folders and files Name Name Last commit message
Last commit date
parent directory
View all files
Модуль 2. Фреймворк для распределенных вычислений Apache Spark
Занятие 5. Введение в Scala.
Изучить основы языка Scala
Научиться собирать простейшее Scala-приложение
Синтаксис и простые выражения в Scala
Управляющие конструкции: if, for, pattern matching
ООП: Class, Object, Trait
Implicits
Инструменты для разработки: sbt, IntelliJ IDEA
Приложение на языке Scala
Занятие 6. Apache Spark - 1 часть.
Spark - что это и зачем он нужен
API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
Процесс вычисления в Spark - task, stage, оптимизатор запросов
Занятие 7. Apache Spark - 2 часть.
Spark - что это и зачем он нужен
API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
Процесс вычисления в Spark - task, stage, оптимизатор запросов
Занятие 8. Spark Streaming.
Micro-batch обработка данных
Классический Spark Streaming
Structured Streaming
Continuous processing
Занятие 8. Jupyter Notebook. Интерактивная аналитика и визуализация.
Инструменты интерактивной аналитики
Google Cloud Datalab
Jupyter - интеграция с Apache Spark
Занятие 9. Spark Streaming.
Micro-batch обработка данных
Классический Spark Streaming
Structured Streaming
Continuous processing
Занятие 10. Очереди сообщений, Kafka, Confluent platform.
Kafka, RabbitMQ
Потоковая обработка (виды обработки, описание Producer–consumer problem, пример архитектурного решения через Kafka, RabbitMQ, NATS)
Google Dataflow paper (Event time vs processing time и так далее).
Паттерны stream processing Joins, enricher, router. Event-sourcing.
You can’t perform that action at this time.