Skip to content

myupeshkov/Data_Science_HSE

Repository files navigation

Data Science in HSE (Наука о данных)

Курс "Наука о данных" нацелен на изучение языка программирования Python и получение базовых знаний и навыков для обработки, визуализации и статистического анализа данных.

Исходный репозиторий

Страница курса

Основные библиотеки

  • numpy
  • pandas
  • matplotlib.pyplot
  • plotly
  • seaborn
  • pickle
  • sklearn (scikit-learn)
  • statsmodel
  • scipy
  • math
  • random
  • requests
  • bs4 (Beautiful Soup)

План по семинарам

  1. Основные операции в Python и случайные величины
  • Воспоминания о комбинаторике
  • Списки, циклы, функции
  • Генерация случайных величин
  • Задачи по статистике
  1. Алгоритмические задачи
  • Циклы
  • Функции
  • Рекурсии
  1. Задачи с различными структурами данных
  • Алгоритмические задачи повышенной сложности
  • Simple Moving Average
  • Работа со словарями
  • Работа с текстами
  1. Классы
  • Создание своего класса
  • Применение методов класса на практической задаче
  1. Парсеры и сбор данных
  • Знакомство с HTML
  • Парсинг сайта с книгами своими руками
  • Советы для парсинга
    • временные задержки
    • UserAgent
    • proxies
  • API и парсинг данных Вконтакте
  • API и парсинг данных Google maps
  • Selenium
  1. Работа с табличными данными
  • Операции в numpy
  • Операции в pandas
  • первичный анализ данных
  1. Визуализация данных (по COVID-19)
  • matplotlib
  • plotly
  • seaborn
  • визуализация на карте
  1. Применение Python в статистических задачах (на примере реальных данных)
  • ЗБЧ
  • сходимость по вероятности
  • состоятельность оценок
  • Несмещенность оценок
  • Эффективность оценок
  • ЦПТ
  • Сходимость по распределению
  1. Проверка гипотез
  • Работа с реальными данными (оценками за дз1 и кр1 по данному курсу)
  • Проверка гипотезы о независимости
  1. Оптимизационные задачи и функция максимального правдоподобия
  • scipy.optimize
  • Визуализация линий уровня
  • работа с реальными данными
  • statsmodel