Открытый курс OpenDataScience по машинному обучению

Основные темы

Домашние задания

Анализ данных по доходу населения UCI Adult. Тетрадка, веб-форма для ответов, решение
Визуальный анализ данных о публикациях на Хабрахабре. Тетрадка, веб-форма для ответов, решение
Деревья решений в игрушечной задаче и на данных Adult репозитория UCI. Тетрадка, веб-форма для ответов, решение
Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика, Часть 2: прогноз популярности статьи на Хабрахабре, веб-форма для ответов, решение 1 части, решение 2 части
Логистическая регрессия и случайный лес в задаче кредитного скоринга. Тетрадка, веб-форма для ответов, решение
Работа с признаками. Тетрадка, веб-форма для ответов, решение
Метод главных компонент, t-SNE и кластеризация. Тетрадка, решение, веб-форма для ответов
Часть 1: Реализация алгоритмов онлайн-обучения, тетрадка, решение. Часть 2: Vowpal Wabbit в задаче классификации тегов вопросов на Stackoverflow, тетрадка, решение. веб-форма для ответов
Предсказание числа просмотров вики-страницы. Тетрадка, решение, веб-форма для ответов
Реализация градиентного бустинга. Тетрадка, решение, веб-форма для ответов

Соревнования Kaggle Inclass

Тьюториалы

Участники курса сами могут написать тьюториал, поделиться им с другими и получить за это отличный опыт (и баллы). Подробности тут. За понравившиеся тьюториалы можно проголосовать в канале #mlcourse_open слэка ODS.

Михаил Комаров. Экспериментируем с Azure ML: Классификация, деревья решений
Дмитрий Жеглов. Word2Vec
Владимир Яшин. Метод прыжков для выбора числа кластеров
Екатерина Шаймарданова. Автоматизированное машинное обучение и библиотека TeaPOT
Георгий Емельянов. Convolution Neural Networks. Traffic Signs Recognition
Александр Лазарев. Novelty detection при классификации изображений
Егор Лабинцев. Работа с несбалансированными выборками
Вера Александровская. Рисуем интерактивные карты с Folium
Нонна Шахова. Python & R Collaboration

Рейтинг

В течение курса ведется рейтинг. На него влияют:

домашние задания (от 10 до 20 баллов за каждое)
соревнования Kaggle Inclass (за каждое 40(1−(p−1)/N) баллов, где p – место участника в приватном рейтинге, N – число участников, побивших все бенчмарки в приватном рейтинге)
разовые короткие контесты, объявляемые в slack OpenDataScience в канале #mlcourse_open (от 1 до 8 баллов), тьюториалы – в этом же формате (макс. 40 баллов)

Авторы статей и лекторы

(в скобках – ники в OpenDataScience и на Хабрахабре)

Юрий Кашницкий (@yorko, yorko)

Программист-исследователь Mail.ru Group, старший преподаватель факультета компьютерных наук ВШЭ, научный сотрудник Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа ВШЭ. В прошлом — разработчик Hadoop, бизнес-аналитик и Java-программист РДТЕХ. Домашняя страница. Преподаватель в годовой программе дополнительного образования по анализу данных в ВШЭ, автор Capstone проекта специализации Яндекса и МФТИ "Машинное обучение и анализ данных". У Юрия есть репозиторий с Jupyter-тетрадками по языку Python и основным алгоритмам и структурам данных.

Павел Нестеров (@mephistopheies, mephistopheies)

Data Scientist в стартапе, который нельзя называть. Раньше - программист-исследователь Mail.Ru Group в департаменте рекламы, позже в департаменте поиска. Преподавал в Техносфере@Mail.Ru на базе МГУ ВМК. Еще раньше - программист-исследователь в сфере компьютерного зрения, до нейросетевой эпохи, в Aspose ltd. Домашняя страница. Павел пишет содержательные статьи на Хабре по нейронным сетям.

Екатерина Демидова (@katya, cotique)

Data Scientist в Segmento, г. Санкт-Петербург. Ментор специализации Яндекса и МФТИ "Машинное обучение и анализ данных". У Кати есть репозиторий со списком книг/курсов/статей по Data Science.

Мария Мансурова (@miptgirl, miptgirl)

Аналитик-разработчик в команде Яндекс.Метрики. До этого в Яндексе работала аналитиком ключевых показателей. В прошлом также успела поработать бизнес-аналитиком в компании-интеграторе в сфере телекоммуникаций.

Виталий Радченко (@vradchenko, vradchenko)

Data Science Intern в компании Ciklum. Студент магистерской программы Computer Science with Specialization in Data Science в Украинском Католическом Университете. Организовывает кагл-тренировки и другие активности по Data Science в Киеве и Львове. Был ментором специализации Яндекса и МФТИ "Машинное обучение и анализ данных". Раньше работал в банке, большой ритейл-компании и интернет-рекламе.

Арсений Кравченко (@arsenyinfo, Arseny_Info)

Data Science Team Lead @ gojuno.com. В прошлом - аналитик-разработчик в Яндексе и менеджер по продукту в Wargaming. Домашняя страница.

Сергей Королев (@libfun, libfun)

Исследователь в СколТехе, разработчик в Snap Inc.

Дмитрий Сергеев (@dmitryserg, Skolopendriy)

Data Scientist @ Zeptolab, лектор в Центре Математических Финансов МГУ.

Алексей Натекин (@natekin, natekin)

Основатель сообщества OpenDataScience и DM Labs, Chief Data Officer @ Diginetica. В прошлом – глава отдела аналитики Deloitte.

Name		Name	Last commit message	Last commit date
Latest commit History 234 Commits
data		data
docker_files		docker_files
img		img
jupyter_notebooks		jupyter_notebooks
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
run_docker_jupyter.py		run_docker_jupyter.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Открытый курс OpenDataScience по машинному обучению

Основные темы

Домашние задания

Соревнования Kaggle Inclass

Тьюториалы

Рейтинг

Авторы статей и лекторы

Юрий Кашницкий (@yorko, yorko)

Павел Нестеров (@mephistopheies, mephistopheies)

Екатерина Демидова (@katya, cotique)

Мария Мансурова (@miptgirl, miptgirl)

Виталий Радченко (@vradchenko, vradchenko)

Арсений Кравченко (@arsenyinfo, Arseny_Info)

Сергей Королев (@libfun, libfun)

Дмитрий Сергеев (@dmitryserg, Skolopendriy)

Алексей Натекин (@natekin, natekin)

About

Releases

Packages

Languages

il-giza/mlcourse_open

Folders and files

Latest commit

History

Repository files navigation

Открытый курс OpenDataScience по машинному обучению

Основные темы

Домашние задания

Соревнования Kaggle Inclass

Тьюториалы

Рейтинг

Авторы статей и лекторы

Юрий Кашницкий (@yorko, yorko)

Павел Нестеров (@mephistopheies, mephistopheies)

Екатерина Демидова (@katya, cotique)

Мария Мансурова (@miptgirl, miptgirl)

Виталий Радченко (@vradchenko, vradchenko)

Арсений Кравченко (@arsenyinfo, Arseny_Info)

Сергей Королев (@libfun, libfun)

Дмитрий Сергеев (@dmitryserg, Skolopendriy)

Алексей Натекин (@natekin, natekin)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages