Общие слова про xgb http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/
Xgb parameters: https://github.com/dmlc/xgboost/blob/master/doc/parameter.md
Xgb tuning: https://github.com/dmlc/xgboost/blob/master/doc/how_to/param_tuning.md
Latest benchmarks: https://sites.google.com/view/lauraepp/new-benchmarks
Репозиторий с понятными питон-имплементациями известных алгоритмов: https://github.com/eriklindernoren/ML-From-Scratch
Интро в простые алгоритмы: https://medium.freecodecamp.org/the-hitchhikers-guide-to-machine-learning-algorithms-in-python-bfad66adb378
SVM для лохов: http://web.mit.edu/6.034/wwwbob/svm-notes-long-08.pdf
ML курс от Джереми: http://forums.fast.ai/t/another-treat-early-access-to-intro-to-machine-learning-videos/6826 Заметки (aka краткое содержание): https://medium.com/@hiromi_suenaga/machine-learning-1-lesson-1-84a1dc2b5236
Основопологающий учебник: https://github.com/janishar/mit-deep-learning-book-pdf cs231n: http://cs231n.stanford.edu/ Продвинутая специализация от вышки: https://www.coursera.org/specializations/aml
Plotly cheatsheet: https://images.plot.ly/plotly-documentation/images/python_cheat_sheet.pdf
Seaborn cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf
Matplotlib cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
GGplot cheatsheet: https://www.rstudio.com/wp-content/uploads/2015/03/ggplot2-cheatsheet.pdf
Несколько хороших примеров по визуализации, в т.ч. анимации: https://github.com/aaronpenne/data_visualization
Altair: https://github.com/altair-viz/altair
Оптимизация по скорости (интро): https://engineering.upside.com/a-beginners-guide-to-optimizing-pandas-code-for-speed-c09ef2c6a4d6
Оптимизация в памяти: https://www.dataquest.io/blog/pandas-big-data/
Качественное интро в питон для новичков: https://medium.freecodecamp.org/learning-python-from-zero-to-hero-120ea540b567
Python debugger: http://fastml.com/how-to-use-the-python-debugger/
Why Python is slow: https://jakevdp.github.io/blog/2014/05/09/why-python-is-slow/
Документация: https://media.readthedocs.org/pdf/dask/latest/dask.pdf
Относительно подробный и понятный официальный туториал: https://github.com/dask/dask-tutorial
Рандомный туториал вместе с намба: https://medium.com/capital-one-developers/dask-numba-for-efficient-in-memory-model-scoring-dfc9b68ba6ce
Официальная документация: https://spark.apache.org/docs/1.6.2/programming-guide.html
PySpark intro: https://blog.sicara.com/get-started-pyspark-jupyter-guide-tutorial-ae2fe84f594f
Есть инфа, что H2o на спарке - самое нормальное, что можно здесь использовать для машинного обучения, но на данный момент никто не проверял
Monitoring Production ML models: https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45742.pdf
Матричный матан: http://parrt.cs.usfca.edu/doc/matrix-calculus/index.html
Теория информации: http://www.cl.cam.ac.uk/teaching/0809/InfoTheory/InfoTheoryLectures.pdf
Thinkstats (интро в статистику, объяснения в виде питон кода): http://greenteapress.com/thinkstats/thinkstats.pdf
Линейная алегбра (книжка, сам не пробовал, говорят что норм): http://www.math.hcmus.edu.vn/~bxthang/Linear%20algebra%20and%20its%20applications.pdf
Линейная алегбра (и остальные курсы, там много полезного на новичковом уровне с отличными объяснениями): https://www.khanacademy.org/math/linear-algebra/
Лучший ютуб канал с видео по математике: https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw
Линейная алгебра (кратко): https://web.stanford.edu/class/cs231a/section/section1.pdf
ML (ESLII): https://web.stanford.edu/~hastie/Papers/ESLII.pdf
Stats 36700 (CMU): http://www.stat.cmu.edu/~siva/700/main.html
Stats 36705 (CMU): http://www.stat.cmu.edu/~larry/=stat705/
http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science.html Может работать как локально, так и распределенно на кластере. Есть интерфейсы для Python, Scala, R.
Markdown Cheatsheet: https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet#code
Сессии датабрикс: https://databricks.com/sparkaisummit/sessions
A/B Tests: https://towardsdatascience.com/data-science-you-need-to-know-a-b-testing-f2f12aff619a