第16期 Datawhale 组队学习活动马上就要开始啦!
本次组队学习的内容为:
大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntroductionExperienceAI
- 贡献人员:王茂霖、薛传雨、陈泽、李云龙、汪健麟、牛宝华
- 学习周期:7天
- 学习形式:阿里云notebook实践
- 人群定位:懂一些python语言,希望对机器学习算法有所了解的学习者。
- 先修内容:Python编程语言
- 难度系数:低
了解逻辑回归、svm、决策树的算法原理,能够在阿里云notebook环境运行并理解代码。
- 了解逻辑回归的基本原理。
- 能够完整运行逻辑回归的实现代码。
- 阿里云notebook:https://developer.aliyun.com/ai/scenario/9ad3416619b1423180f656d1c9ae44f7
- 了解决策树的基本原理。
- 能够完整运行决策树的实现代码。
- 阿里云notebook:https://developer.aliyun.com/ai/scenario/bb2fe211e5e94017840ce42cc31fe621
- 了解SVM的基本原理。
- 能够完整运行SVM的实现代码。
- 阿里云notebook:https://developer.aliyun.com/ai/scenario/b6c1ef3172d84236ae10c3b91798a796
开源内容:https://github.com/datawhalechina/hands-on-data-analysis
- 贡献人员:陈安东,金娟娟,老表,杨佳达,李玲,张文涛,高立业
- 学习周期:10天,每天学习3~5个小时
- 学习形式:使用jupyter完成课程版块的内容,并做笔记或者写博客。
- 人群定位:懂一些python,希望入门数据分析的学习者。
- 先修内容:Python编程语言,编程实践(Pandas)
- 难度系数:低
了解数据分析中基本库的操作(比如:pandas,numpy和matplotlib);熟悉数据分析的操作流程,建立数据分析思维,入门数据建模。
- 了解数据加载以及数据观察
- 掌握pandas基础
- 完成探索性数据分析
主要学习内容是:课程的第一章
- 掌握数据清洗的方法
- 了解特征观察与处理
主要学习内容是:课程的第二章的第一部分(数据清洗及特征处理)
- 了解数据重构的方法
- 使用groupby做数据运算
主要学习内容是:课程的第二章第二和第三部分(数据重构)
- 了解可视化的目的
- 知道各种图形可用于的场景
- 实战数据可视化的基本库
主要学习内容是:课程的第二章第四部分(数据可视化)
- 了解数据建模
- 使用sklearn完成分类模型的建模
- 了解模型评估
- 使用sklearn完成模型评估
主要学习内容是:课程的第三章(数据建模及模型评估)
开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/LeetCodeClassification
- 贡献人员:胡联粤、王嘉鹏、Yaxe、韩绘锦、姚行志
- 学习周期:10天,每天平均花费时间3小时-5小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:理论学习 + 练习
- 人群定位:具有一定编程语言基础;
- 先修内容:Python编程语言、数据结构与算法
- 难度系数:中
- 能够熟练的使用LeetCode刷题,提高自身的coding能力
独立完成以下leetcode题目:
独立完成以下leetcode题目:
独立完成以下leetcode题目:
- 35. 搜索插入位置
- 202. 快乐数
- 205. 同构字符串
- 242. 有效的字母异位词
- 290. 单词规律
- 349. 两个数组的交集
- 350. 两个数组的交集 II
- 410. 分割数组的最大值
- 451. 根据字符出现频率排序
- 540. 有序数组中的单一元素
独立完成以下leetcode题目:
- 1. 两数之和
- 15. 三数之和
- 16. 最接近的三数之和
- 18. 四数之和
- 49. 字母异位词分组
- 149. 直线上最多的点数
- 219. 存在重复元素 II
- 220. 存在重复元素 III
- 447. 回旋镖的数量
- 454. 四数相加 II
- 贡献人员:薛传雨,车弘书
- 学习周期:7天 2-3h/天
- 学习形式:理论学习 + 实战
- 人群定位:有 python 编程、数据挖掘基础,希望从事数据分析工作的学习者,希望体验时间序列比赛的学习者,对金融时间序列感兴趣的学习者。
- 先修内容:Python编程语言,编程实践(Pandas)
- 难度系数:中
熟悉数据分析的流程,了解金融时间序列分析的一般方法。
该组队学习所用到的数据集可在阿里天池下载:
https://tianchi.aliyun.com/competition/entrance/231573/information
理论部分
- 熟悉常用的数据绘图与统计分析方法
- 了解针对时间序列数据的分析方法
- 了解探索性数据分析的思想与流程
实战部分
- 完成数据探索与分析的代码
理论部分
- 了解时间序列问题的基础知识
- 了解时序数据的Pandas操作技巧
- 了解时间序列周期因子建模方法
实战部分
- 完成时间序列规则代码,在Tianchi平台提交baseline
理论部分
- 了解几种经典的时间序列统计模型
- 学习时间序列统计模型的代码
理论部分
- 掌握通过数据分析构建特征的一般方法
- 掌握利用Pandas快速提取特征的方法
- 掌握判断构建特征有效应的方法
- 了解对于金融时间序列的特征工程方法
实战部分
- 完成特征工程代码
理论部分
- 掌握建模预测的基本流程
- 掌握基本的时间序列模型验证方法
- 了解几种机器学习模型的原理与优劣
- 了解基于残差的模型融合方法
实战部分
完成建模预测代码,并在Tianchi平台提交建模预测的结果
理论部分
- 系统回顾学习到的知识点与操作
实战部分
- 自己尝试获得更好的预测结果
有关Datawhale组队学习的开源内容如下:
本次组队学习的 PDF 文档可到Datawhale的知识星球下载: