Skip to content

Latest commit

 

History

History
318 lines (189 loc) · 10.7 KB

第16期组队学习计划.md

File metadata and controls

318 lines (189 loc) · 10.7 KB

Datawhale 组队学习

第16期 Datawhale 组队学习活动马上就要开始啦!

本次组队学习的内容为:

大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。


机器学习算法梳理(AI入门体验)

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntroductionExperienceAI

基本信息

  • 贡献人员:王茂霖、薛传雨、陈泽、李云龙、汪健麟、牛宝华
  • 学习周期:7天
  • 学习形式:阿里云notebook实践
  • 人群定位:懂一些python语言,希望对机器学习算法有所了解的学习者。
  • 先修内容:Python编程语言
  • 难度系数:低

学习目标

了解逻辑回归、svm、决策树的算法原理,能够在阿里云notebook环境运行并理解代码。

任务安排

Task01:基于逻辑回归的分类预测(2天)

Task02:基于决策树的分类预测(2天)

Task03:基于支持向量机的分类预测(3天)


动手学数据分析

开源内容:https://github.com/datawhalechina/hands-on-data-analysis

基本信息

  • 贡献人员:陈安东,金娟娟,老表,杨佳达,李玲,张文涛,高立业
  • 学习周期:10天,每天学习3~5个小时
  • 学习形式:使用jupyter完成课程版块的内容,并做笔记或者写博客。
  • 人群定位:懂一些python,希望入门数据分析的学习者。
  • 先修内容:Python编程语言编程实践(Pandas)
  • 难度系数:低

学习目标

了解数据分析中基本库的操作(比如:pandas,numpy和matplotlib);熟悉数据分析的操作流程,建立数据分析思维,入门数据建模。

任务安排

Task01:数据加载及探索性数据分析(2天)

  • 了解数据加载以及数据观察
  • 掌握pandas基础
  • 完成探索性数据分析

主要学习内容是:课程的第一章

Task02:数据清洗及特征处理(2天)

  • 掌握数据清洗的方法
  • 了解特征观察与处理

主要学习内容是:课程的第二章的第一部分(数据清洗及特征处理)

Task03:数据重构(2天)

  • 了解数据重构的方法
  • 使用groupby做数据运算

主要学习内容是:课程的第二章第二和第三部分(数据重构)

Task04:数据可视化(2天)

  • 了解可视化的目的
  • 知道各种图形可用于的场景
  • 实战数据可视化的基本库

主要学习内容是:课程的第二章第四部分(数据可视化)

Task05:数据建模及模型评估(2天)

  • 了解数据建模
  • 使用sklearn完成分类模型的建模
  • 了解模型评估
  • 使用sklearn完成模型评估

主要学习内容是:课程的第三章(数据建模及模型评估)


编程实践(LeetCode 分类练习)

开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/LeetCodeClassification

基本信息

  • 贡献人员:胡联粤、王嘉鹏、Yaxe、韩绘锦、姚行志
  • 学习周期:10天,每天平均花费时间3小时-5小时不等,根据个人学习接受能力强弱有所浮动。
  • 学习形式:理论学习 + 练习
  • 人群定位:具有一定编程语言基础;
  • 先修内容:Python编程语言数据结构与算法
  • 难度系数:中

学习目标

  • 能够熟练的使用LeetCode刷题,提高自身的coding能力

任务安排

Task01:分治(2天)

独立完成以下leetcode题目:

Task02:动态规划(3天)

独立完成以下leetcode题目:

Task03:查找1(2天)

独立完成以下leetcode题目:

Task04:查找2(3天)

独立完成以下leetcode题目:


数据挖掘实践(资金流入流出预测)

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/PurchaseAndRedemptionForecast

基本信息

  • 贡献人员:薛传雨,车弘书
  • 学习周期:7天 2-3h/天
  • 学习形式:理论学习 + 实战
  • 人群定位:有 python 编程、数据挖掘基础,希望从事数据分析工作的学习者,希望体验时间序列比赛的学习者,对金融时间序列感兴趣的学习者。
  • 先修内容:Python编程语言编程实践(Pandas)
  • 难度系数:中

学习目标

熟悉数据分析的流程,了解金融时间序列分析的一般方法。

任务安排

该组队学习所用到的数据集可在阿里天池下载:

https://tianchi.aliyun.com/competition/entrance/231573/information

Task01:数据探索与分析(2天)

理论部分

  • 熟悉常用的数据绘图与统计分析方法
  • 了解针对时间序列数据的分析方法
  • 了解探索性数据分析的思想与流程

实战部分

  • 完成数据探索与分析的代码

Task02:时间序列规则(1天)

理论部分

  • 了解时间序列问题的基础知识
  • 了解时序数据的Pandas操作技巧
  • 了解时间序列周期因子建模方法

实战部分

  • 完成时间序列规则代码,在Tianchi平台提交baseline

Task03:时间序列模型(1天)

理论部分

  • 了解几种经典的时间序列统计模型
  • 学习时间序列统计模型的代码

Task04:特征工程(1天)

理论部分

  • 掌握通过数据分析构建特征的一般方法
  • 掌握利用Pandas快速提取特征的方法
  • 掌握判断构建特征有效应的方法
  • 了解对于金融时间序列的特征工程方法

实战部分

  • 完成特征工程代码

Task05:建模预测(1天)

理论部分

  • 掌握建模预测的基本流程
  • 掌握基本的时间序列模型验证方法
  • 了解几种机器学习模型的原理与优劣
  • 了解基于残差的模型融合方法

实战部分

完成建模预测代码,并在Tianchi平台提交建模预测的结果

Task06:学习总结(1天)

理论部分

  • 系统回顾学习到的知识点与操作

实战部分

  • 自己尝试获得更好的预测结果

备注

有关Datawhale组队学习的开源内容如下:


本次组队学习的 PDF 文档可到Datawhale的知识星球下载:

Datawhale


Datawhale