Skip to content

Latest commit

 

History

History
357 lines (221 loc) · 9.99 KB

第14期组队学习计划.md

File metadata and controls

357 lines (221 loc) · 9.99 KB

Datawhale 组队学习

第14期 Datawhale 组队学习活动马上就要开始啦!

本次组队学习的内容为:

大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。


编程实践(Pandas 下)

开源内容:https://github.com/datawhalechina/joyful-pandas

注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。

基本信息

  • 贡献人员:耿远昊,谢文睿
  • 学习周期:9天 2-3h/天
  • 学习形式:理论学习 + 练习
  • 人群定位:有 python 编程基础,希望从事数据分析工作的学习者,参与过Pandas教程(上)组队学习者优先。
  • 先修内容:Python编程语言
  • 难度系数:中

任务安排

Task01:缺失数据(2天)

理论部分

  • 理解Nullable类型与NA符号
  • 掌握缺失值的填充与剔除
  • 掌握常见缺失值插值方法

练习部分

  • 两道缺失数据练习题

Task02:文本数据(3天)

理论部分

  • 掌握基本正则表达式的用法
  • 理解string类型的性质
  • 掌握文本类型的5类操作
  • 熟悉常见字符串方法

练习部分

  • 两道文本数据练习题

Task03:分类数据(1天)

理论部分

  • 熟悉分类类型的属性
  • 掌握分类类型的排序和比较操作

练习部分

  • 两道分类数据练习题

Task04:时序数据(2天)

理论部分

  • 掌握时间变量的类型及其创建方法
  • 掌握时序索引及其属性
  • 理解并掌握重采样操作
  • 掌握窗口函数的用法

练习部分

  • 两道时序数据练习题

Task05:综合练习(1天)

  • 三道综合练习题

计算机视觉基础:图像处理(下)

开源内容:https://github.com/datawhalechina/team-learning-cv/tree/master/ImageProcessingFundamentals)

注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。

基本信息

  • 贡献人员:王程伟、张强、李芝翔
  • 学习周期:15天,每天平均花费时间 2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
  • 学习形式:理论学习 + 练习
  • 人群定位:具备一定编程基础,了解 OpenCV,有学习和梳理图像处理算法的需求,参与过图像处理(上)组队学习者优先。
  • 先修内容:计算机视觉基础:图像处理(上)
  • 难度系数:中

任务安排

Task01:Harris特征点检测器-兴趣点检测(3天)

理论部分

  • 掌握Harris特征点检测的原理

练习部分

  • 使用OpenCV集成的Harris特征点检测器实现图像兴趣点检测

Task02:LBP特征描述算子-人脸检测(4天)

理论部分

  • 掌握LBP特征描述算子原理

练习部分

  • 使用OpenCV的LBP检测器完成人脸检测任务

Task03:Harr特征描述算子-人脸检测(4天)

理论部分

  • 掌握Harr特征描述算子原理

练习部分

  • 使用OpenCV的Harr检测器完成人脸检测任务

Task04:HOG特征描述算子-行人检测(4天)

理论部分

  • 掌握HOG特征描述算子的原理

练习部分

  • 使用OpenCV预训练的HOG+SVM检测器完成行人检测任务

参考资料


概率统计

开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/ProbabilityStatistics

注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。

基本信息

  • 贡献人员:张晓东、张雨、杨剑砺
  • 学习周期:9天 2-3h/天
  • 学习形式:理论学习 + 练习
  • 人群定位:了解 python 编程语言 和 概率统计的基本概念,希望通过程序模拟的方式来熟悉概率统计知识的学习者。
  • 先修内容:Python编程语言
  • 难度系数:低

任务安排

Task1:随机事件与随机变量(1天)

理论部分

  • 基本概念:随机事件,样本空间等;
  • 概率基础:古典概型,条件概率,贝叶斯公式;
  • 随机变量及其分布特征

练习部分

  • 做理论知识点的笔记;
  • python实现二项分布,协方差和相关系数以及贝叶斯公式;

Task2:数理统计与描述性分析(2天)

理论部分

  • 统计量与抽样;常用统计量;
  • 数据集中与离散趋势的度量;
  • 分布特征,偏度与峰度;

练习部分

  • 做理论知识点的笔记;
  • python实现数据各维度的描述性分析;

Task3:常见分布与假设检验(3天)

理论部分

  • 离散型分布,连续型分布,python实现及可视化;
  • 假设检验步骤及两类错误解读;
  • 假设检验的python实战;

练习部分

  • 做理论知识点的笔记;
  • python实现常见分布,python实现假设检验;

Task4:方差分析(3天)

理论部分

  • 单因素组间方差分析与双因素方差分析;
  • 方差的相关检验,主效应和交互效应;

练习部分

  • 做理论知识点的笔记;
  • python实现方差分析;

自然语言处理入门

开源内容:https://github.com/datawhalechina/team-learning-nlp/tree/master/IntroductionToNLP

注:此处显示本次组队学习的任务,点击标题的链接可以跳转到对应的学习资料。

基本信息

  • 贡献人员:杨开漠、雷钲仪、但扬杰、姚鑫、刘瑞航、康兵兵、Raymond
  • 学习周期:16天,每天平均花费时间 2小时-5小时不等,根据个人学习接受能力强弱有所浮动
  • 学习形式:视频学习+实践
  • 人群定位:具备一定编程基础,有学习和梳理自然语言处理算法的需求。
  • 先修内容:无
  • 难度系数:中

任务安排

Task 1: Introduction and Word Vectors (3天)

  • 理论部分
    • 介绍NLP研究的对象
    • 如何表示单词的含义
    • Word2Vec方法的基本原理
  • 视频教程

Task 2: Word Vectors and Word Senses (3天)

  • 理论部分
    • 回顾 Word2Vec模型
    • 介绍 count based global matrix factorization 方法
    • 介绍 GloVe 模型
  • 视频教程

Task 3: Subword Models (3天)

  • 理论部分
    • 回顾 word2vec 和 glove,并介绍其所存在问题
    • 介绍 n-gram 思想
    • 介绍 FastText 模型
  • 视频教程

Task 4: Contextual Word Embeddings (3天)

  • 理论部分
    • 回顾 Word2Vec, GloVe, fastText 模型
    • 介绍contextual word representation
    • 介绍 ELMO,GPT与BERT模型
  • 视频教程

Task 5: Homework (3天)

可以从以下作业四选一:

1. 英文词向量的探索

  • 练习任务
  • 完成 CS224n 配套作业

2. 中文词向量的探索

  • 练习任务
  • 特征词转化为 One-hot 矩阵
  • 特征词转化为 tdidf 矩阵
  • 利用 word2vec 进行 词向量训练
  • word2vec 简单应用
  • 利用 one-hot 、TF-idf、word2vec 构建句向量,然后 采用 朴素贝叶斯、条件随机场做分类

3. FastText 探索

  • 练习任务
  • FastText 词向量训练
  • FastText 做分类

4. Bert 探索

  • 练习任务
  • Bert 做分类

致谢

  1. CS224n 课程主页
  2. CS224n 中英视频

具体规则

  • 注册 CSDN 或 Github 账户。
  • 按照任务安排进行学习,完成后写学习笔记Blog。
  • 在每次任务截止之前在群内填写问卷打卡,遇到问题在群内讨论。
  • 未按时打卡的同学视为自动放弃,被抱出学习群。

备注

有关Datawhale组队学习的开源内容如下:


本次组队学习的 PDF 文档可到Datawhale的知识星球下载:

Datawhale


Datawhale